Brief IA

Mistral releases a new open-source model for speech generation

💻 Code & Devvia TechCrunch IA·Ivan Mehta·

Mistral releases a new open-source model for speech generation

Mistral releases a new open-source model for speech generation
En bref
1Mistral a développé un modèle de génération de la parole qui peut fonctionner sur des montres connectées ou des smartphones.
2Ce modèle open-source représente une avancée significative dans la technologie de synthèse vocale.
3L'accessibilité de ce modèle sur des appareils portables pourrait transformer la manière dont les utilisateurs interagissent avec la technologie vocale.
💡Pourquoi c'est importantcette innovation pourrait démocratiser l'utilisation de la synthèse vocale dans des dispositifs quotidiens.
📄
Article traduit en français

Mistral lance un nouveau modèle open-source pour la génération de la parole

La société française d'IA Mistral a lancé un nouveau modèle open-source de synthèse vocale jeudi, qui peut être utilisé par des assistants vocaux ou dans des cas d'utilisation en entreprise tels que le support client. Ce modèle, qui permet aux entreprises de créer des agents vocaux pour les ventes et l'engagement client, place Mistral en concurrence directe avec des entreprises comme ElevenLabs, Deepgram et OpenAI.

Le nouveau modèle, appelé Voxtral TTS, prend en charge neuf langues, dont l'anglais, le français, l'allemand, l'espagnol, le néerlandais, le portugais, l'italien, l'hindi et l'arabe.

« Nos clients demandaient un modèle de parole. Nous avons donc construit un modèle de parole de petite taille qui peut tenir sur une montre connectée, un smartphone, un ordinateur portable ou d'autres appareils en périphérie. Son coût est une fraction de tout ce qui existe sur le marché, mais il offre des performances de pointe », a déclaré Pierre Stock, vice-président des opérations scientifiques chez Mistral AI, lors d'un entretien téléphonique avec TechCrunch.

Mistral a indiqué que le nouveau modèle pouvait adapter une voix personnalisée avec un échantillon de moins de cinq secondes, et capturer également des caractéristiques telles que des accents subtils, des inflexions, des intonations et des irrégularités dans le flux de la parole. Le modèle, basé sur Ministral 3B, peut passer facilement d'une langue à l'autre sans perdre les caractéristiques de la voix, ce qui est utile pour des cas d'utilisation comme le doublage ou la traduction en temps réel. Stock a précisé que l'entreprise souhaitait que le modèle sonne humain et non robotique.

Le modèle a été conçu pour des performances en temps réel, selon l'entreprise. Il a un temps de première audio (TTFA) — une mesure du moment où le modèle commence à « parler » après avoir reçu une entrée — de 90 ms pour un échantillon de 10 secondes de 500 caractères. Le modèle a également un facteur de temps réel (RTF) de 6x, ce qui signifie qu'il peut rendre un extrait de 10 secondes en environ 1,6 seconde.

Plus tôt cette année, Mistral a lancé une paire de modèles de transcription, l'un pour le traitement de grandes quantités et l'autre pour des cas d'utilisation en temps réel avec faible latence. Avec ce nouveau modèle de parole, l'entreprise vise probablement à fournir une suite complète de produits vocaux aux entreprises.

« Nous prévoyons d'avoir une plateforme de bout en bout qui peut gérer des flux d'entrée multimodaux, y compris audio, texte et image, et également produire des sorties. Le principal avantage est que vous obtenez beaucoup plus d'informations avec un système agentique de bout en bout qui prend en charge l'audio comme entrée ou sortie », a déclaré Stock.

La position de Mistral est que son aspect open-source et de personnalisation aidera les entreprises à adopter ses modèles vocaux plutôt que ceux de ses concurrents, car elles peuvent les ajuster selon leurs besoins.

TwitterLinkedIn

Brief IA — Veille IA quotidienne

Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.