Brief IA : Mistral défie ElevenLabs et OpenAI avec son modèle vocal open-source

Mistral défie ElevenLabs et OpenAI avec son modèle vocal open-source

Brief IA
Tom Levy·3 min·0 vues

Mistral a lancé le modèle open-source de synthèse vocale appelé Voxtral TTS, qui prend en charge neuf langues et peut fonctionner sur des appareils portables comme des montres connectées et des smartphones. Cette innovation, annoncée jeudi, pourrait transformer l'interaction des utilisateurs avec la technologie vocale et démocratiser son utilisation dans des dispositifs quotidiens.

En bref
1Mistral a dévoilé Voxtral TTS, un modèle open-source de synthèse vocale, visant à révolutionner les assistants vocaux et le support client.
2Voxtral TTS supporte neuf langues, incluant l'anglais, le français et l'arabe, et fonctionne sur divers appareils comme les montres connectées.
3Le modèle offre une personnalisation vocale avancée avec moins de cinq secondes d'échantillon, capturant intonations et accents.
💡Pourquoi c'est importantMistral se positionne comme un acteur clé dans la technologie vocale, offrant une alternative flexible et économique aux solutions propriétaires.
Le brief IA que lisent les pros

Tu codes avec l’IA ?

Outils, agents et nouveautés dev IA décryptés, chaque soir en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Mistral s'attaque au marché de la synthèse vocale avec un modèle open-source

La société française spécialisée en intelligence artificielle, Mistral, a récemment annoncé le lancement d'un modèle de synthèse vocale open-source. Ce modèle, dévoilé jeudi, est destiné à être utilisé dans divers contextes, allant des assistants vocaux aux applications d'entreprise telles que le support client. En introduisant ce modèle, Mistral entre en concurrence directe avec des géants du secteur comme ElevenLabs, Deepgram et OpenAI.

Le modèle, baptisé Voxtral TTS, est capable de traiter neuf langues différentes. Parmi celles-ci, on retrouve l'anglais, le français, l'allemand, l'espagnol, le néerlandais, le portugais, l'italien, l'hindi et l'arabe.

« Nos clients souhaitaient un modèle de synthèse vocale. Nous avons donc développé un modèle compact qui peut être intégré dans des appareils tels que les montres connectées, les smartphones, et les ordinateurs portables. Son coût est bien inférieur à celui des solutions existantes, tout en offrant des performances de pointe », a expliqué Pierre Stock, vice-président des opérations scientifiques chez Mistral AI, lors d'une interview avec TechCrunch.

Des fonctionnalités avancées pour une personnalisation vocale

Mistral a souligné que ce nouveau modèle permet de créer une voix personnalisée à partir d'un échantillon de moins de cinq secondes. Il est également capable de reproduire des caractéristiques vocales telles que des accents subtils, des inflexions et des intonations, ainsi que des irrégularités dans le flux de la parole. Basé sur le modèle Ministral 3B, Voxtral TTS peut passer d'une langue à l'autre sans altérer les caractéristiques vocales, ce qui est particulièrement utile pour des applications comme le doublage ou la traduction en temps réel. Stock a insisté sur le fait que l'objectif était de rendre le modèle aussi humain que possible, évitant ainsi un rendu robotique.

Conçu pour fonctionner en temps réel, le modèle affiche un temps de première audio (TTFA) de 90 millisecondes pour un échantillon de 10 secondes contenant 500 caractères. De plus, avec un facteur de temps réel (RTF) de 6x, il peut générer un extrait de 10 secondes en environ 1,6 seconde.

Vers une suite complète de produits vocaux

Plus tôt cette année, Mistral avait déjà lancé deux modèles de transcription : l'un pour traiter de grandes quantités de données et l'autre pour des applications en temps réel nécessitant une faible latence. Avec ce nouveau modèle de synthèse vocale, l'entreprise semble vouloir offrir une gamme complète de produits vocaux aux entreprises.

« Nous envisageons de développer une plateforme intégrée capable de gérer des flux d'entrée multimodaux, incluant l'audio, le texte et l'image, tout en produisant des sorties. L'avantage principal est que vous obtenez beaucoup plus d'informations avec un système agentique de bout en bout qui supporte l'audio en entrée ou en sortie », a déclaré Stock.

Mistral mise sur l'aspect open-source et la possibilité de personnalisation de son modèle pour séduire les entreprises, leur permettant d'adapter les modèles vocaux à leurs besoins spécifiques, ce qui pourrait les inciter à choisir Mistral plutôt que ses concurrents.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires