Quel est le nouveau modèle de synthèse vocale lancé par Mistral et pourquoi est-ce important ?

Mistral a lancé le modèle open-source de synthèse vocale appelé Voxtral TTS, qui prend en charge neuf langues et peut fonctionner sur des appareils portables comme des montres connectées et des smartphones. Cette innovation, annoncée jeudi, pourrait transformer l'interaction des utilisateurs avec la technologie vocale et démocratiser son utilisation dans des dispositifs quotidiens. (Brief IA — briefia.fr).

Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

Mistral défie ElevenLabs et OpenAI avec son modèle vocal open-source

Brief IA

Tom Levy·26 mars 2026·3 min·0 vues

⚡

En bref

1Mistral a dévoilé Voxtral TTS, un modèle open-source de synthèse vocale, visant à révolutionner les assistants vocaux et le support client.

2Voxtral TTS supporte neuf langues, incluant l'anglais, le français et l'arabe, et fonctionne sur divers appareils comme les montres connectées.

3Le modèle offre une personnalisation vocale avancée avec moins de cinq secondes d'échantillon, capturant intonations et accents.

💡Pourquoi c'est important — Mistral se positionne comme un acteur clé dans la technologie vocale, offrant une alternative flexible et économique aux solutions propriétaires.

Mistral s'attaque au marché de la synthèse vocale avec un modèle open-source

La société française spécialisée en intelligence artificielle, Mistral, a récemment annoncé le lancement d'un modèle de synthèse vocale open-source. Ce modèle, dévoilé jeudi, est destiné à être utilisé dans divers contextes, allant des assistants vocaux aux applications d'entreprise telles que le support client. En introduisant ce modèle, Mistral entre en concurrence directe avec des géants du secteur comme ElevenLabs, Deepgram et OpenAI.

Le modèle, baptisé Voxtral TTS, est capable de traiter neuf langues différentes. Parmi celles-ci, on retrouve l'anglais, le français, l'allemand, l'espagnol, le néerlandais, le portugais, l'italien, l'hindi et l'arabe.

« Nos clients souhaitaient un modèle de synthèse vocale. Nous avons donc développé un modèle compact qui peut être intégré dans des appareils tels que les montres connectées, les smartphones, et les ordinateurs portables. Son coût est bien inférieur à celui des solutions existantes, tout en offrant des performances de pointe », a expliqué Pierre Stock, vice-président des opérations scientifiques chez Mistral AI, lors d'une interview avec TechCrunch.

Des fonctionnalités avancées pour une personnalisation vocale

Mistral a souligné que ce nouveau modèle permet de créer une voix personnalisée à partir d'un échantillon de moins de cinq secondes. Il est également capable de reproduire des caractéristiques vocales telles que des accents subtils, des inflexions et des intonations, ainsi que des irrégularités dans le flux de la parole. Basé sur le modèle Ministral 3B, Voxtral TTS peut passer d'une langue à l'autre sans altérer les caractéristiques vocales, ce qui est particulièrement utile pour des applications comme le doublage ou la traduction en temps réel. Stock a insisté sur le fait que l'objectif était de rendre le modèle aussi humain que possible, évitant ainsi un rendu robotique.

Conçu pour fonctionner en temps réel, le modèle affiche un temps de première audio (TTFA) de 90 millisecondes pour un échantillon de 10 secondes contenant 500 caractères. De plus, avec un facteur de temps réel (RTF) de 6x, il peut générer un extrait de 10 secondes en environ 1,6 seconde.

Vers une suite complète de produits vocaux

Plus tôt cette année, Mistral avait déjà lancé deux modèles de transcription : l'un pour traiter de grandes quantités de données et l'autre pour des applications en temps réel nécessitant une faible latence. Avec ce nouveau modèle de synthèse vocale, l'entreprise semble vouloir offrir une gamme complète de produits vocaux aux entreprises.

« Nous envisageons de développer une plateforme intégrée capable de gérer des flux d'entrée multimodaux, incluant l'audio, le texte et l'image, tout en produisant des sorties. L'avantage principal est que vous obtenez beaucoup plus d'informations avec un système agentique de bout en bout qui supporte l'audio en entrée ou en sortie », a déclaré Stock.

Mistral mise sur l'aspect open-source et la possibilité de personnalisation de son modèle pour séduire les entreprises, leur permettant d'adapter les modèles vocaux à leurs besoins spécifiques, ce qui pourrait les inciter à choisir Mistral plutôt que ses concurrents.

Mistral défie ElevenLabs et OpenAI avec son modèle vocal open-source

Tu codes avec l’IA ?

Mistral s'attaque au marché de la synthèse vocale avec un modèle open-source

Des fonctionnalités avancées pour une personnalisation vocale

Vers une suite complète de produits vocaux

MMM open-source et IA générative : révolution marketing en marche

Lovable révolutionne le vibe coding mobile sur iOS et Android

OpenAI révolutionne la mobilité : Codex intégré à ChatGPT mobile

Claude Code adapte Command & Conquer pour iOS en 40 minutes

Un enfant de 11 ans crée un jeu vidéo avec l'IA Copilot

Mistral AI : le rival européen d'OpenAI en pleine expansion