Qu'est-ce que Voxtral et pourquoi est-ce important ?

Mistral, une startup française d'IA, a lancé Voxtral, un modèle TTS capable de cloner des voix en seulement trois secondes d'audio, supportant neuf langues. Avec quatre milliards de paramètres, Voxtral offre une parole réaliste et expressive, et pourrait transformer la synthèse vocale pour les entreprises. Ce modèle est disponible via une API au tarif de 0,016 $ par 1 000 caractères. (Brief IA — briefia.fr).

Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

Mistral lance Voxtral : TTS avancé en neuf langues

Brief IA

Tom Levy·26 mars 2026·1 min·3 vues

⚡

En bref

1Mistral lance Voxtral TTS, un modèle de synthèse vocale prenant en charge neuf langues avec quatre milliards de paramètres.

2Voxtral peut cloner des voix à partir de trois secondes d'audio, offrant une parole réaliste et expressive.

3Disponible via API à 0,016 $ par 1 000 caractères, Voxtral surpasse ElevenLabs Flash v2.5 en naturalité.

💡Pourquoi c'est important — Voxtral démocratise l'accès à une technologie TTS avancée, impactant potentiellement divers secteurs comme l'éducation et le divertissement.

Mistral révolutionne la synthèse vocale avec Voxtral

La startup française Mistral, spécialisée dans l'intelligence artificielle, a récemment introduit Voxtral TTS, son premier modèle de synthèse vocale. Ce modèle innovant supporte neuf langues, dont l'allemand, l'anglais, le français et l'espagnol, et se distingue par sa compacité, intégrant quatre milliards de paramètres.

Voxtral TTS se démarque par sa capacité à produire une parole réaliste et émotionnellement expressive. Une de ses caractéristiques les plus impressionnantes est sa faculté à s'adapter à de nouvelles voix en utilisant seulement trois secondes d'audio de référence.

Performances et accessibilité

En termes de performance, Voxtral TTS affiche une latence de 70 millisecondes pour une configuration typique, avec un échantillon de parole de 10 secondes et 500 caractères. Lors de tests de comparaison humaine, Voxtral a surpassé ElevenLabs Flash v2.5 en termes de naturalité, bien que ElevenLabs ait depuis introduit une version améliorée, la v3.

Voxtral TTS est accessible via une API, avec un tarif de 0,016 $ par 1 000 caractères. Les utilisateurs peuvent également tester le modèle dans Mistral Studio, et il est disponible en version open-weight sur la plateforme Hugging Face.