Le premier modèle TTS open-weight de Mistral, Voxtral
La startup française d'IA Mistral a lancé Voxtral TTS, son premier modèle de synthèse vocale (TTS). Ce modèle prend en charge neuf langues—y compris l'allemand, l'anglais, le français et l'espagnol—et est relativement compact avec quatre milliards de paramètres. Mistral affirme qu'il produit une parole réaliste et émotionnellement expressive, et peut s'adapter à de nouvelles voix à partir de seulement trois secondes d'audio de référence.
La latence est de 70 millisecondes pour une configuration typique avec un échantillon de parole de 10 secondes et 500 caractères.
Dans des tests de comparaison humaine, Voxtral TTS a obtenu de meilleurs scores en naturalité que ElevenLabs Flash v2.5 à un temps de réponse similaire. Cela dit, ElevenLabs a depuis lancé un modèle plus récent avec la version v3.
Voxtral TTS est disponible via une API au tarif de 0,016 $ par 1 000 caractères, peut être testé dans Mistral Studio, et est également proposé en version open-weight sur Hugging Face.
📧
Cet article vous a plu ?
Recevez les 7 meilleures actus IA chaque soir à 19h — résumées en 5 min.
