Brief IA

Hume AI libère TADA : un modèle de discours ultra-rapide sans erreurs

💻 Code & Dev·Tom Levy·

Hume AI libère TADA : un modèle de discours ultra-rapide sans erreurs

Hume AI libère TADA : un modèle de discours ultra-rapide sans erreurs
Key Takeaways
1Hume AI a ouvert le code de TADA, un modèle d'IA de discours, sur GitHub et Hugging Face.
2TADA génère un signal audio par token de texte, le rendant cinq fois plus rapide que ses concurrents.
3Lors de tests, TADA a montré zéro hallucination de transcription sur plus de 1 000 échantillons.
💡Why it mattersL'ouverture de TADA pourrait transformer la génération de discours en rendant la technologie plus accessible et fiable.
Le brief IA que lisent les pros

Le brief IA que les pros lisent chaque soir

Les 7 actus IA du jour, décryptées en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
Full Analysis

Hume AI ouvre TADA au public

Hume AI a récemment annoncé la mise en open-source de TADA, un modèle d'intelligence artificielle conçu pour la génération de discours. Ce système se distingue par sa capacité à traiter le texte et l'audio de manière synchronisée. Contrairement aux systèmes précédents qui génèrent significativement plus de cadres audio par token de texte, TADA associe exactement un signal audio à chaque token de texte. Cette approche permet à TADA de surpasser ses concurrents en termes de vitesse, étant plus de cinq fois plus rapide.

Lors de tests impliquant plus de 1 000 échantillons, TADA a démontré une performance impressionnante en ne produisant aucune hallucination de transcription, c'est-à-dire aucun mot inventé ou omis par rapport au texte source. En termes de naturalité, le système a obtenu une note de 3,78 sur 5 lors d'évaluations humaines.

Compatibilité et accessibilité

Hume AI affirme que TADA est suffisamment compact pour être utilisé sur des smartphones, bien que des textes plus longs puissent parfois entraîner un léger décalage dans la voix. Le modèle est disponible en deux tailles : 1 milliard et 3 milliards de paramètres, toutes deux basées sur la technologie Llama. La version plus petite prend en charge uniquement l'anglais, tandis que la version plus grande couvre sept langues supplémentaires.

Pour ceux intéressés par les détails techniques ou souhaitant contribuer, tout le code et les modèles sont accessibles sur GitHub et Hugging Face sous la licence MIT.

Brief IA — L'actualité IA en français

L'essentiel de l'actualité de l'intelligence artificielle, décrypté et expliqué chaque jour.