Quel est le premier modèle lancé par Thinking Machines Lab et en quoi se distingue-t-il ?

Thinking Machines Lab, fondé par Mira Murati, a lancé son premier modèle d'IA capable de traiter l'audio, la vidéo et le texte en 200 millisecondes, visant à révolutionner l'IA vocale. Ce modèle surpasse les benchmarks d'OpenAI et de Google en qualité d'interaction, remplaçant le traditionnel échange rigide par une conversation fluide et en temps réel. (Brief IA — briefia.fr).

Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

Thinking Machines Lab défie OpenAI avec une IA interactive

⚡

En bref

1Thinking Machines Lab, fondé par l'ex-CTO d'OpenAI Mira Murati, lance un modèle d'IA traitant audio, vidéo et texte en 200 ms.

2Le modèle surpasse les benchmarks d'OpenAI et Google, intégrant interaction rapide et raisonnement en arrière-plan.

3La startup, valorisée à 12 milliards de dollars, fait face à des défis internes avec des départs clés et un tour de financement incertain.

💡Pourquoi c'est important — Cette innovation pourrait redéfinir les standards d'interaction des IA vocales, impactant la concurrence avec OpenAI et Google.

Thinking Machines Lab révolutionne l'interaction IA avec un modèle innovant

Thinking Machines Lab, une startup fondée par Mira Murati, ancienne directrice technique d'OpenAI, a récemment dévoilé son premier modèle d'intelligence artificielle. Ce modèle se distingue par sa capacité à traiter simultanément l'audio, la vidéo et le texte en segments de 200 millisecondes, permettant ainsi une conversation fluide et en temps réel, contrairement aux échanges traditionnels plus rigides.

Le modèle de Thinking Machines Lab surpasse les standards de qualité d'interaction et de latence établis par OpenAI avec son GPT-Realtime-2 et par Google avec son Gemini Live. Il combine un modèle d'interaction rapide avec un modèle de raisonnement en arrière-plan, offrant une performance améliorée.

Cependant, malgré ces avancées techniques prometteuses, la startup doit faire face à des pressions internes, notamment avec le départ récent de plusieurs employés clés.

Un modèle d'IA qui redéfinit l'interaction vocale

Thinking Machines Lab a publié un aperçu de recherche de son modèle d'IA, conçu pour révolutionner l'interaction vocale en s'éloignant du schéma traditionnel de questions-réponses. Ce modèle traite l'audio, la vidéo et le texte en parallèle par segments de 200 millisecondes, et la startup affirme qu'il surpasse OpenAI et Google en termes de qualité d'interaction.

La startup a introduit le concept de Interaction Models, des modèles d'IA qui gèrent l'interaction de manière native plutôt que par des structures externes. L'idée centrale est que l'interactivité doit évoluer parallèlement à l'intelligence, et non être considérée comme un simple ajout.

Les limites des systèmes vocaux actuels

Les systèmes en temps réel actuels, tels que GPT-Realtime ou Gemini Live, traitent l'audio en continu, mais le modèle de langage ne le voit jamais directement. Selon Thinking Machines, un "harnais" de composants séparés se trouve devant le modèle, incluant des éléments comme un détecteur d'activité vocale qui décide quand le tour d'un intervenant est terminé. Ce n'est qu'ensuite que l'énoncé final est remis au modèle, qui génère une réponse complète. Pendant qu'il parle, sa perception est figée, ne recevant aucune nouvelle information jusqu'à ce qu'il termine ou soit interrompu.

Ces composants sont bien moins intelligents que le modèle lui-même. Cela signifie que des comportements qui définissent une véritable conversation ne fonctionnent tout simplement pas, selon Thinking Machines : intervenir de manière proactive ("interrompez-moi si je dis quelque chose de faux"), réagir à des indices visuels ("dites-moi quand j'ai écrit un bug"), ou parler simultanément, ce qui serait utile pour quelque chose comme la traduction en direct. En citant la "Bitter Lesson" de Sutton, le laboratoire soutient que ces systèmes artisanaux seront finalement dépassés par l'avancée des capacités générales.

Les modèles d'interaction de Thinking Machines

Les Interaction Models remplacent le harnais par un modèle qui traite directement le flux audio et vidéo plutôt que de recevoir des énoncés pré-segmentés. L'approche ressemble à des modèles en duplex intégral comme Moshi ou Nemotron VoiceChat, qui fonctionnent de manière similaire mais sont des modèles à plus petite échelle axés sur la latence plutôt que sur les benchmarks d'intelligence.

Une horloge de 200 millisecondes remplace les frontières de tour artificielles

La véritable rupture avec les architectures existantes est ce que l'équipe appelle des micro-tours alignés dans le temps. Le modèle traite continuellement 200 millisecondes d'entrée et génère 200 millisecondes de sortie, les deux flux de tokens fonctionnant de manière entrelacée. L'entrée et la sortie ne se produisent plus de manière séquentielle. Au lieu de cela, ils partagent le même cycle d'horloge.

Cela élimine les frontières de tour artificielles, permettant au modèle de décider par lui-même s'il doit rester silencieux, intervenir ou parler en même temps que l'utilisateur. L'audio et les images ne sont pas prétraités par de grands encodeurs autonomes, mais sont directement alimentés dans le transformateur avec un prétraitement minimal. Cela réduit la latence, bien que cela puisse également limiter la capacité du modèle à saisir des détails visuels fins comme du texte.

Cependant, le modèle en temps réel fait face à un autre défi. S'il doit répondre toutes les 200 millisecondes, il ne peut pas passer des minutes à raisonner ou à chercher sur le web. Thinking Machines résout ce problème en associant le modèle d'interaction à un second modèle de fond asynchrone qui gère des tâches plus longues comme le raisonnement, l'utilisation d'outils et la recherche.

Les deux modèles partagent le même contexte de conversation. Le modèle d'interaction délègue des tâches tout en maintenant la conversation, puis intègre les résultats du modèle de fond dans la conversation au fur et à mesure de leur arrivée, à un moment approprié par rapport à ce que l'utilisateur fait actuellement, plutôt que comme un changement de contexte abrupt. L'objectif est de combiner la rapidité de réponse d'un modèle rapide avec la profondeur d'un modèle de raisonnement.

Les benchmarks suggèrent que l'approche fonctionne

Le modèle est appelé TML-Interaction-Small, un modèle de mélange d'experts de 276 milliards de paramètres avec 12 milliards de paramètres actifs. Sur le FD-bench v1.5, qui mesure la qualité d'interaction dans des scénarios tels que les interruptions d'utilisateur, le backchanneling et le discours de fond, il surpasse significativement à la fois le GPT-Realtime-2 d'OpenAI et le Gemini-3.1-flash-live de Google. La latence de réponse est de 0,40 secondes, contre 1,18 secondes pour GPT-Realtime-2 (minimum) et 0,57 secondes pour Gemini.

Sur l'Audio MultiChallenge, qui suit l'intelligence et le suivi des instructions, le modèle obtient un score de 43,4 %, au-dessus des variantes rapides de ses concurrents mais en dessous de GPT-Realtime-2 en mode de pensée "xhigh", qui atteint 48,5 %. Sur les propres benchmarks du laboratoire pour la conscience temporelle (TimeSpeak, CueSpeak) et la proactivité visuelle (RepCount-A, ProactiveVideoQA, Charades), Thinking Machines rapporte qu'aucun modèle existant ne peut effectuer de manière significative l'une de ces tâches. Les concurrents testés restent soit silencieux, soit donnent des réponses incorrectes.

Une startup de 2 milliards de dollars avec quelque chose à prouver

Thinking Machines Lab a été fondé en février 2025 par Mira Murati et d'autres anciens chercheurs d'OpenAI. En juillet 2025, l'entreprise a clôturé un tour de financement de 2 milliards de dollars à une valorisation de 12 milliards de dollars, le tout sans produit. Un tour de financement supplémentaire, rapporté en préparation autour de 50 milliards de dollars, ne s'est pas concrétisé d'ici la fin de 2025, et plusieurs employés clés ont depuis quitté l'entreprise. Le modèle d'interaction est le premier modèle d'IA interne soutenant la revendication de Murati qu'elle peut construire un véritable concurrent aux côtés d'OpenAI, Anthropic et Google DeepMind.

Avant cela, l'entreprise avait lancé Tinker, un outil conçu pour permettre aux développeurs de peaufiner efficacement des modèles ouverts en utilisant des LoRAs sans avoir à gérer l'entraînement distribué.

Thinking Machines Lab défie OpenAI avec une IA interactive

Tu veux les meilleurs outils IA avant les autres ?

Thinking Machines Lab révolutionne l'interaction IA avec un modèle innovant

Un modèle d'IA qui redéfinit l'interaction vocale

Les limites des systèmes vocaux actuels

Les modèles d'interaction de Thinking Machines

Une horloge de 200 millisecondes remplace les frontières de tour artificielles

Les benchmarks suggèrent que l'approche fonctionne

Une startup de 2 milliards de dollars avec quelque chose à prouver

OpenAI révolutionne l'IA vocale avec une latence ultra-faible

Voxtral TTS de Mistral AI : une révolution vocale multilingue en 70 ms

Marc Andreessen et son chatbot IA : Provocation ou imprudence ?

Microsoft défie OpenAI avec sept nouveaux modèles d'IA innovants

AMI LABS et Yann LeCun : 890 millions pour révolutionner l'IA

Hume AI libère TADA : un modèle de discours ultra-rapide sans erreurs