Tu veux les meilleurs outils IA avant les autres ?
On teste et on décrypte les nouveaux outils IA chaque soir, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Thinking Machines Lab révolutionne l'interaction IA avec un modèle innovant
Thinking Machines Lab, une startup fondée par Mira Murati, ancienne directrice technique d'OpenAI, a récemment dévoilé son premier modèle d'intelligence artificielle. Ce modèle se distingue par sa capacité à traiter simultanément l'audio, la vidéo et le texte en segments de 200 millisecondes, permettant ainsi une conversation fluide et en temps réel, contrairement aux échanges traditionnels plus rigides.
Le modèle de Thinking Machines Lab surpasse les standards de qualité d'interaction et de latence établis par OpenAI avec son GPT-Realtime-2 et par Google avec son Gemini Live. Il combine un modèle d'interaction rapide avec un modèle de raisonnement en arrière-plan, offrant une performance améliorée.
Cependant, malgré ces avancées techniques prometteuses, la startup doit faire face à des pressions internes, notamment avec le départ récent de plusieurs employés clés.
Un modèle d'IA qui redéfinit l'interaction vocale
Thinking Machines Lab a publié un aperçu de recherche de son modèle d'IA, conçu pour révolutionner l'interaction vocale en s'éloignant du schéma traditionnel de questions-réponses. Ce modèle traite l'audio, la vidéo et le texte en parallèle par segments de 200 millisecondes, et la startup affirme qu'il surpasse OpenAI et Google en termes de qualité d'interaction.
La startup a introduit le concept de Interaction Models, des modèles d'IA qui gèrent l'interaction de manière native plutôt que par des structures externes. L'idée centrale est que l'interactivité doit évoluer parallèlement à l'intelligence, et non être considérée comme un simple ajout.
Les limites des systèmes vocaux actuels
Les systèmes en temps réel actuels, tels que GPT-Realtime ou Gemini Live, traitent l'audio en continu, mais le modèle de langage ne le voit jamais directement. Selon Thinking Machines, un "harnais" de composants séparés se trouve devant le modèle, incluant des éléments comme un détecteur d'activité vocale qui décide quand le tour d'un intervenant est terminé. Ce n'est qu'ensuite que l'énoncé final est remis au modèle, qui génère une réponse complète. Pendant qu'il parle, sa perception est figée, ne recevant aucune nouvelle information jusqu'à ce qu'il termine ou soit interrompu.
Ces composants sont bien moins intelligents que le modèle lui-même. Cela signifie que des comportements qui définissent une véritable conversation ne fonctionnent tout simplement pas, selon Thinking Machines : intervenir de manière proactive ("interrompez-moi si je dis quelque chose de faux"), réagir à des indices visuels ("dites-moi quand j'ai écrit un bug"), ou parler simultanément, ce qui serait utile pour quelque chose comme la traduction en direct. En citant la "Bitter Lesson" de Sutton, le laboratoire soutient que ces systèmes artisanaux seront finalement dépassés par l'avancée des capacités générales.
Les modèles d'interaction de Thinking Machines
Les Interaction Models remplacent le harnais par un modèle qui traite directement le flux audio et vidéo plutôt que de recevoir des énoncés pré-segmentés. L'approche ressemble à des modèles en duplex intégral comme Moshi ou Nemotron VoiceChat, qui fonctionnent de manière similaire mais sont des modèles à plus petite échelle axés sur la latence plutôt que sur les benchmarks d'intelligence.
Une horloge de 200 millisecondes remplace les frontières de tour artificielles
La véritable rupture avec les architectures existantes est ce que l'équipe appelle des micro-tours alignés dans le temps. Le modèle traite continuellement 200 millisecondes d'entrée et génère 200 millisecondes de sortie, les deux flux de tokens fonctionnant de manière entrelacée. L'entrée et la sortie ne se produisent plus de manière séquentielle. Au lieu de cela, ils partagent le même cycle d'horloge.
Cela élimine les frontières de tour artificielles, permettant au modèle de décider par lui-même s'il doit rester silencieux, intervenir ou parler en même temps que l'utilisateur. L'audio et les images ne sont pas prétraités par de grands encodeurs autonomes, mais sont directement alimentés dans le transformateur avec un prétraitement minimal. Cela réduit la latence, bien que cela puisse également limiter la capacité du modèle à saisir des détails visuels fins comme du texte.
Cependant, le modèle en temps réel fait face à un autre défi. S'il doit répondre toutes les 200 millisecondes, il ne peut pas passer des minutes à raisonner ou à chercher sur le web. Thinking Machines résout ce problème en associant le modèle d'interaction à un second modèle de fond asynchrone qui gère des tâches plus longues comme le raisonnement, l'utilisation d'outils et la recherche.
Les deux modèles partagent le même contexte de conversation. Le modèle d'interaction délègue des tâches tout en maintenant la conversation, puis intègre les résultats du modèle de fond dans la conversation au fur et à mesure de leur arrivée, à un moment approprié par rapport à ce que l'utilisateur fait actuellement, plutôt que comme un changement de contexte abrupt. L'objectif est de combiner la rapidité de réponse d'un modèle rapide avec la profondeur d'un modèle de raisonnement.
Les benchmarks suggèrent que l'approche fonctionne
Le modèle est appelé TML-Interaction-Small, un modèle de mélange d'experts de 276 milliards de paramètres avec 12 milliards de paramètres actifs. Sur le FD-bench v1.5, qui mesure la qualité d'interaction dans des scénarios tels que les interruptions d'utilisateur, le backchanneling et le discours de fond, il surpasse significativement à la fois le GPT-Realtime-2 d'OpenAI et le Gemini-3.1-flash-live de Google. La latence de réponse est de 0,40 secondes, contre 1,18 secondes pour GPT-Realtime-2 (minimum) et 0,57 secondes pour Gemini.
Sur l'Audio MultiChallenge, qui suit l'intelligence et le suivi des instructions, le modèle obtient un score de 43,4 %, au-dessus des variantes rapides de ses concurrents mais en dessous de GPT-Realtime-2 en mode de pensée "xhigh", qui atteint 48,5 %. Sur les propres benchmarks du laboratoire pour la conscience temporelle (TimeSpeak, CueSpeak) et la proactivité visuelle (RepCount-A, ProactiveVideoQA, Charades), Thinking Machines rapporte qu'aucun modèle existant ne peut effectuer de manière significative l'une de ces tâches. Les concurrents testés restent soit silencieux, soit donnent des réponses incorrectes.
Une startup de 2 milliards de dollars avec quelque chose à prouver
Thinking Machines Lab a été fondé en février 2025 par Mira Murati et d'autres anciens chercheurs d'OpenAI. En juillet 2025, l'entreprise a clôturé un tour de financement de 2 milliards de dollars à une valorisation de 12 milliards de dollars, le tout sans produit. Un tour de financement supplémentaire, rapporté en préparation autour de 50 milliards de dollars, ne s'est pas concrétisé d'ici la fin de 2025, et plusieurs employés clés ont depuis quitté l'entreprise. Le modèle d'interaction est le premier modèle d'IA interne soutenant la revendication de Murati qu'elle peut construire un véritable concurrent aux côtés d'OpenAI, Anthropic et Google DeepMind.
Avant cela, l'entreprise avait lancé Tinker, un outil conçu pour permettre aux développeurs de peaufiner efficacement des modèles ouverts en utilisant des LoRAs sans avoir à gérer l'entraînement distribué.