Les world models vont-ils transformer la robotique comme ChatGPT a transformé le traitement du langage naturel ?

Les world models permettent aux robots humanoïdes de simuler des environnements réels, augmentant leur efficacité de 30% grâce à l'intégration de lois physiques. Cette technologie pourrait révolutionner la robotique, tout comme ChatGPT a changé le traitement du langage naturel, favorisant une adoption accrue dans divers secteurs. Des start-ups comme World Labs et AMI Labs ont levé respectivement un milliard et 1,03 milliard de dollars, soulignant l'intérêt croissant pour cette innovation. (Brief IA — briefia.fr).

Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

World Models : La Révolution Robotique Inspirée par ChatGPT

⚡

En bref

1Les world models simulent des environnements réels pour améliorer les robots humanoïdes, en intégrant les lois de la physique.

2Des entreprises comme World Labs et AMI Labs ont levé plus d'un milliard de dollars pour développer cette technologie.

3Les world models nécessitent d'énormes quantités de données multimodales pour reproduire fidèlement la réalité physique.

💡Pourquoi c'est important — Cette avancée pourrait transformer la robotique humanoïde, rendant les robots capables d'accomplir des tâches variées, proches des capacités humaines.

Les world models : une avancée majeure pour la robotique

Les world models sont en train de transformer le paysage de la robotique en permettant aux robots de simuler des environnements réels avec une précision sans précédent. Cette technologie permet aux robots humanoïdes d'améliorer leurs capacités en comprenant mieux les lois de la physique. Les discussions autour de cette innovation sont omniprésentes dans l'écosystème technologique, et les investissements massifs témoignent de son potentiel.

Depuis le début de l'année, des entreprises comme World Labs, fondée par la pionnière de l'IA Fei-Fei Li, ont levé des sommes considérables, atteignant un milliard de dollars. De même, AMI Labs, cofondée par Yann Le Cun, a rejoint le club des licornes françaises avec une levée de fonds de 1,03 milliard de dollars. La start-up américaine Runway a également attiré 315 millions de dollars d'investissements.

Les géants de la technologie tels que Google, Meta, et NVIDIA ont également reconnu le potentiel de ces modèles. Jeff Bezos, le dirigeant d'Amazon, s'est impliqué en cofondant Project Prometheus, qui se concentre sur l'IA physique.

Un potentiel immense pour la robotique humanoïde

Les applications des world models sont vastes, allant des véhicules autonomes à la recherche scientifique, en passant par les jeux vidéo. Cependant, c'est dans le domaine de la robotique humanoïde que cette technologie pourrait avoir l'impact le plus significatif. Les robotic world models (RWM) promettent d'améliorer considérablement les capacités des robots humanoïdes en leur permettant d'intégrer les dynamiques du monde physique.

Lors de l'annonce de la levée de fonds de World Labs en février, Fei-Fei Li a déclaré : "Si l’IA veut être réellement utile, elle doit comprendre des mondes, pas seulement des mots". Cette déclaration souligne la différence fondamentale entre les LLM comme ChatGPT et les world models. Alors que les LLM prédisent le prochain mot dans un texte, les world models prédisent le prochain "état" du monde généré par une action de l'agent.

Pour atteindre cet objectif, les world models s'appuient sur d'immenses quantités de données multimodales comprenant des vidéos, des images, des données audio, ainsi que des informations provenant de capteurs robotiques. Cela leur permet de comprendre et d'intégrer les caractéristiques du monde physique, telles que la gravité, la friction, et les interactions avec les objets.

Les limites des méthodes traditionnelles

Jusqu'à présent, l'entraînement des IA pour les robots humanoïdes reposait sur des modèles comme les LLM, les modèles vidéo, les vision-langage-action (VLA), les simulations 3D, ou encore les simulations en conditions réelles avec un téléopérateur. Bien que ces méthodes soient efficaces dans des environnements prévisibles, elles montrent leurs limites dans des situations plus complexes.

Par exemple, elles permettent d'apprendre aux robots à se déplacer, mais peinent à leur enseigner la manipulation d'objets. Les world models, en agrégant différents types de données et en intégrant les lois de la physique, apportent une solution à ces lacunes. Ils permettent aux robots d'apprendre par l'expérience, en anticipant et en évaluant les conséquences de leurs actions.

Les robots peuvent ainsi effectuer des milliers d'itérations au sein de la simulation, recevoir des retours et ajuster leur comportement en conséquence, sans jamais casser un objet réel ni blesser quelqu'un. Cette approche se rapproche du mode d'apprentissage des animaux et des humains.

Vers un "moment ChatGPT" pour la robotique

Les world models pourraient permettre l’émergence de robots humanoïdes aux capacités se rapprochant des nôtres. Andy Chen, responsable des projets spéciaux chez Runway, a affirmé au Journal du Net : "Au cours des prochains mois, nous allons connaître un ‘moment ChatGPT’ de la robotique". À mesure que les world models et les simulateurs de mondes gagnent en échelle, des entreprises comme Runway développeront des modèles toujours plus grands et performants.

Cela ouvrira la voie à une plus grande généralisation, permettant aux robots de commencer à agir comme des humains, en étant capables d’accomplir une grande variété de tâches plutôt que de rester limités à des fonctions spécifiques.

Les défis des world models

Avant de s’imposer comme une solution réellement efficace, les world models font face à certains obstacles. Pour retranscrire la réalité dans toutes ses nuances, ils nécessitent des quantités de données encore plus importantes que les LLM. Même des tâches simples pour un humain, comme ouvrir une porte ou saisir un verre, impliquent une multitude de micro-variations parfois difficiles à capturer.

De plus, contrairement au texte ou à l’image, il existe pour l’heure peu de données "action - conséquence". Les vidéos seules, par exemple, ne suffisent pas, car elles montrent ce qui se passe, pas pourquoi. Enfin, les interactions physiques sont coûteuses à enregistrer. Cela explique pourquoi de nombreux acteurs de la robotique et de l’IA incarnée (dont 1X, Agility, Figure ou encore NEURA Robotics) utilisent la plateforme de world models lancée par NVIDIA, Cosmos, entraînée sur plus de 20 millions d’heures de données issues du monde réel.

L'importance de la qualité des données

Comme pour les LLM, un autre défi majeur concerne la pertinence des données utilisées pour entraîner les world models. Andy Chen de Runway explique : "Chez Runway, nous donnons la priorité à la qualité des données plutôt qu’à la quantité". Cela inclut, par exemple, des collaborations avec des acteurs du secteur du cinéma et de la création, dont Lucasfilm. L’objectif est de disposer de données réellement qualitatives, pas simplement d’augmenter l’échelle grâce à des vidéos aléatoires issues d’Internet.

Les world models, clé de l’AGI ?

Si l’arrivée des world models promet de propulser la robotique dans une nouvelle ère, ils pourraient même, selon certains, constituer le chaînon manquant vers l’intelligence artificielle générale (AGI). Si Sam Altman et les créateurs de ChatGPT restent persuadés que les LLM sont en mesure de faire émerger une telle entité, de nombreux spécialistes estiment que le texte ne suffira pas.

Yann Le Cun préfère d’ailleurs utiliser les termes de "Advanced Machine Intelligence (AMI)", en février dernier, il déclarait : "Un chatbot peut passer un examen de droit avec brio, mais il ne peut pas comprendre l’espace physique comme le fait un chat, celui avec des moustaches". Il ne s’agit plus de générer la suite la plus probable, comme dans le langage, mais de construire une représentation abstraite du monde, qui sache ignorer les éléments imprévisibles et conserver la structure utile.

Les world models, en permettant aux agents IA de percevoir le monde physique dans toutes ses subtilités et d’interagir avec lui, ouvriront-ils la voie vers une forme de conscience artificielle ? Cela reste difficile à dire, mais ce qui est certain, c’est que les robots humanoïdes s’apprêtent à devenir un peu plus "humains".

World Models : La Révolution Robotique Inspirée par ChatGPT

Tu suis la course aux modèles IA ?

Les world models : une avancée majeure pour la robotique

Un potentiel immense pour la robotique humanoïde

Les limites des méthodes traditionnelles

Vers un "moment ChatGPT" pour la robotique

Les défis des world models

L'importance de la qualité des données

Les world models, clé de l’AGI ?

Wetour Robotics : l'IA réinventée par des interfaces humaines

OpenAI défie Google et Microsoft avec ses agents autonomes

Thinking Machines et Mira Murati : vers une IA plus humaine

Mythos Preview de Claude : l'IA qui surpasse l'humain en cybersécurité

Google I/O 2026 : une IA pour surpasser OpenAI ?

OpenAI : l'IA d'entreprise redéfinit le futur du travail