Tu suis la course aux modèles IA ?
Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Les world models : une avancée majeure pour la robotique
Les world models sont en train de transformer le paysage de la robotique en permettant aux robots de simuler des environnements réels avec une précision sans précédent. Cette technologie permet aux robots humanoïdes d'améliorer leurs capacités en comprenant mieux les lois de la physique. Les discussions autour de cette innovation sont omniprésentes dans l'écosystème technologique, et les investissements massifs témoignent de son potentiel.
Depuis le début de l'année, des entreprises comme World Labs, fondée par la pionnière de l'IA Fei-Fei Li, ont levé des sommes considérables, atteignant un milliard de dollars. De même, AMI Labs, cofondée par Yann Le Cun, a rejoint le club des licornes françaises avec une levée de fonds de 1,03 milliard de dollars. La start-up américaine Runway a également attiré 315 millions de dollars d'investissements.
Les géants de la technologie tels que Google, Meta, et NVIDIA ont également reconnu le potentiel de ces modèles. Jeff Bezos, le dirigeant d'Amazon, s'est impliqué en cofondant Project Prometheus, qui se concentre sur l'IA physique.
Un potentiel immense pour la robotique humanoïde
Les applications des world models sont vastes, allant des véhicules autonomes à la recherche scientifique, en passant par les jeux vidéo. Cependant, c'est dans le domaine de la robotique humanoïde que cette technologie pourrait avoir l'impact le plus significatif. Les robotic world models (RWM) promettent d'améliorer considérablement les capacités des robots humanoïdes en leur permettant d'intégrer les dynamiques du monde physique.
Lors de l'annonce de la levée de fonds de World Labs en février, Fei-Fei Li a déclaré : "Si l’IA veut être réellement utile, elle doit comprendre des mondes, pas seulement des mots". Cette déclaration souligne la différence fondamentale entre les LLM comme ChatGPT et les world models. Alors que les LLM prédisent le prochain mot dans un texte, les world models prédisent le prochain "état" du monde généré par une action de l'agent.
Pour atteindre cet objectif, les world models s'appuient sur d'immenses quantités de données multimodales comprenant des vidéos, des images, des données audio, ainsi que des informations provenant de capteurs robotiques. Cela leur permet de comprendre et d'intégrer les caractéristiques du monde physique, telles que la gravité, la friction, et les interactions avec les objets.
Les limites des méthodes traditionnelles
Jusqu'à présent, l'entraînement des IA pour les robots humanoïdes reposait sur des modèles comme les LLM, les modèles vidéo, les vision-langage-action (VLA), les simulations 3D, ou encore les simulations en conditions réelles avec un téléopérateur. Bien que ces méthodes soient efficaces dans des environnements prévisibles, elles montrent leurs limites dans des situations plus complexes.
Par exemple, elles permettent d'apprendre aux robots à se déplacer, mais peinent à leur enseigner la manipulation d'objets. Les world models, en agrégant différents types de données et en intégrant les lois de la physique, apportent une solution à ces lacunes. Ils permettent aux robots d'apprendre par l'expérience, en anticipant et en évaluant les conséquences de leurs actions.
Les robots peuvent ainsi effectuer des milliers d'itérations au sein de la simulation, recevoir des retours et ajuster leur comportement en conséquence, sans jamais casser un objet réel ni blesser quelqu'un. Cette approche se rapproche du mode d'apprentissage des animaux et des humains.
Vers un "moment ChatGPT" pour la robotique
Les world models pourraient permettre l’émergence de robots humanoïdes aux capacités se rapprochant des nôtres. Andy Chen, responsable des projets spéciaux chez Runway, a affirmé au Journal du Net : "Au cours des prochains mois, nous allons connaître un ‘moment ChatGPT’ de la robotique". À mesure que les world models et les simulateurs de mondes gagnent en échelle, des entreprises comme Runway développeront des modèles toujours plus grands et performants.
Cela ouvrira la voie à une plus grande généralisation, permettant aux robots de commencer à agir comme des humains, en étant capables d’accomplir une grande variété de tâches plutôt que de rester limités à des fonctions spécifiques.
Les défis des world models
Avant de s’imposer comme une solution réellement efficace, les world models font face à certains obstacles. Pour retranscrire la réalité dans toutes ses nuances, ils nécessitent des quantités de données encore plus importantes que les LLM. Même des tâches simples pour un humain, comme ouvrir une porte ou saisir un verre, impliquent une multitude de micro-variations parfois difficiles à capturer.
De plus, contrairement au texte ou à l’image, il existe pour l’heure peu de données "action - conséquence". Les vidéos seules, par exemple, ne suffisent pas, car elles montrent ce qui se passe, pas pourquoi. Enfin, les interactions physiques sont coûteuses à enregistrer. Cela explique pourquoi de nombreux acteurs de la robotique et de l’IA incarnée (dont 1X, Agility, Figure ou encore NEURA Robotics) utilisent la plateforme de world models lancée par NVIDIA, Cosmos, entraînée sur plus de 20 millions d’heures de données issues du monde réel.
L'importance de la qualité des données
Comme pour les LLM, un autre défi majeur concerne la pertinence des données utilisées pour entraîner les world models. Andy Chen de Runway explique : "Chez Runway, nous donnons la priorité à la qualité des données plutôt qu’à la quantité". Cela inclut, par exemple, des collaborations avec des acteurs du secteur du cinéma et de la création, dont Lucasfilm. L’objectif est de disposer de données réellement qualitatives, pas simplement d’augmenter l’échelle grâce à des vidéos aléatoires issues d’Internet.
Les world models, clé de l’AGI ?
Si l’arrivée des world models promet de propulser la robotique dans une nouvelle ère, ils pourraient même, selon certains, constituer le chaînon manquant vers l’intelligence artificielle générale (AGI). Si Sam Altman et les créateurs de ChatGPT restent persuadés que les LLM sont en mesure de faire émerger une telle entité, de nombreux spécialistes estiment que le texte ne suffira pas.
Yann Le Cun préfère d’ailleurs utiliser les termes de "Advanced Machine Intelligence (AMI)", en février dernier, il déclarait : "Un chatbot peut passer un examen de droit avec brio, mais il ne peut pas comprendre l’espace physique comme le fait un chat, celui avec des moustaches". Il ne s’agit plus de générer la suite la plus probable, comme dans le langage, mais de construire une représentation abstraite du monde, qui sache ignorer les éléments imprévisibles et conserver la structure utile.
Les world models, en permettant aux agents IA de percevoir le monde physique dans toutes ses subtilités et d’interagir avec lui, ouvriront-ils la voie vers une forme de conscience artificielle ? Cela reste difficile à dire, mais ce qui est certain, c’est que les robots humanoïdes s’apprêtent à devenir un peu plus "humains".