Brief IA : Ai2 révolutionne l'IA physique avec MolmoBot et données simulées
🔬 Recherche

Ai2 révolutionne l'IA physique avec MolmoBot et données simulées

Brief IA
Tom Levy·5 min·4 vues

Ai2 développe l'IA physique grâce à des données de simulation virtuelle, notamment avec son initiative MolmoBot. Cette approche permet de réduire les coûts de formation, en opposition aux méthodes traditionnelles qui nécessitent des démonstrations coûteuses et des collectes manuelles de données. L'utilisation croissante de simulations virtuelles pourrait transformer la formation et le déploiement des agents de manipulation dans divers secteurs.

En bref
1Ai2 utilise des données simulées pour développer MolmoBot, évitant les démonstrations coûteuses.
2MolmoBot-Data inclut 1,8 million de trajectoires, générées avec MuJoCo et randomisation de domaine.
3Les tests montrent un transfert zero-shot réussi, avec un taux de réussite de 79,2 % pour la prise et le placement.
💡Pourquoi c'est importantCette approche démocratise l'accès à l'IA physique, réduisant les coûts et ouvrant la voie à une collaboration mondiale.
Le brief IA que lisent les pros

Le brief IA que les pros lisent chaque soir

Les 7 actus IA du jour, décryptées en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Ai2 et l'essor de l'IA physique via la simulation virtuelle

L'Allen Institute for AI (Ai2) redéfinit le développement de l'IA physique en s'appuyant sur des données de simulation virtuelle, avec des initiatives comme le MolmoBot. Traditionnellement, l'entraînement des systèmes robotiques nécessitait des démonstrations coûteuses et manuelles. Les fournisseurs de technologie qui développent des agents de manipulation généralistes considèrent souvent que des formations étendues dans le monde réel sont essentielles pour ces systèmes.

Pour illustrer cette approche, des projets comme DROID ont rassemblé 76 000 trajectoires téléopérées dans 13 institutions, représentant environ 350 heures d'efforts humains. De son côté, le projet RT-1 de Google DeepMind a nécessité 130 000 épisodes collectés sur 17 mois par des opérateurs humains. Cette dépendance à la collecte de données manuelle et propriétaire gonfle les budgets de recherche et concentre les capacités au sein d'un petit groupe de laboratoires industriels bien financés.

« Notre mission est de construire une IA qui fait progresser la science et élargit ce que l'humanité peut découvrir », a déclaré Ali Farhadi, PDG d'Ai2. « La robotique peut devenir un instrument scientifique fondamental, aidant les chercheurs à avancer plus rapidement et à explorer de nouvelles questions. Pour y parvenir, nous avons besoin de systèmes qui se généralisent dans le monde réel et d'outils sur lesquels la communauté de recherche mondiale peut collaborer. Démontrer le transfert de la simulation à la réalité est une étape significative dans cette direction. »

MolmoBot-Data : une avancée dans la collecte de données

Les chercheurs de l'Allen Institute for AI (Ai2) proposent un modèle économique différent avec MolmoBot, une suite de modèles de manipulation robotique entièrement formée sur des informations synthétiques. En générant des trajectoires de manière procédurale au sein d'un système appelé MolmoSpaces, l'équipe évite le besoin de téléopération humaine.

Le jeu de données associé, MolmoBot-Data, contient 1,8 million de trajectoires de manipulation d'experts. Cette collection a été produite en combinant le moteur physique MuJoCo avec une randomisation de domaine agressive, variant les objets, les points de vue, l'éclairage et la dynamique.

« La plupart des approches essaient de réduire l'écart entre la simulation et la réalité en ajoutant plus de données du monde réel », a déclaré Ranjay Krishna, directeur de l'équipe PRIOR chez Ai2. « Nous avons pris le pari inverse : que l'écart se réduit lorsque vous élargissez considérablement la diversité des environnements simulés, des objets et des conditions de caméra. Notre dernière avancée déplace la contrainte en robotique de la collecte de démonstrations manuelles à la conception de meilleurs mondes virtuels, et c'est un problème que nous pouvons résoudre. »

Génération de données de simulation virtuelle pour l'IA physique

En utilisant 100 GPU Nvidia A100, le pipeline a créé environ 1 024 épisodes par heure de GPU, ce qui équivaut à plus de 130 heures d'expérience robotique pour chaque heure de temps réel. Comparé à la collecte de données du monde réel, cela représente près de quatre fois le débit de données, impactant directement le retour sur investissement du projet en accélérant les cycles de déploiement.

La suite MolmoBot comprend trois classes de politiques distinctes évaluées sur deux plateformes : le manipulateur mobile Rainbow Robotics RB-Y1 et le bras de table Franka FR3. Le modèle principal, construit sur une base de vision-langage Molmo2, traite plusieurs étapes d'observations RGB et d'instructions linguistiques pour dicter les actions.

Flexibilité matérielle avec le MolmoBot d'Ai2

Pour les environnements de calcul en périphérie où les ressources sont limitées, les chercheurs proposent MolmoBot-SPOC, une politique de transformateur légère avec moins de paramètres. MolmoBot-Pi0 utilise une base PaliGemma pour correspondre à l'architecture du modèle π0 de Physical Intelligence, permettant des comparaisons de performance directes.

Lors des tests physiques, ces politiques ont démontré un transfert zero-shot vers des tâches du monde réel impliquant des objets et des environnements non vus sans aucun ajustement.

Dans les évaluations de prise et de placement sur table, le modèle principal de MolmoBot a atteint un taux de réussite de 79,2 %. Cela surpasse le modèle π0.5, qui a été formé sur des données de démonstration du monde réel, atteignant un taux de réussite de 39,2 %. Pour la manipulation mobile, les politiques ont réussi à exécuter des tâches telles que s'approcher, saisir et tirer des portes sur toute leur amplitude de mouvement.

Fournir ces architectures variées permet aux organisations d'intégrer des systèmes d'IA physique performants sans être enfermées dans un écosystème de fournisseur propriétaire unique ou une infrastructure de collecte de données étendue.

La publication ouverte de l'ensemble de la pile MolmoBot – y compris les données d'entraînement, les pipelines de génération et les architectures de modèles – permet un audit interne et une adaptation. Quiconque explorant l'IA physique peut tirer parti de ces outils ouverts pour la simulation et la construction de systèmes capables tout en contrôlant les coûts.

« Pour que l'IA fasse réellement progresser la science, le progrès ne peut pas dépendre de données fermées ou de systèmes isolés », poursuit Ali Farhadi, PDG d'Ai2. « Cela nécessite une infrastructure partagée sur laquelle les chercheurs du monde entier peuvent construire, tester et améliorer ensemble. C'est ainsi que nous croyons que l'IA physique avancera. »

Commentaires