Ai2 : Construire une IA physique avec des données de simulation virtuelle

⚡ Résumé en français par Brief IA
• Les données de simulation virtuelle propulsent le développement de l'IA physique dans les entreprises, avec des initiatives comme MolmoBot d'Ai2. • Ai2 se positionne comme un acteur clé dans l'intégration de l'IA physique, réduisant les coûts de formation. • L'importance croissante des simulations virtuelles pourrait transformer la manière dont les agents de manipulation sont formés et déployés dans le monde réel. 💡 Pourquoi c'est important : Cette approche pourrait révolutionner l'efficacité et la rentabilité des systèmes d'IA physique dans divers secteurs.
📄 Article traduit en français
Ai2 : Construire une IA physique avec des données de simulation virtuelle
Les données de simulation virtuelle propulsent le développement de l'IA physique dans les environnements d'entreprise, mené par des initiatives telles que le MolmoBot d'Ai2.
Historiquement, l'instruction du matériel pour interagir avec le monde réel reposait sur des démonstrations coûteuses et collectées manuellement. Les fournisseurs de technologie qui développent des agents de manipulation généralistes considèrent généralement que des formations étendues dans le monde réel sont la base de ces systèmes.
Pour donner un aperçu, des projets comme DROID incluent 76 000 trajectoires téléopérées recueillies dans 13 institutions, représentant environ 350 heures d'efforts humains. Le projet RT-1 de Google DeepMind a nécessité 130 000 épisodes collectés sur 17 mois par des opérateurs humains. Cette dépendance à la collecte de données manuelle et propriétaire gonfle les budgets de recherche et concentre les capacités au sein d'un petit groupe de laboratoires industriels bien financés.
« Notre mission est de construire une IA qui fait progresser la science et élargit ce que l'humanité peut découvrir », a déclaré Ali Farhadi, PDG d'Ai2. « La robotique peut devenir un instrument scientifique fondamental, aidant les chercheurs à avancer plus rapidement et à explorer de nouvelles questions. Pour y parvenir, nous avons besoin de systèmes qui se généralisent dans le monde réel et d'outils sur lesquels la communauté de recherche mondiale peut collaborer. Démontrer le transfert de la simulation à la réalité est une étape significative dans cette direction. »
Les chercheurs de l'Allen Institute for AI (Ai2) proposent un modèle économique différent avec MolmoBot, une suite de modèles de manipulation robotique entièrement formée sur des informations synthétiques. En générant des trajectoires de manière procédurale au sein d'un système appelé MolmoSpaces, l'équipe évite le besoin de téléopération humaine.
Le jeu de données associé, MolmoBot-Data, contient 1,8 million de trajectoires de manipulation d'experts. Cette collection a été produite en combinant le moteur physique MuJoCo avec une randomisation de domaine agressive, variant les objets, les points de vue, l'éclairage et la dynamique.
« La plupart des approches essaient de réduire l'écart entre la simulation et la réalité en ajoutant plus de données du monde réel », a déclaré Ranjay Krishna, directeur de l'équipe PRIOR chez Ai2. « Nous avons pris le pari inverse : que l'écart se réduit lorsque vous élargissez considérablement la diversité des environnements simulés, des objets et des conditions de caméra. Notre dernière avancée déplace la contrainte en robotique de la collecte de démonstrations manuelles à la conception de meilleurs mondes virtuels, et c'est un problème que nous pouvons résoudre. »
Génération de données de simulation virtuelle pour l'IA physique
En utilisant 100 GPU Nvidia A100, le pipeline a créé environ 1 024 épisodes par heure de GPU, ce qui équivaut à plus de 130 heures d'expérience robotique pour chaque heure de temps réel.
Comparé à la collecte de données du monde réel, cela représente près de quatre fois le débit de données, impactant directement le retour sur investissement du projet en accélérant les cycles de déploiement.
La suite MolmoBot comprend trois classes de politiques distinctes évaluées sur deux plateformes : le manipulateur mobile Rainbow Robotics RB-Y1 et le bras de table Franka FR3. Le modèle principal, construit sur une base de vision-langage Molmo2, traite plusieurs étapes d'observations RGB et d'instructions linguistiques pour dicter les actions.
Flexibilité matérielle avec le MolmoBot d'Ai2
Pour les environnements de calcul en périphérie où les ressources sont limitées, les chercheurs proposent MolmoBot-SPOC, une politique de transformateur légère avec moins de paramètres. MolmoBot-Pi0 utilise une base PaliGemma pour correspondre à l'architecture du modèle π0 de Physical Intelligence, permettant des comparaisons de performance directes.
Lors des tests physiques, ces politiques ont démontré un transfert zero-shot vers des tâches du monde réel impliquant des objets et des environnements non vus sans aucun ajustement.
Dans les évaluations de prise et de placement sur table, le modèle principal de MolmoBot a atteint un taux de réussite de 79,2 %. Cela surpasse le modèle π0.5, qui a été formé sur des données de démonstration du monde réel, atteignant un taux de réussite de 39,2 %. Pour la manipulation mobile, les politiques ont réussi à exécuter des tâches telles que s'approcher, saisir et tirer des portes sur toute leur amplitude de mouvement.
Fournir ces architectures variées permet aux organisations d'intégrer des systèmes d'IA physique performants sans être enfermées dans un écosystème de fournisseur propriétaire unique ou une infrastructure de collecte de données étendue.
La publication ouverte de l'ensemble de la pile MolmoBot – y compris les données d'entraînement, les pipelines de génération et les architectures de modèles – permet un audit interne et une adaptation. Quiconque explorant l'IA physique peut tirer parti de ces outils ouverts pour la simulation et la construction de systèmes capables tout en contrôlant les coûts.
« Pour que l'IA fasse réellement progresser la science, le progrès ne peut pas dépendre de données fermées ou de systèmes isolés », poursuit Ali Farhadi, PDG d'Ai2. « Cela nécessite une infrastructure partagée sur laquelle les chercheurs du monde entier peuvent construire, tester et améliorer ensemble. C'est ainsi que nous croyons que l'IA physique avancera. »
Brief IA — Veille IA en français
Toutes les innovations mondiales en IA, traduites et résumées automatiquement. Recevoir les meilleures actus IA chaque jour.