Brief IA : Physical Intelligence : π0.7, un robot aux ambitions de généralisation

Physical Intelligence : π0.7, un robot aux ambitions de généralisation

Brief IA
Tom Levy·5 min·9 vues

La start-up américaine Physical Intelligence a lancé π0.7, un modèle de robot capable de recombiner des compétences acquises lors de l'entraînement. Ce modèle montre des signes de 'généralisation compositionnelle' en robotique, s'inspirant du modèle de langage Gemma3 de Google, qui compte quatre milliards de paramètres. Bien que prometteur, π0.7 présente encore des défauts dans son fonctionnement.

En bref
1Physical Intelligence a lancé π0.7, un modèle robotique qui réassemble des compétences apprises, inspiré des modèles de langage.
2Le modèle utilise des métadonnées pour intégrer des informations contextuelles, permettant un apprentissage à partir de données de qualité variable.
3π0.7 atteint des performances comparables à celles des humains expérimentés, mais soulève des questions sur la véritable généralisation des tâches.
💡Pourquoi c'est importantL'innovation de Physical Intelligence pourrait transformer la robotique en intégrant des principes de généralisation des modèles de langage, mais elle doit encore prouver sa capacité à résoudre des tâches réellement inédites.
Le brief IA que lisent les pros

Tu veux les meilleurs outils IA avant les autres ?

On teste et on décrypte les nouveaux outils IA chaque soir, en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Un modèle robotique inspiré des modèles de langage

La start-up américaine Physical Intelligence a récemment dévoilé π0.7, un modèle de robot qui s'inspire des grands modèles de langage pour recombiner des compétences acquises. Cette approche, qualifiée de "généralisation compositionnelle", permet au robot de combiner des fragments de compétences apprises lors de son entraînement, de manière similaire à la recomposition de textes par les modèles de langage.

Le modèle π0.7 est basé sur Gemma3 de Google, qui possède quatre milliards de paramètres, et est couplé à un expert en actions plus petit de 860 millions de paramètres pour générer les mouvements réels du robot. Physical Intelligence insiste sur le fait que la clé réside dans la méthode d'entraînement plutôt que dans l'architecture elle-même.

Entraînement contextuel et flexibilité

Contrairement aux modèles précédents qui recevaient des instructions succinctes, π0.7 est alimenté par une multitude d'informations contextuelles. Ces informations incluent des instructions de sous-tâches en langage naturel, des métadonnées sur la qualité et la vitesse des démonstrations, ainsi que des images de sous-objectifs générées en temps réel. Cette approche permet de valoriser des données de qualité variable, en étiquetant simplement les tentatives échouées ou lentes avec des métadonnées appropriées.

Les modèles de robots précédents recevaient généralement une courte description de tâche pendant l'entraînement, comme "plier le t-shirt". π0.7 reçoit en plus une gamme d'informations contextuelles : instructions de sous-tâches en langage naturel, métadonnées sur la qualité et la vitesse de la démonstration, étiquettes de mode de contrôle, et même des images de sous-objectifs montrant à quoi devrait ressembler le résultat d'une étape intermédiaire. Ces images de sous-objectifs sont générées en temps réel par un second modèle de monde léger.

Performances et défis de la généralisation

Physical Intelligence rapporte qu'un seul modèle π0.7 égalise les performances des spécialistes π*0.6 précédemment ajustés par apprentissage par renforcement sur des tâches telles que le pliage de linge, la préparation d'espresso et la construction de boîtes. Le transfert inter-embodiment fonctionne également : un manipulateur industriel bimanuel UR5e a plié des t-shirts avec un taux de réussite de 80 %, même si aucune donnée de pliage n'avait été collectée pour ce robot. Selon PI, cela correspond à la performance en zéro-shot d'opérateurs humains expérimentés tentant la tâche sur ce robot pour la première fois.

De nouvelles tâches peuvent également être enseignées via un coaching linguistique. Un humain guide le robot à travers l'activité étape par étape en donnant des instructions individuelles. Ces épisodes de coaching peuvent ensuite être utilisés pour entraîner une politique de haut niveau qui exécute la tâche de manière autonome, sans avoir besoin de collecter des données de téléopération conventionnelles.

La friteuse à air et la question de la généralisation compositionnelle

Comme exemple principal de capacité compositionnelle, PI cite le chargement d'une patate douce dans une friteuse à air. Sans guidance, le modèle échoue, mais avec un coaching étape par étape, il réussit. Dans le rapport technique, l'équipe indique avoir trouvé seulement deux épisodes dans les données d'entraînement où un robot ferme une friteuse à air, plus des données du jeu de données open-source DROID impliquant un bras robotique Franka.

Cependant, un examen plus attentif de la vidéo de démonstration révèle que le bras Franka du jeu de données DROID ouvre un tiroir de friteuse à air et place une bouteille à l'intérieur. Structurellement, cela est très proche de la tâche de la patate douce que π0.7 est censé résoudre en recombinant des compétences connues. PI décrit ces épisodes comme "assez différents" de ce que fait le robot mobile dans l'expérience et interprète le résultat comme une preuve que le modèle compose de nouvelles compétences, tout comme les modèles de langage recomposent des fragments de texte du web.

Cela soulève un débat familier du monde des modèles de langage dans la robotique : la question de savoir si un modèle résout réellement une nouvelle tâche par généralisation, ou rappelle essentiellement des données d'entraînement très similaires. Avec les modèles de langage, cela a été discuté pendant des années sous le terme de "contamination des données", lorsque les tâches d'évaluation apparaissent identiquement ou sous une forme très similaire dans le matériel d'entraînement.

PI admet lui-même dans le rapport qu'étant donné l'énorme taille et la diversité du jeu de données, il est difficile de déterminer avec certitude quelles tâches sont réellement nouvelles. L'équipe soutient cependant que cette recombinaison de blocs de construction connus est l'essence de la "généralisation compositionnelle". En pratique, ils affirment qu'il n'y a pas de différence significative entre une compétence issue de la généralisation ou transférée de situations similaires (remixée, comme ils l'appellent).

Les phénomènes des modèles de langage atteignent la robotique

π0.7 suggère que les modèles de fondation robotique atteignent une échelle à laquelle des effets similaires à ceux des grands modèles de langage deviennent visibles : la nature de l'invite prend une importance considérable, la performance dépend fortement du contexte fourni, et distinguer entre "généralisation authentique," remixage et récupération d'exemples similaires devient le problème central d'évaluation.

Des ablations supplémentaires dans le rapport montrent également à quel point les métadonnées sont importantes pour l'évolutivité. Sans annotations de qualité, le modèle se détériore lorsque davantage de données de moindre qualité sont ajoutées. Avec des métadonnées, il continue de bénéficier de données supplémentaires même si la qualité moyenne diminue.

Le rapport ne traite pas du sujet des modèles de raisonnement. PI laisse seulement entendre à la fin que des modèles orientables comme π0.7 pourraient à l'avenir résoudre des tâches plus complexes en "réfléchissant" à des approches possibles à l'avance. Le modèle actuel ne fait pas encore ce pas de lui-même.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires