Le brief IA que les pros lisent chaque soir
Les 7 actus IA du jour, décryptées en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Nvidia et IA : des robots autonomes maîtrisent la préhension à 99 %
Des chercheurs de Nvidia, de l'Université Carnegie Mellon et de l'UC Berkeley utilisent des agents de codage IA pour enseigner aux robots la préhension habile dans le monde réel. Une flotte de huit robots atteint jusqu'à 99 % de succès sur des tâches complexes.
La préhension habile et la manipulation restent difficiles à apprendre pour les robots. Les humains doivent intervenir à chaque étape : collecte de données d'entraînement, réinitialisation de la scène après chaque essai et ajustement des algorithmes. Cette charge manuelle ralentit tout le processus. Le projet de recherche ENPIRE, issu de Nvidia, de l'Université Carnegie Mellon et de l'UC Berkeley, vise à surmonter ce goulot d'étranglement en confiant le travail à des agents de codage IA.
L'idée centrale repose sur une boucle de rétroaction fonctionnant sur du matériel réel : réinitialiser l'espace de travail, exécuter une stratégie, vérifier le résultat et améliorer la prochaine tentative.
L'agent construit ses propres outils d'évaluation
ENPIRE fonctionne en deux phases. Dans la première, l'agent configure un environnement de travail avec un certain retour d'information humain. Cela inclut des limites de sécurité, une réinitialisation automatique et un contrôle automatisé du succès. Au lieu de faire évaluer chaque tentative par un humain, l'agent écrit sa propre fonction de récompense pour distinguer le succès de l'échec. Il lui suffit de quelques minutes de vidéos d'exemples montrant des tentatives réussies et échouées.
Pour l'insertion de broches, par exemple, l'agent a développé un contrôle combinant l'alignement visuel, la hauteur du préhenseur et la force estimée. Pour fermer un collier de câble, il a combiné deux angles de caméra pour éviter les faux positifs et a réduit le temps de réaction à moins de 150 millisecondes. Ces outils sont construits une fois et réutilisés sans modifications.
Dans la seconde phase, l'agent travaille entièrement de manière autonome. Il lit des articles de recherche, forme des hypothèses et modifie directement le code d'entraînement. Il utilise des méthodes comme le clonage de comportement, où la stratégie imite les démonstrations humaines, ou l'apprentissage par renforcement, où la stratégie s'améliore par essais et erreurs. L'agent choisit la méthode lui-même en fonction des signaux de succès dans le monde réel.
Une flotte de robots qui se coordonne via Git
ENPIRE s'étend à une flotte complète : huit stations de robots YAM à double bras, chacune avec son propre matériel, ordinateur et agent de codage. Les agents testent différentes hypothèses en même temps et partagent les résultats uniquement via Git, l'outil standard de contrôle de version pour les logiciels. Ils adoptent des recettes d'entraînement réussies les uns des autres et rejettent les mauvaises idées de manière autonome. Une découverte majeure faite dans une station se propage à l'ensemble de la flotte.
Selon l'étude, les agents atteignent jusqu'à 99 % de succès sur des tâches exigeantes telles que le test Push-T - où le robot doit glisser un bloc en forme de T dans une position et une orientation cibles - le tri de broches dans une boîte, et la coupe d'un collier de câble avec un coupe-câble. Pour l'insertion de broches, la stratégie a convergé vers 100 % plus rapidement qu'une méthode comparable impliquant un humain.
L'échelle est également payante en termes de temps. Pour le test Push-T, passer d'un à huit agents a réduit le temps de succès complet d'environ cinq heures à deux heures. Pour l'insertion de broches, il est passé de plus de 90 minutes à environ 40 minutes. Les chercheurs ont testé trois agents de codage actuels : Codex avec GPT-5.5, Claude Code avec Opus 4.7, et Kimi Code avec Kimi K2.6. Codex a obtenu les meilleurs résultats dans la plupart des cas.
Le monde réel reste le test le plus difficile
Les résultats montrent également que le monde réel est encore beaucoup plus difficile que la simulation. Lors du test Push-T, les trois agents ont résolu la tâche en simulation, mais deux sur trois ont échoué dans l'environnement réel. Les chercheurs attribuent cela à des conditions imprévisibles et variables telles que la dynamique des robots, la friction et le mouvement des objets. Dans la simulation RoboCasa, ENPIRE a surpassé à la fois un modèle de vision-langage-action de bout en bout (GR00T) et une approche basée sur des outils sans auto-recherche (CaP-X).
Pour mesurer l'efficacité, les chercheurs proposent deux métriques : Mean Robot Utilization (MRU) qui suit le temps de recherche que le robot passe réellement à travailler, et Mean Token Utilization (MTU) qui compte l'utilisation du modèle de langage par minute. Les compétences acquises se transfèrent également : l'expérience de l'insertion de broches a aidé les agents à insérer des GPU dans une carte mère à l'aide des bras robotiques.
L'étude est claire sur ses limites. Les robots et le calcul ne sont pas pleinement utilisés car les agents passent beaucoup de temps à lire des journaux, à écrire du code et à attendre. Plus il y a de robots dans la flotte, plus l'utilisation par robot diminue, car les agents passent plus de temps à résumer les résultats des autres. Les coûts des jetons augmentent également plus rapidement que les gains de performance : des flottes plus grandes atteignent l'objectif plus rapidement mais consomment beaucoup plus de budget de calcul pour y parvenir. Néanmoins, les chercheurs considèrent ENPIRE comme un chemin pratique vers des robots capables de s'améliorer par eux-mêmes dans le monde réel.

