Quelles sont les avancées récentes de l'IA en robotique sur des plateformes embarquées ?

Les récentes avancées dans les modèles de langage de grande taille (VLA) permettent de passer d'un raisonnement textuel à des systèmes multimodaux, intégrant la perception visuelle et la génération d'actions robotiques. Cependant, le déploiement de ces modèles sur des plateformes embarquées est complexe en raison des contraintes de calcul, de mémoire et d'énergie, ainsi que des exigences de contrôle en temps réel. (Brief IA — briefia.fr).

Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

Robotique et IA : Défis et innovations des plateformes embarquées

Brief IA

Tom Levy·5 mars 2026·5 min·7 vues

⚡

En bref

1Les modèles de langage de grande taille évoluent vers des systèmes multimodaux intégrant perception visuelle et actions robotiques.

2L'inférence asynchrone est essentielle pour un mouvement fluide des robots, mais nécessite une latence minimale.

3La qualité des données enregistrées, avec des caméras fixes et un éclairage contrôlé, est cruciale pour le succès des tâches robotiques.

💡Pourquoi c'est important — Ces avancées permettent d'améliorer l'efficacité et la précision des robots dans des environnements complexes, ouvrant la voie à des applications plus sophistiquées.

Avancées récentes dans les modèles de langage et de vision

Les récentes avancées dans les modèles de langage de grande taille ont permis une transition significative du raisonnement textuel vers des systèmes multimodaux. Initialement, cela s'est manifesté par l'intégration de la perception visuelle dans les modèles vision-langage (VLM), et plus récemment, par la capacité de générer des actions de robot à travers les modèles vision-langage-action (VLA). Cependant, le déploiement de ces modèles sur des plateformes robotiques embarquées présente des défis considérables. Ces défis sont principalement dus aux contraintes strictes en matière de calcul, de mémoire et d'énergie, ainsi qu'aux exigences de contrôle en temps réel.

Dans les pipelines de contrôle synchrones, le modèle VLA exécute des inférences pendant que le bras robotique reste inactif en attente de commandes. Cela entraîne un comportement oscillatoire et des corrections retardées. Pour pallier ce problème, l'inférence asynchrone peut être une solution, permettant un mouvement fluide et continu en dissociant la génération de l'exécution. Cependant, pour que cela soit efficace, la latence d'inférence de bout en bout doit être inférieure à la durée d'exécution de l'action. Cette contrainte temporelle impose donc une limite supérieure au débit du modèle.

Amener les modèles VLA sur des plateformes embarquées n'est pas simplement une question de compression de modèle. C'est un problème complexe d'ingénierie des systèmes qui nécessite une décomposition architecturale, une planification sensible à la latence et une exécution alignée sur le matériel. S'attaquer à ces défis est essentiel pour traduire les récentes avancées des modèles de fond multimodaux en systèmes robotiques embarqués pratiques et déployables.

Enregistrement de données : Ce qui compte vraiment

Dans le contexte de l'intégration de l'IA en robotique, la qualité des données enregistrées est primordiale. Des données de haute qualité et cohérentes surpassent des données "plus nombreuses mais désordonnées". Cette section transforme des leçons durement acquises en listes de contrôle et schémas concrets. Par exemple, pour la tâche "mettre le sachet de thé dans la tasse", plusieurs aspects doivent être pris en compte.

Cohérence d'abord

L'utilisation de caméras fixes est cruciale pour éviter la dérive de pose. Si, lors de l'enregistrement ou de l'évaluation, une ou plusieurs caméras se déplacent à cause des vibrations du robot ou de l'opérateur réinitialisant l'environnement, une perte de précision sévère peut être observée. De plus, aménager l'environnement de manière à avoir autant de contrôle que possible sur l'éclairage est essentiel. Cela inclut l'utilisation de sources de lumière fixes et l'éloignement de la lumière du soleil qui varie au cours de la journée. Maximiser le contraste entre le bras, l'objet et l'environnement est également recommandé pour éviter les erreurs de détection.

Assurez-vous d'avoir des sauvegardes de vos calibrations de robot et de téléopérateur afin de ne pas avoir à réenregistrer vos épisodes précédents si le code plante. Il est également crucial de ne pas utiliser d'informations auxquelles le modèle n'aura pas accès au moment de l'inférence. Lors de l'enregistrement des données, il est tentant pour l'opérateur de se fier à l'observation visuelle directe de la scène. Cependant, cela introduit des informations absentes de l'ensemble de données. La collecte des données doit être limitée aux mêmes entrées de caméra qui seront disponibles pour la politique à l'exécution.

Utiliser une caméra de préhension (fortement recommandé)

Passer de vues uniquement de la scène à des points de vue mixtes augmente la précision globale, mais plus vous avez de caméras, plus la latence est impactée. Par conséquent, vous devez choisir le bon compromis. Dans notre cas, cet équilibre a été atteint avec trois caméras : la vue globale de toute la scène, la vue la plus proche pour des saisies précises et un alignement, et compléter la vue de dessus pour la hauteur et la profondeur.

Nous recommandons fortement d'utiliser une caméra montée sur le préhenseur. Elle améliore systématiquement les taux de réussite dans les tâches de manipulation fine en fournissant un point de vue proche et pertinent pour la tâche. Il est également important de noter que c'est la caméra qui impose le plus efficacement des pratiques de collecte de données correctes, permettant à l'opérateur de se fier exclusivement à la perception du robot plutôt qu'à l'observation directe de la scène. Lors de l'installation d'une caméra de préhension, nous recommandons de sécuriser le câble avec du Velcro ou un guide de soulagement de traction pour éviter qu'il n'entrave le champ de vision ou ne se déconnecte pendant le mouvement.

Améliorer la préhension

Des ajustements matériels simples comme l'utilisation de manchons thermorétractables sur les griffes du préhenseur augmentent la friction, réduisent la rugosité, diminuent le glissement pendant les épisodes et augmentent le taux de réussite des tâches. Cela améliore ainsi la stabilité de l'apprentissage de la politique.

Diversité & répartitions

Lors de l'enregistrement d'un ensemble de données, il est important de varier la distribution des épisodes. Divisez votre espace de travail en clusters de positions de départ et enregistrez au moins 10 épisodes par cluster. Ajoutez de la diversité en changeant la position et la rotation de l'objet. Par exemple, nous avons partitionné l'espace de travail accessible du bras robotique en 11 clusters, chacun mesurant 10 × 10 cm.

Enfin, il est crucial de différencier les ensembles d'entraînement et de validation. Les politiques peuvent facilement surajuster l'ensemble d'entraînement, alors assurez-vous que l'ensemble de validation n'est pas vu par le modèle. Par exemple, nous avons retiré le cluster 6 de l'ensemble de validation pour éviter le surajustement.

Robotique et IA : Défis et innovations des plateformes embarquées

Le brief IA que les pros lisent chaque soir

Avancées récentes dans les modèles de langage et de vision

Enregistrement de données : Ce qui compte vraiment

Cohérence d'abord

Utiliser une caméra de préhension (fortement recommandé)

Améliorer la préhension

Diversité & répartitions

Google DeepMind et l'essor des robots : un défi pour la gouvernance IA

NASA et IA : Révolution numérique dans l'aérospatial

Le Campus cyber alerte sur l'IA et la cybersécurité

L'IA spécialisée transforme discrètement l'industrie manufacturière

Intelligence Artificielle : les défis d'une adoption sans fracture

Physical Intelligence : le robot π0.7 défie les attentes