Le brief IA que les pros lisent chaque soir
Les 7 actus IA du jour, décryptées en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Avancées récentes dans les modèles de langage et de vision
Les récentes avancées dans les modèles de langage de grande taille ont permis une transition significative du raisonnement textuel vers des systèmes multimodaux. Initialement, cela s'est manifesté par l'intégration de la perception visuelle dans les modèles vision-langage (VLM), et plus récemment, par la capacité de générer des actions de robot à travers les modèles vision-langage-action (VLA). Cependant, le déploiement de ces modèles sur des plateformes robotiques embarquées présente des défis considérables. Ces défis sont principalement dus aux contraintes strictes en matière de calcul, de mémoire et d'énergie, ainsi qu'aux exigences de contrôle en temps réel.
Dans les pipelines de contrôle synchrones, le modèle VLA exécute des inférences pendant que le bras robotique reste inactif en attente de commandes. Cela entraîne un comportement oscillatoire et des corrections retardées. Pour pallier ce problème, l'inférence asynchrone peut être une solution, permettant un mouvement fluide et continu en dissociant la génération de l'exécution. Cependant, pour que cela soit efficace, la latence d'inférence de bout en bout doit être inférieure à la durée d'exécution de l'action. Cette contrainte temporelle impose donc une limite supérieure au débit du modèle.
Amener les modèles VLA sur des plateformes embarquées n'est pas simplement une question de compression de modèle. C'est un problème complexe d'ingénierie des systèmes qui nécessite une décomposition architecturale, une planification sensible à la latence et une exécution alignée sur le matériel. S'attaquer à ces défis est essentiel pour traduire les récentes avancées des modèles de fond multimodaux en systèmes robotiques embarqués pratiques et déployables.
Enregistrement de données : Ce qui compte vraiment
Dans le contexte de l'intégration de l'IA en robotique, la qualité des données enregistrées est primordiale. Des données de haute qualité et cohérentes surpassent des données "plus nombreuses mais désordonnées". Cette section transforme des leçons durement acquises en listes de contrôle et schémas concrets. Par exemple, pour la tâche "mettre le sachet de thé dans la tasse", plusieurs aspects doivent être pris en compte.
Cohérence d'abord
L'utilisation de caméras fixes est cruciale pour éviter la dérive de pose. Si, lors de l'enregistrement ou de l'évaluation, une ou plusieurs caméras se déplacent à cause des vibrations du robot ou de l'opérateur réinitialisant l'environnement, une perte de précision sévère peut être observée. De plus, aménager l'environnement de manière à avoir autant de contrôle que possible sur l'éclairage est essentiel. Cela inclut l'utilisation de sources de lumière fixes et l'éloignement de la lumière du soleil qui varie au cours de la journée. Maximiser le contraste entre le bras, l'objet et l'environnement est également recommandé pour éviter les erreurs de détection.
Assurez-vous d'avoir des sauvegardes de vos calibrations de robot et de téléopérateur afin de ne pas avoir à réenregistrer vos épisodes précédents si le code plante. Il est également crucial de ne pas utiliser d'informations auxquelles le modèle n'aura pas accès au moment de l'inférence. Lors de l'enregistrement des données, il est tentant pour l'opérateur de se fier à l'observation visuelle directe de la scène. Cependant, cela introduit des informations absentes de l'ensemble de données. La collecte des données doit être limitée aux mêmes entrées de caméra qui seront disponibles pour la politique à l'exécution.
Utiliser une caméra de préhension (fortement recommandé)
Passer de vues uniquement de la scène à des points de vue mixtes augmente la précision globale, mais plus vous avez de caméras, plus la latence est impactée. Par conséquent, vous devez choisir le bon compromis. Dans notre cas, cet équilibre a été atteint avec trois caméras : la vue globale de toute la scène, la vue la plus proche pour des saisies précises et un alignement, et compléter la vue de dessus pour la hauteur et la profondeur.
Nous recommandons fortement d'utiliser une caméra montée sur le préhenseur. Elle améliore systématiquement les taux de réussite dans les tâches de manipulation fine en fournissant un point de vue proche et pertinent pour la tâche. Il est également important de noter que c'est la caméra qui impose le plus efficacement des pratiques de collecte de données correctes, permettant à l'opérateur de se fier exclusivement à la perception du robot plutôt qu'à l'observation directe de la scène. Lors de l'installation d'une caméra de préhension, nous recommandons de sécuriser le câble avec du Velcro ou un guide de soulagement de traction pour éviter qu'il n'entrave le champ de vision ou ne se déconnecte pendant le mouvement.
Améliorer la préhension
Des ajustements matériels simples comme l'utilisation de manchons thermorétractables sur les griffes du préhenseur augmentent la friction, réduisent la rugosité, diminuent le glissement pendant les épisodes et augmentent le taux de réussite des tâches. Cela améliore ainsi la stabilité de l'apprentissage de la politique.
Diversité & répartitions
Lors de l'enregistrement d'un ensemble de données, il est important de varier la distribution des épisodes. Divisez votre espace de travail en clusters de positions de départ et enregistrez au moins 10 épisodes par cluster. Ajoutez de la diversité en changeant la position et la rotation de l'objet. Par exemple, nous avons partitionné l'espace de travail accessible du bras robotique en 11 clusters, chacun mesurant 10 × 10 cm.
Enfin, il est crucial de différencier les ensembles d'entraînement et de validation. Les politiques peuvent facilement surajuster l'ensemble d'entraînement, alors assurez-vous que l'ensemble de validation n'est pas vu par le modèle. Par exemple, nous avons retiré le cluster 6 de l'ensemble de validation pour éviter le surajustement.