Brief IA

Intégration de l'IA en robotique sur des plateformes embarquées : Enregistrement de données, ajustement fin VLA et optimisations sur appareil

💡 Cas d'usagevia HuggingFace·

Intégration de l'IA en robotique sur des plateformes embarquées : Enregistrement de données, ajustement fin VLA et optimisations sur appareil

Intégration de l'IA en robotique sur des plateformes embarquées : Enregistrement de données, ajustement fin VLA et optimisations sur appareil

⚡ Résumé en français par Brief IA

Cet article explore l'application de l'intelligence artificielle en robotique sur des plateformes embarquées. Il aborde les techniques d'enregistrement de données, l'ajustement fin des modèles VLA, ainsi que les optimisations nécessaires pour le fonctionnement sur appareil. Ces avancées visent à améliorer l'efficacité et la performance des systèmes robotiques intégrés.

📄 Article traduit en français

Intégration de l'IA en robotique sur des plateformes embarquées : Enregistrement de données, ajustement fin VLA et optimisations sur appareil

Avancées récentes

Les récentes avancées dans les modèles de langage de grande taille ont permis la transition d'un raisonnement uniquement textuel vers des systèmes multimodaux. D'abord, avec l'intégration de la perception visuelle dans les modèles vision-langage (VLM), et plus récemment avec la génération d'actions de robot dans les modèles vision-langage-action (VLA). Le déploiement de ces modèles sur des plateformes robotiques embarquées reste un défi en raison de contraintes strictes en matière de calcul, de mémoire et d'énergie, ainsi que des exigences de contrôle en temps réel.

Dans les pipelines de contrôle synchrones, alors que le VLA exécute des inférences, le bras est inactif en attente de commandes, ce qui entraîne un comportement oscillatoire et des corrections retardées. Pour remédier à cela, l'inférence asynchrone peut permettre un mouvement fluide et continu en dissociant la génération de l'exécution. Cependant, pour être efficace, la latence d'inférence de bout en bout doit rester inférieure à la durée d'exécution de l'action. Cette contrainte temporelle fixe donc une limite supérieure au débit du modèle.

Amener les modèles VLA sur des plateformes embarquées n'est pas une question de compression de modèle, mais un problème complexe d'ingénierie des systèmes nécessitant une décomposition architecturale, une planification sensible à la latence et une exécution alignée sur le matériel. S'attaquer à ces défis est essentiel pour traduire les récentes avancées des modèles de fond multimodaux en systèmes robotiques embarqués pratiques et déployables.

Enregistrement de données : Ce qui compte vraiment

Des données de haute qualité et cohérentes surpassent des données "plus nombreuses mais désordonnées". Cette section transforme des leçons durement acquises en listes de contrôle et schémas concrets.

Dans notre cas, nous avons enregistré un ensemble de données pour la tâche : "Mettre le sachet de thé dans la tasse."

  1. Cohérence d'abord
  • Caméras fixes : Utilisez des supports rigides pour éviter le dérive de pose. Si, lors de l'enregistrement ou de l'évaluation, une ou plusieurs caméras se déplacent à cause des vibrations du robot ou de l'opérateur réinitialisant l'environnement, vous pouvez observer une perte de précision sévère.

  • Éclairage contrôlé : Aménagez votre environnement de manière à avoir autant de contrôle que possible sur l'éclairage (source(s) de lumière fixe(s) et éloignées de la lumière du soleil qui varie au cours de la journée).

  • Fort contraste : Évitez de former avec "blanc sur blanc" à moins que cela ne soit votre domaine de déploiement. Maximisez le contraste entre le bras, l'objet et l'environnement.

  • Calibration fixe : Assurez-vous d'avoir des sauvegardes de vos calibrations de robot et de téléopérateur afin de ne pas avoir à réenregistrer vos épisodes précédents si le code plante.

  • Ne pas tricher : Ne pas utiliser d'informations auxquelles le modèle n'aura pas accès au moment de l'inférence. Lors de l'enregistrement des données, il est tentant pour l'opérateur de se fier à l'observation visuelle directe de la scène. Cependant, cela introduit des informations absentes de l'ensemble de données. La collecte des données doit être limitée aux mêmes entrées de caméra qui seront disponibles pour la politique à l'exécution.

  1. Utiliser une caméra de préhension (fortement recommandé)

Passer de vues uniquement de la scène à des points de vue mixtes augmente la précision globale, mais plus vous avez de caméras, plus la latence est impactée. Par conséquent, vous devez choisir le bon compromis. Dans notre cas, cet équilibre a été atteint avec 3 caméras :

  • La vue globale de toute la scène.

  • La vue la plus proche pour des saisies précises et un alignement.

  • Compléter la vue de dessus pour la hauteur et la profondeur.

Nous recommandons fortement d'utiliser une caméra montée sur le préhenseur. Elle améliore systématiquement les taux de réussite dans les tâches de manipulation fine en fournissant un point de vue proche et pertinent pour la tâche. Il est également important de noter que c'est la caméra qui impose le plus efficacement des pratiques de collecte de données correctes, permettant à l'opérateur de se fier exclusivement à la perception du robot plutôt qu'à l'observation directe de la scène.

Lors de l'installation d'une caméra de préhension, nous recommandons de sécuriser le câble avec du Velcro ou un guide de soulagement de traction pour éviter qu'il n'entrave le champ de vision ou ne se déconnecte pendant le mouvement.

  1. Améliorer la préhension

Des ajustements matériels simples comme l'utilisation de manchons thermorétractables sur les griffes du préhenseur augmentent la friction, réduisent la rugosité, diminuent le glissement pendant les épisodes et augmentent le taux de réussite des tâches (moins d'épisodes "presque réussis"), améliorant ainsi la stabilité de l'apprentissage de la politique.

  1. Diversité & répartitions

Lors de l'enregistrement d'un ensemble de données, vous devriez :

  • Varier la distribution des épisodes : Divisez votre espace de travail en clusters de positions de départ et enregistrez au moins 10 épisodes par cluster. Ajoutez de la diversité en changeant la position et la rotation de l'objet.

    Par exemple, nous avons partitionné l'espace de travail accessible du bras robotique en 11 clusters, chacun mesurant 10 × 10 cm.

  • Différencier les ensembles d'entraînement et de validation : Les politiques peuvent facilement surajuster l'ensemble d'entraînement, alors assurez-vous que l'ensemble de validation n'est pas vu par le modèle.

    Par exemple, nous avons retiré le cluster 6.

TwitterLinkedIn

Brief IA — Veille IA en français

Toutes les innovations mondiales en IA, traduites et résumées automatiquement. Recevoir les meilleures actus IA chaque jour.