Brief IA

Open-H-Embodiment : Révolutionner la robotique chirurgicale avec l'IA

🔬 Research·Tom Levy·

Open-H-Embodiment : Révolutionner la robotique chirurgicale avec l'IA

Open-H-Embodiment : Révolutionner la robotique chirurgicale avec l'IA
Key Takeaways
1Open-H-Embodiment rassemble 35 organisations pour créer un dataset ouvert en robotique chirurgicale et échographie.
2Le modèle GR00T-H, basé sur 600 heures de données, optimise les tâches chirurgicales avec des techniques avancées.
3Cosmos-H-Surgical-Simulator surmonte les défis réels en simulant des vidéos chirurgicales plausibles.
💡Why it mattersCes innovations pourraient transformer la chirurgie en rendant les interventions plus précises et autonomes.
Le brief IA que lisent les pros

Le brief IA que les pros lisent chaque soir

Les 7 actus IA du jour, décryptées en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
Full Analysis

Open-H-Embodiment : Une initiative collaborative pour l'IA en santé

L'initiative Open-H-Embodiment se distingue par sa volonté de créer une base de données ouverte et partagée pour l'IA dans la robotique chirurgicale et l'échographie. Ce projet ambitieux est dirigé par des figures de proue telles que le Prof. Axel Krieger de Johns Hopkins, le Prof. Nassir Navab de l'Université technique de Munich, et le Dr. Mahdi Azizian de NVIDIA. Actuellement, il regroupe 35 organisations internationales.

L'objectif est de constituer le premier dataset à grande échelle dédié à l'IA physique dans la robotique de santé. Ce dataset inclut 778 heures de données d'entraînement couvrant la robotique chirurgicale, l'autonomie d'échographie et de coloscopie. Il englobe des simulations, des exercices sur banc tels que la suture, ainsi que des procédures cliniques réelles. Les données sont collectées à l'aide de robots commerciaux comme ceux de CMR Surgical, Rob Surgical, Tuodao, ainsi que des robots de recherche tels que dVRK, Franka, et Kuka. Deux nouveaux modèles open-source ont été publiés après avoir été entraînés sur ces données.

GR00T-H : Un modèle de langage visuel pour la chirurgie

Le modèle GR00T-H est un développement majeur dans le domaine de la robotique chirurgicale. Entraîné sur environ 600 heures de données issues d'Open-H-Embodiment, il représente le premier modèle de politique pour les tâches chirurgicales. GR00T-H est un dérivé de la série de modèles de Vision-Language-Action (VLA) Isaac GR00T N. Basé sur l'écosystème open-source de NVIDIA, il utilise le modèle de langage visuel Cosmos Reason 2 2B.

Innovations techniques de GR00T-H

  • Projecteurs d'incarnation uniques : Un MLP unique adapte la cinématique de chaque robot à un espace d'action commun.
  • Dropout d'état (100%) : Les entrées proprioceptives sont ignorées pendant l'inférence, améliorant ainsi les résultats réels.
  • Actions relatives d'EEF : Un espace d'action d'effecteur final commun est utilisé pour surmonter les incohérences.
  • Métadonnées dans les invites de tâche : Les noms d'instruments et les indices de contrôle sont intégrés directement dans les invites de tâche.

GR00T-H a démontré sa capacité à réaliser une suture complète dans le benchmark SutureBot, prouvant sa dextérité sur de longues périodes.

Cosmos-H-Surgical-Simulator : Un simulateur avancé pour la chirurgie

Le Cosmos-H-Surgical-Simulator est un modèle mondial fondamental conçu pour la robotique chirurgicale. Il surmonte les limitations des simulateurs traditionnels grâce à des vidéos chirurgicales générées de manière plausible à partir d'actions cinématiques. Les simulateurs traditionnels échouent souvent en raison des complexités du monde réel, telles que les tissus mous, les réflexions, le sang et la fumée.

Caractéristiques clés du simulateur

  • Surmonter l'écart Sim-to-Real : Utilisant NVIDIA Cosmos Predict 2.5 2B, il crée des vidéos chirurgicales réalistes.
  • Gains d'efficacité : Pour 600 déploiements, il n'a fallu que 40 minutes en simulation, contre 2 jours avec des méthodes traditionnelles.
  • WFM comme simulateur physique : Apprend la déformation des tissus et l'interaction des outils à partir des données.
  • Génération de données synthétiques : Produit des paires vidéo-action synthétiques pour enrichir les datasets.

Le modèle a été affiné sur le dataset Open-H-Embodiment, utilisant 9 incarnations de robots et 32 ensembles de données. Ce processus a mobilisé 64 GPU A100 sur 10 000 heures GPU, exploitant un espace d'action de 44 dimensions.

Vers une autonomie raisonnée en robotique chirurgicale

L'initiative Open-H-Embodiment vise à évoluer vers une autonomie capable de raisonnement, similaire à un moment de type ChatGPT pour la robotique chirurgicale. L'objectif de la version 2 est de dépasser le simple contrôle perceptuel pour atteindre une autonomie raisonnée, où les systèmes peuvent expliquer, planifier et s'adapter au cours de longues procédures. Cela implique d'élargir le dataset avec des données prêtes pour le raisonnement, incluant des traces de tâches annotées. L'engagement communautaire est crucial pour cet objectif, et les contributions sont encouragées via le Open-H Github Repo.

Ressources et accès

Pour ceux intéressés par l'exploration de ces avancées, plusieurs ressources sont disponibles :

  • Open-H-Embodiment : HF Dataset / Github Repo
  • Modèle NVIDIA Isaac GR00T-H : HF Model / GR00T-H Github Repo
  • NVIDIA Cosmos-H-Surgical-Simulator : HF Model / Github Repo
  • Cosmos Cookbook : Guide étape par étape pour construire votre propre WFM
  • Hugging Face : Découvrez de nouveaux modèles et ensembles de données Cosmos ouverts.

Brief IA — L'actualité IA en français

L'essentiel de l'actualité de l'intelligence artificielle, décrypté et expliqué chaque jour.