Brief IA : Open-H-Embodiment : Révolutionner la robotique chirurgicale avec l'IA
🔬 Recherche

Open-H-Embodiment : Révolutionner la robotique chirurgicale avec l'IA

Brief IA
Tom Levy·4 min·10 vues

L'IA physique transforme les soins de santé avec des robots capables d'interagir avec les patients, et le marché des robots médicaux devrait atteindre 20 milliards de dollars d'ici 2026. Cette technologie améliore l'efficacité des traitements tout en réduisant les coûts hospitaliers, rendant les soins plus accessibles et efficaces.

En bref
1Open-H-Embodiment rassemble 35 organisations pour créer un dataset ouvert en robotique chirurgicale et échographie.
2Le modèle GR00T-H, basé sur 600 heures de données, optimise les tâches chirurgicales avec des techniques avancées.
3Cosmos-H-Surgical-Simulator surmonte les défis réels en simulant des vidéos chirurgicales plausibles.
💡Pourquoi c'est importantCes innovations pourraient transformer la chirurgie en rendant les interventions plus précises et autonomes.
Le brief IA que lisent les pros

La recherche en IA te passionne ?

Les papers et avancées qui comptent, expliqués simplement, chaque soir. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Open-H-Embodiment : Une initiative collaborative pour l'IA en santé

L'initiative Open-H-Embodiment se distingue par sa volonté de créer une base de données ouverte et partagée pour l'IA dans la robotique chirurgicale et l'échographie. Ce projet ambitieux est dirigé par des figures de proue telles que le Prof. Axel Krieger de Johns Hopkins, le Prof. Nassir Navab de l'Université technique de Munich, et le Dr. Mahdi Azizian de NVIDIA. Actuellement, il regroupe 35 organisations internationales.

L'objectif est de constituer le premier dataset à grande échelle dédié à l'IA physique dans la robotique de santé. Ce dataset inclut 778 heures de données d'entraînement couvrant la robotique chirurgicale, l'autonomie d'échographie et de coloscopie. Il englobe des simulations, des exercices sur banc tels que la suture, ainsi que des procédures cliniques réelles. Les données sont collectées à l'aide de robots commerciaux comme ceux de CMR Surgical, Rob Surgical, Tuodao, ainsi que des robots de recherche tels que dVRK, Franka, et Kuka. Deux nouveaux modèles open-source ont été publiés après avoir été entraînés sur ces données.

GR00T-H : Un modèle de langage visuel pour la chirurgie

Le modèle GR00T-H est un développement majeur dans le domaine de la robotique chirurgicale. Entraîné sur environ 600 heures de données issues d'Open-H-Embodiment, il représente le premier modèle de politique pour les tâches chirurgicales. GR00T-H est un dérivé de la série de modèles de Vision-Language-Action (VLA) Isaac GR00T N. Basé sur l'écosystème open-source de NVIDIA, il utilise le modèle de langage visuel Cosmos Reason 2 2B.

Innovations techniques de GR00T-H

  • Projecteurs d'incarnation uniques : Un MLP unique adapte la cinématique de chaque robot à un espace d'action commun.
  • Dropout d'état (100%) : Les entrées proprioceptives sont ignorées pendant l'inférence, améliorant ainsi les résultats réels.
  • Actions relatives d'EEF : Un espace d'action d'effecteur final commun est utilisé pour surmonter les incohérences.
  • Métadonnées dans les invites de tâche : Les noms d'instruments et les indices de contrôle sont intégrés directement dans les invites de tâche.

GR00T-H a démontré sa capacité à réaliser une suture complète dans le benchmark SutureBot, prouvant sa dextérité sur de longues périodes.

Cosmos-H-Surgical-Simulator : Un simulateur avancé pour la chirurgie

Le Cosmos-H-Surgical-Simulator est un modèle mondial fondamental conçu pour la robotique chirurgicale. Il surmonte les limitations des simulateurs traditionnels grâce à des vidéos chirurgicales générées de manière plausible à partir d'actions cinématiques. Les simulateurs traditionnels échouent souvent en raison des complexités du monde réel, telles que les tissus mous, les réflexions, le sang et la fumée.

Caractéristiques clés du simulateur

  • Surmonter l'écart Sim-to-Real : Utilisant NVIDIA Cosmos Predict 2.5 2B, il crée des vidéos chirurgicales réalistes.
  • Gains d'efficacité : Pour 600 déploiements, il n'a fallu que 40 minutes en simulation, contre 2 jours avec des méthodes traditionnelles.
  • WFM comme simulateur physique : Apprend la déformation des tissus et l'interaction des outils à partir des données.
  • Génération de données synthétiques : Produit des paires vidéo-action synthétiques pour enrichir les datasets.

Le modèle a été affiné sur le dataset Open-H-Embodiment, utilisant 9 incarnations de robots et 32 ensembles de données. Ce processus a mobilisé 64 GPU A100 sur 10 000 heures GPU, exploitant un espace d'action de 44 dimensions.

Vers une autonomie raisonnée en robotique chirurgicale

L'initiative Open-H-Embodiment vise à évoluer vers une autonomie capable de raisonnement, similaire à un moment de type ChatGPT pour la robotique chirurgicale. L'objectif de la version 2 est de dépasser le simple contrôle perceptuel pour atteindre une autonomie raisonnée, où les systèmes peuvent expliquer, planifier et s'adapter au cours de longues procédures. Cela implique d'élargir le dataset avec des données prêtes pour le raisonnement, incluant des traces de tâches annotées. L'engagement communautaire est crucial pour cet objectif, et les contributions sont encouragées via le Open-H Github Repo.

Ressources et accès

Pour ceux intéressés par l'exploration de ces avancées, plusieurs ressources sont disponibles :

  • Open-H-Embodiment : HF Dataset / Github Repo
  • Modèle NVIDIA Isaac GR00T-H : HF Model / GR00T-H Github Repo
  • NVIDIA Cosmos-H-Surgical-Simulator : HF Model / Github Repo
  • Cosmos Cookbook : Guide étape par étape pour construire votre propre WFM
  • Hugging Face : Découvrez de nouveaux modèles et ensembles de données Cosmos ouverts.
Commentaires