Brief IA

The Rise of Physical AI for Healthcare Robotics

🔬 Researchvia HuggingFace·

The Rise of Physical AI for Healthcare Robotics

The Rise of Physical AI for Healthcare Robotics

Résumé en français par Brief IA

• L'IA physique transforme les soins de santé grâce à des robots capables d'interagir avec les patients. • Le marché des robots médicaux devrait atteindre 20 milliards de dollars d'ici 2026. • Cette technologie permet d'améliorer l'efficacité des traitements tout en réduisant les coûts hospitaliers. 💡 Pourquoi c'est important : L'intégration de l'IA physique dans la santé pourrait révolutionner les soins, offrant des solutions plus accessibles et efficaces.

📄 Article traduit en français

L'essor de l'IA physique pour la robotique en santé

Open-H-Embodiment

Open-H-Embodiment est une initiative de dataset pilotée par la communauté, visant à établir la fondation ouverte et partagée nécessaire pour former et évaluer l'autonomie de l'IA et les modèles fondamentaux pour la robotique chirurgicale et l'échographie. Lancé par un comité directeur comprenant le Prof. Axel Krieger (Johns Hopkins), le Prof. Nassir Navab (Université technique de Munich) et le Dr. Mahdi Azizian (NVIDIA), cet effort regroupe désormais 35 organisations.

Des participants du monde entier se sont réunis pour créer le premier dataset à grande échelle afin de faire avancer la cause de l'IA physique dans la robotique de santé.

Données d'exemple d'Open-H-Embodiment :

  • Comprend 778 heures de données d'entraînement en robotique de santé, principalement en robotique chirurgicale, mais aussi en autonomie d'échographie et de coloscopie.
  • Englobe des simulations, des exercices sur banc (par exemple, la suture) et des procédures cliniques réelles.
  • Utilise des robots commerciaux (CMR Surgical, Rob Surgical, Tuodao) et des robots de recherche (dVRK, Franka, Kuka).
  • Publié avec deux nouveaux modèles open-source post-entraînés sur ces données.

GR00T-H : Modèle de langage visuel pour la robotique chirurgicale

Le premier modèle est GR00T-H, un dérivé de la série de modèles de Vision-Language-Action (VLA) Isaac GR00T N. Entraîné sur environ 600 heures de données d'Open-H-Embodiment, GR00T-H est le premier modèle de politique pour les tâches de robotique chirurgicale.

S'appuyant sur l'écosystème open-source de NVIDIA, Isaac GR00T-H utilise Cosmos Reason 2 2B comme son modèle de langage visuel (VLM).

Choix de conception architecturale :

  • Projecteurs d'incarnation uniques : Un MLP unique et apprenable mappe la cinématique spécifique de chaque robot à un espace d'action partagé et normalisé.

  • Dropout d'état (100%) : Les entrées proprioceptives sont supprimées pendant l'inférence pour créer un terme de biais appris pour chaque système, offrant de meilleurs résultats dans le monde réel.

  • Actions relatives d'EEF : L'entraînement utilise un espace d'action d'effecteur final (EEF) relatif commun pour surmonter les incohérences cinématiques.

  • Métadonnées dans les invites de tâche : Les noms d'instruments et le mappage des indices de contrôle sont injectés directement dans l'invite de tâche du VLM.

Un prototype de GR00T-H a démontré sa capacité à exécuter une suture complète de bout en bout dans le benchmark SutureBot, mettant en évidence une dextérité robuste sur de longues périodes.

Cosmos-H-Surgical-Simulator

Cosmos-H-Surgical-Simulator est un modèle fondamental mondial (WFM) pour la robotique chirurgicale conditionnée par l'action. Les simulateurs traditionnels échouent en raison des complexités du monde réel telles que les tissus mous, les réflexions, le sang et la fumée.

Capacités clés :

  • Surmonter l'écart Sim-to-Real : Finesse à partir de NVIDIA Cosmos Predict 2.5 2B, il génère des vidéos chirurgicales physiquement plausibles directement à partir d'actions cinématiques.

  • Gains d'efficacité : Pour 600 déploiements, il n'a fallu que 40 minutes en simulation contre 2 jours en utilisant des méthodes de banc réelles.

  • WFM en tant que simulateur physique : Apprend implicitement la déformation des tissus et l'interaction des outils à partir des données.

  • Génération de données synthétiques : Génère des paires vidéo-action synthétiques réalistes pour augmenter les ensembles de données sous-représentés.

Détails de l'affinage :

Le modèle a été affiné sur le dataset Open-H-Embodiment (9 incarnations de robots, 32 ensembles de données) en utilisant 64 GPU A100 pendant environ 10 000 heures GPU. Il utilise un espace d'action unifié de 44 dimensions.

Quelles sont les prochaines étapes : Vers un raisonnement pour la robotique chirurgicale

L'objectif de la version 2 de l'initiative Open-H-Embodiment est de passer au-delà du contrôle perceptuel vers une autonomie capable de raisonnement — un moment de ChatGPT pour la robotique chirurgicale — où les systèmes peuvent expliquer, planifier et s'adapter au cours de longues procédures. Cela nécessite d'étendre Open-H-Embodiment en données prêtes pour le raisonnement avec des traces de tâches annotées capturant les intentions, les résultats et les modes de défaillance. Cet effort nécessite l'engagement de la communauté, et nous vous invitons à vous impliquer. Visitez notre Open-H Github Repo pour contribuer à façonner l'avenir de la robotique en santé.

Commencez dès aujourd'hui

Accédez aux ressources suivantes pour commencer à travailler avec le dataset et les modèles Open-H-Embodiment :

  • Open-H-Embodiment : HF Dataset / Github Repo

  • Modèle NVIDIA Isaac GR00T-H : HF Model / GR00T-H Github Repo

  • NVIDIA Cosmos-H-Surgical-Simulator : HF Model / Github Repo

  • Cosmos Cookbook : Flux de travail étape par étape pour construire votre propre WFM pour votre incarnation

  • Explorez sur Hugging Face : Découvrez de nouveaux modèles et ensembles de données Cosmos ouverts sur Hugging Face et GitHub ou essayez des modèles sur build.nvidia.com.

TwitterLinkedIn

Brief IA — Veille IA quotidienne

Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.