Brief IA : Google Deepmind : l'IA médicale surpasse GPT-5.4
🤖 Modèles & LLM

Google Deepmind : l'IA médicale surpasse GPT-5.4

Brief IA
Tom Levy·4 min·8 vues

L'IA co-clinicienne de Google Deepmind a surpassé GPT-5.4 dans des tests à l'aveugle, démontrant une performance supérieure selon des médecins évaluateurs. Cependant, elle reste inférieure aux médecins expérimentés, notamment pour l'identification de signes critiques et la réalisation d'examens physiques. Cette avancée souligne le potentiel de l'IA dans le domaine médical tout en révélant les défis à surmonter pour son adoption généralisée.

En bref
1L'IA co-clinicienne de Google Deepmind a surpassé GPT-5.4 dans des tests à l'aveugle, mais reste derrière les médecins expérimentés.
2Lors de tests sur 98 requêtes médicales, l'IA a été préférée aux autres outils avec un score de 67 à 26 contre un outil existant.
3Dans le benchmark RxQA, l'IA a obtenu 73,3 % de bonnes réponses, dépassant GPT-5.4, mais les médecins restent meilleurs pour les tâches critiques.
💡Pourquoi c'est importantL'IA co-clinicienne promet d'assister les médecins, mais ne peut pas encore remplacer leur expertise dans les situations critiques.
Le brief IA que lisent les pros

Le brief IA que les pros lisent chaque soir

Les 7 actus IA du jour, décryptées en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Google Deepmind développe une IA co-clinicienne prometteuse

Google Deepmind a mis au point une IA co-clinicienne conçue pour assister les médecins dans le diagnostic et le traitement des patients lors des soins médicaux quotidiens. Cette IA a été testée lors d'évaluations à l'aveugle utilisant des scénarios réalistes de médecine générale. Les médecins ont jugé que les réponses fournies par ce système étaient supérieures à celles d'autres outils d'IA, y compris GPT-5.4. Cependant, malgré ces résultats prometteurs, une étude de simulation a révélé que les médecins expérimentés surpassaient toujours l'IA, notamment pour identifier des signes d'alerte critiques et réaliser des examens physiques.

L'IA co-clinicienne repose sur le concept de "soin triadique", où les agents d'IA assistent les patients tout en laissant aux médecins l'autorité clinique et la supervision. L'objectif est de créer un système d'IA qui fonctionne comme un membre de l'équipe médicale, soutenant les patients sous la supervision d'un clinicien. Pour évaluer ce système du point de vue d'un clinicien, l'équipe de Google Deepmind a collaboré avec des médecins académiques pour adapter le cadre NOHARM, vérifiant deux types d'erreurs : les erreurs de commission et les erreurs d'omission.

Comparaison des performances avec d'autres outils

Dans une comparaison à l'aveugle utilisant 98 requêtes réalistes de soins primaires, les médecins ont systématiquement préféré les réponses de l'IA co-clinicienne à celles d'un outil d'IA clinique existant, avec un score de 67 à 26 contre cet outil et de 63 à 30 contre GPT-5.4. Cependant, le système a enregistré une erreur critique dans l'un des 98 cas étudiés. L'écart était encore plus marqué sur les questions liées aux médicaments. Le benchmark RxQA couvre 600 questions sur les ingrédients actifs, les interactions et les dosages, tirées de répertoires nationaux de médicaments dans deux pays et vérifiées par des pharmaciens agréés. Ces questions sont difficiles pour les médecins de soins primaires : avec des livres de référence, ils ont obtenu 61,3 % de bonnes réponses, et seulement 48,3 % sans.

L'IA co-clinicienne a obtenu 73,3 %, juste devant GPT-5.4 à 72,7 %. L'écart s'est élargi lorsque les questions étaient posées de manière ouverte plutôt qu'en choix multiples, comme les médecins le font réellement dans leur travail. Dans ce cas, l'IA co-clinicienne a atteint un score de qualité de 95,0 %, contre 90,9 % pour le modèle d'OpenAI.

Télémédecine multimodale : une nouvelle dimension

Au-delà du soutien basé sur le texte, Google Deepmind teste comment l'IA co-clinicienne gère l'audio et la vidéo en temps réel pour la télémédecine. En collaboration avec des médecins de Harvard et Stanford, l'équipe a réalisé une étude de simulation randomisée avec 20 scénarios cliniques synthétiques, 10 médecins jouant des acteurs patients, et 120 visites de télémédecine au total.

L'IA co-clinicienne a montré des capacités qui vont au-delà de ce que les systèmes uniquement textuels peuvent faire. Elle a corrigé la technique d'inhalation d'un patient et a guidé les patients à travers des examens d'épaule pour détecter une blessure de la coiffe des rotateurs. Pour les conversations avec les patients, l'IA co-clinicienne fonctionne sur un système à deux agents : un module "Planificateur" surveille la conversation pour s'assurer que l'agent "Parleur" reste dans des limites cliniques sûres. Lorsque les médecins utilisent le système, il privilégie des preuves cliniques solides et effectue des vérifications et des citations lors des recherches.

Les médecins expérimentés conservent leur supériorité

L'étude a évalué plus de 140 aspects de la qualité de consultation dans sept domaines : triage, prise d'historique, raisonnement clinique, communication et conseil, étapes de traitement, détection des signes d'alerte, et examens physiques. La conclusion est décourageante pour quiconque espérant que l'IA puisse remplacer un médecin : les médecins expérimentés surpassent l'IA dans l'ensemble, en particulier pour détecter les "signes d'alerte" et guider des examens physiques critiques.

Cependant, l'IA co-clinicienne a égalé ou surpassé les médecins de soins primaires dans 68 des 140 domaines évalués. Le GPT-realtime d'OpenAI a été à la traîne dans tous les sept domaines. Les chercheurs concluent que des systèmes comme celui-ci fonctionnent mieux comme outils de soutien pour les médecins, et non comme un remplacement du jugement clinique.

Il reste incertain si ce projet de recherche se transformera en produit réel. Les résultats montrent des progrès dans la synthèse de preuves pilotée par l'IA et les consultations de télémédecine, mais ils soulignent également qu'il reste un écart à combler avec les médecins expérimentés, en particulier sur des tâches critiques pour la sécurité comme la détection des signes d'alerte. "Bien qu'il soit encore tôt, la promesse est claire", déclare le chercheur de Deepmind, Alan Karthikesalingam.

Commentaires