Brief IA

Toutes les IA échouent à ce test d’humanité

🤖 Models & LLMvia Numerama IA·Lisa Imperatrice·

Toutes les IA échouent à ce test d’humanité

Toutes les IA échouent à ce test d’humanité
En bref
1Le benchmark ARC-AGI-3 teste des systèmes d’IA agentiques dans des environnements interactifs, révélant des lacunes dans leur compréhension humaine.
2Les modèles d’IA les plus performants échouent à ce test, indiquant un taux d'échec significatif dans l'évaluation de l'intelligence humaine.
3Ce constat remet en question la capacité des IA à interagir de manière authentique, soulignant un fossé entre les performances techniques et l'intelligence émotionnelle.
💡Pourquoi c'est importantLa nécessité d'améliorations dans les IA est cruciale pour développer des applications capables de comprendre et d'interagir efficacement avec les humains.
📄
Article traduit en français

Toutes les IA échouent à ce test d’humanité

Le 27 mars 2026, une nouvelle version du benchmark ARC-AGI, nommée ARC-AGI-3, a été publiée. Ce test évalue des systèmes d’IA dits « agentiques », capables d’agir et d’apprendre dans des environnements interactifs. Malgré leurs performances impressionnantes sur d'autres benchmarks, les meilleurs modèles d'IA échouent largement à ce test.

Contexte du benchmark

Les précédents tests, ARC-AGI-1 et ARC-AGI-2, conçus par le chercheur français François Chollet, visaient à mesurer la capacité des modèles à abstraire et à généraliser à partir de quelques exemples.

  • ARC-AGI-1 proposait des puzzles simples pour les humains, mais déroutants pour les modèles.
  • ARC-AGI-2, lancé en mars 2025, a introduit des tâches plus complexes, augmentant la difficulté.

Les performances des IA se sont améliorées au fil du temps, mais cette dynamique semble atteindre ses limites.

Les résultats d'ARC-AGI-3

Avec ARC-AGI-3, les modèles sont confrontés à des environnements interactifs où ils doivent agir étape par étape, sans instructions explicites. Ce benchmark est conçu pour que 100 % des environnements soient solvables par des humains, et des volontaires non entraînés réussissent effectivement. En revanche, les systèmes d’IA de pointe affichent des taux de réussite inférieurs à 1 % :

Objectifs et méthodologie

ARC-AGI-3 se compose de mini-« jeux » abstraits joués au tour par tour. Les agents doivent :

  • Observer l’état de l’environnement
  • Choisir une action
  • Évaluer le résultat avant de décider du coup suivant

Le test ne repose pas sur des connaissances du monde ou du langage, mais sur des capacités de raisonnement de base, telles que :

  • Détecter des régularités
  • Manipuler des objets
  • Anticiper les conséquences de ses actions

Définition de l'AGI

Pour l’équipe ARC, l'AGI est définie comme la capacité d’un système à acquérir n’importe quelle compétence humaine avec la même efficacité qu’un humain. L'intelligence n'est pas simplement la somme des compétences, mais la vitesse et l'économie d'apprentissage de nouvelles compétences.

Conclusion

ARC-AGI-3 sert de thermomètre pour mesurer l'écart entre les modèles d'IA et l'intelligence humaine. Malgré les avancées technologiques, toutes les IA vedettes échouent à ce test, soulignant les défis persistants dans le domaine de l'intelligence artificielle. Toutefois, cela pourrait n'être qu'une question de temps avant que des progrès significatifs ne soient réalisés.

TwitterLinkedIn

Brief IA — Veille IA quotidienne

Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.