Toutes les IA échouent à ce test d’humanité

Toutes les IA échouent à ce test d’humanité
Le 27 mars 2026, une nouvelle version du benchmark ARC-AGI, nommée ARC-AGI-3, a été publiée. Ce test évalue des systèmes d’IA dits « agentiques », capables d’agir et d’apprendre dans des environnements interactifs. Malgré leurs performances impressionnantes sur d'autres benchmarks, les meilleurs modèles d'IA échouent largement à ce test.
Contexte du benchmark
Les précédents tests, ARC-AGI-1 et ARC-AGI-2, conçus par le chercheur français François Chollet, visaient à mesurer la capacité des modèles à abstraire et à généraliser à partir de quelques exemples.
- ARC-AGI-1 proposait des puzzles simples pour les humains, mais déroutants pour les modèles.
- ARC-AGI-2, lancé en mars 2025, a introduit des tâches plus complexes, augmentant la difficulté.
Les performances des IA se sont améliorées au fil du temps, mais cette dynamique semble atteindre ses limites.
Les résultats d'ARC-AGI-3
Avec ARC-AGI-3, les modèles sont confrontés à des environnements interactifs où ils doivent agir étape par étape, sans instructions explicites. Ce benchmark est conçu pour que 100 % des environnements soient solvables par des humains, et des volontaires non entraînés réussissent effectivement. En revanche, les systèmes d’IA de pointe affichent des taux de réussite inférieurs à 1 % :
Objectifs et méthodologie
ARC-AGI-3 se compose de mini-« jeux » abstraits joués au tour par tour. Les agents doivent :
- Observer l’état de l’environnement
- Choisir une action
- Évaluer le résultat avant de décider du coup suivant
Le test ne repose pas sur des connaissances du monde ou du langage, mais sur des capacités de raisonnement de base, telles que :
- Détecter des régularités
- Manipuler des objets
- Anticiper les conséquences de ses actions
Définition de l'AGI
Pour l’équipe ARC, l'AGI est définie comme la capacité d’un système à acquérir n’importe quelle compétence humaine avec la même efficacité qu’un humain. L'intelligence n'est pas simplement la somme des compétences, mais la vitesse et l'économie d'apprentissage de nouvelles compétences.
Conclusion
ARC-AGI-3 sert de thermomètre pour mesurer l'écart entre les modèles d'IA et l'intelligence humaine. Malgré les avancées technologiques, toutes les IA vedettes échouent à ce test, soulignant les défis persistants dans le domaine de l'intelligence artificielle. Toutefois, cela pourrait n'être qu'une question de temps avant que des progrès significatifs ne soient réalisés.
Brief IA — Veille IA quotidienne
Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.