Tu veux les meilleurs outils IA avant les autres ?
On teste et on décrypte les nouveaux outils IA chaque soir, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Des performances inégalées aux Olympiades de mathématiques
Le rapport AI Index 2026 de Stanford HAI, publié le 13 avril 2026 dans sa neuvième édition, met en lumière les performances exceptionnelles des modèles d'intelligence artificielle dans des contextes exigeants. En particulier, le modèle Gemini Deep Think de Google a remporté la médaille d'or aux Olympiades internationales de mathématiques 2025. Ce modèle a résolu cinq problèmes sur six en utilisant uniquement le langage naturel dans un délai de 4 heures 30, surpassant ainsi les performances de l'année précédente, où une médaille d'argent avait été obtenue après avoir traduit les problèmes en langage formel et plusieurs jours de calcul.
Des échecs surprenants dans des tâches simples
Malgré ces succès, l'IA montre des faiblesses notables dans des tâches plus simples. Par exemple, sur ClockBench, un test conçu pour évaluer la capacité des modèles à lire des horloges analogiques, le modèle GPT-5.4 High n'a atteint qu'un taux de réussite de 50,6 %, bien en deçà des 90,1 % obtenus par les humains. Les erreurs commises par les modèles sont significatives, avec une déviation médiane de 1 à 3 heures, comparée à seulement 3 minutes pour un humain.
La « jagged intelligence » : un défi persistant
Le phénomène de la « jagged intelligence », décrit dans le rapport de Stanford, illustre cette disparité de performance. Les modèles d'IA excellent dans certaines tâches complexes mais échouent dans des actions plus basiques. Cette inégalité est également visible dans le domaine de la robotique et des sciences. Par exemple, bien que les systèmes robotiques atteignent 89,4 % de réussite en simulation sur RLBench, l'équipe Robot Learning Collective, gagnante du BEHAVIOR Challenge 2025, n'a complété que 12,4 % des tâches ménagères réalistes.
Dans le domaine scientifique, plusieurs modèles dépassent en moyenne les chimistes humains sur ChemBench, mais tombent à moins de 20 % sur la réplication d’astrophysique et à 33 % sur les questions d’observation de la Terre.
Des limites dans l'entraînement des modèles
Les difficultés rencontrées par l'IA ne sont pas uniquement dues à un manque de données d'entraînement. Une étude de 2025, mentionnée dans le rapport, a tenté d'améliorer les performances des modèles sur la lecture d'horloges en utilisant 5 000 images synthétiques. Bien que les modèles aient progressé sur des horloges familières, ils ont échoué à généraliser sur des designs inhabituels. Le problème réside dans la manière dont les modèles interprètent les indices visuels, notamment la confusion entre les aiguilles des heures et des minutes.
Pour les professionnels du digital qui envisagent d’automatiser des tâches, cette frontière en dents de scie a une implication directe. Un modèle peut se montrer impressionnant sur une démo soigneusement choisie et défaillir sur une tâche apparemment plus simple. Le rapport en donne une nouvelle illustration avec OSWorld, un benchmark qui teste les agents IA sur de vraies tâches d’ordinateur (Ubuntu, Windows, macOS) : la performance est passée d’environ 12 % à 66,3 % de réussite en un an avec Claude Opus 4.5, à six points seulement de la moyenne humaine. Mais cela signifie aussi qu’environ une tâche sur trois est encore ratée, sur des actions que des étudiants en informatique réalisent en deux minutes. Dans ce contexte, tester les modèles sur ses propres cas d’usage reste le seul vrai indicateur de leur utilité opérationnelle.

