Pourquoi l'IA excelle-t-elle aux Olympiades de maths mais a-t-elle des difficultés à lire l'heure ?

L'IA a remporté des médailles d'or aux Olympiades internationales de mathématiques, mais elle ne réussit qu'à 50,6 % à lire une horloge, selon le rapport AI Index 2026 de Stanford publié le 13 avril 2026. Ce phénomène, appelé 'jagged intelligence', met en lumière les performances inégales des modèles d'IA, qui peuvent exceller dans des tâches complexes tout en échouant dans des tâches simples du quotidien. Reconnaître ces limites est crucial pour orienter les recherches futures sur l'IA. (Brief IA — briefia.fr).

Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

IA : Succès en maths, échecs sur l'heure, un paradoxe persiste

Brief IA

Tom Levy·28 avril 2026·3 min·7 vues

⚡

En bref

1Les modèles d'IA remportent des médailles d'or aux Olympiades de mathématiques, illustrant des capacités surhumaines dans des tâches complexes.

2Malgré ces succès, l'IA échoue à des tâches simples comme la lecture d'horloges, avec un taux de réussite de seulement 50,6 %.

3Le rapport AI Index 2026 de Stanford souligne l'inégalité des performances de l'IA, un phénomène appelé « jagged intelligence ».

💡Pourquoi c'est important — Cette disparité de performance complique l'intégration de l'IA dans des tâches quotidiennes, limitant son utilité pratique.

Des performances inégalées aux Olympiades de mathématiques

Le rapport AI Index 2026 de Stanford HAI, publié le 13 avril 2026 dans sa neuvième édition, met en lumière les performances exceptionnelles des modèles d'intelligence artificielle dans des contextes exigeants. En particulier, le modèle Gemini Deep Think de Google a remporté la médaille d'or aux Olympiades internationales de mathématiques 2025. Ce modèle a résolu cinq problèmes sur six en utilisant uniquement le langage naturel dans un délai de 4 heures 30, surpassant ainsi les performances de l'année précédente, où une médaille d'argent avait été obtenue après avoir traduit les problèmes en langage formel et plusieurs jours de calcul.

Des échecs surprenants dans des tâches simples

Malgré ces succès, l'IA montre des faiblesses notables dans des tâches plus simples. Par exemple, sur ClockBench, un test conçu pour évaluer la capacité des modèles à lire des horloges analogiques, le modèle GPT-5.4 High n'a atteint qu'un taux de réussite de 50,6 %, bien en deçà des 90,1 % obtenus par les humains. Les erreurs commises par les modèles sont significatives, avec une déviation médiane de 1 à 3 heures, comparée à seulement 3 minutes pour un humain.

La « jagged intelligence » : un défi persistant

Le phénomène de la « jagged intelligence », décrit dans le rapport de Stanford, illustre cette disparité de performance. Les modèles d'IA excellent dans certaines tâches complexes mais échouent dans des actions plus basiques. Cette inégalité est également visible dans le domaine de la robotique et des sciences. Par exemple, bien que les systèmes robotiques atteignent 89,4 % de réussite en simulation sur RLBench, l'équipe Robot Learning Collective, gagnante du BEHAVIOR Challenge 2025, n'a complété que 12,4 % des tâches ménagères réalistes.

Dans le domaine scientifique, plusieurs modèles dépassent en moyenne les chimistes humains sur ChemBench, mais tombent à moins de 20 % sur la réplication d’astrophysique et à 33 % sur les questions d’observation de la Terre.

Des limites dans l'entraînement des modèles

Les difficultés rencontrées par l'IA ne sont pas uniquement dues à un manque de données d'entraînement. Une étude de 2025, mentionnée dans le rapport, a tenté d'améliorer les performances des modèles sur la lecture d'horloges en utilisant 5 000 images synthétiques. Bien que les modèles aient progressé sur des horloges familières, ils ont échoué à généraliser sur des designs inhabituels. Le problème réside dans la manière dont les modèles interprètent les indices visuels, notamment la confusion entre les aiguilles des heures et des minutes.

Pour les professionnels du digital qui envisagent d’automatiser des tâches, cette frontière en dents de scie a une implication directe. Un modèle peut se montrer impressionnant sur une démo soigneusement choisie et défaillir sur une tâche apparemment plus simple. Le rapport en donne une nouvelle illustration avec OSWorld, un benchmark qui teste les agents IA sur de vraies tâches d’ordinateur (Ubuntu, Windows, macOS) : la performance est passée d’environ 12 % à 66,3 % de réussite en un an avec Claude Opus 4.5, à six points seulement de la moyenne humaine. Mais cela signifie aussi qu’environ une tâche sur trois est encore ratée, sur des actions que des étudiants en informatique réalisent en deux minutes. Dans ce contexte, tester les modèles sur ses propres cas d’usage reste le seul vrai indicateur de leur utilité opérationnelle.

IA : Succès en maths, échecs sur l'heure, un paradoxe persiste

Tu veux les meilleurs outils IA avant les autres ?

Des performances inégalées aux Olympiades de mathématiques

Des échecs surprenants dans des tâches simples

La « jagged intelligence » : un défi persistant

Des limites dans l'entraînement des modèles

ARC-AGI-3 : L'échec des IA face à un test d'humanité

L'IA d'entreprise : aveugle aux graphiques, un défi à relever

OpenAI et l'IA : percée dans un problème géométrique vieux de 80 ans

OpenAI : Mathématiques, clé de l'AGI selon ses chercheurs

OpenAI : une IA résout un problème mathématique vieux de 80 ans

LLM : Maîtres du code, mais en difficulté sur les tâches simples