SWE-bench Verified : la moitié du code IA échoue à l'examen humain
Le brief IA que les pros lisent chaque soir
Les 7 actus IA du jour, décryptées en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Une étude critique sur la performance des agents IA
L'organisation de recherche METR a récemment publié une étude qui remet en question l'efficacité des benchmarks de codage utilisés pour évaluer les performances des agents d'intelligence artificielle. En se concentrant sur le benchmark SWE-bench Verified, largement reconnu dans le domaine, METR a découvert que ce test pourrait exagérer les capacités réelles des agents IA en développement logiciel.
Pour mener cette étude, METR a fait appel à quatre développeurs expérimentés dans le domaine de l'open-source. Ces experts ont examiné 296 contributions de code générées par des agents IA. Leurs conclusions sont frappantes : environ la moitié des solutions qui avaient réussi les tests automatisés ont été jugées inacceptables pour une intégration dans des projets logiciels réels.
De nombreux rejets ne proviennent pas de simples problèmes stylistiques, mais d'erreurs fonctionnelles fondamentales. Les agents d'IA échouent souvent à corriger le problème sous-jacent, même lorsqu'ils parviennent à passer la suite de tests automatisés. Cela soulève des questions sur la véritable efficacité de ces outils dans des environnements de développement réels.
Les limites des tests automatisés
L'étude de METR met en lumière une faille significative dans le benchmark SWE-bench Verified. Bien que ce dernier soit utilisé pour évaluer si les agents IA peuvent résoudre des problèmes de programmation réels, il semble qu'il surestime les capacités de ces agents. En effet, environ la moitié des solutions marquées comme "acceptées" par le benchmark seraient rejetées par des développeurs humains dans des contextes de projets concrets.
SWE-bench Verified est un outil de référence pour de nombreuses entreprises, dont Anthropic et OpenAI, qui s'appuient sur ses résultats pour démontrer les avancées de leurs modèles. Cependant, l'étude de METR, dirigée par Parker Whitfill, Cheryl Wu, Joel Becker et Nate Rush, soulève des doutes sérieux quant à la validité de ces affirmations.
L'équipe de recherche a fait examiner un total de 296 contributions de code générées par l'IA par quatre développeurs expérimentés qui maintiennent activement trois projets SWE-bench : scikit-learn, Sphinx et pytest. Environ la moitié des solutions ayant passé le test automatisé ne seraient jamais intégrées dans la base de code réelle par les mainteneurs de projet.
Une évaluation humaine plus stricte
L'étude a impliqué une analyse approfondie des solutions générées par cinq modèles d'IA : Claude 3.5 Sonnet (Old), Claude 3.7 Sonnet, Claude 4 Opus, Claude 4.5 Sonnet, et GPT-5. Les tests ont été réalisés à partir du Benchmarking Hub d'Epoch AI, sans que les mainteneurs sachent si les solutions provenaient d'humains ou d'IA.
Pour évaluer la fiabilité des jugements humains, les chercheurs ont également demandé aux mainteneurs d'évaluer des solutions humaines déjà intégrées dans les projets. Seulement 68 % de ces solutions ont été réapprouvées, ce qui montre que même les contributions humaines ne sont pas toujours parfaites. En moyenne, le taux d'adoption des solutions IA était de 24 points de pourcentage inférieur au score attribué par SWE-bench.
Les résultats ont été normalisés par rapport à cette référence, montrant une différence statistiquement significative. Le taux d'amélioration au fil du temps est également d'environ 9,6 points de pourcentage inférieur par an lorsqu'il est mesuré par des évaluations humaines, bien que les chercheurs eux-mêmes notent que ce résultat est statistiquement plus faible.
Les raisons des rejets
Les mainteneurs ont catégorisé les rejets en trois grandes raisons : mauvaise qualité de code, dommages au code existant, et erreurs fonctionnelles basiques. Ces dernières, en particulier, ont été identifiées comme une cause majeure de rejet. Les agents IA, bien qu'ils réussissent les tests automatisés, ne parviennent pas à corriger les problèmes sous-jacents.
Le passage de Claude 3.5 Sonnet à Claude 3.7 Sonnet a produit des taux de réussite significativement plus élevés, mais a également conduit à plus de cas où les mainteneurs ont signalé des erreurs fonctionnelles basiques. De Claude 3.7 à Claude 4 Opus, les problèmes ont évolué de "test échoué" à "simplement mauvaise qualité de code". Claude 4.5 Sonnet a principalement amélioré la qualité du code. GPT-5 a obtenu des performances significativement inférieures à celles des modèles d'Anthropic dans cette étude.
Une analyse temporelle révélatrice
Les chercheurs ont également réalisé une analyse de l'horizon temporel pour comparer les scores de benchmark avec le temps de réalisation humaine. Les résultats montrent un écart significatif : par exemple, Claude 4.5 Sonnet atteint un taux de réussite de 50 % en environ 50 minutes selon le vérificateur automatisé, mais seulement 8 minutes selon les mainteneurs humains.
Cette analyse souligne que les benchmarks, bien qu'utiles, ne sont pas des indicateurs parfaits de la performance réelle des agents IA. Les retours pratiques et l'évaluation humaine restent cruciaux pour une appréciation précise des capacités des modèles.
Ce que METR décrit ici est quelque chose que le domaine sait déjà : les benchmarks sont, au mieux, un proxy pour la performance réelle de l'IA. Les retours pratiques sont plus importants. Les deux côtés de l'argument existent ; de nombreux développeurs affirment que les agents d'IA aident réellement à coder, tandis que d'autres soulignent de sérieuses préoccupations concernant la qualité du code généré par l'IA.
Les implications pour le développement logiciel
L'étude de METR ne prétend pas que les modèles IA ont atteint un plafond de capacité. Au contraire, elle suggère que des améliorations dans la formulation des tâches et des instructions pourraient réduire l'écart entre les évaluations automatisées et humaines.
Cependant, la comparaison n'était pas totalement équitable : les développeurs humains peuvent réviser leur code en réponse aux retours, ce qui n'était pas le cas pour les agents IA dans cette étude. De plus, les mainteneurs n'avaient pas accès aux outils de test automatisés, et les problèmes provenaient d'états de projet plus anciens.
L'engouement pour le codage par IA des quatre derniers mois tourne également autour de nouveaux modèles comme GPT-5.2-Thinking et Claude Opus 4.5. Ces modèles n'ont pas fait partie du test ; l'étude n'a examiné que des prédécesseurs plus faibles.
En conclusion, cette étude souligne l'importance de ne pas prendre les scores de benchmark pour argent comptant. Les résultats de SWE-bench Verified pourraient surestimer l'utilité des agents IA sans ajustements supplémentaires et retours humains. Les chercheurs de METR soupçonnent que des distorsions similaires pourraient exister dans d'autres benchmarks, ce qui pourrait avoir des implications importantes pour les entreprises et les investisseurs dans le domaine de l'IA.
Joel Becker, co-auteur et chercheur chez METR, met également ses propres résultats en perspective sur X. Son principal enseignement n'est pas que les agents d'IA sont fondamentalement inutiles. Avec des capacités d'IA doublant tous les trois à six mois, même des écarts de performance de deux à dix fois se comblent rapidement.
Brief IA — L'actualité IA en français
L'essentiel de l'actualité de l'intelligence artificielle, décrypté et expliqué chaque jour.