Brief IA : SWE-bench Verified : la moitié du code IA échoue à l'examen humain
🔬 Recherche

SWE-bench Verified : la moitié du code IA échoue à l'examen humain

Brief IA
Tom Levy·6 min·0 vues

Une étude de l'organisation de recherche METR révèle qu'environ 50 % des solutions de code générées par l'IA, qui réussissent le benchmark SWE-bench, seraient rejetées par de vrais développeurs. Cette situation soulève des préoccupations quant à la fiabilité du code produit par l'IA dans des environnements de développement réels, mettant en évidence la nécessité d'améliorer sa qualité.

En bref
1Une étude de METR révèle que 50 % du code IA validé par SWE-bench serait rejeté par des développeurs humains.
2Les tests automatisés ne détectent pas les erreurs fonctionnelles, surestimant la qualité du code IA.
3Les modèles Claude et GPT-5 montrent des performances inférieures aux attentes dans des projets réels.
💡Pourquoi c'est importantCes résultats remettent en question la fiabilité des benchmarks IA, influençant les décisions des entreprises et des investisseurs en technologie.
Le brief IA que lisent les pros

Le brief IA que les pros lisent chaque soir

Les 7 actus IA du jour, décryptées en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Une étude critique sur la performance des agents IA

L'organisation de recherche METR a récemment publié une étude qui remet en question l'efficacité des benchmarks de codage utilisés pour évaluer les performances des agents d'intelligence artificielle. En se concentrant sur le benchmark SWE-bench Verified, largement reconnu dans le domaine, METR a découvert que ce test pourrait exagérer les capacités réelles des agents IA en développement logiciel.

Pour mener cette étude, METR a fait appel à quatre développeurs expérimentés dans le domaine de l'open-source. Ces experts ont examiné 296 contributions de code générées par des agents IA. Leurs conclusions sont frappantes : environ la moitié des solutions qui avaient réussi les tests automatisés ont été jugées inacceptables pour une intégration dans des projets logiciels réels.

De nombreux rejets ne proviennent pas de simples problèmes stylistiques, mais d'erreurs fonctionnelles fondamentales. Les agents d'IA échouent souvent à corriger le problème sous-jacent, même lorsqu'ils parviennent à passer la suite de tests automatisés. Cela soulève des questions sur la véritable efficacité de ces outils dans des environnements de développement réels.

Les limites des tests automatisés

L'étude de METR met en lumière une faille significative dans le benchmark SWE-bench Verified. Bien que ce dernier soit utilisé pour évaluer si les agents IA peuvent résoudre des problèmes de programmation réels, il semble qu'il surestime les capacités de ces agents. En effet, environ la moitié des solutions marquées comme "acceptées" par le benchmark seraient rejetées par des développeurs humains dans des contextes de projets concrets.

SWE-bench Verified est un outil de référence pour de nombreuses entreprises, dont Anthropic et OpenAI, qui s'appuient sur ses résultats pour démontrer les avancées de leurs modèles. Cependant, l'étude de METR, dirigée par Parker Whitfill, Cheryl Wu, Joel Becker et Nate Rush, soulève des doutes sérieux quant à la validité de ces affirmations.

L'équipe de recherche a fait examiner un total de 296 contributions de code générées par l'IA par quatre développeurs expérimentés qui maintiennent activement trois projets SWE-bench : scikit-learn, Sphinx et pytest. Environ la moitié des solutions ayant passé le test automatisé ne seraient jamais intégrées dans la base de code réelle par les mainteneurs de projet.

Une évaluation humaine plus stricte

L'étude a impliqué une analyse approfondie des solutions générées par cinq modèles d'IA : Claude 3.5 Sonnet (Old), Claude 3.7 Sonnet, Claude 4 Opus, Claude 4.5 Sonnet, et GPT-5. Les tests ont été réalisés à partir du Benchmarking Hub d'Epoch AI, sans que les mainteneurs sachent si les solutions provenaient d'humains ou d'IA.

Pour évaluer la fiabilité des jugements humains, les chercheurs ont également demandé aux mainteneurs d'évaluer des solutions humaines déjà intégrées dans les projets. Seulement 68 % de ces solutions ont été réapprouvées, ce qui montre que même les contributions humaines ne sont pas toujours parfaites. En moyenne, le taux d'adoption des solutions IA était de 24 points de pourcentage inférieur au score attribué par SWE-bench.

Les résultats ont été normalisés par rapport à cette référence, montrant une différence statistiquement significative. Le taux d'amélioration au fil du temps est également d'environ 9,6 points de pourcentage inférieur par an lorsqu'il est mesuré par des évaluations humaines, bien que les chercheurs eux-mêmes notent que ce résultat est statistiquement plus faible.

Les raisons des rejets

Les mainteneurs ont catégorisé les rejets en trois grandes raisons : mauvaise qualité de code, dommages au code existant, et erreurs fonctionnelles basiques. Ces dernières, en particulier, ont été identifiées comme une cause majeure de rejet. Les agents IA, bien qu'ils réussissent les tests automatisés, ne parviennent pas à corriger les problèmes sous-jacents.

Le passage de Claude 3.5 Sonnet à Claude 3.7 Sonnet a produit des taux de réussite significativement plus élevés, mais a également conduit à plus de cas où les mainteneurs ont signalé des erreurs fonctionnelles basiques. De Claude 3.7 à Claude 4 Opus, les problèmes ont évolué de "test échoué" à "simplement mauvaise qualité de code". Claude 4.5 Sonnet a principalement amélioré la qualité du code. GPT-5 a obtenu des performances significativement inférieures à celles des modèles d'Anthropic dans cette étude.

Une analyse temporelle révélatrice

Les chercheurs ont également réalisé une analyse de l'horizon temporel pour comparer les scores de benchmark avec le temps de réalisation humaine. Les résultats montrent un écart significatif : par exemple, Claude 4.5 Sonnet atteint un taux de réussite de 50 % en environ 50 minutes selon le vérificateur automatisé, mais seulement 8 minutes selon les mainteneurs humains.

Cette analyse souligne que les benchmarks, bien qu'utiles, ne sont pas des indicateurs parfaits de la performance réelle des agents IA. Les retours pratiques et l'évaluation humaine restent cruciaux pour une appréciation précise des capacités des modèles.

Ce que METR décrit ici est quelque chose que le domaine sait déjà : les benchmarks sont, au mieux, un proxy pour la performance réelle de l'IA. Les retours pratiques sont plus importants. Les deux côtés de l'argument existent ; de nombreux développeurs affirment que les agents d'IA aident réellement à coder, tandis que d'autres soulignent de sérieuses préoccupations concernant la qualité du code généré par l'IA.

Les implications pour le développement logiciel

L'étude de METR ne prétend pas que les modèles IA ont atteint un plafond de capacité. Au contraire, elle suggère que des améliorations dans la formulation des tâches et des instructions pourraient réduire l'écart entre les évaluations automatisées et humaines.

Cependant, la comparaison n'était pas totalement équitable : les développeurs humains peuvent réviser leur code en réponse aux retours, ce qui n'était pas le cas pour les agents IA dans cette étude. De plus, les mainteneurs n'avaient pas accès aux outils de test automatisés, et les problèmes provenaient d'états de projet plus anciens.

L'engouement pour le codage par IA des quatre derniers mois tourne également autour de nouveaux modèles comme GPT-5.2-Thinking et Claude Opus 4.5. Ces modèles n'ont pas fait partie du test ; l'étude n'a examiné que des prédécesseurs plus faibles.

En conclusion, cette étude souligne l'importance de ne pas prendre les scores de benchmark pour argent comptant. Les résultats de SWE-bench Verified pourraient surestimer l'utilité des agents IA sans ajustements supplémentaires et retours humains. Les chercheurs de METR soupçonnent que des distorsions similaires pourraient exister dans d'autres benchmarks, ce qui pourrait avoir des implications importantes pour les entreprises et les investisseurs dans le domaine de l'IA.

Joel Becker, co-auteur et chercheur chez METR, met également ses propres résultats en perspective sur X. Son principal enseignement n'est pas que les agents d'IA sont fondamentalement inutiles. Avec des capacités d'IA doublant tous les trois à six mois, même des écarts de performance de deux à dix fois se comblent rapidement.

Commentaires