Dette technique : quel modèle d'IA génère le code le plus maintenable ?

⚡ Résumé en français par Brief IA
📄 Article traduit en français
Dette technique : quel modèle d'IA génère le code le plus maintenable ?
La génération de code par l'IA soulève des questions de maintenabilité à long terme. Tous les modèles génératifs ne se valent pas en la matière.
L'IA permet de générer du code à un rythme sans précédent, mais la maintenabilité est une autre problématique. L'essor du vibe coding en entreprise a aggravé la situation : au lieu de produire du code maintenable par défaut, les agents d'IA génèrent du code fonctionnel sans prendre en compte les contraintes à long terme. L'installation systématique de dépendances tierces et la réécriture complète de stacks existantes sont des dérives fréquentes. Cela représente un véritable obstacle pour les entreprises, qui dépendent notamment du modèle sous-jacent. Selon des chercheurs de la Sun Yat-sen University et d'Alibaba, tous les LLM (modèles de langage de grande taille) ne génèrent pas la même qualité de code sur la durée, et leurs résultats sont surprenants.
SWE-CI, pour évaluer la maintenabilité du code
Pour classer et évaluer la maintenabilité du code généré par les LLM, les chercheurs ont développé un nouveau benchmark : SWE-CI. Cette approche diffère des benchmarks de code classiques, comme SWE-bench, où l'agent reçoit un bug et génère un patch en une seule fois. Avec SWE-CI, l'IA n'est plus chargée de résoudre un problème ponctuel, mais de maintenir un logiciel sur le long terme.
Concrètement, un vrai projet logiciel open source (extrait de GitHub) est utilisé, et l'IA reçoit sa version d'il y a plusieurs mois. Sa mission consiste à faire évoluer ce projet jusqu'à sa version actuelle, fonctionnalité par fonctionnalité, en enchaînant des dizaines de cycles de modifications. En moyenne, l'écart entre les deux versions représente 233 jours de développement humain. Le dataset final comprend 100 tâches tirées de 68 projets Python matures et reconnus par la communauté des développeurs.
Concernant l'évaluation, le modèle ne reçoit pas la liste des modifications à effectuer : il doit les découvrir lui-même. À chaque cycle, il analyse l'écart entre sa version du code et la version cible, identifie les problèmes prioritaires, puis les corrige. Ce cycle se répète jusqu'à 20 fois par tâche. Les chercheurs notent le résultat avec une métrique maison, l'EvoScore, qui valorise surtout la qualité du code en fin de parcours. Un modèle qui produit du code propre et bien structuré dès le début aura encore de la marge de manœuvre en fin de parcours, tandis qu'un modèle qui empile des rustines finira par s'effondrer sous son propre poids.
Claude Opus 4.6 et GLM-5 dans le haut du classement
Classement général de la maintenabilité du code généré par les modèles :
- Claude Opus 4.6 domine largement le classement avec un score estimé autour de 0.85-0.90, loin devant le reste du peloton.
- Claude Opus 4.5 et GLM-5 suivent dans une fourchette de 0.60-0.65, formant un deuxième tier.
- Qwen3.5-plus, MiniMax-M2.5 et Kimi-K2.5 se situent autour de 0.45-0.50.
- DeepSeek-V3.2 et GPT-5.2 se trouvent en milieu de tableau.
Au sein de chaque fournisseur, les modèles les plus récents font systématiquement mieux que leurs prédécesseurs, avec une accélération marquée pour ceux sortis après début 2026.
Classement du taux de zéro régression :
Les chercheurs ont également mesuré la capacité de chaque modèle à ne pas casser ce qui fonctionne déjà en ajoutant du nouveau code :
- Claude Opus 4.6 réussit dans 76% des tâches.
- Claude Opus 4.5 atteint 51%.
- Kimi-K2.5 et GLM-5 plafonnent à 37%.
- GPT-5.2 tombe à 23%.
- La majorité des modèles restent sous 20%.
Autrement dit, pour la plupart des LLM du marché, le modèle casse du code fonctionnel en voulant en ajouter du nouveau dans plus de huit cas sur dix.
Garder un feedback humain, une nécessité
Ces résultats montrent que le fossé entre le meilleur modèle et le reste du peloton est considérable, et pas seulement sur le score global. L'écart est surtout flagrant sur la capacité à ne pas dégrader l'existant, qui est au fond le nerf de la guerre. Les chercheurs notent également que les modèles post-2026 progressent nettement plus vite que leurs prédécesseurs, signe que les fournisseurs commencent à optimiser leurs modèles pour la maintenabilité du code et pas seulement pour sa justesse fonctionnelle immédiate.
Le comparatif reste toutefois incomplet, plusieurs modèles propriétaires n’ayant pas été testés (Codex, Gemini…). SWE-CI offre néanmoins un nouveau benchmark (dataset disponible sur Hugging Face) que chaque entreprise peut utiliser pour tester ses propres modèles sur la durée. Ces premiers résultats confirment aussi ce que la communauté des développeurs pressentait déjà : Claude Opus 4.6 se distingue nettement sur les tâches de maintenance de code. Cependant, même le meilleur modèle ne garantit pas un sans-faute : l'IA peut encore casser du code dans certains cas. La supervision humaine reste, pour l'heure, un filet de sécurité plus que nécessaire.
Brief IA — Veille IA quotidienne
Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.