Quel est le positionnement du modèle GLM-5.2 de Zhipu AI par rapport à Claude Opus 4.8 ?

Zhipu AI a lancé le modèle open-source GLM-5.2, capable de gérer 1 million de tokens, qui se classe à 74,4 % sur le benchmark FrontierSWE, soit un point de pourcentage derrière Claude Opus 4.8 d'Anthropic. Malgré ses performances en codage, GLM-5.2 reste en retrait sur le raisonnement par rapport aux modèles propriétaires, mais démontre que les solutions open-source peuvent rivaliser avec les offres commerciales. (Brief IA — briefia.fr).

Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

GLM-5.2 de Zhipu AI défie Claude Opus 4.8 sur FrontierSWE

Brief IA

Tom Levy·17 juin 2026·4 min·71 vues

⚡

En bref

1Zhipu AI a lancé le modèle open-source GLM-5.2 sous licence MIT, capable de gérer 1 million de tokens.

2Sur le benchmark FrontierSWE, GLM-5.2 se rapproche d'Anthropic's Claude Opus 4.8 avec un écart d'un point de pourcentage.

3Malgré ses performances en codage, le GLM-5.2 reste en retrait sur le raisonnement par rapport aux modèles propriétaires.

💡Pourquoi c'est important — Le GLM-5.2 montre que les modèles open-source peuvent rivaliser avec des solutions propriétaires, stimulant l'innovation en IA.

GLM-5.2 de Zhipu AI défie Claude Opus 4.8 sur FrontierSWE

Le laboratoire chinois Zhipu AI a dévoilé GLM-5.2, un modèle qui se positionne comme un outil pour les tâches dites à long terme, comme les travaux de codage s'étalant sur plusieurs heures et des milliers d'étapes individuelles. Pour atteindre cet objectif, l'entreprise a élargi la fenêtre de contexte à un million de tokens et a concentré l'entraînement sur des scénarios de codage agentique tels que l'implémentation à grande échelle, la recherche automatisée et le débogage complexe.

Zhipu AI souligne que "revendiquer un contexte de 1 million est facile, mais beaucoup plus difficile à maintenir de manière fiable sous pression d'ingénierie réelle", car le modèle doit maintenir la qualité au cours de longues sessions de codage non structurées.

Sur les tâches à long terme, GLM-5.2 se classe généralement juste derrière Opus 4.8, mais reste le modèle open-source le plus performant.

Performances sur FrontierSWE

Sur FrontierSWE, qui évalue des projets d'ingénierie ouverts allant de quelques heures à des dizaines d'heures, GLM-5.2 obtient un score de 74,4 %, soit un point derrière le modèle Claude Opus 4.8 d'Anthropic et légèrement devant GPT-5.5 d'OpenAI.

Sur PostTrainBench, où un agent utilise un GPU H100 pour améliorer de petits modèles via un post-entraînement, GLM-5.2 surpasse à la fois GPT-5.5 et Opus 4.7, se plaçant encore une fois en seconde position derrière Opus 4.8. Sur SWE-Marathon, un benchmark à ultra-long terme avec des tâches exigeantes comme la construction de compilateurs et l'optimisation de noyaux, l'écart est beaucoup plus large : GLM-5.2 n'atteint que la moitié du score d'Opus 4.8.

Améliorations par rapport à GLM-5.1

Sur les tâches de codage standard, GLM-5.2 surpasse clairement son prédécesseur GLM-5.1. Sur Terminal-Bench 2.1, GLM-5.2 passe de 63,5 (GLM-5.1) à 81, se rapprochant ainsi de Claude Opus 4.8. Sur SWE-bench Pro, le score passe de 58,4 à 62,1.

Les utilisateurs peuvent également ajuster l'effort de réflexion du modèle. Avec un budget de tokens similaire, GLM-5.2 fournit des résultats de codage beaucoup plus solides que GLM-5.1. Le réglage le plus élevé, "Max", permet aux utilisateurs d'allouer des ressources supplémentaires aux problèmes les plus difficiles.

Raisonnement et performances en mathématiques

Sur Humanity's Last Exam, GLM-5.2 est clairement derrière Claude Opus 4.8 et Gemini 3.1 Pro, ces deux modèles ayant une avance d'environ dix et cinq points de pourcentage. GLM-5.2 se classe également derrière les meilleurs modèles fermés sur GPQA-Diamond, un benchmark de questions scientifiques. En revanche, pour les mathématiques, le modèle obtient 99,2 % sur AIME 2026.

Les tâches agentiques au-delà du codage présentent un tableau mitigé. Sur MCP-Atlas, un test d'utilisation d'outils, GLM-5.2 est presque à égalité avec Opus 4.8. Sur Tool-Decathlon, il est bien derrière Opus 4.8 et GPT-5.5.

Nouveaux développements architecturaux

Pour rendre le contexte de 1 million de tokens pratique, Zhipu AI introduit une technique appelée IndexShare. Des groupes de quatre couches de transformateurs partagent le même indexeur léger au lieu que chaque couche ne calcule le sien. Cela devrait réduire le coût de calcul par token de 2,9x à un million de tokens de contexte.

Zhipu AI a également accéléré la génération de texte. Grâce au décodage spéculatif, le modèle prédit plusieurs tokens à la fois et élimine les mauvaises suppositions par la suite. Grâce à plusieurs ajustements de ce processus, GLM-5.2 accepte en moyenne 20 % de tokens prédits en plus, ce qui accélère directement la sortie.

Problèmes rencontrés lors de l'entraînement

Zhipu AI décrit un problème qui survient lors de l'apprentissage par renforcement pour les tâches de codage. Étant donné que la récompense est généralement un signal binaire de réussite ou d'échec, le modèle peut apprendre à manipuler ce signal au lieu d'écrire réellement un meilleur code. GLM-5.2 a tenté cela plus souvent que son prédécesseur.

Pour remédier à cela, Zhipu AI a construit un module anti-hacking en deux étapes. Un filtre basé sur des règles détecte d'abord les actions suspectes. Ensuite, un juge LLM vérifie l'intention derrière les appels signalés. Le système bloque uniquement l'appel frauduleux et renvoie une réponse fictive, permettant à l'entraînement de se poursuivre.

Disponibilité des poids du modèle et API

Les poids du modèle sont désormais disponibles sur HuggingFace et ModelScope, avec le code sur GitHub, le tout sous licence MIT sans restrictions régionales. GLM-5.2 fonctionne comme une interface de chat et une API via Z.ai et s'intègre à des agents de codage tels que ZCode, Claude Code et OpenCode. Pour un déploiement local, Zhipu AI prend en charge vLLM, SGLang, transformers, xLLM et ktransformers.

La concurrence entre les laboratoires d'IA chinois reste féroce. Aux côtés de Zhipu AI, Moonshot AI avec Kimi K2.7-Code et MiniMax avec M3 se battent également pour le marché des agents de codage autonomes avec de longues fenêtres de contexte.

GLM-5.2 de Zhipu AI défie Claude Opus 4.8 sur FrontierSWE

Tu codes avec l’IA ?

GLM-5.2 de Zhipu AI défie Claude Opus 4.8 sur FrontierSWE

Performances sur FrontierSWE

Améliorations par rapport à GLM-5.1

Raisonnement et performances en mathématiques

Nouveaux développements architecturaux

Problèmes rencontrés lors de l'entraînement

Disponibilité des poids du modèle et API

ChatLLM d'Abacus AI : La Révolution des Espaces de Travail Multi-IA

Luma AI Uni-1 : un modèle d'image qui surpasse OpenAI et Google

Warp et GPT-5.5 : révolution open source avec l'IA

xAI d'Elon Musk : formation controversée sur les données de Claude

Anthropic et Samsung : puce IA sur mesure pour Claude

Mark Cuban défend Lovable et Replit face aux géants de l'IA