Tu suis la course aux modèles IA ?
Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Microsoft a récemment mis en lumière les failles des agents d'intelligence artificielle dans un large éventail de scénarios professionnels. Cette révélation provient d'une étude menée par Microsoft Research, qui a démontré que même les modèles d'IA les plus avancés peinent à conserver l'intégrité des documents après plusieurs échanges.
Confier un document de travail à une IA pour vingt interactions peut entraîner la perte d'un quart de son contenu. Ce constat, bien que partagé par de nombreux utilisateurs, est désormais confirmé par Microsoft lui-même. L'étude montre que les assistants IA, lorsqu'ils sont sollicités pour des tâches telles que la correction de tableaux ou la modification de paragraphes, finissent par perdre des informations cruciales au fil des interactions.
DELEGATE-52 : un benchmark sans concession
L'étude, dirigée par Philippe Laban, Tobias Schnabel et Jennifer Neville, porte le nom de DELEGATE-52. Elle repose sur un principe simple mais aux résultats complexes. Les chercheurs ont conçu 310 environnements de travail couvrant 52 domaines professionnels. Ces domaines incluent des tâches variées allant du code Python à la comptabilité, en passant par la notation musicale, la cristallographie et les états financiers.
Chaque environnement est constitué d'environ 15 000 tokens et comprend de cinq à dix tâches d'édition complexes. Le protocole de test est basé sur un aller-retour : le modèle modifie un document, puis doit annuler sa propre modification. Après dix cycles, soit vingt interactions, l'objectif est que le document revienne à son état initial. Dix-neuf modèles ont été testés, incluant les leaders actuels tels que Gemini 3.1 Pro, Claude 4.6 Opus et GPT-5.4. Les données de l'étude sont disponibles publiquement sur GitHub et Hugging Face, permettant à chacun de vérifier les résultats.
Les résultats : une perte de contenu significative
Les résultats de l'étude sont clairs : après vingt interactions, les modèles les plus performants corrompent en moyenne 25 % du contenu des documents. Ce chiffre ne fait pas de distinction entre les modèles premium et les modèles open source. Les modèles les plus avancés retardent l'apparition des erreurs, mais ne les évitent pas. Pour Microsoft, dont Copilot peine déjà à convaincre avec seulement 3,3 % d'adoption payante, publier ces résultats témoigne d'une certaine transparence.
Analyse des performances des modèles
Deux conclusions principales émergent de cette étude. Premièrement, la performance d'un modèle après deux interactions ne prédit pas son comportement après vingt. Un modèle peut sembler performant lors des premiers échanges, mais s'effondrer au fil des interactions. Deuxièmement, intégrer le modèle dans un agent autonome comme Copilot Cowork n'améliore pas sa performance. La corruption des données provient du modèle lui-même, et non de son cadre d'exécution.
L'étude DELEGATE-52 n'est pas un cas isolé. D'autres benchmarks récents, tels que YC-Bench, UltraHorizon et Terminal-Bench, convergent vers le même constat : les agents IA perdent le fil au-delà de quelques dizaines d'échanges. Cependant, l'étude de Microsoft se distingue par son ampleur, couvrant 52 domaines au lieu d'un seul, et par la transparence de son protocole.
Les domaines où l'IA s'en sort le mieux sont ceux régis par des règles strictes, comme le Python, le SQL et les bases de données. En revanche, elle échoue souvent dans des domaines qui mélangent format, sémantique et conventions humaines, tels que les états financiers, les partitions musicales et les patrons textiles. Ces types de documents sont couramment manipulés dans les bureaux. Pour les millions de salariés utilisant Copilot, ChatGPT ou Claude au travail, le message est clair : pour des tâches courtes, l'IA reste fiable, mais pour des chaînes d'éditions longues, la supervision humaine est indispensable. Des entreprises comme Meta et Cloudflare pourraient en faire l'expérience de manière désagréable.


