Brief IA : GPT-5.4 et Claude Opus 4.6 échouent le test des banquiers

GPT-5.4 et Claude Opus 4.6 échouent le test des banquiers

Brief IA
Tom Levy·7 min·4 vues

Un benchmark récent a évalué des modèles d'IA comme GPT-5.4 et Claude Opus 4.6, et aucun des résultats n'a été jugé prêt à être envoyé à un client. Plus de la moitié des banquiers ont déclaré qu'ils utiliseraient les résultats comme point de départ, tandis que 41 % nécessitent une révision majeure et 27 % sont complètement inutilisables.

En bref
1Une étude de Handshake AI et McGill montre que les IA actuelles ne sont pas prêtes pour les clients en banque d'investissement.
2GPT-5.4, bien que le meilleur des modèles testés, échoue à satisfaire la moitié des critères établis.
3BankerToolBench révèle des erreurs subtiles dans les livrables IA, compromettant leur utilisation en finance.
💡Pourquoi c'est importantLes résultats soulignent les limites actuelles des IA dans des secteurs critiques comme la finance, nécessitant des améliorations significatives.
Le brief IA que lisent les pros

Tu suis la course aux modèles IA ?

Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Évaluation des modèles IA par les banquiers d'investissement

Une étude récente menée par Handshake AI et l'Université McGill a mis à l'épreuve les capacités des modèles d'intelligence artificielle à réaliser des tâches typiques des banquiers d'investissement juniors. Le benchmark, intitulé BankerToolBench, a évalué des modèles de pointe tels que GPT-5.4 et Claude Opus 4.6 sur des tâches courantes. Les résultats sont sans appel : aucun modèle n'est prêt à être utilisé pour des livrables clients.

Selon l'étude, bien que plus de la moitié des banquiers aient déclaré qu'ils utiliseraient les résultats de l'IA comme point de départ, 41 % des résultats nécessitent une révision majeure et 27 % sont jugés inutilisables. Seuls 13 % des résultats pourraient être utilisés avec des modifications légères, et aucun n'est prêt à être envoyé tel quel.

BankerToolBench : une évaluation rigoureuse

BankerToolBench évalue des livrables réels, tels que des modèles financiers Excel, des présentations PowerPoint, des rapports PDF et des mémos Word. Les agents IA doivent naviguer dans des salles de données et extraire des informations de plateformes comme FactSet et Capital IQ. Une tâche peut nécessiter jusqu'à 539 appels au modèle de langage, dont 97 % concernent l'utilisation d'outils ou l'exécution de code.

Chaque livrable est vérifié selon une grille de 150 critères couvrant la correction technique, la préparation pour le client, la conformité, l'auditabilité, et la cohérence. Un vérificateur IA, Gandalf, basé sur Gemini 3 Flash Preview, a été utilisé pour l'évaluation, avec un taux d'accord de 88,2 % avec les évaluateurs humains.

Performances des modèles testés

Parmi les modèles testés, GPT-5.4 a obtenu les meilleurs résultats, mais a échoué à près de la moitié des critères. Seuls 16 % de ses résultats ont été jugés utiles comme point de départ. Aucun modèle n'a produit de résultats prêts à être soumis sans modification. Pour GPT-5.4, seulement 2 % des tâches ont satisfait tous les critères critiques.

Les résultats de Claude Opus 4.6 semblent initialement prometteurs, mais les modèles Excel révèlent des défauts majeurs, tels que des chiffres clés codés en dur. Cela empêche toute analyse de scénarios, un élément crucial en banque d'investissement.

Erreurs subtiles et implications

Les erreurs subtiles identifiées incluent des incohérences dans les chiffres de revenus et des choix de couleurs non conformes aux guides de style. Dans un cas, un agent a fabriqué des données d'essai clinique après avoir échoué à trouver des informations dans la base de données de la SEC.

Un outil de formation et ses limites

BankerToolBench peut également servir à l'apprentissage par renforcement. Des expériences ont montré que les méthodes Dr. GRPO et DPO peuvent améliorer les performances, bien que les résultats de base soient faibles.

L'étude souligne les limites actuelles des IA dans des secteurs critiques comme la finance. Les résultats s'alignent avec d'autres recherches récentes, indiquant que les agents IA ne sont pas encore prêts pour des tâches complexes en production. Des laboratoires comme Anthropic travaillent à surmonter ces défis en intégrant des fonctionnalités améliorées dans leurs modèles.

Des modèles Excel réels, pas seulement des réponses textuelles

BankerToolBench évalue les livrables réels qu'un banquier junior remettrait à un superviseur : des modèles financiers Excel avec des formules fonctionnelles, des présentations PowerPoint pour des réunions avec des clients, des rapports PDF et des mémos Word.

Les agents doivent explorer des salles de données, extraire des informations de plateformes de données de marché comme FactSet et Capital IQ, et analyser les dépôts de la SEC. Selon l'article, une seule tâche peut déclencher jusqu'à 539 appels au modèle de langage, dont 97 % sont liés à l'utilisation d'outils ou à l'exécution de code.

Chaque livrable est vérifié selon une grille conçue par des banquiers, avec une moyenne de 150 critères individuels. Les critères couvrent six domaines, y compris la correction technique, la préparation pour le client, la conformité, l'auditabilité, et la cohérence entre les fichiers.

L'évaluation est réalisée par un vérificateur IA que les auteurs ont construit, appelé Gandalf, basé sur Gemini 3 Flash Preview. Il est d'accord avec les évaluateurs humains 88,2 % du temps, légèrement au-dessus du taux d'accord de 84,6 % entre deux évaluateurs humains.

GPT-5.4 en tête, mais loin d'être prêt

L'équipe a testé GPT-5.2, GPT-5.4, Claude Opus 4.5 et 4.6, Gemini 2.5 Pro, Gemini 3.1 Pro Preview, Grok 4, et les modèles open-source Qwen-3.5-397B et GLM-5. GPT-5.4 a obtenu les meilleurs résultats mais a tout de même échoué à près de la moitié des critères. Seulement 16 % de ses résultats ont été jugés comme un point de départ utile. Si l'on exige trois exécutions cohérentes, ce chiffre tombe à 13 %.

Aucun résultat de modèle n'a été jugé prêt à être soumis tel quel. Avec GPT-5.4, seulement 2 % des tâches ont satisfait tous les critères critiques. Pour Gemini 2.5 Pro, ce chiffre était de zéro.

Beau à l'extérieur, cassé à l'intérieur

Les résultats de Claude Opus 4.6 semblent polis à première vue, selon les chercheurs. Mais les modèles Excel révèlent un défaut fondamental : la plupart des chiffres clés sont codés en dur comme des valeurs fixes plutôt que calculés par des formules. Cela pose un problème majeur en banque d'investissement, car cela rend l'analyse de scénarios impossible. Modifier le prix d'achat dans le modèle ne met à jour rien. Claude Opus 4.5 avait le même problème.

GPT-5.4 a obtenu un score de 58,1 sur 100 au total et a surpassé GPT-5.2 dans 70 % des comparaisons de tâches en tête-à-tête. Claude Opus 4.6 et Gemini 3.1 Pro sont presque à égalité, tandis que Grok 4 et Gemini 2.5 Pro sont loin derrière.

Erreurs subtiles qui passent inaperçues

Les exemples dans l'article illustrent à quel point ces échecs peuvent être subtils. Dans une présentation générée, le vérificateur signale un chiffre de revenus de 189,5 milliards de dollars sur une diapositive et 201,0 milliards de dollars sur la suivante, couvrant la même période.

Dans un autre cas, l'agent utilise un rouge Netflix comme couleur d'accent bien que le guide de style de la banque impose un bleu uniforme. Dans une analyse concurrentielle pour un accord pharmaceutique, un agent a fabriqué des données spécifiques d'essai clinique après avoir échoué à trouver des informations dans la base de données de la SEC.

Un outil de formation également

BankerToolBench peut également être utilisé pour l'apprentissage par renforcement, selon les auteurs. Dans des expériences avec Qwen-3-4B et 32B, les méthodes Dr. GRPO et DPO ont amélioré les performances du benchmark d'un facteur de cinq à treize, bien qu'à partir d'une base très basse.

L'équipe souligne plusieurs limites : le benchmark est axé sur les États-Unis, manque d'informations sur des transactions confidentielles, et ne capture pas le travail d'équipe itératif au sein d'une vraie banque. Néanmoins, les auteurs le qualifient de l'un des tests les plus détaillés à ce jour pour évaluer si les agents IA peuvent gérer un travail de connaissance exigeant. Pour l'instant, la réponse est non. Le benchmark complet, y compris les données, les grilles et le vérificateur, est disponible publiquement.

Les résultats s'alignent avec d'autres recherches récentes. Une étude de Vals.ai menée avec une banque systémique mondiale a révélé qu'o3 d'OpenAI n'a atteint qu'une précision de 48,3 % sur des tâches d'analyse financière. Des recherches de l'UC Berkeley ont conclu que les équipes qui parviennent à faire fonctionner des agents en production s'appuient sur des configurations simples et étroitement contrôlées avec peu d'étapes. Une analyse de Carnegie Mellon et de Stanford soutient que le développement des agents s'est concentré trop étroitement sur les tâches de codage, laissant des domaines économiquement importants comme la gestion, le droit et la finance largement absents des benchmarks.

Pendant ce temps, des laboratoires d'IA comme Anthropic travaillent sur les faiblesses que BankerToolBench expose. Anthropic a récemment introduit une fonctionnalité permettant à Claude de passer de lui-même entre Excel et PowerPoint, et les plugins Cowork intègrent désormais directement des services de données de marché comme FactSet, MSCI, et LSEG dans le flux de travail.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires