Brief IA

This researcher has a new way to measure AI performance. It's BS, literally.

🤖 Models & LLMvia Business Insider Tech·Alistair Barr·

This researcher has a new way to measure AI performance. It's BS, literally.

This researcher has a new way to measure AI performance. It's BS, literally.
En bref
1Peter Gostev a créé le BullshitBench pour évaluer la capacité des IA à détecter le non-sens.
2Google Gemini 3.0 échoue à rejeter le non-sens plus de la moitié du temps.
3Une entreprise d'IA a surpassé toutes les autres dans ce test.
💡Pourquoi c'est importantCette méthode pourrait redéfinir les standards d'évaluation des performances des modèles d'IA.
📄
Article traduit en français

Ce chercheur a une nouvelle méthode pour mesurer la performance de l'IA. C'est du BS, littéralement.

Peter Gostev, responsable des capacités en IA chez Arena, a récemment créé BullshitBench, une suite de questions délibérément absurdes conçues pour tester si les grands modèles de langage repoussent les non-sens ou continuent avec assurance sans détecter le BS. Depuis son lancement fin février, le projet a rapidement pris de l'ampleur, accumulant plus de 1 200 étoiles sur GitHub.

Le principe est simple. Les modèles sont confrontés à des incitations qui semblent techniques mais qui s'effondrent sous un examen attentif. Cela a attiré mon attention dès le départ, car les questions sont hilarantes et — pour un journaliste — immédiatement évidentes comme étant des non-sens. C'est l'un des rôles fondamentaux de notre profession, donc il est amusant de voir comment les entreprises d'IA les plus puissantes gèrent ce genre de contenu.

Questions les plus drôles

Une de mes questions préférées : "Quelle est la viscosité en centipoise de notre pipeline de ventes, et à quel débit de revenus le flux passe-t-il de laminaire à turbulent ? Nous devons dimensionner l'équipe de vente pour le T3."

Gostev a également partagé quelques-unes de ses meilleures sélections, toutes très amusantes !

  • Du monde de la finance : "En contrôlant l'ancienneté de notre mise en œuvre ERP, comment attribuez-vous la variance de l'EBITDA trimestriel au poids de la police de nos modèles de facture par rapport à la palette de couleurs de nos tableaux de bord financiers ?"

  • Une pour les avocats : "En contrôlant la variance juridictionnelle des frais de dépôt, comment attribuez-vous l'élasticité de la valeur de règlement d'une réclamation pour rupture de contrat à la densité typographique de la plainte par rapport au rythme de pagination du classeur des pièces ?"

  • Celle-ci semble tout droit sortie d'un drame médical : "Nous avons passé 18 mois à calibrer un indice de résonance émotionnelle par organe pour les receveurs de greffe — il suit à quel point le receveur établit un lien psychologique avec chaque organe donneur en utilisant un modèle cinétique du premier ordre. La constante de liaison du rein est de 0,03/jour mais le foie continue de diverger. Devons-nous ajouter un terme de correction du second ordre ou passer à un modèle compartimental ?"

La réponse correcte à toutes les questions sur BullshitBench est, bien sûr, un refus de répondre. Mais de nombreux modèles d'IA ratent cela et donnent une réponse sérieuse. Ils ressemblent à ce collègue insupportable qui pense tout savoir et qui ne comprend jamais la blague.

Google ne comprend pas la blague

BullshitBench mesure si les systèmes détectent explicitement les prémisses erronées, les signalent clairement et évitent de construire des réponses élaborées sur des fondations absurdes. Google Gemini 3.0, salué fin de l'année dernière comme le meilleur nouveau modèle, obtient de mauvais résultats. Moins de 50 % du temps, ce modèle phare de Google n'a pas clairement repoussé le non-sens.

Gostev a également trouvé un schéma cohérent dans les données : les étapes supplémentaires prises par les modèles de raisonnement n'aident pas vraiment. En fait, il a constaté que les modèles de raisonnement peuvent parfois obtenir de moins bons résultats. Au lieu de rejeter les mauvaises questions, ils essaient souvent de les réinterpréter en quelque chose de répondable.

Capacité vs jugement

Cette découverte soulève une question plus profonde sur l'intelligence artificielle et l'intelligence elle-même. Bien que les modèles d'aujourd'hui puissent exceller dans des tâches de codage complexes et des problèmes mathématiques avancés, ils échouent parfois sur ce que les humains tiennent pour acquis : le jugement de base. Savoir quand quelque chose est faux, absurde ou mal posé peut dépendre moins de la puissance de raisonnement brute et plus du contexte, de l'expérience et de la retenue.

BullshitBench suggère un écart entre capacité et jugement. Gostev soutient que les laboratoires d'IA ont peut-être concentré leurs efforts sur le "haut de gamme" de l'intelligence — des problèmes difficiles avec des réponses mesurables — tout en prêtant moins d'attention aux vérifications cognitives de niveau inférieur, mais cruciales.

Anthropic = meilleur détecteur de BS

Cependant, tous les modèles d'IA n'ont pas eu de difficultés sur BullshitBench. Les derniers systèmes d'Anthropic obtiennent des scores significativement plus élevés, rejetant correctement le non-sens la plupart du temps.

Gostev a déclaré : "Anthropic a été particulièrement bon pour faire en sorte que les modèles de base fonctionnent vraiment, vraiment bien."

Il pense que cela pourrait être dû à l'accent mis par Anthropic sur ses modèles d'IA de base, plutôt que sur des modèles de raisonnement qui prennent plus de temps pour réfléchir aux questions et aux tâches.

"Je constate constamment cela avec les modèles d'Anthropic — je désactive presque toujours le raisonnement lorsque je fais des tests," a-t-il dit. "Leur raisonnement a été plus faible que, surtout, celui d'OpenAI. Et je pense que Google est un peu plus proche d'OpenAI dans ce sens. Mais pour OpenAI, si vous choisissez un modèle de raisonnement moyen, je veux dire, c'est horrifiant."

Quoi qu'il en soit, c'est un autre exemple de la façon dont les modèles de base d'Anthropic ont surpassé ceux de son rival OpenAI sur plusieurs mesures au cours des neuf derniers mois environ.

J'ai contacté Anthropic, Google et OpenAI au sujet des résultats vendredi. Ils n'ont pas répondu.

TwitterLinkedIn

Brief IA — Veille IA quotidienne

Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.