Tu veux les meilleurs outils IA avant les autres ?
On teste et on décrypte les nouveaux outils IA chaque soir, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Introduction à l'évaluation des modèles de langage
Dans le domaine de l'intelligence artificielle, l'évaluation des modèles de langage (LLM) repose souvent sur des méthodes subjectives, où les équipes se contentent de lire les réponses et de deviner leur exactitude. Cette approche devient problématique lorsqu'il s'agit de passer à l'échelle. Le véritable défi ne réside pas uniquement dans les hallucinations des modèles, mais dans l'absence de mécanismes pour détecter les réponses qui semblent correctes mais sont en réalité incorrectes. Par exemple, une réponse avec un score de 0.525 peut franchir un seuil de 0.5, donnant une fausse impression de fiabilité.
Pour remédier à ce problème, une nouvelle couche de notation a été développée, divisant la notion de fidélité en deux signaux distincts : attribution et spécificité. Une haute spécificité combinée à une faible attribution est souvent le signe d'une hallucination, ce qu'un score unique ne peut pas capturer efficacement.
L'impact d'une simple ligne de code
Un incident révélateur a mis en lumière les failles du système d'évaluation. Trois mots ajoutés à un prompt système, "être spécifique et détaillé", ont suffi à perturber le processus. Après avoir introduit ce changement un mardi après-midi, le lot de tests suivant a produit une réponse erronée : "L'ingénierie contextuelle a été inventée au MIT en 1987 et est principalement utilisée pour l'optimisation des caches matériels dans les CPU." Cette réponse, bien que spécifique, était entièrement fabriquée par le modèle.
Le système de notation a attribué à cette réponse un score de 0.525, dépassant le seuil de 0.5 et lui accordant un feu vert. Ce n'est que par hasard que l'erreur a été détectée, car "1987" semblait incorrect. Après vérification, il s'est avéré que chaque détail spécifique de cette phrase était inventé. Le score avait augmenté en raison de la spécificité accrue, mais la qualité avait chuté car le modèle était devenu plus confiant dans ses fabrications. Cette découverte a souligné que la dépendance à un score unique pour évaluer la fidélité était insuffisante.
Les limites des systèmes d'évaluation actuels
Les systèmes d'évaluation des LLM échouent souvent de trois manières principales, généralement avant même que quiconque ne s'en aperçoive. Premièrement, une réponse qui semble correcte n'est pas toujours exacte. La fluidité et la structure d'une réponse peuvent masquer des erreurs factuelles. Deuxièmement, les hallucinations les plus problématiques ne sont pas celles qui sont facilement repérables. Par exemple, personne ne déploie un modèle qui affirme que la Tour Eiffel est à Berlin. Ce sont les affirmations spécifiques à un domaine, qui semblent correctes pour les non-experts, qui posent le plus de problèmes. Enfin, le problème fondamental est qu'un score unique ne constitue pas une décision. Un seuil fixé à 0.5 permet à des réponses avec des scores de 0.51 et 0.95 de passer, bien que l'une d'elles aurait pu nécessiter une révision humaine.
Les exigences d'un système d'évaluation efficace
Avant de développer une solution, cinq contraintes strictes ont été établies. Le système devait fonctionner en millisecondes, car ralentir les réponses des utilisateurs n'est pas envisageable. Il ne devait pas y avoir d'appels API sur le chemin standard, et le juge LLM devait être une solution de secours, car les coûts par appel d'évaluation ne sont pas viables à grande échelle. De plus, le système devait garantir que la même entrée produise le même score à chaque fois, sinon les tests de régression seraient inutiles.
Les deux autres contraintes concernaient l'explicabilité. Chaque rejet devait être accompagné d'une explication en langage clair, et non pas seulement d'un score numérique, car un "score : 0.43" n'indique pas ce qui doit être corrigé.
L'architecture du système
Le système d'évaluation est structuré en trois couches, chacune ayant un rôle spécifique. La première couche produit des chiffres, la deuxième convertit ces chiffres en un verdict avec une explication complète. Cette dernière partie est souvent négligée par les systèmes existants, mais elle est cruciale pour comprendre pourquoi une réponse échoue en production.
Les dimensions fondamentales de l'évaluation
La fidélité, initialement mesurée par un score unique, a été divisée en deux vérifications distinctes : attribution et spécificité. L'attribution vérifie si la réponse est soutenue par le contexte, tandis que la spécificité évalue à quel point la réponse est détaillée et concrète. Cette distinction est essentielle pour identifier les hallucinations, où une réponse semble détaillée mais n'est pas réellement basée sur le contexte fourni.



