Brief IA : Pourquoi les évaluations subjectives des LLM nuisent à leur efficacité

Pourquoi les évaluations subjectives des LLM nuisent à leur efficacité

Brief IA
Tom Levy·7 min·10 vues

L'article souligne que l'exactitude seule est insuffisante pour la production des LLMs, car elle ne prend pas en compte des facteurs critiques tels que la latence et le coût d'exécution. Par exemple, un agent coûtant 50 $ par exécution ou prenant cinq minutes pour répondre à une requête échoue à répondre aux exigences opérationnelles, même s'il est exact. Une évaluation plus rigoureuse est donc nécessaire pour améliorer l'adoption des LLMs dans des applications critiques.

En bref
1Optimiser uniquement pour l'exactitude des LLM peut entraîner des coûts et des latences inacceptables, compromettant leur fiabilité.
2Un cadre d'évaluation robuste doit inclure cinq dimensions : exactitude, fiabilité, latence, coût et impact décisionnel.
3L'utilisation de LLM comme juges permet d'automatiser l'évaluation des sorties complexes, mais nécessite une calibration humaine régulière.
💡Pourquoi c'est importantUne évaluation rigoureuse et continue des LLM garantit leur performance et leur fiabilité dans des environnements de production réels.
Le brief IA que lisent les pros

Tu veux les meilleurs outils IA avant les autres ?

On teste et on décrypte les nouveaux outils IA chaque soir, en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

L'illusion de l'exactitude dans l'évaluation des LLM

Dans le monde de l'évaluation des modèles de langage, l'exactitude est souvent perçue comme le critère ultime. Cependant, cette focalisation exclusive sur l'exactitude peut s'avérer trompeuse. Un modèle qui fournit systématiquement des réponses incorrectes mais cohérentes peut être jugé inexact, mais il reste prévisible. À l'inverse, un système qui atteint une précision de 90 % mais échoue lors de la 10e tentative, perturbant ainsi le flux de travail, est exact mais peu fiable.

L'exactitude ne tient pas compte des impératifs opérationnels des entreprises. Par exemple, un agent qui génère un coût de 50 $ par exécution en raison d'appels répétés à GPT-4 n'est pas viable, même s'il est précis. De même, un agent qui met cinq minutes pour répondre à une demande de support client, malgré une réponse correcte, a déjà échoué dans sa mission. Les discussions récentes sur la latence et le coût des agents IA soulignent que ces aspects opérationnels sont aussi cruciaux que l'intelligence du modèle.

Optimiser uniquement pour l'exactitude peut souvent compromettre la latence et le coût. Un prompt plus complexe pourrait améliorer légèrement la réponse, mais s'il double le nombre de tokens et ajoute trois secondes au temps de réponse, l'expérience utilisateur en souffrira. Ce dilemme est central dans l'évaluation des agents IA, où il est essentiel de trouver un équilibre entre intelligence et efficacité opérationnelle.

Les cinq dimensions essentielles de l'évaluation

Pour évaluer correctement un modèle de langage, il est crucial d'adopter un cadre qui mesure cinq dimensions distinctes. Lors de la création de suites de tests automatisés, il est important de définir des métriques spécifiques et quantifiables pour chacune de ces dimensions :

  • Exactitude : La sortie est-elle factuellement correcte et fondée sur les données sources fournies ? Cela se mesure par une comparaison automatisée avec un ensemble de données de référence, utilisant un LLM comme juge pour vérifier les entités hallucinées.

  • Fiabilité : Le système produit-il systématiquement une sortie valide sans faire planter le pipeline ? Le taux de réussite de validation de schéma est crucial ici, avec un objectif d'erreur JSONDecodeError de 0 %.

  • Latence : Le système est-il suffisamment rapide pour le flux de travail spécifique qu'il sert ? Les temps de réponse P90 et P99, mesurés en millisecondes ou secondes, sont des indicateurs clés. Les coûts cachés de l'IA agentique apparaissent souvent sous forme de pics de latence inacceptables.

  • Coût : L'utilisation des tokens et le coût de calcul sont-ils durables à grande échelle ? Le coût moyen par exécution réussie doit être suivi via des métriques de facturation API.

  • Décisions : La sortie aide-t-elle réellement l'utilisateur à prendre une meilleure décision commerciale ? Les métriques commerciales en aval, telles que la réduction du temps de révision manuelle ou l'augmentation du taux d'achèvement des tâches, sont essentielles.

L'importance d'un ensemble de données de référence

L'automatisation de l'évaluation nécessite une base de référence solide, connue sous le nom d'ensemble de données de référence. Cet ensemble est une collection soigneusement sélectionnée d'entrées diverses avec leurs sorties idéales attendues. Il doit inclure non seulement le « chemin heureux », mais aussi des cas limites, des entrées malformées et des prompts adversariaux. Comme le soulignent les guides sur la construction d'ensembles de données de référence pour l'évaluation de l'IA, cet ensemble est la pierre angulaire de votre stratégie de test.

Créer un ensemble de données de référence est une tâche ardue qui nécessite l'expertise de spécialistes pour examiner et annoter manuellement des centaines ou des milliers d'exemples. Cependant, cet investissement initial est rentable à long terme. Une fois que vous disposez d'un ensemble de données de référence robuste, vous pouvez évaluer de nouveaux modèles ou des modifications de prompt en quelques minutes, au lieu de plusieurs jours.

Lorsque vous mettez à jour le prompt de votre agent ou remplacez le modèle de base sous-jacent, vous devez exécuter la nouvelle version contre l'ensemble de données de référence complet. Un pipeline d'évaluation automatisé, souvent utilisant un LLM séparé et très capable comme évaluateur, compare les nouvelles sorties aux sorties de référence sur les cinq dimensions. Si la nouvelle version améliore l'exactitude mais augmente la latence au-delà du seuil acceptable, le déploiement échoue. Si elle réduit le coût mais introduit des erreurs de validation de schéma, le déploiement échoue également. Cette approche rigoureuse est essentielle pour les applications d'IA réglementées, où les échecs peuvent avoir de graves conséquences juridiques et financières.

La pyramide d'évaluation : une approche en quatre niveaux

Pour construire un tableau de bord d'évaluation efficace, il est nécessaire de penser à l'évaluation à quatre niveaux distincts :

  • Unité : Le prompt ou la fonction spécifique fonctionne-t-il isolément ?

  • Intégration : Les différents agents ou outils de la chaîne transmettent-ils correctement les données entre eux ?

  • Système : L'ensemble du pipeline fonctionne-t-il de bout en bout dans des conditions de charge réalistes ?

  • Décision : La sortie finale conduit-elle au résultat commercial souhaité ?

La plupart des équipes ne dépassent jamais le niveau Unité. Elles testent un prompt dans un environnement de test et supposent que le système est prêt. Cependant, les systèmes agentiques sont des composants complexes et interactifs. Un prompt qui fonctionne parfaitement en isolation peut échouer de manière catastrophique lorsque sa sortie est transmise à un outil en aval qui attend un format différent.

Pour évaluer véritablement un système agentique, il est essentiel de tester l'ensemble du pipeline. Cela implique de simuler des interactions utilisateur réelles et de mesurer la performance du système sur les cinq dimensions. Cela nécessite de construire une infrastructure capable de créer automatiquement des environnements de test, d'exécuter l'ensemble de données de référence et d'agréger les résultats dans un tableau de bord complet.

Le rôle crucial des LLM en tant que juges

Un des outils les plus puissants dans l'évaluation moderne de l'IA est le modèle « LLM en tant que juge ». Plutôt que de s'appuyer sur un appariement de chaînes fragile ou des expressions régulières pour évaluer la sortie d'un agent, un LLM séparé et très capable, comme GPT-4, est utilisé pour noter la sortie selon un barème spécifique.

Par exemple, un LLM juge pourrait être chargé d'évaluer si la réponse de l'agent résume avec précision le document fourni sans introduire de faits externes, en notant de 1 à 5 et en fournissant une justification. Cette méthode permet d'automatiser l'évaluation de sorties complexes et nuancées qui nécessiteraient autrement une révision humaine.

Cependant, il est crucial de s'assurer que le LLM juge lui-même est évalué. Sa notation doit être cohérente et alignée avec le jugement humain. Cela se fait souvent en faisant examiner périodiquement un échantillon des notes du LLM juge par des experts humains pour garantir la calibration.

L'importance de l'évaluation continue en production

L'évaluation ne s'arrête pas une fois le modèle déployé. En réalité, c'est à ce moment-là que le véritable travail commence. Les modèles se dégradent avec le temps, les distributions de données évoluent, et les API en amont peuvent changer de comportement. Pour détecter ces problèmes avant qu'ils n'impactent les utilisateurs, il est crucial de mettre en œuvre une évaluation continue en production.

Cela implique d'échantillonner un pourcentage du trafic en direct, de le faire passer par votre pipeline d'évaluation et de suivre les résultats sur un tableau de bord. Si le score d'exactitude tombe en dessous d'un certain seuil, ou si la latence augmente, le système doit automatiquement déclencher une alerte.

L'évaluation continue permet également de construire une boucle de rétroaction. Lorsqu'un utilisateur signale une réponse comme incorrecte, cette interaction doit être automatiquement ajoutée à votre ensemble de données de référence, garantissant que le système apprend de ses erreurs et s'améliore au fil du temps.

Ingénierie de la confiance : un objectif clé

L'objectif d'un tableau de bord d'évaluation de qualité décisionnelle n'est pas seulement de détecter des bogues, mais de construire une ingénierie de la confiance. Lorsque vous pouvez prouver de manière définitive à vos parties prenantes, avec des données concrètes, que votre système d'IA est fiable à 99,5 %, fonctionne dans un budget de latence strict et coûte exactement 0,04 $ par exécution, la conversation change. Vous ne leur demandez plus de faire confiance à une « impression », mais à l'ingénierie.

Ce niveau de rigueur est ce qui sépare les projets de foire scientifique des systèmes de niveau entreprise. C'est le seul moyen de construire une IA qui tient réellement ses promesses.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires