Brief IA

Les LLM et leurs hallucinations : un défi structurel inévitable

🔬 Research·Tom Levy·

Les LLM et leurs hallucinations : un défi structurel inévitable

Les LLM et leurs hallucinations : un défi structurel inévitable
Key Takeaways
1Les hallucinations des LLM ne sont pas dues à des erreurs de données, mais à leur architecture même.
2Une étude montre que les trajectoires internes des modèles divergent, menant à des réponses erronées.
3Le ratio d'engagement κ révèle comment les modèles déplacent activement la probabilité loin des réponses correctes.
💡Why it mattersComprendre ces mécanismes est crucial pour améliorer la fiabilité des systèmes d'IA à grande échelle.
Le brief IA que lisent les pros

Le brief IA que les pros lisent chaque soir

Les 7 actus IA du jour, décryptées en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
Full Analysis

Les LLM et leurs hallucinations : un défi structurel inévitable

Une caractéristique de l'architecture

Les hallucinations observées dans les modèles de langage de grande taille (LLM) ne résultent pas d'une mauvaise qualité des données ou d'un entraînement inadéquat. Contrairement à ce que l'on pourrait penser, ces erreurs ne peuvent pas être corrigées simplement par un apprentissage par renforcement humain (RLHF) plus poussé, un filtrage amélioré ou une extension de la fenêtre de contexte. Ces hallucinations sont en fait une caractéristique intrinsèque des systèmes, liée à la manière dont ils sont optimisés.

Depuis plusieurs mois, cette position est défendue, bien que certains chercheurs, engagés dans l'amélioration des techniques de récupération et d'alignement, préfèrent envisager des solutions plus optimistes. Cependant, cet argument omet un aspect crucial : la géométrie interne des modèles. Pour comprendre pleinement le phénomène, il est essentiel d'examiner ce qui se passe à l'intérieur du modèle lorsque celui-ci génère une réponse incorrecte avec assurance. Cela implique d'analyser la trajectoire interne de la représentation, couche par couche, de l'entrée à la sortie.

Ce que le flux résiduel sait avant que le modèle ne mente

Pour explorer ce phénomène, une expérience a été conçue en utilisant un prompt factuel, où un transformateur devrait normalement récupérer une association mémorisée. Ce prompt est testé dans deux conditions : une où le modèle fournit la bonne réponse, et une autre où il produit une hallucination. En suivant la trajectoire du flux résiduel, ou vecteur de représentation interne, à travers le réseau, on cherche à déterminer si les divergences de trajectoire sont dues à un manque d'information ou à un autre facteur.

L'état interne du modèle à chaque couche peut être visualisé comme un point dans un espace de haute dimension. À mesure que le modèle traite un prompt, ce point se déplace, traçant un chemin. L'expérience mesure si le chemin emprunté lors d'une réponse correcte et celui lors d'une hallucination divergent simplement parce qu'un chemin est plus court, ou parce qu'ils s'orientent différemment tout en parcourant la même distance.

Les résultats montrent que les chemins ont la même longueur mais pointent vers des directions différentes. La Figure 1 illustre deux trajectoires partant de la même origine, parcourant la même distance, mais aboutissant à des extrémités différentes de l'espace : l'une vers la bonne réponse, l'autre vers une erreur.

Le ratio d'engagement : où la suppression devient visible

L'étude introduit une nouvelle métrique, le ratio d'engagement κ, qui mesure combien de la masse de probabilité du modèle est dirigée vers ou loin du token correct à chaque couche.

Dans un traitement correct, κ augmente de manière monotone à travers le réseau, indiquant que le modèle s'engage progressivement vers la bonne réponse. C'est le comportement attendu d'un système qui récupère une association apprise.

Cependant, dans le cas d'une hallucination, κ ne reste pas stable, ce qui indiquerait un simple échec de récupération. Au lieu de cela, κ s'effondre, atteignant un minimum significativement inférieur à sa valeur de départ avant de se redresser légèrement dans les dernières couches. Par exemple, dans les modèles LLaMA-2 13B et Mistral 7B, κ chute à 0.08, avec des valeurs p inférieures à 10⁻¹⁰⁰, soulignant l'ampleur de cet effet.

Que se passe-t-il ?

Le modèle ne manque pas simplement de trouver la bonne réponse. Il déplace activement la masse de probabilité loin du token correct aux mêmes couches où il devrait la déplacer vers celui-ci dans une condition correcte. Cet échec est essentiellement un override.

Le modèle a bien encodé la bonne réponse, ce qui rend l'effondrement de κ significatif. Si le modèle manquait simplement de l'association pertinente, nous observerions une trajectoire plate ou bruyante. Au lieu de cela, la trajectoire commence dans la bonne direction mais tourne ensuite. Le token correct accumule de la probabilité dans les premières couches, puis la perd dans les couches intermédiaires, là où il devrait augmenter dans une condition correcte.

L'article établit précisément le phénomène mais laisse le pourquoi ouvert. L'interprétation la plus plausible est la compétition entre les prédictions de tokens dans un contexte donné, générant sa propre pression.

Implications pratiques

Pour ceux qui développent des systèmes de production à grande échelle, la conclusion est claire : il est nécessaire de mettre en place un moniteur par domaine, formé sur des données représentatives de ce domaine. L'idée d'un détecteur universel n'est pas soutenue par les preuves actuelles.

Ce que la géométrie ne peut pas corriger

Le mécanisme d'override documenté n'est pas un bug à corriger. Il découle directement de la fonction objective utilisée pour entraîner les LLM. La prédiction du prochain token dans des séquences discrètes ne permet pas au modèle de privilégier l'exactitude factuelle par rapport à la cohérence contextuelle. Le signal d'entraînement ne peut pas faire cette distinction. Le modèle apprend à être fluide, ce qui est remarquable, mais lorsque fluidité et exactitude ne coïncident pas, la fluidité l'emporte.

Pour identifier les circuits spécifiques qui mettent en œuvre cette suppression et déterminer s'ils peuvent être modifiés, des recherches plus poussées sont nécessaires, incluant le patching d'activation à grande échelle et l'analyse au niveau des circuits. Plusieurs groupes de recherche travaillent déjà sur ces questions.

Brief IA — L'actualité IA en français

L'essentiel de l'actualité de l'intelligence artificielle, décrypté et expliqué chaque jour.