La recherche en IA te passionne ?
Les papers et avancées qui comptent, expliqués simplement, chaque soir. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Les résumeurs LLM et l'importance de l'identification
Les résumeurs de réunions utilisant des modèles de langage (LLM) présentent un défaut majeur : l'absence de l'étape d'identification. Un argument avancé est que cette omission est comparable aux échecs des régressions qui ne vérifient pas si les données peuvent effectivement soutenir les conclusions tirées. Lors d'un échange, un résumé produit huit sections distinctes, telles que décisions, actions à entreprendre, risques et questions ouvertes. Cependant, en analysant le transcript original, il apparaît que certaines sections sont dérivées de phrases ambiguës ou même inventées, sans que le lecteur puisse facilement vérifier ces informations.
Ce problème ne relève pas d'une simple hallucination, où le modèle inventerait des faits sur le monde extérieur. Ici, le modèle invente des faits concernant la réunion elle-même. Le mode d'échec est invisible dans le résultat final, car le texte semble crédible, mais il est impossible pour le lecteur de vérifier facilement sa validité par rapport au transcript original. Il existe un nom pour ce mode d'échec dans un autre domaine, plus ancien que les modèles linguistiques : cela se produit lorsque vous faites une estimation sans identification.
L'étape cruciale de l'identification
L'inférence causale est une méthode analytique qui distingue l'identification d'une quantité de son estimation. L'identification consiste à démontrer que les données disponibles peuvent soutenir la revendication souhaitée. L'estimation, quant à elle, est la procédure qui génère un chiffre une fois l'identification établie. Cet ordre est essentiel et non négociable. On ne peut pas estimer un effet sans avoir d'abord prouvé qu'il est identifiable à partir des données observées, sinon le chiffre obtenu n'a aucune signification. Il peut ressembler à un effet, mais ce n'en est pas un.
Les praticiens travaillant avec des données d'observation consacrent une grande partie de leur temps à l'identification. Ils élaborent des graphes causaux, débattent des facteurs de confusion et distinguent ce que les données peuvent soutenir de ce qu'elles ne peuvent pas. L'étape d'estimation, lorsqu'elle arrive enfin, est souvent la plus simple.
Dans le cas des résumeurs LLM, le processus est similaire à une analyse d'observation, mais il est souvent déployé sans une étape d'identification adéquate. Le modèle reçoit un transcript et produit des revendications structurées sur son contenu : décisions prises, engagements acceptés, risques soulevés, prochaines étapes assignées. Chaque revendication est, en réalité, une estimation d'une quantité latente. La décision a été prise ou non, l'engagement a été accepté ou non. Le résumé affirme une valeur pour chacune de ces quantités, sans se demander si le transcript contient suffisamment de preuves pour soutenir ces revendications.
Identification et données de transcript
L'identification dans les données d'observation pose la question de ce que les données peuvent soutenir. Pour un transcript, c'est la même question, mais appliquée à une source spécifique. Que peut-on observer directement, que peut-on inférer avec des hypothèses énoncées, et que ne peut-on pas soutenir du tout ?
Chaque revendication produite par un résumeur devrait indiquer à quelle catégorie elle appartient. Les revendications observées doivent pointer vers une partie spécifique du transcript et ne rien affirmer au-delà de ce que cette partie dit. Les revendications inférées doivent déclarer l'hypothèse faite et les preuves qui soutiennent l'inférence. Les recommandations doivent indiquer qu'elles sont la suggestion du modèle, et non la décision des participants.
Un résumeur qui ne peut pas classer une revendication dans l'une de ces catégories ne devrait pas produire cette revendication. La bonne sortie dans ce cas n'est pas une revendication plus fluide, mais l'absence de revendication.
Une architecture pour imposer la discipline
L'architecture proposée repose sur un cadre en trois étapes LLM et un rendu déterministe. La première étape consiste à extraire des faits structurés du transcript : tournures de parole, engagements explicites, décisions explicites, quantités explicites. Cette étape est délibérément conservatrice, elle peut manquer des éléments, mais elle n'est pas autorisée à les inventer.
La deuxième étape synthétise ces faits en objets de revendication à travers huit sections. Chaque revendication porte une étiquette : observée, inférée ou recommandation. Chaque revendication est associée à un pointeur vers les preuves dans les faits extraits. C'est à ce stade que le travail analytique se produit, et c'est aussi là que le modèle est le plus susceptible de dériver.
La troisième étape est l'audit, qui effectue le travail d'identification. La contrainte appliquée à cette étape est cruciale pour la conception. L'audit ne peut pas réécrire l'analyse pour la rendre plus fluide, ni ajouter une recommandation mieux formulée, ni inventer un contexte manquant. Il dispose d'un ensemble d'opérations limitées et ne peut rien faire d'autre. Il peut supprimer une revendication, rétrograder une revendication d'observée à inférée, ou d'inférée à recommandation, déplacer une revendication vers une section plus appropriée, ou remplacer une revendication par un espace réservé en cas d'insuffisance de preuves. Il peut réduire une section entière lorsque rien ne survit à l'examen.
Résultats de l'architecture et implications
Cette architecture n'est pas un benchmark, mais un petit test de résistance basé sur des fixtures, conçu pour vérifier si elle produit le comportement attendu. Trois transcripts ont été utilisés : une réunion de décision où un modèle de tarification a été sélectionné parmi trois alternatives réelles, une session de travail qui a mis en lumière un problème de mesure sans le résoudre, et un sync mince entre deux personnes avec presque aucun contenu décisionnel.
Les résultats montrent que le pipeline n'a produit aucun engagement fabriqué ni quantité non fondée. C'est ce que l'architecture est conçue pour rendre plus difficile. Une revendication ne peut pas survivre au pipeline sans un pointeur vers des preuves, et l'étape d'audit ne peut pas fabriquer des preuves pour maintenir une revendication en vie.
Le résultat le plus intéressant est le taux d'abstention. Ce taux augmente avec la minceur du signal d'entrée. Sur les trois transcripts de fixtures, la part des sections vides a augmenté de 17 % à 58 %. Pour la réunion de décision riche, le pipeline a laissé 17 % des sections vides ou remplacées par un espace réservé pour insuffisance de preuves. Lors de la session de travail, ce chiffre a atteint 25 %. Lors du sync mince, il a atteint 58 %. Le système a produit environ trois fois et demie plus de sections vides lorsque le signal d'entrée était mince par rapport à lorsqu'il était riche.
Ce comportement est celui que le design cherche à produire. Un résumeur qui remplit les mêmes huit sections, quelle que soit l'entrée, n'est pas le résultat souhaité.





