La recherche en IA te passionne ?
Les papers et avancées qui comptent, expliqués simplement, chaque soir. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Les LLM : une alternative crédible aux enquêtes traditionnelles ?
Modèles de langage de grande taille
L'idée de remplacer les répondants humains par des modèles de langage de grande taille (LLM) dans les enquêtes économiques suscite un intérêt croissant. Des recherches récentes ont exploré la capacité de ces modèles à simuler les réponses de 6 000 ménages américains face à des questions économiques, telles que celles portant sur l'inflation. Les résultats sont prometteurs : les LLM peuvent reproduire les réponses moyennes des principales enquêtes ménagères avec une précision d'un point de pourcentage près, selon une étude de Zarifhonarvar en 2026. Par exemple, l'enquête sur les attentes des consommateurs (SCE) de 2020 a rapporté un taux d'inflation médian à un an d'environ 3 %, un chiffre que les LLM, lorsqu'ils sont correctement incités, parviennent également à atteindre. Cette précision pourrait faire des LLM un complément intéressant et économique aux enquêtes traditionnelles telles que la SCE, l'enquête du Michigan et le Survey of Professional Forecasters.
Cependant, un article récent intitulé Can LLMs Mimic Household Surveys?, coécrit avec Ami Dalloul de l'Université de Duisburg-Essen, souligne une limitation majeure des LLM. Bien que ces modèles atteignent la médiane des enquêtes avec précision, ils échouent à capturer la diversité des réponses individuelles. Par exemple, le modèle Llama-3 place 95 % de ses répondants simulés dans une étroite fourchette de deux points de pourcentage, alors que les réponses réelles de la SCE en 2020 variaient de -25 % à +27 %. En d'autres termes, bien que la moyenne soit correcte, la diversité des opinions qui la sous-tend est absente, ce qui réduit les simulations à un simple agent représentatif.
Unlearning des LLM
Pour remédier à cette limitation, une approche consiste à retirer certaines statistiques mémorisées des modèles, plutôt que de les ignorer. Deux méthodes d'unlearning ont été appliquées au modèle Llama-3.1-8B-Instruct, un modèle open-source qui permet la modification de ses poids internes. La première méthode, le Gradient Ascent (GA), vise à maximiser la perte de prédiction sur un ensemble de données spécifiques, tout en préservant la capacité générale du modèle à raisonner sur des micro-enquêtes. La seconde méthode, appelée Negative Preference Optimization (NPO), traite les données à oublier comme des complétions non préférées, minimisant ainsi une perte de préférence par rapport à un modèle de référence.
Les données ciblées pour l'oubli incluent le registre officiel de l'inflation, comprenant les séries mensuelles de l'indice des prix à la consommation (CPI) et les attentes moyennes d'inflation publiées par les enquêtes SCE et Michigan. Les effets de ces méthodes d'unlearning sur la distribution des réponses sont détaillés dans le tableau 1 de l'étude.
Simuler un essai contrôlé randomisé
Bien que l'élargissement de la distribution des réponses soit un progrès, cela ne suffit pas pour atteindre l'objectif ultime de l'étude : reproduire des essais contrôlés randomisés (RCT) d'enquête avec des versions synthétiques. Les RCT sont des outils coûteux et une fois les données collectées, il est impossible pour un chercheur de revenir en arrière pour tester de nouvelles théories ou ajuster les traitements. Les agents synthétiques pourraient potentiellement combler cette lacune, à condition que leur comportement reflète fidèlement celui des répondants humains.
Pour évaluer cette capacité, l'étude a répliqué un RCT réel mené par Coibion, Gorodnichenko et Weber en 2022. Dans cet essai, les répondants étaient répartis aléatoirement entre plusieurs groupes : un groupe de contrôle sans information, plusieurs groupes de traitement recevant chacun une information économique différente, et un groupe placebo exposé à un contenu sans lien avec l'inflation. Les participants devaient d'abord indiquer leur attente d'inflation antérieure, recevoir l'information assignée, puis rapporter une nouvelle attente postérieure. La différence entre ces deux attentes constitue la révision du répondant.
Un traitement est jugé efficace si les révisions observées diffèrent significativement de celles du groupe de contrôle et si la direction du changement est conforme aux prévisions économiques : par exemple, des révisions à la baisse après une communication du FOMC, ou à la hausse après des nouvelles de hausse des prix de l'essence. La vérification pour les agents synthétiques consiste à déterminer si leurs révisions se comportent de la même manière que celles des répondants humains.
Conclusion
Pour les chercheurs et praticiens envisageant d'utiliser des LLM pour réaliser des enquêtes, plusieurs points clés émergent :
-
Les LLM échouent à reproduire la diversité des personas. La simulation d'enquêtes se résume à un agent unique répondant à la même question des milliers de fois, atteignant systématiquement une moyenne très précise, parfois jusqu'à quatre décimales.
-
Les méthodes d'unlearning ciblées permettent de récupérer une grande partie de la dispersion des réponses et une part significative de l'effet de traitement, bien que des défis subsistent pour imiter fidèlement les RCT.
En somme, si les LLM offrent une alternative prometteuse pour la collecte de données, leur capacité à refléter la diversité des opinions humaines reste limitée, nécessitant des améliorations pour être pleinement opérationnels.




