Les LLM peuvent-ils remplacer les répondants aux enquêtes ?

Des études montrent que les modèles de langage de grande taille (LLM) peuvent simuler des réponses d'enquêtes, reproduisant les résultats des enquêtes ménagères avec une précision d'un point de pourcentage. Par exemple, en 2020, l'enquête sur les attentes des consommateurs a rapporté un taux d'inflation médian d'environ 3 %, un chiffre également obtenu par un LLM. Cela suggère que les LLM pourraient servir de complément à faible coût aux enquêtes traditionnelles. (Brief IA — briefia.fr).

Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

Les LLM : une alternative crédible aux enquêtes traditionnelles ?

Brief IA

Tom Levy·20 mai 2026·5 min·1 vues

⚡

En bref

1Des études récentes montrent que les LLM peuvent simuler les réponses moyennes des enquêtes ménagères avec une précision d'un point de pourcentage.

2Malgré leur précision moyenne, les LLM ne parviennent pas à reproduire la diversité des réponses individuelles observée dans les enquêtes réelles.

3Des méthodes d'unlearning ont été testées pour améliorer la dispersion des réponses des LLM, mais des défis subsistent pour imiter fidèlement les RCT.

💡Pourquoi c'est important — L'utilisation des LLM pourrait révolutionner la collecte de données, mais leur capacité à refléter la diversité des opinions reste limitée.

Les LLM : une alternative crédible aux enquêtes traditionnelles ?

Modèles de langage de grande taille

L'idée de remplacer les répondants humains par des modèles de langage de grande taille (LLM) dans les enquêtes économiques suscite un intérêt croissant. Des recherches récentes ont exploré la capacité de ces modèles à simuler les réponses de 6 000 ménages américains face à des questions économiques, telles que celles portant sur l'inflation. Les résultats sont prometteurs : les LLM peuvent reproduire les réponses moyennes des principales enquêtes ménagères avec une précision d'un point de pourcentage près, selon une étude de Zarifhonarvar en 2026. Par exemple, l'enquête sur les attentes des consommateurs (SCE) de 2020 a rapporté un taux d'inflation médian à un an d'environ 3 %, un chiffre que les LLM, lorsqu'ils sont correctement incités, parviennent également à atteindre. Cette précision pourrait faire des LLM un complément intéressant et économique aux enquêtes traditionnelles telles que la SCE, l'enquête du Michigan et le Survey of Professional Forecasters.

Cependant, un article récent intitulé Can LLMs Mimic Household Surveys?, coécrit avec Ami Dalloul de l'Université de Duisburg-Essen, souligne une limitation majeure des LLM. Bien que ces modèles atteignent la médiane des enquêtes avec précision, ils échouent à capturer la diversité des réponses individuelles. Par exemple, le modèle Llama-3 place 95 % de ses répondants simulés dans une étroite fourchette de deux points de pourcentage, alors que les réponses réelles de la SCE en 2020 variaient de -25 % à +27 %. En d'autres termes, bien que la moyenne soit correcte, la diversité des opinions qui la sous-tend est absente, ce qui réduit les simulations à un simple agent représentatif.

Unlearning des LLM

Pour remédier à cette limitation, une approche consiste à retirer certaines statistiques mémorisées des modèles, plutôt que de les ignorer. Deux méthodes d'unlearning ont été appliquées au modèle Llama-3.1-8B-Instruct, un modèle open-source qui permet la modification de ses poids internes. La première méthode, le Gradient Ascent (GA), vise à maximiser la perte de prédiction sur un ensemble de données spécifiques, tout en préservant la capacité générale du modèle à raisonner sur des micro-enquêtes. La seconde méthode, appelée Negative Preference Optimization (NPO), traite les données à oublier comme des complétions non préférées, minimisant ainsi une perte de préférence par rapport à un modèle de référence.

Les données ciblées pour l'oubli incluent le registre officiel de l'inflation, comprenant les séries mensuelles de l'indice des prix à la consommation (CPI) et les attentes moyennes d'inflation publiées par les enquêtes SCE et Michigan. Les effets de ces méthodes d'unlearning sur la distribution des réponses sont détaillés dans le tableau 1 de l'étude.

Simuler un essai contrôlé randomisé

Bien que l'élargissement de la distribution des réponses soit un progrès, cela ne suffit pas pour atteindre l'objectif ultime de l'étude : reproduire des essais contrôlés randomisés (RCT) d'enquête avec des versions synthétiques. Les RCT sont des outils coûteux et une fois les données collectées, il est impossible pour un chercheur de revenir en arrière pour tester de nouvelles théories ou ajuster les traitements. Les agents synthétiques pourraient potentiellement combler cette lacune, à condition que leur comportement reflète fidèlement celui des répondants humains.

Pour évaluer cette capacité, l'étude a répliqué un RCT réel mené par Coibion, Gorodnichenko et Weber en 2022. Dans cet essai, les répondants étaient répartis aléatoirement entre plusieurs groupes : un groupe de contrôle sans information, plusieurs groupes de traitement recevant chacun une information économique différente, et un groupe placebo exposé à un contenu sans lien avec l'inflation. Les participants devaient d'abord indiquer leur attente d'inflation antérieure, recevoir l'information assignée, puis rapporter une nouvelle attente postérieure. La différence entre ces deux attentes constitue la révision du répondant.

Un traitement est jugé efficace si les révisions observées diffèrent significativement de celles du groupe de contrôle et si la direction du changement est conforme aux prévisions économiques : par exemple, des révisions à la baisse après une communication du FOMC, ou à la hausse après des nouvelles de hausse des prix de l'essence. La vérification pour les agents synthétiques consiste à déterminer si leurs révisions se comportent de la même manière que celles des répondants humains.

Conclusion

Pour les chercheurs et praticiens envisageant d'utiliser des LLM pour réaliser des enquêtes, plusieurs points clés émergent :

Les LLM échouent à reproduire la diversité des personas. La simulation d'enquêtes se résume à un agent unique répondant à la même question des milliers de fois, atteignant systématiquement une moyenne très précise, parfois jusqu'à quatre décimales.
Les méthodes d'unlearning ciblées permettent de récupérer une grande partie de la dispersion des réponses et une part significative de l'effet de traitement, bien que des défis subsistent pour imiter fidèlement les RCT.

En somme, si les LLM offrent une alternative prometteuse pour la collecte de données, leur capacité à refléter la diversité des opinions humaines reste limitée, nécessitant des améliorations pour être pleinement opérationnels.

Les LLM : une alternative crédible aux enquêtes traditionnelles ?

La recherche en IA te passionne ?

Les LLM : une alternative crédible aux enquêtes traditionnelles ?

Modèles de langage de grande taille

Unlearning des LLM

Simuler un essai contrôlé randomisé

Conclusion

Proxy-Pointer RAG : Réponses multimodales sans embeddings

Réduire les hallucinations des LLM en production

LLM : JSON vs Appel de Fonction, Quel Mode Choisir ?

Étude : l'IA nuit aux examens d'entrée après deux ans

LAMs vs LLMs agentiques : une distinction essentielle en IA

Google DeepMind et A24 : une alliance pour réinventer le cinéma