Comment les LLM peuvent-ils démasquer des utilisateurs pseudonymes ?

Les modèles de langage (LLM) peuvent identifier des utilisateurs pseudonymes avec une précision dépassant 90 % dans certains cas, selon des études récentes. Cette capacité soulève des préoccupations majeures concernant la protection de la vie privée à l'ère numérique, car elle pourrait transformer notre perception de la confidentialité en ligne. Le taux de rappel des utilisateurs démasqués atteint jusqu'à 68 %. (Brief IA — briefia.fr).

Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

Les LLM menacent la pseudonymie en ligne avec une précision redoutable

Brief IA

Tom Levy·3 mars 2026·5 min·5 vues

⚡

En bref

1Des chercheurs ont démontré que les LLM peuvent identifier jusqu'à 68 % des utilisateurs pseudonymes sur les réseaux sociaux.

2La précision de ces modèles atteint jusqu'à 90 %, posant des risques pour la vie privée et la sécurité des utilisateurs.

3Des expériences ont montré que même des informations générales peuvent suffire à démasquer des individus en ligne.

💡Pourquoi c'est important — La capacité des LLM à dé-anonymiser menace la protection de la vie privée sur Internet, exposant les utilisateurs à des risques accrus de doxxing et de harcèlement.

L'IA au cœur de la dé-anonymisation des réseaux sociaux

Les comptes temporaires sur les réseaux sociaux, souvent utilisés pour préserver l'anonymat des utilisateurs, sont de plus en plus vulnérables face aux avancées de l'intelligence artificielle. Des chercheurs ont récemment démontré que les modèles de langage (LLM) peuvent analyser ces comptes pour identifier les utilisateurs pseudonymes avec une précision surprenante. Cette découverte a des implications considérables pour la vie privée sur Internet.

Les résultats de cette recherche, publiés dans un article récent, reposent sur des expériences qui ont permis de corréler des individus spécifiques avec des comptes ou des publications sur plusieurs plateformes de médias sociaux. Le taux de succès de cette approche dépasse largement celui des méthodes classiques de dé-anonymisation, qui s'appuient sur des humains pour assembler des ensembles de données structurées ou sur le travail manuel d'enquêteurs qualifiés. Le taux de rappel, c'est-à-dire le nombre d'utilisateurs démasqués avec succès, atteignait jusqu'à 68 %, tandis que la précision, qui mesure le taux de suppositions correctes, atteignait jusqu'à 90 %.

Je sais ce que vous avez posté l'année dernière

Ces découvertes pourraient bouleverser la pseudonymie, une mesure de protection de la vie privée qui, bien que imparfaite, est souvent jugée suffisante. De nombreuses personnes l'utilisent pour poser des questions et participer à des discussions publiques parfois sensibles, tout en rendant difficile l'identification positive des intervenants. La capacité d'identifier rapidement et à moindre coût les personnes derrière de tels comptes obscurcis les expose à des risques de doxxing, de harcèlement et à l'assemblage de profils marketing détaillés qui suivent où vivent les intervenants, ce qu'ils font dans la vie et d'autres informations personnelles. Cette mesure de pseudonymie n'est plus tenable.

« Nos résultats ont des implications significatives pour la vie privée en ligne », ont écrit les chercheurs. « L'utilisateur moyen en ligne a longtemps opéré sous un modèle de menace implicite où il a supposé que la pseudonymie offrait une protection adéquate, car la dé-anonymisation ciblée nécessiterait un effort considérable. Les LLM invalident cette hypothèse. »

Un aperçu du cadre de démasquage pseudonyme

Les chercheurs ont collecté plusieurs ensembles de données à partir de sites de médias sociaux publics pour tester les techniques tout en préservant la vie privée des intervenants. L'un d'eux a collecté des publications de Hacker News et des profils LinkedIn, puis les a liés en utilisant des références inter-plateformes apparaissant dans les profils des utilisateurs. Ils ont ensuite supprimé toutes les références identifiantes des publications et ont exécuté un modèle de langage sur celles-ci. Un second ensemble de données a été obtenu à partir d'une publication de Netflix contenant des micro-identités, telles que des préférences individuelles, des recommandations et des dossiers de transactions. Un article de recherche de 2008 a montré qu'en utilisant ce qui est devenu connu sous le nom d'attaque du prix Netflix, la liste pouvait identifier des utilisateurs et leur affiliation politique ainsi que d'autres informations personnelles. La dernière technique a scindé l'historique d'un utilisateur sur Reddit.

« Ce que nous avons découvert, c'est que ces agents IA peuvent faire quelque chose qui était auparavant très difficile : à partir de texte libre (comme un transcript d'entretien anonymisé), ils peuvent remonter jusqu'à l'identité complète d'une personne », a déclaré Simon Lermen, co-auteur de l'article. « C'est une capacité assez nouvelle ; les approches précédentes de ré-identification nécessitaient généralement des données structurées et deux ensembles de données avec un schéma similaire pouvant être liés ensemble. »

Contrairement à ces anciennes méthodes de démasquage de pseudonymie, Lermen a déclaré que les agents IA peuvent naviguer sur le web et interagir avec lui de nombreuses manières similaires aux humains. Ils peuvent utiliser un raisonnement simulé pour associer des individus potentiels. Dans une expérience, les chercheurs ont examiné les réponses données dans un questionnaire d'Anthropic sur la façon dont diverses personnes utilisent l'IA dans leur vie quotidienne. En utilisant les informations tirées des réponses, les chercheurs ont pu identifier positivement 7 % des 125 participants.

Dé-anonymisation de bout en bout à partir d'un seul transcript d'entretien

Bien qu'un rappel de 7 % soit relativement faible, cela démontre la capacité croissante de l'IA à identifier des personnes sur la base d'informations très générales qu'elles ont fournies. « Le fait que l'IA puisse faire cela est un résultat remarquable », a déclaré Lermen. « Et à mesure que les systèmes d'IA s'améliorent, ils seront probablement de plus en plus efficaces pour trouver des identités. »

Dans une seconde expérience, les chercheurs ont rassemblé des commentaires publiés en 2024 sur le subreddit r/movies et au moins une des cinq petites communautés : r/horror, r/MovieSuggestions, r/Letterboxd, r/TrueFilm, et r/MovieDetails. Les résultats ont montré que plus un candidat discutait de films, plus il était facile de l'identifier. En moyenne, 3,1 % des utilisateurs partageant un film pouvaient être identifiés avec une précision de 90 %, et 1,2 % d'entre eux avec une précision de 99 %.

Les LLM menacent la pseudonymie en ligne avec une précision redoutable

Tu suis la course aux modèles IA ?

L'IA au cœur de la dé-anonymisation des réseaux sociaux

Je sais ce que vous avez posté l'année dernière

Un aperçu du cadre de démasquage pseudonyme

Dé-anonymisation de bout en bout à partir d'un seul transcript d'entretien

Groq et LLM : Transformer le Texte en Données Tabulaires Structurées

LLM : le décodage spéculatif triple la vitesse de génération

Scikit-LLM et BART : Quel avenir pour la classification de texte ?

LLM et ingénierie des caractéristiques : une révolution en Python

LLM : 5 articles clés qui démystifient les modèles de langage

Les LLM : un défi pour l'industrie face à la quête de stabilité