Les LLM peuvent démasquer des utilisateurs pseudonymes à grande échelle avec une précision surprenante

⚡ Résumé en français par Brief IA
📄 Article traduit en français
Les LLM peuvent démasquer des utilisateurs pseudonymes à grande échelle avec une précision surprenante
Les comptes temporaires sur les réseaux sociaux peuvent de plus en plus être analysés pour identifier les utilisateurs pseudonymes qui les alimentent, grâce à l'IA, selon des chercheurs. Cette recherche a des conséquences considérables pour la vie privée sur Internet.
Les résultats, issus d'un article de recherche récemment publié, reposent sur des expériences corrélant des individus spécifiques avec des comptes ou des publications sur plus d'une plateforme de médias sociaux. Le taux de succès était bien supérieur à celui des travaux classiques de dé-anonymisation qui reposaient sur des humains assemblant des ensembles de données structurées adaptées à un appariement algorithmique ou à un travail manuel par des enquêteurs qualifiés. Le rappel — c'est-à-dire le nombre d'utilisateurs démasqués avec succès — atteignait jusqu'à 68 %. La précision — signifiant le taux de suppositions qui identifient correctement l'utilisateur — était jusqu'à 90 %.
Je sais ce que vous avez posté l'année dernière
Ces découvertes ont le potentiel de bouleverser la pseudonymie, une mesure de protection de la vie privée imparfaite mais souvent suffisante, utilisée par de nombreuses personnes pour poser des questions et participer à des discussions publiques parfois sensibles, tout en rendant difficile l'identification positive des intervenants. La capacité d'identifier rapidement et à moindre coût les personnes derrière de tels comptes obscurcis les expose à des risques de doxxing, de harcèlement et à l'assemblage de profils marketing détaillés qui suivent où vivent les intervenants, ce qu'ils font dans la vie et d'autres informations personnelles. Cette mesure de pseudonymie n'est plus tenable.
« Nos résultats ont des implications significatives pour la vie privée en ligne », ont écrit les chercheurs. « L'utilisateur moyen en ligne a longtemps opéré sous un modèle de menace implicite où il a supposé que la pseudonymie offrait une protection adéquate, car la dé-anonymisation ciblée nécessiterait un effort considérable. Les LLM invalident cette hypothèse. »
Un aperçu du cadre de démasquage pseudonyme
Les chercheurs ont collecté plusieurs ensembles de données à partir de sites de médias sociaux publics pour tester les techniques tout en préservant la vie privée des intervenants. L'un d'eux a collecté des publications de Hacker News et des profils LinkedIn, puis les a liés en utilisant des références inter-plateformes apparaissant dans les profils des utilisateurs. Ils ont ensuite supprimé toutes les références identifiantes des publications et ont exécuté un modèle de langage sur celles-ci. Un second ensemble de données a été obtenu à partir d'une publication de Netflix contenant des micro-identités, telles que des préférences individuelles, des recommandations et des dossiers de transactions. Un article de recherche de 2008 a montré qu'en utilisant ce qui est devenu connu sous le nom d'attaque du prix Netflix, la liste pouvait identifier des utilisateurs et leur affiliation politique ainsi que d'autres informations personnelles. La dernière technique a scindé l'historique d'un utilisateur sur Reddit.
« Ce que nous avons découvert, c'est que ces agents IA peuvent faire quelque chose qui était auparavant très difficile : à partir de texte libre (comme un transcript d'entretien anonymisé), ils peuvent remonter jusqu'à l'identité complète d'une personne », a déclaré Simon Lermen, co-auteur de l'article. « C'est une capacité assez nouvelle ; les approches précédentes de ré-identification nécessitaient généralement des données structurées et deux ensembles de données avec un schéma similaire pouvant être liés ensemble. »
Contrairement à ces anciennes méthodes de démasquage de pseudonymie, Lermen a déclaré que les agents IA peuvent naviguer sur le web et interagir avec lui de nombreuses manières similaires aux humains. Ils peuvent utiliser un raisonnement simulé pour associer des individus potentiels. Dans une expérience, les chercheurs ont examiné les réponses données dans un questionnaire d'Anthropic sur la façon dont diverses personnes utilisent l'IA dans leur vie quotidienne. En utilisant les informations tirées des réponses, les chercheurs ont pu identifier positivement 7 % des 125 participants.
Dé-anonymisation de bout en bout à partir d'un seul transcript d'entretien
Bien qu'un rappel de 7 % soit relativement faible, cela démontre la capacité croissante de l'IA à identifier des personnes sur la base d'informations très générales qu'elles ont fournies. « Le fait que l'IA puisse faire cela est un résultat remarquable », a déclaré Lermen. « Et à mesure que les systèmes d'IA s'améliorent, ils seront probablement de plus en plus efficaces pour trouver des identités. »
Dans une seconde expérience, les chercheurs ont rassemblé des commentaires publiés en 2024 sur le subreddit r/movies et au moins une des cinq petites communautés : r/horror, r/MovieSuggestions, r/Letterboxd, r/TrueFilm, et r/MovieDetails. Les résultats ont montré que plus un candidat discutait de films, plus il était facile de l'identifier. En moyenne, 3,1 % des utilisateurs partageant un film pouvaient être identifiés avec une précision de 90 %, et 1,2 % d'entre eux avec une précision de 99 %.
Brief IA — Veille IA en français
Toutes les innovations mondiales en IA, traduites et résumées automatiquement. Recevoir les meilleures actus IA chaque jour.