Brief IA

Les outils d'IA peuvent démasquer des comptes anonymes

⚖️ Régulation & Éthiquevia The Verge IA·Robert Hart·

Les outils d'IA peuvent démasquer des comptes anonymes

Les outils d'IA peuvent démasquer des comptes anonymes

⚡ Résumé en français par Brief IA

• Une étude récente suggère que l'IA facilite l'identification des utilisateurs anonymes sur des plateformes comme Reddit et Glassdoor. • Les chercheurs proviennent d'institutions prestigieuses telles qu'ETH Zurich et Anthropic. • Bien que les résultats ne soient pas encore validés par des pairs, ils soulèvent des préoccupations sur la vie privée en ligne. 💡 Pourquoi c'est important : Cette avancée technologique pourrait remettre en question les pratiques de confidentialité sur les réseaux sociaux et influencer les comportements des utilisateurs.

📄 Article traduit en français

Les outils d'IA peuvent démasquer des comptes anonymes

L'inventeur du Bitcoin, Satoshi Nakamoto, est probablement en sécurité. En revanche, votre compte anonyme sur Reddit…

Une étude récemment publiée suggère que l'IA pourrait faciliter la démasquage des utilisateurs anonymes en ligne, soulevant des conséquences inquiétantes pour la vie privée, même si l'anonymat n'est pas encore totalement menacé.

Les résultats, qui n'ont pas été soumis à une évaluation par les pairs, proviennent de chercheurs de l'ETH Zurich, Anthropic, et du programme Machine Learning Alignment and Theory Scholars. Ils ont développé un système automatisé d'agents d'IA utilisant des modèles non spécifiés, capable de parcourir le web et d'interagir avec des informations de manière similaire à un enquêteur humain, afin de tester l'efficacité des grands modèles de langage (LLM) pour réidentifier des matériaux anonymisés. Le système « surpasse largement » les techniques computationnelles traditionnelles pour dé-anonymiser des comptes, en scrutant des textes à la recherche de détails personnels à grande échelle.

Le système fonctionne en considérant les publications ou autres textes comme un ensemble d'indices. Il analyse le texte pour détecter des motifs — des particularités d'écriture, des détails biographiques épars, la fréquence et le timing des publications — qui pourraient indiquer l'identité de quelqu'un. Il scanne ensuite d'autres comptes, potentiellement des millions, à la recherche de la même combinaison de traits. Les correspondances probables sont signalées, comparées en détail, et réduites à une liste restreinte d'identités possibles.

Plutôt que de cibler des utilisateurs non informés, l'équipe a évalué le système en utilisant des ensembles de données construits à partir de publications disponibles publiquement, y compris du contenu de Hacker News et LinkedIn, des transcriptions des interviews d'Anthropic avec des scientifiques sur leur utilisation de l'IA, et des comptes Reddit délibérément divisés en deux moitiés anonymisées pour les tests. Le document rapporte que dans chaque contexte, l'approche basée sur les LLM a correctement identifié jusqu'à 68 % des comptes correspondants avec une précision de 90 %. En revanche, les méthodes non-LLM comparables, comme la connexion de points de données éparpillés à travers de grands ensembles de données, n'ont presque rien identifié.

Les résultats n'étaient pas uniformes à travers chaque ensemble de données, et, comme prévu, le modèle a mieux performé lorsqu'il avait plus d'informations structurées à analyser. Dans une expérience examinant des utilisateurs de Reddit publiant sur des films dans le subreddit principal r/movies et des communautés cinématographiques plus petites, le système a pu lier des comptes mentionnant juste un film environ 3 % du temps avec une précision de 90 %. Lorsque les utilisateurs mentionnaient 10 films ou plus, le taux de succès grimpait à près de 50 %.

Une expérience utilisant l'enquête d'Anthropic auprès des scientifiques a, quant à elle, identifié neuf des 125 répondants, avec un taux de rappel d'environ 7 %. Dans ce test, le système a construit un profil de chaque répondant basé sur des indices dans leurs réponses, puis a recherché des informations disponibles publiquement sur le web pour des correspondances probables. Dans un exemple, les chercheurs soulignent comment des références à un « superviseur » pourraient suggérer un doctorant et que l'utilisation de l'anglais britannique pourrait indiquer une affiliation au Royaume-Uni. Combiné avec des mentions d'un parcours en sciences physiques et un travail actuel en recherche biologique, le système a pu réduire le champ à un candidat particulier.

Cependant, les chercheurs soutiennent que la capacité d'identifier des répondants à partir de textes non structurés est remarquable, reproduisant en quelques minutes ce qui aurait pris des heures à un enquêteur humain. De plus, ils ont déclaré à The Verge que les performances devraient s'améliorer à mesure que les systèmes d'IA deviennent plus performants et ont accès à des ensembles de données plus vastes. Plus largement, ils mettent en garde contre le fait qu'il n'est peut-être plus sûr de supposer que publier sous un pseudonyme protégera les identités en ligne, passées ou futures.

« Chaque élément que le LLM a trouvé pourrait en principe être découvert par un enquêteur humain. »

« Les informations sur Internet sont là pour toujours », a déclaré Daniel Paleka, chercheur à l'ETH Zurich et l'un des auteurs de l'étude. Cette persistance pourrait se traduire par des risques concrets pour les journalistes, les dissidents et les activistes qui comptent sur des pseudonymes, préviennent les chercheurs, tout en permettant une « publicité hyper-ciblée » et des escroqueries « hautement personnalisées ».

Les risques de dé-anonymisation des comptes ne sont pas nouveaux, ni uniques à l'IA. « Chaque élément que le LLM a trouvé pourrait en principe être découvert par un enquêteur humain », a déclaré Paleka à The Verge.

Ce qui est nouveau, selon Paleka, c'est l'automatisation de bout en bout. Un travail qui nécessitait autrefois un enquêteur diligent prêt à passer du temps à fouiller des publications à la recherche de petites informations peut désormais être effectué beaucoup plus facilement et sur un nombre de cibles beaucoup plus important.

C'est également peu coûteux. Les chercheurs ont déclaré que leur expérience avait coûté moins de 2 000 $.

TwitterLinkedIn

Brief IA — Veille IA en français

Toutes les innovations mondiales en IA, traduites et résumées automatiquement. Recevoir les meilleures actus IA chaque jour.