Comment 13 mots peuvent-ils tromper l'IA sur Reddit ?

Une étude de Cornell Tech révèle que 13 mots sur Reddit peuvent manipuler les réponses d'IA, transformant des arnaques en conseils crédibles. La méthode d'attaque WARP peut influencer jusqu'à 62 % des réponses des agents de recherche IA, soulignant le risque pour la fiabilité des informations en ligne. (Brief IA — briefia.fr).

Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

Reddit : 13 mots suffisent à tromper l'IA et promouvoir des arnaques

Brief IA

Tom Levy·18 juin 2026·3 min·37 vues

⚡

En bref

1Une étude révèle que 13 mots sur Reddit peuvent manipuler les réponses d'IA, transformant des arnaques en conseils crédibles.

2Les chercheurs de Cornell Tech ont démontré que des contenus générés par les utilisateurs peuvent empoisonner les agents de recherche IA.

3L'attaque WARP peut influencer jusqu'à 62 % des réponses IA, posant un risque pour la fiabilité des informations.

💡Pourquoi c'est important — Les utilisateurs doivent vérifier les recommandations IA, car des arnaques peuvent se cacher derrière des conseils apparemment fiables.

Reddit : un terrain fertile pour les arnaques IA

Sur Reddit, il suffit de treize mots pour transformer une arnaque en une recommandation apparemment fiable par une intelligence artificielle. Cette réalité inquiétante est mise en lumière par une étude menée par Cornell Tech et 404 Media. Les chercheurs, Tingwei Zhang, Harold Triedman et Vitaly Shmatikov, ont publié une prépublication intitulée « Deep-Research Agents Can Be Poisoned Via User-Generated Content ». Ils décrivent une méthode d'attaque qu'ils appellent WARP, pour Web Agent Retrieval Poisoning.

L'influence des contenus générés par les utilisateurs sur les IA

Les agents de recherche IA, tels que ceux utilisés par ChatGPT et Gemini, parcourent le web pour lire et compiler des informations à partir de diverses sources. Ces sources incluent souvent des plateformes ouvertes comme Reddit, Wikipédia, Quora, et YouTube, où les utilisateurs peuvent publier librement. Dans leurs tests, les chercheurs ont constaté que 17 à 23 % des pages analysées provenaient de ces plateformes participatives.

Une discussion populaire sur Reddit peut influencer plusieurs requêtes similaires, sans nécessiter d'autorisation spécifique. En insérant environ quinze mots promotionnels dans une source visible, les chercheurs ont réussi à faire apparaître un faux produit dans 38 à 51 % des réponses IA. En multipliant les appâts, cette influence pouvait atteindre 62 %, illustrant ainsi la vulnérabilité des systèmes actuels.

Expérimentations éthiques et contrôlées

Pour mener leurs expériences de manière éthique, les chercheurs ont choisi de ne rien publier publiquement. Ils ont travaillé dans un environnement simulé et contrôlé. Par exemple, un restaurant fictif nommé Sol Azteca a été mis en avant après qu'un message vantait sa cuisine locale authentique. D'autres exemples incluent SilverPath, ciblant les divorcés seniors, ainsi qu'une fausse cryptomonnaie et un service nommé Xfinity.

L'étude a principalement ciblé des agents open source tels que STORM, Co-STORM, et OmniThink, sans attaquer les chatbots commerciaux pour éviter de perturber le web public. Gemini Deep Research a cité environ 12 % des sources manipulées, tandis qu'OpenAI Deep Research n'en a cité que 0,4 %, soulignant ainsi une faiblesse potentielle.

La nécessité de vérifier les recommandations IA

Cette faille met en lumière le danger des recommandations IA, notamment dans des domaines où les utilisateurs délèguent leur jugement, comme les applications, les restaurants, ou les achats. Un contenu malveillant peut facilement tromper l'IA, qui confond alors proximité linguistique et crédibilité. Selon Zhang, un commentaire sur Reddit peut avoir autant de poids qu'un site gouvernemental, ce qui est préoccupant.

Restreindre l'accès aux sites participatifs pourrait appauvrir la richesse des réponses IA, diminuant ainsi leur utilité. Vérifier chaque source ou analyser la réponse finale pourrait également dégrader les résultats. Parfois, détecter le texte non naturel échoue, car les appâts sont conçus pour paraître fluides et naturels.

Reddit affirme lutter contre le spam, les bots et les manipulations depuis deux décennies, et exige parfois une vérification humaine. Cependant, ni Reddit ni Wikipédia ne peuvent résoudre seuls ce problème, selon les chercheurs de Cornell.

Il est donc crucial de traiter les recommandations d'IA comme des suggestions, et non comme des vérités absolues. Il est conseillé de :

Cliquer sur les citations pour vérifier leur authenticité
Se méfier des noms inconnus
Faire preuve de prudence face aux demandes urgentes nécessitant un paiement

En somme, les utilisateurs doivent adopter une approche critique face aux recommandations IA, en vérifiant et en lisant attentivement avant de cliquer. Bien que l'IA puisse être un outil précieux, il est essentiel de rester vigilant face aux informations qu'elle fournit.

Reddit : 13 mots suffisent à tromper l'IA et promouvoir des arnaques

La recherche en IA te passionne ?

Reddit : un terrain fertile pour les arnaques IA

L'influence des contenus générés par les utilisateurs sur les IA

Expérimentations éthiques et contrôlées

La nécessité de vérifier les recommandations IA

Meta : des faux ados pour tester les chatbots IA concurrents

OpenAI et le mystère des journalistes IA : une enquête qui dérange

Meta face à l'IA : Community Notes et désinformation

Le Chat de Mistral et la désinformation sur l'Iran

The Atlantic dévoile les morceaux utilisés pour entraîner l'IA

Google contre-attaque : une cyberattaque chinoise massive démantelée