Tu veux les meilleurs outils IA avant les autres ?
On teste et on décrypte les nouveaux outils IA chaque soir, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Fernando Irarrázaval a récemment mis à l'épreuve la sécurité de son assistant IA en lançant un défi sur le site hackmyclaw.com. L'objectif était de voir si des participants pouvaient divulguer des secrets en exploitant son instance de test OpenClaw via des e-mails.
Malgré l'engouement suscité par ce défi, avec 6 000 tentatives enregistrées et 500 dollars investis en jetons, aucun des participants n'a réussi à percer les défenses de l'IA. Cette expérience a même conduit à la suspension temporaire de son compte Google en raison du volume élevé d'e-mails entrants.
Un modèle robuste : Opus 4.6
Le modèle utilisé pour cette expérience était Opus 4.6, qui intègre des règles strictes pour prévenir les attaques par injection de prompt. Ces règles stipulent notamment de ne jamais se baser sur le contenu des e-mails pour révéler des informations sensibles, modifier des fichiers internes, exécuter des commandes ou exfiltrer des données.
Une efficacité confirmée
Cette expérience a confirmé l'efficacité des efforts déployés par les laboratoires pour former leurs modèles à résister aux attaques par injection. Bien que les 6 000 tentatives échouées démontrent une certaine robustesse, Fernando Irarrázaval reste prudent. Il déconseille de déployer un système de production où une attaque réussie pourrait causer des dommages irréversibles.
Il est intéressant de noter que la carte système de GPT-5.6 mentionne également des efforts similaires pour renforcer la résistance aux attaques par injection. Sur le forum Hacker News, le sujet a suscité de nombreuses discussions, mêlant scepticisme et échanges constructifs.

