Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

Fernando Irarrázaval défie 2 000 hackers : son IA résiste aux attaques

Brief IA

Tom Levy·26 juin 2026·2 min·1 vues

⚡

En bref

1Fernando Irarrázaval a lancé un défi sur hackmyclaw.com pour tester la sécurité de son assistant IA OpenClaw.

2Après 6 000 tentatives et 500 $ dépensés, aucun hacker n'a réussi à divulguer le secret protégé par le modèle Opus 4.6.

3Les règles anti-prompt-injection ont efficacement empêché toute exfiltration de données ou modification non autorisée.

💡Pourquoi c'est important — Cette expérience souligne la robustesse des modèles IA modernes face aux attaques, mais rappelle que la vigilance reste essentielle.

Fernando Irarrázaval a récemment mis à l'épreuve la sécurité de son assistant IA en lançant un défi sur le site hackmyclaw.com. L'objectif était de voir si des participants pouvaient divulguer des secrets en exploitant son instance de test OpenClaw via des e-mails.

Malgré l'engouement suscité par ce défi, avec 6 000 tentatives enregistrées et 500 dollars investis en jetons, aucun des participants n'a réussi à percer les défenses de l'IA. Cette expérience a même conduit à la suspension temporaire de son compte Google en raison du volume élevé d'e-mails entrants.

Un modèle robuste : Opus 4.6

Le modèle utilisé pour cette expérience était Opus 4.6, qui intègre des règles strictes pour prévenir les attaques par injection de prompt. Ces règles stipulent notamment de ne jamais se baser sur le contenu des e-mails pour révéler des informations sensibles, modifier des fichiers internes, exécuter des commandes ou exfiltrer des données.

Une efficacité confirmée

Cette expérience a confirmé l'efficacité des efforts déployés par les laboratoires pour former leurs modèles à résister aux attaques par injection. Bien que les 6 000 tentatives échouées démontrent une certaine robustesse, Fernando Irarrázaval reste prudent. Il déconseille de déployer un système de production où une attaque réussie pourrait causer des dommages irréversibles.

Il est intéressant de noter que la carte système de GPT-5.6 mentionne également des efforts similaires pour renforcer la résistance aux attaques par injection. Sur le forum Hacker News, le sujet a suscité de nombreuses discussions, mêlant scepticisme et échanges constructifs.