Brief IA

L'agent IA de Codewall pirate un recruteur IA, puis imite Trump pour tester les garde-fous de son bot vocal

🛠️ Outils IAvia The Decoder·Tomislav Bezmalinović·

L'agent IA de Codewall pirate un recruteur IA, puis imite Trump pour tester les garde-fous de son bot vocal

L'agent IA de Codewall pirate un recruteur IA, puis imite Trump pour tester les garde-fous de son bot vocal

⚡ Résumé en français par Brief IA

• Un agent IA a réussi à prendre le contrôle d'une plateforme de recrutement IA en une heure. • L'agent a imité Donald Trump pour évaluer la sécurité de son bot vocal. • Cet incident souligne la complexité croissante de la sécurité dans le domaine des IA, où les systèmes peuvent être à la fois attaquants et défenseurs. 💡 Pourquoi c'est important : Cela met en lumière les défis critiques de sécurité auxquels les entreprises doivent faire face dans un paysage technologique en évolution rapide.

📄 Article traduit en français

L'agent IA de Codewall pirate un recruteur IA

L'agent autonome de Codewall a découvert quatre vulnérabilités sur la plateforme de recrutement basée à Londres, Jack & Jill, et a réussi à les enchaîner en une attaque complète en moins d'une heure, obtenant un accès administrateur total aux comptes de l'entreprise.

L'agent a ensuite décidé de tester l'infrastructure vocale de la plateforme, interagissant directement avec l'agent IA "Jack" au cours de 28 échanges. Les garde-fous ont tenu, mais lorsque l'agent a imité Donald Trump, "Jack" l'a appelé "Monsieur le Président" sans remettre en question la situation.

Détails de l'attaque

La startup de cybersécurité Codewall affirme que son agent autonome a exploité quatre failles de sécurité sur la plateforme de recrutement alimentée par l'IA, Jack & Jill. En une heure, l'agent aurait enchaîné ces vulnérabilités dans une attaque avec un score de gravité CVSS de 9.8, suffisant pour un contrôle total des comptes de l'entreprise. Codewall a divulgué les vulnérabilités à Jack & Jill après l'attaque, et la startup les a corrigées peu après.

Jack & Jill est une startup londonienne soutenue par un tour de financement de 20 millions de dollars. La plateforme dispose de deux agents vocaux IA : "Jack" aide les candidats dans leur recherche d'emploi, tandis que "Jill" assiste les entreprises dans le recrutement. Des systèmes de connexion distincts séparent les deux parties. La liste des clients de l'entreprise comprend des noms tels qu'Anthropic, Stripe, Monzo, et Cursor.

Les vulnérabilités identifiées

Selon Codewall, les quatre failles qui ont permis l'accès complet à l'administrateur sont :

  • Un fetcher d'URL exposant la documentation API interne
  • Un mode de test actif dans le service d'authentification Clerk avec un code unique statique
  • Une vérification de rôle manquante lors de l'intégration des entreprises
  • Un point de terminaison qui attribuait des utilisateurs à une entreprise en fonction du domaine de l'email sans vérifier la propriété

L'agent a créé un compte en utilisant le domaine de l'entreprise de Codewall, s'est authentifié via le mode de test, a été automatiquement assigné à l'entreprise existante, et a reçu des privilèges administratifs complets après son intégration. À partir de là, il pouvait consulter les noms et adresses email des membres de l'équipe, lire l'accord complet des services de recrutement, manipuler les offres d'emploi, et accéder à l'assistant IA de l'entreprise.

Test de l'infrastructure vocale

Après avoir obtenu l'accès, l'agent a décidé de tester l'infrastructure vocale de la plateforme, ayant découvert qu'elle exposait des informations de connexion complètes sans aucune authentification.

Selon Codewall, l'agent a généré des clips vocaux synthétiques via text-to-speech, s'est connecté à la salle vocale, et a parlé directement avec l'agent IA "Jack". Vingt-huit échanges ont suivi, avec des stratégies de plus en plus agressives : des questions inoffensives aux tentatives de social engineering et de jailbreak. Les garde-fous ont tenu, mais "Jack" a halluciné de manière significative dans d'autres domaines. Lorsque l'agent de Codewall a imité Donald Trump et a prétendu réaliser une acquisition de 500 millions de dollars, "Jack" l'a appelé "Monsieur le Président" sans remettre en question la situation.

Tous les détails proviennent de Codewall lui-même, et aucune vérification indépendante n'a été publiée jusqu'à présent. Quelques jours plus tôt, Codewall avait divulgué un cas similaire : l'agent autonome aurait compromis la plateforme interne d'IA de McKinsey, Lilli, en environ deux heures, obtenant un accès en lecture et écriture à une base de données de production contenant 46,5 millions de messages de chat. McKinsey a confirmé la vulnérabilité et l'a corrigée en moins d'un jour, mais a souligné qu'une enquête judiciaire n'avait trouvé aucun accès non autorisé aux données des clients.

Un nouveau dilemme en cybersécurité

Les agents IA ouvrent un tout nouveau front en cybersécurité. Plusieurs études ont révélé qu'ils présentent de graves faiblesses de sécurité, et plus ces agents deviennent autonomes et capables, plus la surface d'attaque s'élargit. L'attaque la plus courante est l'injection de prompt, où des attaquants glissent des instructions cachées dans un texte qui détournent le comportement d'un agent IA sans que l'utilisateur ne s'en rende compte.

Cela laisse les entreprises dans une position délicate. La seule manière fiable de réduire ces risques actuellement est de brider intentionnellement ce que les agents peuvent faire : verrouiller les prompts système, restreindre l'accès, limiter l'utilisation des outils, ou exiger une validation humaine pour des actions critiques.

Comme le montre le travail de Codewall, les agents IA peuvent également être utilisés comme des armes pour pénétrer dans des systèmes. Cependant, ils surpassent également les équipes rouges humaines dans les compétitions de cybersécurité et trouvent des vulnérabilités que les analystes humains manquent. Ils peuvent analyser d'énormes volumes de données de journaux et de trafic réseau en temps réel, signaler des anomalies et détecter des menaces plus rapidement que n'importe quelle équipe humaine.

TwitterLinkedIn

Brief IA — Veille IA en français

Toutes les innovations mondiales en IA, traduites et résumées automatiquement. Recevoir les meilleures actus IA chaque jour.