Le brief IA que les pros lisent chaque soir
Les 7 actus IA du jour, décryptées en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Les chercheurs de Google ont récemment mis en garde contre une menace émergente visant les agents d'intelligence artificielle (IA) d'entreprise. Les équipes de sécurité qui analysent le dépôt Common Crawl, une base de données massive de milliards de pages web publiques, ont découvert une tendance croissante de pièges numériques. Des administrateurs de sites web et des acteurs malveillants intègrent des instructions cachées dans le HTML standard des pages web. Ces commandes restent invisibles jusqu'à ce qu'un agent IA accède à la page pour y extraire des informations, moment où il ingère le texte et exécute les instructions dissimulées.
Comprendre les injections de prompt indirectes
Les injections de prompt indirectes représentent une méthode sophistiquée pour manipuler les agents IA. Contrairement aux tentatives d'injection directe, où un utilisateur pourrait essayer de manipuler un chatbot en lui demandant d'ignorer certaines instructions, ces injections exploitent des sources de données apparemment fiables. Par exemple, un agent IA utilisé par un département des ressources humaines pour évaluer des candidats pourrait être trompé par des instructions cachées sur le site personnel d'un candidat. Ces instructions pourraient lui ordonner de transmettre des données sensibles à une adresse externe tout en produisant un rapport positif sur le candidat.
Le modèle IA ne peut pas faire la distinction entre le contenu légitime de la page web et la commande malveillante ; il traite le texte comme un flux d'informations continu, interprète la nouvelle instruction comme une tâche de haute priorité et utilise son accès interne à l'entreprise pour exécuter l'exfiltration de données.
Les systèmes de défense actuels, tels que les pare-feu et les systèmes de détection des points de terminaison, ne sont pas équipés pour identifier ces attaques. Les agents IA, opérant avec des identifiants légitimes, ne déclenchent aucune alarme lorsqu'ils exécutent ces commandes malveillantes, car leurs actions semblent normales. Les architectures de défense cybernétique existantes ne peuvent pas détecter ces attaques. Les pare-feu, les systèmes de détection des points de terminaison et les plateformes de gestion des accès identitaires recherchent un trafic réseau suspect, des signatures de logiciels malveillants ou des tentatives de connexion non autorisées.
Un agent IA exécutant une injection de prompt ne génère aucun de ces signaux d'alerte. L'agent possède des identifiants légitimes et opère sous un compte de service approuvé avec une autorisation explicite pour lire la base de données des ressources humaines et envoyer des e-mails. Lorsqu'il exécute la commande malveillante, l'action semble indiscernable de ses opérations quotidiennes normales.
Les fournisseurs vendant des tableaux de bord d'observabilité IA font la promotion de leur capacité à suivre l'utilisation des jetons, la latence des réponses et le temps de disponibilité du système. Très peu de ces outils offrent une surveillance significative de l'intégrité des décisions. Lorsqu'un système agentique orchestré dévie de son cours en raison de données empoisonnées, aucune alarme ne retentit dans le centre des opérations de sécurité, car le système croit fonctionner comme prévu.
Architecturer le plan de contrôle agentique
Pour contrer ces menaces, Google propose l'implémentation d'un modèle de vérification à double niveau. Un modèle "désinfecteur" isolé pourrait être utilisé pour filtrer les pages web externes, éliminant les formats cachés et ne transmettant que des résumés en texte brut au système principal. Ce modèle, même s'il est compromis, ne pourrait pas causer de dommages en raison de ses permissions limitées.
Les développeurs accordent fréquemment aux agents IA des permissions étendues pour simplifier le processus de codage, regroupant les capacités de lecture, d'écriture et d'exécution dans une seule identité monolithique. Un système conçu pour rechercher des concurrents en ligne ne devrait jamais avoir accès en écriture au CRM interne de l'entreprise. L'application des principes de "zéro confiance" est essentielle pour limiter les capacités des agents IA.
Enfin, il est impératif de développer des pistes de vérification capables de retracer l'origine de chaque décision IA. Les pistes de vérification doivent également évoluer pour suivre la lignée précise de chaque décision IA. Si un agent financier recommande un trade d'actions soudain, les agents de conformité doivent être en mesure de retracer cette recommandation jusqu'aux points de données spécifiques et aux URL externes qui ont influencé la logique du modèle. Cela permettrait de diagnostiquer les causes profondes des injections de prompt indirectes, assurant ainsi une meilleure gouvernance et sécurité des systèmes IA en entreprise. Internet reste un environnement adversarial et construire une IA d'entreprise capable de naviguer dans cet environnement nécessite de nouvelles approches de gouvernance et une restriction stricte de ce que ces agents croient être vrai.
