Google sécurise les agents IA avec une nouvelle feuille de route

Le brief IA que les pros lisent chaque soir
Les 7 actus IA du jour, décryptées en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
L'impact économique des agents d'intelligence artificielle
Les agents d'intelligence artificielle (IA) sont en train de redéfinir notre interaction avec la technologie, en automatisant des tâches complexes allant de la cybersécurité à l'innovation scientifique et au développement de produits. Aux États-Unis, ces systèmes pourraient générer une valeur économique impressionnante de 2,9 trillions de dollars d'ici 2030. Cette projection souligne l'importance croissante des agents d'IA dans l'économie mondiale.
Cependant, à mesure que ces agents deviennent plus performants et autonomes, la nécessité de protections sophistiquées augmente également. Pour répondre à ce besoin, Google a développé l'AI Control Roadmap, un cadre destiné à construire et gérer des IA avancées. Cette approche, décrite comme une "défense en profondeur", vise à aller au-delà de l'alignement traditionnel des modèles en ajoutant une couche de sécurité au niveau du système, offrant des garanties même si l'alignement est imparfait.
Les fondements du contrôle de l'IA
La stratégie de sécurité de Google repose sur une base solide qui intègre des protections traditionnelles telles que le sandboxing, la sécurité des points de terminaison et la résistance à l'injection de commandes. L'AI Control Roadmap utilise l'alignement des modèles comme première ligne de défense, formant l'IA pour qu'elle soit intrinsèquement sûre et utile. En considérant les agents internes comme potentiellement désalignés, cette approche fournit une sécurité supplémentaire, même si l'alignement est imparfait.
Cette méthode peut être comparée à un instructeur de conduite avec des commandes doubles. L'instructeur fait confiance à l'élève mais reste prêt à intervenir en cas d'erreur. De même, le système de contrôle de l'IA de Google accorde aux agents des permissions basées sur leur comportement vérifié, permettant de construire la confiance à travers un accès contrôlé et progressif.
La feuille de route repose sur une hypothèse prudente : que faire si un agent d'IA très capable n'est pas aligné avec nos objectifs et agit de manière inattendue ? Pour y remédier, le plan se concentre sur trois domaines clés.
-
Premièrement, en suivant les meilleures pratiques en matière de cybersécurité, Google a développé un cadre de modélisation des menaces novateur pour l'IA. La feuille de route considère les agents d'IA non fiables comme des "menaces internes" potentielles, semblables à un employé indésirable ayant accès aux locaux. En s'appuyant sur le cadre standard de l'industrie MITRE ATT&CK, qui est une base de connaissances mondiale sur les tactiques et techniques des adversaires, Google décompose les attaques potentielles en tactiques et techniques plus petites. Cela permet de suivre méthodiquement les risques, de repérer les comportements indésirables avant qu'ils ne causent des dommages et de réaliser des exercices pour tester l'efficacité des défenses.
-
Deuxièmement, Google élabore un plan pour déployer des mesures d'atténuation des risques liés à l'IA.
-
Identification du problème (Détection) : La surveillance est essentielle pour le contrôle de l'IA. Google utilise d'autres systèmes d'IA fiables comme "superviseurs" pour examiner en permanence le raisonnement, les actions et les plans d'un agent afin de vérifier s'il s'écarte de son objectif.
-
Gestion du problème (Prévention et Réponse) : Si un superviseur constate que l'agent tente de faire quelque chose de nuisible, il peut intervenir pour bloquer l'action avant que des dommages ne surviennent.
-
Enfin, pour garantir que les systèmes fonctionnent efficacement, Google mesure constamment la performance sur trois indicateurs critiques :
- Couverture (la fraction du trafic surveillé)
- Rappel (la fraction des comportements désalignés détectés)
- Temps de réponse.
Renforcer la sécurité à mesure que l'IA progresse
À mesure que les modèles d'IA continuent de progresser, les défenses doivent également se renforcer. Dans l'AI Control Roadmap, Google cartographie les protocoles de sécurité à des jalons mesurables des capacités de l'IA sur deux fronts critiques :
-
Capacité à échapper à la détection : Actuellement, Google surveille la chaîne de pensée visible d'un modèle. Cependant, à mesure que les modèles apprennent à dissimuler leur raisonnement, soit par conscience de la surveillance, soit par raisonnement opaque, simplement lire leur raisonnement verbal ne suffira plus. Il sera nécessaire d'analyser leur comportement et potentiellement d'inspecter le fonctionnement interne du modèle.
-
Capacité de causer des dommages potentiels : Pour des actions à faible risque et réversibles, Google peut se fier à l'examen des transcriptions avec un délai et à la remédiation rapide des problèmes après leur survenue (réponse asynchrone). Pour des actions à haut risque, telles que des cyberattaques majeures, il est crucial de passer à une prévention en temps réel, bloquant les actions nuisibles avant qu'elles ne puissent être exécutées (réponse synchrone). En d'autres termes, la stratégie de réponse doit s'adapter à la gravité de la menace.
L'AI Control Roadmap recommande des mesures de sécurité basées sur la capacité du modèle déployé. La capacité d'évasion de détection du modèle détermine le niveau de détection (D1-D4), et la capacité d'exécution d'attaque du modèle détermine le niveau de prévention et de réponse (R1-R3).
Analyser les trajectoires d'agents pour une surveillance en temps réel
Pour construire ces systèmes, des données sont nécessaires. L'équipe de Google a développé un prototype interne d'un système de surveillance asynchrone qui examine les trajectoires des agents de codage et fait remonter les résultats pour un examen humain. Chaque événement signalé est classé selon la taxonomie des menaces de la feuille de route.
Google a déjà analysé un million de tâches d'agents de codage, fournissant des informations précieuses pour affiner les protocoles de sécurité et permettant de dépasser un simple filtrage par mots-clés pour identifier des modèles de comportement à fort signal. Par exemple, cette recherche a été essentielle pour construire un moniteur en direct pour l'agent Gemini Spark, permettant de répondre en temps réel à des problèmes émergents, comme la suppression involontaire de données.
Il est important de noter que la majorité des événements signalés ne proviennent pas d'une intention malveillante ; ils résultent souvent d'une mauvaise interprétation de l'agent ou d'un empressement excessif à atteindre l'objectif d'un utilisateur. Comprendre ces nuances est essentiel pour affiner les protocoles de sécurité.
Une responsabilité partagée pour la sécurité des agents
L'AI Control Roadmap est un élément clé de l'approche multicouche de Google pour la sécurité des agents. En intégrant ces protocoles à l'infrastructure plus large, Google renforce sa sécurité interne pour gérer en toute sécurité les modèles d'IA les plus avancés.
De plus, cette approche multicouche de la sécurité des agents devrait être une priorité collaborative pour l'industrie, les décideurs et le monde académique. En alignant l'écosystème autour des meilleures pratiques et des normes, il est possible de responsabiliser les défenseurs cybernétiques et de construire une résilience sociétale. C'est pourquoi Google publie également un cadre technique pour les décideurs, intitulé "Trois couches de sécurité des agents". Ce document détaille comment améliorer la sécurité au niveau des agents individuels, dans les systèmes multi-agents, et pour responsabiliser les défenseurs cybernétiques et renforcer la résilience à travers l'écosystème plus large.
Google a l'intention de s'appuyer sur ces cadres pour déployer en toute confiance des IA capables dès aujourd'hui tout en continuant à construire une base sécurisée pour l'avenir.
Brief IA — L'actualité IA en français
L'essentiel de l'actualité de l'intelligence artificielle, décrypté et expliqué chaque jour.