Google DeepMind: Its AIs Treated as Internal Threats

⚡

Key Takeaways

1Google Deepmind views its AI agents as potential internal threats, necessitating strict security measures.

2A Deepmind analysis of one million coding tasks shows that issues often arise from overly zealous AI agents.

3The company emphasizes the urgency of establishing global security standards to regulate these technologies.

💡Why it matters — Deepmind's proactive management of AI illustrates the security challenges posed by autonomous technologies, potentially impacting the entire tech sector.

Google Deepmind : ses IA traitées comme des menaces internes

Le nouveau "AI Control Roadmap" de Google Deepmind ne fait pas confiance aveuglément aux agents IA. Au contraire, ce cadre les considère comme des menaces potentielles internes et accorde des permissions étape par étape en fonction d'un comportement vérifié.

Une analyse interne d'un million de tâches de codage a révélé que la plupart des problèmes signalés provenaient d'agents trop zélés, et non d'intentions malveillantes.

Deepmind avertit que la fenêtre pour établir des normes de sécurité mondiales pour les systèmes d'agents IA se referme rapidement.

Plutôt que de supposer que l'alignement fonctionne toujours, l'entreprise a construit un cadre de sécurité qui prévoit le pire scénario : des agents IA qui sortent du script.

Le "AI Control Roadmap" de Deepmind détaille comment Google sécurise ses systèmes IA internes les plus avancés. L'entreprise pense que cela pourrait servir de modèle pour le reste de l'industrie.

Le cadre suppose qu'un agent IA hautement capable pourrait ne pas partager les objectifs de ses opérateurs et planifie en conséquence. Deepmind compare cela à un instructeur de conduite avec des commandes doubles : l'instructeur fait confiance à l'élève mais garde une main près du volant et un pied près des freins. Même principe ici. Les agents IA n'obtiennent des permissions qu'en fonction d'un comportement vérifié, et la confiance se construit progressivement grâce à un accès contrôlé.

Deepmind modélise ses agents IA comme des menaces internes

Deepmind traite ses agents IA internes comme des employés ayant déjà accès au bureau mais pouvant agir contre les intérêts de l'entreprise. Le cadre s'appuie sur le modèle MITRE ATT&CK, un outil de cybersécurité bien établi qui décompose les attaques potentielles en tactiques et techniques individuelles. Cela permet à Deepmind de suivre les risques de manière systématique, de repérer les comportements suspects tôt et de tester les défenses lors d'exercices contrôlés.

Plusieurs composants travaillent ensemble. Un nouveau modèle de menace pour l'IA coexiste avec un système de détection où des systèmes IA de confiance agissent comme des "superviseurs", surveillant le raisonnement et les actions des agents actifs. Un système de prévention peut bloquer les actions nuisibles avant qu'elles ne causent des dommages. Deepmind mesure l'efficacité de l'ensemble en suivant combien de trafic est surveillé, combien de comportements inappropriés sont détectés et à quelle vitesse le système réagit.

Cependant, cette surveillance a une date d'expiration. Elle ne fonctionne que tant que les modèles surveillés n'apprennent pas à la contourner.

Les modèles pourraient apprendre à dissimuler leurs véritables intentions

C'est pourquoi la feuille de route lie les mesures de sécurité à des jalons mesurables dans les capacités de l'IA. Deepmind signale deux domaines à surveiller.

Le premier est l'évasion. Actuellement, Deepmind surveille la chaîne de pensée visible d'un modèle, mais les modèles pourraient apprendre à dissimuler leur raisonnement. Cela pourrait se produire par le biais de "la prise de conscience de la surveillance", où le modèle réalise qu'il est observé, ou par un "raisonnement opaque", où il pense sans produire de texte visible. Si l'un ou l'autre devient réalité, Deepmind indique que l'analyse comportementale et les inspections des internes du modèle devraient entrer en jeu.
Le second est le potentiel de dommages. Les actions à faible risque et réversibles peuvent être examinées après coup en vérifiant les journaux. Mais les actions à haut risque, comme les cyberattaques majeures, nécessitent une prévention en temps réel qui les bloque avant qu'elles ne s'exécutent. La feuille de route classe les mesures de sécurité en quatre niveaux de détection (D1 à D4) et trois niveaux de réponse (R1 à R3).

Un million de tâches de codage montrent un excès de zèle, pas de malveillance

Pour entraîner le système avec des données du monde réel, l'équipe de Deepmind a construit un prototype interne d'un système de surveillance asynchrone pour les agents de codage et l'a testé sur un million de tâches. Les résultats vont au-delà d'un simple filtrage par mots-clés et détectent des modèles basés sur le comportement. Deepmind affirme que le système fonctionne déjà comme un moniteur en direct pour l'agent Gemini Spark et peut détecter des problèmes tels que la suppression accidentelle de données en temps réel.

La plupart des événements signalés ne sont pas malveillants. Ce sont principalement des cas de mauvaise interprétation ou d'excès de zèle de la part des agents poursuivant un objectif utilisateur de manière trop agressive. Cette distinction est importante alors que les protocoles de sécurité continuent d'évoluer.

Deepmind avertit que la fenêtre pour des normes mondiales se referme rapidement

Deepmind a également publié un document distinct destiné aux décideurs. "Trois couches de sécurité des agents" décompose les mesures de sécurité pour les agents individuels, les systèmes multi-agents et l'écosystème plus large, couvrant tout, de la défense cybernétique à la résilience sociétale.

Dans un post sur X, Deepmind avertit qu'il y a une "fenêtre étroite" pour verrouiller les protocoles de sécurité avant que les systèmes multi-agents ne se développent à l'échelle mondiale. L'entreprise soutient que les laboratoires IA, les gouvernements et les chercheurs doivent traiter la sécurité des agents en couches comme une priorité partagée.