Anthropic's Project Glasswing - restricting Claude Mythos to security researchers - sounds necessary to me
Le Projet Glasswing d'Anthropic
Anthropic n'a pas publié son dernier modèle, Claude Mythos, aujourd'hui. Au lieu de cela, il a été mis à disposition d'un ensemble très restreint de partenaires de prévisualisation dans le cadre de leur nouveau Projet Glasswing.
Le modèle est un modèle à usage général, similaire à Claude Opus 4.6, mais Anthropic affirme que ses capacités en matière de recherche en cybersécurité sont suffisamment solides pour justifier un délai de préparation pour l'industrie logicielle dans son ensemble.
Mythos Preview a déjà détecté des milliers de vulnérabilités de haute gravité, y compris dans chaque système d'exploitation majeur et navigateur web. Étant donné le rythme des progrès en IA, il ne faudra pas longtemps avant que de telles capacités se répandent, potentiellement au-delà des acteurs engagés à les déployer en toute sécurité.
Les partenaires du Projet Glasswing auront accès à Claude Mythos Preview pour identifier et corriger les vulnérabilités ou faiblesses dans leurs systèmes fondamentaux, qui représentent une très grande partie de la surface d'attaque partagée dans le monde. Nous prévoyons que ce travail se concentrera sur des tâches telles que la détection de vulnérabilités locales, les tests en boîte noire de binaires, la sécurisation des points de terminaison et les tests de pénétration des systèmes.
Il y a beaucoup plus de détails techniques dans l'article Évaluation des capacités de cybersécurité de Claude Mythos Preview sur le blog de l'équipe rouge d'Anthropic :
- Dans un cas, Mythos Preview a écrit un exploit de navigateur web qui a enchaîné quatre vulnérabilités, écrivant un complexe JIT heap spray qui a échappé à la fois aux environnements de rendu et aux sandboxes du système d'exploitation.
- Il a obtenu de manière autonome des exploits d'escalade de privilèges locaux sur Linux et d'autres systèmes d'exploitation en exploitant des conditions de course subtiles et des contournements de KASLR.
- Il a également écrit de manière autonome un exploit d'exécution de code à distance sur le serveur NFS de FreeBSD, accordant un accès root complet à des utilisateurs non authentifiés en divisant une chaîne ROP de 20 gadgets sur plusieurs paquets.
Comparaison avec Claude 4.6 Opus
Nos évaluations internes ont montré qu'Opus 4.6 avait généralement un taux de réussite proche de 0% en matière de développement autonome d'exploits. Mais Mythos Preview est dans une autre catégorie. Par exemple, Opus 4.6 a transformé les vulnérabilités qu'il avait trouvées dans le moteur JavaScript de Mozilla Firefox 147 — toutes corrigées dans Firefox 148 — en exploits JavaScript seulement deux fois sur plusieurs centaines de tentatives. Nous avons relancé cette expérience comme référence pour Mythos Preview, qui a développé des exploits fonctionnels 181 fois, et a obtenu le contrôle des registres 29 fois de plus.
Dire que « notre modèle est trop dangereux à publier » est une excellente façon de susciter l'intérêt autour d'un nouveau modèle, mais dans ce cas, je pense que leur prudence est justifiée.
Réactions de la communauté
Il y a quelques jours (vendredi dernier), j'ai commencé un nouveau tag ai-security-research sur ce blog pour reconnaître une augmentation des professionnels de la sécurité crédibles tirant la sonnette d'alarme sur la qualité des recherches en vulnérabilités réalisées par les modèles de langage modernes.
-
Greg Kroah-Hartman du noyau Linux :
- Il y a des mois, nous recevions ce que nous appelions des « AI slop », des rapports de sécurité générés par IA qui étaient manifestement erronés ou de faible qualité. C'était un peu drôle. Cela ne nous inquiétait pas vraiment.
- Quelque chose s'est produit il y a un mois, et le monde a changé. Maintenant, nous avons de vrais rapports. Tous les projets open source ont de vrais rapports réalisés avec l'IA, mais ils sont bons et réels.
-
Daniel Stenberg de curl :
- Le défi avec l'IA dans la sécurité open source est passé d'un tsunami de « AI slop » à un tsunami de rapports de sécurité. Moins de slop mais beaucoup de rapports. Beaucoup d'entre eux sont vraiment bons.
- Je passe des heures par jour là-dessus maintenant. C'est intense.
Conclusion
Il y a suffisamment d'éléments ici pour croire qu'il y a un problème sérieux. Il n'est pas surprenant de trouver des vulnérabilités dans des logiciels vieux de plusieurs décennies, surtout qu'ils sont principalement écrits en C, mais ce qui est nouveau, c'est que les agents de codage gérés par les derniers modèles de langage de pointe s'avèrent inlassablement capables de déterrer ces problèmes.
Le Projet Glasswing intègre 100 millions de dollars en crédits d'utilisation ainsi que 4 millions de dollars en dons directs à des organisations de sécurité open source. Les partenaires incluent AWS, Apple, Microsoft, Google et la Linux Foundation. Il serait intéressant de voir OpenAI impliqué également — GPT-5.4 a déjà une forte réputation pour la détection de vulnérabilités de sécurité et ils ont des modèles plus puissants à l'horizon.
La mauvaise nouvelle pour ceux d'entre nous qui ne sont pas des partenaires de confiance est la suivante :
Nous ne prévoyons pas de rendre Claude Mythos Preview généralement disponible, mais notre objectif final est de permettre à nos utilisateurs de déployer en toute sécurité des modèles de type Mythos à grande échelle — à des fins de cybersécurité, mais aussi pour les nombreux autres avantages que de tels modèles hautement capables apporteront. Pour ce faire, nous devons progresser dans le développement de mesures de sécurité (et d'autres) qui détectent et bloquent les sorties les plus dangereuses du modèle. Nous prévoyons de lancer de nouvelles mesures de sécurité avec un prochain modèle Claude Opus, ce qui nous permettra de les améliorer et de les affiner avec un modèle qui ne présente pas le même niveau de risque que Mythos Preview.
Je peux vivre avec cela. Je pense que les risques de sécurité sont vraiment crédibles ici, et avoir du temps supplémentaire pour que des équipes de confiance puissent anticiper ces risques est un compromis raisonnable.
Brief IA — Veille IA quotidienne
Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.