Anthropic garde son nouveau modèle IA privé après avoir découvert des milliers de vulnérabilités externes
Le modèle IA le plus performant d'Anthropic a déjà identifié des milliers de vulnérabilités en matière de cybersécurité sur tous les principaux systèmes d'exploitation et navigateurs web. La réponse de l'entreprise n'a pas été de le rendre public, mais de le remettre discrètement aux organisations responsables du bon fonctionnement d'Internet.
Ce modèle s'appelle Claude Mythos Preview, et l'initiative est baptisée Project Glasswing.
Les partenaires de lancement incluent Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, Nvidia, et Palo Alto Networks.
Au-delà de ce groupe central, Anthropic a élargi l'accès à plus de 40 organisations supplémentaires qui construisent ou maintiennent des infrastructures logicielles critiques. Anthropic s'engage à fournir jusqu'à 100 millions de dollars en crédits d'utilisation pour Mythos Preview dans le cadre de cette initiative, ainsi que 4 millions de dollars en dons directs à des organisations de sécurité open-source.
Un modèle qui a dépassé ses propres références
Mythos Preview n'a pas été spécifiquement entraîné pour des travaux de cybersécurité. Anthropic a déclaré que les capacités « ont émergé comme une conséquence indirecte des améliorations générales en matière de code, de raisonnement et d'autonomie », et que les mêmes améliorations qui rendent le modèle meilleur pour corriger les vulnérabilités le rendent également plus apte à les exploiter.
Cette dernière partie est importante. Mythos Preview s'est amélioré au point de saturer la plupart des benchmarks de sécurité existants, obligeant Anthropic à recentrer son attention sur des tâches réelles inédites – en particulier, les vulnérabilités de type zero-day. Ces défauts étaient auparavant inconnus des développeurs du logiciel.
Parmi les découvertes : un bug vieux de 27 ans dans OpenBSD, un système d'exploitation connu pour sa forte posture de sécurité. Dans un autre cas, le modèle a identifié et exploité de manière entièrement autonome une vulnérabilité d'exécution de code à distance vieille de 17 ans dans FreeBSD – CVE-2026-4747 – qui permet à un utilisateur non authentifié sur Internet d'obtenir un contrôle total d'un serveur exécutant NFS. Aucune intervention humaine n'a été impliquée dans la découverte ou l'exploitation après la demande initiale de trouver le bug.
Nicholas Carlini de l'équipe de recherche d'Anthropic a décrit la capacité du modèle à enchaîner les vulnérabilités : « Ce modèle peut créer des exploits à partir de trois, quatre, ou parfois cinq vulnérabilités qui, en séquence, vous donnent un résultat final très sophistiqué. J'ai trouvé plus de bugs au cours des dernières semaines que dans le reste de ma vie combinée. »
Pourquoi n'est-il pas publié ?
« Nous ne prévoyons pas de rendre Claude Mythos Preview disponible au grand public en raison de ses capacités en cybersécurité », a déclaré Newton Cheng, responsable de l'équipe de cybersécurité Frontier Red Team chez Anthropic. « Étant donné le rythme des progrès de l'IA, il ne faudra pas longtemps avant que de telles capacités se propagent, potentiellement au-delà des acteurs qui s'engagent à les déployer en toute sécurité. Les conséquences – pour les économies, la sécurité publique et la sécurité nationale – pourraient être graves. »
Ce n'est pas hypothétique. Anthropic avait précédemment divulgué ce qu'il décrivait comme le premier cas documenté d'une cyberattaque largement exécutée par l'IA – un groupe soutenu par l'État chinois qui a utilisé des agents IA pour infiltrer de manière autonome environ 30 cibles mondiales, l'IA gérant la majorité des opérations tactiques de manière indépendante.
L'entreprise a également informé en privé des hauts responsables du gouvernement américain des capacités complètes de Mythos Preview. La communauté du renseignement pèse maintenant activement comment le modèle pourrait redéfinir à la fois les opérations de hacking offensives et défensives.
Le problème de l'open-source
Une dimension du Project Glasswing qui va au-delà de la coalition principale : le logiciel open-source. Jim Zemlin, PDG de la Linux Foundation, l'a exprimé clairement : « Dans le passé, l'expertise en sécurité a été un luxe réservé aux organisations disposant de grandes équipes de sécurité. Les mainteneurs de logiciels open-source, dont le code sous-tend une grande partie de l'infrastructure critique du monde, ont historiquement été laissés à eux-mêmes pour gérer la sécurité. »
Anthropic a donné 2,5 millions de dollars à Alpha-Omega et OpenSSF via la Linux Foundation, et 1,5 million de dollars à la Apache Software Foundation – offrant aux mainteneurs de bases de code open-source critiques un accès à un scan de vulnérabilités en cybersécurité à une échelle qui était auparavant hors de portée.
Anthropic affirme que son objectif final est de déployer des modèles de classe Mythos à grande échelle, mais uniquement lorsque de nouvelles protections seront en place. L'entreprise prévoit de lancer de nouvelles protections avec un prochain modèle Claude Opus en premier, lui permettant de les affiner avec un modèle qui ne présente pas le même niveau de risque que Mythos Preview.
Le paysage concurrentiel évolue déjà autour de cela. Lorsque OpenAI a lancé GPT-5.3-Codex en février, l'entreprise l'a qualifié de premier modèle qu'elle avait classé comme de haute capacité pour des tâches de cybersécurité dans le cadre de son Preparedness Framework. Le mouvement d'Anthropic avec Glasswing signale que les laboratoires de pointe considèrent le déploiement contrôlé – et non la publication ouverte – comme la norme émergente pour des modèles à ce niveau de capacité.
Que cette norme se maintienne à mesure que ces capacités se répandent est, à ce stade, une question ouverte à laquelle aucune initiative unique ne peut répondre.
📧
Cet article vous a plu ?
Recevez les 7 meilleures actus IA chaque soir à 19h — résumées en 5 min.
