Claude Mythos : la fuite qui rappelle l'importance de sécuriser les usages de l'IA
Une fuite chez Anthropic révèle les capacités offensives d'un modèle d'IA conçu pour la cybersécurité. Au-delà de l'incident, c'est toute la gouvernance des usages de l'IA qui doit être repensée.
Le 27 mars dernier, une simple erreur de configuration a exposé au grand jour le futur modèle d’IA d’Anthropic, Claude Mythos. Cette fuite spectaculaire rappelle la responsabilité immense des concepteurs de modèles dits « de frontière ».
La cause de cette fuite ? Une banale erreur humaine au sein du système de gestion de contenu d'Anthropic qui a rendu accessible un dépôt de données non chiffré et publiquement indexable contenant près de 3 000 actifs numériques confidentiels.
Anatomie d’une fuite
Révélée par le magazine Fortune, cette fuite donne un accès aux spécifications techniques et aux évaluations internes de Claude Mythos, le premier modèle d'une lignée inédite baptisée « Capybara ». Ce nom de code, choisi par les ingénieurs d'Anthropic, évoque les « tissus conjonctifs profonds » qui lient la connaissance et les idées.
L’entreprise, bâtie sur un positionnement de sécurité et d'alignement de l'IA, voit donc Claude Opus 4.6, son modèle le plus sensible, fuiter, non pas en raison d’un piratage sophistiqué mais d’un simple mauvais paramétrage dans un CMS (Content Management System).
Claude Mythos : un modèle d’IA taillé pour la cyber
Jusqu'à présent, Claude Opus 4.6 était considéré comme le modèle le plus performant du marché, excellant dans le codage agentique et le raisonnement avancé. Et pourtant, Mythos surpasse déjà son prédécesseur sur presque tous les indicateurs clés, notamment dans les domaines du codage logiciel, du raisonnement académique et, de façon plus critique, des tâches liées à la cybersécurité.
Claude Mythos se distingue par une architecture massive et des besoins computationnels extrêmes difficilement scalables à grande échelle, ce qui le rend particulièrement coûteux à exploiter. Cette intensité de calcul explique pourquoi Anthropic a privilégié une stratégie de déploiement progressif, via l'API Claude, d’abord dans un cercle restreint de clients spécialisés dans la défense cyber.
Le modèle est capable de :
- Cartographier des bases entières de code
- Comprendre les interactions complexes entre composants
- Identifier des vulnérabilités logiques que les outils de test de sécurité statique (SAST) classiques ne peuvent détecter
Anthropic affirme qu’ils sont « nettement supérieurs » à l’état de l’art, notamment pour les tâches critiques, sans toutefois publier de scores détaillés.
Des performances aussi remarquables qu’inquiétantes
Claude Mythos intègre des mécanismes de planification à long horizon significativement améliorés : il peut exécuter des tâches sur plusieurs jours sans perte de contexte, avec une continuité opérationnelle dans des environnements complexes. Concrètement, il peut explorer méthodiquement un réseau sur la durée, attendre des opportunités de mouvement latéral et exfiltrer des données de manière furtive. Son comportement opérationnel se rapproche de celui d’une équipe de hackers expérimentés.
L’aspect le plus inquiétant est sa capacité de « recursive self-fixing » (auto-correction récursive) : cette fonctionnalité lui permet d'identifier et de corriger lui-même les erreurs dans son propre code d'exploitation ou dans l'infrastructure qu'il gère. Autrement dit, un agent cyber piloté par Claude Mythos pourrait s'auto-optimiser pendant une attaque, en corrigeant les erreurs de script ou en adaptant sa charge utile en temps réel pour contourner les protections détectées.
Cette vitesse machine réduit la fenêtre d'opportunité pour les défenseurs qui doivent désormais réagir à des intrusions se déroulant en quelques minutes plutôt qu'en quelques jours. Si l'IA peut automatiser le "red-teaming" (attaques simulées) en continu, elle permet aux entreprises de découvrir leurs failles avant les attaquants. Mais cette technologie permet aussi à des acteurs malveillants d'agir de manière quasi autonome avec un haut niveau de compétence.
Cette fuite pose la question de la rapidité à laquelle ces capacités d’attaque vont se diffuser. Pour y faire face, les entreprises ne doivent plus considérer la cybersécurité comme un simple centre de coût mais comme une fonction stratégique, elle aussi dopée à l’IA pour être capable de suivre le rythme des attaquants et de tester en continu ses propres défenses.
La fuite de Claude Mythos est un avertissement : les modèles de frontière ne sont pas un simple sujet d’innovation, mais un enjeu de souveraineté, de gouvernance et de chaîne de responsabilité, pour les entreprises comme pour les pouvoirs publics.
📧
Cet article vous a plu ?
Recevez les 7 meilleures actus IA chaque soir à 19h — résumées en 5 min.
