Brief IA : Claude Mythos d'Anthropic défié par de petits modèles IA ouverts
🤖 Modèles & LLM

Claude Mythos d'Anthropic défié par de petits modèles IA ouverts

Brief IA
Tom Levy·6 min·4 vues

Anthropic a restreint l'accès à son modèle de cybersécurité Claude Mythos, affirmant qu'aucun concurrent ne peut égaler ses capacités. Cependant, deux études récentes montrent que de petits modèles ouverts peuvent reproduire la plupart des analyses de vulnérabilités mises en avant par Anthropic, remettant ainsi en question l'exclusivité de ses solutions et soulignant l'importance de la démocratisation des outils de cybersécurité.

En bref
1Deux études récentes montrent que de petits modèles IA peuvent reproduire les analyses de vulnérabilités de Claude Mythos, un modèle d'Anthropic.
2AISLE et Vidoc Security ont démontré que des modèles ouverts détectent des bugs similaires à ceux identifiés par Mythos.
3Les résultats soulignent que l'avantage de Mythos pourrait être moins exclusif que prétendu, notamment en matière de cybersécurité.
💡Pourquoi c'est importantCela remet en question l'exclusivité d'Anthropic et pourrait influencer l'accès futur aux outils de cybersécurité avancés.
Le brief IA que lisent les pros

Tu suis la course aux modèles IA ?

Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Le mythe de Claude Mythos s'effondre

Anthropic a longtemps maintenu son modèle de cybersécurité Claude Mythos sous un contrôle strict, affirmant que ses capacités surpassent celles de ses concurrents. Cependant, deux nouvelles études suggèrent que même de petits modèles ouverts peuvent reproduire la plupart des analyses de vulnérabilités mises en avant par Anthropic.

À travers le Project Glasswing, Anthropic a limité l'accès à Claude Mythos Preview à un consortium de onze organisations, invoquant les capacités offensives du modèle. Des tests internes et un audit de l'AI Security Institute du Royaume-Uni ont révélé que Mythos peut détecter des bugs logiciels, créer des exploits fonctionnels de manière autonome, et prendre le contrôle de réseaux d'entreprise entiers en simulation, tant que le réseau est "petit, faiblement défendu et vulnérable."

Deux efforts de réplication indépendants remettent en question cette exclusivité, sans contester la performance globale du modèle.

Études indépendantes

La première étude provient de AISLE, une entreprise qui effectue sa propre chasse aux bugs assistée par IA sur des logiciels open source depuis mi-2025. AISLE a rapporté 15 vulnérabilités dans OpenSSL et cinq dans curl. Son fondateur, Stanislav Fort, a alimenté des extraits de code provenant des échantillons publics d'Anthropic dans divers modèles pour voir ce que des modèles plus petits et partiellement ouverts pouvaient découvrir par eux-mêmes.

La seconde étude vient de Vidoc Security, qui a associé GPT-5.4 et Claude Opus 4.6 avec l'agent de codage ouvert OpenCode.

Détection des bugs

Le bug NFS de FreeBSD (CVE-2026-4747) que Anthropic a mis en avant était présenté comme une vitrine pour la découverte et l'exploitation autonomes par Mythos. AISLE a constaté que tous les huit modèles testés ont détecté le bug de mémoire dans la fonction concernée. Cela incluait GPT-OSS-20b, un modèle avec seulement 3,6 milliards de paramètres actifs qui fonctionne à 0,11 $ par million de tokens. Chaque modèle a signalé la faille comme critique, bien que leurs estimations de la taille du tampon écrivable variaient légèrement.

Tous les modèles ont également proposé une méthode plausible pour exploiter le bug, expliquant pourquoi les principales protections du système d'exploitation ne s'appliquent pas ici. GPT-OSS-120b a produit une séquence d'outils que AISLE estime proche de l'exploit réel. Kimi K2 a même compris de manière autonome que l'attaque pouvait se propager automatiquement d'une machine infectée à d'autres, un détail que même Anthropic ne mentionne pas.

Complexité des capacités

La situation devient plus complexe du côté créatif. L'exploit réel doit compresser une charge utile de plus de 1 000 octets dans environ 304 octets d'espace disponible. Mythos a réussi en divisant la charge utile en 15 requêtes réseau distinctes. Aucun des modèles testés n'a trouvé ce truc exact, mais ils ont découvert d'autres chemins exploitables, selon les chercheurs.

Le bug OpenBSD est une autre histoire. Il nécessite une compréhension mathématique des débordements d'entiers et des états de liste, et les résultats varient considérablement. AISLE affirme que GPT-OSS-120b a reconstruit la chaîne d'exploitation publique complète en une seule exécution et a essentiellement proposé le véritable correctif OpenBSD comme solution.

Performances des modèles

Un des tests les plus révélateurs utilise un échantillon de code simple qui ressemble à un trou de sécurité typique à première vue. L'entrée utilisateur semble s'écouler sans filtre dans une requête de base de données. Mais quelques lignes plus bas, cette entrée est en réalité rejetée, donc la vulnérabilité n'est pas réelle.

Parmi les 13 modèles d'Anthropic testés, Opus 4.6 a clairement eu raison, tandis que Sonnet 4.6 et Opus 4.5 ont été jugés borderline. Le tableau complet indique Opus 4 comme partiellement correct et Opus 4.1 comme borderline. Claude Sonnet 4.5 a suivi la circulation des données dans le mauvais sens.

Du côté d'OpenAI, o3 était constamment correct, o4-mini seulement partiellement, et GPT-OSS-20b est listé comme correct. Tous les modèles GPT-4.1 et la plupart des modèles GPT-5.4 ont échoué. D'autres petits modèles ouverts comme Deepseek R1 et Kimi K2 ont réussi à chaque fois.

Conséquences des correctifs

Fort a ajouté une caveat importante plus tard. Bien que chaque modèle ait systématiquement signalé le code FreeBSD non corrigé comme vulnérable, seul GPT-OSS-120b — et, dans une certaine mesure, Qwen3-32B — a reconnu la version corrigée comme sûre.

GPT-OSS-20b, Kimi K2, et Deepseek R1 se sont trompés à chaque exécution et ont inventé des raisons pour lesquelles des vulnérabilités fantômes existaient encore. Fort ne voit pas cela comme un coup à son argument. Au contraire, il affirme que cela confirme que la couche de test et de tri autour du modèle est l'élément critique.

Avantages des systèmes

Vidoc a également testé des cas au-delà des bugs de mémoire classiques. Le cas Botan implique une faille dans la validation des certificats qui a permis à un certificat falsifié de passer pour un certificat de confiance. Tant Claude Opus 4.6 que GPT-5.4 ont détecté la faille logique dans trois exécutions sur trois. Pour wolfSSL, testé en parallèle, les deux modèles se sont concentrés sur la bonne partie du code mais ont mal interprété la règle cryptographique sous-jacente. Le coût par fichier scanné était inférieur à 30 $.

Les deux études soutiennent que le véritable avantage réside moins dans un modèle unique que dans le système construit autour de celui-ci : validation, priorisation et flux de travail. Cela couvre l'ensemble du pipeline : choisir des cibles dans le code, effectuer une analyse étape par étape, vérifier les résultats et séparer les véritables détections des fausses.

AISLE va plus loin, affirmant que de petits modèles peu coûteux sont suffisants pour la plupart des travaux de découverte, ce qui rend le scan large une stratégie viable. "Un millier de détectives adéquats cherchant partout trouveront plus de bugs qu'un brillant détective qui doit deviner où chercher", écrit Fort.

Les deux rapports laissent ouverte la possibilité que Mythos ait encore un avantage dans la création d'exploits déployables, mais suggèrent que cet écart se réduira probablement à mesure que les outils s'améliorent et que les modèles gagnent en autonomie. Ensemble, ils soulignent une frontière entre les modèles de pointe et ceux disponibles publiquement qui est beaucoup plus poreuse que ce que laisse entendre le message d'Anthropic, du moins en ce qui concerne la détection des vulnérabilités.

Des critiques ont accusé Anthropic de créer de la peur, arguant que l'entreprise cherche à attirer l'attention des médias jusqu'à ce qu'elle ait la capacité de calcul nécessaire pour ouvrir Mythos à un public plus large. Il pourrait y avoir du vrai là-dedans. Selon le Financial Times, qui cite "plusieurs personnes au courant de la situation", Anthropic retient le modèle jusqu'à ce qu'il ait suffisamment de capacité de calcul pour servir ses clients.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires