Brief IA : Mythos d'Anthropic : une avancée fulgurante qui surpasse GPT-5.5

Mythos d'Anthropic : une avancée fulgurante qui surpasse GPT-5.5

Brief IA
Tom Levy·4 min·5 vues

Le modèle Mythos d'Anthropic, lancé il y a un mois, a déjà franchi de nouvelles limites en matière de tests, surpassant ses propres résultats et ceux de GPT-5.5 d'OpenAI. Selon l'Institut de Sécurité de l'IA du Royaume-Uni, Mythos a réussi à résoudre des défis de cybersécurité, notamment en complétant la gamme 'Cooling Tower' dans 3 des 10 tentatives, une première pour un modèle d'IA.

En bref
1Le modèle Mythos d'Anthropic, lancé il y a un mois, montre des progrès rapides et surprenants, surpassant GPT-5.5.
2L'Institut de Sécurité de l'IA du Royaume-Uni a constaté que Mythos a résolu des tâches cybernétiques complexes pour la première fois.
3Les capacités de Mythos soulèvent des questions sur la rapidité de l'évolution des modèles d'IA et leurs implications en cybersécurité.
💡Pourquoi c'est importantL'évolution rapide de Mythos pourrait transformer les capacités de détection des vulnérabilités logicielles, impactant la cybersécurité mondiale.
Le brief IA que lisent les pros

L’IA et sa régulation t’intéressent ?

Lois, cadres et décisions qui façonnent l’IA, décryptés en français. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Mythos d'Anthropic : des performances au-delà des attentes

Le modèle d'intelligence artificielle Mythos d'Anthropic, dévoilé il y a seulement un mois, a déjà franchi des étapes significatives dans les tests de performance. Des chercheurs externes ont observé que ce modèle a réalisé plusieurs premières lors des évaluations, démontrant une amélioration plus rapide que prévu.

Selon un rapport de l'Institut de Sécurité de l'IA du Royaume-Uni (AISI), une version récente de Mythos a surpassé non seulement ses performances antérieures mais aussi celles du modèle GPT-5.5 d'OpenAI. Cette avancée a été constatée à peine un mois après le lancement initial de Mythos.

Des compétences inédites en cybersécurité

Le modèle Claude Mythos, jugé trop puissant pour une diffusion large par Anthropic, a montré des compétences nouvelles. Dans un article de blog publié mercredi, l'AISI a révélé que Mythos Preview a réussi à compléter deux séries de tests cybernétiques, résolvant notamment la série "The Last Ones" dans 6 tentatives sur 10 et "Cooling Tower", qui n'avait jamais été résolue auparavant, dans 3 tentatives sur 10.

Cette performance marque la première fois qu'un modèle réussit la seconde série de tests cybernétiques, soulignant une avancée notable par rapport aux modèles précédents.

Une évolution rapide et ses implications

L'AISI a noté que les modèles d'IA progressent rapidement dans leur capacité à gérer des tâches cybernétiques, ce qui pourrait avoir des implications significatives pour la cybersécurité. En février 2026, il a été estimé que la durée des tâches cybernétiques accomplies par les modèles d'IA doublait tous les 4,7 mois depuis fin 2024, une accélération par rapport à une estimation précédente de 8 mois en novembre 2025.

Cependant, il reste incertain si cette tendance se maintiendra. Les résultats de Mythos et GPT-5.5 pourraient être des exceptions notables à la tendance générale. L'AISI a également souligné que les tests actuels, limités à 2,5 millions de tokens, sous-estiment les capacités réelles des modèles.

Limites des tests et perspectives futures

Les tests ont montré que Mythos Preview et GPT-5.5 ont des marges d'erreur importantes en raison de taux de réussite proches de 100 % sur les tâches les plus longues, même avec la limite de tokens. Cette contrainte rend difficile l'évaluation de la fiabilité des modèles sur des tâches plus longues.

Les auteurs du blog ont ajouté qu'une limite de 2,5 millions de tokens est relativement basse. Dans des expériences utilisant jusqu'à 100 millions de tokens, il a été constaté que la performance des modèles pourrait continuer à s'améliorer au-delà de ce seuil, en particulier pour les modèles récents qui bénéficient de limites de tokens plus élevées.

Le Projet Glasswing et la détection des vulnérabilités

Lorsque Anthropic a annoncé Mythos Preview et le Projet Glasswing le mois dernier, cela a marqué une étape importante. Ce projet est une alliance de test de cybersécurité formée avec des entreprises technologiques concurrentes et des laboratoires d'IA, à laquelle Anthropic a accordé un accès limité à Mythos. Cette collaboration vise à évaluer les capacités de Mythos dans un cadre sécurisé.

L'aptitude de Mythos à détecter les vulnérabilités logicielles est particulièrement notable. L'AISI a souligné que cette capacité pourrait transformer la manière dont les menaces cybernétiques sont gérées, en rendant les systèmes plus résilients face aux attaques potentielles.

Des inconnues et des défis à venir

Malgré ces avancées, plusieurs inconnues subsistent. Les tests n'ont pas pu prendre en compte toutes les variables, et les limites actuelles de tokens sous-estiment ce que les modèles de pointe peuvent réellement accomplir. Cela signifie que les taux de réussite pourraient être bien plus élevés sans ces restrictions, rendant les horizons temporels difficiles à calculer.

En conclusion, bien que Mythos et GPT-5.5 aient montré des performances impressionnantes, il reste à voir si ces résultats représentent une tendance durable ou simplement des exceptions notables dans l'évolution des modèles d'IA.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires