L’IA et sa régulation t’intéressent ?
Lois, cadres et décisions qui façonnent l’IA, décryptés en français. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Mythos d'Anthropic : des performances au-delà des attentes
Le modèle d'intelligence artificielle Mythos d'Anthropic, dévoilé il y a seulement un mois, a déjà franchi des étapes significatives dans les tests de performance. Des chercheurs externes ont observé que ce modèle a réalisé plusieurs premières lors des évaluations, démontrant une amélioration plus rapide que prévu.
Selon un rapport de l'Institut de Sécurité de l'IA du Royaume-Uni (AISI), une version récente de Mythos a surpassé non seulement ses performances antérieures mais aussi celles du modèle GPT-5.5 d'OpenAI. Cette avancée a été constatée à peine un mois après le lancement initial de Mythos.
Des compétences inédites en cybersécurité
Le modèle Claude Mythos, jugé trop puissant pour une diffusion large par Anthropic, a montré des compétences nouvelles. Dans un article de blog publié mercredi, l'AISI a révélé que Mythos Preview a réussi à compléter deux séries de tests cybernétiques, résolvant notamment la série "The Last Ones" dans 6 tentatives sur 10 et "Cooling Tower", qui n'avait jamais été résolue auparavant, dans 3 tentatives sur 10.
Cette performance marque la première fois qu'un modèle réussit la seconde série de tests cybernétiques, soulignant une avancée notable par rapport aux modèles précédents.
Une évolution rapide et ses implications
L'AISI a noté que les modèles d'IA progressent rapidement dans leur capacité à gérer des tâches cybernétiques, ce qui pourrait avoir des implications significatives pour la cybersécurité. En février 2026, il a été estimé que la durée des tâches cybernétiques accomplies par les modèles d'IA doublait tous les 4,7 mois depuis fin 2024, une accélération par rapport à une estimation précédente de 8 mois en novembre 2025.
Cependant, il reste incertain si cette tendance se maintiendra. Les résultats de Mythos et GPT-5.5 pourraient être des exceptions notables à la tendance générale. L'AISI a également souligné que les tests actuels, limités à 2,5 millions de tokens, sous-estiment les capacités réelles des modèles.
Limites des tests et perspectives futures
Les tests ont montré que Mythos Preview et GPT-5.5 ont des marges d'erreur importantes en raison de taux de réussite proches de 100 % sur les tâches les plus longues, même avec la limite de tokens. Cette contrainte rend difficile l'évaluation de la fiabilité des modèles sur des tâches plus longues.
Les auteurs du blog ont ajouté qu'une limite de 2,5 millions de tokens est relativement basse. Dans des expériences utilisant jusqu'à 100 millions de tokens, il a été constaté que la performance des modèles pourrait continuer à s'améliorer au-delà de ce seuil, en particulier pour les modèles récents qui bénéficient de limites de tokens plus élevées.
Le Projet Glasswing et la détection des vulnérabilités
Lorsque Anthropic a annoncé Mythos Preview et le Projet Glasswing le mois dernier, cela a marqué une étape importante. Ce projet est une alliance de test de cybersécurité formée avec des entreprises technologiques concurrentes et des laboratoires d'IA, à laquelle Anthropic a accordé un accès limité à Mythos. Cette collaboration vise à évaluer les capacités de Mythos dans un cadre sécurisé.
L'aptitude de Mythos à détecter les vulnérabilités logicielles est particulièrement notable. L'AISI a souligné que cette capacité pourrait transformer la manière dont les menaces cybernétiques sont gérées, en rendant les systèmes plus résilients face aux attaques potentielles.
Des inconnues et des défis à venir
Malgré ces avancées, plusieurs inconnues subsistent. Les tests n'ont pas pu prendre en compte toutes les variables, et les limites actuelles de tokens sous-estiment ce que les modèles de pointe peuvent réellement accomplir. Cela signifie que les taux de réussite pourraient être bien plus élevés sans ces restrictions, rendant les horizons temporels difficiles à calculer.
En conclusion, bien que Mythos et GPT-5.5 aient montré des performances impressionnantes, il reste à voir si ces résultats représentent une tendance durable ou simplement des exceptions notables dans l'évolution des modèles d'IA.
