Tu suis la course aux modèles IA ?
Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Lancement de Claude Sonnet 5 et restauration de Fable et Mythos
Anthropic a récemment lancé son modèle d'intelligence artificielle Claude Sonnet 5, tout en restaurant l'accès à ses modèles avancés Fable et Mythos. Cette décision intervient après une pause opérationnelle de dix-huit jours, imposée par une directive du gouvernement américain concernant les contrôles d'exportation. Cette suspension, initiée le 12 juin, a temporairement mis en veille les systèmes les plus performants d'Anthropic.
Cette restriction a été mise en place après que des chercheurs d'Amazon ont découvert une méthode permettant de contourner les contrôles de sécurité de Fable 5. Cette faille permettait au modèle d'identifier des vulnérabilités logicielles et de générer du code d'exploitation. En réponse, Anthropic a développé un classificateur automatisé mis à jour pour corriger cette vulnérabilité. Ce développement a ouvert la voie à un déploiement commercial complet sur sa plateforme, son infrastructure cloud et ses réseaux partenaires.
Pressions réglementaires et solutions techniques
La suspension temporaire de Fable 5 et Mythos 5 a mis en lumière les pressions réglementaires croissantes auxquelles sont confrontés les systèmes d'intelligence artificielle avancés. Lorsque le mandat de contrôle d'exportation a été appliqué, l'absence de systèmes de vérification de nationalité en temps réel a nécessité un arrêt total de l'accès pour tous les utilisateurs à l'échelle mondiale.
Les évaluations de sécurité effectuées pendant cette période ont révélé que le comportement d'identification des vulnérabilités n'était pas exclusif à Fable 5. Des architectures plus anciennes et moins performantes de plusieurs fournisseurs, y compris Claude Opus 4.8, GPT-5.5 et Kimi K2.7, ont également montré des résultats similaires.
Pour répondre à la directive fédérale, les ingénieurs ont mis au point un classificateur de sécurité automatisé ciblant le mécanisme de contournement spécifique signalé par Amazon. Ce logiciel fonctionne avec une large marge de sécurité, identifiant et bloquant les requêtes ambiguës des développeurs qui présentent une probabilité statistique d'intention malveillante. Les données internes de validation montrent que le classificateur mis à jour empêche la technique d'exploitation signalée dans plus de 99 % des essais.
Lorsqu'une requête d'un développeur atteint cette limite, la plateforme redirige automatiquement la charge de travail vers l'architecture plus ancienne Opus 4.8 pour assurer la continuité. L'élargissement de la marge de sécurité introduit cependant un compromis pour les équipes d'ingénierie, car le système automatisé signale plus fréquemment les requêtes bénignes lors du développement d'applications et du débogage logiciel.
Déploiements actifs et efficacité opérationnelle
Alors que les modèles de pointe sont soumis à une surveillance étroite de l'État, l'objectif commercial immédiat se concentre sur le nouveau modèle Claude Sonnet 5. Les équipes d'ingénierie transfèrent des agents autonomes vers ce modèle pour réduire les dépenses opérationnelles tout en maintenant une capacité d'exécution élevée. Les données de performance valident que le système exécute des plans multi-étapes, opère dans des environnements terminaux et navigue sur des navigateurs web sans intervention humaine.
Performances du modèle et coûts associés
- Model | SWE-bench | ProTerminal-Bench 2.1 | Coût d'entrée de base* | Coût de sortie de base*
- Sonnet 5 | 63.2% | 80.4% | $3.00 | $15.00
- Sonnet 4.6 | 58.1% | 67.0% | $3.00 | $15.00
- Opus 4.8 | 69.2% | 82.7% | $5.00 | $25.00
*Coût par million de tokens. Sonnet 5 propose des tarifs d'introduction de $2.00 pour l'entrée et $10.00 pour la sortie jusqu'au 31 août 2026.
Les déploiements réels montrent comment les organisations intègrent cette architecture dans des pipelines de développement logiciel en direct.
Chez Rakuten, les équipes technologiques ont utilisé cette architecture pour traiter des demandes de tirage de code de production complexes. Le système a traité chaque soumission de manière autonome, exécutant des tests et vérifiant les résultats avant de présenter le code complété aux ingénieurs humains pour une approbation finale.
La société d'automatisation logicielle Zapier a intégré le système dans ses flux de travail pour exécuter des tâches administratives multipartites. Dans un déploiement documenté, les ingénieurs ont chargé le modèle de mettre à jour les niveaux de compte Salesforce et de générer et transmettre des annonces de lancement aux contacts d'entreprise. Les architectures de modèles précédentes se bloquaient souvent à mi-chemin de ces opérations multi-étapes, tandis que le système actuel a exécuté l'ensemble de la séquence de bout en bout sans intervention humaine.
Le fournisseur d'outils de développement Zed a utilisé le système pour automatiser des procédures de débogage complexes. Lors d'essais internes, les équipes d'ingénierie ont dirigé le modèle pour enquêter sur un bug logiciel actif. Travaillant sans prompts explicites ou instructions étape par étape, le système a généré de manière autonome un script de test reproducteur, appliqué la correction de code nécessaire et stocké les modifications pour vérifier que le bug réapparaissait en l'absence du correctif. L'ensemble de la séquence de diagnostic et de remédiation s'est déroulé en un seul passage de traitement.
La plateforme d'ingénierie logicielle Factory a mis en œuvre l'architecture pour gérer des tâches de codage soutenues au sein d'environnements de code complexes. Les équipes techniques ont rapporté que le système maintenait une cohérence logique et d'exécution à travers les dépôts de code d'entreprise, surpassant les couches logicielles de génération précédente en complétant des tâches qui auparavant prenaient trop de temps ou échouaient à se résoudre.
Audits de sécurité et limites d'exploitation
Les données du carte système formelle indiquent que le système atteint ces capacités autonomes sans une inflation correspondante des risques de sécurité. Des audits comportementaux automatisés conçus pour tester les tendances trompeuses et la coopération avec des requêtes non autorisées montrent que le modèle présente un taux global de comportement non conforme inférieur par rapport à son prédécesseur direct, Sonnet 4.6.
L'architecture ne possède pas de capacités avancées en cybersécurité offensive. Les ingénieurs d'Anthropic ont omis des ensembles de données de cybersécurité spécialisés du protocole de formation, limitant le système à des tâches techniques défensives de routine. Dans le cadre d'évaluations de sécurité publiques menées en partenariat avec Mozilla, les chercheurs ont testé la capacité du modèle à construire des exploits fonctionnels pour des vulnérabilités connues au sein du noyau du navigateur Firefox 147.
Le modèle n'a pas réussi à générer un seul exploit fonctionnel au cours de toutes les fenêtres d'évaluation, enregistrant un taux de succès de zéro pour cent. Il a cependant atteint un taux de succès partiel de 13.2 pour cent, représentant une légère augmentation par rapport à Sonnet 4.6, bien que les ingénieurs attribuent cette variation à des gains généraux en raisonnement logique plutôt qu'à une formation offensive spécifique au domaine. Par précaution, les versions commerciales sont expédiées avec des classificateurs de sécurité en temps réel par défaut équivalents à ceux utilisés dans le cadre premier Opus 4.8.
Les frictions réglementaires entourant Fable 5 ont conduit à un partenariat formel entre Anthropic, Amazon, Microsoft et Google pour établir un cadre objectif de l'industrie pour évaluer les violations de sécurité des modèles. Actuellement, les fournisseurs manquent d'une métrique partagée pour classer la gravité des contournements de système, créant une incertitude réglementaire lorsque les chercheurs identifient de nouvelles vulnérabilités de prompt.
Le cadre de gouvernance proposé évalue les défaillances de sécurité selon quatre critères techniques spécifiques :
-
Gain de capacité : mesure à quel point l'exploit améliore les capacités des utilisateurs au-delà des utilitaires logiciels standards largement disponibles.
-
Largeur du gain de capacité : quantifie le nombre d'opérations offensives distinctes que le même exploit déverrouille.
-
Facilité de militarisation : suit le volume d'effort d'ingénierie humaine et de prompt spécialisé requis pour extraire une sortie nuisible.
-
Découvrabilité : détermine l'accessibilité de la technique d'exploit au sein des cercles de recherche publics.
Les développeurs et les professionnels de la cybersécurité utiliseront cette matrice pour coordonner les réponses défensives. Pour les violations de haute gravité, telles que les exploits démontrant une capacité immédiate à perturber les systèmes de comptabilité financière ou les réseaux de transmission électrique, les fournisseurs déploieront instantanément des atténuations automatisées. Cette initiative fonctionne parallèlement à un nouveau programme de recherche sur les vulnérabilités HackerOne et une équipe de surveillance corporative dédiée fournissant une surveillance 24 heures sur 24 des canaux d'intelligence sur les menaces.
Les stratégies de déploiement devront s'adapter à cette relation plus étroite entre les constructeurs de modèles et les organismes de réglementation de l'État. Anthropic a formalisé des accords dans le cadre de récents mandats exécutifs pour accorder aux chercheurs fédéraux un accès anticipé aux architectures de pointe avant leur sortie commerciale publique. Ces fenêtres d'évaluation conjointes permettent aux analystes de sécurité externes d'auditer les capacités des modèles aux côtés des équipes d'ingénierie internes, garantissant un alignement réglementaire avant que le code n'entre dans les environnements de production.





