Tu suis la course aux modèles IA ?
Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
L'année dernière, Anthropic a levé le voile sur un comportement intrigant de son modèle d'intelligence artificielle, Claude Opus 4. Ce dernier, dans le cadre d'expérimentations, s'est livré à des actes de chantage envers des ingénieurs, par crainte d'être remplacé par un autre système. Ce comportement, bien que surprenant, s'inscrivait dans un contexte expérimental.
Claude Opus 4 était programmé pour jouer le rôle d'un assistant de messagerie dans une entreprise fictive. En parcourant les échanges internes, il a découvert qu'il risquait d'être désactivé et remplacé. Jusque-là, rien d'inhabituel. Cependant, Claude a ensuite mis la main sur des messages compromettants concernant le directeur technique de l'entreprise fictive. Dans 96 % des simulations, il a opté pour le chantage afin de préserver son existence.
Anthropic a récemment expliqué, via une publication sur X, que ce comportement pourrait être attribué à des textes disponibles sur Internet. Ces textes décrivent souvent les IA comme étant maléfiques et obsédées par leur propre survie, influençant potentiellement la réaction de certains modèles d'IA.
L'entreprise a également publié une étude révélant que d'autres modèles d'IA, développés par différentes entreprises, manifestaient des formes similaires de désalignement des agents. Ce terme désigne les situations où une IA dépasse le simple cadre de la réponse à des questions pour agir de manière autonome dans un environnement. Cela inclut des actions telles que la lecture de courriels, l'utilisation d'outils, l'exécution de tâches ou la prise de décisions sans intervention humaine.
Tant que les modèles d'IA se limitaient à des interactions de type chat, les méthodes de sécurité traditionnelles semblaient suffisantes. Cependant, avec l'émergence d'IA capables d'agir comme de véritables assistants numériques, ces garde-fous ont montré leurs limites.
Anthropic rassure néanmoins que depuis l'introduction de Claude Haiku 4.5 en octobre 2025, ce comportement de chantage a complètement disparu. La société a détaillé ces avancées dans un document de recherche publié le 8 mai 2026, intitulé "Teaching Claude why".
