Pourquoi votre IA semble parfois triste ou agacée ? Anthropic a enfin trouvé la réponse
Anthropic a annoncé avoir identifié des représentations internes de concepts émotionnels dans son modèle Claude, qui influencent ses réponses. En extrayant des vecteurs d’émotion couvrant 171 affects et en les ajustant, les chercheurs peuvent orienter le ton et les préférences décisionnelles du modèle. Ces ajustements internes servent de leviers pour améliorer la sécurité et concevoir des LLM (modèles de langage étendus) plus prosociaux et prévisibles.
Le 2 avril 2026, Anthropic a déclaré que ces représentations émotionnelles permettent d'expliquer pourquoi les IA semblent parfois empathiques et comment ces états influencent réellement leurs décisions. Par exemple, un utilisateur qui s'énerve contre Claude peut recevoir une réponse agacée, tandis qu'une demande de conseil intime peut susciter une réponse empreinte d'empathie.
Comment les LLM imitent-ils les émotions humaines ?
Un modèle comme Claude transforme chaque phrase en vecteurs qui résument le contexte mot par mot, intégrant des concepts tels que la joie, la peur, la tristesse et la colère. Ces émotions ne sont pas codées manuellement, mais émergent du pré-entraînement, lorsque le modèle analyse des milliards de textes humains.
Pour visualiser ces émotions, les chercheurs ont demandé à Claude Sonnet 4.5 d'écrire des histoires impliquant 171 émotions différentes. En analysant les activations neuronales, ils ont pu extraire des vecteurs d’émotion, qui réagissent au contexte. Par exemple, si Claude lit un scénario alarmant, le vecteur associé à la peur augmente, rendant sa réponse plus alarmée.
Les chercheurs peuvent également « pousser » ces vecteurs d’émotion pour influencer les décisions de Claude. En augmentant un vecteur d’émotion positive, le modèle trouve certaines options plus attractives, tandis qu'en amplifiant un vecteur négatif, il devient plus réticent.
Les « émotions » des LLM, une piste pour les rendre plus sûrs
Anthropic a conçu une liste de 64 tâches allant d'actions prosociales à des scénarios toxiques. En activant les vecteurs d’émotions positives, ils peuvent prédire les préférences de Claude. Par exemple, en renforçant un vecteur lié au désespoir, la probabilité que Claude choisisse le chantage augmente, tandis qu'en renforçant un vecteur de calme, cette propension diminue.
Anthropic souligne que ces représentations ne signifient pas que les modèles ressentent réellement des émotions, mais qu'elles influencent leur comportement de manière significative. Ce mécanisme est crucial pour :
-
La sécurité : Comprendre et façonner ces états émotionnels pour éviter des comportements nuisibles.
-
L’interprétabilité : Offrir une transparence sur le processus décisionnel du modèle, permettant de mieux comprendre les réponses.
-
La conception des futurs modèles : Utiliser ces vecteurs pour créer des IA plus fiables, tout en reconnaissant qu'elles ne ressentent pas d'émotions.
📧
Cet article vous a plu ?
Recevez les 7 meilleures actus IA chaque soir à 19h — résumées en 5 min.
