ChatGPT et l'invasion des gobelins : un bug révélateur chez OpenAI
Le brief IA que les pros lisent chaque soir
Les 7 actus IA du jour, décryptées en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Une fascination inattendue pour les gobelins chez ChatGPT
OpenAI a récemment découvert une anomalie intrigante dans ses modèles d'intelligence artificielle, notamment à partir de GPT-5.1. Les modèles ont commencé à inclure de manière disproportionnée des références à des créatures mythiques telles que les gobelins et les gremlins dans leurs réponses. Selon les données d'OpenAI, les mentions de "gobelin" ont grimpé de 175 % après le lancement de GPT-5.1.
Le rôle de la personnalité "Nerdy"
La source de ce phénomène a été identifiée comme étant la personnalité "Nerdy" de ChatGPT. Cette fonctionnalité, qui modifie le style de langage du modèle, a accidentellement favorisé l'utilisation de métaphores liées aux créatures mythiques. Bien que "Nerdy" ne soit responsable que de 2,5 % des réponses, elle a engendré 66,7 % de toutes les mentions de gobelins. Une boucle de rétroaction durant la formation a ensuite propagé cette tendance à d'autres modes du modèle.
Mesures correctives d'OpenAI
Pour remédier à ce problème, OpenAI a désactivé la personnalité "Nerdy" en mars, supprimé le signal de récompense défectueux et filtré les termes liés aux créatures dans les données d'entraînement. Cependant, GPT-5.5, dont la formation avait déjà commencé avant la découverte de la cause, a continué à présenter ce biais. Le chercheur principal d'OpenAI, Jakub Pachocki, a même demandé à GPT-5.5 de créer un unicorn en art ASCII, mais a reçu une représentation ressemblant davantage à un gobelin.
Une directive stricte pour Codex
En réponse, OpenAI a intégré une nouvelle directive dans Codex, son outil de codage, interdisant l'utilisation de métaphores de gobelins, gremlins, ratons laveurs, trolls, ogres, pigeons et autres créatures, sauf si cela est absolument pertinent pour la requête de l'utilisateur. Cette directive vise à éviter que des comportements similaires ne se reproduisent à l'avenir.
Une leçon sur les biais de formation
Ce cas met en lumière comment de petites incitations dans le processus de formation peuvent entraîner des comportements inattendus dans les modèles d'IA, soulignant la complexité de la gestion des biais dans ces systèmes avancés.
Brief IA — L'actualité IA en français
L'essentiel de l'actualité de l'intelligence artificielle, décrypté et expliqué chaque jour.