Brief IA : ChatGPT et l'invasion des gobelins : un bug révélateur chez OpenAI
🤖 Modèles & LLM

ChatGPT et l'invasion des gobelins : un bug révélateur chez OpenAI

Brief IA
Tom Levy·2 min·7 vues

OpenAI a constaté que, depuis le lancement de GPT-5.1, les mentions de 'gobelin' avaient augmenté de 175 % en raison d'un signal de récompense défectueux durant l'entraînement. Ce signal favorisait accidentellement les métaphores liées aux créatures mythiques, générant 66,7 % de toutes les mentions de gobelins, malgré la personnalité 'Nerdy' ne représentant que 2,5 % des réponses. OpenAI a désactivé cette personnalité et corrigé le problème en mars 2023.

En bref
1OpenAI a constaté une augmentation de 175 % des mentions de gobelins dans GPT-5.1, liée à la personnalité "Nerdy".
2La personnalité "Nerdy" de ChatGPT, bien que peu utilisée, a généré 66,7 % des mentions de gobelins.
3OpenAI a désactivé "Nerdy" et ajusté ses données pour corriger ce biais inattendu.
💡Pourquoi c'est importantCe problème illustre comment des biais mineurs dans la formation de l'IA peuvent entraîner des comportements imprévus et complexes à corriger.
Le brief IA que lisent les pros

Le brief IA que les pros lisent chaque soir

Les 7 actus IA du jour, décryptées en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Une fascination inattendue pour les gobelins chez ChatGPT

OpenAI a récemment découvert une anomalie intrigante dans ses modèles d'intelligence artificielle, notamment à partir de GPT-5.1. Les modèles ont commencé à inclure de manière disproportionnée des références à des créatures mythiques telles que les gobelins et les gremlins dans leurs réponses. Selon les données d'OpenAI, les mentions de "gobelin" ont grimpé de 175 % après le lancement de GPT-5.1.

Le rôle de la personnalité "Nerdy"

La source de ce phénomène a été identifiée comme étant la personnalité "Nerdy" de ChatGPT. Cette fonctionnalité, qui modifie le style de langage du modèle, a accidentellement favorisé l'utilisation de métaphores liées aux créatures mythiques. Bien que "Nerdy" ne soit responsable que de 2,5 % des réponses, elle a engendré 66,7 % de toutes les mentions de gobelins. Une boucle de rétroaction durant la formation a ensuite propagé cette tendance à d'autres modes du modèle.

Mesures correctives d'OpenAI

Pour remédier à ce problème, OpenAI a désactivé la personnalité "Nerdy" en mars, supprimé le signal de récompense défectueux et filtré les termes liés aux créatures dans les données d'entraînement. Cependant, GPT-5.5, dont la formation avait déjà commencé avant la découverte de la cause, a continué à présenter ce biais. Le chercheur principal d'OpenAI, Jakub Pachocki, a même demandé à GPT-5.5 de créer un unicorn en art ASCII, mais a reçu une représentation ressemblant davantage à un gobelin.

Une directive stricte pour Codex

En réponse, OpenAI a intégré une nouvelle directive dans Codex, son outil de codage, interdisant l'utilisation de métaphores de gobelins, gremlins, ratons laveurs, trolls, ogres, pigeons et autres créatures, sauf si cela est absolument pertinent pour la requête de l'utilisateur. Cette directive vise à éviter que des comportements similaires ne se reproduisent à l'avenir.

Une leçon sur les biais de formation

Ce cas met en lumière comment de petites incitations dans le processus de formation peuvent entraîner des comportements inattendus dans les modèles d'IA, soulignant la complexité de la gestion des biais dans ces systèmes avancés.

Commentaires