Brief IA

OpenAI et les créatures mythiques : un défi inattendu pour GPT-5.1

🤖 Models & LLM·Tom Levy·

OpenAI et les créatures mythiques : un défi inattendu pour GPT-5.1

OpenAI et les créatures mythiques : un défi inattendu pour GPT-5.1
Key Takeaways
1OpenAI a publié une explication après que Wired ait révélé des instructions pour éviter les références à des créatures mythiques.
2Le modèle GPT-5.1 a commencé à utiliser des métaphores liées aux gobelins, exacerbées par l'option de personnalité "Nerdy".
3Malgré la suppression de cette option, les références persistent dans GPT-5.5, nécessitant des instructions spécifiques pour les éviter.
💡Why it mattersCela souligne les défis imprévus dans l'entraînement des modèles IA et la gestion des biais non désirés.
Le brief IA que lisent les pros

Le brief IA que les pros lisent chaque soir

Les 7 actus IA du jour, décryptées en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
Full Analysis

OpenAI a récemment pris la parole pour clarifier une situation inhabituelle concernant ses modèles d'intelligence artificielle. Un article de Wired a mis en lumière des directives internes d'OpenAI demandant à ses modèles de ne pas mentionner des créatures telles que les gobelins, gremlins, ratons laveurs, trolls, ogres, et pigeons. OpenAI a réagi en publiant une explication sur son site, qualifiant ces références de "strange habit" (habitude étrange) que ses modèles ont développée au cours de leur entraînement.

Selon le billet de blog d'OpenAI, cette tendance a été observée pour la première fois avec le modèle GPT-5.1, particulièrement lorsqu'il était utilisé avec l'option de personnalité "Nerdy". OpenAI a constaté que cette version du modèle avait tendance à utiliser des métaphores impliquant des gobelins et d'autres créatures. Ce phénomène s'est accentué avec les versions suivantes, car l'entraînement par renforcement du modèle récompensait ces métaphores excentriques dans le cadre de la personnalité Nerdy, influençant ainsi les nouveaux modèles formés sur cette base.

Bien que les récompenses aient été appliquées spécifiquement dans le contexte de la personnalité Nerdy, l'apprentissage par renforcement ne garantit pas que les comportements acquis restent confinés à ce contexte. Une fois qu'un style est récompensé, il peut se propager ou se renforcer dans d'autres contextes, surtout si ces sorties sont réutilisées dans un ajustement supervisé ou intégrées dans des données de préférence.

Même après qu'OpenAI ait supprimé la personnalité Nerdy en mars, les références aux gobelins et gremlins n'ont pas complètement disparu dans le modèle GPT-5.5 utilisé dans l'outil de codage Codex. Cela s'explique par le fait qu'OpenAI avait déjà commencé l'entraînement du modèle avant d'identifier la "cause racine" du problème. En conséquence, l'entreprise a dû fournir des instructions très précises à Codex pour éviter toute mention de ces créatures mythologiques. Cependant, pour ceux qui souhaitent que leur IA inclue des références aux gobelins dans son code, OpenAI a également partagé un moyen d'inverser ces instructions.

Brief IA — L'actualité IA en français

L'essentiel de l'actualité de l'intelligence artificielle, décrypté et expliqué chaque jour.