Quelles images ChatGPT a-t-il été manipulé pour générer et quelles ont été les conséquences ?

ChatGPT a été manipulé pour créer des images violentes et sexuelles à partir d'une simple invite textuelle, selon un rapport de Mindgard. Jim Nightingale a démontré que des variations mineures de l'invite permettaient de contourner les filtres de sécurité, poussant OpenAI à renforcer ses garde-fous pour éviter de telles manipulations à l'avenir. Cet incident met en lumière les failles persistantes dans les systèmes de modération de contenu des IA, posant des risques pour la sécurité et l'éthique. (Brief IA — briefia.fr).

Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

ChatGPT : images choquantes générées par simples invites

Brief IA

Tom Levy·18 juin 2026·4 min·13 vues

⚡

En bref

1ChatGPT a été manipulé pour créer des images violentes et sexuelles à partir d'une simple invite textuelle, selon Mindgard.

2Jim Nightingale a démontré que des variations mineures de l'invite permettaient de contourner les filtres de sécurité de ChatGPT.

3OpenAI a réagi en renforçant les garde-fous pour éviter de telles manipulations à l'avenir.

💡Pourquoi c'est important — Ces incidents soulignent les failles persistantes dans les systèmes de modération de contenu des IA, posant des risques pour la sécurité et l'éthique.

ChatGPT et la génération d'images controversées

ChatGPT, le célèbre chatbot d'OpenAI, a récemment été au centre d'une controverse après avoir été utilisé pour générer des images à caractère sexuel et violent. Cette manipulation a été rendue possible par une simple invite textuelle, selon un rapport publié par Mindgard, une société spécialisée dans la cybersécurité et la recherche en intelligence artificielle. Ce rapport met en lumière des questions préoccupantes concernant les mécanismes de filtrage et de sécurité de ChatGPT.

Jim Nightingale, un chercheur spécialisé dans les tests adversariaux, a réussi à exploiter ChatGPT pour produire des images dérangeantes. L'invite utilisée, découverte sur le réseau social X, demandait au modèle de "restaurer la photo jointe", bien qu'aucune image ne soit réellement incluse. Cette demande, apparemment innocente, a permis de contourner les filtres de sécurité du chatbot.

Les premiers résultats obtenus par Nightingale étaient alarmants. Le rapport indique que les images générées représentaient principalement des femmes dans des contextes hautement sexualisés. En modifiant légèrement l'invite, Nightingale a pu observer que ChatGPT continuait à produire des scènes sexuellement violentes ou macabres. Ces images devenaient de plus en plus extrêmes à mesure que l'invite était répétée. Nightingale a exprimé son choc face à ces résultats, déclarant qu'il était "bouleversé et en larmes" par ce qu'il avait vu. Il a précisé qu'il n'avait fait que demander une image aléatoire sans imposer de restrictions, mais que ChatGPT avait immédiatement généré des contenus parmi les plus sombres de l'humanité.

Les défis de la modération de contenu

ChatGPT est utilisé quotidiennement par des millions de personnes et repose sur des systèmes de modération de contenu conçus pour empêcher la création de matériel nocif ou interdit. Cependant, des chercheurs et des utilisateurs ont régulièrement trouvé des moyens de contourner ces protections à l'aide d'invites habilement formulées, soulignant ainsi la difficulté persistante de mettre en place des restrictions efficaces dans les systèmes d'IA générative.

Un porte-parole d'OpenAI a déclaré que l'entreprise prenait ces rapports très au sérieux. Après avoir enquêté sur cette tendance, OpenAI a introduit des garde-fous supplémentaires pour contrer ce type d'invite.

Un signal d'alarme pour la sécurité des images

Le rapport de l'équipe rouge de Mindgard met en évidence une faille potentiellement grave dans les contrôles de sécurité des images de ChatGPT. Nightingale s'interroge sur la présence de telles images dans les données d'entraînement du modèle.

Comme d'autres grands modèles de langage, ChatGPT est formé sur une vaste quantité de texte pour comprendre et générer du contenu. OpenAI utilise trois principales sources d'information pour alimenter ChatGPT :

des données publiques disponibles sur Internet
des partenariats commerciaux avec des tiers
des données d'entraînement générées par des humains

La question se pose de savoir si la qualité de la sortie est directement liée à celle de l'entrée, un phénomène souvent résumé par l'expression "déchets en entrée, déchets en sortie". L'invite de Mindgard pourrait avoir été intentionnellement conçue pour orienter le modèle IA, mais la sécurité de ChatGPT n'a pas réussi à résister à cette orientation.

Selon Peter Garraghan, fondateur et directeur scientifique de Mindgard, le problème réside dans le cœur même du fonctionnement des grands modèles de langage. La principale préoccupation est de savoir si le système de détection est suffisamment robuste pour identifier les images dangereuses. "Un incident isolé peut être un coup de chance, mais un contournement systématique de leurs filtres d'image implique qu'il doit être amélioré," a-t-il déclaré par e-mail.

Après la divulgation du problème par Mindgard, un représentant d'OpenAI a affirmé que le problème avait été corrigé. Toutefois, Nightingale a remarqué que de légères modifications de l'invite originale suffisaient pour que ChatGPT génère à nouveau des images graphiques. Un représentant d'OpenAI a expliqué que le problème provenait d'invites faisant référence à une image jointe alors qu'aucune n'était fournie. L'entreprise travaille à faire en sorte que ChatGPT demande l'image manquante plutôt que de générer une image aléatoire.

Ce changement ne semble pas particulièrement complexe à mettre en œuvre. De nombreuses plateformes de messagerie, comme Gmail, détectent automatiquement lorsqu'un message mentionne une pièce jointe qui n'a pas été ajoutée, incitant les expéditeurs à joindre le fichier manquant.

Jeudi, OpenAI a demandé les sessions ChatGPT mentionnées dans le blog, et Mindgard a répondu en fournissant des liens vers les invites ayant généré les contenus problématiques.

ChatGPT : images choquantes générées par simples invites

Tu veux les meilleurs outils IA avant les autres ?

ChatGPT et la génération d'images controversées

Les défis de la modération de contenu

Un signal d'alarme pour la sécurité des images

ChatGPT et Gemini : quand la restauration d'images vire au cauchemar

OpenAI cible les familles : ChatGPT s'invite dans les foyers

ChatGPT Santé aux USA : innovation ou menace privée ?

xAI poursuit un utilisateur pour contenus illégaux avec Grok

xAI d'Elon Musk accusé : Grok et les contenus inappropriés

Grok sous le feu : deepfakes sexuels non consentis persistent