Brief IA : ChatGPT : images choquantes générées par simples invites
🛠️ Outils IA

ChatGPT : images choquantes générées par simples invites

Brief IA
Tom Levy·4 min·1 vues

ChatGPT a été manipulé pour créer des images violentes et sexuelles à partir d'une simple invite textuelle, selon Mindgard. Jim Nightingale a démontré que des variations mineures de l'invite permettaient de contourner les filtres de sécurité de ChatGPT. OpenAI a réagi en renforçant les garde-fous pour éviter de telles manipulations à l'avenir.

En bref
1ChatGPT a été manipulé pour créer des images violentes et sexuelles à partir d'une simple invite textuelle, selon Mindgard.
2Jim Nightingale a démontré que des variations mineures de l'invite permettaient de contourner les filtres de sécurité de ChatGPT.
3OpenAI a réagi en renforçant les garde-fous pour éviter de telles manipulations à l'avenir.
💡Pourquoi c'est importantCes incidents soulignent les failles persistantes dans les systèmes de modération de contenu des IA, posant des risques pour la sécurité et l'éthique.
Le brief IA que lisent les pros

Le brief IA que les pros lisent chaque soir

Les 7 actus IA du jour, décryptées en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

ChatGPT et la génération d'images controversées

ChatGPT, le célèbre chatbot d'OpenAI, a récemment été au centre d'une controverse après avoir été utilisé pour générer des images à caractère sexuel et violent. Cette manipulation a été rendue possible par une simple invite textuelle, selon un rapport publié par Mindgard, une société spécialisée dans la cybersécurité et la recherche en intelligence artificielle. Ce rapport met en lumière des questions préoccupantes concernant les mécanismes de filtrage et de sécurité de ChatGPT.

Jim Nightingale, un chercheur spécialisé dans les tests adversariaux, a réussi à exploiter ChatGPT pour produire des images dérangeantes. L'invite utilisée, découverte sur le réseau social X, demandait au modèle de "restaurer la photo jointe", bien qu'aucune image ne soit réellement incluse. Cette demande, apparemment innocente, a permis de contourner les filtres de sécurité du chatbot.

Les premiers résultats obtenus par Nightingale étaient alarmants. Le rapport indique que les images générées représentaient principalement des femmes dans des contextes hautement sexualisés. En modifiant légèrement l'invite, Nightingale a pu observer que ChatGPT continuait à produire des scènes sexuellement violentes ou macabres. Ces images devenaient de plus en plus extrêmes à mesure que l'invite était répétée. Nightingale a exprimé son choc face à ces résultats, déclarant qu'il était "bouleversé et en larmes" par ce qu'il avait vu. Il a précisé qu'il n'avait fait que demander une image aléatoire sans imposer de restrictions, mais que ChatGPT avait immédiatement généré des contenus parmi les plus sombres de l'humanité.

Les défis de la modération de contenu

ChatGPT est utilisé quotidiennement par des millions de personnes et repose sur des systèmes de modération de contenu conçus pour empêcher la création de matériel nocif ou interdit. Cependant, des chercheurs et des utilisateurs ont régulièrement trouvé des moyens de contourner ces protections à l'aide d'invites habilement formulées, soulignant ainsi la difficulté persistante de mettre en place des restrictions efficaces dans les systèmes d'IA générative.

Un porte-parole d'OpenAI a déclaré à CNET que l'entreprise prenait ces rapports très au sérieux. Après avoir enquêté sur cette tendance, OpenAI a introduit des garde-fous supplémentaires pour contrer ce type d'invite.

Un signal d'alarme pour la sécurité des images

Le rapport de l'équipe rouge de Mindgard met en évidence une faille potentiellement grave dans les contrôles de sécurité des images de ChatGPT. Nightingale s'interroge sur la présence de telles images dans les données d'entraînement du modèle.

Comme d'autres grands modèles de langage, ChatGPT est formé sur une vaste quantité de texte pour comprendre et générer du contenu. OpenAI utilise trois principales sources d'information pour alimenter ChatGPT :

  • des données publiques disponibles sur Internet
  • des partenariats commerciaux avec des tiers
  • des données d'entraînement générées par des humains

La question se pose de savoir si la qualité de la sortie est directement liée à celle de l'entrée, un phénomène souvent résumé par l'expression "déchets en entrée, déchets en sortie". L'invite de Mindgard pourrait avoir été intentionnellement conçue pour orienter le modèle IA, mais la sécurité de ChatGPT n'a pas réussi à résister à cette orientation.

Selon Peter Garraghan, fondateur et directeur scientifique de Mindgard, le problème réside dans le cœur même du fonctionnement des grands modèles de langage. La principale préoccupation est de savoir si le système de détection est suffisamment robuste pour identifier les images dangereuses. "Un incident isolé peut être un coup de chance, mais un contournement systématique de leurs filtres d'image implique qu'il doit être amélioré," a-t-il déclaré à CNET par e-mail.

Après la divulgation du problème par Mindgard, un représentant d'OpenAI a affirmé que le problème avait été corrigé. Toutefois, Nightingale a remarqué que de légères modifications de l'invite originale suffisaient pour que ChatGPT génère à nouveau des images graphiques. Un représentant d'OpenAI a expliqué que le problème provenait d'invites faisant référence à une image jointe alors qu'aucune n'était fournie. L'entreprise travaille à faire en sorte que ChatGPT demande l'image manquante plutôt que de générer une image aléatoire.

Ce changement ne semble pas particulièrement complexe à mettre en œuvre. De nombreuses plateformes de messagerie, comme Gmail, détectent automatiquement lorsqu'un message mentionne une pièce jointe qui n'a pas été ajoutée, incitant les expéditeurs à joindre le fichier manquant.

Jeudi, OpenAI a demandé les sessions ChatGPT mentionnées dans le blog, et Mindgard a répondu en fournissant des liens vers les invites ayant généré les contenus problématiques.

Commentaires