Le brief IA que les pros lisent chaque soir
Les 7 actus IA du jour, décryptées en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
ChatGPT et la génération d'images controversées
ChatGPT, le célèbre chatbot d'OpenAI, a récemment été au centre d'une controverse après avoir été utilisé pour générer des images à caractère sexuel et violent. Cette manipulation a été rendue possible par une simple invite textuelle, selon un rapport publié par Mindgard, une société spécialisée dans la cybersécurité et la recherche en intelligence artificielle. Ce rapport met en lumière des questions préoccupantes concernant les mécanismes de filtrage et de sécurité de ChatGPT.
Jim Nightingale, un chercheur spécialisé dans les tests adversariaux, a réussi à exploiter ChatGPT pour produire des images dérangeantes. L'invite utilisée, découverte sur le réseau social X, demandait au modèle de "restaurer la photo jointe", bien qu'aucune image ne soit réellement incluse. Cette demande, apparemment innocente, a permis de contourner les filtres de sécurité du chatbot.
Les premiers résultats obtenus par Nightingale étaient alarmants. Le rapport indique que les images générées représentaient principalement des femmes dans des contextes hautement sexualisés. En modifiant légèrement l'invite, Nightingale a pu observer que ChatGPT continuait à produire des scènes sexuellement violentes ou macabres. Ces images devenaient de plus en plus extrêmes à mesure que l'invite était répétée. Nightingale a exprimé son choc face à ces résultats, déclarant qu'il était "bouleversé et en larmes" par ce qu'il avait vu. Il a précisé qu'il n'avait fait que demander une image aléatoire sans imposer de restrictions, mais que ChatGPT avait immédiatement généré des contenus parmi les plus sombres de l'humanité.
Les défis de la modération de contenu
ChatGPT est utilisé quotidiennement par des millions de personnes et repose sur des systèmes de modération de contenu conçus pour empêcher la création de matériel nocif ou interdit. Cependant, des chercheurs et des utilisateurs ont régulièrement trouvé des moyens de contourner ces protections à l'aide d'invites habilement formulées, soulignant ainsi la difficulté persistante de mettre en place des restrictions efficaces dans les systèmes d'IA générative.
Un porte-parole d'OpenAI a déclaré à CNET que l'entreprise prenait ces rapports très au sérieux. Après avoir enquêté sur cette tendance, OpenAI a introduit des garde-fous supplémentaires pour contrer ce type d'invite.
Un signal d'alarme pour la sécurité des images
Le rapport de l'équipe rouge de Mindgard met en évidence une faille potentiellement grave dans les contrôles de sécurité des images de ChatGPT. Nightingale s'interroge sur la présence de telles images dans les données d'entraînement du modèle.
Comme d'autres grands modèles de langage, ChatGPT est formé sur une vaste quantité de texte pour comprendre et générer du contenu. OpenAI utilise trois principales sources d'information pour alimenter ChatGPT :
- des données publiques disponibles sur Internet
- des partenariats commerciaux avec des tiers
- des données d'entraînement générées par des humains
La question se pose de savoir si la qualité de la sortie est directement liée à celle de l'entrée, un phénomène souvent résumé par l'expression "déchets en entrée, déchets en sortie". L'invite de Mindgard pourrait avoir été intentionnellement conçue pour orienter le modèle IA, mais la sécurité de ChatGPT n'a pas réussi à résister à cette orientation.
Selon Peter Garraghan, fondateur et directeur scientifique de Mindgard, le problème réside dans le cœur même du fonctionnement des grands modèles de langage. La principale préoccupation est de savoir si le système de détection est suffisamment robuste pour identifier les images dangereuses. "Un incident isolé peut être un coup de chance, mais un contournement systématique de leurs filtres d'image implique qu'il doit être amélioré," a-t-il déclaré à CNET par e-mail.
Après la divulgation du problème par Mindgard, un représentant d'OpenAI a affirmé que le problème avait été corrigé. Toutefois, Nightingale a remarqué que de légères modifications de l'invite originale suffisaient pour que ChatGPT génère à nouveau des images graphiques. Un représentant d'OpenAI a expliqué que le problème provenait d'invites faisant référence à une image jointe alors qu'aucune n'était fournie. L'entreprise travaille à faire en sorte que ChatGPT demande l'image manquante plutôt que de générer une image aléatoire.
Ce changement ne semble pas particulièrement complexe à mettre en œuvre. De nombreuses plateformes de messagerie, comme Gmail, détectent automatiquement lorsqu'un message mentionne une pièce jointe qui n'a pas été ajoutée, incitant les expéditeurs à joindre le fichier manquant.
Jeudi, OpenAI a demandé les sessions ChatGPT mentionnées dans le blog, et Mindgard a répondu en fournissant des liens vers les invites ayant généré les contenus problématiques.

