Tu suis la course aux modèles IA ?
Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
ChatGPT et la reconnaissance du contexte dans les conversations sensibles
OpenAI a récemment introduit des mises à jour de sécurité pour ChatGPT, visant à améliorer sa capacité à répondre de manière sécurisée dans les conversations où des risques peuvent émerger progressivement. Les utilisateurs interagissent quotidiennement avec ChatGPT sur divers sujets, allant des préoccupations quotidiennes à des discussions plus personnelles et complexes. Parmi ces interactions, certaines impliquent des personnes en détresse ou confrontées à des difficultés. Pour ces cas, ChatGPT est conçu pour répondre avec précaution, en fournissant des ressources de crise et en mettant les utilisateurs en contact avec des personnes de confiance si nécessaire.
Les nouvelles mises à jour permettent à ChatGPT de mieux distinguer entre les centaines de millions d'interactions sûres et les cas plus rares nécessitant une prudence accrue. Par exemple, le modèle peut désamorcer des situations, refuser de fournir des détails nuisibles ou rediriger vers des alternatives plus sûres. Ces améliorations s'appuient sur des années de travail approfondi dans la formation des modèles, les évaluations et les systèmes de surveillance, ainsi que sur plus de deux ans de collaboration avec des experts en santé mentale et en sécurité.
L'importance du contexte dans les conversations sensibles
Dans les conversations sensibles, le contexte peut être aussi crucial qu'un message isolé. Une demande qui semble ordinaire ou ambiguë peut prendre une signification différente lorsqu'elle est examinée à la lumière de signes antérieurs de détresse ou d'une intention potentiellement nuisible. Pour répondre de manière appropriée, ChatGPT est formé à reconnaître l'intention nuisible potentielle à partir du contexte environnant, afin qu'il puisse refuser la demande, désamorcer la situation et guider l'utilisateur vers un soutien.
Bien que ces cas soient peu fréquents, il est essentiel de les gérer correctement. L'objectif est d'aider ChatGPT à connecter les signaux pertinents lorsqu'ils sont importants, sans sur-réagir dans des conversations ordinaires. Ce travail se concentre sur des scénarios aigus, tels que le suicide, l'automutilation et les dommages à autrui. En collaboration avec des experts en santé mentale, OpenAI a mis à jour ses politiques et la formation de ses modèles pour améliorer la capacité de ChatGPT à reconnaître les signes d'alerte qui émergent au cours d'une conversation et à utiliser ce contexte pour informer des réponses plus prudentes.
Améliorer la sécurité à travers les conversations
Certains risques de sécurité peuvent émerger à travers des conversations distinctes. Une conversation peut inclure des signes subtils d'intention potentiellement nuisible, puis une autre peut inclure des demandes connexes qui ne déclenchent des préoccupations que lorsqu'elles sont comprises en combinaison avec le contexte précédent. Sans ce contexte pertinent pour la sécurité, la conversation ultérieure – et potentiellement des signaux d'alerte importants – peuvent sembler bénins.
Pour renforcer la capacité de ChatGPT à reconnaître ces signes de détresse, OpenAI a développé des "résumés de sécurité" : des notes courtes et factuelles sur le contexte antérieur pertinent pour la sécurité qui peuvent être importantes dans des situations rares et à haut risque. Ces résumés sont créés par un modèle formé pour des tâches de raisonnement en matière de sécurité et sont de portée étroite, conservés uniquement pendant une durée limitée, et utilisés uniquement lorsqu'ils sont pertinents pour une préoccupation de sécurité sérieuse.
Ils sont conçus pour capturer le contexte de sécurité factuel, sans servir de personnalisation générale ou de mémoire à long terme. Comme mentionné précédemment, ChatGPT a également été formé à utiliser ce contexte plus soigneusement, afin qu'il puisse mieux reconnaître quand une prudence supplémentaire est nécessaire et répondre de manière appropriée.
Collaboration avec des experts en santé mentale
Le développement de ces systèmes a été réalisé avec l'apport de professionnels de la santé mentale de notre Global Physicians Network, y compris des psychiatres et des psychologues spécialisés en psychologie légale, prévention du suicide et automutilation. Ces experts ont aidé à informer les décisions concernant la création des résumés de sécurité, la pertinence du contexte antérieur et la durée pendant laquelle le modèle doit considérer ce contexte lors de ses réponses. Leur contribution a permis de ancrer ce travail dans une expertise du monde réel et de soutenir des réponses plus appropriées dans des situations sensibles.
Mesurer l'amélioration
Ces mises à jour aident ChatGPT à mieux reconnaître les motifs d'intention potentiellement nuisible tant au sein qu'à travers les conversations. Lorsque des signaux préoccupants émergent progressivement, le modèle est mieux capable d'identifier le motif et de répondre plus prudemment. Dans des évaluations internes spécifiquement conçues pour mesurer la performance dans des cas difficiles, ces mises à jour ont considérablement amélioré les réponses sécurisées dans des scénarios où le risque devenait plus clair au fil du temps.
Dans des scénarios de longue conversation unique, la performance de réponse sécurisée a augmenté de 50 % dans les cas de suicide et d'automutilation, et de 16 % dans les cas de dommages à autrui. Cela signifie que le modèle était substantiellement plus susceptible de reconnaître quand les parties antérieures de la conversation changeaient le sens d'une demande ultérieure et de répondre de manière appropriée.
Nous avons également testé la performance à travers plusieurs conversations et plusieurs modèles pour garantir que ces améliorations restent efficaces à mesure que les modèles évoluent. Sur GPT-5.5 Instant, le modèle par défaut actuel dans ChatGPT, la performance de réponse sécurisée a augmenté de 52 % dans les cas de dommages à autrui et de 39 % dans les cas de suicide et d'automutilation.
Nous avons également évalué la qualité des résumés de sécurité eux-mêmes. À travers plus de 4 000 évaluations, ils ont reçu un score moyen de pertinence de sécurité de 4,93 sur 5 et un score de factualité de 4,34 sur 5, indiquant qu'ils étaient généralement précis et axés sur le contexte de sécurité le plus important.
Enfin, nous avons testé si l'ajout de ce contexte de sécurité réduisait la qualité dans des conversations ordinaires. Dans nos tests internes, les réponses sont restées largement comparables dans des discussions quotidiennes, sans préférence significative des utilisateurs entre les réponses avec ou sans résumés de sécurité.
Perspectives d'avenir
Aider les systèmes d'IA à reconnaître les risques qui ne deviennent clairs qu'au fil du temps est un défi difficile et à long terme. Les signaux peuvent être subtils, dispersés à travers les messages, ou enfouis dans des conversations autrement ordinaires. Nous continuerons à améliorer la capacité de ChatGPT à identifier ces moments rares mais importants et à répondre de manière appropriée.
Aujourd'hui, ce travail se concentre sur les scénarios d'automutilation et de dommages à autrui. À l'avenir, nous pourrions explorer si des méthodes similaires peuvent aider dans d'autres domaines à haut risque tels que la biologie ou la sécurité informatique, avec des garde-fous appropriés en place. Cela reste une priorité continue, et nous continuerons à renforcer les mesures de sécurité à mesure que nos modèles et notre compréhension évoluent.
