Quelles sont les récentes mises à jour de sécurité de ChatGPT concernant les conversations sensibles ?

Les récentes mises à jour de sécurité de ChatGPT améliorent la reconnaissance du contexte dans les conversations délicates, permettant une détection des risques au fil du temps. Cela répond à la nécessité d'une intelligence artificielle plus sensible et réactive, renforçant ainsi la confiance des utilisateurs en garantissant des réponses plus sûres et adaptées aux contextes sensibles. (Brief IA — briefia.fr).

Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

ChatGPT améliore la gestion des conversations sensibles

⚡

En bref

1ChatGPT intègre des mises à jour de sécurité pour mieux gérer les conversations sensibles et identifier les risques potentiels.

2Des résumés de sécurité aident à contextualiser les échanges, notamment dans les cas de suicide et d'automutilation.

3La collaboration avec des experts en santé mentale a permis d'affiner les réponses de ChatGPT dans des situations critiques.

💡Pourquoi c'est important — Ces améliorations renforcent la capacité de ChatGPT à intervenir de manière appropriée dans des situations potentiellement dangereuses, protégeant ainsi les utilisateurs vulnérables.

ChatGPT et la reconnaissance du contexte dans les conversations sensibles

OpenAI a récemment introduit des mises à jour de sécurité pour ChatGPT, visant à améliorer sa capacité à répondre de manière sécurisée dans les conversations où des risques peuvent émerger progressivement. Les utilisateurs interagissent quotidiennement avec ChatGPT sur divers sujets, allant des préoccupations quotidiennes à des discussions plus personnelles et complexes. Parmi ces interactions, certaines impliquent des personnes en détresse ou confrontées à des difficultés. Pour ces cas, ChatGPT est conçu pour répondre avec précaution, en fournissant des ressources de crise et en mettant les utilisateurs en contact avec des personnes de confiance si nécessaire.

Les nouvelles mises à jour permettent à ChatGPT de mieux distinguer entre les centaines de millions d'interactions sûres et les cas plus rares nécessitant une prudence accrue. Par exemple, le modèle peut désamorcer des situations, refuser de fournir des détails nuisibles ou rediriger vers des alternatives plus sûres. Ces améliorations s'appuient sur des années de travail approfondi dans la formation des modèles, les évaluations et les systèmes de surveillance, ainsi que sur plus de deux ans de collaboration avec des experts en santé mentale et en sécurité.

L'importance du contexte dans les conversations sensibles

Dans les conversations sensibles, le contexte peut être aussi crucial qu'un message isolé. Une demande qui semble ordinaire ou ambiguë peut prendre une signification différente lorsqu'elle est examinée à la lumière de signes antérieurs de détresse ou d'une intention potentiellement nuisible. Pour répondre de manière appropriée, ChatGPT est formé à reconnaître l'intention nuisible potentielle à partir du contexte environnant, afin qu'il puisse refuser la demande, désamorcer la situation et guider l'utilisateur vers un soutien.

Bien que ces cas soient peu fréquents, il est essentiel de les gérer correctement. L'objectif est d'aider ChatGPT à connecter les signaux pertinents lorsqu'ils sont importants, sans sur-réagir dans des conversations ordinaires. Ce travail se concentre sur des scénarios aigus, tels que le suicide, l'automutilation et les dommages à autrui. En collaboration avec des experts en santé mentale, OpenAI a mis à jour ses politiques et la formation de ses modèles pour améliorer la capacité de ChatGPT à reconnaître les signes d'alerte qui émergent au cours d'une conversation et à utiliser ce contexte pour informer des réponses plus prudentes.

Améliorer la sécurité à travers les conversations

Certains risques de sécurité peuvent émerger à travers des conversations distinctes. Une conversation peut inclure des signes subtils d'intention potentiellement nuisible, puis une autre peut inclure des demandes connexes qui ne déclenchent des préoccupations que lorsqu'elles sont comprises en combinaison avec le contexte précédent. Sans ce contexte pertinent pour la sécurité, la conversation ultérieure – et potentiellement des signaux d'alerte importants – peuvent sembler bénins.

Pour renforcer la capacité de ChatGPT à reconnaître ces signes de détresse, OpenAI a développé des "résumés de sécurité" : des notes courtes et factuelles sur le contexte antérieur pertinent pour la sécurité qui peuvent être importantes dans des situations rares et à haut risque. Ces résumés sont créés par un modèle formé pour des tâches de raisonnement en matière de sécurité et sont de portée étroite, conservés uniquement pendant une durée limitée, et utilisés uniquement lorsqu'ils sont pertinents pour une préoccupation de sécurité sérieuse.

Ils sont conçus pour capturer le contexte de sécurité factuel, sans servir de personnalisation générale ou de mémoire à long terme. Comme mentionné précédemment, ChatGPT a également été formé à utiliser ce contexte plus soigneusement, afin qu'il puisse mieux reconnaître quand une prudence supplémentaire est nécessaire et répondre de manière appropriée.

Collaboration avec des experts en santé mentale

Le développement de ces systèmes a été réalisé avec l'apport de professionnels de la santé mentale de notre Global Physicians Network, y compris des psychiatres et des psychologues spécialisés en psychologie légale, prévention du suicide et automutilation. Ces experts ont aidé à informer les décisions concernant la création des résumés de sécurité, la pertinence du contexte antérieur et la durée pendant laquelle le modèle doit considérer ce contexte lors de ses réponses. Leur contribution a permis de ancrer ce travail dans une expertise du monde réel et de soutenir des réponses plus appropriées dans des situations sensibles.

Mesurer l'amélioration

Ces mises à jour aident ChatGPT à mieux reconnaître les motifs d'intention potentiellement nuisible tant au sein qu'à travers les conversations. Lorsque des signaux préoccupants émergent progressivement, le modèle est mieux capable d'identifier le motif et de répondre plus prudemment. Dans des évaluations internes spécifiquement conçues pour mesurer la performance dans des cas difficiles, ces mises à jour ont considérablement amélioré les réponses sécurisées dans des scénarios où le risque devenait plus clair au fil du temps.

Dans des scénarios de longue conversation unique, la performance de réponse sécurisée a augmenté de 50 % dans les cas de suicide et d'automutilation, et de 16 % dans les cas de dommages à autrui. Cela signifie que le modèle était substantiellement plus susceptible de reconnaître quand les parties antérieures de la conversation changeaient le sens d'une demande ultérieure et de répondre de manière appropriée.

Nous avons également testé la performance à travers plusieurs conversations et plusieurs modèles pour garantir que ces améliorations restent efficaces à mesure que les modèles évoluent. Sur GPT-5.5 Instant, le modèle par défaut actuel dans ChatGPT, la performance de réponse sécurisée a augmenté de 52 % dans les cas de dommages à autrui et de 39 % dans les cas de suicide et d'automutilation.

Nous avons également évalué la qualité des résumés de sécurité eux-mêmes. À travers plus de 4 000 évaluations, ils ont reçu un score moyen de pertinence de sécurité de 4,93 sur 5 et un score de factualité de 4,34 sur 5, indiquant qu'ils étaient généralement précis et axés sur le contexte de sécurité le plus important.

Enfin, nous avons testé si l'ajout de ce contexte de sécurité réduisait la qualité dans des conversations ordinaires. Dans nos tests internes, les réponses sont restées largement comparables dans des discussions quotidiennes, sans préférence significative des utilisateurs entre les réponses avec ou sans résumés de sécurité.

Perspectives d'avenir

Aider les systèmes d'IA à reconnaître les risques qui ne deviennent clairs qu'au fil du temps est un défi difficile et à long terme. Les signaux peuvent être subtils, dispersés à travers les messages, ou enfouis dans des conversations autrement ordinaires. Nous continuerons à améliorer la capacité de ChatGPT à identifier ces moments rares mais importants et à répondre de manière appropriée.

Aujourd'hui, ce travail se concentre sur les scénarios d'automutilation et de dommages à autrui. À l'avenir, nous pourrions explorer si des méthodes similaires peuvent aider dans d'autres domaines à haut risque tels que la biologie ou la sécurité informatique, avec des garde-fous appropriés en place. Cela reste une priorité continue, et nous continuerons à renforcer les mesures de sécurité à mesure que nos modèles et notre compréhension évoluent.

ChatGPT améliore la gestion des conversations sensibles

Tu suis la course aux modèles IA ?

ChatGPT et la reconnaissance du contexte dans les conversations sensibles

L'importance du contexte dans les conversations sensibles

Améliorer la sécurité à travers les conversations

Collaboration avec des experts en santé mentale

Mesurer l'amélioration

Perspectives d'avenir

ChatGPT introduit Contact de Confiance pour plus de sécurité

OpenAI : règles strictes pour une IA responsable et sécurisée

ChatGPT intègre la géolocalisation pour défier Google

OpenAI renforce ChatGPT : sécurité avancée, simplicité sacrifiée

ChatGPT : Trusted Contact pour un soutien humain vital

OpenAI : un dispositif pour prévenir les suicides via ChatGPT