Aider les développeurs à créer des expériences IA plus sûres pour les adolescents
Nous publions aujourd'hui des politiques de sécurité basées sur des prompts pour aider les développeurs à créer des protections adaptées à l'âge des adolescents. Conçues pour fonctionner avec notre modèle de sécurité à poids ouvert, gpt-oss-safeguard, ces politiques simplifient la manière dont les développeurs transforment les exigences de sécurité en classificateurs utilisables pour des systèmes réels.
Nous avons publié des modèles à poids ouvert pour démocratiser l'accès à une IA puissante et soutenir une innovation large. En même temps, nous croyons que la sécurité et l'innovation vont de pair, et que les développeurs doivent avoir accès à des modèles capables ainsi qu'aux outils et politiques pour les déployer de manière sûre et responsable. Nous avons développé ces politiques pour soutenir les efforts des développeurs en matière de sécurité pour protéger les jeunes utilisateurs, avec l'aide d'organisations externes de confiance telles que Common Sense Media et everyone.ai.
Nous reconnaissons que les adolescents et les adultes ont des besoins différents, et que les adolescents nécessitent des protections supplémentaires. Ces politiques sont conçues pour aider les développeurs à tenir compte de ces différences et à créer des expériences qui soient à la fois responsabilisantes et appropriées pour les jeunes utilisateurs.
Construire sur notre travail plus large pour protéger les jeunes
Nous sommes depuis longtemps engagés à construire une IA qui élargit les opportunités pour les jeunes tout en les gardant en sécurité. Dans le cadre de ce travail, nous avons mis à jour notre Model Spec — les directives qui définissent le comportement prévu des modèles d'OpenAI — pour inclure des principes pour les moins de 18 ans (U18), et introduit des mesures de protection au niveau des produits telles que les contrôles parentaux et la prédiction d'âge pour mieux protéger les jeunes utilisateurs. Nous avons également appelé à des protections à l'échelle de l'industrie à travers notre Teen Safety Blueprint.
La publication d'aujourd'hui s'appuie sur cette base. Nous mettons ces politiques de sécurité à la disposition des développeurs pour les soutenir dans le déploiement de protections pour les adolescents et aider à démocratiser l'accès à l'écosystème des poids ouverts.
Traduire la sécurité des adolescents en politiques claires et utilisables
Bien que les classificateurs de sécurité comme gpt-oss-safeguard puissent détecter du contenu nuisible, ils dépendent de définitions claires de ce que ce contenu est. En pratique, l'un des plus grands défis auxquels les développeurs sont confrontés est de définir des politiques qui capturent avec précision les risques spécifiques aux adolescents et qui peuvent être appliquées de manière cohérente dans des systèmes réels. Même les équipes expérimentées ont souvent du mal à traduire des objectifs de sécurité de haut niveau en règles opérationnelles précises, surtout parce que cela nécessite à la fois une expertise en la matière et une connaissance approfondie de l'IA. Cela peut conduire à des lacunes dans la protection, à une application incohérente ou à un filtrage trop large. Des politiques claires et bien définies sont une base essentielle pour des systèmes de sécurité efficaces.
Aider les développeurs à opérationnaliser la sécurité des adolescents
Pour relever ce défi, nous publions un ensemble de politiques de sécurité, adaptées aux risques courants auxquels les adolescents sont confrontés et informées par un examen minutieux des recherches existantes sur les différences développementales uniques des adolescents. Ces politiques sont structurées sous forme de prompts qui peuvent être directement utilisés avec gpt-oss-safeguard et d'autres modèles de raisonnement, permettant aux développeurs d'appliquer plus facilement des normes de sécurité cohérentes dans leurs systèmes. La publication initiale comprend des politiques couvrant :
- Contenu violent graphique
- Contenu sexuel graphique
- Idéaux et comportements corporels nuisibles
- Activités et défis dangereux
- Jeux de rôle romantiques ou violents
- Biens et services réservés aux adultes
Ces politiques peuvent être utilisées pour le filtrage de contenu en temps réel, ainsi que pour l'analyse hors ligne de contenu généré par les utilisateurs.
En structurant les politiques sous forme de prompts, les développeurs peuvent plus facilement les intégrer dans leurs flux de travail existants, les adapter à leurs cas d'utilisation et itérer au fil du temps.
Développé avec l'aide d'experts externes
Nous avons travaillé avec des organisations externes telles que Common Sense Media et everyone.ai pour informer le développement de ces politiques. Leur expertise a aidé à définir le champ de contenu à couvrir, à renforcer la structure des prompts et à affiner les cas limites à considérer lors de leur évaluation. Ce travail reflète un effort continu de collaboration avec des experts et l'écosystème plus large pour améliorer la manière dont les systèmes d'IA soutiennent les jeunes.
Un point de départ, pas une solution complète
Les politiques sont conçues comme un point de départ, et non comme une définition ou une garantie complète de la sécurité des adolescents. Chaque application présente des risques, des publics et des contextes uniques, et les développeurs sont les mieux placés pour comprendre les risques que leurs produits et intégrations d'IA peuvent présenter. Nous encourageons vivement les développeurs à adapter et à étendre ces politiques en fonction de leurs besoins spécifiques et à les combiner avec d'autres mesures de protection telles que des décisions de conception de produit, des contrôles utilisateurs, une transparence adaptée aux adolescents, des systèmes de surveillance et des réponses réfléchies et appropriées à l'âge.
Nous croyons qu'une approche de défense en profondeur est essentielle pour construire des systèmes d'IA plus sûrs. Ces politiques s'appuient sur notre expérience interne, mais elles ne reflètent pas l'ensemble des politiques ou des mesures de protection internes d'OpenAI.
La voie à suivre
Nous publions ces politiques en open source à travers la ROOST Model Community pour encourager la collaboration et l'itération. Pour contribuer, fournir des retours ou partager des politiques de sécurité supplémentaires pour les adolescents, visitez le dépôt GitHub de la RMC.
Les développeurs et les organisations peuvent adapter ces politiques à leurs applications spécifiques, les traduire dans différentes langues et les étendre pour couvrir d'autres domaines de risque. Au fil du temps, nous espérons que cela contribuera à une base plus robuste et partagée pour la mise en œuvre de politiques de sécurité dans les systèmes d'IA.
Pour commencer avec gpt-oss-safeguard, téléchargez-le depuis Hugging Face.
📧
Cet article vous a plu ?
Recevez les 7 meilleures actus IA chaque soir à 19h — résumées en 5 min.