Brief IA

Le nouveau jeu de données d'OpenAI enseigne aux modèles d'IA quelles instructions faire confiance

🔬 Recherchevia The Decoder·Maximilian Schreiner·

Le nouveau jeu de données d'OpenAI enseigne aux modèles d'IA quelles instructions faire confiance

Le nouveau jeu de données d'OpenAI enseigne aux modèles d'IA quelles instructions faire confiance

⚡ Résumé en français par Brief IA

• OpenAI a lancé IH-Challenge, un jeu de données d'entraînement pour aider les modèles d'IA à prioriser les instructions fiables. • Les premiers résultats montrent des améliorations significatives en matière de sécurité et de défense contre les injections de prompt. • Ce développement est crucial dans un contexte où la confiance dans les systèmes d'IA est essentielle pour leur adoption. 💡 Pourquoi c'est important : Cela pourrait transformer la manière dont les modèles d'IA interagissent avec les utilisateurs en renforçant la sécurité et la fiabilité.

📄 Article traduit en français

Le nouveau jeu de données d'OpenAI enseigne aux modèles d'IA quelles instructions faire confiance

OpenAI a publié le jeu de données d'entraînement "IH-Challenge", qui utilise l'apprentissage par renforcement pour enseigner aux modèles d'IA une hiérarchie claire des instructions, allant du système au développeur, puis à l'utilisateur et enfin à l'outil.

Le modèle GPT-5 Mini-R entraîné sur IH-Challenge priorise les instructions de manière plus fiable et est significativement meilleur pour se défendre contre les attaques par injection de prompt qui cachent des instructions malveillantes dans les sorties des outils. OpenAI considère cette capacité comme essentielle pour les modèles agentiques qui appellent indépendamment des outils et traitent des documents externes. L'entreprise a rendu le jeu de données disponible sur Hugging Face pour encourager des recherches supplémentaires.

OpenAI a conçu IH-Challenge pour enseigner aux modèles d'IA à prioriser de manière fiable les instructions dignes de confiance par rapport aux instructions non fiables. Les premiers résultats montrent des améliorations significatives tant en matière de sécurité que de défense contre les injections de prompt.

Les systèmes d'IA reçoivent des instructions de multiples sources simultanément. Les politiques de sécurité au niveau du système, les paramètres des développeurs, les demandes des utilisateurs et les informations provenant d'outils externes peuvent souvent se contredire. Lorsqu'un modèle fait le mauvais choix concernant l'instruction à suivre, les politiques de sécurité peuvent être contournées et les attaques par injection de prompt peuvent réussir.

Selon OpenAI, de nombreux problèmes partagent la même cause profonde : le modèle suit simplement la mauvaise instruction. Pour y remédier, l'entreprise a développé le jeu de données d'entraînement "IH-Challenge", qui utilise l'apprentissage par renforcement pour enseigner aux modèles un ordre de priorité clair : système, développeur, utilisateur, outil.

OpenAI avait déjà introduit une approche similaire basée sur GPT-3.5 Turbo en 2024, mais cette version ne supportait que trois niveaux de priorité et s'appuyait sur des juges LLM pour l'évaluation. IH-Challenge dépasse ces deux limitations. Le nouveau jeu de données ajoute un quatrième niveau de hiérarchie pour les développeurs et remplace les évaluations de modèles de langage sujettes à erreur par de simples scripts Python pour une vérification automatisée.

Les méthodes d'entraînement actuelles échouent dans trois domaines clés

Dans le document d'accompagnement, OpenAI identifie trois pièges majeurs. Tout d'abord, les erreurs dans le suivi d'instructions complexes peuvent être à tort signalées comme des échecs de hiérarchie. Ensuite, les conflits d'instructions sont souvent subjectifs, rendant l'évaluation automatisée difficile. Enfin, les modèles ont tendance à apprendre des raccourcis, comme rejeter des demandes inoffensives juste pour être prudents.

IH-Challenge aborde ces problèmes avec des tâches délibérément simples qui peuvent être évaluées automatiquement par des scripts et ne permettent pas de raccourcis triviaux.

Selon OpenAI, le modèle interne GPT-5 Mini-R entraîné sur IH-Challenge montre des améliorations claires dans les benchmarks académiques et internes en ce qui concerne la priorisation correcte des instructions. Les plus grands gains ont été observés dans les conflits entre les instructions au niveau des développeurs et celles au niveau des utilisateurs. En même temps, les capacités générales du modèle sont restées largement intactes.

Les injections de prompt via des outils sont détectées

La hiérarchie des instructions renforcée se traduit par deux avantages concrets, selon OpenAI. Tout d'abord, le modèle suit les politiques de sécurité dans le prompt système de manière plus fiable sans devenir moins utile dans l'ensemble. Deuxièmement, la robustesse contre les attaques par injection de prompt s'améliore considérablement, en particulier celles qui cachent des instructions malveillantes dans les sorties des outils. OpenAI avait précédemment documenté des vulnérabilités similaires dans ChatGPT Atlas.

OpenAI souligne que cette capacité deviendra une fonctionnalité de sécurité critique à mesure que les modèles deviendront plus agentiques. Les modèles qui appellent indépendamment des outils et lisent des documents non fiables doivent être capables de distinguer de manière fiable entre les instructions légitimes et manipulatrices. OpenAI a publié le jeu de données IH-Challenge sur Hugging Face pour encourager des recherches supplémentaires.

TwitterLinkedIn

Brief IA — Veille IA en français

Toutes les innovations mondiales en IA, traduites et résumées automatiquement. Recevoir les meilleures actus IA chaque jour.