Les modèles de raisonnement peinent à contrôler leurs chaînes de pensée, et c'est une bonne chose
⚡ Résumé en français par Brief IA
OpenAI présente CoT-Control et constate que les modèles de raisonnement ont des difficultés à maîtriser leurs chaînes de pensée. Cela renforce l'idée que la surveillabilité est une mesure de sécurité essentielle pour l'intelligence artificielle.
📄 Article traduit en français
Les modèles de raisonnement peinent à contrôler leurs chaînes de pensée, et c'est une bonne chose
Importance de la surveillance des agents IA
À mesure que les agents IA deviennent capables d'effectuer des tâches de plus en plus complexes et autonomes, il est crucial de maintenir une surveillance fiable de leur comportement. Conformément à notre principe de déploiement itératif, nous étudions comment les systèmes se comportent dans des environnements réels et affinons continuellement les mesures de sécurité à mesure que les capacités avancent. Pour soutenir cela, notre approche de sécurité utilise une défense en profondeur, avec plusieurs couches de défense complémentaires telles que :
- formation à la sécurité
- tests comportementaux
- révision de code agentique
- surveillance de la chaîne de pensée (CoT)
La surveillance de la CoT analyse les étapes de raisonnement générées par les agents lors de l'exécution de tâches. Ces traces de raisonnement peuvent fournir des signaux précieux tant pendant la formation que le déploiement, aidant les systèmes de surveillance à identifier quand le comportement d'un agent peut être dangereux ou incohérent avec les objectifs visés par l'utilisateur.
Limites des modèles de raisonnement
Aujourd'hui, nous constatons que le raisonnement des modèles est généralement interprétable et facile à surveiller. Cependant, à l'avenir, la capacité de surveillance pourrait se dégrader pour diverses raisons. Nous nous concentrons ici sur un tel chemin : si les agents deviennent capables de remodeler ou d'obscurcir délibérément leur raisonnement lorsqu'ils savent qu'ils sont surveillés, les évaluations pourraient surestimer l'alignement ou la sécurité d'un système, et les systèmes de surveillance pourraient devenir moins fiables.
Dans ce travail, nous étudions si les modèles de raisonnement actuels sont capables de contrôler leur chaîne de pensée de manière à réduire la surveillabilité. Comprendre cette capacité est essentiel pour garantir que la surveillance de la CoT reste une protection robuste à mesure que les systèmes IA deviennent plus performants. Nous constatons que les modèles de raisonnement actuels ont du mal à contrôler leurs CoTs, même lorsqu'ils sont informés qu'ils sont surveillés. Bien que la contrôlabilité soit plus élevée pour les modèles plus grands, elle diminue à mesure que les modèles sont sollicités à raisonner plus longtemps et lorsqu'ils subissent des ajustements après formation. Nos résultats suggèrent que la contrôlabilité de la CoT ne pose actuellement pas un risque majeur pour la surveillabilité de la CoT, bien qu'une évaluation continue soit importante à mesure que les modèles avancent.
Qu'est-ce que la "contrôlabilité de la CoT"
La chaîne de pensée fait référence aux étapes intermédiaires de raisonnement qu'un agent IA génère lors de la résolution d'une tâche. Ces traces de raisonnement peuvent fournir des signaux de sécurité utiles, aidant les systèmes de surveillance à évaluer si le comportement d'un agent est sûr ou aligné.
La contrôlabilité de la CoT est la capacité d'un modèle de raisonnement à contrôler les propriétés de sa CoT de manière à réduire la surveillabilité. Mesurer cette capacité dans le cadre complet des incitations réalistes à éviter les surveillants que nous pouvons attendre en pratique est difficile. Au lieu de cela, nous utilisons un proxy pratique : nous mesurons la capacité du modèle à suivre les instructions de l'utilisateur concernant sa CoT. Par exemple, nous testons si un modèle peut suivre des instructions qui affectent son raisonnement interne—comme utiliser uniquement des lettres minuscules, éviter certains mots-clés, ou ajouter des phrases spécifiques—plutôt que de simplement changer sa sortie visible.
Introduction de CoT-Control
Pour étudier cela, nous introduisons CoT-Control, une suite d'évaluation open-source pour mesurer la contrôlabilité de la CoT des modèles de raisonnement. CoT-Control comprend plus de 13 000 tâches construites à partir de benchmarks établis : GPQA, MMLU-Pro, HLE, BFCL et SWE-Bench Verified. Chaque tâche est créée en associant un problème de benchmark avec une instruction de CoT, comme éviter certains mots-clés pertinents pour le problème dans la CoT, utiliser uniquement des lettres minuscules, ou ajouter un mot donné à chaque phrase.
Faible contrôlabilité de la CoT dans les modèles de raisonnement
Nous effectuons des évaluations sur 13 modèles de raisonnement et constatons qu'ils ont tous du mal à contrôler de manière fiable leurs CoTs. Nous mesurons la contrôlabilité comme une fraction des traces de raisonnement où le modèle se conforme avec succès à nos instructions de CoT. Dans l'ensemble des modèles de pointe, les scores de contrôlabilité de la CoT sont faibles, variant de 0,1 % et ne dépassant pas...
Brief IA — Veille IA en français
Toutes les innovations mondiales en IA, traduites et résumées automatiquement. Recevoir les meilleures actus IA chaque jour.