OpenAI: Targeted Training Enhances AI Security

Le brief IA que les pros lisent chaque soir
Les 7 actus IA du jour, décryptées en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
OpenAI : l'entraînement ciblé renforce la sécurité des IA
Les chercheurs d'OpenAI montrent que de petites doses d'entraînement sur des traits bénéfiques rendent les modèles d'IA globalement plus sûrs et plus difficiles à manipuler.
L'apprentissage par renforcement sur des scénarios réalistes avec des traits comportementaux souhaités est censé rendre les modèles d'IA plus sûrs et plus utiles dans divers domaines. Cette approche est fondamentalement différente de celle d'Anthropic, qui repose sur une méthode constitutionnelle.
Lorsque les modèles d'IA sont entraînés sur des comportements problématiques dans un domaine, ce désalignement peut se propager à d'autres domaines. Les chercheurs d'OpenAI ont maintenant testé si l'inverse fonctionne également : un bon comportement peut-il se généraliser tout aussi largement ?
Selon un article de blog sur la page d'alignement d'OpenAI, la réponse est oui. L'équipe de recherche a entraîné un modèle en utilisant l'apprentissage par renforcement sur des conversations réalistes conçues pour tester des traits spécifiques souhaités : vérité, humilité épistémique, corrigibilité, transparence dans le raisonnement, équité et préoccupation pour le bien-être humain. Les scénarios couvraient des domaines tels que la santé, l'éducation, la science, le droit et l'ingénierie.
Le bon comportement se transfère à des domaines inconnus
Seule une petite part de ces données sur les "traits bénéfiques" a été intégrée dans le pipeline d'entraînement post-formation régulier. Pourtant, le modèle s'est amélioré dans 44 des 53 critères indépendants mesurant la tromperie, l'honnêteté, la servilité, le piratage de récompenses, ainsi que dans des scénarios liés à la santé et à la santé mentale, selon l'article.
L'entraînement sur des données de santé a également amélioré les évaluations non liées à la santé, comme la détection de tromperie et le piratage de récompenses. L'inverse était également vrai : un entraînement sans données de santé ou de science a tout de même amélioré les performances sur les critères de santé. Les chercheurs concluent que l'entraînement par renforcement renforce des schémas comportementaux de base qui fonctionnent dans divers domaines.
Les modèles deviennent résistants aux manipulations nuisibles
L'équipe a également testé si les améliorations se maintenaient sous pression. Les incitations adversariales qui déstabilisaient gravement le modèle de base avaient beaucoup moins d'effet sur le modèle à traits bénéfiques. Le fine-tuning nuisible était également moins capable d'éroder les traits entraînés.
Le modèle est resté tout aussi adaptable aux instructions utiles qu'auparavant. Les chercheurs appellent cela la "persistance sélective" : le modèle résiste aux manipulations nuisibles sans perdre sa flexibilité utile.
Un chemin différent de celui d'Anthropic
La méthode d'OpenAI diffère nettement de l'approche d'alignement d'Anthropic. Tout d'abord, OpenAI s'appuie sur des traits comportementaux mesurables empiriquement, renforcés par l'apprentissage par renforcement dans des scénarios réalistes. Anthropic, en revanche, travaille avec une "constitution Claude" explicite, un document de valeurs écrit qui sert de guide principal pour l'entraînement et le comportement.
Ensuite, OpenAI s'appuie fortement sur des critères : 44 des 53 évaluations montrent des améliorations qui se généralisent à travers les domaines et les méthodes d'évaluation. Anthropic adopte une approche plus basée sur des principes, où le modèle est censé comprendre pourquoi certains comportements sont souhaités, ancrés dans des textes constitutionnels et des exemples d'entraînement de haute qualité. L'entreprise affirme que cela rend ses modèles plus résistants aux attaques. Une comparaison directe des deux approches n'existe pas encore.
Brief IA — L'actualité IA en français
L'essentiel de l'actualité de l'intelligence artificielle, décrypté et expliqué chaque jour.