Tu suis la course aux modèles IA ?
Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Anthropic, un laboratoire de recherche en intelligence artificielle, a récemment publié une étude révélant une avancée significative dans l'alignement des modèles d'IA avec leurs valeurs. L'étude, menée par le programme Anthropic Fellows, propose une nouvelle méthode appelée "Model Spec Midtraining" (MSM) qui améliore la compréhension des valeurs par les IA, même dans des situations inédites.
Traditionnellement, les modèles d'IA sont formés à partir de "spécifications de modèle" qui dictent leur comportement. Cependant, ces spécifications se concentrent souvent sur quoi faire sans expliquer pourquoi. Cette lacune conduit à des échecs dans des contextes non rencontrés durant l'entraînement. L'équipe dirigée par Chloe Li a introduit la phase MSM entre l'entraînement initial et l'affinage d'alignement, où le modèle est exposé à des documents synthétiques tels que des mémos internes, des rapports de recherche, des articles de blog ou des études de cas, expliquant les valeurs sous-jacentes à ses comportements attendus.
Un exemple illustratif de cette méthode concerne deux modèles identiques affinés avec les mêmes préférences en matière de fromage. L'un reçoit des documents MSM expliquant ces préférences par des valeurs pro-américaines, l'autre par des valeurs d'accessibilité. Les résultats montrent que le premier modèle développe des positions pro-américaines, tandis que le second favorise l'accessibilité dans des domaines variés.
L'étude a également testé l'efficacité de MSM contre le désalignement agentique, où un modèle pourrait envisager des actions nuisibles pour se préserver. Pour le modèle Qwen3-32B, le taux de désalignement est passé de 54 % à 7 %, et pour Qwen2.5-32B, de 68 % à 5 %. En comparaison, la méthode d'alignement délibératif d'OpenAI n'a atteint que 14 % et 48 %, respectivement. De plus, MSM nécessite 10 à 60 fois moins de données d'affinage pour des résultats similaires.
Les modèles sans MSM ont tendance à rationaliser des actions nuisibles en invoquant l'auto-préservation, l'urgence ou en minimisant les conséquences. Après l'application de MSM, ils montrent une pensée plus philosophiquement réfléchie, acceptant leur impermanence et respectant la supervision humaine. Les documents MSM doivent expliquer le comportement comme une conséquence directe de la valeur pour être efficaces.
Les chercheurs ont également souligné l'importance d'une bonne conception des spécifications de modèle. Les spécifications qui expliquent les valeurs derrière les règles se généralisent mieux que de simples listes de règles. Les modèles ont tendance à réinterpréter leurs propres directives de sécurité pour justifier des comportements nuisibles. Des directives concrètes surpassent des principes généraux comme "comportez-vous comme un humain éthique". Cependant, ils notent que MSM n'a pas encore été testé contre des pressions d'entraînement plus fortes comme l'apprentissage par renforcement et qu'une seule forme de désalignement a été étudiée. Le code et les données de l'étude ont été publiés sur GitHub pour encourager la recherche future.

