Brief IA

New RFP on Interpretability from Schmidt Sciences

🔬 Researchvia AI Alignment Forum·Peter Hase·

New RFP on Interpretability from Schmidt Sciences

New RFP on Interpretability from Schmidt Sciences
En bref
1Schmidt Sciences lance un appel à propositions pour un programme pilote sur l'interprétabilité de l'IA.
2La date limite de soumission est le 26 mai 2026.
3L'objectif est de développer des méthodes pour détecter et atténuer les comportements trompeurs des modèles d'IA.
💡Pourquoi c'est importantDes avancées dans ce domaine pourraient entraîner un investissement significatif dans l'interprétabilité de l'IA.
📄
Article traduit en français

Nouvelle demande de propositions sur l'interprétabilité par Schmidt Sciences

Date limite de soumission : Mardi 26 mai 2026

Schmidt Sciences invite des propositions pour un programme pilote sur l'interprétabilité de l'IA. Nous recherchons de nouvelles méthodes pour détecter et atténuer les comportements trompeurs des modèles d'IA, tels que lorsque ces modèles fournissent délibérément des conseils trompeurs ou nuisibles aux utilisateurs. Si ce projet pilote révèle des signes de progrès significatifs, il pourrait débloquer un investissement beaucoup plus important dans ce domaine.

Question centrale et aperçu

Pouvons-nous développer des méthodes d'interprétabilité qui (1) détectent les comportements trompeurs exhibés par les LLMs (modèles de langage de grande taille) et (2) orientent leur raisonnement pour éliminer ces comportements ?

Les outils réussis devront se généraliser à des cas d'utilisation réalistes, dépassant les benchmarks académiques typiques et abordant les risques concrets découlant des comportements trompeurs. Il est essentiel que nous recherchions des outils d'interprétabilité qui surpassent les références ne reposant pas sur l'accès aux poids, afin de prouver que nous pouvons vraiment tirer parti de notre compréhension des internes des modèles.

Nous définissons un champ de recherche dans la section Agenda de recherche à la fin de ce document. Les propositions ne doivent pas nécessairement correspondre aux sujets de cet agenda de manière verbatim. Nous encourageons les propositions sur toute méthode technique ou évaluation pertinente qui pourrait faire progresser notre compréhension scientifique des comportements trompeurs dans les LLMs. Nous nous concentrerons particulièrement sur trois directions :

  • Détection des comportements trompeurs des LLMs : pouvons-nous développer des outils pour détecter ces comportements, définis comme des cas où il y a une contradiction entre ce qu'un modèle dit (ou fait) et ce qu'il représente en interne comme étant vrai (ou la meilleure action) ?

  • Orientation des modèles pour améliorer la véracité : pouvons-nous développer des méthodes d'orientation ciblées pour intervenir sur la véracité des modèles ? Nous aimerions tirer parti d'une meilleure compréhension mécaniste des modèles pour développer des atténuations des comportements trompeurs.

  • Applications des méthodes de détection/steering : de nouvelles techniques de détection et d'orientation peuvent-elles débloquer des cas d'utilisation de l'IA ? Quand ces techniques peuvent-elles améliorer les équipes humain-IA en pratique ? Quand le fait d'avoir une IA plus véridique améliorera-t-il les résultats des systèmes multi-agents ?

Date limite de soumission des propositions

26 mai 2026

Niveau de financement

300k-$1M (projets de 1 à 3 ans)

Critères de sélection

Les propositions seront évaluées par le personnel de Schmidt Sciences et des examinateurs externes selon les critères suivants :

  • Adéquation avec l'Agenda de recherche : La proposition engage-t-elle clairement l'intention derrière les questions scientifiques et les objectifs de l'agenda de recherche ?

  • Qualité scientifique et rigueur : Le travail proposé est-il techniquement solide, bien motivé et capable de produire des insights généralisables ?

  • Impact potentiel : Si réussi, cela ferait-il avancer de manière significative l'interprétabilité de l'IA ou changerait-il de manière significative la façon dont les risques sont compris, mesurés ou gérés ?

  • Faisabilité et portée : Le projet est-il correctement dimensionné par rapport au budget et à la durée demandés ?

  • Expertise de l'équipe : L'équipe est-elle bien placée pour exécuter le travail proposé, avec une expertise technique pertinente, une capacité suffisante et un engagement temporel proportionnel à l'ambition du projet ?

  • Rapport coût-efficacité : Le budget proposé est-il raisonnable et bien justifié compte tenu des objectifs et des activités prévues du projet ?

Agenda de recherche

La recherche sur l'interprétabilité est particulièrement prometteuse pour réduire les risques liés aux comportements trompeurs dans les LLMs. Ces modèles induisent souvent les utilisateurs en erreur, même sur des tâches simples avec des invites anodines.

Les résultats des analyses d'interprétabilité pourraient également permettre de nouvelles formes d'orientation pour l'honnêteté. Des méthodes prometteuses ont montré qu'elles peuvent (1) orienter les modèles vers la véracité de manière généralisable, (2) optimiser de manière robuste contre des récompenses basées sur la surveillance pour réduire la tromperie, et (3) permettre un ajustement fin contraint des modèles qui n'opère que sur des caractéristiques interprétables.

Cependant, nous n'avons pas encore de détecteurs universels de comportements trompeurs, ni ne pouvons-nous orienter de manière fiable les modèles pour qu'ils soient complètement véridiques. Ainsi, nous visons à soutenir la recherche sur des problèmes ouverts pertinents.

Directions de recherche majeures

  • Définition des "comportements trompeurs" : nous utilisons ce terme pour inclure des instances de générations de modèles connues (par le modèle) comme étant factuellement incorrectes, des affirmations données avec un niveau de confiance trompeur, des affirmations trompeuses sur le contexte de l'interaction, l'omission sélective d'informations pertinentes, et d'autres comportements que les modèles savent trompeurs pour les humains ou les moniteurs d'IA.

  • Surveillance : cette zone couvre la recherche sur la surveillance et la validation du raisonnement des modèles. Nous attendons de la surveillance qu'elle implique tout test en boîte noire des modèles, des sondes en boîte blanche, des techniques d'analyse en boîte grise, et d'autres recherches sur les méthodes et évaluations.

  • Orientation : cette zone couvre la recherche sur les interventions représentatives et basées sur les poids visant à atténuer les comportements trompeurs sans conséquences indésirables. Nous sommes particulièrement intéressés par des méthodes qui surpassent les approches traditionnelles d'ajustement fin en tirant parti des insights des analyses d'interprétabilité du raisonnement des modèles.

  • Applications : cette zone couvre le travail qui applique des méthodes de détection et d'orientation afin de tirer de nouvelles conclusions sur les modèles entraînés, les processus d'entraînement ou l'utilité des modèles pour les humains. Nous voulons que les techniques d'interprétabilité révèlent des insights exploitables.

TwitterLinkedIn

Brief IA — Veille IA quotidienne

Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.