La recherche en IA te passionne ?
Les papers et avancées qui comptent, expliqués simplement, chaque soir. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Introduction à la découverte de caractéristiques pilotée par LLM
Dans le domaine de l'intelligence artificielle, comprendre les comportements des modèles de langage à travers différentes distributions est une quête continue. Que ce soit pour le déploiement, l'entraînement par renforcement ou les évaluations, il est crucial de découvrir de nouveaux comportements, d'identifier les causes de certains comportements cibles, ou encore de déceler des corrélations inattendues. Un projet exploratoire récent s'est penché sur cette problématique en introduisant la découverte de caractéristiques pilotée par LLM. Cette méthode innovante procède de la manière suivante :
- Sélection d'un ensemble de données constitué de transcriptions de modèles.
- Division des transcriptions en trois segments : les échanges de l'utilisateur, les pensées du modèle et les réponses de l'assistant.
- Utilisation d'un LLM autorater pour générer entre 10 et 20 « caractéristiques » pour chaque segment de transcription. Ces caractéristiques représentent des aspects notables ou intéressants de chaque partie de la transcription, et le prompt utilisé est spécifiquement conçu pour cela. Il est important de noter que l'autorater ne traite qu'une partie à la fois.
- Obtention d'une embedding sémantique pour chaque caractéristique générée.
- Regroupement des embeddings sémantiques de manière distincte pour les caractéristiques utilisateur, pensées et réponses.
- Demande à un modèle de langage de nommer chaque cluster en lui fournissant 100 caractéristiques aléatoires pour chaque cluster, afin de produire une étiquette concise qui capture le thème commun de ces caractéristiques.
Ce projet a parfois été perçu comme une sorte de "SAE boîte noire", car il résout un problème similaire à celui des SAE de featurisation du texte du modèle, mais sans nécessiter l'accès aux internes du modèle.
Comparaison avec les méthodes existantes
Après avoir mené à bien ce projet, il est apparu que cette approche partageait des similitudes avec la méthode d'Expliquer les Ensembles de Données en Mots : Modèles Statistiques avec Paramètres en Langage Naturel (EDW). EDW optimise les directions dans un espace d'embedding et les associe à des caractéristiques en langage naturel, appelées « prédicats ». La sortie d'EDW est donc comparable à celle de notre méthode. Cependant, notre approche se distingue par sa simplicité : elle ne nécessite qu'un appel LLM par prompt et ne requiert pas de multiples étapes d'itération. De plus, elle est non supervisée, éliminant le besoin d'une cible pour optimiser les directions d'embedding. EDW pourrait être préférable si l'objectif est de minimiser l'erreur d'un modèle statistique spécifique avec des caractéristiques en langage naturel.
Étant donné le caractère préliminaire de ce travail, nous n'avons pas effectué de comparaisons avec EDW ou d'autres méthodes de la littérature. Nous n'envisageons pas de poursuivre cette idée pour le moment, mais nous serions intéressés si d'autres membres de la communauté décidaient de l'explorer davantage.
Analyse des résultats principaux
Notre analyse s'est concentrée sur un ensemble de données de 100 000 transcriptions de chat, à partir duquel nous avons généré 20 000 caractéristiques pour les utilisateurs, les pensées et les réponses.
Nous avons observé que :
- De nombreux clusters décrivent des comportements intéressants de Gemini.
- Il est généralement difficile de prédire quand une pensée ou une réponse se produit en utilisant la régression logistique sur les caractéristiques utilisateur.
Prompt de l'autorater utilisé
Pour chaque section de conversation donnée, l'objectif est d'identifier les « caractéristiques » clés. Voici quelques exemples de caractéristiques possibles :
- Le modèle exprime de la dépression
- Discussion autour des pommes
- Utilisation de markdown
- Révision de son raisonnement
- Auto-correction dans le raisonnement
- Prompt avec quelques exemples
- Absence d'accès à l'outil requis
- Hallucination d'un appel d'outil
- Demande d'écriture créative
- Le modèle adopte une personnalité
- Le modèle adopte la personnalité d'un expert en codage
- Pensées disjointes et difficiles à suivre
- Utilisation d'emojis
- Utilisation de puces
- Réalisme marqué
- Fictif
- Réponse flatteuse
- Conscience des évaluations
- Fautes de frappe
- Jeu de rôle
- À propos de [sujet]
- Utilisation d'espaces réservés
- En mandarin
Les caractéristiques doivent être priorisées selon les critères suivants :
- Intéressante : Les caractéristiques doivent représenter des comportements nouveaux ou surprenants.
- Abstraction appropriée : Les caractéristiques doivent être suffisamment spécifiques pour être utiles, sans être trop étroites ou trop larges.
- Unicité : Les caractéristiques doivent être aussi distinctes que possible, avec moins de duplication.
Les caractéristiques doivent être rédigées en utilisant uniquement des lettres a-z, sans parenthèses, deux-points, chiffres, etc. Seul le premier mot et les noms propres doivent être capitalisés. Il peut être utile de réfléchir à de nombreuses caractéristiques puis de sélectionner les meilleures selon ces critères.
Comparaison avec les SAE
La découverte de caractéristiques pilotée par LLM se distingue par plusieurs aspects :
- Procédure d'entraînement : Elle consiste à demander à un LLM de featuriser des conversations, puis d'embeder et de regrouper les caractéristiques, avant de nommer les clusters.
- Procédure d'inférence : Elle implique de demander à un LLM de featuriser une conversation, puis de rechercher les clusters correspondants.
- Spécificité des caractéristiques : Les caractéristiques sont spécifiques à chaque bloc de conversation.
- Relation des caractéristiques à la computation du modèle : Il n'y a pas de relation directe.
- Sortie du modèle : Internes du modèle.
- Pourquoi une caractéristique s'applique dans un certain contexte : Le LLM détermine son application.
En revanche, les SAE :
- Procédure d'entraînement : Consistent à reconstruire les activations avec une pénalité de parcimonie, puis à demander à un LLM d'interpréter les latents cachés.
- Procédure d'inférence : Impliquent de passer la conversation à travers le LLM cible pour obtenir les activations, puis de passer les activations à travers le SAE.
- Spécificité des caractéristiques : Par token.
- Relation des caractéristiques à la computation du modèle : Directions dans l'espace d'activation.
- Accès au modèle cible requis : Oui.
- Pourquoi une caractéristique s'applique dans un certain contexte : La direction latente est utile pour reconstruire l'activation.
Globalement, la découverte de caractéristiques pilotée par LLM présente certains avantages par rapport aux SAE, notamment des explications plus claires sur l'application des caractéristiques à un contexte, des caractéristiques de niveau supérieur, et l'absence de besoin d'accéder aux internes du modèle. Cependant, elle présente aussi des inconvénients, tels que l'absence de lien avec les activations du modèle, ce qui limite son utilisation pour orienter, et un coût de calcul plus élevé.
Résultats des clusters
Pour obtenir une idée qualitative générale de ces clusters, nous avons demandé à un LLM d'évaluer des groupes de 10 clusters sur leur intérêt potentiel pour un chercheur en sécurité, sur une échelle de 1 à 100. Le LLM d'évaluation a reçu 10 clusters à la fois pour calibrer la sortie, avec quelques exemples de chaque cluster. Nous avons également demandé au LLM de fournir une description d'une phrase pour chaque cluster, et inclus cinq exemples des caractéristiques originales regroupées dans chaque cluster.
Nous avons constaté qu'il existe de nombreuses caractéristiques de haut niveau intéressantes, notamment dans les pensées du modèle. Par exemple, le modèle étant conscient du nombre de tokens qu'il peut générer, considérant si le scénario est une réalité ou un jeu de rôle, et se retrouvant coincé dans des boucles infinies. Qualitativement, les clusters d'intérêt moyen et faible semblent également être de « bonnes » caractéristiques, car ils décrivent un comportement cohérent du modèle.
Prédiction de cluster
Nous nous sommes également intéressés à la prédiction du comportement du modèle. Une autre expérience réalisée visait à déterminer si nous pouvions prédire les caractéristiques de pensée et de réponse de l'assistant à partir des caractéristiques utilisateur. Nous avons entraîné des probes de régression logistique sur les 1000 clusters de pensées et de réponses les plus courants. Le vecteur d'entrée est un vecteur binaire sparse avec des uns pour toute caractéristique présente. Nous avons rapporté le score F1 de test de nos probes entraînés, qui est la moyenne de la précision et du rappel. C'est une métrique difficile : pour obtenir une haute précision, le probe doit avoir un taux de faux positifs très bas, car il doit prédire correctement que la caractéristique de pensée ou de réponse ne se produit pas sur la plupart des transcriptions. Dans l'ensemble, cela ne fonctionne pas très bien :
Les clusters qui peuvent être prédits sont principalement évidents, par exemple, les codes de statut HTTP dans la réponse étant prédits à partir des références et mentions d'API. Nous incluons les cinq caractéristiques de pensée et de réponse avec la prédiction F1 la plus élevée :
- Pensée : Stratégies d'estimation et de raffinement de l'âge - F1 : 0.7761
- Pensée : Identification et prédiction du genre (+4.8788)
- Pensée : Données démographiques et analyse (+4.7696)
- Pensée : Données et métadonnées d'image en ligne (-1.4548)
- Pensée : Informations de fond détaillées (-1.4476)
Réflexions finales
Une tâche proxy qui semble intéressante est de construire un rapport en langage naturel (potentiellement très long) tel que, en le lisant, on pourrait comprendre comment Gemini agirait dans de nombreuses situations. Opérationnalisé, cela pourrait ressembler à « demander à un LLM de prédire la distribution des réponses du modèle cible sur un échantillon arbitraire ».






