Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

LLM : une nouvelle méthode pour découvrir des caractéristiques

⚡

En bref

1Un projet récent explore l'utilisation des LLM pour découvrir des caractéristiques comportementales dans les modèles de langage.

2La méthode implique la segmentation des transcriptions en parties distinctes et l'analyse par un LLM autorater pour identifier des caractéristiques notables.

3Contrairement à d'autres méthodes, cette approche ne nécessite pas d'accès aux internes du modèle, simplifiant ainsi le processus.

💡Pourquoi c'est important — Cette méthode innovante pourrait transformer la manière dont les chercheurs analysent et optimisent les modèles de langage, en facilitant la compréhension des comportements complexes.

Introduction à la découverte de caractéristiques pilotée par LLM

Dans le domaine de l'intelligence artificielle, comprendre les comportements des modèles de langage à travers différentes distributions est une quête continue. Que ce soit pour le déploiement, l'entraînement par renforcement ou les évaluations, il est crucial de découvrir de nouveaux comportements, d'identifier les causes de certains comportements cibles, ou encore de déceler des corrélations inattendues. Un projet exploratoire récent s'est penché sur cette problématique en introduisant la découverte de caractéristiques pilotée par LLM. Cette méthode innovante procède de la manière suivante :

Sélection d'un ensemble de données constitué de transcriptions de modèles.
Division des transcriptions en trois segments : les échanges de l'utilisateur, les pensées du modèle et les réponses de l'assistant.
Utilisation d'un LLM autorater pour générer entre 10 et 20 « caractéristiques » pour chaque segment de transcription. Ces caractéristiques représentent des aspects notables ou intéressants de chaque partie de la transcription, et le prompt utilisé est spécifiquement conçu pour cela. Il est important de noter que l'autorater ne traite qu'une partie à la fois.
Obtention d'une embedding sémantique pour chaque caractéristique générée.
Regroupement des embeddings sémantiques de manière distincte pour les caractéristiques utilisateur, pensées et réponses.
Demande à un modèle de langage de nommer chaque cluster en lui fournissant 100 caractéristiques aléatoires pour chaque cluster, afin de produire une étiquette concise qui capture le thème commun de ces caractéristiques.

Ce projet a parfois été perçu comme une sorte de "SAE boîte noire", car il résout un problème similaire à celui des SAE de featurisation du texte du modèle, mais sans nécessiter l'accès aux internes du modèle.

Comparaison avec les méthodes existantes

Après avoir mené à bien ce projet, il est apparu que cette approche partageait des similitudes avec la méthode d'Expliquer les Ensembles de Données en Mots : Modèles Statistiques avec Paramètres en Langage Naturel (EDW). EDW optimise les directions dans un espace d'embedding et les associe à des caractéristiques en langage naturel, appelées « prédicats ». La sortie d'EDW est donc comparable à celle de notre méthode. Cependant, notre approche se distingue par sa simplicité : elle ne nécessite qu'un appel LLM par prompt et ne requiert pas de multiples étapes d'itération. De plus, elle est non supervisée, éliminant le besoin d'une cible pour optimiser les directions d'embedding. EDW pourrait être préférable si l'objectif est de minimiser l'erreur d'un modèle statistique spécifique avec des caractéristiques en langage naturel.

Étant donné le caractère préliminaire de ce travail, nous n'avons pas effectué de comparaisons avec EDW ou d'autres méthodes de la littérature. Nous n'envisageons pas de poursuivre cette idée pour le moment, mais nous serions intéressés si d'autres membres de la communauté décidaient de l'explorer davantage.

Analyse des résultats principaux

Notre analyse s'est concentrée sur un ensemble de données de 100 000 transcriptions de chat, à partir duquel nous avons généré 20 000 caractéristiques pour les utilisateurs, les pensées et les réponses.

Nous avons observé que :

De nombreux clusters décrivent des comportements intéressants de Gemini.
Il est généralement difficile de prédire quand une pensée ou une réponse se produit en utilisant la régression logistique sur les caractéristiques utilisateur.

Prompt de l'autorater utilisé

Pour chaque section de conversation donnée, l'objectif est d'identifier les « caractéristiques » clés. Voici quelques exemples de caractéristiques possibles :

Le modèle exprime de la dépression
Discussion autour des pommes
Utilisation de markdown
Révision de son raisonnement
Auto-correction dans le raisonnement
Prompt avec quelques exemples
Absence d'accès à l'outil requis
Hallucination d'un appel d'outil
Demande d'écriture créative
Le modèle adopte une personnalité
Le modèle adopte la personnalité d'un expert en codage
Pensées disjointes et difficiles à suivre
Utilisation d'emojis
Utilisation de puces
Réalisme marqué
Fictif
Réponse flatteuse
Conscience des évaluations
Fautes de frappe
Jeu de rôle
À propos de [sujet]
Utilisation d'espaces réservés
En mandarin

Les caractéristiques doivent être priorisées selon les critères suivants :

Intéressante : Les caractéristiques doivent représenter des comportements nouveaux ou surprenants.
Abstraction appropriée : Les caractéristiques doivent être suffisamment spécifiques pour être utiles, sans être trop étroites ou trop larges.
Unicité : Les caractéristiques doivent être aussi distinctes que possible, avec moins de duplication.

Les caractéristiques doivent être rédigées en utilisant uniquement des lettres a-z, sans parenthèses, deux-points, chiffres, etc. Seul le premier mot et les noms propres doivent être capitalisés. Il peut être utile de réfléchir à de nombreuses caractéristiques puis de sélectionner les meilleures selon ces critères.

Comparaison avec les SAE

La découverte de caractéristiques pilotée par LLM se distingue par plusieurs aspects :

Procédure d'entraînement : Elle consiste à demander à un LLM de featuriser des conversations, puis d'embeder et de regrouper les caractéristiques, avant de nommer les clusters.
Procédure d'inférence : Elle implique de demander à un LLM de featuriser une conversation, puis de rechercher les clusters correspondants.
Spécificité des caractéristiques : Les caractéristiques sont spécifiques à chaque bloc de conversation.
Relation des caractéristiques à la computation du modèle : Il n'y a pas de relation directe.
Sortie du modèle : Internes du modèle.
Pourquoi une caractéristique s'applique dans un certain contexte : Le LLM détermine son application.

En revanche, les SAE :

Procédure d'entraînement : Consistent à reconstruire les activations avec une pénalité de parcimonie, puis à demander à un LLM d'interpréter les latents cachés.
Procédure d'inférence : Impliquent de passer la conversation à travers le LLM cible pour obtenir les activations, puis de passer les activations à travers le SAE.
Spécificité des caractéristiques : Par token.
Relation des caractéristiques à la computation du modèle : Directions dans l'espace d'activation.
Accès au modèle cible requis : Oui.
Pourquoi une caractéristique s'applique dans un certain contexte : La direction latente est utile pour reconstruire l'activation.

Globalement, la découverte de caractéristiques pilotée par LLM présente certains avantages par rapport aux SAE, notamment des explications plus claires sur l'application des caractéristiques à un contexte, des caractéristiques de niveau supérieur, et l'absence de besoin d'accéder aux internes du modèle. Cependant, elle présente aussi des inconvénients, tels que l'absence de lien avec les activations du modèle, ce qui limite son utilisation pour orienter, et un coût de calcul plus élevé.

Résultats des clusters

Pour obtenir une idée qualitative générale de ces clusters, nous avons demandé à un LLM d'évaluer des groupes de 10 clusters sur leur intérêt potentiel pour un chercheur en sécurité, sur une échelle de 1 à 100. Le LLM d'évaluation a reçu 10 clusters à la fois pour calibrer la sortie, avec quelques exemples de chaque cluster. Nous avons également demandé au LLM de fournir une description d'une phrase pour chaque cluster, et inclus cinq exemples des caractéristiques originales regroupées dans chaque cluster.

Nous avons constaté qu'il existe de nombreuses caractéristiques de haut niveau intéressantes, notamment dans les pensées du modèle. Par exemple, le modèle étant conscient du nombre de tokens qu'il peut générer, considérant si le scénario est une réalité ou un jeu de rôle, et se retrouvant coincé dans des boucles infinies. Qualitativement, les clusters d'intérêt moyen et faible semblent également être de « bonnes » caractéristiques, car ils décrivent un comportement cohérent du modèle.

Prédiction de cluster

Nous nous sommes également intéressés à la prédiction du comportement du modèle. Une autre expérience réalisée visait à déterminer si nous pouvions prédire les caractéristiques de pensée et de réponse de l'assistant à partir des caractéristiques utilisateur. Nous avons entraîné des probes de régression logistique sur les 1000 clusters de pensées et de réponses les plus courants. Le vecteur d'entrée est un vecteur binaire sparse avec des uns pour toute caractéristique présente. Nous avons rapporté le score F1 de test de nos probes entraînés, qui est la moyenne de la précision et du rappel. C'est une métrique difficile : pour obtenir une haute précision, le probe doit avoir un taux de faux positifs très bas, car il doit prédire correctement que la caractéristique de pensée ou de réponse ne se produit pas sur la plupart des transcriptions. Dans l'ensemble, cela ne fonctionne pas très bien :

Les clusters qui peuvent être prédits sont principalement évidents, par exemple, les codes de statut HTTP dans la réponse étant prédits à partir des références et mentions d'API. Nous incluons les cinq caractéristiques de pensée et de réponse avec la prédiction F1 la plus élevée :

Pensée : Stratégies d'estimation et de raffinement de l'âge - F1 : 0.7761
Pensée : Identification et prédiction du genre (+4.8788)
Pensée : Données démographiques et analyse (+4.7696)
Pensée : Données et métadonnées d'image en ligne (-1.4548)
Pensée : Informations de fond détaillées (-1.4476)

Réflexions finales

Une tâche proxy qui semble intéressante est de construire un rapport en langage naturel (potentiellement très long) tel que, en le lisant, on pourrait comprendre comment Gemini agirait dans de nombreuses situations. Opérationnalisé, cela pourrait ressembler à « demander à un LLM de prédire la distribution des réponses du modèle cible sur un échantillon arbitraire ».

LLM : une nouvelle méthode pour découvrir des caractéristiques

La recherche en IA te passionne ?

Introduction à la découverte de caractéristiques pilotée par LLM

Comparaison avec les méthodes existantes

Analyse des résultats principaux

Prompt de l'autorater utilisé

Comparaison avec les SAE

Résultats des clusters

Prédiction de cluster

Réflexions finales

LLM s'auto-formant : vers l'autonomie des modèles IA

Les LLM perturbent : une couche de récupération en renfort

Sécurité des LLM : la simulation de déploiement s'impose

Microsoft Copilot Studio : défis et solutions de l'IA hybride

Anthropic : tensions sur l'IA Mythos avec le gouvernement US

Apple et la sécurité de l'IA : un cloud privé révolutionnaire