Brief IA : Google Stax : évaluer l'IA avec des critères sur mesure

Google Stax : évaluer l'IA avec des critères sur mesure

Brief IA
Tom Levy·5 min·0 vues

Google Stax est un nouvel outil de Google DeepMind et Google Labs qui permet de tester des modèles d'IA et des prompts selon des critères personnalisés. Il facilite la comparaison entre les modèles Gemini et GPT grâce à des évaluateurs sur mesure, offrant ainsi aux entreprises une méthode objective pour évaluer l'efficacité des modèles d'IA dans leurs applications spécifiques.

En bref
1Google Stax permet aux développeurs de tester des modèles IA avec des critères personnalisés, remplaçant le jugement intuitif par des données concrètes.
2L'outil prend en charge divers modèles, y compris ceux de Google, OpenAI et Anthropic, facilitant des comparaisons précises.
3Stax comble l'écart entre benchmarks généraux et besoins spécifiques, offrant une évaluation adaptée aux cas d'utilisation réels.
💡Pourquoi c'est importantStax offre une solution robuste pour optimiser les performances des modèles IA selon des besoins spécifiques, crucial pour les applications spécialisées.
Le brief IA que lisent les pros

Tu veux les meilleurs outils IA avant les autres ?

On teste et on décrypte les nouveaux outils IA chaque soir, en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Google Stax : Un outil pour des évaluations IA précises

Dans le développement d'applications utilisant des modèles de langage de grande taille (LLMs), un défi récurrent est de déterminer si les modifications apportées aux prompts améliorent réellement les résultats. Souvent, les développeurs se fient à leur intuition, faute de métriques objectives, ce que l'on appelle le "test de ressenti". Cette approche subjective est problématique car les LLMs, par nature, produisent des sorties variables pour des entrées similaires, rendant les tests unitaires classiques inefficaces.

Face à cette incertitude inhérente aux modèles d'IA, Google Stax se présente comme une solution innovante. Développé par Google DeepMind et Google Labs, cet outil expérimental vise à fournir une méthode d'évaluation précise et personnalisée des modèles et prompts IA, remplaçant ainsi les jugements subjectifs par des décisions basées sur des données concrètes.

Fonctionnalités de Google Stax

Google Stax se distingue par sa capacité à simplifier l'évaluation des modèles et des applications d'IA générative. Il fonctionne comme un cadre de test spécialement conçu pour les défis uniques posés par les LLMs.

L'outil permet aux utilisateurs de définir leurs propres critères de succès, allant au-delà des métriques génériques telles que la fluidité ou la sécurité. Il offre la possibilité de tester différents prompts sur divers modèles simultanément et de prendre des décisions éclairées grâce à la visualisation des métriques de performance, incluant la qualité, la latence et l'utilisation des tokens. De plus, Stax peut exécuter des évaluations à grande échelle en utilisant les ensembles de données propres aux utilisateurs.

Stax est conçu pour être flexible, supportant non seulement les modèles Gemini de Google, mais aussi ceux de GPT d'OpenAI, Claude d'Anthropic, Mistral, et d'autres via des intégrations API.

Au-delà des benchmarks standards

Les benchmarks d'IA généraux jouent un rôle crucial en permettant de suivre les progrès des modèles à un niveau global. Cependant, ils ne parviennent souvent pas à refléter les exigences spécifiques à certains domaines. Par exemple, un modèle performant en raisonnement général peut échouer dans des tâches spécialisées telles que le résumé axé sur la conformité, l'analyse de documents juridiques, ou les questions-réponses spécifiques à une entreprise.

C'est dans cet écart entre les benchmarks généraux et les applications réelles que Stax trouve sa valeur ajoutée. Il permet d'évaluer les systèmes d'IA en fonction de données et de critères spécifiques aux utilisateurs, plutôt que de se baser sur des scores globaux abstraits.

Débuter avec Google Stax

Étape 1 : Intégration de la clé API

Pour générer des sorties de modèle et effectuer des évaluations, l'ajout d'une clé API est nécessaire. Stax recommande de commencer avec une clé API Gemini, car les évaluateurs intégrés l'utilisent par défaut. Cependant, il est possible de configurer l'outil pour utiliser d'autres modèles. Les utilisateurs peuvent ajouter leur première clé lors de l'intégration ou ultérieurement dans les paramètres.

Pour comparer plusieurs fournisseurs, il est conseillé d'ajouter des clés pour chaque modèle à tester, permettant ainsi une comparaison parallèle sans changer d'outil.

Étape 2 : Création d'un projet d'évaluation

Les projets sont le cœur de l'espace de travail dans Stax. Chaque projet représente une expérience d'évaluation unique, comme tester un nouveau prompt système ou comparer deux modèles.

Deux types de projets sont proposés :

  • Établir une performance de référence ou tester une itération d'un modèle ou d'un prompt système.
  • Comparer directement deux modèles ou prompts différents sur le même ensemble de données.

Étape 3 : Construction de votre ensemble de données

Une évaluation efficace repose sur des données précises reflétant les cas d'utilisation réels. Stax propose deux méthodes principales pour constituer cet ensemble de données :

Option A : Ajout manuel de données dans le Prompt Playground

Pour ceux qui n'ont pas d'ensemble de données existant, il est possible de le construire de toutes pièces :

  • Sélectionner le(s) modèle(s) à tester.
  • Définir un prompt système (facultatif) pour préciser le rôle de l'IA.
  • Ajouter des prompts utilisateurs représentant de vraies entrées utilisateur.
  • Fournir des évaluations humaines (facultatif) pour créer des scores de qualité de référence.

Chaque entrée, sortie et évaluation est automatiquement enregistrée comme un cas de test.

Option B : Téléchargement d'un ensemble de données existant

Pour les équipes disposant de données de production, il est possible de télécharger directement des fichiers CSV. Si l'ensemble de données n'inclut pas les sorties du modèle, il suffit de cliquer sur "Générer des sorties" et de sélectionner un modèle pour les générer.

Il est recommandé d'inclure des cas limites et des exemples conflictuels dans l'ensemble de données pour garantir des tests exhaustifs.

Évaluation des sorties de l'IA

Réalisation d'une évaluation manuelle

Les évaluations humaines peuvent être fournies sur des sorties individuelles directement dans le playground ou sur le benchmark du projet. Bien que l'évaluation humaine soit considérée comme le "standard d'or", elle présente des inconvénients : elle est lente, coûteuse et difficile à mettre à l'échelle.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires