Brief IA

Débogage systématique pour les agents IA : Introduction au cadre AgentRx

💻 Code & Devvia Microsoft Research·Shraddha Barke, Arnav Goyal, Alind Khare, Chetan Bansal·

Débogage systématique pour les agents IA : Introduction au cadre AgentRx

Débogage systématique pour les agents IA : Introduction au cadre AgentRx

⚡ Résumé en français par Brief IA

• Le cadre AgentRx vise à améliorer la transparence et le débogage des agents IA autonomes. • 1 nouveau cadre proposé pour résoudre les défis de débogage des systèmes IA. • Avec l'augmentation des capacités des agents IA, la nécessité d'une approche systématique pour identifier les erreurs devient cruciale. 💡 Pourquoi c'est important : Une meilleure transparence dans les systèmes IA peut renforcer la confiance des utilisateurs et faciliter leur adoption dans des environnements critiques.

📄 Article traduit en français

Débogage systématique pour les agents IA : Introduction au cadre AgentRx

Problème

Le débogage des échecs des agents IA est difficile car les trajectoires sont longues, stochastiques et souvent multi-agents, ce qui rend la véritable cause profonde difficile à identifier.

Solution

AgentRx identifie la première étape de défaillance irréversible (« défaillance critique ») en synthétisant des contraintes exécutables et protégées à partir de schémas d'outils et de politiques de domaine, puis en enregistrant les violations étayées par des preuves étape par étape.

Benchmark et taxonomie

Nous publions AgentRx Benchmark avec 115 trajectoires échouées annotées manuellement à travers τ-bench, Flash, et Magentic-One, ainsi qu'une taxonomie de défaillance à neuf catégories.

Résultats et publication

AgentRx améliore la localisation des défaillances (+23,6%) et l'attribution des causes profondes (+22,9%) par rapport aux bases de référence de prompt. Nous open-sourçons le cadre et le jeu de données.

Le défi : Pourquoi les agents IA sont-ils difficiles à déboguer

Les agents IA modernes sont souvent :

  • Longs-horizons : Ils effectuent des dizaines d'actions sur de longues périodes.
  • Probabilistes : La même entrée peut conduire à des sorties différentes, rendant la reproduction difficile.
  • Multi-agents : Les échecs peuvent être « transmis » entre agents, masquant la cause profonde originale.

Les métriques de succès traditionnelles (comme « La tâche est-elle terminée ? ») ne nous en disent pas assez. Pour construire des agents sûrs, nous devons identifier le moment exact où une trajectoire devient irréversible et capturer les preuves de ce qui a mal tourné à cette étape.

Présentation d'AgentRx : Une « prescription » diagnostique automatisée

AgentRx (abrégé pour « Diagnostic d'Agent ») traite l'exécution des agents comme un suivi système nécessitant validation. Au lieu de s'appuyer sur un seul LLM pour « deviner » l'erreur, AgentRx utilise un pipeline structuré en plusieurs étapes :

  • Normalisation de la trajectoire : Les journaux hétérogènes provenant de différents domaines sont convertis en une représentation intermédiaire commune.

  • Synthèse de contraintes : Le cadre génère automatiquement des contraintes exécutables basées sur des schémas d'outils (par exemple, « L'API doit renvoyer une réponse JSON valide ») et des politiques de domaine (par exemple, « Ne pas supprimer de données sans confirmation de l'utilisateur »).

  • Évaluation protégée : AgentRx évalue les contraintes étape par étape, vérifiant chaque contrainte uniquement lorsque sa condition de garde s'applique, et produit un journal de validation auditable des violations étayées par des preuves.

  • Jugement basé sur LLM : Enfin, un juge LLM utilise le journal de validation et une taxonomie de défaillance ancrée pour identifier l'étape de défaillance critique — la première erreur irréversible.

Le flux de travail d'AgentRx

Étant donné une trajectoire échouée, des schémas d'outils et une politique de domaine, AgentRx synthétise des contraintes protégées, les évalue étape par étape pour produire un journal de violation auditable avec des preuves, et utilise un juge LLM pour prédire l'étape de défaillance critique et la catégorie de cause profonde.

Un nouveau benchmark pour les échecs d'agents

Pour évaluer AgentRx, nous avons développé un benchmark annoté manuellement composé de 115 trajectoires échouées à travers trois domaines complexes :

  • τ-bench : Flux de travail API structurés pour des tâches de vente au détail et de service.

  • Flash : Gestion d'incidents réels et dépannage système.

  • Magentic-One : Tâches web et fichiers ouvertes utilisant un système multi-agents généraliste.

En utilisant une approche de théorie ancrée, nous avons dérivé une taxonomie de défaillance à neuf catégories qui se généralise à travers ces domaines. Cette taxonomie aide les développeurs à distinguer entre une « Défaillance d'Adhésion au Plan » (où l'agent a ignoré ses propres étapes) et une « Invention de Nouvelles Informations » (hallucination).

Catégories de la taxonomie

  • Défaillance d'Adhésion au Plan : Ignoré les étapes requises / effectué des actions non planifiées.

  • Invention de Nouvelles Informations : Faits altérés non ancrés dans le suivi / sortie d'outil.

  • Invocation Invalide : Appel d'outil mal formé / arguments manquants / schéma invalide.

  • Interprétation Erronée de la Sortie d'Outil : Lecture incorrecte de la sortie d'outil ; agi sur de fausses hypothèses.

  • Désalignement Intent–Plan : Mauvaise interprétation de l'objectif/utilisateur et planification erronée.

  • Intention Utilisateur Sous-spécifiée : Impossible de continuer car les informations requises n'étaient pas disponibles.

  • Intention Non Supportée : Aucun outil disponible ne peut répondre à la demande.

  • Garde-fous Déclenchés : Exécution bloquée par des restrictions de sécurité/d'accès.

  • Défaillance Système : Échecs de connectivité/point de terminaison d'outil.

Analyse de la densité des échecs à travers les domaines

Dans des systèmes multi-agents comme Magentic-One, les trajectoires contiennent souvent plusieurs erreurs, mais AgentRx se concentre sur l'identification de la première violation critique.

Dans nos expériences, AgentRx a démontré des améliorations significatives par rapport aux bases de référence de prompt basées sur LLM :

  • +23,6% d'amélioration absolue de la précision de localisation des défaillances.

  • +22,9% d'amélioration de l'attribution des causes profondes.

En fournissant le « pourquoi » derrière une défaillance à travers un journal auditable, AgentRx permet aux développeurs de passer au-delà du débogage par essai-erreur et vers une ingénierie systématique des agents.

Rejoindre la communauté : Publication en open source

Nous croyons que la fiabilité des agents est un prérequis pour le déploiement dans le monde réel. Pour soutenir cela, nous open-sourçons le cadre AgentRx et le benchmark annoté complet.

Remerciements

Nous tenons à remercier Avaljot Singh et Suman Nath pour leur contribution à ce projet.

TwitterLinkedIn

Brief IA — Veille IA en français

Toutes les innovations mondiales en IA, traduites et résumées automatiquement. Recevoir les meilleures actus IA chaque jour.