Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

Claude Code et Codex : Boucles IA et Bugs Firefox

⚡

En bref

1Claire détaille comment créer des boucles d'agents IA dans Claude Code et Codex, simplifiant l'automatisation.

2Les boucles d'objectifs, puissantes mais souvent mal comprises, permettent une exécution continue jusqu'à validation.

3Mozilla utilise Claude Mythos pour corriger 423 bugs de sécurité dans Firefox, grâce à un harness personnalisé.

💡Pourquoi c'est important — L'automatisation par IA transforme la gestion des tâches complexes et la sécurité logicielle, optimisant efficacité et précision.

Comprendre les Boucles d'Agents IA : Concepts et Applications dans Claude Code et Codex

Dans un guide pratique, Claire nous initie à l'univers des boucles d'agents IA, en expliquant des concepts tels que les heartbeats, crons, hooks et les boucles basées sur des objectifs. Elle montre comment ces éléments peuvent être intégrés dans Claude Code et Codex pour automatiser des tâches variées, comme la révision quotidienne de PR ou la création hebdomadaire de sous-agents pour des compétences spécifiques. Ce tutoriel vise à démystifier l'ingénierie des boucles, souvent perçue comme complexe, en la rendant accessible aux novices.

Les Fondamentaux des Boucles

Une boucle, dans ce contexte, est essentiellement un prompt qui se déclenche automatiquement. Bien que le terme puisse sembler intimidant, il ne s'agit que d'une forme d'automatisation basique, popularisée par le cycle médiatique. Les heartbeats, crons et webhooks sont des concepts existants depuis longtemps, mais leur application à des agents IA est relativement nouvelle. Cela permet de passer d'un traitement par lots à une interaction continue avec l'IA.

La Puissance des Boucles d'Objectifs

Les boucles d'objectifs représentent la forme la plus puissante de ces automatisations, bien qu'elles soient souvent mal comprises. Elles définissent un résultat spécifique et continuent d'exécuter un agent jusqu'à ce que ce résultat soit atteint ou que l'agent rencontre un obstacle. Contrairement aux boucles basées sur un minuteur, elles s'arrêtent uniquement lorsque le travail est achevé. Pour éviter que l'agent ne boucle indéfiniment, consommant des tokens, il est conseillé de laisser Codex rédiger ses propres objectifs, en s'appuyant sur le guide de rédaction d'objectifs d'OpenAI.

Comparaison avec l'Intégration d'un Employé

Les boucles peuvent être comparées à l'intégration d'un nouvel employé. Il s'agit de définir clairement le travail : ce qui doit être vérifié, à quelle fréquence, le résultat attendu, et les contacts en cas de problème. Par exemple, un prompt de boucle pourrait être : "Chaque vendredi à 10 heures, examinez toutes les PR fusionnées et identifiez les compétences manquantes de nos agents."

Génération de Sous-Agents

L'un des aspects les plus puissants des boucles est leur capacité à générer des sous-agents. Dans Claude Code, la boucle de révision de PR ne se contente pas de vérifier l'état des PR ; elle crée des sous-agents dédiés pour surveiller chaque PR jusqu'à ce que toutes les vérifications soient positives. De même, dans Codex, une boucle de compétences identifie les lacunes et génère immédiatement des sous-agents pour valider chaque nouvelle compétence.

Coût et Efficacité des Boucles

Les boucles peuvent devenir coûteuses si elles ne sont pas soigneusement conçues. Des critères de succès vagues ou un seuil de validation trop bas peuvent entraîner un fonctionnement continu de l'agent, sans progrès significatif. Il est crucial de surveiller à la fois le coût et la qualité de la sortie dès le début.

Utilisation de Boucles Simples

Un briefing matinal dans Claude Cowork est un exemple de boucle simple et efficace. Une tâche planifiée qui se déclenche chaque matin, vérifie le calendrier et les e-mails, et envoie un résumé à Slack constitue déjà une boucle fonctionnelle, sans nécessiter de code. À partir de là, il est facile de passer à des tâches plus complexes comme les révisions de PR ou l'identification de compétences dans Claude Code ou Codex.

Automatisation Stratégique

La stratégie consiste à créer des boucles capables de générer leurs propres sous-agents. Dans la démonstration de Codex, l'automatisation hebdomadaire a engendré deux sous-agents nommés, chacun exécutant ses propres boucles d'objectif pour valider les compétences en temps réel. Le potentiel de l'automatisation basée sur des boucles dépend de la clarté avec laquelle le travail est défini, plutôt que de la complexité de l'ingénierie.

Claude Mythos et la Révolution de la Détection de Bugs dans Firefox

Brian Grinstead, ingénieur chez Mozilla, partage comment son équipe a utilisé des agents IA pour corriger 423 bugs de sécurité dans Firefox en un mois. Le succès ne réside pas seulement dans un meilleur modèle, mais dans le harness personnalisé qui l'accompagne : évaluation des fichiers, exécution de boucles d'objectifs, vérification des bugs avec des sous-agents, tout en maintenant l'intervention humaine dans le processus de révision.

Harness et Efficacité

Le pic de correction de bugs de sécurité dans Firefox est attribué non seulement au modèle Mythos, mais surtout au harness. Ce dernier fournit aux agents IA les outils nécessaires pour identifier, vérifier et corriger les bugs. Brian explique que c'est un wrapper simple, mais efficace, qui donne accès aux bons outils pour le travail.

Persistance des Agents

Les agents IA possèdent une persistance que les humains ne peuvent égaler. Ils peuvent essayer 14, 15, voire 20 approches différentes pour déclencher un bug sans se fatiguer. Brian a découvert des bugs nécessitant 14 essais avant d'être résolus. Contrairement aux humains, les agents ne subissent pas de diminution de l'énergie cognitive avec le temps.

Vérification et Réduction des Faux Positifs

La boucle de vérification est essentielle pour éliminer les faux positifs. Firefox utilise un processus en deux étapes : l'agent doit d'abord déclencher un crash dans leur build de fuzzing, puis un sous-agent vérificateur s'assure que le rapport de bug est pertinent et ne concerne pas uniquement des configurations de test. Ainsi, lorsque le bug atteint les ingénieurs humains, il est quasiment exempt de faux positifs.

Limites des Agents

Bien que les agents soient efficaces pour corriger des bugs spécifiques, ils peuvent manquer de perspective globale. Souvent, lorsqu'un agent corrige un bug, il ne fait que patcher l'emplacement vulnérable. Les ingénieurs humains doivent ensuite examiner la correction et s'assurer que d'autres zones similaires dans le code sont également vérifiées.

Priorisation des Tâches

Avec des millions de lignes de code, la priorisation est cruciale. Firefox a développé un simple juge LLM qui évalue chaque fichier selon deux critères : la probabilité d'un problème de sécurité mémoire et la facilité d'accès depuis une page web. Brian souligne que ce système est simple et reproductible par n'importe qui.

Construction de Harness

Construire un harness peut être réalisé en une après-midi en utilisant des SDK de fournisseurs. Firefox a commencé avec le SDK d'agent de Claude, qui est un wrapper autour de Claude Code CLI, diffusant du JSON et fournissant des hooks programmatiques. Brian conseille d'utiliser les harnesses fournies par le fournisseur, car les modèles sont souvent post-entraînés pour fonctionner au mieux avec leur propre infrastructure.

Diversité des Modèles et Approches

Pour le travail de sécurité, il est recommandé d'exécuter plusieurs modèles et harnesses. Les attaquants utilisent diverses techniques pour trouver des bugs, donc les défenseurs doivent scanner avec plusieurs approches. Différents modèles et harnesses se concentrent sur différentes forces et identifient diverses vulnérabilités.

Au-delà de la Sécurité

Cette approche ne se limite pas à la sécurité : la performance, la dette technique et l'expérience utilisateur sont également des cibles viables. Le même schéma s'applique : évaluer et prioriser les domaines de votre base de code, donner à l'agent un objectif contraint avec des critères de vérification, et intégrer les résultats dans votre pipeline existant. Brian mentionne qu'ils travaillent activement sur l'optimisation des performances en utilisant la même structure de harness.