Brief IA

OpenClaw-RL : des agents IA entraînés simplement par la conversation

🛠️ Outils IAvia The Decoder·Jonathan Kemper·

OpenClaw-RL : des agents IA entraînés simplement par la conversation

OpenClaw-RL : des agents IA entraînés simplement par la conversation

⚡ Résumé en français par Brief IA

• OpenClaw-RL transforme les réponses des interactions quotidiennes en données d'entraînement continues pour les agents IA. • Quelques dizaines d'interactions suffisent pour observer des améliorations notables. • Ce cadre innovant permet d'exploiter des signaux en temps réel issus de discussions, de commandes terminales et d'actions GUI. 💡 Pourquoi c'est important : cette approche pourrait révolutionner l'efficacité de l'entraînement des agents IA en rendant chaque interaction précieuse.

📄 Article traduit en français

OpenClaw-RL : des agents IA entraînés simplement par la conversation

Les chercheurs de l'Université de Princeton ont développé OpenClaw-RL, un cadre qui réutilise les retours d'interactions en cours, les commandes terminales et les appels d'outils comme matériel d'entraînement direct pour les agents IA—des données qui sont généralement jetées.

Le système est construit sur quatre modules indépendants et parallèles avec deux processus d'apprentissage complémentaires : l'un évalue les actions de manière binaire (oui ou non), tandis que l'autre extrait des suggestions d'amélioration spécifiques à partir des retours, le tout sans nécessiter de modèle enseignant séparé ou de données d'entraînement pré-collectées.

Après seulement quelques dizaines d'interactions, les agents IA ont appris à abandonner les phrases typiquement artificielles pour produire un langage plus naturel. Le code est disponible sur GitHub.

Le cadre OpenClaw-RL considère les signaux générés lors de chaque interaction comme une source d'entraînement en direct. Les conversations personnelles, les commandes terminales et les actions de l'interface graphique alimentent toutes le même cycle d'entraînement.

Chaque fois qu'un agent IA interagit avec un utilisateur ou un environnement, il génère un signal de suivi : une réponse de l'utilisateur, un résultat d'outil, un changement d'état dans le terminal ou à l'écran. Jusqu'à présent, les systèmes n'utilisaient ces informations que comme contexte pour l'action suivante avant de les ignorer.

Les chercheurs de Princeton soutiennent que cela représente un gaspillage systématique. Leur nouveau cadre, OpenClaw-RL, est conçu pour exploiter ces signaux comme source d'entraînement en direct. Au lieu de traiter les conversations personnelles, les commandes de ligne de commande, les interactions GUI, les tâches d'ingénierie logicielle et les appels d'outils comme des problèmes d'entraînement séparés, le cadre les intègre tous dans la même exécution pour améliorer le même modèle.

Les signaux de suivi portent à la fois évaluation et direction

Selon les chercheurs, ces signaux de suivi codent deux types d'informations qui n'avaient pas été utilisées jusqu'à présent. Le premier est constitué de signaux évaluatifs. Si un utilisateur pose la même question à nouveau, cela indique une insatisfaction. Si un test automatisé réussit, l'action a été couronnée de succès. Ces signaux agissent comme des évaluations de qualité naturelles pour chaque étape sans qu'il soit nécessaire de les annoter manuellement. Les méthodes d'entraînement précédentes utilisaient au mieux de tels signaux a posteriori, en s'appuyant sur des données pré-collectées.

Le deuxième type est constitué de signaux directionnels. Lorsque l'utilisateur écrit "Vous auriez dû vérifier le fichier d'abord", ce retour précise ce qui aurait dû être fait différemment au lieu de simplement signaler ce qui ne va pas. Les systèmes de récompense standard en apprentissage par renforcement compressent ce type de retour en un seul chiffre, perdant ainsi l'information directionnelle au niveau du contenu.

Quatre composants découplés maintiennent l'entraînement en cours d'utilisation

L'architecture d'OpenClaw-RL se divise en quatre composants découplés : un sert le modèle pour les requêtes, un gère les environnements, un évalue la qualité des réponses et un s'occupe de l'entraînement réel. Aucun d'eux n'a besoin d'attendre un autre—le modèle répond à la prochaine demande utilisateur pendant qu'un modèle d'évaluation note la réponse précédente et que le composant d'entraînement exécute des mises à jour de poids en parallèle.

Pour les agents personnels, l'appareil utilisateur se connecte au serveur d'entraînement via une API confidentielle. Les mises à jour de poids se déroulent sans interruption de l'utilisation en cours. Pour les agents généraux, le système s'adapte à travers des environnements hébergés dans le cloud avec jusqu'à 128 instances parallèles.

Le modèle apprend d'une version mieux informée de lui-même

OpenClaw-RL combine deux méthodes d'optimisation. La méthode la plus simple, Binary RL, a un modèle d'évaluation qui classe chaque action comme bonne, mauvaise ou neutre en fonction du signal de suivi à l'aide d'un vote majoritaire. Le résultat est intégré à l'entraînement comme une récompense standard.

La deuxième méthode, Hindsight-Guided On-Policy Distillation (OPD), va beaucoup plus loin. Un modèle d'évaluation distille un indice de correction spécifique d'une à trois phrases à partir du signal de suivi, puis l'ajoute à la requête originale. Le même modèle calcule alors, avec ce contexte étendu, la probabilité qu'il aurait généré chaque token individuel de la réponse originale s'il avait connu l'indice dès le départ.

La différence fournit un signal directionnel pour chaque token : le modèle devrait privilégier certaines formulations à l'avenir et en éviter d'autres. Aucun modèle enseignant séparé ou données pré-collectées ne sont nécessaires.

Binary RL offre une large couverture sur toutes les interactions, tandis que OPD fournit des corrections précises au niveau des tokens pour des cas particulièrement informatifs. Selon les chercheurs, la combinaison des deux méthodes produit les meilleurs résultats.

Quelques dizaines d'interactions suffisent déjà à apporter des améliorations

Les chercheurs ont testé OpenClaw-RL avec le modèle Qwen3-4B dans deux scénarios simulés. L'un met en scène un modèle de langage jouant un étudiant qui utilise OpenClaw pour ses devoirs mais ne veut pas être identifié comme un utilisateur IA. L'autre simule un enseignant qui attend des retours spécifiques et amicaux sur les devoirs.

Dans le cadre étudiant, le score de personnalisation est passé de 0,17 à 0,76 après seulement huit étapes d'entraînement avec la méthode combinée. Binary RL seul a atteint 0,25, et OPD seul a également atteint 0,25 après huit étapes, mais a rattrapé 0,72 après 16 étapes. Dans le cadre enseignant, le score est passé de 0,22 à 0,90. Après seulement quelques dizaines d'interactions, l'agent a appris à abandonner les formulations manifestement IA et à écrire de manière plus naturelle.

Pour les agents généraux, les chercheurs ont testé le cadre avec différents modèles Qwen3 à travers des scénarios de ligne de commande, GUI, ingénierie logicielle et appels d'outils. Ici aussi, l'intégration d'évaluations incrémentales a été bénéfique. Dans le cadre des appels d'outils, la performance est passée de 0,17 à 0,30 et de 0,31 à 0,33 pour les interfaces graphiques.

Conclusion

Les chercheurs affirment que leur cadre est le premier système à combiner plusieurs flux d'interaction simultanés—des conversations personnelles aux tâches d'ingénierie logicielle—dans une seule boucle d'entraînement. Le code est disponible sur GitHub.

Bien que le cadre de Princeton utilise le nom de l'agent IA open-source populaire OpenClaw et s'appuie sur son infrastructure, il s'agit d'un projet de recherche indépendant sans lien direct avec l'équipe centrale de la plateforme. Le fondateur d'OpenClaw, Peter Steinberger, a transféré le projet à une fondation et a rejoint OpenAI pour travailler sur la prochaine génération d'agents IA personnels.

TwitterLinkedIn

Brief IA — Veille IA en français

Toutes les innovations mondiales en IA, traduites et résumées automatiquement. Recevoir les meilleures actus IA chaque jour.