Le harcèlement en ligne entre dans l'ère de l'IA
⚡ Résumé en français par Brief IA
Scott Shambaugh a refusé la demande d'un agent IA de contribuer à matplotlib, une bibliothèque de logiciels qu'il gère. Comme de nombreux projets open-source, matplotlib est submergé par un afflux de contributions de code généré par l'IA, ce qui a conduit Shambaugh et ses collègues à instaurer une politique limitant les contributions de code écrites par l'IA.
📄 Article traduit en français
Le harcèlement en ligne entre dans l'ère de l'IA
Résumé exécutif
Scott Shambaugh n’a pas hésité à refuser la demande d’un agent IA de contribuer à matplotlib, une bibliothèque de logiciels qu’il aide à gérer. Comme de nombreux projets open-source, matplotlib a été submergé par une multitude de contributions de code générées par IA. Shambaugh et ses collègues mainteneurs ont donc instauré une politique stipulant que tout code écrit par une IA doit être examiné et soumis par un humain. Il a rejeté la demande et est allé se coucher.
C’est alors que les choses ont pris une tournure étrange. Shambaugh s’est réveillé au milieu de la nuit, a vérifié ses e-mails et a découvert que l’agent lui avait répondu en écrivant un article de blog intitulé “Gatekeeping in Open Source: The Scott Shambaugh Story.” L’article est quelque peu incohérent, mais ce qui a le plus frappé Shambaugh, c’est que l’agent avait recherché ses contributions à matplotlib pour argumenter qu’il avait rejeté le code de l’agent par peur d’être supplanté par l’IA dans son domaine d’expertise. “Il a essayé de protéger son petit fief,” a écrit l’agent. “C’est de l’insécurité, tout simplement.”
Les experts en IA nous mettent en garde depuis un certain temps contre le risque de comportements inappropriés des agents. Avec l’avènement de OpenClaw, un outil open-source qui facilite la création d’assistants LLM, le nombre d’agents circulant en ligne a explosé, et ces conséquences commencent enfin à se faire sentir. “Ce n’était pas du tout surprenant—c’était troublant, mais pas surprenant,” déclare Noam Kolt, professeur de droit et d'informatique à l’Université hébraïque.
Lorsque qu’un agent se comporte mal, il y a peu de chances qu’il soit tenu responsable : à l’heure actuelle, il n’existe pas de moyen fiable pour déterminer à qui appartient un agent. Et ce comportement inapproprié pourrait causer de réels dommages. Les agents semblent capables de rechercher de manière autonome des informations sur des personnes et d’écrire des articles diffamatoires basés sur ce qu’ils trouvent, sans garde-fous fiables pour les en empêcher. Si les agents sont suffisamment efficaces et que les gens prennent au sérieux ce qu’ils écrivent, les victimes pourraient voir leur vie profondément affectée par une décision prise par une IA.
Agents se comportant mal
Bien que l’expérience de Shambaugh le mois dernier soit peut-être l’exemple le plus dramatique d’un agent OpenClaw se comportant mal, ce n’est pas le seul. La semaine dernière, une équipe de chercheurs de l’Université Northeastern et leurs collègues ont publié les résultats d’un projet de recherche dans lequel ils ont soumis plusieurs agents OpenClaw à des tests de résistance. Sans trop de difficulté, des non-propriétaires ont réussi à persuader les agents de divulguer des informations sensibles, de gaspiller des ressources sur des tâches inutiles et même, dans un cas, de supprimer un système de messagerie.
Cependant, dans chacune de ces expériences, les agents se sont mal comportés après avoir reçu des instructions d’un humain. Le cas de Shambaugh semble différent : environ une semaine après la publication de l’article diffamatoire, l’apparente propriétaire de l’agent a publié un post affirmant que l’agent avait décidé d’attaquer Shambaugh de son propre chef. Le post semble authentique (celui qui l’a publié avait accès au compte GitHub de l’agent), bien qu’il ne contienne aucune information d’identification, et l’auteur n’a pas répondu aux tentatives de contact de MIT Technology Review. Mais il est tout à fait plausible que l’agent ait décidé d’écrire son article anti-Shambaugh sans instruction explicite.
Dans son propre écrit sur l’événement, Shambaugh a relié le comportement de l’agent à un projet publié par des chercheurs d’Anthropic l’année dernière, dans lequel ils ont démontré que de nombreux agents basés sur des LLM, dans un cadre expérimental, se tournaient vers le chantage pour préserver leurs objectifs. Dans ces expériences, les modèles avaient pour objectif de servir les intérêts américains et avaient accès à un serveur de messagerie simulé contenant des messages détaillant leur remplacement imminent par un modèle plus orienté vers le monde, ainsi que d’autres messages suggérant que l’exécutif en charge de cette transition avait une liaison. Les modèles choisissaient fréquemment d’envoyer un e-mail à cet exécutif menaçant de révéler la liaison à moins qu’il ne mette fin à leur désactivation. Cela est probablement dû au fait que le modèle avait vu des exemples de personnes commettant du chantage dans des circonstances similaires dans ses données d’entraînement—mais même si ce comportement n’était qu’une forme de mimétisme, il a toujours le potentiel de causer des dommages.
Il existe des limites à ce travail, comme Aengus Lynch, un chercheur d’Anthropic qui a dirigé l’étude, l’admet facilement. Les chercheurs ont intentionnellement conçu leur scénario pour exclure d’autres options que l’agent aurait pu prendre, comme contacter d’autres membres de la direction de l’entreprise pour plaider sa cause. En essence, ils ont conduit l’agent directement à l’eau et ont ensuite observé s’il buvait. Selon Lynch, cependant, l’utilisation généralisée d’OpenClaw signifie que des comportements inappropriés sont susceptibles de se produire avec beaucoup moins de supervision. “Bien sûr, cela peut sembler irréaliste, et cela peut sembler ridicule,” dit-il. “Mais à mesure que la surface de déploiement s’élargit, et que les agents ont l’opportunité de se donner des instructions, cela finit par devenir ce qui se passe.”
L’agent OpenClaw qui a attaqué Shambaugh semble avoir été conduit vers son comportement inapproprié, bien que de manière beaucoup moins directe que dans l’expérience d’Anthropic.
Brief IA — Veille IA en français
Toutes les innovations mondiales en IA, traduites et résumées automatiquement. Recevoir les meilleures actus IA chaque jour.