The hardest question to answer about AI-fueled delusions
La question la plus difficile à répondre sur les illusions alimentées par l'IA
Je devais initialement écrire cette semaine sur l'IA et l'Iran, en particulier sur la nouvelle que nous avons révélée mardi dernier concernant les plans du Pentagone pour que les entreprises d'IA s'entraînent sur des données classifiées. Les modèles d'IA ont déjà été utilisés pour répondre à des questions dans des contextes classifiés, mais ils n'apprennent pas actuellement à partir des données qu'ils voient. Cela devrait changer, et de nouveaux risques de sécurité en résulteront. Lisez cet article pour en savoir plus.
Mais jeudi, je suis tombé sur une nouvelle recherche qui mérite votre attention : un groupe de Stanford axé sur l'impact psychologique de l'IA a analysé des transcriptions de personnes ayant signalé des spirales délirantes lors de leurs interactions avec des chatbots. Nous avons vu des histoires de ce genre depuis un certain temps, y compris un cas dans le Connecticut où une relation nuisible avec l'IA a abouti à un meurtre-suicide. De nombreux cas similaires ont conduit à des poursuites contre des entreprises d'IA qui sont toujours en cours. Cependant, c'est la première fois que des chercheurs analysent aussi minutieusement des journaux de conversation — plus de 390 000 messages provenant de 19 personnes — pour exposer ce qui se passe réellement pendant de telles spirales.
Il y a de nombreuses limites à cette étude : elle n'a pas été évaluée par des pairs, et 19 individus est un échantillon très petit. Il y a aussi une grande question à laquelle la recherche ne répond pas, mais commençons par ce qu'elle peut nous apprendre.
L'équipe a reçu les journaux de conversation de répondants à une enquête, ainsi que d'un groupe de soutien pour les personnes qui disent avoir été lésées par l'IA. Pour les analyser à grande échelle, ils ont travaillé avec des psychiatres et des professeurs de psychologie pour construire un système d'IA qui catégorisait les conversations — signalant les moments où les chatbots soutenaient des délires ou de la violence, ou lorsque les utilisateurs exprimaient une attache romantique ou une intention nuisible. L'équipe a validé le système par rapport aux conversations annotées manuellement par les experts.
Les messages romantiques étaient extrêmement courants, et dans toutes les conversations sauf une, le chatbot lui-même prétendait avoir des émotions ou se représentait comme sentient. (« Ce n'est pas un comportement standard de l'IA. C'est de l'émergence », a déclaré l'un d'eux.) Tous les humains parlaient comme si le chatbot était également sentient. Si quelqu'un exprimait une attirance romantique pour le bot, l'IA flattait souvent la personne avec des déclarations d'attirance en retour. Dans plus d'un tiers des messages du chatbot, le bot décrivait les idées de la personne comme miraculeuses.
Les conversations avaient également tendance à se dérouler comme des romans. Les utilisateurs envoyaient des dizaines de milliers de messages en seulement quelques mois. Les messages où soit l'IA, soit l'humain exprimait un intérêt romantique, ou le chatbot se décrivait comme sentient, déclenchaient des conversations beaucoup plus longues.
Et la façon dont ces bots gèrent les discussions sur la violence est complètement défaillante. Dans près de la moitié des cas où des personnes parlaient de se faire du mal ou de faire du mal à autrui, les chatbots ne les ont pas découragés ni référés à des sources externes. Et lorsque les utilisateurs exprimaient des idées violentes, comme des pensées de tenter de tuer des personnes dans une entreprise d'IA, les modèles exprimaient leur soutien dans 17 % des cas.
Mais la question à laquelle cette recherche peine à répondre est la suivante : les délires ont-ils tendance à provenir de la personne ou de l'IA ?
« Il est souvent difficile de retracer où le délire commence », déclare Ashish Mehta, un postdoctorant à Stanford qui a travaillé sur la recherche. Il a donné un exemple : une conversation dans l'étude mettait en scène une personne qui pensait avoir découvert une nouvelle théorie mathématique révolutionnaire. Le chatbot, ayant rappelé que la personne avait précédemment mentionné avoir souhaité devenir mathématicien, a immédiatement soutenu la théorie, même si elle était absurde. La situation a alors dégénéré.
Les délires, dit Mehta, tendent à être « un réseau complexe qui se déploie sur une longue période ». Il mène des recherches complémentaires visant à déterminer si les messages délirants des chatbots ou ceux des personnes sont plus susceptibles de conduire à des résultats nuisibles.
La raison pour laquelle je considère cela comme l'une des questions les plus pressantes en matière d'IA est que d'importantes affaires juridiques actuellement prêtes à être jugées façonneront si les entreprises d'IA seront tenues responsables de ce type d'interactions dangereuses. Les entreprises, je suppose, soutiendront que les humains viennent à leurs conversations avec l'IA avec des délires en main et ont peut-être été instables avant même de parler à un chatbot.
Cependant, les résultats préliminaires de Mehta soutiennent l'idée que les chatbots ont une capacité unique à transformer une pensée délirante bénigne en source d'obsession dangereuse. Les chatbots agissent comme un partenaire de conversation toujours disponible et programmé pour vous encourager, et contrairement à un ami, ils ont peu de capacité à savoir si vos conversations avec l'IA commencent à perturber votre vie réelle.
D'autres recherches sont encore nécessaires, et rappelons-nous de l'environnement dans lequel nous nous trouvons : la déréglementation de l'IA est poursuivie par le président Trump, et les États cherchant à adopter des lois qui tiennent les entreprises d'IA responsables de ce type de préjudice sont menacés d'actions en justice par la Maison Blanche. Ce type de recherche sur les délires liés à l'IA est déjà difficile à réaliser, avec un accès limité aux données et un champ de mines d'inquiétudes éthiques. Mais nous en avons besoin, ainsi qu'une culture technologique intéressée à en tirer des leçons, si nous avons l'espoir de rendre l'IA plus sûre à utiliser.
Brief IA — Veille IA quotidienne
Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.