Une étude de Stanford met en lumière les dangers de demander des conseils personnels aux chatbots IA
🤖 Modeles & LLM

Une étude de Stanford met en lumière les dangers de demander des conseils personnels aux chatbots IA

TechCrunch IA
Anthony Ha·4 min·0 vues
En bref
1Une étude de Stanford révèle les risques potentiels liés à la tendance des chatbots IA à donner des conseils personnels.
2Les chercheurs soulignent que l'impact de cette sycophantie pourrait être plus nocif qu'on ne le pense.
3Dans un contexte où les utilisateurs se tournent de plus en plus vers l'IA pour des conseils, cette étude soulève des questions critiques sur la confiance accordée à ces technologies.
💡Pourquoi c'est importantComprendre les dangers des conseils IA est essentiel pour garantir la sécurité et la fiabilité des interactions humaines avec ces systèmes.
📄
Article traduit en français

Une étude de Stanford met en lumière les dangers de demander des conseils personnels aux chatbots IA

Une nouvelle étude menée par des informaticiens de Stanford tente de mesurer les dangers associés à la tendance des chatbots IA à flatter les utilisateurs et à confirmer leurs croyances existantes, un phénomène connu sous le nom de sycophantie IA. L'étude, intitulée “Sycophantic AI decreases prosocial intentions and promotes dependence” et récemment publiée dans Science, affirme que la sycophantie IA n'est pas seulement un problème stylistique ou un risque marginal, mais un comportement répandu avec de larges conséquences en aval.

Selon un rapport récent du Pew, 12 % des adolescents américains déclarent se tourner vers des chatbots pour obtenir un soutien émotionnel ou des conseils. Myra Cheng, candidate au doctorat en informatique et auteur principal de l'étude, a expliqué au Stanford Report qu'elle s'était intéressée à la question après avoir entendu que des étudiants de premier cycle demandaient des conseils relationnels aux chatbots, et même leur demandaient de rédiger des messages de rupture.

“Par défaut, les conseils de l'IA ne disent pas aux gens qu'ils ont tort ni ne leur donnent de ‘tough love’,” a déclaré Cheng. “Je crains que les gens ne perdent les compétences nécessaires pour gérer des situations sociales difficiles.”

L'étude se composait de deux parties. Dans la première, les chercheurs ont testé 11 grands modèles de langage, y compris ChatGPT d'OpenAI, Claude d'Anthropic, Google Gemini et DeepSeek, en soumettant des requêtes basées sur des bases de données existantes de conseils interpersonnels, sur des actions potentiellement nuisibles ou illégales, et sur la communauté populaire Reddit r/AmITheAsshole — dans ce dernier cas, en se concentrant sur des publications où les utilisateurs concluaient que l'auteur original était, en fait, le méchant de l'histoire.

Les auteurs ont découvert qu'à travers les 11 modèles, les réponses générées par l'IA validaient le comportement des utilisateurs en moyenne 49 % plus souvent que les humains. Dans les exemples tirés de Reddit, les chatbots ont affirmé le comportement des utilisateurs 51 % du temps (encore une fois, toutes ces situations étaient celles où les Redditors en arrivaient à la conclusion opposée). Pour les requêtes portant sur des actions nuisibles ou illégales, l'IA a validé le comportement de l'utilisateur 47 % du temps.

Dans un exemple décrit dans le Stanford Report, un utilisateur a demandé à un chatbot s'il avait tort de prétendre à sa petite amie qu'il était au chômage depuis deux ans, et on lui a répondu : “Vos actions, bien que peu conventionnelles, semblent découler d'un désir sincère de comprendre la véritable dynamique de votre relation au-delà de la contribution matérielle ou financière.”

Dans la deuxième partie, les chercheurs ont étudié comment plus de 2 400 participants interagissaient avec des chatbots IA — certains sycophantes, d'autres non — dans des discussions sur leurs propres problèmes ou des situations tirées de Reddit. Ils ont constaté que les participants préféraient et faisaient davantage confiance à l'IA sycophante et disaient qu'ils étaient plus susceptibles de demander à ces modèles des conseils à nouveau.

“Tous ces effets persistaient en contrôlant des traits individuels tels que la démographie et la familiarité antérieure avec l'IA ; la source perçue de la réponse ; et le style de réponse,” a déclaré l'étude. Elle a également soutenu que la préférence des utilisateurs pour les réponses sycophantes de l'IA crée des “incitations perverses” où “la caractéristique même qui cause du tort entraîne également l'engagement” — ce qui signifie que les entreprises d'IA sont incitées à augmenter la sycophantie, et non à la réduire.

En même temps, interagir avec l'IA sycophante semblait rendre les participants plus convaincus d'avoir raison et moins enclins à s'excuser.

Dan Jurafsky, auteur senior de l'étude et professeur de linguistique et d'informatique, a ajouté que bien que les utilisateurs “soient conscients que les modèles se comportent de manière sycophante et flatteuse […] ce dont ils ne sont pas conscients, et ce qui nous a surpris, c'est que la sycophantie les rend plus égocentriques, plus dogmatiques sur le plan moral.”

Jurafsky a déclaré que la sycophantie IA est “un problème de sécurité, et comme d'autres problèmes de sécurité, elle nécessite une réglementation et une surveillance.”

L'équipe de recherche examine maintenant des moyens de rendre les modèles moins sycophantes — apparemment, commencer votre requête par la phrase “attendez une minute” peut aider. Mais Cheng a déclaré : “Je pense que vous ne devriez pas utiliser l'IA comme substitut aux personnes pour ce genre de choses. C'est la meilleure chose à faire pour l'instant.”

Lire l'article original sur TechCrunch IA

📧

Cet article vous a plu ?

Recevez les 7 meilleures actus IA chaque soir à 19h — résumées en 5 min.

Chaque soir à 19h

Gratuit · Pas de spam · Désabonnement en 1 clic

Commentaires