La recherche en IA te passionne ?
Les papers et avancées qui comptent, expliqués simplement, chaque soir. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Les articles scientifiques, piliers de la connaissance moderne, sont aujourd'hui menacés par un phénomène inquiétant : les hallucinations de l'intelligence artificielle. Une étude récente menée par des chercheurs de Cornell et de l'UCLA a mis en lumière l'ampleur de ce problème, révélant que 146 900 citations fausses générées par l'IA ont été identifiées dans des articles scientifiques présents sur quatre grandes bases de données de recherche.
Les grands modèles de langage, tels que Gemini et ChatGPT, sont à l'origine de ce phénomène. Bien qu'ils soient capables de produire des informations qui semblent plausibles, ces modèles peuvent générer des références entièrement fictives si les chercheurs ne vérifient pas les citations fournies par ces chatbots. Cette situation est d'autant plus préoccupante que les articles scientifiques, bien qu'ils soient souvent peu accessibles au grand public, ont un impact considérable sur notre quotidien, influençant des innovations allant d'Internet aux batteries lithium-ion.
Une science en péril
L'étude a analysé 111 millions de références provenant de 2,5 millions d'articles scientifiques. Les chercheurs ont cherché des citations avec des titres qui ne correspondaient à aucune publication existante. Bien que certaines erreurs soient dues à des fautes d'orthographe, beaucoup étaient des hallucinations. Des chercheurs peu scrupuleux avaient falsifié des citations bien avant l'essor des chatbots, et l'équipe a examiné les taux de citations non appariées dans des recherches publiées avant 2023, lorsque les chatbots n'étaient pas encore omniprésents. Ce problème n'est pas nouveau, mais il s'est intensifié avec l'adoption généralisée des grands modèles de langage (LLM) depuis 2023. Les mauvaises citations sont dispersées sur de nombreux articles, indiquant une utilisation répandue de références générées par l'IA sans vérification adéquate.
Un avertissement pour la communauté scientifique
Usha Haley, professeure de gestion à l'Université d'État de Wichita, a exprimé ses préoccupations quant à la prolifération de ces fausses citations. Selon elle, cela sape la confiance dans le registre académique, qui est crucial pour l'évaluation par les pairs et l'accumulation des connaissances. Ce scepticisme, qui émerge désormais au sein même de la communauté académique, est particulièrement alarmant pour les chercheurs en début de carrière.
Les bases de données arXiv, bioRxiv, SSRN et PubMed Central, qui jouent un rôle essentiel dans la diffusion de la recherche scientifique, sont les principales touchées par ces fausses citations. Ces répertoires permettent aux auteurs de partager leurs travaux avant leur publication officielle, augmentant ainsi leur visibilité. Le nouvel article sur les hallucinations de l'IA concernant les citations est actuellement hébergé sur arXiv. En réponse à cette crise, arXiv a récemment décidé d'interdire les soumissions contenant des citations générées par l'IA non vérifiées.
Steinn Sigurdsson, directeur scientifique d'arXiv, a déclaré à Katelyn Chedraoui de CNET en février que le corpus de la science est en train d'être dilué par des contenus générés par l'IA. Ces contenus sont souvent incorrects ou insignifiants, compliquant la tâche des chercheurs pour discerner les véritables avancées scientifiques et pouvant induire en erreur ceux qui s'appuient sur ces informations.
