Tu suis la course aux modèles IA ?
Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
ArXiv, une plateforme de recherche en libre accès largement utilisée pour la diffusion de travaux préliminaires, intensifie ses efforts pour contrer l'usage imprudent des grands modèles de langage (LLM) dans les articles scientifiques. Bien que les articles publiés sur ArXiv ne soient pas soumis à une évaluation par les pairs, le site est devenu un outil majeur pour la diffusion de recherches dans des domaines tels que l'informatique et les mathématiques, et il sert également de source de données sur les tendances scientifiques actuelles.
Pour lutter contre l'augmentation des articles de faible qualité générés par l'IA, ArXiv avait déjà mis en place des mesures comme l'exigence pour les nouveaux auteurs d'obtenir le soutien d'un auteur établi. Après avoir été hébergée par l'université de Cornell pendant plus de deux décennies, l'organisation est devenue une association à but non lucratif indépendante. Ce changement devrait lui permettre de lever davantage de fonds pour s'attaquer aux problèmes de qualité des contenus générés par l'IA.
Dans sa dernière initiative, Thomas Dietterich, président de la section informatique d'ArXiv, a annoncé que si une soumission contient des preuves irréfutables que les auteurs n'ont pas vérifié les résultats générés par les LLM, cela signifie que l'on ne peut faire confiance à rien dans l'article. Ces preuves incluent des "références hallucination" et des commentaires générés par le LLM, a précisé Dietterich. Si de telles preuves sont trouvées, les auteurs feront face à une interdiction d'un an de soumission sur ArXiv.
Après cette période d'interdiction, les auteurs devront s'assurer que leurs soumissions ultérieures sur ArXiv soient d'abord acceptées par un lieu évalué par des pairs réputé. Il est important de noter qu'il ne s'agit pas d'une interdiction totale de l'utilisation des LLM, mais d'une exigence pour que les auteurs prennent l'entière responsabilité du contenu, indépendamment de la manière dont il est généré.
Ainsi, si des chercheurs copient-collent un langage inapproprié, du contenu plagié, biaisé, des erreurs, des fautes, des références incorrectes ou du contenu trompeur directement d'un LLM, ils en sont responsables. Dietterich a expliqué à 404 Media que cette règle sera appliquée dès le premier manquement, mais les modérateurs doivent signaler le problème et les présidents de section doivent confirmer les preuves avant d'imposer la sanction. Les auteurs auront également la possibilité de faire appel de la décision.
Des recherches récentes évaluées par des pairs ont révélé que les citations fabriquées sont en augmentation dans la recherche biomédicale, probablement en raison des LLM. Cependant, il est juste de noter que les scientifiques ne sont pas les seuls à être pris en flagrant délit d'utilisation de citations inventées par l'IA.


