Les bibliothèques en mère nourricière de l'intelligence artificielle
Le projet Mirandola se donne pour ambition de privilégier les ouvrages conservés dans les bibliothèques pour nourrir les grands modèles de langage. Une initiative, en phase d'amorçage, qui entre en concurrence avec le projet Argimi lancé en 2024 et qui rassemble déjà la BnF et l'Ina. Cette initiative plonge ses racines dans la Renaissance italienne à travers la figure de Jean Pic de la Mirandole (Giovanni Pico della Mirandola, 1463 - 1494), un philosophe et théologien humaniste. Baptisé Mirandola, ce projet se donne pour ambition de nourrir les grands modèles de langage avec les ouvrages détenus par les bibliothèques : "il y a un endroit où il y a beaucoup de textes de qualité, ce sont les bibliothèques", explique Rémi Daudin, physicien de formation et directeur scientifique de l'équipementier automobile Forvia ; "un livre, c'est un raisonnement construit et c'est aussi un contenu légal".
Dans un podcast réalisé par nos confrères de Challenges, Rémi Daudin souligne que s'entraîner sur le corpus de la Bibliothèque nationale de France (10 millions d'ouvrages) permettrait de produire des LLM 100 fois plus efficaces que les IA actuelles qui sont alimentées par des contenus en ligne. "Le coût de l'inférence serait également plus réduit", précise-t-il. Le coût d'inférence correspond au coût de calcul engendré chaque fois qu'un modèle d'IA génère une réponse à une entrée.
RGPD et droit d'auteur
En phase d'amorçage, Mirandola ressemble à s'y méprendre au projet Argimi lancé en 2024 par BPIfrance. Cette initiative réunit déjà deux établissements publics patrimoniaux (la Bibliothèque nationale de France et l’Ina) ainsi que des acteurs industriels de l’IA (Mistral AI, Artefact, Giskard) autour d’un objectif : créer et partager des communs numériques, dont un grand modèle de langue francophone.
Dans un entretien accordé à Archimag, le président de la BnF, Gilles Pécoit, rappelait que "l’intelligence artificielle a bien entendu sa place à la Bibliothèque nationale de France et elle est au cœur d’un certain nombre d’orientations pionnières depuis quelques années déjà." Sous condition : "maîtriser l’objet de la transaction, en l'occurrence notre corpus libre de droit. La Bibliothèque nationale de France doit suivre en responsabilité l’usage de ce corpus ainsi que s’assurer du respect du RGPD et du droit d’auteur."
📧
Cet article vous a plu ?
Recevez les 7 meilleures actus IA chaque soir à 19h — résumées en 5 min.
