Mais au fait, c’est quoi la Retrieval-Augmented Generation (RAG) ?

Mais au fait, c’est quoi la Retrieval-Augmented Generation (RAG) ?
Pourquoi les LLM ont-ils besoin d’une mémoire externe ?
Les grands modèles de langage (LLM) qui alimentent ChatGPT, Claude ou Gemini sont entraînés sur d’immenses corpus de textes issus du web. Cette base de connaissances, aussi vaste soit-elle, présente deux limites structurelles :
- Elle est figée à la date d’entraînement du modèle.
- Elle ne contient aucune donnée privée ou spécifique à une organisation.
Lorsqu’un LLM est interrogé sur un sujet qu’il ne maîtrise pas ou pas suffisamment, il peut produire une réponse plausible mais fausse, un phénomène connu sous le nom d’hallucination.
C’est pour répondre à ce problème que la Retrieval-Augmented Generation (RAG) a été conceptualisée. Le terme apparaît pour la première fois en 2020, dans un article de recherche cosigné par Patrick Lewis, alors chercheur chez Meta et à l’University College London. Le principe est simple : plutôt que de se fier uniquement à sa mémoire interne, le modèle va d’abord consulter des documents externes pertinents avant de formuler sa réponse. Cette approche permet de réduire les hallucinations, de fournir des informations à jour et de citer ses sources.
Comment fonctionne la RAG concrètement
Le mécanisme de la RAG repose sur trois étapes distinctes :
-
L’indexation des données : les documents qui composent la base de connaissances (pages web, fichiers internes, bases de données, FAQ…) sont convertis en représentations numériques appelées embeddings, puis stockés dans une base de données vectorielle. Ce processus permet au système de comprendre le sens des contenus, pas seulement leurs mots clés.
-
La récupération : lorsqu’un utilisateur ou une utilisatrice pose une question, celle-ci est elle aussi convertie en embedding, puis comparée aux vecteurs stockés pour identifier les passages les plus pertinents. C’est une forme de recherche sémantique, où le système ne cherche pas une correspondance exacte de mots mais une proximité de sens.
-
La génération augmentée : les passages récupérés sont injectés dans le contexte du modèle, à côté de la question initiale. Le LLM génère alors sa réponse en s’appuyant sur ces informations, ce qui ancre sa production dans des données vérifiables.
Prenons un exemple concret. Un chatbot RH d’entreprise est interrogé : « Combien de jours de congé me reste-t-il ? » Sans RAG, le modèle ne dispose d’aucune information personnelle et risque d’inventer une réponse. Avec la RAG, il interroge la base documentaire interne à laquelle on lui a donné accès, récupère la politique de congés et le solde du collaborateur, puis formule une réponse sourcée.
RAG et fine-tuning, quelle différence ?
Le fine-tuning consiste à réentraîner un modèle sur des données spécifiques pour modifier durablement son comportement. La RAG, elle, enrichit le contexte du modèle au moment de la requête, sans altérer ses paramètres.
- Le fine-tuning adapte le modèle.
- La RAG complète ses connaissances.
Les deux approches sont complémentaires, le fine-tuning servant plutôt au ton et au format, la RAG à l’accès à des informations actualisées ou privées.
Ce que ça change pour les utilisateurs professionnels de l’IA
Pour les professionnels du digital, la RAG est déjà omniprésente, parfois sans qu’ils le sachent. Lorsque ChatGPT, Gemini ou Perplexity effectuent une recherche sur le web avant de répondre, le mécanisme s’appuie sur le même principe que la RAG, même s’il est appelé ici « grounding ».
Lorsqu’un assistant IA d’entreprise interroge une base documentaire interne pour répondre à une question métier, c’est également de la RAG. Google, Amazon Web Services et la plupart des fournisseurs cloud proposent aujourd’hui des briques RAG clés en main dans leurs plateformes d’IA.
La technique n’est pas sans limite, car elle ne supprime pas totalement les hallucinations. Un modèle peut mal interpréter un document récupéré ou en extraire une information hors contexte. La qualité des réponses dépend directement de la qualité de la base documentaire sous-jacente. Et le coût en ressources (stockage des embeddings, calcul pour la recherche vectorielle, contexte élargi pour le modèle) représente également un poste à prendre en compte.
Brief IA — Veille IA quotidienne
Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.