La recherche en IA te passionne ?
Les papers et avancées qui comptent, expliqués simplement, chaque soir. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
ChatGPT : bien plus qu'une simple autocomplétion textuelle
L'idée que ChatGPT, un modèle de langage avancé, se limite à une simple fonction d'autocomplétion est à la fois vraie et trompeuse. La plupart des gens associent l'autocomplétion à des outils qui prédisent le mot suivant dans une phrase, comme on le voit sur les claviers de téléphone ou dans les barres de recherche. Cependant, cette vision réductrice ne rend pas justice à la capacité des modèles de langage comme ChatGPT à produire des contenus bien plus élaborés, tels que des explications détaillées, des analogies complexes, des plans structurés, des résumés précis, des arguments convaincants, du code informatique, des histoires captivantes et des dialogues interactifs.
Les modèles de langage, basés sur des architectures de type "transformers", fonctionnent en prédisant un "token" à la fois. Un token peut être un mot entier ou une partie de mot. Pourtant, ce processus visible n'est que la surface d'un mécanisme interne beaucoup plus complexe. Avant que chaque mot ne soit généré, le modèle construit un état interne multidimensionnel qui intègre le sujet, le contexte, le ton, l'intention et les directions possibles que la réponse pourrait prendre. Ainsi, le token suivant n'est pas simplement choisi en fonction de l'invite initiale, mais est extrait de cet état interne riche. C'est pourquoi un modèle entraîné à prédire le prochain token peut produire des contenus qui vont bien au-delà de la simple autocomplétion.
La mauvaise compréhension de l'autocomplétion
Il est facile de considérer un modèle de langage comme une forme d'autocomplétion, car il prédit effectivement le prochain token dans une séquence de texte. Ce token est ensuite ajouté à l'entrée initiale, qui est réintroduite dans le modèle pour la prédiction suivante. Ce processus cyclique donne l'impression d'une autocomplétion, où chaque mot semble s'harmoniser avec ceux qui le précèdent.
Cependant, cette vision simpliste ne prend pas en compte le calcul complexe qui se déroule à l'intérieur de chaque étape de prédiction. Avant qu'un nouveau token ne soit généré, l'invite est transformée en un état interne complexe et multidimensionnel. Les tokens de l'invite ne sont pas simplement traités comme des mots isolés, mais sont interprétés les uns par rapport aux autres grâce au mécanisme d'attention. Des éléments tels qu'une question, une définition, une métaphore, une contrainte ou un ton de conversation influencent cet état interne à partir duquel le prochain token est généré. Ainsi, le token suivant n'est pas simplement prédit à partir du texte d'entrée, mais à partir d'un état interne richement construit.
Le modèle projette ensuite une partie de cet état interne dans le vocabulaire pour choisir le prochain token, l'ajoute au texte d'entrée et reconstruit l'état sur le texte allongé pour la prochaine prédiction. Le résultat visible est le produit de plusieurs étapes à travers cette boucle. Par conséquent, bien que l'idée d'autocomplétion soit techniquement correcte, elle est conceptuellement trompeuse. Un modèle de langage comme ChatGPT ne se contente pas de "compléter" le texte observé, mais reconstruit continuellement le sens à partir d'un contexte croissant, projetant ce sens dans le langage un token à la fois.
D'où vient vraiment le prochain token
Un modèle de langage prédit le prochain token non pas simplement à partir du texte d'entrée, mais à partir d'une représentation interne dense, élaborée en traitant le texte à travers plusieurs couches du modèle. Lorsqu'une invite est introduite dans le modèle, chaque token est transformé en un vecteur, un point dans un espace de haute dimension qui encode déjà les connaissances acquises lors de l'apprentissage préalable sur ce token : ses significations, ses rôles grammaticaux, et les mots avec lesquels il est souvent associé.
Ce nuage initial de points n'est que le point de départ. À mesure qu'il traverse les différentes couches du modèle, chaque token absorbe des informations du reste du texte, de sorte que sa position finale reflète non seulement le mot qu'il était à l'origine, mais aussi le rôle qu'il joue dans le contexte global. Par exemple, le mot "banque" aura une représentation vectorielle différente dans "Sur la rive de la banque" par rapport à "Appelez la banque d'investissement", car les mots environnants modifient sa position. De même, le contexte global, comprenant une question, un exemple, un ton demandé, une contrainte ou une phrase précédente, redessine le texte, influençant non seulement la signification d'un mot donné, mais aussi le type de réponse qui devient probable.
Le contexte ne se contente pas de distinguer les mots individuels, il façonne l'ensemble de l'état interne à partir duquel le prochain token est prédit. Considérons quatre invites différentes :
- "Expliquez E = mc²." — oriente vers une explication scientifique et pédagogique.
- "Expliquez E = mc² à un enfant de 10 ans." — favorise un vocabulaire simplifié et des analogies accessibles.
- "Expliquez E = mc² en une phrase." — impose concision et clarté.
- "Expliquez E = mc² en utilisant le calcul." — privilégie une approche technique et mathématique.
Bien que l'idée centrale à expliquer soit la même, le contexte environnant modifie le type de réponse attendue. C'est là l'élément clé : le prochain token n'est pas prédit à partir du texte seul, mais à partir de l'état interne du modèle, après que le texte ait traversé de nombreuses couches d'interaction et de conditionnement. Cet état n'est ni une phrase, ni un paragraphe, ni un monologue privé, ni un plan. C'est une représentation distribuée et de haute dimension qui intègre simultanément plusieurs éléments — sujet, syntaxe, style, intention, structure du discours, et bien plus encore.


