Qu'est-ce que le modèle de langage talkie et pourquoi est-il important ?

Le modèle de langage talkie-1930-13b-base, développé par Nick Levine, David Duvenaud et Alec Radford, possède 13 milliards de paramètres et pèse 53,1 Go. Entraîné sur 260 milliards de tokens de textes historiques, il met en lumière l'évolution des modèles de langage depuis les années 1930 et pourrait redéfinir notre compréhension des technologies actuelles en intégrant des perspectives historiques. (Brief IA — briefia.fr).

Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

Talkie-1930 : le modèle de langage rétro révolutionnaire

Brief IA

Tom Levy·28 avril 2026·4 min·19 vues

⚡

En bref

1Talkie-1930-13b-base est un modèle de langage de 13 milliards de paramètres, entraîné sur des textes historiques antérieurs à 1931.

2Le modèle affiné, talkie-1930-13b-it, utilise des données d'instructions-réponses issues d'œuvres de référence anciennes.

3Les modèles sont sous licence Apache 2.0, avec des données d'entraînement tombées dans le domaine public, permettant une exploration sans restriction.

💡Pourquoi c'est important — Talkie-1930 explore la capacité des modèles à prédire et inventer au-delà de leurs données d'origine, ouvrant de nouvelles perspectives en IA.

Un modèle de langage inspiré du passé

Le modèle de langage talkie-1930-13b-base, pesant 53,1 Go, se distingue par ses 13 milliards de paramètres. Ce modèle a été entraîné sur un vaste corpus de 260 milliards de tokens, exclusivement constitué de textes historiques en anglais, tous antérieurs à l'année 1931. Cette approche unique vise à explorer les capacités des modèles de langage en se basant sur des données qui ont depuis longtemps échappé aux restrictions du droit d'auteur.

En parallèle, le modèle talkie-1930-13b-it, d'une taille de 26,6 Go, a été spécifiquement affiné. Ce processus d'affinage repose sur un ensemble de données novateur, constitué d'exemples d'instructions et de réponses extraits d'œuvres de référence datant d'avant 1931. Ce modèle est conçu pour alimenter une interface de chat, permettant ainsi une interaction plus fluide et contextuelle avec les utilisateurs.

Licence et accès aux données

Les deux modèles sont disponibles sous la licence Apache 2.0, ce qui garantit une utilisation libre et ouverte. Les données d'entraînement du modèle de base, étant entièrement tombées dans le domaine public, offrent une opportunité unique pour les chercheurs et développeurs. La date limite de droit d'auteur aux États-Unis, fixée au 1er janvier 1931, permet à ces données d'être utilisées sans restriction légale. Il est espéré que les créateurs de talkie envisageront de publier également ces données d'entraînement pour enrichir la recherche dans ce domaine.

Objectifs de recherche et défis

Le rapport accompagnant ces modèles met en lumière des objectifs de recherche fascinants. Parmi ceux-ci, la capacité des modèles à prédire des événements futurs est particulièrement intrigante. Par exemple, les chercheurs ont évalué le degré de surprise que ressent un modèle de 13 milliards de paramètres face à des descriptions d'événements historiques, tous issus de textes antérieurs à 1931.

Une autre question soulevée est la possibilité pour ces modèles d'inventer des concepts qui dépassent leurs connaissances initiales. Une interrogation célèbre posée par Demis Hassabis est de savoir si un modèle entraîné jusqu'en 1911 pourrait, de manière autonome, découvrir la relativité générale, comme l'a fait Einstein en 1915.

Enseignement et programmation

Les modèles peuvent-ils être formés à programmer ? Cette question a été explorée en testant la capacité des modèles entraînés sur des textes d'avant 1931 à écrire de nouveaux programmes corrects en Python, après avoir reçu quelques exemples. La Figure 3 du rapport illustre un exemple précoce de ce type de test, démontrant les capacités potentielles de ces modèles dans le domaine de la programmation.

Modèles vegan et éthique des données

L'intérêt pour les modèles vegan, c'est-à-dire ceux entièrement entraînés sur des données sous licence ou tombées dans le domaine public, est un sujet de débat. Le modèle de base de talkie semble se conformer à cette éthique, bien que le modèle de chat ne soit pas totalement pur en raison de sa dépendance à des modèles non vegan pour l'affinage.

Génération de données et optimisation

Pour affiner le modèle, des paires d'instructions-réponses ont été générées à partir de textes historiques structurés, tels que des manuels d'étiquette, des livres de cuisine, et des encyclopédies. Le modèle de base a ensuite été affiné sur ces données en utilisant un format de chat simple.

Pour améliorer la capacité du modèle à suivre des instructions, des prompts synthétiques ont été créés, couvrant une variété de tâches comme le résumé de documents ou la réponse à des demandes d'informations. Une optimisation des préférences directes a été réalisée en ligne, avec Claude Sonnet 4.6 comme juge des résultats générés.

Affinage et défis techniques

Un autre tour d'affinage supervisé a été effectué, cette fois sur des chats synthétiques multi-tours, échantillonnés par rejet entre Claude Opus 4.6 et talkie. L'objectif était de corriger les imperfections persistantes dans les capacités conversationnelles du modèle.

Un défi majeur dans l'entraînement de talkie a été d'éviter la contamination accidentelle par des textes postérieurs à 1931 ou par l'introduction de connaissances anachroniques via l'assistance à l'affinage des LLM modernes.

Vers une autonomie totale

L'équipe derrière talkie aspire à dépasser ces limitations. Bien que l'apprentissage par renforcement avec des retours d'IA influence inévitablement le modèle de manière anachronique, ils espèrent utiliser leurs modèles de base vintage comme juges pour un pipeline de post-entraînement entièrement autonome et adapté à l'époque.

Test pratique et curiosité

En guise de test, une démo de talkie a été réalisée avec un prompt classique : Générez un SVG d'un pélican faisant du vélo. Le modèle a généré une image datant de 1860, représentant un pélican perché sur une selle, avec son bec pointé vers l'avant et ses pattes sur les poignées, inspirée par l'observation de pélicans pêchant à cheval sur les rives du Rhin.

Talkie-1930 : le modèle de langage rétro révolutionnaire

Tu suis la course aux modèles IA ?

Un modèle de langage inspiré du passé

Licence et accès aux données

Objectifs de recherche et défis

Enseignement et programmation

Modèles vegan et éthique des données

Génération de données et optimisation

Affinage et défis techniques

Vers une autonomie totale

Test pratique et curiosité

Talkie : l'IA figée en 1930 qui défie notre vision du passé

Google Workspace réinvente l'Histoire avec une pub IA déconcertante

IA et cybersécurité : les défis selon Square Management

Alpha School : l'éducation IA attire les élites américaines

Mistral : Arthur Mensch dénonce les risques des IA propriétaires

Hollywood face à Seedance : entre interdiction et usage discret