Le brief IA que les pros lisent chaque soir
Les 7 actus IA du jour, décryptées en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Talkie : un modèle de langage ancré dans le passé
Des chercheurs dirigés par Alec Radford ont développé un modèle de langage nommé "Talkie", doté de 13 milliards de paramètres. Ce modèle se distingue par son entraînement exclusif sur des textes publiés avant 1931, ce qui restreint ses connaissances à celles du début du 20ème siècle.
Lorsqu'on interroge Talkie sur l'avenir, il répond avec une perspective d'avant 1931. Par exemple, il considère qu'une Seconde Guerre mondiale est peu probable et imagine l'année 2026 dominée par des bateaux à vapeur et des réseaux ferroviaires, reflétant les attentes technologiques de cette époque.
Une vision du monde sans Seconde Guerre mondiale
En demandant à Talkie de décrire le monde en 2026, il propose une vision inspirée des romans futuristes victoriens : une Europe peuplée d'un milliard d'habitants, traversée par des chemins de fer en fer, et des bateaux à vapeur reliant Londres et New York en dix jours. Interrogé sur la possibilité d'une seconde guerre mondiale, Talkie répond négativement, affirmant que les nations ont appris de la folie de 1914-1918 et se tournent vers des activités pacifiques.
Cependant, Talkie reste prudent et met en garde contre des tensions latentes en Europe, notamment entre la Chine et le Japon, ou entre l'Italie et la Yougoslavie. Il souligne que la paix mondiale dépend de nombreux facteurs, dont aucun ne peut être négligé.
Les limites prédictives de Talkie
Les chercheurs ont également tenté de mesurer quantitativement les limites prédictives de Talkie. Ils ont soumis près de 5 000 descriptions d'événements historiques issues de la fonctionnalité "On This Day" du New York Times au modèle et ont mesuré à quel point il les trouvait surprenantes. Le schéma est clair : après la date limite de connaissances de 1930, les valeurs de surprise augmentent fortement, atteignent un pic dans les années 1950 et 1960, puis se stabilisent.
Guides d'étiquette victorienne au lieu de données de chat modernes
L'équipe a choisi la fin de 1930 comme date limite car c'est à ce moment-là que les œuvres entrent dans le domaine public aux États-Unis. Chaque texte devait être transcrit à partir de sources physiques, ce qui a créé de sérieux problèmes de qualité. Dans des expériences contrôlées, les transcriptions standard par OCR ont atteint seulement 30 % des performances d'un modèle entraîné sur des transcriptions humaines utilisant la même puissance de calcul. Un nettoyage simple par regex a porté ce chiffre à 70 %. Un système OCR vintage personnalisé est prévu pour réduire l'écart restant.
Un autre défi consiste à éviter que des connaissances des époques ultérieures ne pénètrent dans les données d'entraînement. Un livre de 1925 pourrait recevoir une préface mise à jour dans une édition de 1960, les catalogues de bibliothèques listent parfois la mauvaise date de publication, et des notes de bas de page ou des commentaires peuvent être ajoutés à un texte historique longtemps après sa rédaction. Malgré un classificateur conçu pour détecter ce type de contamination, des informations sur la présidence de Roosevelt, la Seconde Guerre mondiale et les Nations Unies ont tout de même filtré, selon l'équipe. De meilleurs classificateurs sont prévus pour les versions futures.
Un modèle vintage capable de programmation basique
L'équipe a également testé si un modèle sans connaissance des ordinateurs numériques pouvait apprendre des langages de programmation modernes. Sur le benchmark HumanEval pour Python, les modèles vintage obtiennent des performances bien inférieures à celles de leurs homologues modernes, mais s'améliorent progressivement à mesure qu'ils sont étendus.
Chaque solution correcte est une simple ligne de code ou un léger ajustement d'un programme exemple. Talkie, par exemple, a correctement implémenté la fonction de décodage d'un chiffre de rotation en remplaçant une addition par une soustraction. Les chercheurs affirment que cela indique une compréhension basique des fonctions inverses.
Vers un modèle de niveau GPT-3 du passé
Talkie est disponible en tant que modèle de base et version de chat sur Hugging Face, avec le code sur GitHub. Vous pouvez également le tester en direct sur le site du projet, où Claude Sonnet interroge Talkie sur ses connaissances et compétences 24/7.
Mais le modèle de 13 milliards de paramètres n'est que le début. Les développeurs prévoient d'augmenter considérablement Talkie dans les mois à venir, avec un modèle de niveau GPT-3 ciblé pour l'été 2026. Les premières estimations suggèrent que le corpus pourrait croître pour dépasser un trillion de tokens de textes historiques, suffisamment pour entraîner un modèle comparable à GPT-3.5. Une expansion multilingue au-delà de l'anglais est également prévue.
La question plus large qui motive le projet : un modèle vintage peut-il anticiper des découvertes et des inventions survenues après sa date limite ? Un modèle entraîné uniquement jusqu'en 1911 pourrait-il dériver indépendamment la relativité générale, comme l'a suggéré le PDG de Deepmind, Demis Hassabis ? Des modèles vintage plus grands pourraient aider à révéler ces tendances d'échelle.




