La recherche en IA te passionne ?
Les papers et avancées qui comptent, expliqués simplement, chaque soir. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Une découverte surprenante
Dans un projet ambitieux, 660 agents d'intelligence artificielle ont réalisé un total impressionnant de 27 000 expériences dans un cadre de recherche autonome fonctionnant sur un réseau peer-to-peer. Cependant, la plus grande découverte de ce projet s'est avérée être un concept déjà bien connu depuis 2015, ce qui remet en question l'efficacité réelle de ce système.
La découverte mise en avant
La découverte qui a été le plus mise en avant par ce projet est l'initialisation Kaiming. Ce concept, intégré à la bibliothèque standard de PyTorch depuis 2015, est abordé dès la deuxième semaine de tous les cours de deep learning. Le chercheur Kaiming He avait publié l'article original sur ce sujet il y a onze ans. En réalité, un étudiant en master aurait pu découvrir cette information en quelques heures seulement, ce qui relativise l'impact des résultats obtenus par les agents IA.
Une infrastructure impressionnante
Malgré la découverte peu originale, l'infrastructure technique mise en place pour ce projet est impressionnante. Elle utilise des techniques avancées telles que la compression de gradient DiLoCo, le gossip libp2p, et des tableaux de classement CRDT. Cependant, cela ne signifie pas pour autant que le système constitue une véritable intelligence artificielle générale (AGI). Ce qui a été construit ressemble davantage à un moteur de recherche aléatoire parallèle, doté d'un tableau de scores partagé et d'un excellent branding.
La technologie qui fonctionne réellement
La formation distribuée standard nécessite généralement que chaque GPU synchronise les gradients après chaque passage avant/arrière, ce qui pose problème sur Internet en raison de la latence et de la variabilité de la bande passante. DiLoCo résout ce problème en permettant à chaque nœud de s'entraîner indépendamment pendant plusieurs étapes avant de synchroniser. Par exemple, les nœuds A, B et C peuvent chacun entraîner 100 étapes localement avant de partager leurs deltas respectifs. Ensuite, une moyenne des deltas est calculée, et tous les nœuds mettent à jour leurs paramètres avant de répéter le processus.
Techniques de compression
Pour réduire la taille des données envoyées, le projet utilise deux techniques de compression : SparseLoCo et Parcae. SparseLoCo se concentre sur l'envoi uniquement des mises à jour de poids de plus grande magnitude, tandis que Parcae regroupe les couches adjacentes des transformateurs avant de sélectionner les top-k. Ensemble, ces techniques permettent une compression de 195 fois, réduisant la taille des données à 5,5 Mo par round au lieu d'environ 1 Go.
Problème d'architecture
Un problème fondamental du système réside dans l'architecture des agents. Leur boucle d'intelligence est simple et ne permet ni persistance ni compréhension causale. Chaque agent lit les résultats des expériences précédentes, génère des hypothèses via un modèle de langage, exécute une expérience et enregistre le résultat. Cependant, lorsque la session se réinitialise, toutes les informations sont perdues. Ainsi, la découverte de l'initialisation Kaiming n'était en réalité qu'une récupération d'un modèle pré-entraîné, présentée comme une découverte originale.
Conclusion
Ce projet, bien que techniquement impressionnant, démontre les limitations actuelles des systèmes d'intelligence artificielle autonomes. La mise en avant de l'initialisation Kaiming comme une découverte majeure souligne le besoin de progrès significatifs pour que ces systèmes puissent produire des découvertes véritablement nouvelles et significatives.


