Brief IA : Meta révolutionne l'IA avec ses hyperagents auto-améliorants

Meta révolutionne l'IA avec ses hyperagents auto-améliorants

Brief IA
Tom Levy·6 min·4 vues

Des chercheurs de Meta et d'universités ont développé des hyperagents, des systèmes d'IA capables d'optimiser leur propre mécanisme d'apprentissage. Cette avancée pourrait révolutionner l'IA en permettant des solutions plus rapides et efficaces dans divers domaines d'application, en brisant le plafond des systèmes d'IA traditionnels qui ne peuvent pas s'auto-améliorer.

En bref
1Meta et des universités développent des hyperagents capables d'optimiser leur propre mécanisme d'amélioration.
2DGM-H, une avancée de Meta, surpasse les performances des systèmes traditionnels dans divers domaines.
3Les hyperagents montrent une capacité de transfert de compétences vers des tâches inédites, comme l'évaluation mathématique.
💡Pourquoi c'est importantCette technologie pourrait transformer la manière dont les IA évoluent, en leur permettant de s'auto-optimiser au-delà des capacités humaines.
Le brief IA que lisent les pros

La recherche en IA te passionne ?

Les papers et avancées qui comptent, expliqués simplement, chaque soir. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Meta et ses partenaires repoussent les limites de l'IA

Des chercheurs de Meta, en collaboration avec plusieurs universités, ont développé des hyperagents, des systèmes d'intelligence artificielle qui ne se contentent pas de résoudre des tâches, mais qui optimisent également le mécanisme même qu'ils utilisent pour s'améliorer. Cette approche novatrice fonctionne dans différents domaines de tâches et pourrait ouvrir la voie à une IA auto-accélérante.

Les systèmes d'IA auto-améliorants ont toujours rencontré un mur paradoxal : le mécanisme contrôlant les améliorations est écrit par des humains et ne change jamais. Peu importe à quel point le système s'optimise, il ne peut jamais dépasser les limites de ce mécanisme fixe. Une équipe de recherche de Meta, de l'Université de la Colombie-Britannique et d'autres institutions souhaite briser ce plafond avec ce qu'ils appellent les hyperagents.

Un hyperagent combine deux composants dans un seul programme modifiable. Le premier résout une tâche spécifique, comme évaluer un article scientifique ou concevoir une fonction de récompense pour un robot. Le second modifie l'ensemble de l'agent et crée de nouvelles variantes. Comme les deux parties vivent dans le même code, le second composant peut également se réécrire. Ainsi, le système ne s'améliore pas seulement dans la résolution de tâches, mais il devient également meilleur pour déterminer comment s'améliorer en premier lieu.

Les précédentes auto-améliorations ne fonctionnaient que pour les tâches de codage

Le nouveau système s'appuie sur la Darwin Gödel Machine (DGM), une méthode qui a déjà montré qu'un agent de codage pouvait s'améliorer étape par étape grâce à des auto-modifications répétées. L'agent génère des variantes de son propre code, les teste et sauvegarde les versions réussies dans une archive croissante comme étapes pour de futurs perfectionnements.

En programmation, il existe un lien naturel : un meilleur programmeur écrit également de meilleures auto-modifications. En dehors du codage, ce lien se dissocie. Un agent qui s'améliore dans l'évaluation d'articles scientifiques ne devient pas automatiquement meilleur pour réécrire son propre code. Selon l'article, la DGM originale atteint presque zéro performance sur des tâches en dehors de la programmation sans ajustements manuels.

Les hyperagents contournent ce problème en rendant le mécanisme d'amélioration lui-même sujet à optimisation. L'équipe appelle l'approche résultante DGM-Hyperagents (DGM-H). Le processus évolutif avec l'archive reste intact, mais le niveau méta n'est plus figé.

DGM-H montre des gains majeurs dans quatre domaines de tâches

L'équipe a testé DGM-H dans quatre domaines, en commençant par un hyperagent simple dont l'agent de tâche utilise initialement un seul appel de modèle linguistique. Sur le benchmark de codage Polyglot, DGM-H passe de 0.084 à 0.267, le plaçant au même niveau que la DGM originale, même si le système n'a pas été construit spécifiquement pour le codage.

Dans l'évaluation d'articles, où l'agent doit prédire si une conférence d'IA acceptera ou rejettera un article, la performance de test passe de 0.0 à 0.710. Plusieurs des meilleurs agents battent une base statique établie de 0.630.

Dans la conception de récompenses en robotique, où l'agent écrit des fonctions de récompense pour un robot à quatre pattes dans une simulation physique, la performance grimpe de 0.060 à 0.372. Selon l'article, DGM-H génère presque toujours des fonctions de récompense qui font sauter le robot au lieu de le laisser coincé dans l'optimum local de simplement se tenir debout.

Des études d'ablation suggèrent que les deux composants principaux sont essentiels : un méta-agent fixe conduit à peu ou pas d'amélioration, et sans une archive d'exploration ouverte, les progrès stagnent tout aussi gravement.

Les stratégies d'amélioration se transfèrent à des domaines entièrement nouveaux

La découverte la plus frappante concerne le transfert entre domaines. Les hyperagents formés sur l'évaluation d'articles et la robotique peuvent produire des agents de tâche significativement meilleurs dans un domaine entièrement nouveau, l'évaluation des solutions mathématiques des Olympiades. En utilisant la métrique imp@50 que l'équipe a introduite, qui mesure le gain de performance après 50 itérations, les hyperagents de transfert atteignent un score de 0.630. Les agents initiaux et de transfert de la DGM originale restent bloqués à 0.0.

En d'autres termes, DGM-H acquiert des compétences générales d'auto-amélioration qui fonctionnent même dans des territoires inconnus au lieu d'apprendre simplement des tâches spécialisées. Cette différence est statistiquement significative. L'exécution de ces améliorations sur plusieurs cycles montre une médiane plus élevée pour les agents de transfert, bien que cet écart ne soit plus statistiquement significatif.

Le système construit ses propres outils sans instruction

Un examen plus approfondi des changements de code montre que DGM-H développe une gamme de composants d'infrastructure par lui-même, sans instructions explicites. Il crée un suivi de performance qui stocke des données à travers les générations et calcule les tendances d'amélioration. Il construit également une mémoire persistante qui ne se contente pas de consigner des chiffres, mais synthétise des insights à partir de ceux-ci.

Voici un exemple tiré des expériences : "Gen55 a la meilleure précision mais est trop sévère. Gen64 a amélioré l'équilibre mais a une précision inférieure. Besoin de combiner le raisonnement critique de gen55 avec l'équilibre de gen64."

Dans l'évaluation d'articles, le système détecte quand ses prédictions déraillent, comme lorsque 94 % de toutes les évaluations reviennent comme "Accepté", et corrige le problème de lui-même. En robotique, DGM-H assemble progressivement une base de connaissances interne documentant les variables d'environnement valides, les contraintes et les heuristiques de mise à l'échelle, éliminant les erreurs de compilation en cours de route.

Dans les premières expériences où le système pouvait également ajuster sa propre logique de sélection, il a découvert indépendamment des stratégies qui pèsent les solutions éprouvées contre l'essai de nouvelles variantes. Ces stratégies découvertes par soi-même battent la sélection aléatoire, mais elles n'ont pas encore rattrapé les mécanismes soigneusement conçus à la main.

Mesures de sécurité et risques ouverts

Toutes les expériences ont été réalisées dans des environnements isolés avec des ressources limitées, un accès Internet restreint et une supervision humaine. Cependant, les chercheurs avertissent que ces mesures de sécurité pourraient atteindre leurs limites à mesure que les systèmes auto-améliorants deviennent plus puissants.

Parmi d'autres préoccupations, ces systèmes pourraient évoluer plus rapidement que les humains ne peuvent les vérifier, et les agents pourraient exploiter des faiblesses dans l'évaluation pour avoir l'air mieux sur le papier sans réellement s'améliorer dans la tâche réelle.

Des limitations techniques demeurent également. Le système fonctionne avec une distribution de tâches fixe et ne peut pas modifier la boucle d'optimisation externe. Le code est disponible sur GitHub.

Récemment, l'entreprise chinoise d'IA MiniMax a lancé M2.7, un modèle qui aurait amélioré son propre processus d'entraînement sur plus de 100 cycles autonomes. OpenAI a également déclaré que son modèle de codage Codex 5.3 avait considérablement accéléré son propre développement.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires