Brief IA : EMO : l'IA d'Allen Institute et UC Berkeley redéfinit l'efficacité

EMO : l'IA d'Allen Institute et UC Berkeley redéfinit l'efficacité

Brief IA
Tom Levy·5 min·2 vues

L'Allen Institute for AI et UC Berkeley ont développé EMO, un modèle de mélange d'experts qui permet de réduire le nombre d'experts de 75 % tout en ne perdant qu'environ un point de performance. Cette avancée pourrait rendre les modèles MoE pratiques pour des environnements à mémoire limitée, révolutionnant ainsi l'efficacité des modèles d'IA dans des applications à ressources limitées.

En bref
1L'Allen Institute for AI et UC Berkeley ont développé EMO, un modèle d'IA modulaire performant avec seulement 12,5 % de ses experts.
2EMO utilise des limites de documents pour spécialiser ses modules, économisant stockage et ciblant les domaines d'expertise.
3Avec 25 % de ses experts, EMO perd seulement un point de performance, surpassant les modèles standards.
💡Pourquoi c'est importantCette avancée pourrait transformer l'efficacité des IA dans des environnements à mémoire limitée, optimisant les ressources et la spécialisation.
Le brief IA que lisent les pros

La recherche en IA te passionne ?

Les papers et avancées qui comptent, expliqués simplement, chaque soir. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Une avancée majeure pour les modèles de langage

L'Allen Institute for AI, en collaboration avec l'UC Berkeley, a dévoilé un modèle de langage innovant nommé EMO. Ce modèle se distingue par sa structure modulaire, permettant à ses composants internes de se spécialiser dans des domaines spécifiques comme la médecine ou la politique, tout en maintenant une performance globale impressionnante.

EMO utilise une approche unique en fixant des limites de documents pendant l'entraînement. Cette méthode permet aux modules de développer une expertise dans des domaines de contenu distincts, plutôt que de se concentrer uniquement sur les structures linguistiques. Fait remarquable, même lorsque le modèle est réduit à seulement 25 % de ses modules, sa performance ne diminue que d'environ un point de pourcentage. Cela offre des avantages significatifs en termes d'économie d'espace de stockage et de contrôle ciblé des domaines de contenu couverts.

Le concept de mélange d'experts

Les architectures de mélange d'experts (MoE) sont devenues courantes dans les modèles de langage, comme le démontrent DeepSeek-V4 et Qwen3.5. Ces modèles activent seulement quelques experts par jeton, permettant ainsi une expansion à des centaines de milliards de paramètres sans augmenter les coûts de calcul de manière excessive. Cependant, le modèle complet doit toujours être chargé en mémoire, car différents jetons au sein d'une tâche font appel à divers experts.

L'article souligne que dans les MoE standards, les experts se concentrent souvent sur des modèles linguistiques superficiels, réagissant à des éléments tels que les prépositions ou la ponctuation, plutôt qu'à des domaines plus complexes comme les mathématiques ou le code. Cela complique la création d'un sous-ensemble utile.

Utilisation des limites de documents comme signal d'entraînement

EMO résout ce problème avec une approche simple mais efficace. Plutôt que de trier les données d'entraînement dans des domaines fixes comme les mathématiques ou la biologie, les auteurs utilisent des limites de documents. Les jetons au sein d'un document appartiennent généralement au même domaine, ce qui permet au modèle de choisir ses experts actifs à partir d'un pool partagé.

Le modèle décide quels experts appartiennent à ce pool en moyennant ses préférences de routeur pour tous les jetons d'un document et en conservant les plus fréquemment sélectionnés. Cette méthode entraîne la modularité comme un objectif principal, permettant de sélectionner un sous-ensemble arbitraire d'experts pour un domaine donné sans nuire à la performance globale du modèle.

Ajustements pour un entraînement stable

Pour assurer la stabilité de l'entraînement, deux ajustements ont été nécessaires. Premièrement, les auteurs ont cessé de calculer l'équilibrage de charge localement par lot d'entraînement, préférant un calcul global à travers de nombreux documents. Cela évite les conflits entre les objectifs d'entraînement, l'un regroupant les jetons au sein d'un document et l'autre les répartissant sur un maximum d'experts.

Deuxièmement, les chercheurs ont varié aléatoirement la taille du pool de documents pendant l'entraînement. Cela apprend au modèle à travailler avec des sous-groupes d'experts de tailles différentes lors de l'inférence.

Performance avec une fraction des experts

L'équipe a entraîné un MoE avec 1 milliard de paramètres actifs et 14 milliards de paramètres au total, répartis sur 128 experts, dont huit actifs par jeton, sur un corpus de pré-entraînement de 1 trillion de jetons. En tant que modèle complet, EMO égale un MoE standard entraîné de manière identique et surpasse OLMoE malgré l'utilisation de cinq fois plus de données.

En réduisant le nombre d'experts, les chercheurs ont constaté qu'avec seulement 25 % des experts restants (32 sur 128), EMO perd environ un point de pourcentage de performance absolue en moyenne sur plusieurs benchmarks. À 12,5 % (16 experts), la baisse est d'environ trois points. Un MoE standard, dans la même configuration, perd entre 10 et 15 points de pourcentage.

Analyse de l'apprentissage des experts

Pour comprendre comment EMO fonctionne, les chercheurs ont examiné la distribution des jetons aux experts en interne. Pour chaque jeton, ils ont enregistré la probabilité que le routeur l'envoie à chaque expert, créant ainsi une sorte d'empreinte digitale par jeton. Ces empreintes ont ensuite été regroupées en clusters.

Contrairement à un MoE standard où chaque jeton choisit indépendamment ses experts, EMO impose une utilisation cohérente des experts en définissant un pool partagé par document. Cela favorise la spécialisation par domaine.

Applications pratiques et au-delà

L'application la plus évidente de cette technologie est l'exécution de modèles dans des environnements à mémoire limitée, où seuls les experts pertinents pour le domaine sont chargés. Les sous-groupes d'experts d'EMO égalent ou surpassent un MoE standard avec 32 experts et un modèle dense avec huit paramètres actifs.

Les chercheurs envisagent également des ajustements fins des modèles en temps réel. Par exemple, une application pour enfants pourrait désactiver des clusters répondant à des contenus inappropriés. Dans un test initial, un sous-groupe de 32 experts d'EMO a été réentraîné et réintégré dans le modèle complet de 128 experts, améliorant le modèle global sans atteindre le niveau du sous-groupe autonome.

Enfin, EMO pourrait faciliter la surveillance, car les experts rendent visible quelles parties du modèle un input donné utilise. Ai2 a publié le modèle EMO, une base de référence MoE entraînée de manière comparable, ainsi que le code d'entraînement sur Hugging Face et GitHub. Les chercheurs ont également mis à disposition une démo interactive des activations des jetons. Cependant, des questions subsistent sur la sélection et la combinaison optimales des sous-groupes d'experts, le réentraînement des modules individuels pour des tâches spécifiques, et l'utilisation de la structure modulaire pour rendre les modèles plus interprétables.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires