Brief IA : ByteDance défie Qwen2.5 avec son modèle iLLaDA innovant

ByteDance défie Qwen2.5 avec son modèle iLLaDA innovant

Brief IA
Tom Levy·3 min·2 vues

ByteDance, en collaboration avec l'Université Renmin, a développé iLLaDA, un modèle de langage de 8 milliards de paramètres. Ce modèle se distingue par sa méthode de génération de texte, qui diffère de celle de ChatGPT, bien qu'il soit en compétition avec Qwen2.5, affichant des performances inférieures après ajustement fin.

En bref
1ByteDance et l'Université Renmin ont développé iLLaDA, un modèle de langage doté de 8 milliards de paramètres.
2iLLaDA se distingue par sa capacité à générer du texte différemment de ChatGPT, bien qu'il reste en compétition avec Qwen2.5.
3Malgré une performance compétitive au niveau de base, iLLaDA montre des résultats inférieurs après ajustement fin comparé à Qwen2.5.
💡Pourquoi c'est importantByteDance cherche à renforcer sa position dans le domaine des modèles de langage face à des concurrents établis comme Qwen2.5.
Le brief IA que lisent les pros

La recherche en IA te passionne ?

Les papers et avancées qui comptent, expliqués simplement, chaque soir. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

ByteDance défie Qwen2.5 avec son modèle iLLaDA innovant

Le modèle de langage iLLaDA de ByteDance est un modèle de diffusion qui rivalise avec Qwen2.5.

Des chercheurs de l'Université Renmin et de ByteDance ont lancé iLLaDA, un modèle de langage de 8 milliards de paramètres qui fonctionne différemment de ChatGPT. Il égalise Qwen2.5 au niveau de base, mais accuse un retard après l'affinage.

Presque tous les modèles de langage AI bien connus, comme GPT, Claude ou Qwen, génèrent du texte de manière autoregressive : mot par mot, de gauche à droite, chaque nouveau token dépendant uniquement de ceux qui le précèdent.

Les modèles de langage de diffusion adoptent une approche différente. Ils commencent avec une séquence de tokens masqués et les affinent à travers plusieurs passes en parallèle. C'est similaire à la façon dont les modèles d'image façonnent une image à partir de bruit. Chaque position peut prêter attention à toutes les autres positions en même temps, rendant le processus bidirectionnel.

iLLaDA fait partie d'un mouvement plus large qui inclut Google. En juin 2026, Google DeepMind a lancé DiffusionGemma. Ce modèle génère du texte environ quatre fois plus rapidement via diffusion, mais obtient de moins bons résultats sur des benchmarks comme MMLU et le code que le modèle autoregressif de taille similaire, Gemma 4. Google le recommande pour des cas d'utilisation à faible latence, et non pour des productions critiques en qualité.

DiffusionGemma adopte une approche différente. Il est construit sur l'architecture de Gemma 4, un modèle mixture-of-experts de 25 milliards de paramètres qui change uniquement la méthode de génération pour privilégier la vitesse. iLLaDA, abréviation de "improved LLaDA", prend le chemin inverse. C'est un modèle dense de 8 milliards de paramètres entraîné depuis le début, axé sur la qualité.

La question qui se pose est de savoir si un modèle de diffusion construit de zéro peut réellement rivaliser avec les modèles autoregressifs. Une comparaison numérique directe entre les deux est cependant difficile. Google utilise des variantes de benchmark partiellement différentes et plus difficiles, et DiffusionGemma évolue dans une classe de poids différente.

Ce que peut faire iLLaDA

L'équipe a pré-entraîné iLLaDA sur 12 trillions de tokens, contre 2,3 trillions pour son prédécesseur LLaDA, et l'a affiné pendant douze époques. Selon l'article, iLLaDA-Base améliore considérablement LLaDA, avec un bond de 21,6 points sur le test de raisonnement BBH, par exemple. En moyenne, il atteint 63,9 points, dépassant légèrement Qwen2.5 7B qui obtient 63,3.

Mathématiques et Sciences

La comparaison avec le modèle de diffusion concurrent Dream 7B favorise également iLLaDA. Dream n'a pas été entraîné depuis le début mais a été affiné à partir d'un point de contrôle existant de Qwen2.5. iLLaDA bat toujours Dream en moyenne, 63,9 contre 61,4, même sans l'avantage d'une base autoregressive solide. Dream ne conserve qu'un léger avantage sur les benchmarks de codage.

Un écart demeure au niveau des instructions. iLLaDA-Instruct obtient 67,1 points tandis que Qwen2.5 7B Instruct atteint 77,1, avec les mathématiques et le code expliquant la majeure partie de la différence. Les auteurs attribuent cela à l'alignement par apprentissage par renforcement supplémentaire dans Qwen2.5, que iLLaDA n'a pas. Dans l'annexe de l'article, ils notent également que le modèle peut se retrouver bloqué dans des boucles de raisonnement sur des tâches plus difficiles.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires