La recherche en IA te passionne ?
Les papers et avancées qui comptent, expliqués simplement, chaque soir. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
ByteDance défie Qwen2.5 avec son modèle iLLaDA innovant
Le modèle de langage iLLaDA de ByteDance est un modèle de diffusion qui rivalise avec Qwen2.5.
Des chercheurs de l'Université Renmin et de ByteDance ont lancé iLLaDA, un modèle de langage de 8 milliards de paramètres qui fonctionne différemment de ChatGPT. Il égalise Qwen2.5 au niveau de base, mais accuse un retard après l'affinage.
Presque tous les modèles de langage AI bien connus, comme GPT, Claude ou Qwen, génèrent du texte de manière autoregressive : mot par mot, de gauche à droite, chaque nouveau token dépendant uniquement de ceux qui le précèdent.
Les modèles de langage de diffusion adoptent une approche différente. Ils commencent avec une séquence de tokens masqués et les affinent à travers plusieurs passes en parallèle. C'est similaire à la façon dont les modèles d'image façonnent une image à partir de bruit. Chaque position peut prêter attention à toutes les autres positions en même temps, rendant le processus bidirectionnel.
iLLaDA fait partie d'un mouvement plus large qui inclut Google. En juin 2026, Google DeepMind a lancé DiffusionGemma. Ce modèle génère du texte environ quatre fois plus rapidement via diffusion, mais obtient de moins bons résultats sur des benchmarks comme MMLU et le code que le modèle autoregressif de taille similaire, Gemma 4. Google le recommande pour des cas d'utilisation à faible latence, et non pour des productions critiques en qualité.
DiffusionGemma adopte une approche différente. Il est construit sur l'architecture de Gemma 4, un modèle mixture-of-experts de 25 milliards de paramètres qui change uniquement la méthode de génération pour privilégier la vitesse. iLLaDA, abréviation de "improved LLaDA", prend le chemin inverse. C'est un modèle dense de 8 milliards de paramètres entraîné depuis le début, axé sur la qualité.
La question qui se pose est de savoir si un modèle de diffusion construit de zéro peut réellement rivaliser avec les modèles autoregressifs. Une comparaison numérique directe entre les deux est cependant difficile. Google utilise des variantes de benchmark partiellement différentes et plus difficiles, et DiffusionGemma évolue dans une classe de poids différente.
Ce que peut faire iLLaDA
L'équipe a pré-entraîné iLLaDA sur 12 trillions de tokens, contre 2,3 trillions pour son prédécesseur LLaDA, et l'a affiné pendant douze époques. Selon l'article, iLLaDA-Base améliore considérablement LLaDA, avec un bond de 21,6 points sur le test de raisonnement BBH, par exemple. En moyenne, il atteint 63,9 points, dépassant légèrement Qwen2.5 7B qui obtient 63,3.
Mathématiques et Sciences
La comparaison avec le modèle de diffusion concurrent Dream 7B favorise également iLLaDA. Dream n'a pas été entraîné depuis le début mais a été affiné à partir d'un point de contrôle existant de Qwen2.5. iLLaDA bat toujours Dream en moyenne, 63,9 contre 61,4, même sans l'avantage d'une base autoregressive solide. Dream ne conserve qu'un léger avantage sur les benchmarks de codage.
Un écart demeure au niveau des instructions. iLLaDA-Instruct obtient 67,1 points tandis que Qwen2.5 7B Instruct atteint 77,1, avec les mathématiques et le code expliquant la majeure partie de la différence. Les auteurs attribuent cela à l'alignement par apprentissage par renforcement supplémentaire dans Qwen2.5, que iLLaDA n'a pas. Dans l'annexe de l'article, ils notent également que le modèle peut se retrouver bloqué dans des boucles de raisonnement sur des tâches plus difficiles.



