Quel est le modèle de langage développé par ByteDance et en quoi se distingue-t-il ?

ByteDance, en collaboration avec l'Université Renmin, a développé iLLaDA, un modèle de langage de 8 milliards de paramètres. Ce modèle se distingue par sa méthode de génération de texte, qui diffère de celle de ChatGPT, bien qu'il soit en compétition avec Qwen2.5, affichant des performances inférieures après ajustement fin. (Brief IA — briefia.fr).

Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

ByteDance défie Qwen2.5 avec son modèle iLLaDA innovant

Brief IA

Tom Levy·27 juin 2026·3 min·2 vues

⚡

En bref

1ByteDance et l'Université Renmin ont développé iLLaDA, un modèle de langage doté de 8 milliards de paramètres.

2iLLaDA se distingue par sa capacité à générer du texte différemment de ChatGPT, bien qu'il reste en compétition avec Qwen2.5.

3Malgré une performance compétitive au niveau de base, iLLaDA montre des résultats inférieurs après ajustement fin comparé à Qwen2.5.

💡Pourquoi c'est important — ByteDance cherche à renforcer sa position dans le domaine des modèles de langage face à des concurrents établis comme Qwen2.5.

ByteDance défie Qwen2.5 avec son modèle iLLaDA innovant

Le modèle de langage iLLaDA de ByteDance est un modèle de diffusion qui rivalise avec Qwen2.5.

Des chercheurs de l'Université Renmin et de ByteDance ont lancé iLLaDA, un modèle de langage de 8 milliards de paramètres qui fonctionne différemment de ChatGPT. Il égalise Qwen2.5 au niveau de base, mais accuse un retard après l'affinage.

Presque tous les modèles de langage AI bien connus, comme GPT, Claude ou Qwen, génèrent du texte de manière autoregressive : mot par mot, de gauche à droite, chaque nouveau token dépendant uniquement de ceux qui le précèdent.

Les modèles de langage de diffusion adoptent une approche différente. Ils commencent avec une séquence de tokens masqués et les affinent à travers plusieurs passes en parallèle. C'est similaire à la façon dont les modèles d'image façonnent une image à partir de bruit. Chaque position peut prêter attention à toutes les autres positions en même temps, rendant le processus bidirectionnel.

iLLaDA fait partie d'un mouvement plus large qui inclut Google. En juin 2026, Google DeepMind a lancé DiffusionGemma. Ce modèle génère du texte environ quatre fois plus rapidement via diffusion, mais obtient de moins bons résultats sur des benchmarks comme MMLU et le code que le modèle autoregressif de taille similaire, Gemma 4. Google le recommande pour des cas d'utilisation à faible latence, et non pour des productions critiques en qualité.

DiffusionGemma adopte une approche différente. Il est construit sur l'architecture de Gemma 4, un modèle mixture-of-experts de 25 milliards de paramètres qui change uniquement la méthode de génération pour privilégier la vitesse. iLLaDA, abréviation de "improved LLaDA", prend le chemin inverse. C'est un modèle dense de 8 milliards de paramètres entraîné depuis le début, axé sur la qualité.

La question qui se pose est de savoir si un modèle de diffusion construit de zéro peut réellement rivaliser avec les modèles autoregressifs. Une comparaison numérique directe entre les deux est cependant difficile. Google utilise des variantes de benchmark partiellement différentes et plus difficiles, et DiffusionGemma évolue dans une classe de poids différente.

Ce que peut faire iLLaDA

L'équipe a pré-entraîné iLLaDA sur 12 trillions de tokens, contre 2,3 trillions pour son prédécesseur LLaDA, et l'a affiné pendant douze époques. Selon l'article, iLLaDA-Base améliore considérablement LLaDA, avec un bond de 21,6 points sur le test de raisonnement BBH, par exemple. En moyenne, il atteint 63,9 points, dépassant légèrement Qwen2.5 7B qui obtient 63,3.

Mathématiques et Sciences

La comparaison avec le modèle de diffusion concurrent Dream 7B favorise également iLLaDA. Dream n'a pas été entraîné depuis le début mais a été affiné à partir d'un point de contrôle existant de Qwen2.5. iLLaDA bat toujours Dream en moyenne, 63,9 contre 61,4, même sans l'avantage d'une base autoregressive solide. Dream ne conserve qu'un léger avantage sur les benchmarks de codage.

Un écart demeure au niveau des instructions. iLLaDA-Instruct obtient 67,1 points tandis que Qwen2.5 7B Instruct atteint 77,1, avec les mathématiques et le code expliquant la majeure partie de la différence. Les auteurs attribuent cela à l'alignement par apprentissage par renforcement supplémentaire dans Qwen2.5, que iLLaDA n'a pas. Dans l'annexe de l'article, ils notent également que le modèle peut se retrouver bloqué dans des boucles de raisonnement sur des tâches plus difficiles.

ByteDance défie Qwen2.5 avec son modèle iLLaDA innovant

La recherche en IA te passionne ?

ByteDance défie Qwen2.5 avec son modèle iLLaDA innovant

Ce que peut faire iLLaDA

Mathématiques et Sciences

ByteDance : Seedance 2.5 révolutionne la vidéo IA

Qwen 3.5 et GLM 5 : les géants chinois de l'IA en pleine expansion

GLM-5.2 : le modèle d'IA chinois qui fascine la Silicon Valley

Seedance 2.5 de ByteDance : l'IA vidéo dépasse les 30 secondes

LLM s'auto-formant : vers l'autonomie des modèles IA

ByteDance mise 30 milliards sur l'IA et les puces chinoises d'ici 2026