Le modèle Helios de Bytedance : génération vidéo IA d'une minute presque en temps réel

⚡ Résumé en français par Brief IA
📄 Article traduit en français
Le modèle Helios de Bytedance : génération vidéo IA d'une minute presque en temps réel
Helios est le premier modèle vidéo de 14 milliards de paramètres à atteindre 19,5 FPS sur un seul GPU tout en produisant des vidéos d'une minute. Le code et les poids du modèle sont disponibles publiquement.
La plupart des modèles de génération vidéo actuels ne produisent que des clips de 5 à 10 secondes et peuvent prendre plusieurs minutes pour les rendre. Les approches en temps réel pour des vidéos plus longues reposent sur des modèles beaucoup plus petits de 1,3 milliard de paramètres qui peinent à maintenir la qualité. Des modèles plus grands comme Krea-RealTime-14B plafonnent à 6,7 FPS sur un H100 et souffrent d'artefacts de dérive sévères.
Helios s'appuie sur Wan-2.1-14B, qui nécessite environ 50 minutes pour générer cinq secondes de vidéo sur un A100. L'entraînement se déroule en trois étapes : Helios-Base (architecture et anti-dérive), Helios-Mid (compression de tokens, 1,05 FPS) et Helios-Distilled, qui maximise la vitesse en réduisant le calcul à seulement trois étapes.
Dans les benchmarks des développeurs, la version distillée de Helios atteint 19,53 FPS—même plus rapide que certains modèles distillés beaucoup plus petits. SANA Video Long, qui possède 2 milliards de paramètres et est environ sept fois plus petit, ne parvient qu'à 13,24 FPS.
À 19,53 FPS sur un H100, Helios-Distilled égalise la vitesse de modèles beaucoup plus petits de 1,3 milliard de paramètres, tandis que d'autres modèles de 14 milliards de paramètres tombent parfois en dessous de 1 FPS.
Concernant la qualité vidéo, Helios obtient un score de 6,00 au total pour les courtes vidéos avec 81 images. Les auteurs affirment qu'il surpasse tous les modèles distillés et est comparable à la plupart des modèles de base de cette taille. Pour les longues vidéos, Helios a obtenu un score de 6,94, devançant le précédent leader, Reward Forcing, qui avait un score de 6,88. Une étude utilisateur avec 200 participants confirme ces résultats.
Helios-Base domine le classement de qualité des longues vidéos et se défend bien contre des modèles de base significativement plus grands en matière de génération de courtes vidéos.
Les vidéos générées plus longues perdent généralement en qualité, en cohérence des couleurs et en cohérence du contenu au fil du temps. Les modèles précédents abordent ce problème avec des techniques complexes comme le self-forcing, où le modèle réintroduit sa propre sortie comme entrée pendant l'entraînement pour réduire l'écart entre l'entraînement et l'inférence. Helios évite tout cela.
Les auteurs identifient trois modèles de dérive typiques et proposent des solutions plus simples :
- Codage de position relatif : empêche le modèle d'atteindre des indices de position inconnus dans les longues vidéos, ce qui provoquerait des mouvements répétitifs.
- Ancre de première image : conserve la première image en mémoire en tout temps, offrant au modèle un point de référence visuel pour éviter les dérives de couleur.
- Simulation de perturbation ciblée : rend le modèle plus résilient à ses propres erreurs, qui, autrement, s'accumuleraient avec le temps.
Un modèle gérant texte, image et vidéo
Helios utilise une architecture unifiée qui prend en charge le texte vers vidéo, l'image vers vidéo et la vidéo vers vidéo dans un seul cadre. Le modèle passe automatiquement d'une tâche à l'autre en fonction du contexte précédent.
- Si le contexte est vide, le modèle génère à partir de texte.
- Si seule la dernière image est présente, il fonctionne comme un animateur d'images.
- Si plusieurs images sont disponibles, il continue une vidéo existante.
Les utilisateurs peuvent également changer le texte de l'invite en cours de génération ; un fondu progressif entre l'ancienne et la nouvelle invite aide à éviter des ruptures visuelles brusques.
L'architecture de Helios compresse le contexte historique sur trois échelles temporelles et passe automatiquement entre les entrées texte, image et vidéo.
Le modèle a été entraîné en trois étapes sur 800 000 clips vidéo courts, chacun de moins de dix secondes. La résolution atteint actuellement 384 x 640 pixels, et des artefacts de scintillement apparaissent encore lors des transitions de segments. Comme aucun benchmark ouvert n'existe pour les vidéos longues en temps réel, les chercheurs ont construit leur propre jeu de données de test appelé HeliosBench avec 240 invites.
Compression agressive réduisant les coûts de calcul
Helios atteint ses objectifs de vitesse sans les astuces d'accélération courantes comme le KV cache, l'attention éparse ou la quantification. Au lieu de cela, le modèle compresse agressivement les données d'entrée à deux niveaux.
-
Une structure de mémoire hiérarchique divise l'historique vidéo en trois échelles temporelles. Les images récentes bénéficient d'une compression plus légère, tandis que les images plus anciennes sont compressées plus fortement. Cela réduit le nombre de tokens à traiter par un facteur de huit.
-
Un processus d'échantillonnage en plusieurs étapes réduit le nombre de tokens pour le segment vidéo en cours de génération par un facteur de 2,29. Les premières étapes fonctionnent à une résolution plus basse, et seules les étapes ultérieures remplissent les détails fins. Ensemble, ces deux techniques réduisent les coûts de calcul à peu près au même niveau que la génération d'une seule image.
À mesure que la longueur du contexte augmente, l'approche naïve voit une augmentation linéaire du nombre de tokens, de l'utilisation de la mémoire et du temps d'inférence, tandis que Helios reste presque constant. L'approche standard manque de mémoire à une longueur de contexte de 6.
Brief IA — Veille IA en français
Toutes les innovations mondiales en IA, traduites et résumées automatiquement. Recevoir les meilleures actus IA chaque jour.