Brief IA : Tencent HY-World 2.0 : l'IA open-source qui redéfinit la 3D

Tencent HY-World 2.0 : l'IA open-source qui redéfinit la 3D

Brief IA
Tom Levy·5 min·3 vues

Tencent Hunyuan a lancé HY-World 2.0, un modèle d'IA open-source capable de transformer des descriptions textuelles en jeux vidéo en générant des environnements 3D interactifs en environ 10 minutes. Cette avancée permet aux développeurs de personnaliser l'outil, favorisant l'innovation dans l'industrie du jeu et rendant le processus de création plus accessible. HY-World 2.0 se distingue des solutions fermées comme Google Genie 3 et Marble.

En bref
1Tencent dévoile HY-World 2.0, une IA open-source générant des mondes 3D en 10 minutes, défiant Google et World Labs.
2Le modèle utilise le 3D Gaussian Splatting pour créer des environnements interactifs compatibles avec Unity et Unreal Engine.
3HY-World 2.0 permet des applications variées, du développement de jeux vidéo à la robotique incarnée, grâce à sa capacité de simulation avancée.
💡Pourquoi c'est importantHY-World 2.0 offre aux développeurs une alternative puissante et ouverte face aux solutions propriétaires, élargissant les possibilités créatives et industrielles.
Le brief IA que lisent les pros

Tu codes avec l’IA ?

Outils, agents et nouveautés dev IA décryptés, chaque soir en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Tencent Hunyuan a récemment dévoilé HY-World 2.0, une avancée majeure dans le domaine de l'intelligence artificielle spatiale. Ce modèle fondateur multi-modal open-source est capable de générer des environnements 3D interactifs en seulement 10 minutes. Cette innovation se distingue nettement des solutions fermées comme Google Genie 3 ou Marble de World Labs. HY-World 2.0 intègre le 3D Gaussian Splatting (3DGS), une technologie qui unifie la création générative et la reconstruction physique, permettant des exports natifs vers des moteurs de jeu tels que Unity et Unreal Engine.

Déploiement Open-Source et Performances Techniques

Tencent Hunyuan a mis à disposition HY-World 2.0 en open-source, incluant le poids, le code et un rapport technique détaillé. Ce choix stratégique défie les plateformes propriétaires comme Marble de World Labs et les approches vidéo de Genie 3 de Google DeepMind. Le modèle parvient à générer un monde 3D complet en 712 secondes, soit environ 10 minutes, grâce à l'accélération matérielle des GPU NVIDIA H20. Le pipeline de génération réduit le volume des Gaussiennes de 73,7 %, passant de 5,254 millions à 1,383 million, tout en maintenant une haute fidélité visuelle avec un PSNR de 25.017.

Processus de Génération en Quatre Étapes

Le succès de HY-World 2.0 repose sur une chaîne d'assemblage algorithmique précise, transformant l'information visuelle de la 2D en une 3D cohérente. Le processus débute par une initialisation panoramique avec HY-Pano 2.0, qui convertit un texte ou une image en une sphère visuelle complète. Ce système utilise un réseau MMDiT (Multi-Modal Diffusion Transformer) pour apprendre la transformation vers la projection équirectangulaire (ERP), garantissant un environnement à 360° sans artefacts visuels grâce à un padding circulaire et un mélange de pixels aux frontières.

L'étape suivante implique la cartographie de cet environnement virtuel. WorldNav utilise MoGe2 pour extraire un nuage de points panoramique global (Ppan), tandis que Qwen3-VL identifie les repères sémantiques 3D et SAM3 génère les masques 2D. L'espace est ensuite converti en un NavMesh par Recast Navigation, permettant le calcul de jusqu'à 35 trajectoires de caméra distinctes pour explorer l'espace virtuellement sans collisions.

Pour combler les angles morts, WorldStereo 2.0 génère de nouvelles vues le long des 35 trajectoires calculées. Plutôt que de compresser l'information de manière spatio-temporelle, le modèle utilise un Keyframe-VAE à compression purement spatiale. La cohérence entre ces nouvelles images est assurée par la mémoire Global-Geometric Memory (GGM) et un module de stitching spatial nommé SSM++, garantissant que chaque angle de vue respecte la géométrie globale.

La dernière étape, la « Composition du Monde », est orchestrée par WorldMirror 2.0. Ce réseau agrège les images générées pour construire une scène 3D Gaussian Splatting (3DGS). L'intégration de MaskGaussian permet un filtrage probabiliste via Gumbel-Softmax, éliminant les points inutiles. Ce module de reconstruction améliore le score AUC@30 (précision géométrique) de 66.29 à 86.89 sur le benchmark RealEstate10K.

Applications Industrielles de HY-World 2.0

La mise à disposition de l'architecture HY-World 2.0 en open-source ouvre la voie à des applications critiques pour les développeurs. Dans le domaine du jeu vidéo, l'extraction de maillages via l'algorithme des marching cubes permet aux développeurs, qu'ils soient indépendants ou issus de studios AAA, d'importer instantanément les niveaux générés dans des moteurs de jeu. L'environnement n'est pas qu'une simple texture : la topologie polygonale légère permet une intégration immédiate dans Unity ou Unreal Engine, avec une gestion de la gravité et des collisions pour les personnages joueurs.

Pour la robotique, HY-World 2.0 sert de générateur de données pour la Robotics Simulation. Les robots peuvent exploiter le NavMesh et les cartes de profondeur générées pour apprendre à naviguer dans des espaces complexes, virtuellement synthétisés à partir de simples prompts textuels.

En s'appuyant sur des bases de données réelles, la capacité de reconstruction de WorldMirror 2.0 permet de générer des jumeaux numériques précis pour l'Environment Mapping. Le système gère les pixels invalides de manière robuste grâce à une tête de prédiction de masque de profondeur dédiée.

Comparaison avec les Géants de l'IA

HY-World 2.0 se positionne stratégiquement face à Google Genie 3 et Marble. Alors que Genie 3 se limite à une génération vidéo, HY-World 2.0 crée un maillage 3D réel et un rendu 3DGS physique, offrant une géométrie tangible et des collisions matérielles. En comparaison avec Marble, HY-World 2.0 maintient une fidélité supérieure aux consignes initiales, sans flous ni altérations géométriques lors de changements de point de vue.

Tableau Comparatif des Modèles

| Caractéristique Technique | Genie 3 (Google DeepMind) | Marble (World Labs) | HY-World 2.0 (Tencent) | |--------------------------|----------------------------|----------------------|-------------------------| | Licence et Accès | Propriétaire / Fermé | Propriétaire / Commercial | Open-Source (Poids & Code) | | Format de Sortie | Flux Vidéo Interactif | Rendu 3DGS propriétaire | 3DGS, TSDF Mesh, Point Clouds | | Géométrie Tangible | Non (Illusion 2D) | Oui | Oui (NavMesh et Collisions) | | Temps d’Inférence | Temps réel (Résolution adaptative) | Non communiqué | 712 s (GPU NVIDIA H20) | | Méthode d’Expansion | Prédiction de frames latentes | Inconnue | Keyframe-VAE + SSM++ Memory |

Avec HY-World 2.0, Tencent Hunyuan propose une alternative puissante et accessible, élargissant les horizons de la création numérique et offrant aux développeurs une flexibilité inédite face aux solutions propriétaires.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires