Brief IA : Naver révolutionne la vidéo IA avec le modèle réaliste de Séoul

Naver révolutionne la vidéo IA avec le modèle réaliste de Séoul

Brief IA
Tom Levy·5 min·1 vues

Naver a lancé le Seoul World Model (SWM), un modèle vidéo qui utilise 1,2 million d'images de Street View pour générer des vidéos basées sur la géométrie réelle des villes. Ce modèle se généralise à d'autres villes sans ajustement fin et a surpassé six modèles vidéo existants en qualité visuelle et cohérence temporelle, ce qui pourrait améliorer la fiabilité des applications d'IA dans la navigation et la planification urbaine.

En bref
1Naver a lancé le Seoul World Model, utilisant 1,2 million d'images Street View pour créer des vidéos réalistes.
2Le modèle surpasse six autres en qualité visuelle et s'adapte à des villes non entraînées comme Busan.
3Des défis techniques incluent la gestion des objets transitoires et l'interpolation de vidéos à partir d'images fixes.
💡Pourquoi c'est importantCette avancée pourrait transformer des secteurs comme la planification urbaine et la conduite autonome grâce à des simulations réalistes.
Le brief IA que lisent les pros

Tu suis la course aux modèles IA ?

Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Naver innove avec le Seoul World Model

La société sud-coréenne Naver a récemment dévoilé le Seoul World Model (SWM), un modèle vidéo innovant qui génère des vidéos basées sur des lieux réels. Ce modèle s'appuie sur la géométrie des villes, en utilisant un vaste ensemble de 1,2 million d'images issues de son propre service Street View. Cette approche permet de créer des vidéos qui reflètent fidèlement l'apparence des lieux, au lieu de se baser sur des environnements fictifs.

Le SWM se distingue par sa capacité à différencier les structures permanentes, telles que les bâtiments, des objets transitoires comme les voitures, grâce à l'analyse d'enregistrements capturés à différents moments. Pour pallier les angles de caméra manquants, Naver utilise des vidéos simulées et des images de Street View comme ancres visuelles, assurant ainsi une cohérence sur de longues distances.

Performance et généralisation du modèle

Lors de tests comparatifs, le SWM a surpassé six modèles vidéo contemporains en termes de qualité visuelle et de cohérence temporelle. Il a également démontré sa capacité à s'adapter à des villes inconnues telles que Busan et Ann Arbor, sans nécessiter de formation supplémentaire. Cette flexibilité est rendue possible grâce à l'ancrage du modèle dans la géométrie réelle des villes, ce qui lui permet de se généraliser efficacement à d'autres environnements urbains.

Les modèles vidéo traditionnels ont tendance à créer des environnements visuellement convaincants mais entièrement fictifs, où tout ce qui dépasse l'image de départ est inventé. En revanche, le SWM de Naver ancre la génération vidéo dans la réalité urbaine, en suivant de véritables itinéraires à travers Séoul. Les utilisateurs peuvent même modifier les vidéos générées avec des invites textuelles, ajoutant des éléments comme des voitures en feu ou des créatures fantastiques.

Surmonter les défis des données réelles

L'utilisation d'images réelles pose des défis uniques, notamment le fait que les images de Street View sont des instantanés figés dans le temps. Les voitures et les piétons capturés n'ont souvent rien à voir avec la scène dynamique que le modèle doit générer. Pour résoudre ce problème, les chercheurs ont développé un mécanisme de couplage cross-temporel. Ce mécanisme combine des images de référence et des séquences cibles provenant de différents moments d'enregistrement, permettant au modèle de distinguer entre structures permanentes et objets transitoires.

Les caméras de Street View montées sur des véhicules ne capturent des images que tous les 5 à 20 mètres, ce qui signifie qu'il n'existe pas de vidéos continues ni de perspectives piétonnes ou aériennes. Pour combler cette lacune, Naver a généré 12 700 vidéos synthétiques à l'aide du simulateur CARLA, couvrant diverses perspectives. Un pipeline a également été développé pour interpoler des vidéos d'entraînement cohérentes à partir d'images spatialement dispersées.

Améliorations techniques et ancrage dynamique

Les erreurs mineures peuvent s'accumuler sur de longues distances, car le modèle génère la vidéo section par section. Les méthodes antérieures utilisaient la première image comme ancre fixe, mais cela devenait inefficace sur de longues distances. Le SWM introduit un "point de vue virtuel", récupérant une image de Street View légèrement plus loin sur l'itinéraire pour chaque nouvelle section, fournissant ainsi un repère sans erreur qui se déplace avec la caméra.

Collaboration entre cartes de profondeur et images originales

Les images de Street View sont intégrées dans le processus de génération par deux voies complémentaires. D'une part, le modèle projette une image de référence spatialement proche dans la perspective cible en utilisant ses informations de profondeur, établissant ainsi la disposition spatiale de la scène. D'autre part, les images de référence sont encodées en représentations latentes pour capter des détails supplémentaires de l'environnement.

Le SWM repose sur le modèle Cosmos-Predict2.5-2B de Nvidia, un transformateur de diffusion avec deux milliards de paramètres. L'entraînement a été réalisé sur 24 GPU Nvidia H100, utilisant 440 000 images de Street View de Séoul, des données synthétiques de CARLA, et des données de conduite de Waymo.

Adaptation à de nouvelles villes

Le SWM a été testé non seulement à Séoul, mais aussi à Busan et à Ann Arbor, deux villes absentes de l'entraînement initial. Selon les chercheurs, le modèle surpasse six modèles vidéo actuels, y compris Aether, DeepVerse, et HY-World1.5, en termes de qualité visuelle et de cohérence temporelle. Les modèles existants ont tendance à dériver sur de longues distances, produisant des vidéos floues, tandis que le SWM maintient une sortie stable sur des centaines de mètres.

Limites et perspectives d'avenir

L'absence de vidéos continues de villes entières constitue une limite, l'entraînement reposant sur des séquences interpolées d'images individuelles. Des erreurs dans les métadonnées peuvent entraîner des incohérences dans les vidéos générées. Néanmoins, toutes les données de Street View ont été traitées conformément aux réglementations sur la vie privée, avec une anonymisation des visages et des plaques d'immatriculation.

Les chercheurs voient des applications potentielles dans la planification urbaine, la conduite autonome et l'exploration basée sur la localisation. Les modèles mondiaux sont un domaine de recherche en pleine expansion, avec des initiatives comme le GWM-1 de Runway et des études de Microsoft Research montrant le potentiel des grands modèles de langage pour prédire les conditions environnementales avec une précision de plus de 99 %.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires