Le modèle mondial de Séoul de Naver utilise des données réelles de Street View pour empêcher l'IA de halluciner des villes entières
🤖 Modeles & LLM

Le modèle mondial de Séoul de Naver utilise des données réelles de Street View pour empêcher l'IA de halluciner des villes entières

The Decoder
Jonathan Kemper·6 min·0 vues
En bref
1Naver a développé un modèle vidéo basé sur la géométrie réelle des villes à partir de plus d'un million d'images de Street View.
2Le modèle est capable de généraliser à d'autres villes sans ajustement fin.
3Cette innovation pourrait transformer la manière dont les IA interagissent avec des environnements urbains, réduisant les erreurs de perception.
💡Pourquoi c'est importantcela pourrait améliorer la fiabilité des applications d'IA dans la navigation et la planification urbaine.
📄
Article traduit en français

Le modèle mondial de Séoul de Naver utilise des données réelles de Street View pour empêcher l'IA de halluciner des villes entières

Naver, la société internet sud-coréenne, a introduit le Seoul World Model (SWM), un modèle vidéo qui génère des vidéos basées sur des lieux en utilisant la géométrie réelle des villes dérivée de 1,2 million de ses propres images de Street View.

Le modèle apprend à séparer les structures permanentes comme les bâtiments des objets transitoires en analysant des enregistrements pris à différents moments, tout en utilisant des vidéos simulées pour combler les angles de caméra manquants et les images de Street View plus loin sur un itinéraire comme ancres visuelles pour maintenir la cohérence sur de plus longues distances.

Dans des benchmarks, le SWM a surpassé six modèles vidéo actuels en termes de qualité visuelle et de cohérence temporelle, et a réussi à se généraliser à des villes inconnues comme Busan et Ann Arbor sans formation supplémentaire.

Naver a construit un modèle vidéo ancré dans la géométrie réelle des villes à partir de plus d'un million de ses propres images de Street View. Le modèle se généralise à d'autres villes sans aucun ajustement fin.

Les modèles vidéo précédents produisent des environnements visuellement convaincants mais entièrement fictifs. Tout ce qui dépasse l'image de départ — rues invisibles, bâtiments lointains — est halluciné. Les chercheurs de Naver et de Naver Cloud adoptent une approche fondamentalement différente : leur Seoul World Model (SWM) ancre la génération vidéo dans la géométrie et l'apparence réelles d'une ville.

Le SWM suit de véritables itinéraires à travers Séoul et génère des vidéos que les utilisateurs peuvent modifier avec des invites textuelles - ajoutant des voitures en feu ou faisant apparaître Godzilla entre des gratte-ciel.

Défis liés aux données réelles des rues

Travailler avec des images réelles introduit des problèmes qui n'existent pas avec des modèles mondiaux purement synthétiques. Le plus grand défi : les images de Street View sont des instantanés. Les voitures et les piétons capturés au moment du tournage n'ont rien à voir avec la scène dynamique que le modèle doit générer. Sans correction, le modèle copierait simplement ces objets aléatoires des images de référence dans la vidéo générée.

Les chercheurs résolvent ce problème avec le mécanisme de couplage cross-temporel : pendant l'entraînement, ils combinent délibérément des images de référence et des séquences cibles provenant de différents moments d'enregistrement. Cela apprend au modèle à distinguer entre les structures permanentes comme les façades de bâtiments et les objets transitoires comme les voitures garées. Dans des études d'ablation, ce mécanisme s'est révélé être le composant le plus efficace.

De plus, les caméras de Street View sont montées sur des véhicules et ne capturent une image que tous les 5 à 20 mètres. Cela signifie qu'il n'y a pas de vidéos continues et pas d'images d'une perspective piétonne ou aérienne. Pour combler cette lacune, les chercheurs ont généré 12 700 vidéos synthétiques dans le simulateur CARLA, avec des chemins de caméra couvrant des perspectives piétonnes, de véhicules et de vol libre. Ils ont également développé un pipeline qui interpole des vidéos d'entraînement temporellement cohérentes à partir des images individuelles spatialement dispersées.

Enfin, de petites erreurs s'accumulent sur de longues distances car le modèle génère la vidéo section par section. Les méthodes précédentes utilisent la toute première image comme ancre fixe, mais cela devient inutile une fois que la caméra a parcouru des centaines de mètres.

Le SWM remplace cette ancre statique par un "point de vue virtuel" : pour chaque nouvelle section, le modèle récupère une image de Street View légèrement plus loin sur l'itinéraire et l'insère comme destination virtuelle. Cela donne au modèle un repère sans erreur qui se déplace avec la caméra.

Collaboration entre cartes de profondeur et images originales

Les images de Street View récupérées alimentent le processus de génération par deux voies complémentaires. D'abord, le modèle projette une image de référence spatialement proche dans la perspective cible en utilisant ses informations de profondeur, fournissant la disposition spatiale de la scène.

Ensuite, les images de référence ne sont pas directement introduites dans le Transformer sous forme de pixels bruts. Au lieu de cela, elles sont d'abord encodées en représentations latentes et intégrées comme références sémantiques. Cela permet au modèle de capter des détails d'apparence supplémentaires de l'environnement. Selon les chercheurs, la qualité chute de manière significative si l'une de ces deux voies est supprimée.

Le SWM est construit sur le modèle Cosmos-Predict2.5-2B de Nvidia, un transformateur de diffusion avec deux milliards de paramètres. Les chercheurs ont entraîné le modèle sur 24 GPU Nvidia H100 en utilisant 440 000 images de Street View de Séoul, les données synthétiques de CARLA, et des données de conduite disponibles publiquement de Waymo.

Généralisation à des villes non entraînées

Les chercheurs ont testé le SWM à Séoul, mais aussi à Busan et dans la ville américaine d'Ann Arbor, toutes deux complètement absentes de l'entraînement. Selon l'article, le SWM surpasse six modèles vidéo actuels, y compris Aether, DeepVerse, et HY-World1.5, en qualité visuelle, fidélité de la caméra, cohérence temporelle et correspondance avec des lieux réels sur des benchmarks personnalisés avec 30 séquences de test d'environ 100 mètres chacune.

Les modèles existants dérivent de plus en plus sur de longues distances, produisant des vidéos floues ou un effondrement complet de la génération. Le SWM maintient sa sortie stable sur des centaines de mètres. Malgré l'ancrage spatial strict, le modèle répond toujours aux invites textuelles : les utilisateurs peuvent changer la météo, l'heure de la journée ou ajouter des scénarios hypothétiques tout en maintenant la disposition sous-jacente de la ville intacte.

Limites de la qualité de prédiction

Parce que les enregistrements vidéo continus de villes entières ne sont pas librement disponibles, l'entraînement repose sur des séquences interpolées d'images individuelles, qui ne sont pas à la hauteur de la qualité des véritables séquences vidéo. Des horodatages incorrects dans les métadonnées provoquent également parfois des véhicules apparaissant ou disparaissant brusquement dans les vidéos générées.

Toutes les données de Street View ont été traitées en conformité avec les réglementations sur la vie privée, affirment les chercheurs, avec des visages et des plaques d'immatriculation anonymisés avant l'entraînement. Ils soulignent la planification urbaine, la conduite autonome et l'exploration basée sur la localisation comme cas d'utilisation potentiels.

Les modèles mondiaux sont actuellement l'un des domaines de recherche les plus actifs en IA. Runway a récemment dévoilé son premier "General World Model," GWM-1, qui construit une représentation interne d'un environnement et simule des événements futurs en temps réel. Le PDG de Google Deepmind, Demis Hassabis, considère ces modèles comme une étape cruciale vers l'intelligence artificielle générale. Une étude récente de Microsoft Research et de plusieurs universités américaines a également montré que les grands modèles de langage peuvent fonctionner comme des modèles mondiaux, prédisant les conditions environnementales avec plus de 99 % de précision.

Lire l'article original sur The Decoder

📧

Cet article vous a plu ?

Recevez les 7 meilleures actus IA chaque soir à 19h — résumées en 5 min.

Chaque soir à 19h

Gratuit · Pas de spam · Désabonnement en 1 clic

Commentaires