Brief IA

LatentVLA : Modèles de Raisonnement Latent pour la Conduite Autonome

🤖 Modèles & LLMvia Towards Data Science·Ryan Pégoud·

LatentVLA : Modèles de Raisonnement Latent pour la Conduite Autonome

LatentVLA : Modèles de Raisonnement Latent pour la Conduite Autonome

⚡ Résumé en français par Brief IA

• L'article explore l'idée que le langage naturel pourrait ne pas être la meilleure abstraction pour la conduite autonome. • Le modèle LatentVLA propose une approche innovante pour le raisonnement latent dans le contexte de la conduite. • Cette recherche remet en question les paradigmes actuels en matière d'IA pour la conduite, en suggérant des alternatives potentiellement plus efficaces. 💡 Pourquoi c'est important : cette recherche pourrait transformer la manière dont les systèmes de conduite autonome interprètent et réagissent aux environnements complexes.

📄 Article traduit en français

LatentVLA : Modèles de Raisonnement Latent pour la Conduite Autonome

Introduction

Nous avons discuté d'AlpamayoR1 (AR1), un modèle de conduite autonome intégrant un VLM (modèle de langage visuel) pour servir de base au raisonnement. Il repose sur un ensemble de données de chaîne de causalité soigneusement collecté. L'entraînement sur cet ensemble de données permet à AR1 de « raisonner » en langage naturel pour résoudre des situations de conduite difficiles.

Mais que se passe-t-il si le langage naturel n'est pas le meilleur support pour le raisonnement dans les scénarios de conduite ? En effet, face à une situation de conduite nécessitant une réaction immédiate, les conducteurs humains agissent généralement de manière réflexe plutôt que de « raisonner étape par étape en langage ». Quelle est l'alternative pour les modèles de conduite ?

Dans cet article, nous décomposons l'architecture LatentVLA, une approche convaincante contre les méthodes basées sur le langage qui ne nécessite aucun ensemble de données en langage naturel, effectue le raisonnement dans l'espace latent et utilise la distillation des connaissances pour répondre aux contraintes en temps réel.

AlpamayoR1 : Grands Modèles de Raisonnement Causal pour la Conduite Autonome

Apprentissage d'Actions Latentes

Une grande partie du succès d'AR1 réside dans l'ensemble de données de chaîne de causalité, dont la collecte a nécessité des efforts à l'échelle industrielle, un pipeline de labellisation soigneusement élaboré et une validation extensive.

En revanche, LatentVLA prend une direction complètement opposée : les auteurs soutiennent que les données de conduite brutes contiennent déjà la structure nécessaire pour entraîner un grand modèle et que le langage naturel est intrinsèquement biaisé et difficile à aligner avec les actions. De plus, générer des chaînes de raisonnement en langage naturel est inefficace, car certains tokens n'apportent pas de contribution significative au processus de raisonnement (par exemple, les mots vides).

Ainsi, ils introduisent un cadre auto-supervisé utilisé pour prédire des actions latentes égo-centrées dans un petit espace latent. En d'autres termes, le modèle utilise des données de conduite non labellisées pour prédire quelle action le conducteur aurait dû prendre pour générer ces données. Ces actions latentes serviront de blocs de construction pour le raisonnement dans l'espace latent.

Apprentissage de Représentation

Pour prédire des actions latentes à partir de données non labellisées, les auteurs utilisent une méthode rappelant LAPO (apprendre à agir sans actions). Cette approche repose sur une configuration encodeur-décodeur où l'encodeur (également appelé « modèle de dynamique inverse », IDM) utilise deux images successives pour prédire un vecteur d'action continu et le décodeur (appelé « modèle de dynamique directe », FDM) utilise l'image actuelle et le vecteur d'action prédit pour reconstruire l'image suivante.

Cette configuration astucieuse force la représentation d'action apprise à décrire quelle action a dû être prise pour observer les transitions d'état dans notre ensemble de données. Cependant, cette représentation d'action continue est encore incompatible avec les VLM que nous avons l'intention d'utiliser. Pour la discrétiser, les auteurs utilisent un VQ-VAE (Auto-encodeur Variationnel Quantifié par Vecteur), qui mappe des vecteurs continus aux vecteurs discrets les plus proches dans un codebook appris (c'est-à-dire un dictionnaire d'actions discrètes) de manière différentiable. C'est cette action qui sera utilisée par le FDM pour décoder l'image suivante.

En optimisant l'erreur de reconstruction de l'image suivante, nous avons conjointement entraîné l'IDM et le FDM pour encoder une représentation d'action discrète prédictive.

Distinction entre Ego-Actions et Bruit Environnemental

Vous pourriez penser : « Les actions du conducteur ne sont pas le seul facteur influençant l'image suivante lors de la conduite, que se passe-t-il si un oiseau vole devant la caméra ? Cela pollue-t-il la représentation d'action ? ». À cela, les auteurs répondent oui et non, il doit y avoir un mécanisme qui dissocie l'impact des actions du conducteur sur le futur des dynamiques environnementales.

La solution élégante à ce problème est d'utiliser une configuration encodeur-décodeur en deux étapes :

  • Conditionné par la trajectoire réelle, l'état égo et l'image précédente, l'encodeur prédit une action latente. Étant donné que cette action est conditionnée par la dynamique du véhicule à travers la trajectoire et l'état égo, elle n'a besoin que de modéliser les dynamiques environnementales pour permettre au décodeur de reconstruire l'image suivante. Cette « action environnementale » est ensuite quantifiée et le codebook utilisé à cette fin est gelé pour la prochaine étape.

  • Conditionné par l'image précédente et l'action environnementale, l'encodeur encode une autre action latente. De même, puisque les dynamiques environnementales sont connues et font partie du conditionnement, cette seconde action latente est forcée d'encoder les dynamiques égo-centrées. À l'aide d'un nouveau codebook, cette action est quantifiée en une action égo-discrète.

Enfin, nous alimentons les deux actions au décodeur pour reconstruire l'image suivante. Cette configuration garantit une séparation claire des ego-actions et des dynamiques environnementales.

En s'appuyant sur la représentation d'action apprise, les auteurs entraînent un modèle Qwen2.5-VL pour prédire les mêmes actions latentes que le modèle encodeur-décodeur. Cela est réalisé en faisant prédire à l'encodeur une trajectoire de 12 actions latentes.

TwitterLinkedIn

Brief IA — Veille IA en français

Toutes les innovations mondiales en IA, traduites et résumées automatiquement. Recevoir les meilleures actus IA chaque jour.