Tu suis la course aux modèles IA ?
Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Introduction
Le modèle AlpamayoR1 (AR1) a été conçu pour la conduite autonome en utilisant un modèle de langage visuel (VLM) comme base de raisonnement. Ce modèle s'appuie sur un ensemble de données de chaînes de causalité méticuleusement collectées, permettant à AR1 de résoudre des situations de conduite complexes en utilisant le langage naturel. Cependant, dans des scénarios où une réaction rapide est cruciale, le langage naturel pourrait ne pas être le support le plus efficace pour le raisonnement. Les conducteurs humains, dans des situations critiques, réagissent souvent de manière instinctive plutôt que de suivre un raisonnement verbal détaillé. Ainsi, une alternative aux modèles basés sur le langage est nécessaire.
L'architecture LatentVLA propose une approche novatrice qui s'écarte des méthodes traditionnelles basées sur le langage. Elle effectue le raisonnement dans un espace latent, sans nécessiter de données en langage naturel, et utilise la distillation des connaissances pour répondre aux contraintes de temps réel.
AlpamayoR1 : Grands Modèles de Raisonnement Causal pour la Conduite Autonome
Apprentissage d'Actions Latentes
Le succès d'AlpamayoR1 repose en grande partie sur son ensemble de données de chaînes de causalité, dont la collecte a nécessité un effort industriel considérable, avec un pipeline de labellisation sophistiqué et une validation rigoureuse. En revanche, LatentVLA adopte une approche radicalement différente. Les auteurs de LatentVLA soutiennent que les données brutes de conduite contiennent déjà la structure nécessaire pour entraîner un modèle performant. Selon eux, le langage naturel est biaisé et difficile à aligner avec les actions de conduite, et les chaînes de raisonnement en langage naturel peuvent être inefficaces, certains mots n'apportant aucune valeur ajoutée au processus de raisonnement.
LatentVLA introduit un cadre auto-supervisé pour prédire des actions latentes égo-centrées dans un espace latent restreint. Cela signifie que le modèle utilise des données de conduite non labellisées pour prédire les actions que le conducteur aurait dû prendre pour générer ces données. Ces actions latentes deviennent les éléments de base pour le raisonnement dans l'espace latent.
Apprentissage de Représentation
Pour prédire les actions latentes à partir de données non labellisées, les auteurs s'inspirent de la méthode LAPO (apprendre à agir sans actions). Cette approche utilise une configuration encodeur-décodeur. L'encodeur, également connu sous le nom de modèle de dynamique inverse (IDM), utilise deux images successives pour prédire un vecteur d'action continu. Le décodeur, ou modèle de dynamique directe (FDM), utilise l'image actuelle et le vecteur d'action prédit pour reconstruire l'image suivante.
Cette configuration oblige la représentation d'action apprise à décrire l'action nécessaire pour observer les transitions d'état dans l'ensemble de données. Cependant, cette représentation continue n'est pas compatible avec les VLM que LatentVLA souhaite utiliser. Pour résoudre ce problème, les auteurs emploient un auto-encodeur variationnel quantifié par vecteur (VQ-VAE), qui associe des vecteurs continus aux vecteurs discrets les plus proches dans un dictionnaire d'actions discrètes appris de manière différentiable. Cette action discrète est ensuite utilisée par le FDM pour décoder l'image suivante.
En optimisant l'erreur de reconstruction de l'image suivante, l'IDM et le FDM sont conjointement entraînés pour encoder une représentation d'action discrète prédictive.
Distinction entre Ego-Actions et Bruit Environnemental
Une question se pose : « Les actions du conducteur ne sont-elles pas influencées par d'autres facteurs, comme un oiseau passant devant la caméra ? » Les auteurs reconnaissent ce problème et proposent une solution élégante pour dissocier l'impact des actions du conducteur des dynamiques environnementales.
La solution consiste en une configuration encodeur-décodeur en deux étapes :
-
D'abord, l'encodeur, conditionné par la trajectoire réelle, l'état égo et l'image précédente, prédit une action latente. Cette action, conditionnée par la dynamique du véhicule, modélise uniquement les dynamiques environnementales pour permettre au décodeur de reconstruire l'image suivante. Cette « action environnementale » est quantifiée, et le codebook utilisé est figé pour l'étape suivante.
-
Ensuite, l'encodeur, conditionné par l'image précédente et l'action environnementale, encode une autre action latente. Comme les dynamiques environnementales sont connues, cette seconde action latente encode les dynamiques égo-centrées. Un nouveau codebook est utilisé pour quantifier cette action en une action égo-discrète.
Enfin, les deux actions sont fournies au décodeur pour reconstruire l'image suivante. Cette configuration assure une séparation nette entre les ego-actions et les dynamiques environnementales.
En s'appuyant sur la représentation d'action apprise, les auteurs entraînent un modèle Qwen2.5-VL pour prédire les mêmes actions latentes que le modèle encodeur-décodeur. Cela est réalisé en faisant prédire à l'encodeur une trajectoire de 12 actions latentes.
