L’IA qui transforme le business ?
Stratégies, mouvements et levées IA décryptés, chaque soir en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Une immersion dans l'univers de l'IA physique
Au cours des dernières années, j'ai été profondément impliqué dans la commercialisation de robots autonomes, d'abord au sein de la scale-up suisse ANYbotics, puis en collaborant avec diverses entreprises du secteur de l'IA physique pour élaborer des stratégies de mise sur le marché. Cette immersion m'a permis de constater un schéma récurrent : bien que l'objectif commun soit d'améliorer les capacités des robots, les méthodes pour y parvenir divergent considérablement.
Deux approches principales émergent dans cette industrie. La première, largement adoptée, repose sur les avancées en apprentissage automatique et met l'accent sur l'exploitation des données. La seconde, moins répandue, se concentre sur l'architecture dès le départ, en s'appuyant sur des déploiements réels et une recherche appliquée. Bien que ces deux méthodes aient leurs mérites et soient soutenues par des équipes compétentes et des financements significatifs, elles reposent sur des hypothèses distinctes, ce qui influence leur impact commercial.
L'approche axée sur les données : un modèle inspiré des succès en IA
L'approche axée sur les données s'inspire des percées réalisées dans le domaine du langage et de la vision artificielle. Cette stratégie repose sur trois piliers : la collecte massive de données, l'entraînement de modèles de plus en plus volumineux, et l'application des lois de mise à l'échelle pour améliorer les performances.
Cette méthode est actuellement la plus répandue dans le domaine de l'IA physique, en grande partie grâce au succès des grands modèles de langage. Les professionnels qui adoptent cette stratégie viennent souvent de milieux spécialisés dans le traitement du langage et la vision par ordinateur, ce qui rend son application à la robotique logique et attrayante.
Des entreprises bien financées, telles que Physical Intelligence, Generalist, 1X fondée en Norvège, et Flexion basée à Zurich, misent sur cette approche. Leurs techniques de collecte de données varient, allant de l'utilisation de modèles vidéo à des dispositifs portables, en passant par la simulation à grande échelle et la téléopération.
L'accent est généralement mis sur des compétences spécifiques et localisées, telles que la manipulation d'objets sur une table ou la locomotion. La méthode standard consiste à entraîner un modèle sur des données limitées, puis à le perfectionner pour une compétence particulière. Ces étapes dépendent de données structurées et sont adaptées aux benchmarks, démonstrations et publications académiques.
Cependant, un défi majeur réside dans le fait que les données physiques ne sont pas aussi abondantes que les textes ou les images, et les exigences en matière de sécurité et de fiabilité sont plus strictes dans le monde physique. Contrairement à un écran, il n'y a pas de touche "retour" lorsqu'une force est exercée dans le monde réel, ce qui nécessite une approche prudente.
Les modèles ne peuvent être fiables que dans des environnements similaires à ceux rencontrés lors de leur entraînement, un concept connu sous le nom de "in distribution". Ainsi, cette approche commence souvent dans des conditions de laboratoire contrôlées, repoussant la complexité du monde réel à plus tard.
Le pari est que les capacités des modèles s'élargiront avec le temps, que les compétences deviendront plus générales et que des mécanismes seront développés pour gérer les cas limites, élargissant progressivement ce qui est considéré comme "in distribution". Cela dépend également de futures avancées en recherche qui rendraient possible le déploiement dans le monde réel. Actuellement, les hallucinations et le raisonnement en boîte noire des modèles de bout en bout limitent leur utilisation dans des environnements complexes et critiques pour la sécurité.
L'approche axée sur l'architecture : embrasser la complexité du monde réel
Contrairement à l'approche axée sur les données, l'approche centrée sur l'architecture repose sur un ensemble d'hypothèses différent, influencé par la recherche appliquée en robotique de terrain et les déploiements réels. Cette méthode accepte la complexité du monde réel dès le départ et adapte l'architecture du modèle pour s'adapter à cette réalité, plutôt que de modifier le monde pour convenir au modèle.
Les équipes qui adoptent cette approche sont moins nombreuses et proviennent généralement de milieux spécialisés en robotique de terrain. Par exemple, FieldAI, fondée par des vétérans du Jet Propulsion Laboratory de la NASA, de Google DeepMind et des défis de robotique de la DARPA, combine des méthodes bayésiennes avec l'apprentissage automatique moderne dans ses Field Foundation Models. Ces modèles ont été déployés sur des centaines de sites à travers l'Europe, l'Asie et l'Amérique du Nord.
Waymo a également adopté ce pari architectural dans le domaine de la conduite autonome. Elle a recherché des modèles de bout en bout purs, mais son Waymo Foundation Model déployé conserve une conception structurée avec des parties interprétables et un traitement bayésien de l'incertitude, permettant de vérifier et de valider ses décisions sur des millions de kilomètres sans conducteur sur des routes publiques.
L'idée centrale est que le monde physique nécessite une approche fondamentalement différente de celle du numérique, et que l'accumulation de données seule ne suffit pas. Les grands modèles de langage, bien qu'entraînés sur des trillions de tokens, continuent d'halluciner. Contrairement à un chatbot, un robot qui hallucine peut causer des dommages physiques réels.
L'intégration de l'IA dans le monde physique est un défi architectural complexe, nécessitant une recherche approfondie et une rigueur mathématique. Le système doit être ancré dans la physique, quantifier son incertitude et agir en conséquence, en recueillant plus d'informations lorsque nécessaire et en se retirant lorsque le risque est trop élevé. Par exemple, un robot sur un chantier ralentira et attendra que la poussière se dissipe avant de poursuivre, imitant ainsi le comportement prudent d'un humain.
Le résultat est un système efficace en termes de données et résilient, capable de comprendre le fonctionnement du monde et de reconnaître ses propres limites. Il peut s'adapter à des conditions dynamiques et imprévues qu'il n'a jamais rencontrées lors de son entraînement. De plus, il peut être déployé dans un nouvel environnement sans information préalable ni infrastructure de soutien, et commencer à travailler comme un nouvel employé dès son premier jour.
Cette approche offre aux clients un niveau d'intelligence opérationnelle qui permet aux robots d'accomplir des tâches complexes du début à la fin, de séquencer de nombreuses actions dans l'ordre et de coordonner plusieurs robots travaillant ensemble. Les compétences individuelles restent cruciales, mais elles sont conçues en tenant compte des contraintes et des imperfections des opérations dans le monde réel dès le départ, plutôt que d'être adaptées par la suite.
Implications commerciales pour les entreprises de robotique
Mon intuition est que les données opérationnelles s'accumulent d'une manière que les benchmarks synthétiques et les démonstrations contrôlées ne peuvent égaler, et que le savoir-faire organisationnel développé pour faire fonctionner des robots dans des environnements non conçus pour eux est difficile à reproduire en laboratoire.
Un système axé sur l'architecture, capable de gérer l'incertitude et de s'adapter aux imprévus, peut être mis en œuvre immédiatement dans des conditions réelles. C'est pourquoi les équipes qui adoptent cette approche tendent à avoir plus de succès commercial.
Cette méthode répond également aux besoins des clients en matière d'intelligence opérationnelle, ajoutant de la valeur à leurs processus existants. Chaque déploiement génère des données opérationnelles, une ressource rare et précieuse dans le domaine de l'IA physique.
Il est paradoxal que l'approche nécessitant le moins de données pour démarrer finisse par accumuler la plus grande quantité de données de haute qualité, reflétant la diversité des conditions et des cas limites qui n'apparaissent que sur le terrain. Ce qui semble être un avantage architectural se traduit en réalité par un avantage en termes de déploiements et un cycle de données auto-renforçant.
L'IA physique est souvent décrite comme une course. La question de savoir qui seront les gagnants finaux reste ouverte, et je ne prétendrai pas savoir comment cela se résoudra. Mais je sais dans quelle direction les preuves sur le terrain pointent.






