Qu'est-ce que X-OmniClaw et pourquoi est-ce important ?

Oppo a lancé X-OmniClaw, un agent AI open-source pour Android qui utilise la caméra, l'écran et la voix du téléphone pour exécuter des tâches directement sur l'appareil, sans dépendre du cloud. Cette innovation permet de transformer l'interaction utilisateur avec les applications mobiles en rendant l'IA plus accessible et efficace, en clonant les comportements de l'utilisateur pour automatiser des actions. (Brief IA — briefia.fr).

Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

Oppo X-OmniClaw : l'agent AI open-source qui révolutionne Android

⚡

En bref

1Oppo a lancé X-OmniClaw, un agent AI open-source pour Android, fonctionnant directement sur l'appareil sans passer par le cloud.

2X-OmniClaw utilise la caméra, l'écran et la voix pour accomplir des tâches complexes, comme comparer des prix ou créer des albums photo.

3Le système traite localement les données, évitant ainsi les risques liés aux plateformes cloud, et apprend à reproduire les actions de l'utilisateur.

💡Pourquoi c'est important — X-OmniClaw pourrait transformer l'interaction utilisateur en rendant les smartphones plus autonomes et sécurisés.

Oppo introduit X-OmniClaw, un agent AI révolutionnaire

Oppo a récemment lancé X-OmniClaw, un agent d'intelligence artificielle open-source destiné aux appareils Android. Ce système innovant fonctionne directement sur le téléphone, sans nécessiter de connexion à un serveur cloud. Il utilise la caméra, l'écran et la voix pour accomplir diverses tâches au sein des applications, tout en restant sur l'appareil physique.

Le système combine plusieurs canaux de perception, traitant les photos de la galerie localement pour les transformer en une mémoire textuelle consultable. Il apprend également en clonant le comportement de l'utilisateur, ce qui lui permet de reproduire des actions de manière autonome.

Fonctionnalités démontrées de X-OmniClaw

Lors de démonstrations, X-OmniClaw a montré sa capacité à comparer les prix de produits capturés par la caméra, à agir comme un assistant flottant pour résoudre des exercices, et à créer indépendamment des albums photo à partir de la galerie d'un utilisateur.

L'équipe Multi-X d'Oppo a publié cet agent open-source qui utilise la caméra, l'écran et la voix pour accomplir des tâches dans de vraies applications Android, sans passer par une copie cloud de votre téléphone. Cela contraste avec des plateformes comme RedFinger, Wuying d'Alibaba et Tencent Cloud Phone, qui exécutent des agents à l'intérieur d'instances Android virtualisées dans un centre de données, limitant ainsi l'accès aux capteurs locaux, aux caméras ou aux données privées.

Une approche unique sur l'appareil

X-OmniClaw adopte une approche inverse en fonctionnant directement sur l'appareil Android physique. La logique de base pour la perception, le contrôle et l'interaction avec les applications réside sur le téléphone lui-même. Un modèle de langage cloud n'est appelé qu'en tant que "carburant" pour un raisonnement de niveau supérieur lorsque cela est nécessaire, selon le rapport technique. Bien que le rapport ne nomme pas les modèles locaux spécifiques impliqués, il mentionne des composants tels qu'un modèle de grounding sur l'appareil et un OCR pour détecter les éléments d'interface utilisateur cliquables.

Pipeline intégré pour la caméra, l'écran et la voix

L'agent regroupe trois canaux de perception en un seul pipeline. Un modèle de vision-langage interprète d'abord la scène ainsi que la demande de l'utilisateur avant de déclencher une action. La pile de perception combine des signaux textuels, vocaux, de caméra et d'écran, les aligne dans le temps, et transmet une intention structurée au modèle de langage.

Dans un exemple fourni par les chercheurs, un utilisateur demande "Combien cela coûte sur Taobao ?" tout en pointant la caméra vers un produit. Le système reformule cela en interne en "prix du spray Evian sur Taobao" et ne transmet l'intention structurée qu'ensuite pour exécution.

Mémoire photo et clonage de comportement

Pour la mémoire à long terme, X-OmniClaw condense les données locales en entrées sémantiques. Pendant les périodes d'inactivité, les photos de la galerie sont traitées en descriptions compactes d'objets, de scènes et d'événements, puis stockées dans un fichier Markdown. Chaque entrée passe par un filtre conçu pour éliminer les informations sensibles avant d'être enregistrée. Le rapport signale les risques de téléchargement liés à la vision cloud, et indique que passer aux modèles sur appareil est la prochaine étape afin que les images brutes n'aient jamais à quitter le téléphone.

Au lieu de planifier chaque action à partir de zéro, l'agent clone le comportement de l'utilisateur en compétences réutilisables. Il extrait la commande de lancement complète pour une page d'application et y accède directement via un deeplink la prochaine fois, plutôt que de rejouer le chemin de tapotement original. Si cela échoue, le système revient à des méthodes de lancement plus simples une par une. Pour détecter les éléments cliquables, X-OmniClaw combine des données de structure XML avec un modèle de grounding et une reconnaissance de texte. Cela aide avec les interfaces chargées de publicités où le XML seul ne peut pas identifier une cible de tapotement précise.

Applications variées de X-OmniClaw

Dans le premier scénario, un utilisateur pointe la caméra vers un produit et demande le prix. L'agent accède à l'application de shopping, fait défiler, prend des captures d'écran et lit les prix et les chiffres de vente via un modèle de vision-langage. Un suivi comme "ouvrir le deuxième article" fonctionne sans aucun ancrage supplémentaire.

Dans un autre exemple, X-OmniClaw agit comme un "ScreenAvatar", un "surdoué numérique" qui résout des tâches à l'écran sur commande, comme travailler à travers une série de problèmes pratiques un par un.

Une troisième démonstration montre le système répondant à une demande de transformer toutes les photos de perroquet en un album de mise en valeur. Il rassemble les fichiers correspondants, accède via un deeplink à l'outil de composition en un clic d'une application de montage vidéo, et sélectionne les images avec un tapotement multiple.

Dans le quatrième exemple, l'utilisateur clone le chemin vers une page de réduction profondément imbriquée une fois. La prochaine fois, une commande vocale suffit pour rouvrir cette sous-page exacte, même si l'application n'offre pas de deeplinks publics.

Conclusion et perspectives

Le projet s'appuie sur la base de code open-source HermesApp et se situe entre OpenClaw, qui se concentre davantage sur les PC, et l'agent Hermes axé sur les capacités émergentes de Nous Research. Le code et les ressources sont disponibles sur GitHub.

Google a récemment montré avec Gemma 4 qu'un modèle entièrement local sur un smartphone peut déjà agir en tant qu'agent. Dans l'application de démonstration "Google AI Edge Gallery", le modèle utilise des compétences d'agent pour interroger Wikipedia, générer des QR codes ou ouvrir des traceurs d'humeur avec des graphiques de tendance.

En termes de méthode, le système s'appuie sur UI-TARS de ByteDance, un agent GUI purement visuel qui repose uniquement sur des captures d'écran et des coordonnées. X-OmniClaw combine cette approche avec des données XML structurelles et une exécution sur appareil pour réduire le taux d'erreur que les pipelines de vision pure rencontrent avec des interfaces dynamiques.

Oppo X-OmniClaw : l'agent AI open-source qui révolutionne Android

Tu codes avec l’IA ?

Oppo introduit X-OmniClaw, un agent AI révolutionnaire

Fonctionnalités démontrées de X-OmniClaw

Une approche unique sur l'appareil

Pipeline intégré pour la caméra, l'écran et la voix

Mémoire photo et clonage de comportement

Applications variées de X-OmniClaw

Conclusion et perspectives

OpenAI et le pari audacieux d'un smartphone IA sans applications

Google Remy : l'agent IA qui défie OpenClaw avec Gemini

Andrej Karpathy et Dobby : l'IA qui menace l'avenir des applications

OpenClaw débarque sur mobile : un lancement semé d'embûches

OpenAI, MediaTek et Qualcomm : vers un smartphone révolutionnaire ?

OpenAI et Jony Ive : un smartphone IA pour 2027