Tu codes avec l’IA ?
Outils, agents et nouveautés dev IA décryptés, chaque soir en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Oppo introduit X-OmniClaw, un agent AI révolutionnaire
Oppo a récemment lancé X-OmniClaw, un agent d'intelligence artificielle open-source destiné aux appareils Android. Ce système innovant fonctionne directement sur le téléphone, sans nécessiter de connexion à un serveur cloud. Il utilise la caméra, l'écran et la voix pour accomplir diverses tâches au sein des applications, tout en restant sur l'appareil physique.
Le système combine plusieurs canaux de perception, traitant les photos de la galerie localement pour les transformer en une mémoire textuelle consultable. Il apprend également en clonant le comportement de l'utilisateur, ce qui lui permet de reproduire des actions de manière autonome.
Fonctionnalités démontrées de X-OmniClaw
Lors de démonstrations, X-OmniClaw a montré sa capacité à comparer les prix de produits capturés par la caméra, à agir comme un assistant flottant pour résoudre des exercices, et à créer indépendamment des albums photo à partir de la galerie d'un utilisateur.
L'équipe Multi-X d'Oppo a publié cet agent open-source qui utilise la caméra, l'écran et la voix pour accomplir des tâches dans de vraies applications Android, sans passer par une copie cloud de votre téléphone. Cela contraste avec des plateformes comme RedFinger, Wuying d'Alibaba et Tencent Cloud Phone, qui exécutent des agents à l'intérieur d'instances Android virtualisées dans un centre de données, limitant ainsi l'accès aux capteurs locaux, aux caméras ou aux données privées.
Une approche unique sur l'appareil
X-OmniClaw adopte une approche inverse en fonctionnant directement sur l'appareil Android physique. La logique de base pour la perception, le contrôle et l'interaction avec les applications réside sur le téléphone lui-même. Un modèle de langage cloud n'est appelé qu'en tant que "carburant" pour un raisonnement de niveau supérieur lorsque cela est nécessaire, selon le rapport technique. Bien que le rapport ne nomme pas les modèles locaux spécifiques impliqués, il mentionne des composants tels qu'un modèle de grounding sur l'appareil et un OCR pour détecter les éléments d'interface utilisateur cliquables.
Pipeline intégré pour la caméra, l'écran et la voix
L'agent regroupe trois canaux de perception en un seul pipeline. Un modèle de vision-langage interprète d'abord la scène ainsi que la demande de l'utilisateur avant de déclencher une action. La pile de perception combine des signaux textuels, vocaux, de caméra et d'écran, les aligne dans le temps, et transmet une intention structurée au modèle de langage.
Dans un exemple fourni par les chercheurs, un utilisateur demande "Combien cela coûte sur Taobao ?" tout en pointant la caméra vers un produit. Le système reformule cela en interne en "prix du spray Evian sur Taobao" et ne transmet l'intention structurée qu'ensuite pour exécution.
Mémoire photo et clonage de comportement
Pour la mémoire à long terme, X-OmniClaw condense les données locales en entrées sémantiques. Pendant les périodes d'inactivité, les photos de la galerie sont traitées en descriptions compactes d'objets, de scènes et d'événements, puis stockées dans un fichier Markdown. Chaque entrée passe par un filtre conçu pour éliminer les informations sensibles avant d'être enregistrée. Le rapport signale les risques de téléchargement liés à la vision cloud, et indique que passer aux modèles sur appareil est la prochaine étape afin que les images brutes n'aient jamais à quitter le téléphone.
Au lieu de planifier chaque action à partir de zéro, l'agent clone le comportement de l'utilisateur en compétences réutilisables. Il extrait la commande de lancement complète pour une page d'application et y accède directement via un deeplink la prochaine fois, plutôt que de rejouer le chemin de tapotement original. Si cela échoue, le système revient à des méthodes de lancement plus simples une par une. Pour détecter les éléments cliquables, X-OmniClaw combine des données de structure XML avec un modèle de grounding et une reconnaissance de texte. Cela aide avec les interfaces chargées de publicités où le XML seul ne peut pas identifier une cible de tapotement précise.
Applications variées de X-OmniClaw
Dans le premier scénario, un utilisateur pointe la caméra vers un produit et demande le prix. L'agent accède à l'application de shopping, fait défiler, prend des captures d'écran et lit les prix et les chiffres de vente via un modèle de vision-langage. Un suivi comme "ouvrir le deuxième article" fonctionne sans aucun ancrage supplémentaire.
Dans un autre exemple, X-OmniClaw agit comme un "ScreenAvatar", un "surdoué numérique" qui résout des tâches à l'écran sur commande, comme travailler à travers une série de problèmes pratiques un par un.
Une troisième démonstration montre le système répondant à une demande de transformer toutes les photos de perroquet en un album de mise en valeur. Il rassemble les fichiers correspondants, accède via un deeplink à l'outil de composition en un clic d'une application de montage vidéo, et sélectionne les images avec un tapotement multiple.
Dans le quatrième exemple, l'utilisateur clone le chemin vers une page de réduction profondément imbriquée une fois. La prochaine fois, une commande vocale suffit pour rouvrir cette sous-page exacte, même si l'application n'offre pas de deeplinks publics.
Conclusion et perspectives
Le projet s'appuie sur la base de code open-source HermesApp et se situe entre OpenClaw, qui se concentre davantage sur les PC, et l'agent Hermes axé sur les capacités émergentes de Nous Research. Le code et les ressources sont disponibles sur GitHub.
Google a récemment montré avec Gemma 4 qu'un modèle entièrement local sur un smartphone peut déjà agir en tant qu'agent. Dans l'application de démonstration "Google AI Edge Gallery", le modèle utilise des compétences d'agent pour interroger Wikipedia, générer des QR codes ou ouvrir des traceurs d'humeur avec des graphiques de tendance.
En termes de méthode, le système s'appuie sur UI-TARS de ByteDance, un agent GUI purement visuel qui repose uniquement sur des captures d'écran et des coordonnées. X-OmniClaw combine cette approche avec des données XML structurelles et une exécution sur appareil pour réduire le taux d'erreur que les pipelines de vision pure rencontrent avec des interfaces dynamiques.

