Tu codes avec l’IA ?
Outils, agents et nouveautés dev IA décryptés, chaque soir en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Une nouvelle vision du curseur de souris
Deepmind, la filiale d'Alphabet spécialisée dans l'intelligence artificielle, propose de transformer le curseur de la souris en un élément central de l'ingénierie contextuelle. Les chercheurs Adrien Baranes et Rob Marchant expliquent que, contrairement aux outils d'IA traditionnels qui nécessitent que les utilisateurs intègrent leur contexte dans une fenêtre spécifique, leur approche permettrait au curseur de capturer le contexte visuel et sémantique environnant. Grâce à l'intégration de Gemini, les utilisateurs pourraient interagir avec leur environnement numérique par des commandes simplifiées telles que "Répare ça" ou "Déplace ça ici", en utilisant la parole et les gestes.
Des pixels aux entités structurées
Deepmind envisage de transformer les pixels en "entités structurées" comme des lieux, des dates ou des objets. Par exemple, une note manuscrite pourrait être convertie en une liste de tâches interactive, ou une image d'une vidéo mise sur pause pourrait devenir un lien de réservation. Ces fonctionnalités sont déjà partiellement intégrées dans Gemini sur Chrome, où les utilisateurs peuvent sélectionner des parties d'une page web pour poser des questions à leur sujet. Sur la future plateforme Googlebook, cette technologie sera introduite sous le nom de "Magic Pointer".
Les limites de l'innovation
Bien que prometteuse, cette approche ne remplace pas entièrement l'ingénierie des invites, particulièrement pour des tâches complexes nécessitant des descriptions précises. D'autres outils continuent de s'appuyer sur des captures d'écran ou des marqueurs dessinés à la main, tels que les flèches rouges dans les éditeurs d'images et de vidéos, pour servir d'ancres visuelles. L'innovation de Deepmind vise principalement à simplifier les interactions quotidiennes et conversationnelles, réduisant ainsi l'effort nécessaire pour transmettre le contexte au modèle d'IA.
