Gemma Gem - Un agent IA dans Chrome, 100% local

Gemma Gem - Un agent IA dans Chrome, 100% local
Les extensions Chrome qui promettent de l'IA sont légion, mais la plupart se contentent d'envoyer vos données sur un serveur distant. C'est décevant ! Heureusement, l'extension Gemma Gem aborde le problème différemment, car son modèle fonctionne directement dans votre navigateur via WebGPU, sans clé API, sans cloud, et vos données ne quittent jamais votre machine. C'est comme le kir, royal !
Comme elle n'est pas disponible sur le Chrome Web Store, vous devrez la construire vous-même. Voici comment procéder :
- Clonez le dépôt
- Lancez
pnpm install - Exécutez
pnpm build - Chargez le dossier dans
chrome://extensionsen mode développeur
Ensuite, elle téléchargera le modèle de Google (environ 500 Mo pour la version légère, soit le poids d'un gros jeu mobile) et, pif paf pouf, vous aurez un agent IA qui vit sa meilleure vie dans votre Chrome.
Cliquez sur l'icône en bas à droite, une fenêtre de chat s'ouvre et vous pourrez interroger n'importe quelle page. Si vous préférez un modèle plus puissant, l'E4B pèse 1,5 Go et permet d'obtenir des réponses plus détaillées.
Cependant, ce n'est pas juste un chatbot de plus. En effet, l'extension effectue du tool calling en boucle à l'aide de 6 outils :
read_page_contentclick_elementtype_textscroll_pagetake_screenshotrun_javascript
Elle peut ainsi lire une page, cliquer sur des boutons, remplir un formulaire et même exécuter du JavaScript dans le contexte de la page.
Comme l'inférence WebGPU ne peut pas fonctionner dans un service worker Chrome (il n'y a pas d'accès au GPU, c'est une limitation connue depuis des années), le développeur a trouvé une solution : il utilise un offscreen document, c'est-à-dire une page HTML invisible que Chrome maintient en arrière-plan et qui a accès au GPU. Résultat, le modèle effectue ses calculs dans cette page fantôme, le service worker fait le lien entre les différentes parties, et le content script affiche le chat. C'est un découpage bien pensé !
Toute la boucle d'agent (le code qui décide quand appeler un outil et quand répondre) est isolée dans un dossier agent/ sans aucune dépendance Chrome. Cela signifie que vous pouvez prendre ces 5 fichiers .ts (agent-loop.ts, prompt-builder.ts, tool-parser.ts, types.ts et index.ts), les coller dans un projet Node.js ou Deno, et hop, vous avez votre propre boucle agentique. Yaniv Kessler, le développeur, a conçu cela pour qu'il soit réutilisable ailleurs.
Les deux variantes (E2B et E4B) sont compressées avec 128K tokens de contexte en théorie, même si en pratique, la fenêtre effective dépend de votre VRAM. Cela dit, c'est largement suffisant pour traiter une page web complète sans problème ! De plus, le modèle reste en cache après le premier téléchargement, donc au deuxième lancement, c'est quasi instantané. En revanche, si vous êtes sur un vieux Chromebook avec un Intel UHD intégré et 4 Go de RAM, cela risque de ramer. Et sur Firefox (qui est le meilleur navigateur du monde, comme je ne cesse de le répéter), le WebGPU est encore un peu expérimental, donc pour l'instant, ce sera Chrome ou rien... Sniiif.
Si vous avez déjà testé des extensions comme Localsumm qui faisaient tourner Phi-3 en local pour résumer des pages, sachez que Gemma Gem pousse le concept beaucoup plus loin avec ses capacités d'agent. Si le sujet de l'IA locale dans le navigateur vous intéresse, jetez un œil à d'autres projets qui font tourner des LLM localement sur votre desktop.
Notez cependant que sur Hacker News, le projet a suscité pas mal de débats. Certains soulignent le risque du tool run_javascript qui donne au modèle les pleins pouvoirs sur le DOM (par exemple, supprimer des éléments ou soumettre un formulaire à votre place). C'est un point important, mais c'est le même modèle de permissions que n'importe quel script web classique, sauf qu'ici, au moins, vos données restent chez vous.
Bref, 500 Mo de modèle, pas de cloud, et votre navigateur qui devient plus autonome que votre fils de 22 ans. Pas mal, non ?
Brief IA — Veille IA quotidienne
Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.