Google unifie texte, image, vidéo et audio dans un espace vectoriel avec Gemini Embedding 2

⚡ Résumé en français par Brief IA
• Google a lancé son premier modèle d'embedding multimodal natif, intégrant divers types de données dans un seul espace vectoriel. • Ce modèle élimine le besoin de modèles séparés dans les pipelines d'IA. • Cela représente une avancée significative dans l'intégration des données multimodales, facilitant le développement d'applications plus complexes. 💡 Pourquoi c'est important : cette innovation pourrait transformer la manière dont les entreprises construisent des systèmes d'IA, rendant les processus plus efficaces et intégrés.
📄 Article traduit en français
Google unifie texte, image, vidéo et audio dans un espace vectoriel avec Gemini Embedding 2
Google a lancé Gemini Embedding 2, son premier modèle d'embedding multimodal natif. Ce modèle cartographie le texte, les images, les vidéos, l'audio et les PDF dans un espace vectoriel partagé, permettant ainsi des comparaisons directes.
Le modèle gère l'audio de manière native sans nécessiter d'étape de transcription et permet aux utilisateurs de combiner plusieurs modalités dans une seule requête. Il quadruple également la limite de tokens à 8 192.
Google affirme que Gemini Embedding 2 surpasse des concurrents tels qu'Amazon Nova 2 et Voyage Multimodal 3.5 dans presque toutes les catégories de référence, avec des résultats particulièrement solides sur les tâches de texte à vidéo.
Le premier modèle d'embedding multimodal natif de Google cartographie le texte, les images, la vidéo, l'audio et les documents dans un même espace sémantique, simplifiant potentiellement des pipelines d'IA complexes.
En juillet 2025, Google avait lancé gemini-embedding-001, un modèle d'embedding uniquement textuel supportant plus de 100 langues et qui avait atteint une place de choix sur le classement MTEB Multilingual Leaderboard. Avec Gemini Embedding 2, l'entreprise fait un pas bien plus important : le nouveau modèle s'appuie toujours sur l'architecture Gemini, mais il cartographie également les images, la vidéo, l'audio et les documents PDF dans le même espace vectoriel que le texte.
Les embeddings sont des représentations numériques de données qui capturent leur signification. Ils constituent la colonne vertébrale d'applications telles que la recherche sémantique, la génération augmentée par récupération (RAG), l'analyse de sentiments et le clustering de données. Un espace d'embedding partagé permet de comparer directement différents types de médias, sans passer par des modèles séparés ou ajouter des étapes supplémentaires.
Gemini Embedding 2 gère cinq modalités : texte, images, vidéo, audio et documents PDF.
Traitement audio natif éliminant l'étape de transcription
Google indique que Gemini Embedding 2 supporte jusqu'à 8 192 tokens d'entrée pour le texte, soit quatre fois la limite de 2 048 tokens de son prédécesseur. Il peut traiter jusqu'à six images par requête au format PNG et JPEG. Les vidéos peuvent durer jusqu'à 120 secondes, et les documents PDF peuvent faire jusqu'à six pages.
L'aspect audio mérite d'être souligné. Le modèle traite l'audio de manière native sans le convertir d'abord en texte. La plupart des approches précédentes reposent sur une étape de conversion de la parole en texte, ce qui tend à perdre des informations en cours de route. Gemini Embedding 2 évite totalement cette étape.
Il existe également ce que Google appelle "entrée entrelacée" : les développeurs peuvent mélanger plusieurs modalités dans une seule requête, comme associer une image à une description textuelle. Google affirme que cela aide le modèle à mieux saisir les relations entre différents types de médias que si chaque modalité était intégrée séparément.
Comme son prédécesseur, Gemini Embedding 2 utilise l'apprentissage de représentation Matryoshka (MRL). Cette technique superpose les informations afin que les dimensions de sortie puissent être réduites dynamiquement, comme une poupée Matryoshka où de plus petites représentations s'emboîtent dans des plus grandes.
La dimension par défaut est de 3 072, Google recommandant 1 536 et 768 comme alternatives utiles. Cela permet aux développeurs de faire un compromis entre la qualité maximale et des coûts de stockage réduits selon leur cas d'utilisation. Google indique que le modèle supporte la capture sémantique dans plus de 100 langues.
Les benchmarks montrent un avantage clair dans chaque modalité testée
Google soutient ses affirmations de performance avec des comparaisons de benchmarks contre les embeddings multimodaux d'Amazon Nova 2, Voyage Multimodal 3.5 et ses propres modèles antérieurs. Selon les chiffres publiés, le nouveau modèle se classe en tête dans chaque catégorie testée : texte, images, vidéo et langage parlé.
L'écart est le plus large dans les tâches texte/vidéo : Gemini Embedding 2 atteint jusqu'à 68,8 points, tandis qu'Amazon Nova 2 se situe à 60,3 et Voyage Multimodal 3.5 à 55,2. Dans les comparaisons texte-image, Google prend également une avance claire avec 93,4 contre 84,0 pour Amazon.
Google oppose Gemini Embedding 2 à des modèles concurrents dans les benchmarks texte, image, vidéo et audio. Le modèle serait en tête dans presque toutes les catégories.
Google indique que des partenaires ayant accès anticipé mettent déjà le modèle à profit dans des applications multimodales. Les embeddings sont la technologie qui alimente de nombreux produits Google, allant de l'ingénierie contextuelle alimentée par RAG à la gestion de données à grande échelle et à la recherche classique.
Gemini Embedding 2 est disponible via l'API Gemini et Vertex AI. Google fournit des notebooks interactifs Colab et supporte les intégrations avec des frameworks et bases de données vectorielles populaires, notamment LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB et Vector Search. L'entreprise a également publié une démo légère pour la recherche sémantique multimodale afin que les développeurs puissent tester les capacités du modèle de première main.
Brief IA — Veille IA en français
Toutes les innovations mondiales en IA, traduites et résumées automatiquement. Recevoir les meilleures actus IA chaque jour.