Brief IA

Demandez à un expert technique : Comment l'IA comprend-elle mes recherches visuelles ?

💡 Cas d'usagevia Google AI Blog·{"$":{"xmlns:author":"http://www.w3.org/2005/Atom"},"name":["Molly McHugh-Johnson"],"title":["Contributor"],"department":["The Keyword"],"company":[""]}·

Demandez à un expert technique : Comment l'IA comprend-elle mes recherches visuelles ?

Demandez à un expert technique : Comment l'IA comprend-elle mes recherches visuelles ?

⚡ Résumé en français par Brief IA

L'IA utilise une méthode de fan-out des requêtes pour améliorer les recherches visuelles.
Cette approche permet de traiter efficacement les images et d'en extraire des informations pertinentes.
Cela transforme la manière dont les utilisateurs interagissent avec les moteurs de recherche visuels.
💡 Pourquoi c'est important : Cette avancée technologique redéfinit l'expérience utilisateur et ouvre la voie à des recherches plus intuitives et efficaces.

📄 Article traduit en français

Demandez à un expert technique : Comment l'IA comprend-elle mes recherches visuelles ?

La recherche visuelle a fait des progrès considérables — il suffit de regarder les récentes mises à jour de Google Search. Ici, un expert de Google explique ces avancées et les techniques que nous avons utilisées pour y parvenir.

Nous avons tous été dans cette situation : vous voyez une photo d'un salon parfaitement stylé ou d'une tenue de rue bien agencée, et vous voulez savoir d'où vient chaque élément. Jusqu'à récemment, la recherche visuelle était un processus un à un. Mais une mise à jour majeure de Circle to Search et Lens permet désormais à Google de décomposer et de rechercher plusieurs objets dans une seule image simultanément. Cela signifie que si vous utilisez Circle to Search sur Android pour rechercher une tenue entière, vous obtiendrez des résultats pour chaque composant d'un look, et pas seulement pour un seul élément à la fois. Au cours des derniers mois, nous avons également lancé plusieurs mises à jour qui améliorent à la fois la recherche visuelle et les résultats d'image en Mode IA, afin que vous puissiez mieux trouver l'inspiration lors de vos recherches.

Pour mieux comprendre ces percées, nous avons parlé avec Dounia Berrada, Directrice Senior de l'ingénierie de recherche.

Sur quel aspect de la recherche travaillez-vous ?

Je me concentre sur la recherche multimodale, également connue sous le nom de Google Lens — essentiellement, permettre à Google de vous aider avec vos questions les plus complexes concernant les images, les PDF et tout ce que vous voyez. La recherche visuelle redéfinit notre interaction avec l'information ; Lens doit être suffisamment intelligent pour comprendre le "pourquoi" de votre recherche, rendant ainsi facile l'obtention d'aide sur ce que vous voyez à l'écran ou dans le monde qui vous entoure. Cela signifie construire un outil capable d'expliquer aussi facilement un problème mathématique complexe que d'identifier une plante succulente rare ou de vous aider à retrouver une paire de chaussures que vous adorez.

Comment cela fonctionne-t-il ?

Imaginez que vous redessinez une pièce et que vous téléchargez une photo d'un espace de style moderne du milieu du siècle pour vous inspirer. Vous ne cherchez probablement pas seulement la table d'appoint ; vous souhaitez recréer toute l'ambiance. Auparavant, vous deviez rechercher la lampe, puis le tapis, puis la chaise individuellement. Désormais, le Mode IA peut décomposer cette image complexe, identifier chaque pièce individuelle et effectuer plusieurs recherches visuelles simultanément. Vous pouvez voir cela en action dès maintenant en utilisant Circle to Search.

Qu'est-ce qui alimente ces types de réponses de recherche visuelle ?

Nos modèles avancés Gemini rendent le Mode IA possible, et ses capacités multimodales bénéficient de l'expertise visuelle que nous avons intégrée dans Lens au fil des ans. Lorsque vous recherchez avec une image, Gemini analyse l'image en parallèle avec votre question pour décider quels outils utiliser. Supposons que vous faites défiler votre téléphone et que vous voyez une tenue sur les réseaux sociaux que vous aimez. Lorsque vous la recherchez, le modèle sait utiliser Lens pour récupérer simultanément les résultats d'image pour le chapeau, les chaussures et la veste de la tenue. Il tisse ensuite ces résultats individuels en une réponse unique et facile à lire.

Pensez-y de cette manière : le modèle IA agit comme le "cerveau" capable de "voir" l'image, tandis que le backend de recherche visuelle agit comme la "bibliothèque" contenant des milliards de résultats web. L'IA effectue un raisonnement multi-objets pour comprendre ce que vous regardez. Ensuite, elle utilise une technique de "fan-out" qui déclenche plusieurs recherches à la fois, lit les résultats et présente une réponse unique et cohérente avec des liens utiles — le tout en quelques secondes.

Pouvez-vous expliquer la technique de fan-out ?

Le Mode IA effectue essentiellement une douzaine de recherches pour vous en un temps record. Si vous téléchargez une photo d'un jardin que vous admirez, vous pourriez avoir plusieurs questions : ces plantes survivront-elles à l'ombre ? Sont-elles adaptées à mon climat ? Quelle est leur maintenance ? Auparavant, vous deviez poser ces questions une par une. Désormais, le Mode IA identifie toutes ces recherches "fan-out" nécessaires. De cette façon, il rassemble les exigences de soin pour chaque plante sur la photo en utilisant des résultats web utiles, décompose les informations et suggère même les prochaines étapes que vous pourriez vouloir entreprendre. Comme le Mode IA découvre plus de résultats visuels à partir d'une seule recherche, il est plus facile que jamais de trouver exactement ce que vous cherchez, tout en découvrant quelque chose de nouveau qui suscite votre intérêt.

Devez-vous commencer par une image pour obtenir ce type d'aide dans le Mode IA ?

Pas du tout ! Vous pouvez commencer par une simple recherche textuelle dans le Mode IA, comme "inspiration visuelle pour des tenues de travail". Lorsque vous voyez un résultat qui vous plaît, vous pouvez simplement dire : "Montrez-moi plus d'options comme la deuxième jupe." Le système prend immédiatement cette image spécifique et commence le processus de fan-out à partir de là.

Cela semble idéal pour le shopping — à quoi d'autre cela pourrait-il servir ?

Vous pourriez prendre une photo d'un mur dans un musée et demander des explications sur chaque tableau. Ou prendre une photo d'une vitrine de boulangerie et demander ce que sont toutes les différentes pâtisseries. Il s'agit de passer de "Qu'est-ce que cette chose ?" à "Expliquez-moi toute cette scène."

Il semble que j'ai quelques photos à prendre et beaucoup plus à découvrir. Je m'en vais mettre ces outils à l'épreuve !

TwitterLinkedIn

Brief IA — Veille IA en français

Toutes les innovations mondiales en IA, traduites et résumées automatiquement. Recevoir les meilleures actus IA chaque jour.