Brief IA : Alibaba et Tsinghua innovent avec HopChain pour l'IA visuelle

Alibaba et Tsinghua innovent avec HopChain pour l'IA visuelle

Brief IA
Tom Levy·4 min·9 vues

HopChain, développé par l'équipe Qwen d'Alibaba et l'Université Tsinghua, est un cadre qui améliore la fiabilité des modèles de vision IA en décomposant les problèmes complexes en étapes individuelles. Cette approche a permis d'améliorer 20 des 24 benchmarks testés, ce qui pourrait révolutionner la fiabilité des modèles de vision IA dans des applications critiques.

En bref
1Les modèles de vision-langage échouent souvent sur des tâches complexes nécessitant plusieurs étapes de raisonnement.
2HopChain, développé par Alibaba et l'Université Tsinghua, génère des questions pour améliorer la précision des modèles IA.
3Avec HopChain, 20 des 24 benchmarks ont montré des améliorations significatives, prouvant une meilleure généralisation des modèles.
💡Pourquoi c'est importantCette avancée pourrait transformer l'efficacité des IA dans l'analyse d'images complexes, impactant de nombreux secteurs technologiques.
Le brief IA que lisent les pros

Tu suis la course aux modèles IA ?

Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Les modèles de vision-langage, qui combinent la compréhension d'images et de textes, rencontrent souvent des difficultés lorsqu'ils doivent effectuer des tâches nécessitant plusieurs étapes de raisonnement consécutives. Ces modèles peuvent commettre des erreurs dès le début du processus, comme un mauvais comptage d'objets ou une confusion dans les relations spatiales, ce qui conduit à des résultats incorrects qui se propagent à travers toutes les étapes suivantes.

Pour surmonter ces défis, l'équipe Qwen d'Alibaba, en collaboration avec l'Université Tsinghua, a développé un cadre innovant nommé HopChain. Ce système génère automatiquement des questions d'image à plusieurs étapes, obligeant les modèles à réexaminer minutieusement les images et à cibler les erreurs accumulées. Cette approche vise à améliorer la précision des modèles de vision-langage en exposant et en corrigeant les faiblesses fondamentales dans leur compréhension visuelle.

Un processus de génération de données en quatre étapes

La création de données pour HopChain se déroule en quatre étapes distinctes. Tout d'abord, le modèle de langage Qwen3-VL-235B-A22B-Thinking d'Alibaba identifie les catégories d'objets présents dans une image. Ensuite, le modèle de segmentation SAM3 de Meta localise les instances individuelles de ces catégories. Cette étape est cruciale pour assurer que chaque objet est correctement identifié et segmenté dans l'image.

Dans la troisième étape, des questions d'image à plusieurs niveaux sont construites autour de combinaisons de trois à six objets. Ces questions sont conçues pour tester la capacité des modèles à raisonner sur des images en plusieurs étapes. Enfin, quatre annotateurs humains résolvent chaque question indépendamment, ne conservant que celles où un consensus est atteint. Ce processus rigoureux produit entre 60 000 et 80 000 exemples d'entraînement par modèle, garantissant une diversité et une qualité élevées des données d'entraînement.

Des résultats prometteurs avec HopChain

Les chercheurs ont testé deux modèles, Qwen3.5-35B-A3B et Qwen3.5-397B-A17B, en utilisant les questions générées par HopChain. Les performances ont été mesurées sur 24 benchmarks couvrant des domaines tels que la compréhension générale des images, la reconnaissance de texte et la compréhension vidéo. Les résultats sont impressionnants : les données HopChain ont permis d'améliorer 20 des 24 benchmarks.

Par exemple, le score EMMA du modèle plus petit est passé de 53 à 58, tandis que le score CharXiv a augmenté de 69 à 73,1. Le score BabyVision du modèle plus grand a progressé de 28,61 à 32,22, et le score ZeroBench a doublé, passant de 4 à 8. Ces résultats démontrent que les questions générées ne sont pas adaptées à un benchmark spécifique, mais qu'elles permettent une véritable généralisation des modèles.

Bien que les données d'entraînement soient entièrement basées sur des images, les deux modèles se sont également améliorés sur cinq des six benchmarks vidéo, suggérant que les compétences enseignées par HopChain se transmettent au-delà des images fixes. Cela indique une capacité des modèles à appliquer les compétences acquises à des contextes différents, élargissant ainsi leur champ d'application.

L'importance du chaînage complet des questions

Une étude d'ablation a révélé que le chaînage complet des questions est crucial pour l'amélioration des performances des modèles. Lorsque les questions sont réduites à leur dernière étape, le score moyen à travers cinq benchmarks représentatifs chute de 70,4 à 64,3. En ne conservant que la seconde moitié de la chaîne, le score atteint 66,7.

Les améliorations sont également proportionnelles à la longueur de la chaîne de raisonnement. Pour des réponses particulièrement longues, le modèle plus grand a vu sa précision augmenter de plus de 50 points. HopChain améliore la perception, la logique, les connaissances et réduit les erreurs d'hallucination. La répartition des erreurs confirme que HopChain aide dans tous les domaines : perception, logique, connaissances et erreurs d'hallucination voient toutes des gains comparables.

Cependant, une limitation subsiste : le processus nécessite SAM3 pour reconnaître les objets, excluant les images sans objets segmentables. La perception visuelle reste un défi pour les modèles actuels, comme l'illustre le benchmark WorldVQA de Moonshot AI, où même les meilleurs modèles ont échoué à identifier correctement la moitié des objets. Cette limitation souligne l'importance de la segmentation précise pour le succès des modèles de vision-langage.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires