Qwen3.5-Omni is here! Scaling up to a Native Omni-modal AGI
Qwen3.5-Omni est là ! Vers une AGI omni-modale native
Qu'est-ce que Qwen3.5-Omni ?
Qwen3.5-Omni est un modèle entièrement omni-modal de la famille Qwen. En termes simples, il est conçu pour traiter le texte, les images, l'audio et le contenu audio-visuel au sein d'un même système. Cela le distingue des anciennes configurations d'IA, où chaque modalité nécessitait souvent un modèle ou un pipeline différent.
Alibaba positionne Qwen3.5-Omni comme un modèle destiné à une interaction plus riche et plus naturelle avec des entrées du monde réel. Au lieu de considérer la voix, les images et la vidéo comme des ajouts optionnels, il les présente comme des éléments essentiels du modèle lui-même. Cela signifie que Qwen3.5-Omni est bien plus qu'un simple chatbot. C'est un système d'IA multimodal destiné à interpréter différents types d'informations ensemble.
La nouvelle série Qwen3.5-Omni comprend des variantes Instruct en trois tailles : Plus, Flash et Light. Cette structure familiale la rend idéale pour différents cas d'utilisation et besoins de performance. Le lancement met également en avant un support pour des contextes longs, ce qui suggère que le modèle est non seulement large en modalité, mais aussi conçu pour des entrées plus lourdes et soutenues.
Caractéristiques de Qwen3.5-Omni
Qwen3.5-Omni représente une avancée significative par rapport à Qwen3-Omni, avec des horizons beaucoup plus larges. Voici comment :
-
Capacités multilingues renforcées : Qwen3.5-Omni offre des capacités multilingues considérablement améliorées, y compris la reconnaissance vocale dans 113 langues.
-
Support de long contexte : La série Qwen3.5-Omni inclut des versions Instruct avec un support pour des entrées de long contexte de 256K. Cela indique un modèle conçu pour des prompts beaucoup plus larges et soutenus qu'un flux de travail de chatbot standard.
-
Plusieurs tailles de modèle : La série comprend trois tailles Instruct : Plus, Flash et Light, offrant ainsi une famille de produits plus flexible plutôt qu'un modèle unique.
-
Capacité d'entrée multimodale importante : Le modèle peut gérer plus de 10 heures d'entrée audio et plus de 400 secondes d'entrée audio-visuelle en 720p à 1 FPS.
-
Support d'interruption sémantique : Qwen3.5-Omni prend en charge l'interruption sémantique grâce à la reconnaissance d'intention de prise de tour native, ce qui rend les conversations en direct plus naturelles.
-
Recherche Web et appel de fonction natifs : Le modèle prend en charge nativement la recherche Web et des capacités d'appel de fonction complexes.
-
Contrôle vocal de bout en bout et dialogue : Qwen3.5-Omni prend en charge le contrôle vocal de bout en bout, permettant au modèle de suivre des instructions orales de manière plus humaine.
-
Clonage vocal : Cette fonctionnalité permet aux utilisateurs de télécharger une voix et de personnaliser la voix de l'assistant IA en conséquence.
Qwen3.5-Omni : Performance aux benchmarks
Qwen3.5-Omni-Plus se distingue comme un modèle omni-modal très équilibré, restant compétitif dans la compréhension du texte, de la vision, de l'audio, de la vidéo et de la génération de la parole. Voici les points clés :
-
Audio : Point fort du modèle
Qwen3.5-Omni-Plus excelle dans la compréhension audio, surpassant légèrement Gemini-3.1-Pro dans plusieurs mesures. -
Audio-Visuel : Fort, mais pas toujours leader
Bien que Qwen3.5-Omni-Plus performe bien dans les tâches audio-visuelles, Gemini-3.1-Pro conserve certains avantages dans ce domaine. -
Visuel : Compétitif, avec des scores de leader dans certaines catégories
Qwen3.5-Omni-Plus affiche des performances solides dans les tâches visuelles, mais peut ne pas être le meilleur modèle visuel en isolation. -
Texte : Solide, mais pas le point central
Bien que Qwen3.5-Omni-Plus montre de bonnes performances textuelles, ce n'est pas l'aspect le plus marquant de cette version. -
Génération de parole : Résultats de benchmark remarquables
La génération de parole est l'un des points forts les plus clairs du modèle, avec des performances impressionnantes dans la stabilité de la voix et la similarité du clonage vocal.
Avec toutes ces caractéristiques, Qwen3.5-Omni se positionne comme un modèle innovant dans le paysage de l'IA multimodale.
Brief IA — Veille IA quotidienne
Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.