Gemini 3.1 Flash Live: Making audio AI more natural and reliable
Gemini 3.1 Flash Live : Rendre l'IA audio plus naturelle et fiable
Aujourd'hui, nous faisons progresser les capacités de dialogue en temps réel de Gemini avec Gemini 3.1 Flash Live, notre modèle audio et vocal de la plus haute qualité à ce jour. Il offre la vitesse et le rythme naturel nécessaires pour la prochaine génération d'IA axée sur la voix, proposant une expérience plus intuitive pour les développeurs, les entreprises et les utilisateurs quotidiens.
Disponibilité
3.1 Flash Live est disponible dans les produits Google :
- Pour les développeurs en avant-première via l'API Gemini Live dans Google AI Studio
- Pour les entreprises dans Gemini Enterprise for Customer Experience
- Pour tous via Search Live et Gemini Live
Améliorations pour les développeurs
Nous avons amélioré la qualité globale de 3.1 Flash Live, le rendant plus fiable pour les développeurs et les entreprises qui souhaitent créer des agents axés sur la voix capables d'exécuter des tâches complexes à grande échelle. Sur ComplexFuncBench Audio, un benchmark qui évalue l'appel de fonctions multi-étapes avec diverses contraintes, il obtient un score de 90,8% par rapport à notre modèle précédent.
Sur le Audio MultiChallenge de Scale AI, Gemini 3.1 Flash Live se distingue avec un score de 36,1% avec le mode "thinking" activé. Ce benchmark teste spécifiquement le suivi d'instructions complexes et le raisonnement à long terme, en tenant compte des interruptions et hésitations typiques de l'audio du monde réel.
3.1 Flash Live a également amélioré sa compréhension tonale pour offrir des dialogues plus naturels. Dans Gemini Enterprise for Customer Experience, il est encore plus efficace pour reconnaître des nuances acoustiques telles que la hauteur et le rythme par rapport à 2.5 Flash Native Audio. Il est également meilleur pour ajuster dynamiquement sa réponse aux expressions de frustration ou de confusion des utilisateurs.
Avantages pour les utilisateurs
Dans Gemini Live et Search Live, le modèle 3.1 Flash Live fournit des réponses plus utiles et naturelles, que vous posiez des questions quotidiennes rapides ou que vous engagiez des conversations plus complexes. Avec le modèle 3.1 Flash Live en arrière-plan, Gemini Live offre des réponses plus rapides par rapport au modèle précédent et peut suivre le fil de votre conversation pendant deux fois plus longtemps, préservant ainsi votre train de pensée lors de séances de brainstorming prolongées.
3.1 Flash Live est également intrinsèquement multilingue, ce qui permet l'expansion mondiale de Search Live cette semaine. Avec ce lancement, les personnes dans plus de 200 pays et territoires peuvent désormais avoir des conversations multimodales en temps réel avec Search dans leur langue préférée.
Sécurité et responsabilité
Tout l'audio généré par 3.1 Flash Live est marqué avec SynthID. Ce filigrane imperceptible est directement intégré dans la sortie audio, permettant la détection fiable de contenu généré par l'IA pour aider à prévenir la désinformation. Pour plus d'informations sur notre approche en matière de sécurité et de responsabilité, consultez la carte du modèle.
Découvrez la naturalité et la fiabilité de 3.1 Flash Live, à partir d'aujourd'hui. Nous sommes impatients de voir comment vous interagissez et construisez avec cette technologie.
Brief IA — Veille IA quotidienne
Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.