Brief IA : OpenAI révolutionne l'IA vocale avec des modèles GPT-5
🤖 Modèles & LLM

OpenAI révolutionne l'IA vocale avec des modèles GPT-5

Brief IA
Tom Levy·5 min·3 vues

OpenAI a lancé trois nouveaux modèles vocaux : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper. Ces modèles permettent de raisonner en temps réel, de traduire dans plus de 70 langues et de transcrire la parole en direct, avec GPT-Realtime-2 offrant un raisonnement comparable à celui de GPT-5.

En bref
1OpenAI introduit GPT-Realtime-2, un modèle vocal offrant un raisonnement en temps réel équivalent à GPT-5.
2Les nouveaux modèles incluent GPT-Realtime-Translate pour la traduction instantanée et GPT-Realtime-Whisper pour la transcription continue.
3Ces innovations permettent des interactions vocales plus naturelles et précises, avec des applications variées allant du support client à l'éducation.
💡Pourquoi c'est importantCes avancées d'OpenAI renforcent l'IA vocale, rendant les interactions homme-machine plus fluides et efficaces, cruciales pour de nombreux secteurs.
Le brief IA que lisent les pros

Tu suis la course aux modèles IA ?

Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

OpenAI dévoile une nouvelle génération de modèles vocaux en temps réel

OpenAI a récemment lancé trois modèles innovants conçus pour transformer les interactions vocales en temps réel. Ces modèles, nommés GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper, sont capables de raisonner, de traduire et de transcrire instantanément, offrant ainsi une expérience utilisateur enrichie.

Le modèle central, GPT-Realtime-2, se distingue par sa capacité à utiliser plusieurs outils simultanément et à ajuster l'intensité de son raisonnement sur cinq niveaux différents. Cela permet aux développeurs de contrôler précisément la profondeur du traitement des informations, rendant les interactions plus personnalisées et adaptées aux besoins spécifiques.

En complément, GPT-Realtime-Translate assure la traduction en direct, tandis que GPT-Realtime-Whisper se charge de la transcription continue. Tous ces modèles sont désormais accessibles via l'API Realtime d'OpenAI, ouvrant la voie à de nouvelles applications dans divers domaines.

Une avancée majeure dans les interactions vocales

Bien que ChatGPT offre déjà un mode audio, et que Google propose des fonctionnalités similaires avec Gemini, les performances des modèles vocaux restaient inférieures à celles des modèles textuels. Ces derniers, en effet, bénéficient d'un temps de réflexion plus long pour traiter les informations.

OpenAI estime que cette situation doit évoluer. Un agent vocal moderne doit non seulement comprendre les intentions de l'utilisateur, mais aussi suivre le contexte, s'adapter aux changements, utiliser des outils appropriés et répondre de manière adéquate, le tout en temps réel.

Pour répondre à ces exigences, OpenAI a développé trois nouveaux modèles d'interaction. Le modèle "Voice-to-Action" permet à l'utilisateur d'exprimer ses besoins à voix haute, le système se chargeant ensuite de raisonner sur la demande et d'exécuter la tâche. Le modèle "Systems-to-Voice" transforme les informations contextuelles en conseils oraux, tandis que "Voice-to-Voice" facilite les conversations en direct à travers les barrières linguistiques, déjà testé par Deutsche Telekom pour le support client.

GPT-Realtime-2 : un modèle phare avec des capacités de raisonnement avancées

Le modèle GPT-Realtime-2 est présenté comme le fleuron de cette nouvelle gamme, apportant un raisonnement comparable à celui de GPT-5. Conçu pour des interactions vocales dynamiques, il est capable de maintenir une conversation, de réfléchir aux demandes, d'appeler des outils et de gérer les interruptions simultanément.

Techniquement, la fenêtre de contexte de ce modèle a été étendue de 32 000 à 128 000 tokens, permettant de soutenir des conversations plus longues et complexes. Le modèle peut également utiliser plusieurs outils en parallèle, rendant ces actions audibles grâce à des phrases introductives comme "laissez-moi vérifier cela". En cas de problème, le modèle informe l'utilisateur avec des messages tels que "j'ai des difficultés avec cela en ce moment".

OpenAI souligne que ce modèle est plus performant pour gérer des terminologies spécialisées, des noms propres et des termes médicaux que son prédécesseur. Le ton de la voix est également ajustable, permettant d'adopter un ton calme lors de la résolution de problèmes, empathique avec les utilisateurs frustrés et enthousiaste après des actions réussies.

Les développeurs ont la possibilité de régler l'intensité du raisonnement sur cinq niveaux : minimal, faible, moyen, élevé et très élevé. Le réglage par défaut est "faible" pour minimiser la latence lors de demandes simples, tandis que les tâches plus complexes peuvent bénéficier d'une puissance de calcul accrue.

Sur les benchmarks, GPT-Realtime-2 surpasse son prédécesseur, GPT-Realtime-1.5. À un réglage "élevé", il atteint 96,6 % de précision sur Big Bench Audio, contre 81,4 % auparavant. Sur Audio MultiChallenge, qui évalue le suivi des instructions dans des dialogues multi-tours, la variante "très élevée" obtient un taux de réussite moyen de 48,5 % contre 34,7 %.

Traduction et transcription en temps réel : des outils puissants pour le monde moderne

GPT-Realtime-Translate est un modèle de traduction en direct qui prend en charge plus de 70 langues d'entrée et 13 langues de sortie. Selon OpenAI, il conserve le sens tout en suivant le rythme du locuteur, même en présence de changements de contexte, d'accents régionaux et de vocabulaire spécialisé. Les applications potentielles incluent le support client, les ventes transfrontalières, l'éducation, les événements et les médias.

Le modèle GPT-Realtime-Whisper, quant à lui, est conçu pour la transcription en streaming à faible latence. Il transcrit la parole au fur et à mesure, ciblant les sous-titres en direct pour les réunions, les salles de classe, les diffusions et les événements. Les équipes peuvent l'utiliser pour générer des notes et des résumés pendant que les conversations se poursuivent, construire des agents vocaux avec une compréhension continue de la parole, et mettre en place des flux de travail de suivi plus rapides pour le support client, la santé, les ventes et le recrutement.

Une tarification flexible pour des solutions accessibles

Les trois modèles sont désormais disponibles via l'API Realtime et peuvent être testés dans le Playground. GPT-Realtime-2 est proposé à 32 $ par million de tokens audio d'entrée (0,40 $ pour les tokens d'entrée mis en cache) et 64 $ par million de tokens audio de sortie. GPT-Realtime-Translate est facturé à 0,034 $ par minute, et GPT-Realtime-Whisper à 0,017 $ par minute.

L'API Realtime prend en charge la résidence des données dans l'Union européenne pour les applications basées dans l'UE et est couverte par les engagements de confidentialité d'entreprise d'OpenAI.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires