Présentation de GPT-5.4
⚡ Résumé en français par Brief IA
GPT-5.4 est le modèle le plus performant et efficace d'OpenAI, conçu pour un travail professionnel. Il offre des capacités de codage à la pointe de la technologie, une utilisation avancée des ordinateurs, une recherche d'outils optimisée et un contexte de 1 million de tokens.
📄 Article traduit en français
Présentation de GPT-5.4
Aujourd’hui, nous lançons GPT-5.4 dans ChatGPT (en tant que GPT-5.4 Thinking), l’API et Codex. C’est notre modèle de pointe le plus performant pour les usages professionnels. Nous déployons également GPT-5.4 Pro dans ChatGPT et l’API, pour les personnes qui veulent des performances maximales sur des tâches complexes.
GPT-5.4 réunit le meilleur de nos récentes avancées en matière de raisonnement, de programmation et de workflows agentiques au sein d’un seul modèle de pointe. Il intègre les capacités de programmation de pointe du secteur de GPT-5.3-Codex tout en améliorant la façon dont le modèle fonctionne avec les outils, les environnements logiciels et les tâches professionnelles impliquant des feuilles de calcul, des présentations et des documents. Le résultat est un modèle capable d’accomplir avec précision, efficacité et efficience un travail complexe en conditions réelles, en livrant ce que vous avez demandé avec moins d’allers-retours.
Dans ChatGPT, GPT-5.4 Thinking peut désormais fournir un aperçu préalable de son raisonnement, afin que vous puissiez ajuster le cap en cours de réponse, pendant qu’il travaille, et obtenir un résultat final plus aligné sur vos besoins, sans échanges supplémentaires. GPT-5.4 Thinking améliore également la recherche approfondie sur le web, notamment pour des requêtes très spécifiques, tout en préservant mieux le contexte pour des questions nécessitant un raisonnement prolongé. Ensemble, ces améliorations se traduisent par des réponses de meilleure qualité, plus rapides et qui restent pertinentes pour la tâche à accomplir.
Dans Codex et l’API, GPT-5.4 est le premier modèle généraliste que nous avons publié avec des capacités d’utilisation d’ordinateur natives et à la pointe de la technologie, permettant aux agents d’utiliser des ordinateurs et d’exécuter des workflows complexes dans différentes applications. Il prend en charge jusqu’à 1 million de tokens de contexte, permettant aux agents de planifier, d’exécuter et de vérifier des tâches sur de longues périodes. GPT-5.4 améliore également la façon dont les modèles fonctionnent au sein de vastes écosystèmes d’outils et de connecteurs grâce à la recherche d’outils, aidant les agents à trouver et à utiliser les bons outils plus efficacement, sans sacrifier l’intelligence. Enfin, GPT-5.4 est notre modèle de raisonnement le plus efficace à ce jour, utilisant nettement moins de tokens pour résoudre des problèmes par rapport à GPT-5.2, ce qui se traduit par une utilisation réduite des tokens et des vitesses plus élevées.
Grâce aux avancées en raisonnement général, en programmation et en travail intellectuel professionnel, GPT-5.4 permet de créer des agents plus fiables, des workflows de développement plus rapides et des résultats de meilleure qualité dans ChatGPT, l’API et Codex.
Performances comparatives
| Modèle | GDPval (victoires ou ex æquo) | SWE-Bench Pro (Public) | OSWorld-Verified | Toolathlon | BrowseComp | |---------------------|-------------------------------|------------------------|------------------|------------|------------| | GPT-5.4 | 83,0 % | 57,7 % | 75,0 % | 54,6 % | 82,7 % | | GPT-5.3-Codex | 70,9 % | 56,8 % | 74 % | 51,9 % | 77,3 % | | GPT-5.2 | 70,9 % | 55,6 % | 47,3 % | 46,3 % | 65,8 % |
Précédemment indiqué comme 64,7 %. GPT-5.3-Codex atteint 74 % grâce à un paramètre d’API nouvellement introduit qui préserve la résolution d’image d’origine.
Travail intellectuel
S’appuyant sur les capacités générales de raisonnement de GPT-5.2, GPT-5.4 offre des résultats encore plus cohérents et soignés sur des tâches concrètes importantes pour les professionnels.
Sur GDPval, un benchmark évaluant la capacité des agents à produire un travail intellectuel bien défini dans 44 professions, GPT-5.4 établit un nouveau standard, égalant ou surpassant les professionnels du secteur dans 83 % des comparaisons, contre 71 % pour GPT-5.2.
Dans GDPval, les modèles accomplissent des tâches de travail intellectuel bien définies couvrant 44 professions issues des 9 principaux secteurs de l’économie américaine. Les tâches requièrent de véritables livrables, comme des présentations commerciales, des feuilles de calcul comptables, des plannings de soins d’urgence, des schémas de fabrication ou de courtes vidéos. L’effort de raisonnement a été défini sur xhigh pour GPT-5.4 et heavy pour GPT-5.2 (un niveau légèrement inférieur dans ChatGPT).
Nous avons accordé une attention particulière à l’amélioration de la capacité de GPT-5.4 à créer et à modifier des feuilles de calcul, des présentations et des documents. Dans un benchmark interne portant sur des tâches de modélisation sur feuille de calcul qu’un analyste junior en banque d’investissement pourrait réaliser, GPT-5.4 obtient un score moyen de 87,5 %, contre 68,4 % pour GPT-5.2. Sur un ensemble de prompts d’évaluation de présentations, les évaluateurs humains ont préféré les présentations de GPT-5.4 68 % du temps à celles de GPT-5.2, en raison d’une esthétique plus aboutie, d’une plus grande variété visuelle et d’une utilisation plus efficace de la génération d’images.
Brief IA — Veille IA en français
Toutes les innovations mondiales en IA, traduites et résumées automatiquement. Recevoir les meilleures actus IA chaque jour.