5 mars 2026

Présentation de GPT‑5.4

Conçu pour un usage professionnel

Chargement…

Aujourd’hui, nous lançons GPT‑5.4 dans ChatGPT (en tant que GPT‑5.4 Thinking), l’API et Codex. C’est notre modèle de pointe le plus performant pour les usages professionnels. Nous déployons également GPT‑5.4 Pro dans ChatGPT et l’API, pour les personnes qui veulent des performances maximales sur des tâches complexes.

GPT‑5.4 réunit le meilleur de nos récentes avancées en matière de raisonnement, de programmation et de workflows agentiques au sein d’un seul modèle de pointe. Il intègre les capacités de programmation de pointe du secteur de GPT‑5.3‑Codex⁠ tout en améliorant la façon dont le modèle fonctionne avec les outils, les environnements logiciels et les tâches professionnelles impliquant des feuilles de calcul, des présentations et des documents. Le résultat est un modèle capable d’accomplir avec précision, efficacité et efficience un travail complexe en conditions réelles, en livrant ce que vous avez demandé avec moins d’allers-retours.

Dans ChatGPT, GPT‑5.4 Thinking peut désormais fournir un aperçu préalable de son raisonnement, afin que vous puissiez ajuster le cap en cours de réponse pendant qu’il travaille, et obtenir un résultat final plus aligné sur vos besoins, sans échanges supplémentaires. GPT‑5.4 Thinking améliore également la recherche approfondie sur le web, notamment pour des requêtes très spécifiques, tout en préservant mieux le contexte pour des questions nécessitant un raisonnement prolongé. Ensemble, ces améliorations se traduisent par des réponses de meilleure qualité, plus rapides et qui restent pertinentes pour la tâche à accomplir.

Dans Codex et l’API, GPT‑5.4 est le premier modèle généraliste que nous avons publié avec des capacités natives d’utilisation d’ordinateur et à la pointe de la technologie, permettant aux agents d’utiliser des ordinateurs et d’orchestrer des workflows complexes sur plusieurs applications. Il prend en charge jusqu’à 1 M de tokens de contexte, permettant aux agents de planifier, d’exécuter et de vérifier des tâches sur de longues séquences d’action. GPT‑5.4 améliore également la façon dont les modèles fonctionnent au sein de vastes écosystèmes d’outils et de connecteurs grâce à la recherche d’outils, aidant les agents à trouver et à utiliser les bons outils plus efficacement, sans sacrifier l’intelligence. Enfin, GPT‑5.4 est notre modèle de raisonnement le plus efficace en tokens à ce jour, utilisant nettement moins de tokens pour résoudre des problèmes par rapport à GPT‑5.2—ce qui se traduit par une utilisation réduite des tokens et des vitesses plus élevées.

Grâce aux avancées en raisonnement général, en programmation et en travail intellectuel professionnel, GPT‑5.4 permet de créer des agents plus fiables, des workflows de développement plus rapides et des résultats de meilleure qualité dans ChatGPT, l’API et Codex.

	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2
GDPval (victoires ou ex æquo)	83,0 %	70,9 %	70,9 %
SWE-Bench Pro (Public)	57,7 %	56,80 %	55,6 %
OSWorld-Verified	75,0 %	74 %*	47,3 %
Toolathlon	54,6 %	51,9 %	46,3 %
BrowseComp	82,7 %	77,30 %	65,8 %

*Précédemment indiqué comme 64,7 %. GPT‑5.3‑Codex atteint 74 % grâce à un paramètre d’API nouvellement introduit qui préserve la résolution d’image d’origine.

Travail intellectuel

S’appuyant sur les capacités générales de raisonnement de GPT‑5.2, GPT‑5.4 offre des résultats encore plus cohérents et soignés sur des tâches concrètes importantes pour les professionnels.

Sur GDPval⁠, un benchmark évaluant la capacité des agents à produire un travail intellectuel bien défini dans 44 professions, GPT‑5.4 établit un nouveau standard, égalant ou surpassant les professionnels du secteur dans 83 % des comparaisons, contre 71 % pour GPT‑5.2.

Dans GDPval, les modèles accomplissent des tâches de travail intellectuel bien définies couvrant 44 professions issues des 9 principaux secteurs de l’économie américaine. Les tâches requièrent de véritables livrables, comme des présentations commerciales, des feuilles de calcul comptables, des plannings de soins d’urgence, des schémas de fabrication ou de courtes vidéos. L’effort de raisonnement a été défini sur xhigh pour GPT‑5.4 et heavy pour GPT‑5.2 (un niveau légèrement inférieur dans ChatGPT).

« GPT-5.4 est le meilleur modèle que nous ayons jamais essayé. Il est désormais en tête du classement de notre benchmark APEX-Agents, qui mesure les performances du modèle pour les tâches de services professionnels. Il excelle dans la création de livrables complexes sur des projets à long terme tels que des présentations, des modèles financiers et des analyses juridiques, offrant des performances de premier plan tout en s’exécutant plus rapidement et à moindre coût que les modèles de pointe concurrents. »

— Brendan Foody, CEO de Mercor

Nous avons accordé une attention particulière à l’amélioration de la capacité de GPT‑5.4 à créer et à modifier des feuilles de calcul, des présentations et des documents. Dans un benchmark interne portant sur des tâches de modélisation sur feuille de calcul qu’un analyste junior en banque d’investissement pourrait réaliser, GPT‑5.4 obtient un score moyen de 87,5 %, contre 68,4 % pour GPT‑5.2. Sur un ensemble de prompts d’évaluation de présentations, les évaluateurs humains ont préféré les présentations de GPT‑5.4 68 % du temps à celles de GPT‑5.2, en raison d’une esthétique plus aboutie, d’une plus grande variété visuelle et d’une utilisation plus efficace de la génération d’images.

Exemple côte à côte de feuilles de calcul générées par GPT-5.2 vs GPT-5.4

Les documents ont été générés avec un niveau d’effort de raisonnement défini sur xhigh.

Vous pouvez essayer ces fonctionnalités dans ChatGPT avec GPT‑5.4 Thinking ou Pro. Si vous êtes un client Enterprise, nous vous recommandons d’utiliser nos nouveaux plugins ChatGPT pour Excel et Google Sheets⁠(s'ouvre dans une nouvelle fenêtre), qui ont également été lancés aujourd’hui. Nous avons également mis à jour nos compétences de tableur⁠(s'ouvre dans une nouvelle fenêtre) et de présentation⁠(s'ouvre dans une nouvelle fenêtre) disponibles dans Codex et via l’API.

Pour rendre GPT‑5.4 plus performant dans des conditions réelles, nous avons continué à progresser dans la réduction des hallucinations et des erreurs. GPT‑5.4 est notre modèle le plus factuel à ce jour : sur un ensemble de prompts désidentifiés pour lesquels les utilisateurs ont signalé des erreurs factuelles, les affirmations individuelles de GPT‑5.4 sont 33 % moins susceptibles d’être fausses et ses réponses complètes sont 18 % moins susceptibles de contenir des erreurs, par rapport à GPT‑5.2.

« GPT-5.4 établit une nouvelle référence pour le travail juridique axé sur les documents. Lors de notre évaluation BigLaw Bench, il a obtenu un score de 91 %. Par rapport à d’autres modèles, GPT-5.4 est actuellement plus performant pour structurer des analyses transactionnelles complexes, maintenir la précision sur des contrats volumineux et fournir le niveau élevé de détail dont les praticiens du droit ont besoin. »

— Niko Grupen, responsable de la recherche appliquée chez Harvey

Utilisation d’ordinateur et vision

GPT‑5.4 est notre premier modèle généraliste doté de capacités natives d’utilisation de l’ordinateur et marque une avancée majeure pour les développeurs comme pour les agents. C’est le meilleur modèle actuellement disponible pour les développeurs qui créent des agents capables d’accomplir de vraies tâches sur des sites web et des systèmes logiciels.

Nous avons conçu GPT‑5.4 pour offrir de bonnes performances sur un large éventail de tâches impliquant l’utilisation d’un ordinateur. Il excelle dans l’écriture de code pour contrôler des ordinateurs via des bibliothèques comme Playwright, ainsi que dans l’exécution de commandes de souris et de clavier en réponse à des captures d’écran. Son comportement est modulable via des messages de développeur, ce qui signifie que les développeurs peuvent ajuster son comportement pour l’adapter à des cas d’usage particuliers. Les développeurs peuvent même configurer le comportement de sécurité du modèle pour s’adapter à différents niveaux de tolérance au risque en spécifiant des politiques de confirmation personnalisées.

Les performances et la flexibilité du modèle se reflètent dans des évaluations testant l’utilisation de l’ordinateur dans différents contextes. Sur OSWorld-Verified, qui mesure la capacité d’un modèle à naviguer dans un environnement desktop à l’aide de captures d’écran et d’actions au clavier/à la souris, GPT‑5.4 atteint un taux de réussite de 75 %, un niveau à l’état de l’art, dépassant largement les 47,3 %, et dépassant les performances humaines à 72,4 %.¹

Sur WebArena-Verified, qui teste l’utilisation du navigateur, GPT‑5.4 atteint un taux de réussite de premier plan de 67,3 % en utilisant à la fois une interaction via le DOM et par des captures d’écran, contre 65,4 % pour GPT‑5.2. Sur Online-Mind2Web, qui teste également l’utilisation du navigateur, GPT‑5.4 atteint un taux de réussite de 92,8 % en utilisant uniquement des observations basées sur des captures d’écran, améliorant les performances par rapport au mode agent de ChatGPT Atlas, qui atteint un taux de réussite de 70,9 %.

Un yield d’outil correspond au moment où l’assistant suspend son exécution pour attendre la réponse des outils. Si 3 outils sont appelés en parallèle, puis 3 autres outils appelés en parallèle, le nombre de yields serait de 2. Les yields d’outils constituent un meilleur indicateur de la latence que les appels d’outils, car ils reflètent les bénéfices de la parallélisation.

GPT‑5.4 interprète des captures d’écran d’une interface de navigateur et interagit avec des éléments de l’interface utilisateur via des clics basés sur des coordonnées pour envoyer des courriels et planifier un événement dans l’agenda.

L’amélioration de l’utilisation de l’ordinateur par GPT‑5.4 repose sur ses capacités renforcées de perception visuelle. Sur MMMU-Pro, un test de la compréhension visuelle et du raisonnement d’un modèle, GPT‑5.4 atteint un taux de réussite de 81,2 % sans utilisation d’outils, une amélioration par rapport aux 79,5 % de GPT‑5.2. Une meilleure perception visuelle se traduit également par de meilleures capacités d’analyse des documents. Sur OmniDocBench, GPT‑5.4 sans effort de raisonnement atteint une erreur moyenne (mesurée par la distance d’édition normalisée entre la prédiction du modèle et la vérité de référence — ground truth) de 0,109, contre 0,140 pour GPT‑5.2.

MMMUPro a été exécuté avec un niveau d’effort de raisonnement défini sur xhigh. OmniDocBench a été exécuté avec l’effort de raisonnement défini sur none, afin de refléter des performances à faible coût et à faible latence.

Nous améliorons également la compréhension visuelle des images denses, à haute résolution, lorsque la fidélité totale est essentielle. À partir de GPT‑5.4, nous introduisons un niveau de détail original pour l’image en entrée⁠(s'ouvre dans une nouvelle fenêtre) qui prend en charge une perception en pleine résolution jusqu’à 10,24 M de pixels au total ou une dimension maximale de 6000 pixels, selon la valeur la plus faible; le niveau de détail élevé pour l’image en entrée prend désormais en charge jusqu’à 2,56 M de pixels au total ou une dimension maximale de 2048 pixels. Lors de nos premiers tests avec des utilisateurs de l’API, nous avons constaté de fortes améliorations de la capacité de localisation, de la compréhension des images et de la précision des clics lors de l’utilisation du niveau de détail original ou élevé (high).

« Dans nos évaluations mesurant les performances d’utilisation de l’ordinateur sur ~30 k portails de gestion de copropriété et d’impôt foncier, GPT-5.4 a atteint un taux de réussite de 95 % dès la première tentative et de 100 % en trois tentatives, contre ~73–79 % avec les modèles CUA précédents. Il a également terminé les sessions ~3x plus rapidement tout en utilisant ~70 % de tokens en moins, améliorant sensiblement la fiabilité et l’efficacité des coûts à grande échelle. »

— Dod Fraser, CEO de Mainstay

Dans l’API, les développeurs peuvent accéder à ces fonctionnalités grâce à l’outil computer mis à jour. Veuillez consulter notre documentation mise à jour⁠(s'ouvre dans une nouvelle fenêtre) pour prendre connaissance des bonnes pratiques recommandées.

Codage

GPT‑5.4 combine les atouts de programmation de GPT‑5.3‑Codex avec des capacités de premier plan en matière de travail intellectuel et d’utilisation de l’ordinateur, qui comptent le plus sur les tâches de longue durée, où le modèle peut utiliser des outils, itérer et faire progresser le travail avec moins d’intervention manuelle. Il égale ou surpasse GPT‑5.3‑Codex sur SWE-Bench Pro tout en offrant une latence plus faible pour les efforts de raisonnement.

Nous estimons la latence en observant le comportement de nos modèles en production et en simulant cette latence hors ligne. L’estimation de la latence tient compte de la durée des appels d’outils (temps d’exécution du code), des tokens générés et des tokens en entrée. La latence en conditions réelles peut varier considérablement et dépend de nombreux facteurs qui ne sont pas pris en compte dans notre simulation. Les niveaux de raisonnement ont été évalués de none à xhigh.

Lorsqu’il est activé, le mode /fast dans Codex offre une vitesse de génération de tokens jusqu’à 1,5x plus rapide avec GPT‑5.4. C’est le même modèle et la même intelligence, simplement plus rapide. Cela signifie que les utilisateurs peuvent enchaîner les tâches de programmation, l’itération et le débogage tout en restant productifs. Les développeurs peuvent accéder à GPT‑5.4 aux mêmes vitesses élevées via l’API en utilisant le traitement prioritaire⁠(s'ouvre dans une nouvelle fenêtre).

Lors de l’évaluation et des tests internes, nous avons constaté que GPT‑5.4 excelle dans les tâches de front-end complexes, avec des résultats nettement plus esthétiques et plus fonctionnels que ceux de tous les modèles que nous avons lancés jusqu’à présent.

À titre de démonstration des capacités améliorées du modèle en utilisation de l’ordinateur et en programmation fonctionnant de concert, nous publions également une compétence Codex expérimentale appelée « Playwright (Interactive)⁠(s'ouvre dans une nouvelle fenêtre) ». Cela permet à Codex de déboguer visuellement des applications web et Electron; il peut même être utilisé pour tester une application qu’il est en train de créer, pendant qu’il la crée.

Jeu de simulation de parc d’attractions réalisé avec GPT‑5.4 à partir d’un seul prompt légèrement spécifié, en utilisant Playwright Interactive pour les tests de jeu dans le navigateur et la génération d’images pour l’ensemble d’assets isométriques. La simulation inclut le placement de chemins sur une grille de tuiles, la construction d’attractions et d’éléments de décor, le pathfinding des visiteurs, la mise en file d’attente et les cycles des attractions, tandis que les indicateurs du parc comme l’argent, le nombre de visiteurs, le bonheur, la propreté et la note augmentent ou diminuent selon les performances de l’aménagement et la façon dont les visiteurs y réagissent. Playwright a été utilisé pour automatiser des playtests de navigateur en construisant et en agrandissant le parc, en plaçant et en supprimant des chemins et des attractions, en vérifiant la navigation de la caméra, et en s’assurant que les visiteurs, les files d’attente, les états des attractions et les métriques de l’interface utilisateur se mettaient correctement à jour sur plusieurs tours de jeu.

Prompt : Utilise $playwright-interactive et $imagegen. Crée un jeu de simulation de parc à thème isométrique interactif que je peux construire et parcourir dans le navigateur. Utilise imagegen pour définir la vision visuelle globale et générer les assets du jeu, notamment les attractions, les chemins, le terrain, les arbres, l’eau, les stands de nourriture, les décorations, les bâtiments, les icônes et les illustrations d’interface. Le monde doit paraître cohérent, soigné et visuellement riche, avec une direction artistique premium qui fonctionne bien en perspective isométrique. Permets-moi de placer et de supprimer des chemins, d’ajouter des attractions, de positionner des éléments de décor, et de me déplacer dans le parc de manière fluide tout en surveillant l’activité des visiteurs, l’état des attractions et la croissance du parc. Inclus des déplacements de visiteurs crédibles, des systèmes simples de gestion du parc comme l’argent, la propreté, la gestion des files d’attente et le bonheur, et fais en sorte que l’expérience soit ludique, claire et complète plutôt que comme un prototype grossier. Privilégie le charme, la lisibilité et un excellent game feel plutôt que le réalisme.

Lors des tests de jeu, veille à construire et à agrandir un parc sur plusieurs sessions de jeu, vérifie que le placement et la navigation fonctionnent de manière fluide, confirme que les visiteurs réagissent à l’agencement du parc et aux attractions, et assure-toi que les visuels, l’interface et les interactions semblent stables et cohérents.

« Nos ingénieurs trouvent GPT-5.4 plus naturel et affirmé que les modèles précédents. Il résout des problèmes ambigus sans se remettre en question, et il est proactif pour paralléliser le travail afin de faire avancer les choses. »

— Lee Robinson, vice-président de la formation des développeurs chez Cursor

Utilisation d’outils

Avec GPT‑5.4, nous avons considérablement amélioré la façon dont les modèles fonctionnent avec des outils externes. Les agents peuvent désormais fonctionner dans des écosystèmes d’outils plus vastes, choisir les bons outils de manière plus fiable et exécuter des workflows en plusieurs étapes avec un coût et une latence réduits.

Recherche d’outils

Dans l’API, GPT‑5.4 introduit la recherche d’outils⁠(s'ouvre dans une nouvelle fenêtre), qui permet aux modèles de travailler efficacement lorsqu’ils disposent de nombreux outils.

Auparavant, lorsqu’un modèle disposait d’outils, toutes les définitions d’outils étaient incluses dans le prompt dès le départ. Pour les systèmes dotés de nombreux outils, cela pourrait ajouter des milliers — voire des dizaines de milliers — de tokens à chaque requête, augmentant les coûts, ralentissant les réponses et encombrant le contexte d’informations que le modèle pourrait ne jamais utiliser.

Avec la recherche d’outils, GPT‑5.4 reçoit une liste simplifiée des outils disponibles ainsi qu’une fonctionnalité de recherche d’outils. Lorsque le modèle doit utiliser un outil, il peut consulter la définition de cet outil et l’ajouter à la conversation à ce moment-là.

Cette approche réduit considérablement le nombre de tokens requis pour les workflows fortement axés sur les outils et préserve le cache, rendant les requêtes plus rapides et moins coûteuses. Cela permet également aux agents de travailler de façon fiable avec des écosystèmes d’outils beaucoup plus vastes. Pour les serveurs MCP susceptibles de contenir des dizaines de milliers de tokens de définitions d’outils, les gains d’efficacité peuvent être substantiels.

Pour démontrer les gains d’efficacité, nous avons évalué 250 tâches du benchmark MCP Atlas⁠(s'ouvre dans une nouvelle fenêtre) de Scale avec les 36 serveurs MCP activés selon deux modes : (1) rendre chaque fonction MCP directement accessible dans le contexte du modèle, et (2) placer tous les serveurs MCP derrière la recherche d’outils. La configuration de recherche d’outils a réduit l’utilisation totale de tokens de 47 % tout en atteignant la même précision.

Les exemples de nombre de tokens proviennent d’une moyenne de 250 tâches du dataset public MCP-Atlas.

Appels d’outils agentiques

GPT‑5.4 améliore également l’appel d’outils, le rendant plus précis et plus efficace lorsqu’il s’agit de décider quand et comment utiliser des outils pendant le raisonnement, en particulier dans l’API. Comparé à GPT‑5.2, il atteint une précision plus élevée en moins de tours sur Toolathlon, un benchmark qui évalue la capacité des agents IA à utiliser des outils et des API du monde réel pour accomplir des tâches en plusieurs étapes. Par exemple, un agent doit lire des e-mails, extraire les pièces jointes des devoirs, les importer, les noter et enregistrer les résultats dans une feuille de calcul.

Pour les cas d’usage sensibles à la latence où l’effort de raisonnement est défini sur none, GPT‑5.4 améliore encore les performances de ses prédécesseurs.

Dans τ2-bench⁠⁠(s'ouvre dans une nouvelle fenêtre), un modèle doit utiliser des outils pour accomplir une tâche de service à la clientèle, dans un contexte où un utilisateur simulé peut communiquer et agir sur l’environnement. L’effort de raisonnement était réglé sur None.

Amélioration de la recherche sur le web

GPT‑5.4 est plus performant pour la recherche web agentique. Sur BrowseComp, une mesure de la capacité des agents IA à parcourir le web de manière persistante pour trouver des informations difficiles à localiser, GPT‑5.4 progresse de 17 %_abs par rapport à GPT‑5.2, et GPT‑5.4 Pro établit un nouveau record de 89,3 %.

En pratique, cela signifie que GPT‑5.4 Thinking est plus performant pour répondre aux questions qui nécessitent de rassembler des informations provenant de nombreuses sources sur le web. Il peut effectuer des recherches plus persistantes sur plusieurs itérations afin d’identifier les sources les plus pertinentes, en particulier pour les questions de type “aiguille dans une botte de foin”, et les synthétiser en une réponse claire et solidement argumentée.

Dans BrowseComp, nous avons utilisé une liste de blocage appliquée à la recherche excluant de l’évaluation les sites web contenant des réponses de benchmark afin d’éviter toute contamination et de garantir une mesure équitable des performances. GPT‑5.4 a été mesuré à une date ultérieure à GPT‑5.2, de sorte que les scores reflètent les changements apportés au modèle, à notre système de recherche et à l’état d’Internet. GPT‑5.4 a été testé avec une liste de blocage plus longue et actualisée. Les modèles utilisent l’outil de recherche ChatGPT, qui peut présenter de légères différences par rapport à la recherche via l’API.

« GPT-5.4 xhigh établit un nouvel état de l’art pour l’utilisation d’outils en plusieurs étapes. Zapier mène certains des benchmarks d’utilisation d’outils les plus rigoureux du secteur, en testant des modèles sur des centaines de workflows avancés en conditions réelles. GPT-5.4 a réussi à terminer les tâches là où les modèles précédents abandonnaient — le modèle le plus persévérant à ce jour. »

— Wade, CEO chez Zapier

Contrôlabilité

De la même manière que Codex décrit son approche lorsqu’il commence à travailler, GPT‑5.4 Thinking dans ChatGPT présentera désormais son approche avec un préambule pour les requêtes plus longues et plus complexes. Vous pouvez aussi ajouter des instructions ou ajuster sa direction en cours de réponse. Cela facilite l’orientation du modèle vers le résultat exact que vous souhaitez, sans devoir recommencer ni nécessiter plusieurs tours supplémentaires. Cette fonctionnalité est désormais disponible sur chatgpt.com⁠(s'ouvre dans une nouvelle fenêtre) et l’application Android, et sera bientôt disponible sur l’application iOS.

Le modèle peut également raisonner plus longuement sur des tâches difficiles tout en conservant une meilleure prise en compte des étapes précédentes de la conversation. Cela lui permet de gérer des workflows plus longs et des prompts plus complexes tout en maintenant des réponses cohérentes et pertinentes tout au long.

Cette vidéo a été accélérée à des fins d’illustration.

Sécurité

Au cours des derniers mois, nous avons continué à améliorer les mesures de protection que nous avons introduites avec GPT‑5.3‑Codex tout en préparant le déploiement de GPT‑5.4. À l’instar de GPT‑5.3‑Codex, nous considérons GPT‑5.4 comme une capacité cybernétique de niveau High dans le cadre de notre cadre de préparation, et nous le déployons avec les protections correspondantes, comme indiqué dans la fiche système⁠. Il s’agit notamment d’une pile de sécurité cyber étendue, comprenant des systèmes de surveillance, des contrôles d’accès sécurisés et un blocage asynchrone des requêtes à plus haut risque pour les clients sur des environnements relevant de la politique de non-conservation des données (ZDR), parallèlement à des investissements continus dans l’écosystème de sécurité global.

La cybersécurité étant par nature à double usage, nous maintenons une approche de précaution en matière de déploiement tout en continuant d’ajuster nos politiques et nos classificateurs. Pour certains clients sur les surfaces ZDR, le blocage au niveau des requêtes reste un élément de notre dispositif d’atténuation des risques cyber; comme les classificateurs sont encore en cours d’amélioration, certains faux positifs peuvent survenir tandis que nous continuons à affiner ces garde-fous. Ces mises à jour visent à améliorer le fonctionnement concret des garde-fous, notamment en réduisant les refus inutiles et les réponses excessivement assorties de réserves, tout en préservant de solides protections contre les abus.

Nous avons poursuivi nos recherches en matière de sécurité sur la possibilité de surveiller le raisonnement détaillé (« chain-of-thought ») (CoT) afin de mieux comprendre comment les modèles raisonnent et d’aider à détecter d’éventuels comportements inappropriés. Dans le cadre de ce travail, nous présentons une nouvelle évaluation open source, contrôlabilité de la CoT⁠, mesurant si les modèles peuvent délibérément obscurcir leur raisonnement afin d’échapper à la surveillance. Nous constatons que la capacité de GPT‑5.4 Thinking à contrôler sa CoT est faible, ce qui est une propriété positive pour la sécurité, ce qui suggère que le modèle n’a pas la capacité de dissimuler son raisonnement et que la surveillance de la CoT reste un outil de sécurité efficace.

Disponibilité et tarification

GPT‑5.4 est déployé progressivement à compter d’aujourd’hui sur ChatGPT et Codex. Dans l’API, GPT‑5.4 est disponible dès maintenant sous l’identifiant gpt-5.4. GPT‑5.4 Pro est également disponible dans l’API sous l’identifiant gpt-5.4-pro pour les développeurs qui ont besoin de performances maximales sur les tâches les plus complexes.

Dans ChatGPT, GPT‑5.4 Thinking est disponible dès aujourd’hui pour les utilisateurs de ChatGPT Plus, Team et Pro, en remplacement de GPT‑5.2 Thinking. GPT‑5.2 Thinking restera disponible pendant trois mois pour les utilisateurs payants dans le sélecteur de modèles, dans la section Anciens modèles, puis sera retiré le 5 juin 2026. Les clients des plans Enterprise et Edu peuvent activer l’accès anticipé via les paramètres d’administration. GPT‑5.4 Pro est disponible pour les plans Pro et Enterprise. Fenêtres de contexte⁠(s'ouvre dans une nouvelle fenêtre) dans ChatGPT pour GPT‑5.4 Thinking reste inchangé par rapport à GPT‑5.2 Thinking.

GPT‑5.4 est notre premier modèle de raisonnement principal qui intègre les capacités de programmation de pointe de GPT‑5.3‑codex et qui est en cours de déploiement dans ChatGPT, l’API et Codex. Nous l’appelons GPT‑5.4 pour refléter ce bond et pour simplifier le choix entre les modèles lors de l’utilisation de Codex. Au fil du temps, vous pouvez vous attendre à ce que nos modèles Instant et nos modèles Thinking évoluent à des rythmes différents.

GPT‑5.4 dans Codex inclut une prise en charge expérimentale d’une fenêtre de contexte de 1 M de tokens. Les développeurs peuvent essayer cela en configurant model_context_window et model_auto_compact_token_limit. Les requêtes qui dépassent la fenêtre de contexte standard de 272K comptent double dans les limites d’utilisation par rapport au taux normal.

Dans l’API, GPT‑5.4 est facturé plus cher par token que GPT‑5.2 afin de refléter ses capacités améliorées, tandis que sa plus grande efficacité en tokens contribue à réduire le nombre total de tokens requis pour de nombreuses tâches. Les tarifs Batch et Flex sont disponibles à la moitié du tarif standard de l’API, tandis que le traitement prioritaire est disponible au double du tarif standard de l’API.

Modèle API	Prix d’entrée	Prix d’entrée en cache	Prix de sortie
gpt-5.2	1,75 $ / M tokens	0,175 $ / M tokens	14 $ / M tokens
gpt-5.4	2,50 $ / M tokens	0,25 $/ M tokens	15 $ / M tokens
gpt-5.2-pro	21 $ / M tokens	-	168 $ / M tokens
gpt-5.4-pro	30 $ / M tokens	-	180 $ / M tokens

Évaluations

Professionnel

Évaluation	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
GDPval	83,0 %	82 %	70,9 %	70,9 %	74,1 %
FinanceAgent v1.1	56 %	61,5 %	54 %	59,5 %	—
Tâches de modélisation en banque d’investissement (interne)	87,3 %	83,6 %	79,3 %	68,4 %	71,7 %
OfficeQA	68,1 %	—	65,1 %	63,1 %	—

Codage

Évaluation	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
SWE-Bench Pro (Public)	57,7 %	—	56,80 %	55,6 %	—
Terminal-Bench 2.0	75,1 %	—	77,30 %	62,20 %	—

Utilisation d’ordinateur et vision

Évaluation	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
OSWorld-Verified	75,0 %	—	74,0 %	47,3 %	—
MMMU Pro (sans outils)	81,2 %	—	—	79,5 %	—
MMMU Pro (avec outils)	82,1 %	—	—	80,4 %	—

Utilisation d’outils

Évaluation	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
BrowseComp	82,7 %	89,3 %	77,30 %	65,8 %	77,90%
MCP Atlas	67,2 %	—	—	60,6 %	—
Toolathlon	54,6 %	—	51,9 %	45,7 %	—
Tau2-bench Telecom	98,9 %	—	—	98,7 %	—

Académique

Évaluation	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Recherche scientifique de pointe	33 %	36,7 %	—	25,2 %	—
FrontierMath niveaux 1 à 3	47,6 %	—	—	40,7 %	—
FrontierMath niveau 4	27,1 %	38,0 %	—	18,8 %	31,3 %
GPQA Diamond	92,8 %	94,4 %	92,6 %	92,4 %	93,2 %
Le dernier examen de l’humanité (sans outils)	39,8 %	42,7 %	—	34,5 %	36,6 %
Le dernier examen de l’humanité (avec outils)	52,1 %	58,7 %	—	45,5 %	50 %

Contexte étendu

Évaluation	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Graphwalks BFS 0K–128K	93 %	—	—	94,00%	—
Graphwalks BFS 256K–1M	21,4 %	—	—	—	—
Graphwalks parents 0–128K (précision)	89,8 %	—	—	89 %	—
Graphwalks parents 256K–1M (précision)	32,4 %	—	—	—	—
OpenAI MRCR v2 8-needle 4K–8K	97,3 %	—	—	98,2 %	—
OpenAI MRCR v2 8-needle 8K–16K	91,4 %	—	—	89,3 %	—
OpenAI MRCR v2 8-needle 16K–32K	97,2 %	—	—	95,3 %	—
OpenAI MRCR v2 8-needle 32K–64K	90,5 %	—	—	92 %	—
OpenAI MRCR v2 8-needle 64K–128K	86 %	—	—	85,6 %	—
OpenAI MRCR v2 8-needle 128K–256K	79,3 %	—	—	77 %	—
OpenAI MRCR v2 8-needle 256K–512K	57,5 %	—	—	—	—
OpenAI MRCR v2 8-needle 512K–1M	36,6 %	—	—	—	—

Raisonnement abstrait

Évaluation	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ARC-AGI-1 (Verified)	93,7 %	94,5 %	—	86,2 %	90,5 %
ARC-AGI-2 (Verified)	73,3 %	83,3 %	—	52,9 %	54,2 % (high)

Évaluations sans raisonnement

Évaluation	GPT‑5.4 (none)	GPT‑5.2 (none)	GPT‑4.1
OmniDocBench (distance d’édition normalisée)	0,109	0,140	—
Tau2-bench Telecom	64,3 %	57,2 %	43,6 %

Les évaluations ont été exécutées avec un niveau d’effort de raisonnement défini sur xhigh, sauf indication contraire. Les benchmarks ont été réalisés dans un environnement de recherche, qui peut dans certains cas produire des résultats légèrement différents de ceux de ChatGPT en production.