Salta al contingut principal
OpenAI

5 de març del 2026

ProductePublicació

Presentem GPT‑5.4

Dissenyat per al treball professional

S'està carregant…

Avui llancem GPT‑5.4 a ChatGPT (com a GPT‑5.4 Thinking), a l’API i a Codex. És el nostre model d’avantguarda més capaç i eficient per al treball professional. També llancem GPT‑5.4 Pro a ChatGPT i a l’API, per a les persones que volen el màxim rendiment en tasques complexes.

GPT‑5.4 reuneix en un únic model d’avantguarda el millor dels nostres avenços recents en raonament, codificació i fluxos de treball agentius. Incorpora les capacitats de codificació líders del sector de GPT‑5.3‑Codex, alhora que millora la manera com el model treballa amb eines, entorns de programari i tasques professionals que impliquen fulls de càlcul, presentacions i documents. El resultat és un model que completa amb precisió, eficàcia i eficiència treball real complex, oferint el que has demanat amb menys intercanvis.

A ChatGPT, GPT‑5.4 Thinking ara pot proporcionar un pla inicial del seu pensament, de manera que pots reorientar la resposta a mig procés mentre treballa, i arribar a un resultat final més ajustat al que necessites sense torns addicionals. GPT‑5.4 Thinking també millora la recerca profunda al web, especialment per a consultes molt específiques, mentre manté millor el context en preguntes que requereixen més temps de pensament. En conjunt, aquestes millores impliquen respostes de més qualitat que arriben més ràpid i es mantenen rellevants per a la tasca en qüestió.

A Codex i a l’API, GPT‑5.4 és el primer model de propòsit general que hem llançat amb capacitats natives d’ús d’ordinador d’última generació, que permeten als agents operar ordinadors i dur a terme fluxos de treball complexos en diverses aplicacions. Admet fins a 1M segments de context, cosa que permet als agents planificar, executar i verificar tasques al llarg d’horitzons extensos. GPT‑5.4 també millora la manera com els models treballen en grans ecosistemes d’eines i connectors amb la cerca d’eines, ajudant els agents a trobar i utilitzar les eines adequades amb més eficiència sense sacrificar intel·ligència. Finalment, GPT‑5.4 és el nostre model de raonament més eficient en segments fins ara, ja que utilitza significativament menys segments per resoldre problemes en comparació amb GPT‑5.2, cosa que es tradueix en un menor ús de segments i més rapidesa.

Juntament amb els avenços en raonament general, codificació i treball professional basat en coneixement, GPT‑5.4 permet agents més fiables, fluxos de treball de desenvolupament més ràpids i resultats de més qualitat a ChatGPT, l’API i Codex.


GPT‑5.4 

GPT‑5.3‑Codex

GPT‑5.2

GDPval (wins or ties)

83.0%

70.9%

70.9%

SWE-Bench Pro (Public)

57.7%

56.8%

55.6%

OSWorld-Verified

75.0%

74.0%* 

47.3%

Toolathlon

54.6%

51.9%

46.3%

BrowseComp

82.7%

77.3%

65.8%

*Previously reported as 64.7%. GPT‑5.3‑Codex achieves 74.0% with a newly introduced API parameter that preserves the original image resolution.

Treball del coneixement

Partint de les capacitats de raonament general de GPT‑5.2, GPT‑5.4 ofereix resultats encara més consistents i polits en tasques del món real importants per als professionals.

A GDPval, que posa a prova la capacitat dels agents per produir treball de coneixement ben especificat en 44 ocupacions, GPT‑5.4 aconsegueix un nou estat de l’art, igualant o superant professionals del sector en el 83.0% de les comparacions, davant del 70.9% de GPT‑5.2.

A GDPval, els models intenten fer treball de coneixement ben especificat que abasta 44 ocupacions dels 9 principals sectors que contribueixen al PIB dels EUA. Les tasques demanen productes de treball reals, com ara presentacions comercials, fulls de càlcul de comptabilitat, horaris d’atenció urgent, diagrames de fabricació o vídeos curts. L’esforç de raonament es va establir a xhigh per a GPT‑5.4 i a heavy per a GPT‑5.2 (un nivell lleugerament inferior a ChatGPT).

«GPT-5.4 és el millor model que hem provat mai. Ara és al capdamunt de la classificació del nostre benchmark APEX-Agents, que mesura el rendiment del model en treballs de serveis professionals. Destaca en la creació de lliurables de llarg horitzó com ara presentacions, models financers i anàlisi jurídica, i ofereix el millor rendiment mentre funciona més ràpid i a un cost inferior que els models d’avantguarda de la competència.»
— Brendan Foody, CEO de Mercor

Hem posat un èmfasi especial a millorar la capacitat de GPT‑5.4 per crear i editar fulls de càlcul, presentacions i documents. En un benchmark intern de tasques de modelització en fulls de càlcul que podria fer un analista júnior de banca d’inversió, GPT‑5.4 aconsegueix una puntuació mitjana del 87.3%, davant del 68.4% de GPT‑5.2. En un conjunt d’indicacions d’avaluació de presentacions, els avaluadors humans van preferir les presentacions de GPT‑5.4 el 68.0% del temps respecte a les de GPT‑5.2 gràcies a una estètica més sòlida, més varietat visual i un ús més eficaç de la generació d'imatges.

Exemple comparatiu de sortides de fulls de càlcul de GPT-5.2 vs GPT-5.4

Els documents es van generar amb l’esforç de raonament establert a xhigh

Pots provar aquestes capacitats a ChatGPT amb GPT‑5.4 Thinking o Pro. Si ets client Enterprise, et recomanem fer servir el nostre nou complement de ChatGPT per a Excel(s'obre en una finestra nova), que també s’ha llançat avui. També hem actualitzat les nostres habilitats de fulls de càlcul(s'obre en una finestra nova) i presentacions(s'obre en una finestra nova) disponibles a Codex i a l’API.

Per fer que GPT‑5.4 sigui millor en el treball del món real, hem continuat avançant en la reducció d’al·lucinacions i errors. GPT‑5.4 és el nostre model més factual fins ara: en un conjunt d’indicacions desidentificades en què els usuaris van assenyalar errors factuals, les afirmacions individuals de GPT‑5.4 tenen un 33% menys de probabilitats de ser falses i les seves respostes completes tenen un 18% menys de probabilitats de contenir cap error, en relació amb GPT‑5.2.

«GPT-5.4 estableix un nou llistó per al treball jurídic intensiu en documents. En la nostra avaluació BigLaw Bench, va obtenir un 91%. En comparació amb altres models, GPT-5.4 és actualment millor estructurant anàlisis transaccionals complexes, mantenint la precisió en contractes extensos i oferint l’alt nivell de detall que requereixen els professionals del dret.»
— Niko Grupen, responsable de recerca aplicada a Harvey

Ús d’ordinador i visió

GPT‑5.4 és el nostre primer model de propòsit general amb capacitats natives d’ús d’ordinador i marca un gran pas endavant tant per a desenvolupadors com per a agents. És el millor model disponible actualment per a desenvolupadors que construeixen agents que completen tasques reals en llocs web i sistemes de programari.

Hem dissenyat GPT‑5.4 perquè ofereixi un alt rendiment en una àmplia gamma de càrregues de treball d’ús d’ordinador. És excel·lent escrivint codi per operar ordinadors mitjançant biblioteques com Playwright, així com emetent ordres de ratolí i teclat en resposta a captures de pantalla. El seu comportament es pot dirigir mitjançant missatges de desenvolupador, cosa que significa que els desenvolupadors poden ajustar-lo a casos d’ús concrets. Fins i tot poden configurar el comportament de seguretat del model per adaptar-lo a diferents nivells de tolerància al risc especificant polítiques de confirmació personalitzades.

El rendiment i la flexibilitat del model es reflecteixen en benchmarks que posen a prova l’ús d’ordinador en diferents entorns. A OSWorld-Verified, que mesura la capacitat d’un model per navegar en un entorn d’escriptori mitjançant captures de pantalla i accions de teclat/ratolí, GPT‑5.4 aconsegueix una taxa d’èxit d’75.0%, un estat de l’art que supera de llarg el 47.3% de GPT‑5.2 i també el rendiment humà, situat en 72.4%.1

A WebArena-Verified, que posa a prova l’ús del navegador, GPT‑5.4 aconsegueix una taxa d’èxit capdavantera del 67.3% quan utilitza tant interacció basada en DOM com en captures de pantalla, en comparació amb el 65.4% de GPT‑5.2. A Online-Mind2Web, que també posa a prova l’ús del navegador, GPT‑5.4 aconsegueix una taxa d’èxit del 92.8% utilitzant només observacions basades en captures de pantalla, millorant respecte del Mode agent d’Atlas de ChatGPT, que aconsegueix una taxa d’èxit del 70.9%.

Una cessió a eines es produeix quan un assistent cedeix el control per esperar respostes d’eines. Si es criden 3 eines en paral·lel, seguides de 3 eines més cridades en paral·lel, el nombre de cessions seria 2. Les cessions a eines són un millor indicador de la latència que les crides a eines perquè reflecteixen els avantatges de la paral·lelització.

GPT‑5.4 interpreta captures de pantalla d’una interfície de navegador i interactua amb elements de la IU mitjançant clics basats en coordenades per enviar correus electrònics i programar un esdeveniment al calendari. El vídeo no està accelerat.

La millora en l’ús d’ordinador de GPT‑5.4 es basa en les millores de les seves capacitats generals de percepció visual. A MMMU-Pro, una prova de comprensió visual i raonament d’un model, GPT‑5.4 aconsegueix una taxa d’èxit del 81.2% sense ús d’eines, millorant el 79.5% de GPT‑5.2. La millora de la percepció visual també es tradueix en millors capacitats d’anàlisi de documents. A OmniDocBench, GPT‑5.4 sense esforç de raonament obté un error mitjà (mesurat per la distància d’edició normalitzada entre la predicció del model i la veritat de referència) de 0.109, millor que el 0.140 de GPT‑5.2.

MMMUPro es va executar amb l’esforç de raonament establert a xhigh. OmniDocBench es va executar amb l’esforç de raonament establert a none, per reflectir un rendiment de baix cost i baixa latència.

També estem millorant la comprensió visual per a imatges denses i d’alta resolució on la fidelitat completa és important. A partir de GPT‑5.4, introduïm un nivell de detall d’entrada(s'obre en una finestra nova) d’imatge original que admet percepció amb fidelitat completa fins a 10.24 M píxels totals o una dimensió màxima de 6000 píxels, el que sigui menor; el nivell de detall d’entrada d’imatge high ara admet fins a 2.56 M píxels totals o una dimensió màxima de 2048 píxels. En les primeres proves amb usuaris de l’API, vam observar millores importants en la capacitat de localització, la comprensió d’imatges i la precisió dels clics quan s’utilitzava detall original o high.

«En les nostres avaluacions que mesuren el rendiment d’ús d’ordinador en uns ~30K portals d’HOA i d’impostos sobre la propietat, GPT-5.4 va assolir una taxa d’èxit del 95% al primer intent i del 100% en tres intents, en comparació amb ~73–79% amb models CUA anteriors. També va completar les sessions ~3x més ràpidament mentre utilitzava ~70% menys segments, millorant de manera significativa la fiabilitat i l’eficiència de cost a escala.»
— Dod Fraser, CEO de Mainstay

A l’API, els desenvolupadors poden accedir a aquestes capacitats mitjançant l’eina computer actualitzada. Consulta la nostra documentació actualitzada(s'obre en una finestra nova) per conèixer les pràctiques recomanades.

Codificació

GPT‑5.4 combina els punts forts de codificació de GPT‑5.3‑Codex amb capacitats capdavanteres de treball del coneixement i ús d’ordinador, especialment importants en tasques més llargues on el model pot utilitzar eines, iterar i avançar la feina amb menys intervenció manual. Iguala o supera GPT‑5.3‑Codex a SWE-Bench Pro, alhora que té menys latència en tots els nivells d’esforç de raonament.

Estimem la latència observant el comportament dels nostres models en producció i simulant-ho fora de línia. L’estimació de latència té en compte la durada de les crides a eines (temps d’execució del codi), els segments mostrejats i els segments d’entrada. La latència en el món real pot variar substancialment i depèn de molts factors que no es recullen en la nostra simulació. Els nivells d’esforç de raonament van des de none fins a xhigh.

Quan està activat, el mode /fast a Codex ofereix fins a 1.5x més velocitat de segments amb GPT‑5.4. És el mateix model i la mateixa intel·ligència, només que més ràpid. Això significa que els usuaris poden avançar en tasques de codificació, iteració i depuració mantenint el flux. Els desenvolupadors poden accedir a GPT‑5.4 a les mateixes velocitats ràpides a través de l’API mitjançant el processament prioritari(s'obre en una finestra nova).

En les avaluacions i proves internes, hem comprovat que GPT‑5.4 destaca en tasques complexes de frontend, amb resultats notablement més estètics i funcionals que qualsevol model que hàgim llançat abans.

Com a demostració de la millora conjunta de les capacitats d’ús d’ordinador i codificació del model, també llancem una habilitat experimental de Codex anomenada «Playwright (Interactive)(s'obre en una finestra nova)». Això permet a Codex depurar visualment aplicacions web i Electron; fins i tot es pot utilitzar per provar una aplicació mentre l’està construint.

Joc de simulació de parc temàtic creat amb GPT‑5.4 a partir d’una sola indicació lleugerament especificada, utilitzant Playwright Interactive per a les proves de joc al navegador i generació d'imatges per al conjunt d’actius isomètrics. La simulació inclou col·locació de camins basada en rajoles, construcció d’atraccions i decorats, cerca de camins dels visitants, gestió de cues i cicles de les atraccions, mentre que mètriques del parc com els diners, el nombre de visitants, la felicitat, la neteja i la valoració pugen o baixen segons com funciona la disposició i com hi reaccionen els visitants. Playwright es va utilitzar per automatitzar les proves de joc al navegador construint i ampliant el parc, col·locant i retirant camins i atraccions, comprovant la navegació de la càmera i verificant que els visitants, les cues, els estats de les atraccions i les mètriques de la IU s’actualitzaven correctament al llarg de diverses rondes de joc.

Indicació: Use $playwright-interactive and $imagegen. Create an interactive isometric theme park simulation game that I can build and navigate in the browser. Use imagegen to establish the overall visual vision and generate the game’s assets, including rides, paths, terrain, trees, water, food stalls, decorations, buildings, icons, and UI illustrations. The world should feel cohesive, polished, and visually rich, with a premium art direction that works well from an isometric perspective. Let me place and remove paths, add attractions, position scenery, and move around the park smoothly while monitoring guest activity, ride status, and park growth. Include believable guest movement, simple park management systems like money, cleanliness, queueing, and happiness, and make the experience feel playful, clear, and complete rather than like a rough prototype. Prioritize charm, readability, and strong game feel over realism. 

When play testing, be sure to build and expand a park through several rounds of play, verify that placement and navigation work smoothly, confirm that guests react to the park layout and attractions, and ensure the visuals, UI, and interactions feel stable and cohesive.

«GPT-5.4 és actualment el líder en els nostres benchmarks interns. Els nostres enginyers el troben més natural i més decidit que els models anteriors. Resol problemes ambigus sense dubtar de si mateix i és proactiu a l’hora de paral·lelitzar la feina per mantenir el ritme.»
— Lee Robinson, VP of Developer Education de Cursor

Ús d’eines

Amb GPT‑5.4, hem millorat significativament la manera com els models treballen amb eines externes. Ara els agents poden operar en ecosistemes d’eines més grans, triar les eines adequades amb més fiabilitat i completar fluxos de treball de diversos passos amb menys cost i latència.

Cerca d’eines

A l’API, GPT‑5.4 introdueix la cerca d’eines(s'obre en una finestra nova), que permet als models treballar eficientment quan se’ls proporcionen moltes eines.

Abans, quan es donaven eines a un model, totes les definicions de les eines s’incloïen d’entrada a la indicació. En sistemes amb moltes eines, això podia afegir milers —o fins i tot desenes de milers— de segments a cada sol·licitud, incrementant el cost, alentint les respostes i omplint el context amb informació que potser el model no arribaria a utilitzar.

Amb la cerca d’eines, GPT‑5.4 rep en lloc d’això una llista lleugera de les eines disponibles juntament amb una capacitat de cerca d’eines. Quan el model necessita utilitzar una eina, pot consultar la definició d’aquella eina i afegir-la a la conversa en aquell moment.

Aquest enfocament redueix dràsticament el nombre de segments necessaris per als fluxos de treball intensius en eines i preserva la memòria cau, fent que les sol·licituds siguin més ràpides i més barates. També permet als agents treballar de manera fiable amb ecosistemes d’eines molt més grans. En servidors MCP que poden contenir desenes de milers de segments de definicions d’eines, els guanys d’eficiència poden ser substancials.

Per demostrar aquests guanys d’eficiència, vam avaluar 250 tasques del benchmark MCP Atlas(s'obre en una finestra nova) de Scale amb els 36 servidors MCP activats en dos modes: (1) exposant cada funció MCP directament en el context del model, i (2) posant tots els servidors MCP darrere de la cerca d’eines. La configuració amb cerca d’eines va reduir l’ús total de segments en un 47% mantenint la mateixa precisió.

Els recomptes d’exemple de segments provenen de la mitjana de 250 tasques del conjunt de dades públic MCP-Atlas.

Crides agentives a eines

GPT‑5.4 també millora les crides a eines, fent-les més precises i eficients a l’hora de decidir quan i com utilitzar eines durant el raonament, especialment a l’API. En comparació amb GPT‑5.2, aconsegueix una precisió més alta en menys torns a Toolathlon, un benchmark que posa a prova com de bé els agents d’IA poden utilitzar eines i API del món real per completar tasques de diversos passos. Per exemple, un agent ha de llegir correus electrònics, extreure fitxers adjunts de tasques, carregar-los, corregir-los i registrar els resultats en un full de càlcul.

Una cessió a eines es produeix quan un assistent cedeix el control per esperar respostes d’eines. Si es criden 3 eines en paral·lel, seguides de 3 eines més cridades en paral·lel, el nombre de cessions seria 2. Les cessions a eines són un millor indicador de la latència que les crides a eines perquè reflecteixen els avantatges de la paral·lelització.

Per a casos d’ús sensibles a la latència en què es prefereix un esforç de raonament None, GPT‑5.4 millora encara més els seus predecessors.

A τ2-bench⁠(s'obre en una finestra nova), un model ha d’utilitzar eines per dur a terme una tasca d’atenció al client, on hi pot haver un usuari simulat que pot comunicar-se i actuar sobre l’estat del món. L’esforç de raonament es va establir a None.

Cerca web millorada

GPT‑5.4 és millor en la cerca web agentiva. A BrowseComp, una mesura de com de bé els agents d’IA poden navegar persistentment pel web per trobar informació difícil de localitzar, GPT‑5.4 puja un 17%abs respecte de GPT‑5.2, i GPT‑5.4 Pro estableix un nou estat de l’art amb un 89.3%.

A la pràctica, això significa que GPT‑5.4 Thinking és més fort a l’hora de respondre preguntes que requereixen reunir informació de moltes fonts del web. Pot cercar amb més persistència durant múltiples rondes per identificar les fonts més rellevants, especialment en preguntes de tipus «agulla en un paller», i sintetitzar-les en una resposta clara i ben raonada.

A BrowseComp, vam utilitzar una llista de bloqueig de cerca que excloïa de l’avaluació els llocs web que contenien respostes del benchmark per evitar contaminació i garantir una mesura justa del rendiment. GPT‑5.4 es va mesurar en una data posterior a GPT‑5.2, de manera que les puntuacions reflecteixen canvis en el model, el nostre sistema de cerca i l’estat d’internet. GPT‑5.4 es va provar amb una llista de bloqueig actualitzada i més llarga. Els models utilitzen l’eina de cerca de ChatGPT, que pot tenir petites diferències respecte de la cerca de l’API.

«GPT-5.4 xhigh és el nou estat de l’art en l’ús d’eines de diversos passos. Zapier executa alguns dels benchmarks d’ús d’eines més rigorosos del sector i prova models en centenars de fluxos de treball avançats del món real. GPT-5.4 va completar la feina allà on els models anteriors es rendien: és el model més persistent fins ara.»
— Wade, CEO de Zapier

Controlabilitat

De manera similar a com Codex exposa el seu enfocament quan comença a treballar, GPT‑5.4 Thinking a ChatGPT ara exposarà el seu treball amb un preàmbul per a consultes més llargues i complexes. També pots afegir instruccions o ajustar-ne la direcció a mig procés. Això facilita orientar el model cap al resultat exacte que vols sense haver de començar de nou ni requerir múltiples torns addicionals. Aquesta funció ja està disponible a chatgpt.com(s'obre en una finestra nova) i a l’aplicació Android, i aviat arribarà a l’aplicació iOS.

El model també pot pensar més temps en tasques difícils mantenint una consciència més forta dels passos anteriors de la conversa. Això li permet gestionar fluxos de treball més llargs i indicacions més complexes mentre manté les respostes coherents i rellevants en tot moment.

Aquest vídeo s’ha accelerat amb finalitats il·lustratives.

Seguretat

En els darrers mesos, hem continuat millorant les proteccions que vam introduir amb GPT‑5.3‑Codex mentre preparàvem GPT‑5.4 per al desplegament. Igual que amb GPT‑5.3‑Codex, tractem GPT‑5.4 com una capacitat cibernètica alta dins del nostre Entorn de treball de preparació, i el despleguem amb les proteccions corresponents tal com es documenten a la fitxa del model(s'obre en una finestra nova). Aquestes inclouen una pila ampliada de seguretat cibernètica, amb sistemes de monitoratge, controls d’accés de confiança i bloqueig asíncron per a sol·licituds de risc més elevat per a clients en superfícies amb retenció de dades nul·la (ZDR), juntament amb una inversió continuada en l’ecosistema de seguretat en general.

Com que les capacitats de ciberseguretat són intrínsecament de doble ús, mantenim un enfocament precautori en el desplegament mentre continuem calibrant les nostres polítiques i classificadors. Per a determinats clients en superfícies ZDR, el bloqueig a nivell de sol·licitud continua formant part de la nostra pila de mitigació del risc cibernètic; com que els classificadors encara estan millorant, poden produir-se alguns falsos positius mentre continuem refinant aquestes proteccions. Aquestes actualitzacions tenen com a objectiu millorar el funcionament pràctic de les proteccions, inclosa la reducció de rebutjos innecessaris i de respostes excessivament cauteloses, tot preservant una protecció sòlida contra els usos indeguts.

Hem continuat la nostra recerca de seguretat sobre la monitorabilitat de la cadena de pensament (CoT) per entendre millor com raonen els models i ajudar a detectar possibles comportaments indeguts. Com a part d’aquest treball, introduïm una nova avaluació de codi obert, controlabilitat de CoT, que mesura si els models poden ofuscar deliberadament el seu raonament per eludir el monitoratge. Hem observat que la capacitat de GPT‑5.4 Thinking per controlar el seu CoT és baixa, cosa que és una propietat positiva des del punt de vista de la seguretat, ja que suggereix que el model no és capaç d’amagar el seu raonament i que el monitoratge de CoT continua sent una eina de seguretat eficaç.

Disponibilitat i preus

GPT‑5.4 s’està desplegant gradualment avui a ChatGPT i Codex. A l’API, GPT‑5.4 ja està disponible com a gpt-5.4. GPT‑5.4 Pro també està disponible a l’API com a gpt-5.4-pro per als desenvolupadors que necessiten el màxim rendiment en les tasques més complexes.

A ChatGPT, GPT‑5.4 Thinking està disponible des d’avui per als usuaris de ChatGPT Plus, Team i Pro, substituint GPT‑5.2 Thinking. GPT‑5.2 Thinking continuarà disponible durant tres mesos per als usuaris de pagament al selector de models, dins de la secció Legacy Models, i després es retirarà el 5 de juny de 2026. Els usuaris amb plans Enterprise i Edu poden activar l’accés anticipat des de la configuració d’administració. GPT‑5.4 Pro està disponible per als plans Pro i Enterprise. Les finestres de context(s'obre en una finestra nova) a ChatGPT per a GPT‑5.4 Thinking es mantenen sense canvis respecte de GPT‑5.2 Thinking.

GPT‑5.4 és el nostre primer model principal de raonament que incorpora les capacitats d’avantguarda de codificació de GPT‑5.3‑codex i que s’està desplegant a ChatGPT, l’API i Codex. L’anomenem GPT‑5.4 per reflectir aquest salt i per simplificar l’elecció entre models quan s’utilitza Codex. Amb el temps, pots esperar que els nostres models Instant i els nostres models Thinking evolucionin a velocitats diferents.

GPT‑5.4 a Codex inclou suport experimental per a la finestra de context d’1M. Els desenvolupadors poden provar-ho configurant model_context_window i model_auto_compact_token_limit. Les sol·licituds que superin la finestra de context estàndard de 272K compten dins dels límits d’ús al doble de la taxa normal.

A l’API, GPT‑5.4 té un preu per segment superior al de GPT‑5.2 per reflectir les seves capacitats millorades, mentre que la seva major eficiència en segments ajuda a reduir el nombre total de segments necessaris per a moltes tasques. Hi ha preus Batch i Flex a la meitat de la tarifa estàndard de l’API, mentre que el processament Priority està disponible al doble de la tarifa estàndard de l’API.

Model API

Preu d’entrada

Preu d’entrada en memòria cau

Preu de sortida

gpt-5.2

$1.75 / M segments

$0.175 / M segments

$14 / M segments

gpt-5.4

$2.50 / M segments

$0.25 / M segments

$15 / M segments

gpt-5.2-pro

$21 / M segments

-

$168 / M segments

gpt-5.4-pro

$30 / M segments

-

$180 / M segments

Avaluacions

Professional

Avaluació

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

GDPval

83.0%

82.0%

70.9%

70.9%

74.1%

FinanceAgent v1.1

56.0%

61.5%

54.0%

59.5%

Tasques de modelització de banca d’inversió (internes)

87.3%

83.6%

79.3%

68.4%

71.7%

OfficeQA

68.1%

65.1%

63.1%

Codificació

Avaluació

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

SWE-Bench Pro (públic)

57.7%

56.8%

55.6%

Terminal-Bench 2.0

75.1%

77.3%

62.2%

Ús d’ordinador i visió

Avaluació

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

OSWorld-Verified

75.0%

74.0%

47.3%

MMMU Pro (sense eines)

81.2%

79.5%

MMMU Pro (amb eines)

82.1%

80.4%

Ús d’eines

Avaluació

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

BrowseComp

82.7%

89.3%

77.3%

65.8%

77.9%

MCP Atlas

67.2%

60.6%

Toolathlon

54.6%

51.9%

45.7%

Tau2-bench Telecom

98.9%

98.7%

Acadèmic

Avaluació

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Recerca científica d’avantguarda

33.0%

36.7%

25.2%

FrontierMath Nivell 1–3

47.6%

50.0%

40.7%

FrontierMath Nivell 4

27.1%

38.0%

18.8%

31.3%

GPQA Diamond

92.8%

94.4%

92.6%

92.4%

93.2%

Humanity's Last Exam (sense eines)

39.8%

42.7%

34.5%

36.6%

Humanity's Last Exam (amb eines)

52.1%

58.7%

45.5%

50.0%

Context llarg

Avaluació

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Graphwalks BFS 0K–128K

93.0%

94.0%

Graphwalks BFS 256K–1M

21.4%

Graphwalks parents 0–128K (precisió)

89.8%

89.0%

Graphwalks parents 256K–1M (precisió)

32.4%

OpenAI MRCR v2 8-needle 4K–8K

97.3%

98.2%

OpenAI MRCR v2 8-needle 8K–16K

91.4%

89.3%

OpenAI MRCR v2 8-needle 16K–32K

97.2%

95.3%

OpenAI MRCR v2 8-needle 32K–64K

90.5%

92.0%

OpenAI MRCR v2 8-needle 64K–128K

86.0%

85.6%

OpenAI MRCR v2 8-needle 128K–256K

79.3%

77.0%

OpenAI MRCR v2 8-needle 256K–512K

57.5%

OpenAI MRCR v2 8-needle 512K–1M

36.6%

Raonament abstracte

Avaluació

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

ARC-AGI-1 (verificat)

93.7%

94.5%

86.2%

90.5%

ARC-AGI-2 (verificat)

73.3%

83.3%

52.9%

54.2% (high)

Avaluacions sense raonament

Avaluació

GPT‑5.4
(none)

GPT‑5.2
(none)

GPT‑4.1

OmniDocBench (distància d’edició normalitzada)

0.109

0.140

Tau2-bench Telecom

64.3%

57.2%

43.6%

Les avaluacions es van executar amb l’esforç de raonament establert a xhigh, excepte quan s’indica el contrari. Els benchmarks es van dur a terme en un entorn de recerca, que en alguns casos pot oferir resultats lleugerament diferents de ChatGPT en producció.