I dag lanserer vi GPT‑5.4 i ChatGPT (som GPT‑5.4 Thinking), API og Codex. Det er vår mest kapable og effektive banebrytende modell for profesjonelt arbeid. Vi lanserer også GPT‑5.4 Pro i ChatGPT og API-et, for de som ønsker maksimal ytelse på komplekse oppgaver.
GPT‑5.4 forener det beste av våre nylige fremskritt innen resonnering, koding og agentiske arbeidsflyter i én enkelt banebrytende modell. Den inkorporerer bransjeledende kodefunksjoner fra GPT‑5.3‑Codex samtidig som den forbedrer hvordan modellen fungerer på tvers av verktøy, programvaremiljøer og profesjonelle oppgaver som involverer regneark, presentasjoner og dokumenter. Resultatet er en modell som får komplekst, reelt arbeid gjort nøyaktig, effektivt og effektivt – og leverer det du ba om med mindre frem og tilbake.
I ChatGPT, GPT‑5.4 kan Thinking nå gi en plan på forhånd for hvordan den tenker, slik at du kan justere kursen midt i svaret mens den jobber, og komme frem til et sluttresultat som er mer i tråd med det du trenger, uten flere runder. GPT‑5.4 Thinking forbedrer også grundig research på det dype nettet, særlig for svært spesifikke forespørsler, samtidig som den bedre opprettholder kontekst for spørsmål som krever lengre tenking. Sammen betyr disse forbedringene svar av høyere kvalitet som kommer raskere og forblir relevante for oppgaven som skal utføres.
I Codex og API-et er GPT‑5.4 den første generelle modellen vi har lansert med innebygde, toppmoderne databruksegenskaper, som gjør det mulig for agenter å betjene datamaskiner og gjennomføre komplekse arbeidsflyter på tvers av applikasjoner. Den støtter opptil 1M token med kontekst, noe som lar agenter planlegge, utføre og verifisere oppgaver over lange tidshorisonter. GPT‑5.4 forbedrer også hvordan modeller fungerer på tvers av store økosystemer av verktøy og koblinger med verktøysøk, og hjelper agenter med å finne og bruke de riktige verktøyene mer effektivt uten å ofre intelligens. Til slutt er GPT‑5.4 vår mest tokeneffektive resonneringsmodell til nå, og bruker betydelig færre tokens for å løse problemer sammenlignet med GPT‑5.2 – noe som gir redusert tokenbruk og høyere hastigheter.
Sammen med fremskritt innen generell resonnering, koding og profesjonelt kunnskapsarbeid muliggjør GPT‑5.4 mer pålitelige agenter, raskere arbeidsflyter for utviklere og utdata av høyere kvalitet på tvers av ChatGPT, API-et og Codex.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (seier eller uavgjort) | 83,0 % | 70,9 % | 70,9 % |
SWE-Bench Pro (Public) | 57,7 % | 56,8 % | 55,6 % |
OSWorld-Verified | 75,0 % | 74,0 %* | 47,3 % |
Toolathlon | 54,6 % | 51,9 % | 46,3 % |
BrowseComp | 82,7 % | 77,3% | 65,8 % |
*Tidligere rapportert som 64,7 %. GPT‑5.3‑Codex oppnår 74,0 % med en nylig introdusert API-parameter som bevarer den opprinnelige bildeoppløsningen.
GPT‑5.4s bygger på GPT‑5.2s generelle resonneringsevner, og leverer enda mer konsistente og polerte resultater på oppgaver i den virkelige verden som betyr noe for profesjonelle.
På GDPval, en evaluering som tester agenters evne til å produsere velspesifisert kunnskapsarbeid på tvers av 44 yrker, oppnår GPT‑5.4 en ny standard, og matcher eller overgår bransjefolk i 83,0 % av sammenligningene, sammenlignet med 71,0 % for GPT‑5.2.
I GDPval forsøker modeller å utføre velspesifisert kunnskapsarbeid som spenner over 44 yrker fra de 9 største næringene som bidrar til USAs BNP. Oppgaver ber om reelle arbeidsprodukter, for eksempel salgspresentasjoner, regnskapsregneark, timeplaner for akuttmottak, produksjonsdiagrammer eller korte videoer. Resonnering ble satt til xhigh for GPT‑5.4 og heavy for GPT‑5.2 (et litt lavere nivå i ChatGPT).
«GPT-5.4 er den beste modellen vi noen gang har prøvd. Den ligger nå øverst på topplisten i vår APEX-Agents-referansemåling, som måler modellens ytelse for profesjonelt tjenestearbeid. Den utmerker seg i å lage leveranser med lang horisont, som presentasjoner, finansielle modeller og juridisk analyse, og leverer topp ytelse samtidig som den kjører raskere og til en lavere kostnad enn konkurrerende banebrytende modeller.
Vi la særlig vekt på å forbedre GPT‑5.4s mulighet til å opprette og redigere regneark, presentasjoner og dokumenter. På en intern referansemåling av oppgaver innen regnearkmodellering som en junior investeringsbankanalytiker kan gjøre, oppnår GPT‑5.4 en gjennomsnittlig poengsum på 87,5 %, sammenlignet med 68,4 % for GPT‑5.2. I et sett med presentasjonsevalueringsprompter foretrakk menneskelige bedømmere presentasjoner fra GPT‑5.4 68,0 % av gangene fremfor dem fra GPT‑5.2 på grunn av sterkere estetikk, større visuell variasjon og mer effektiv bruk av bildegenerering.

Dokumenter ble generert med resonneringsinnsats satt til xhigh
Du kan prøve disse funksjonene i ChatGPT ved å bruke GPT‑5.4 Thinking eller Pro. Hvis du er en Enterprise-kunde, anbefaler vi å bruke de nylig lanserte ChatGPT for Excel- og Google Sheets-programtilleggene(åpnes i et nytt vindu), som også ble lansert i dag. Vi har også oppdatert regnearket(åpnes i et nytt vindu) og presentasjonsferdighetene(åpnes i et nytt vindu) som er tilgjengelige i Codex og API-et.
For å gjøre GPT‑5.4 bedre til arbeid i den virkelige verden, fortsatte vi fremgangen vår med å redusere hallusinasjoner og feil. GPT‑5.4 er vår mest faktabaserte modell så langt: på et sett med avidentifiserte prompter der brukere flagget faktafeil, er GPT‑5.4s individuelle påstander 33% mindre sannsynlig til å være falske og de fullstendige svarene er 18% mindre sannsynlig til å inneholde noen feil, relativt til GPT‑5.2.
«GPT-5.4 setter en ny standard for dokumenttungt juridisk arbeid. I vår BigLaw Bench-evaluering fikk den 91 %. Sammenlignet med andre modeller er GPT-5.4 for øyeblikket bedre til å strukturere kompleks transaksjonsanalyse, opprettholde nøyaktighet på tvers av omfattende kontrakter og levere det høye detaljnivået juridiske fagfolk krever.»
GPT‑5.4 er vår første generelle modell med innebygde databruksegenskaper og markerer et stort skritt fremover for både utviklere og agenter. Det er den beste modellen som for øyeblikket er tilgjengelig for utviklere som bygger agenter som fullfører reelle oppgaver på tvers av nettsteder og programvaresystemer.
Vi har utformet GPT‑5.4 for å levere høy ytelse på tvers av et bredt spekter av arbeidsbelastninger for databruk. Den utmerker seg til å skrive kode for å betjene datamaskiner via biblioteker som Playwright, samt å gi mus- og tastaturkommandoer som svar på skjermbilder. Atferden kan styres via utviklermeldinger, noe som betyr at utviklere kan justere atferden for å passe til bestemte bruksområder. Utviklere kan til og med konfigurere modellens sikkerhetsatferd slik at den passer til ulike nivåer av risikotoleranse ved å spesifisere egendefinerte bekreftelsesretningslinjer.
Modellens ytelse og fleksibilitet gjenspeiles på tvers av referansemålinger som tester databruk i ulike miljøer. På OSWorld-Verified, som måler en modells evne til å navigere i et desktopmiljø gjennom skjermbilder og tastatur-/musehandlinger, oppnår GPT‑5.4 en toppstandard på 75,0 % suksessrate, som overgikk i stor grad GPT‑5.2s 47,3 %, og overgår menneskelig ytelse med 72,4 %.1
På WebArena-Verified, som tester nettleserbruk, oppnår GPT‑5.4 en ledende 67,3% suksessrate når den bruker både DOM- og skjermbildebasert interaksjon, sammenlignet med GPT‑5.2s 65,4 %. På Online-Mind2Web, som også tester nettleserbruk, oppnår GPT‑5.4 en suksessrate på 92,8 % ved å bruke kun skjermbildebaserte observasjoner, en forbedring sammenlignet med ChatGPT Atlas’ Agent Mode, som oppnår en suksessrate på 70,9 %.
En verktøyutlevering er når en assistent gir seg for å avvente svar fra et verktøy. Hvis tre verktøy anropes parallelt, etterfulgt av ytterligere tre verktøy som anropes parallelt, vil antall utbytte være to. Verktøysutbytte er en bedre proxy for latenstid enn verktøysanrop fordi de gjenspeiler fordelene ved parallellisering.
GPT‑5.4 tolker skjermbilder av et nettlesergrensesnitt og samhandler med UI-elementer gjennom koordinatbasert klikking for å sende e-poster og planlegge en kalenderhendelse.
GPT‑5.4s forbedrede databruk er bygget på modellens forbedrede generelle visuelle persepsjonsevner. På MMMU-Pro, en test av en modells visuelle forståelse og resonnering, oppnår GPT‑5.4 en suksessrate på 81,2 % uten bruk av verktøy, en forbedring over GPT‑5.2’s 79,5 %. Forbedret visuell persepsjon fører også til bedre evne til å analysere dokumenter. På OmniDocBench oppnår GPT‑5.4 uten resonneringsinnsats en gjennomsnittlig feil (målt ved normalisert redigeringsavstand mellom modellens prediksjon og fasit) på 0,109, forbedret fra GPT‑5.2s 0,140.
MMMUPro ble kjørt med resonnement satt til xhigh. OmniDocBench ble kjørt med resonnement satt til none, for å gjenspeile ytelse med lave kostnader og kort ventetid.
Vi forbedrer også visuell forståelse for tette, høyoppløselige bilder der full gjengivelse er viktig. Fra og med GPT‑5.4, introduserer vi et original-nivå for bildedetalj i inndatadetalj(åpnes i et nytt vindu) som støtter fullverdig gjengivelse opptil 10.24M totale piksler eller 6000 piksler som maksimal dimensjon, avhengig av hva som er lavest; high -nivået for bildedetalj i inndata støtter nå opptil 2.56M totale piksler eller 2048 piksler som maksimal dimensjon. I tidlig testing med API-brukere observerte vi store forbedringer i lokaliseringsevne, bildeforståelse og klikkpresisjon ved bruk av original eller high detaljnivå.
«I evalueringene våre som måler ytelse for databruk på tvers av ~30K HOA- og eiendomsskatteportaler, oppnådde GPT-5.4 en suksessrate på 95 % på første forsøk og 100 % innen tre forsøk, sammenlignet med ~73–79 % med tidligere CUA (DBA)-modeller. Den fullførte også økter ~3 ganger raskere samtidig som den brukte ~70 % færre token, noe som vesentlig forbedret påliteligheten og kostnadseffektiviteten i stor skala.»
I API-et kan utviklere få tilgang til disse funksjonene ved å bruke det oppdaterte computer-verktøyet. Se vår oppdaterte dokumentasjon(åpnes i et nytt vindu) for anbefalte gode fremgangsmåter.
GPT‑5.4 kombinerer kodestyrkene til GPT‑5.3‑Codex med ledende evner innen kunnskapsarbeid og databruk, som betyr mest på langvarige oppgaver der modellen kan bruke verktøy, iterere og drive arbeidet videre med mindre manuell inngripen. Den matcher eller overgår GPT‑5.3‑Codex på SWE-Bench Pro, samtidig som den har lavere ventetid på tvers av resonneringsinnsats.
Vi estimerer latens ved å se på produksjonsatferden til modellene våre, og simulere dette offline. Latensestimatet tar hensyn til varigheten av verktøykall (kodekjøringstid), samplede tokens og inndatatokens. Forsinkelse i den virkelige verden kan variere betydelig, og avhenger av mange faktorer som ikke fanges opp i simuleringen vår. Resonnering ble økt fra none til xhigh.
Når den er slått på, leverer /fast mode i Codex opptil 1,5x raskere token-hastighet withGPT‑5.4. Det er den samme modellen og den samme intelligensen, bare raskere. Det betyr at brukere kan bevege seg gjennom kodingsoppgaver, iterering og feilsøking mens de holder flyten. Utviklere kan få tilgang til GPT‑5.4 med de samme høye hastighetene via API-et ved å bruke prioritert behandling(åpnes i et nytt vindu).
I evaluering og intern testing fant vi at GPT‑5.4 utmerker seg i komplekse frontend-oppgaver, med merkbart mer estetiske og mer funksjonelle resultater enn noen av modellene vi har lansert tidligere.
Som en demonstrasjon av modellens forbedrede evner i databruk og koding som fungerer i tandem, lanserer vi også en eksperimentell Codex-ferdighet kalt «Playwright (Interactive)(åpnes i et nytt vindu)». Dette gjør at Codex kan feilsøke web- og Electron-apper visuelt – den kan til og med brukes til å teste en app den bygger, mens den bygger den.
Temapark-simuleringsspill laget med GPT‑5.4 fra en enkel, lett spesifisert prompt, ved bruk av Playwright Interactive for nettleserbasert spilltesting og bildegenerering for det isometriske ressurssettet. Simuleringen inkluderer flisbasert plassering av stier, bygging av attraksjoner og kulisser, gjesters rutevalg, køsystemer og attraksjonssykluser, mens parkmålinger som penger, antall gjester, tilfredshet, renhold og vurdering stiger eller faller basert på hvordan utformingen fungerer og hvordan gjestene reagerer på den. Playwright ble brukt til å automatisere nettleserbaserte spilltester ved å bygge og utvide parken, plassere og fjerne stier og attraksjoner, sjekke kameranavigasjon og verifisere at gjester, køer, tilstandsstatus for attraksjoner og brukergrensesnittmålinger ble oppdatert korrekt over flere spillrunder.
Prompt: Bruk $playwright-interactive og $imagegen. Lag et interaktivt isometrisk fornøyelsespark-simuleringsspill som jeg kan bygge og navigere i nettleseren. Bruk imagegen til å etablere den overordnede visuelle visjonen og generere spillets ressurser, inkludert attraksjoner, stier, terreng, trær, vann, matboder, dekorasjoner, bygninger, ikoner og UI-illustrasjoner. Verdenen bør føles helhetlig, polert og visuelt rik, med en premium art direction som fungerer godt fra et isometrisk perspektiv. La meg plassere og fjerne stier, legge til attraksjoner, plassere kulisser og bevege meg rundt i parken jevnt mens jeg overvåker gjesteaktivitet, status for attraksjoner og parkens vekst. Inkluder troverdig gjestebevegelse, enkle parkstyringssystemer som penger, renhold, køing og tilfredshet, og få opplevelsen til å føles leken, tydelig og komplett, heller enn som en grov prototype. Prioriter sjarm, lesbarhet og god spillfølelse fremfor realisme.
Når du spilltester, sørg for å bygge og utvide en park gjennom flere spillrunder, verifiser at plassering og navigasjon fungerer smidig, bekreft at gjestene reagerer på parkens utforming og attraksjoner, og sørg for at grafikken, grensesnittet og interaksjonene føles stabile og helhetlige.
«Våre ingeniører finner GPT-5.4 mer naturlig og mer selvsikker enn tidligere modeller. Den jobber seg gjennom tvetydige problemer uten å tvile på seg selv, og den er proaktiv når det gjelder å parallellisere arbeidet for å holde ting i gang.»
Med GPT‑5.4, har vi betydelig forbedret hvordan modeller fungerer med eksterne verktøy. Agenter kan nå operere på tvers av større verktøyøkosystemer, velge de riktige verktøyene mer pålitelig og fullføre flertrinns arbeidsflyter med lavere kostnader og forsinkelse.
I API-en introduserer GPT‑5.4 verktøysøk(åpnes i et nytt vindu), som lar modeller jobbe effektivt når de har mange verktøy.
Tidligere, når en modell fikk verktøy, ble alle verktøydefinisjoner inkludert i prompten på forhånd. For systemer med mange verktøy kan dette legge til tusenvis – eller til og med titusenvis – av tokens i hver forespørsel, noe som øker kostnadene, gjør svarene tregere og fyller konteksten med informasjon som modellen kanskje aldri bruker.
Med verktøysøk mottar GPT‑5.4 i stedet en lettvektsliste over tilgjengelige verktøy sammen med en verktøysøkfunksjon. Når modellen trenger å bruke et verktøy, kan den slå opp definisjonen av verktøyet og legge den til i samtalen i det samme øyeblikket.
Denne tilnærmingen reduserer dramatisk antall tokens som kreves for verktøytunge arbeidsflyter og bevarer hurtigbufferen, noe som gjør forespørsler raskere og billigere. Det gjør det også mulig for agenter å jobbe pålitelig med mye større verktøyøkosystemer. For MCP-servere som kan inneholde titusenvis av tokens med verktøydefinisjoner, kan effektivitetsgevinstene være betydelige.
For å demonstrere effektivitetsgevinstene evaluerte vi 250 oppgaver fra Scale’s MCP Atlas(åpnes i et nytt vindu)-benchmark med alle 36 MCP-servere aktivert i to moduser: (1) å eksponere hver MCP-funksjon direkte i modellkonteksten, og (2) å plassere alle MCP-servere bak verktøysøk. Konfigurasjonen for verktøysøk reduserte totalt tokenforbruk med 47 % samtidig som den oppnådde samme nøyaktighet.
Eksempel på token-antall kommer fra å ta gjennomsnittet av 250 oppgaver i det offentlige MCP-Atlas-datasettet.
GPT‑5.4 forbedrer også verktøyanrop, og gjør det mer nøyaktig og effektivt når den avgjør når og hvordan den skal bruke verktøy under resonnering, særlig i API-plattformen. Sammenlignet med GPT‑5.2 oppnår den høyere nøyaktighet på færre runder på Toolathlon, et sammenligningsgrunnlag som tester hvor godt KI-agenter kan bruke verktøy og API-er fra den virkelige verden til å fullføre flertrinnsoppgaver. For eksempel må en agent lese e-poster, hente ut vedlegg til oppgaver, laste dem opp, vurdere dem og registrere resultater i et regneark.
En verktøyutlevering er når en assistent gir seg for å avvente svar fra et verktøy. Hvis tre verktøy anropes parallelt, etterfulgt av ytterligere tre verktøy som anropes parallelt, vil antall utbytte være to. Verktøysutbytte er en bedre proxy for latenstid enn verktøysanrop fordi de gjenspeiler fordelene ved parallellisering.
For brukstilfeller som er følsomme for forsinkelse, der ingen resonnering foretrekkes, forbedrer GPT‑5.4 seg ytterligere sammenlignet med forgjengerne.
I τ2-bench(åpnes i et nytt vindu) må en modell bruke verktøy for å utføre en kundeserviceoppgave, der det kan være en simulert bruker som kan kommunisere og utføre handlinger på verdenstilstanden. Resonneringsinnsatsen ble satt til None.
GPT‑5.4 er bedre til agentbasert nettsøk. På BrowseComp, en måling av hvor godt AI-agenter kan surfe på nettet vedvarende for å finne vanskelig tilgjengelig informasjon, øker GPT‑5.4 med 17 %abs over GPT‑5.2, og GPT‑5.4 Pro setter en ny standard på 89,3 %.
I praksis betyr dette at GPT‑5.4 Thinking er bedre til å svare på spørsmål som krever at man samler informasjon fra mange kilder på nettet. Den kan mer vedvarende søke på tvers av flere runder for å identifisere de mest relevante kildene, særlig for «nål-i-høystakken»-spørsmål, og sammenfatte dem til et klart, velbegrunnet svar.
I BrowseComp brukte vi en søkeblokkering som ekskluderte nettsteder som inneholder referansemålingssvar fra evalueringen for å forhindre kontaminering og sikre en rettferdig måling av ytelse. GPT‑5.4 ble målt på et senere tidspunkt enn GPT‑5.2, slik at poengsummer gjenspeiler endringer i modellen, søkesystemet vårt og tilstanden til internett. GPT‑5.4 ble testet med en lengre, oppdatert blokkeringsliste. Modeller bruker ChatGPT‑søkeverktøyet, som kan ha små forskjeller fra API-søk.
«GPT-5.4 xhigh er den nye toppmoderne standarden for flertrinns bruk av verktøy. Zapier kjører noen av de mest grundige referansemålingene for verktøybruk i bransjen, og tester modeller på tvers av hundrevis av avanserte arbeidsflyter i den virkelige verden. GPT-5.4 fullførte jobben der tidligere modeller ga opp – den mest utholdende modellen til dags dato.»
På samme måte som Codex skisserer sin tilnærming når det begynner å jobbe, vil GPT‑5.4 Thinking ChatGPT nå skissere arbeidet sitt med en innledning for lengre, mer komplekse forespørsler. Du kan også legge til instruksjoner eller justere retningen midt i svaret. Dette gjør det enklere å veilede modellen mot det nøyaktige resultatet du ønsker uten å starte på nytt eller kreve flere ekstra runder. Denne funksjonen er tilgjengelig nå på chatgpt.com(åpnes i et nytt vindu) og i Android-appen, og kommer snart til iOS-appen.
Modellen kan også tenke lenger på vanskelige oppgaver samtidig som den opprettholder sterkere bevissthet om tidligere trinn i samtalen. Dette gjør at den kan håndtere lengre arbeidsflyter og mer komplekse prompter, samtidig som svarene forblir sammenhengende og relevante hele veien.
Denne videoen er satt til høyere hastighet for illustrative formål.
De siste månedene har vi fortsatt å forbedre sikkerhetstiltakene vi introduserte med GPT‑5.3‑Codex, samtidig som vi forbereder GPT‑5.4 for utrulling. I likhet med GPT‑5.3‑Codex behandler vi GPT‑5.4 som Høy cyberkapabilitet under vårt Preparedness Framework, og vi distribuerer den med de tilsvarende beskyttelsene som dokumentert i systemkort. Disse inkluderer en utvidet cyber-sikkerhetsstakk, inkludert overvåkingssystemer, betrodde tilgangskontroller og asynkron blokkering for forespørsler med høyere risiko for kunder på overflater med ingen oppbevaring av data (ZDR), sammen med løpende investeringer i det bredere sikkerhetsøkosystemet.
Fordi cybersikkerhetsegenskaper av natur er tosidige, opprettholder vi en forsiktig tilnærming til implementering, samtidig som vi fortsetter å justere retningslinjene og klassifiseringsverktøyene våre. For enkelte kunder på ZDR-flater er blokkering på forespørselsnivå fortsatt en del av vår tiltakspakke for å redusere cyberrisiko; fordi klassifiserere fortsatt blir bedre, kan det forekomme noen falske positive mens vi fortsetter å forbedre disse sikkerhetsmekanismene. Disse oppdateringene har som mål å forbedre hvordan sikkerhetstiltak fungerer i praksis, blant annet ved å redusere unødvendige nektelser og svar med for mange forbehold, samtidig som vi bevarer sterke beskyttelser mot misbruk.
Vi har fortsatt sikkerhetsforskningen vår på overvåkbarhet av tankerekke (CoT) for å bedre forstå hvordan modeller resonerer og bidra til å oppdage potensiell uønsket atferd. Som en del av dette arbeidet introduserer vi en ny evaluering med åpen kildekode, CoT-kontrollerbarhet, som måler om modeller med vilje kan skjule resonneringen sin for å unngå overvåking. Vi har funnet ut at GPT‑5.4 Thinkings evne til å kontrollere sin CoT er lav, noe som er en positiv egenskap for sikkerhet, og som tyder på at modellen ikke kan skjule resonneringen sin, og at CoT-overvåking fortsatt er et effektivt sikkerhetsverktøy.
GPT‑5.4 rulles ut gradvis i dag på tvers av ChatGPT og Codex. I API-et er GPT‑5.4 tilgjengelig nå som gpt-5.4. GPT‑5.4 Pro er også tilgjengelig i API-et som gpt-5.4-pro for utviklere som trenger maksimal ytelse på de mest komplekse oppgavene.
I ChatGPT er GPT‑5.4 Thinking tilgjengelig fra og med i dag for ChatGPT Plus-, Team- og Pro-brukere, og erstatter GPT‑5.2 Thinking. GPT‑5.2 Thinking vil fortsatt være tilgjengelig i tre måneder for betalende brukere i modellvelgeren under avsnittet Legacy Models, hvoretter den vil bli avviklet 5. juni 2026. De som har Enterprise- og Edu-planer, kan aktivere tidlig tilgang via administratorinnstillinger. GPT‑5.4 Pro er tilgjengelig for Pro- og Enterprise-abonnementer. Kontekstvinduer(åpnes i et nytt vindu) i ChatGPT for GPT‑5.4 Thinking forblir uendret fra GPT‑5.2 Thinking.
GPT‑5.4 er vår første resonneringsmodell i hovedlinjen som innlemmer de banebrytende kodeegenskapene til GPT‑5.3‑codex og som rulles ut på tvers av ChatGPT, API-et og Codex. Vi kaller det GPT‑5.4 for å gjenspeile det spranget, og for å forenkle valget mellom modeller når du bruker Codex. Over tid kan du forvente at Instant-modellene våre og Thinking-modellene våre utvikler seg i ulikt tempo.
GPT‑5.4 i Codex inkluderer eksperimentell støtte for 1M-kontekstvinduet. Utviklere kan prøve dette ved å konfigurere model_context_window og model_auto_compact_token_limit. Forespørsler som overskrider standard-kontekstvinduet på 272K, teller mot bruksbegrensningene med 2 ganger den normale satsen.
I API-et er GPT‑5.4 priset høyere per token enn GPT‑5.2 for å gjenspeile de forbedrede egenskapene, mens den større tokeneffektiviteten bidrar til å redusere det totale antallet tokens som kreves for mange oppgaver. Batch- og Flex-priser er tilgjengelige til halvparten av standard API-prisen, mens Priority-behandling er tilgjengelig til dobbelt standard API-pris.
API-modell | Inngangspris | Bufret inndata | Utdatapris |
gpt-5.2 | $1.75 / M tokens | $0.175 / M tokens | $14 / M tokens |
gpt-5.4 | $2.50 / M tokens | $0.25 / M tokens | $15 / M tokens |
gpt-5.2-pro | $21 / M tokens | – | $168 / M tokens |
gpt-5.4-pro | $30 / M tokens | – | $180 / M tokens |
Profesjonellt
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83,0 % | 82,0 % | 70,9 % | 70,9 % | 74,1 % |
FinanceAgent v1.1 | 56,0 % | 61,5 % | 54,0 % | 59,5 % | – |
Modelleringsoppgaver innen investeringsbank (internt) | 87,3 % | 83,6 % | 79,3 % | 68,4 % | 71,7 % |
OfficeQA | 68,1 % | – | 65,1 % | 63,1 % | – |
Koding
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (Public) | 57,7 % | – | 56,8 % | 55,6 % | – |
Terminal-Bench 2.0 | 75,1 % | – | 77,3% | 62,2 % | – |
Datamaskinbruk og syn
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-Verified | 75,0 % | – | 74,0 % | 47,3 % | – |
MMMU Pro (ingen verktøy) | 81,2 % | – | – | 79,5 % | – |
MMMU Pro (med verktøy) | 82,1 % | – | – | 80,4 % | – |
Bruk av verktøy
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82,7 % | 89,3 % | 77,3% | 65,8 % | 77,9 % |
MCP Atlas | 67,2 % | – | – | 60,6 % | – |
Toolathlon | 54,6 % | – | 51,9 % | 45,7 % | – |
Tau2-bench Telecom | 98,9 % | – | – | 98,7 % | – |
Akademisk
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Banebrytende vitenskapelig forskning | 33,0 % | 36,7 % | – | 25.2% | – |
FrontierMath Nivå 1–3 | 47, 6 % | – | – | 40, 7 % | – |
FrontierMath Nivå 4 | 27,1 % | 38,0 % | – | 18,8 % | 31,3 % |
GPQA Diamond | 92,8 % | 94,4 % | 92.6 % | 92,4 % | 93,2 % |
Humanity's Last Exam (uten verktøy) | 39,8 % | 42,7 % | – | 34,5 % | 36,6 % |
Humanity's Last Exam (med verktøy) | 52,1 % | 58,7 % | – | 45,5 % | 50,0 % |
Lang kontekst
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0–128 000 | 93,0 % | – | – | 94,0 % | – |
Graphwalks BFS 256 000–1 000 000 | 21,4 % | – | – | – | – |
Graphwalks parents 0–128 000 (nøyaktighet) | 89,8 % | – | – | 89,0 % | – |
Graphwalks parents 256K–1M (nøyaktighet) | 32,4 % | – | – | – | – |
OpenAI MRCR v2 8-needle 4K–8K | 97,3 % | – | – | 98,2 % | – |
OpenAI MRCR v2 8-needle 8K–16K | 91,4 % | – | – | 89,3 % | – |
OpenAI MRCR v2 8-needle 16K–32K | 97,2 % | – | – | 95,3 % | – |
OpenAI MRCR v2 8-needle 32K–64K | 90,5 % | – | – | 92,0 % | – |
OpenAI MRCR v2 8-needle 64K–128K | 86,0 % | – | – | 85,6 % | – |
OpenAI MRCR v2 8-needle 128K–256K | 79,3 % | – | – | 77,0 % | – |
OpenAI MRCR v2 8-needle 256K–512K | 57,5 % | – | – | – | – |
OpenAI MRCR v2 8-needle 512K–1M | 36,6 % | – | – | – | – |
Abstrakt resonnering
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (Verifisert) | 93,7 % | 94,5 % | – | 86,2 % | 90,5 % |
ARC-AGI-2 (Verifisert) | 73,3 % | 83,3 % | – | 52,9 % | 54,2 % (høy) |
Evalueringer uten begrunnelse
Eval | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (normalisert redigeringsavstand) | 0,109 | 0,140 | – |
Tau2-bench Telecom | 64,3 % | 57,2 % | 43,6 % |
Evalueringer ble kjørt med resonnering satt til xhigh, unntatt der annet er spesifisert. Referansepoengene ble utført i et forskningsmiljø, som i noen tilfeller kan gi litt annerledes resultater enn produksjonsversjonen av ChatGPT.
Forfatter
Fotnoter
1 Menneskelig ytelse rapportert i OSWorld: Referansemåling av multimodale agenter for åpne oppgaver i ekte datamaskinmiljøer(åpnes i et nytt vindu).


