5 mars 2026

Vi presenterar GPT‑5.4

Utformad för professionellt arbete

Laddar …

Idag lanserar vi GPT‑5.4 i ChatGPT (som GPT‑5.4 Thinking), API:n och Codex. Det är vår mest kapabla och effektiva modell för professionellt arbete. Vi lanserar också GPT‑5.4 Pro i ChatGPT och API:et, för personer som vill ha maximal prestanda för komplexa uppgifter.

GPT‑5.4 samlar det bästa av våra senaste framsteg inom resonemang, kodning och agentiska arbetsflöden i en enda banbrytande modell. Den innehåller branschledande kodningsfunktioner från GPT‑5.3‑Codex⁠ samtidigt som den förbättrar hur modellen fungerar i olika verktyg, programvarumiljöer och professionella uppgifter med kalkylblad, presentationer och dokument. Resultatet är en modell som får komplext arbete gjort på ett korrekt, effektivt och ändamålsenligt sätt – och ger dig det du bad om med mindre krångel.

I ChatGPT kan GPT‑5.4 Thinking nu ge en förhandsplan för sitt tänkande, så att du kan justera den mitt i responsen, medan den arbetar. På så sätt får du ett slutresultat som är mer i linje med vad du behöver, utan att behöva köra fler omgångar. GPT‑5.4 Thinking förbättrar också djupgående webbforskning, särskilt för mycket specifika frågor, samtidigt som den bättre bibehåller sammanhanget för frågor som kräver längre eftertanke. Tillsammans medför dessa förbättringar svar av högre kvalitet som kommer snabbare och förblir relevanta för den aktuella uppgiften.

I Codex och API:t är GPT‑5.4 den första modellen för allmänna ändamål som vi har släppt med inbyggda, toppmoderna datoranvändningsfunktioner, vilket gör det möjligt för agenter att använda datorer och genomföra komplexa arbetsflöden i olika applikationer. Den stöder upp till 1 miljon token i kontext, vilket gör att agenter kan planera, utföra och verifiera uppgifter över långa tidshorisonter. GPT‑5.4 förbättrar också hur modeller fungerar med verktygssökning i stora ekosystem av verktyg och anslutningar, vilket hjälper agenter att hitta och använda rätt verktyg mer effektivt utan att göra avkall på intelligensen. Slutligen är GPT‑5.4 vår mest token-effektiva resonemangsmodell hittills och använder betydligt färre token för att lösa problem jämfört med GPT‑5.2 – vilket innebär minskad tokenanvändning och högre hastigheter.

Tillsammans med framsteg inom allmän resonemang, kodning och professionellt kunskapsarbete möjliggör GPT‑5.4 mer pålitliga agenter, snabbare arbetsflöden för utvecklare och utdata av högre kvalitet i ChatGPT, API:et och Codex.

	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2
GDPval (vinner eller oavgjort)	83,0 %	70,9 %	70,9 %
SWE-Bench Pro (offentlig)	57,7 %	56,8 %	55,6 %
OSWorld-Verified	75,0 %	74,0 %*	47,3 %
Toolathlon	54,6 %	51,9%	46,3 %
BrowseComp	82,7 %	77,3 %	65,8 %

*Tidigare rapporterat som 64,7 %. GPT‑5.3‑Codex uppnår 74,0 % med en nyligen introducerad API-parameter som bevarar den ursprungliga bildupplösningen.

Kunskapsarbete

GPT‑5.4 har byggts vidare på GPT‑5.2:s allmänna resonemang och ger ännu mer konsekventa och snygga resultat på verkliga uppgifter som är viktiga för yrkesverksamma.

I GDPval⁠, ett utvärderingssystem som testar agenters förmåga att producera välspecificerat kunskapsarbete inom 44 yrken, uppnår GPT‑5.4 en ny standard och matchar eller överträffar branschproffs i 83,0 % av jämförelserna, jämfört med 71,0 % för GPT‑5.2.

I GDPval försöker modellerna beskriva välspecificerat kunskapsarbete inom 44 yrken från de 9 branscher som bidrar mest till USA:s BNP. Uppgifterna kräver konkreta arbetsresultat, såsom försäljningspresentationer, bokföringsark, scheman för akutvård, skattedeklarationer, tillverkningsdiagram eller korta videoklipp. Resonemangsinsatsen ställdes in på mycket hög för GPT‑5.4 och hög för GPT‑5.2 (en något lägre nivå i ChatGPT).

“GPT-5.4 är den bästa modellen vi någonsin har provat. Den ligger nu högst upp på topplistan i vårt APEX-Agents-riktmärke, som mäter Modellens prestanda för arbete inom professionella tjänster. Den utmärker sig på att skapa långsiktiga leveranser som bildspel, finansiella modeller och juridisk analys, och levererar topprestanda samtidigt som den körs snabbare och till en lägre kostnad än konkurrerande banbrytande modeller.”

– Brendan Foody, vd på Mercor

Vi lade särskilt fokus på att förbättra GPT‑5.4:s förmåga att skapa och redigera kalkylark, presentationer och dokument. Enligt vårt interna riktmärke för kalkylbladsmodellering som en mindre erfaren bankanalytiker kan tänkas göra uppnår GPT‑5.4 ett genomsnittligt resultat på 87,5 %, jämfört med 68,4 % för GPT‑5.2. För en uppsättning utvärderingsfrågor föredrog mänskliga bedömare presentationer från GPT‑5.4 i 68,0 % av fallen framför dem från GPT‑5.2 tack vare snyggare layouter, större visuella variationer och en mer effektiv användning av bildgenerering.

Exempel sida vid sida på kalkylbladsutdata från GPT-5.2 jämfört med GPT-5.4

Dokumenten genererades med resonemangsinsatsen inställd på mycket hög

Du kan prova dessa funktioner i ChatGPT med GPT‑5.4 Thinking eller Pro. Om du är en Enterprise-kund rekommenderar vi att du använder våra nyligen lanserade ChatGPT‑insticksprogram för Excel och Google Sheets⁠(öppnas i ett nytt fönster), som också lanserades idag. Vi har också uppdaterat våra kalkylblads-⁠(öppnas i ett nytt fönster) och presentationsfunktioner⁠(öppnas i ett nytt fönster) som är tillgängliga i Codex och API:et.

För att förbättra GPT‑5.4 för verkliga jobb, arbetade vi vidare på våra framsteg med att minska hallucinationer och fel. På en uppsättning avidentifierade prompter där användare flaggade faktafel, är det 33 % mindre sannolikt att GPT‑5.4:s individuella påståenden är falska och 18 % mindre sannolikt att dess fullständiga svar innehåller fel, jämfört med GPT‑5.2.

“GPT-5.4 sätter en ny standard för dokumenttungt juridiskt arbete. På vår BigLaw Bench eval fick det 91 %. Jämfört med andra modeller är GPT-5.4 för närvarande bättre på att strukturera komplex transaktionsanalys, bibehålla noggrannhet i långa avtal och leverera den höga detaljnivå som jurister kräver.”

– Niko Grupen, Head of Applied Research på Harvey

Datoranvändning och visuell förmåga

GPT‑5.4 är vår första modell för allmänna ändamål med inbyggd datoranvändningsförmåga och innebär ett stort steg framåt för både utvecklare och agenter. Det är den bästa modellen som för närvarande finns tillgänglig för utvecklare som bygger agenter som slutför verkliga uppgifter på webbplatser och i mjukvarusystem.

Vi har utformat GPT‑5.4 för att vara effektiv i en mängd olika datorarbetsbelastningar. Den utmärker sig på att skriva kod för att styra datorer via bibliotek som Playwright, samt att skapa mus- och tangentbordskommandon som svar på skärmdumpar. Dess beteende är styrbart via utvecklarmeddelanden, vilket innebär att utvecklare kan anpassa beteendet för att passa särskilda användningsfall. Utvecklare kan till och med konfigurera modellens säkerhetsbeteende genom att ange anpassade bekräftelsepolicyer, så att det passar olika nivåer av risktolerans.

Modellens prestanda och flexibilitet framgår i riktmärkestester som testar datoranvändning i olika miljöer. På OSWorld-Verified, som mäter en modells förmåga att navigera i en skrivbordsmiljö via skärmbilder och tangentbords-/musåtgärder, uppnår GPT‑5.4 en framgångsfrekvens på 75,0 %, vilket vida överstiger GPT‑5.2:s 47,3 % och överträffar mänsklig prestanda på 72,4 %.¹

På WebArena-Verified, som testar webbläsaranvändning, uppnår GPT‑5.4 en ledande framgångsfrekvens på 67,3 % när den använder både DOM- och skärmbildsdriven interaktion, jämfört med GPT‑5.2:s 65,4 %. På Online-Mind2Web, som också testar webbläsaranvändning, uppnår GPT‑5.4 en framgångsfrekvens på 92,8 % med enbart skärmbildsbaserade observationer, vilket är en förbättring jämfört med ChatGPT Atlas Agent Mode, som uppnår en framgångsfrekvens på 70,9 %.

Verktygsutbyte är när en assistent ger efter för att invänta verktygssvar. Om tre verktyg anropas parallellt, följt av ytterligare tre verktyg som anropas parallellt, är antalet utbyten två. Verktygsutbyte är ett bättre mått på latens än verktygsanrop eftersom det återspeglar fördelarna med parallellisering.

GPT‑5.4 tolkar skärmdumpar av ett webbläsargränssnitt och interagerar med element i användargränssnittet genom koordinatbaserade klick för att skicka e-post och schemalägga en kalenderhändelse.

GPT‑5.4:s förbättrade datoranvändning bygger på modellens bättre visuella perception. På MMMU-Pro, ett test av en modells visuella förståelse och resonemang, uppnår GPT‑5.4 en framgångsfrekvens på 81,2 % utan verktygsanvändning, en förbättring jämfört med GPT‑5.2:s 79,5 %. Förbättrad visuell perception leder även till bättre förmåga att parsa dokument. På OmniDocBench uppnår GPT‑5.4 utan resonemangsinsats genomsnittligt antal fel (mätt med normaliserat redigeringsavstånd mellan modellens förutsägelse och det faktiska svaret) på 0,109, en förbättring jämfört med GPT‑5.2:s 0,140.

MMMUPro kördes med resonemangsinsatsen inställd på mycket hög. OmniDocBench kördes med resonemangsinsatsen inställd på ingen, för att återspegla prestanda med låg kostnad och låg latens.

Vi förbättrar också den visuella förståelsen för täta bilder med hög upplösning där fullständig återgivning är viktig. Från och med GPT‑5.4 introducerar vi en ursprunglig indatadetaljnivå⁠(öppnas i ett nytt fönster) för bilder som stöder fullständig återgivning på upp till 10,24 miljoner pixlar eller en maximal dimension på 6000 pixlar, beroende på vilket som är lägst. Den höga indatadetaljnivån för bilder stöder nu upp till 2,56 miljoner pixlar eller en maximal dimension på 2048 pixlar. I tidiga tester med API-användare såg vi stora förbättringar i lokaliseringsförmåga, bildförståelse och klickriktighet när vi använde ursprunglig eller hög detaljnivå.

”I våra utvärderingar av datoranvändningsprestanda på drygt 30K HOA- och fastighetsskatteportaler uppnådde GPT-5.4 en framgångsfrekvens på 95 % vid första försöket och 100 % inom tre försök, jämfört med 73–79 % för tidigare CUA-modeller. Den slutförde också sessioner drygt tre gånger snabbare samtidigt som den använde cirka 70 % färre token, vilket avsevärt förbättrade tillförlitligheten och kostnadseffektiviteten i stor skala.”

– Dod Fraser, VD på Mainstay

I API:et kan utvecklare få åtkomst till dessa funktioner med hjälp av det uppdaterade datorverktyget. Se vår uppdaterade dokumentation⁠(öppnas i ett nytt fönster) för rekommenderade bästa metoder.

Kodning

GPT‑5.4 kombinerar kodningsstyrkorna hos GPT‑5.3‑Codex med ledande förmågor inom kunskapsarbete och datoranvändning, vilket är viktigast vid långvariga uppgifter där modellen kan använda verktyg, iterera och driva arbetet längre med färre manuella insatser. Den matchar eller överträffar GPT‑5.3‑Codex på SWE-Bench Pro samtidigt som den har lägre latens över olika resonemangsinsatser.

Vi uppskattar latensen genom att titta på våra modellers produktionsbeteende och simulera detta offline. Latensuppskattningen tar hänsyn till verktygsanropens längd (körningstid för kod), samplade token och indatatoken. Latens kan i själva verket variera avsevärt och beror på många faktorer som inte registreras i vår simulering. Resonemangsinsatsen höjdes från ingen till mycket hög.

När /fast mode i Codex är aktiverat ger det upp till 1,5 gånger snabbare token-hastighet med GPT‑5.4. Det är samma modell och samma intelligens, bara snabbare. Det innebär att användare ta itu med kodningsuppgifter, iteration och felsökning utan att minska arbetstakten. Utvecklare kan lika snabbt få åtkomst till GPT‑5.4 via API:et genom att använda prioriterad bearbetning⁠(öppnas i ett nytt fönster).

Vid utvärdering och interna tester fann vi att GPT‑5.4 utmärker sig i komplexa frontend-uppgifter, med märkbart snyggare och mer funktionella resultat än några modeller vi har lanserat tidigare.

Som en demonstration av modellens förbättrade funktioner för datoranvändning och kodning som arbetar i tandem släpper vi också en experimentell Codex-färdighet som heter “Playwright (Interactive)⁠(öppnas i ett nytt fönster)”. Detta gör att Codex kan visuellt felsöka webb- och Electron-appar, och kan till och med användas för att testa en app som det bygger, medan det bygger den.

Temaparkssimuleringsspel skapat med GPT‑5.4 från en enda specificerad prompt, med Playwright Interactive för webbläsarspeltestning och bildgenerering för den isometriska tillgångsuppsättningen. Simuleringen omfattar rutnätsbaserad placering av gångvägar, byggande av åkattraktioner och landskap, gästernas vägval, köbildning och åkcykler, medan parkmått som pengar, antal gäster, nöjdhet, renlighet och betyg stiger eller sjunker beroende på hur layouten fungerar och hur gästerna reagerar på den. Playwright användes för att automatisera webbläsarbaserade speltester genom att bygga och utöka parken, placera och ta bort vägar och attraktioner, kontrollera kameranavigering och verifiera att tillstånd för gäster, köer och åkattraktioner samt användargränssnittets mätvärden uppdaterades korrekt under flera spelomgångar.

Prompt: Använd $playwright-interactive och $imagegen. Skapa ett interaktivt isometriskt nöjesparkssimuleringsspel som jag kan bygga och navigera i webbläsaren. Använd imagegen för att skapa den övergripande visuella visionen och generera spelets resurser, inklusive åkattraktioner, gångvägar, terräng, träd, vatten, matstånd, dekorationer, byggnader, ikoner och UI-illustrationer. Världen ska kännas sammanhållen, elegant och visuellt rik, med en förstklassig grafik som fungerar bra ur ett isometriskt perspektiv. Låt mig placera och ta bort gångvägar, lägga till attraktioner, placera ut miljödetaljer och röra mig runt i parken smidigt samtidigt som jag övervakar gästaktivitet, åkstatus och parkens tillväxt. Inkludera trovärdiga gäströrelser, enkla parkhanteringssystem som pengar, renlighet, köande och nöjdhet, och få upplevelsen att kännas lekfull, tydlig och komplett snarare än som en grov prototyp. Prioritera charm, läsbarhet och stark spelkänsla framför realism.

Vid speltestning ska du se till att bygga och utöka en park genom flera spelrundor, verifiera att placering och navigering fungerar smidigt, bekräfta att gästerna reagerar på parkens layout och attraktioner, och säkerställa att det visuella, användargränssnittet och interaktionerna känns stabila och sammanhängande.

”Våra ingenjörer tycker att GPT-5.4 är mer naturlig och bestämd än tidigare modeller. Den arbetar sig igenom tvetydiga problem utan tvivel, och den är proaktiv med att parallellisera arbetet för att hålla saker och ting igång.”

– Lee Robinson, VP of Developer Education på Cursor

Verktygsanvändning

Med GPT‑5.4, vi har avsevärt förbättrat hur modeller fungerar med externa verktyg. Agenter kan nu arbeta i större verktygsekosystem, välja rätt verktyg mer tillförlitligt och slutföra arbetsflöden i flera steg med lägre kostnad och latens.

Verktygssökning

GPT‑5.4 introducerar verktygssökning⁠(öppnas i ett nytt fönster) i API:t, vilket gör att modeller kan arbeta effektivt när de får många verktyg.

Tidigare, när en modell fick verktyg, inkluderades alla verktygsdefinitioner i prompten direkt. För system med många verktyg kan detta lägga till tusentals – eller till och med tiotusentals – token till varje begäran, vilket ökar kostnaden, saktar ned svaren och fyller kontexten med information som modellen kanske aldrig använder.

Med verktygssökning får GPT‑5.4 istället en lättförståelig lista över tillgängliga verktyg tillsammans med en verktygssökningsfunktion. När modellen behöver använda ett verktyg kan den slå upp verktygets definition och lägga till det i konversationen i det ögonblicket.

Den här metoden minskar dramatiskt antalet token som krävs för verktygstunga arbetsflöden och bevarar cachen, vilket gör förfrågningar snabbare och billigare. Det gör det också möjligt för agenter att på ett tillförlitligt sätt arbeta med mycket större verktygsekosystem. För MCP-servrar som kan innehålla tiotusentals token av verktygsdefinitioner kan effektivitetsvinsterna vara betydande.

För att demonstrera effektivitetsvinsterna utvärderade vi 250 uppgifter med Scales MCP Atlas⁠(öppnas i ett nytt fönster)-benchmark med alla 36 MCP-servrar aktiverade i två lägen: (1) exponera varje MCP-funktion direkt i modellkontexten, och (2) placera alla MCP-servrar bakom verktygssökning. Konfigurationen för verktygssökning minskade den totala token-användningen med 47 % samtidigt som den uppnådde samma riktighet.

Exempel på antalet token kommer från ett genomsnitt av 250 uppgifter i den offentliga MCP-Atlas-datamängden.

Agentiskt verktygsanrop

GPT‑5.4 förbättrar också verktygsanrop, och gör det mer precist och effektivt när det avgör när och hur verktyg ska användas vid resonemang, särskilt i API:et. Jämfört med GPT‑5.2 uppnår den högre riktighet i färre omgångar i Toolathlon, ett riktmärke som testar hur väl AI-agenter kan använda verkliga verktyg och API:er för att slutföra flerstegsuppgifter. Till exempel behöver en agent läsa e-postmeddelanden, extrahera bilagor till uppgifter, ladda upp dem, betygsätta dem och registrera resultaten i ett kalkylblad.

För latenskänsliga användningsfall där ingen resonemangsinsats föredras, är GPT‑5.4 ännu bättre jämfört med sina föregångare.

I τ2-bench⁠⁠(öppnas i ett nytt fönster) måste en modell använda verktyg för att utföra en kundtjänstuppgift, där det kan finnas en simulerad användare som kan kommunicera och vidta åtgärder baserat på världens tillstånd. Resonemangsinsatsen är inställd på ingen.

Förbättrad webbsökning

GPT‑5.4 är bättre på agentbaserad webbsökning. På BrowseComp, ett mått på hur väl AI-agenter kan surfa på webben för att hitta svåråtkomlig information, hoppar GPT‑5.4 17 %_abs över GPT‑5.2, och GPT‑5.4 Pro sätter en ny standard på 89,3 %.

I praktiken betyder detta att GPT‑5.4 Thinking är bättre på att besvara frågor som kräver att man sammanställer information från många källor på webben. Den kan mer ihållande söka i flera omgångar för att identifiera de mest relevanta källorna, särskilt för frågor för vilka det är svårt att hitta ett svar, och syntetisera dem till ett tydligt och välgrundat svar.

I BrowseComp använde vi en sökblocklista som uteslöt webbplatser med riktmärkessvar från utvärderingen för att förhindra kontaminering och säkerställa en rättvis mätning av prestandan. GPT‑5.4 mättes vid ett senare datum än GPT‑5.2, vilket innebär att poängen återspeglar förändringar i modellen, vårt söksystem och internets tillstånd. GPT‑5.4 testades med en längre, uppdaterad blockeringslista. Modeller använder sökverktyget ChatGPT, som kan ha små skillnader jämfört med API-sökning.

”GPT-5.4 xhigh är den nya ledande modellen för verktygsanvändning i flera steg. Zapier kör några av de mest rigorösa testerna av verktygsanvändning i branschen och utvärderar modeller i hundratals avancerade arbetsflöden från verkliga tillämpningar. GPT-5.4 slutförde uppgiften där tidigare modeller gav upp – den mest uthålliga modellen hittills.”

– Wade, VD på Zapier

Styrbarhet

I likhet med hur Codex beskriver sin metod när den börjar arbeta, kommer GPT‑5.4 Thinking i ChatGPT nu att beskriva sitt arbete med en inledning för längre och mer komplexa frågor. Du kan också lägga till instruktioner eller justera dess riktning mitt i svaret. Detta gör det enklare att vägleda modellen mot exakt det resultat du vill ha utan att behöva börja om eller köra flera ytterligare omgångar. Den här funktionen är nu tillgänglig på chatgpt.com⁠(öppnas i ett nytt fönster) och i Android-appen, och kommer snart till iOS-appen.

Modellen kan också tänka längre på svåra uppgifter samtidigt som den bibehåller en starkare medvetenhet om tidigare steg i konversationen. Detta gör att den kan hantera längre arbetsflöden och mer komplexa prompter samtidigt som svaren förblir sammanhängande och relevanta.

Den här videon har snabbats upp i illustrativt syfte.

Säkerhet

Under de senaste månaderna har vi fortsatt att förbättra de skyddsåtgärder vi introducerade med GPT‑5.3‑Codex samtidigt som vi förbereder GPT‑5.4 för driftsättning. I likhet med GPT‑5.3‑Codex behandlar vi GPT‑5.4 som hög cyberkapacitet enligt vårt Preparedness Framework, och vi driftsätter den med motsvarande skyddsåtgärder enligt dokumentationen i systemkort⁠. Dessa inkluderar en utökad cybersäkerhetsstack, inklusive övervakningssystem, betrodda åtkomstkontroller och asynkron blockering för förfrågningar med högre risk för kunder på ytor med Noll datalagring (ZDR), tillsammans med fortsatta investeringar i det bredare säkerhetsekosystemet.

Eftersom cybersäkerhetsfunktioner i sig har dubbla användningsområden, vidtar vi försiktighetsåtgärder vid driftsättning samtidigt som vi fortsätter att justera våra policyer och klassificerare. För vissa kunder på ZDR-ytor är blockering på begärandenivå fortfarande en del av vår åtgärdsstack för cyberrisker; eftersom klassificerare fortfarande förbättras kan vissa falska positiva resultat förekomma när vi fortsätter att finjustera dessa skyddsåtgärder. Dessa uppdateringar syftar till att förbättra hur skyddsåtgärderna fungerar i praktiken, inklusive att minska onödiga avslag och alltför reserverade svar, samtidigt som ett starkt skydd mot missbruk bibehålls.

Vi har fortsatt vår säkerhetsforskning om övervakning av tankekedjan (CoT) för att bättre förstå hur modeller resonerar och hjälpa till att upptäcka potentiellt felaktigt beteende. Som en del av detta arbete introducerar vi en ny utvärdering med öppen källkod, CoT controllability⁠, som mäter om modeller medvetet kan förvränga sitt resonemang för att undvika övervakning. Vi konstaterar att GPT‑5.4 Thinkings förmåga att kontrollera sin tankekedja är låg, vilket är en positiv egenskap för säkerheten, och tyder på att Modellen saknar förmågan att dölja sitt Resonemang samt att CoT-övervakning fortfarande är ett effektivt säkerhetsverktyg.

Tillgänglighet och priser

GPT‑5.4 börjar rullas ut gradvis idag i ChatGPT och Codex. I API:et är GPT‑5.4 nu tillgängligt som gpt-5.4. GPT‑5.4 Pro är också tillgänglig i API:et som gpt-5.4-pro för utvecklare som behöver maximal prestanda för de mest komplexa uppgifterna.

I ChatGPT är GPT‑5.4 Thinking tillgängligt från och med idag för ChatGPT Plus-, Team- och Pro-användare och ersätter GPT‑5.2 Thinking. GPT‑5.2 Thinking kommer att förbli tillgängligt i tre månader för betalande användare i modellväljaren under avsnittet Äldre modeller och avvecklas därefter den 5 juni 2026. De som har Enterprise- och Edu-abonnemang kan aktivera förtidsåtkomst via administratörsinställningarna. GPT‑5.4 Pro är tillgänglig för Pro- och Enterprise-abonnemang. Kontextfönster⁠(öppnas i ett nytt fönster) i ChatGPT för GPT‑5.4 Thinking förblir oförändrat från GPT‑5.2 Thinking.

GPT‑5.4 är vår första huvudsakliga resonemangsmodell som införlivar GPT‑5.3‑codex banbrytande kodningsfunktioner och det rullas ut i ChatGPT, API och Codex. Vi kallar det GPT‑5.4 för att återspegla det hoppet och för att förenkla valet mellan modeller när man använder Codex. Med tiden kan du förvänta dig att våra Instant-modeller och Thinking-modeller utvecklas i olika takt.

GPT‑5.4 i Codex inkluderar experimentellt stöd för 1 miljon kontextfönster. Utvecklare kan testa detta genom att konfigurera model_context_window och model_auto_compact_token_limit. Förfrågningar som överskrider det standardmässiga kontextfönstret på 272 000 räknas mot användningsgränserna med två gånger den normala frekvensen.

I API:t är priset per token för GPT‑5.4 högre än för GPT‑5.2 för att återspegla dess förbättrade kapacitet, medan dess större token-effektivitet bidrar till att minska det totala antalet token som krävs för många uppgifter. Priser för Batch och Flex är tillgängliga till halva standardpriset för API:et, medan prioritetsbearbetning är tillgänglig till dubbla standardpriset för API:et.

API-modell	Indatapris	Cachat indatapris	Utdatapris
gpt-5.2	1,75 USD/miljoner token	0,175 USD/miljoner token	14 USD/miljoner token
gpt-5.4	2,50 USD/miljoner token	0,25 USD/miljoner token	15 USD/miljoner token
gpt-5.2-pro	21 USD/miljoner token	-	168 USD/miljoner token
gpt-5.4-pro	30 USD/miljoner token	-	180 USD/miljoner token

Utvärderingar

Professionell

Utv.	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
GDPval	83,0 %	82,0 %	70,9 %	70,9 %	74,1 %
FinanceAgent v1.1	56,0 %	61,5 %	54,0 %	59,5 %	—
Modelleringsuppgifter inom investment banking (internt)	87,3 %	83,6 %	79,3 %	68,4 %	71,7 %
OfficeQA	68,1 %	—	65,1 %	63,1 %	—

Kodning

Utv.	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
SWE-Bench Pro (offentlig)	57,7 %	—	56,8 %	55,6 %	—
Terminal-Bench 2.0	75,1 %	—	77,3 %	62,2 %	—

Datoranvändning och visuell förmåga

Utv.	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
OSWorld-Verified	75,0 %	—	74,0 %	47,3 %	—
MMMU Pro (inga verktyg)	81,2 %	—	—	79,5 %	—
MMMU Pro (med verktyg)	82,1 %	—	—	80,4 %	—

Verktygsanvändning

Utv.	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
BrowseComp	82,7 %	89,3 %	77,3 %	65,8 %	77,9 %
MCP Atlas	67,2 %	—	—	60,6 %	—
Toolathlon	54,6 %	—	51,9%	45,7 %	—
Tau2-bench Telekom	98,9 %	—	—	98,7 %	—

Akademisk

Utv.	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Frontier Science Research	33,0 %	36,7 %	—	25,2 %	—
FrontierMath Tier 1–3	47,6 %	—	—	40,7 %	—
FrontierMath Tier 4	27,1 %	38,0 %	—	18,8 %	31,3 %
GPQA Diamond	92,8 %	94,4 %	92,6 %	92,4%	93,2 %
Humanitys Last Exam (inga verktyg)	39,8 %	42,7%	—	34,5 %	36,6 %
Humanity's Last Exam (med verktyg)	52,1 %	58,7 %	—	45,5 %	50,0 %

Långt kontext

Utv.	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Graphwalks BFS 0K–128K	93,0 %	—	—	94,0 %	—
Graphwalks BFS 256K–1M	21,4 %	—	—	—	—
Graphwalks parents 0–128K (noggrannhet)	89,8 %	—	—	89,0 %	—
Graphwalks parents 256K–1M (noggrannhet)	32,4 %	—	—	—	—
OpenAI MRCR v2 med 8 nålar, 4K–8K	97,3 %	—	—	98,2 %	—
OpenAI MRCR v2 8-needle 8K–16K	91,4 %	—	—	89,3 %	—
OpenAI MRCR v2 8-needle 16K–32K	97,2 %	—	—	95,3 %	—
OpenAI MRCR v2 8-needle 32K–64K	90,5 %	—	—	92,0 %	—
OpenAI MRCR v2 8-needle 64K–128K	86,0 %	—	—	85,6 %	—
OpenAI MRCR v2 8-needle 128K–256K	79,3%	—	—	77,0 %	—
OpenAI MRCR v2 8-needle 256K–512K	57,5 %	—	—	—	—
OpenAI MRCR v2 8-needle 512K–1M	36,6 %	—	—	—	—

Abstrakt resonemang

Utv.	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ARC-AGI-1 (Verified)	93,7 %	94,5 %	—	86,2 %	90,5 %
ARC-AGI-2 (Verified)	73,3 %	83,3 %	—	52,9 %	54,2 % (hög)

Utvärderingar utan resonemang

Utv.	GPT‑5.4 (ingen)	GPT‑5.2 (ingen)	GPT‑4.1
OmniDocBench (normaliserat redigeringsavstånd)	0,109	0,140	—
Tau2-bench Telekom	64,3 %	57,2 %	43,6 %

Utvärderingar kördes med resonemangsinsatsen inställt på mycket hög, förutom där annat anges. Benchmarktester utfördes i en forskningsmiljö, vilket i vissa fall kan ge något annorlunda resultat jämfört med ChatGPT i produktion.