I dag lancerer vi GPT‑5.4 i ChatGPT (som GPT‑5.4 Thinking), API'en og Codex. Det er vores mest kapable og effektive banebrydende model til professionelt arbejde. Vi lancerer også GPT‑5.4 Pro i ChatGPT og API'en til dem, der ønsker maksimal ydeevne til komplekse opgaver.
GPT‑5.4 samler det bedste fra vores seneste fremskridt inden for ræsonnering, kodning og agentiske arbejdsgange i en enkelt banebrydende model. Den inkorporerer branchens førende kodningskapaciteter fra GPT‑5.3‑Codex, samtidig med at den forbedrer modellens funktionalitet på tværs af værktøjer, softwaremiljøer og professionelle opgaver som regneark, præsentationer og dokumenter. Resultatet er en model, der udfører komplekst, reelt arbejde præcist, effektivt og virkningsfuldt – og leverer det, du har bedt om, med mindre frem og tilbage.
I ChatGPT kan GPT‑5.4 Thinking nu give en plan for sin tænkning på forhånd, så du kan justere kursen midt i svaret, mens den arbejder, og nå frem til et endeligt output, der er tættere på det, du har brug for, uden yderligere trin. GPT‑5.4 Thinking forbedrer også grundig research på det dybe web, især ved meget specifikke forespørgsler, samtidig med at den bedre bevarer konteksten for spørgsmål, der kræver længere tænkning. Sammen betyder disse forbedringer svar af højere kvalitet, der leveres hurtigere og forbliver relevante for den aktuelle opgave.
I Codex og API’et er GPT‑5.4 den første model til generelle formål, vi har udgivet, med indbyggede, topmoderne evner til computerbrug, som gør det muligt for agenter at betjene computere og udføre komplekse arbejdsgange på tværs af applikationer. Den understøtter op til 1M tokens af kontekst, hvilket gør det muligt for agenter at planlægge, udføre og verificere opgaver på tværs af lange tidshorisonter. GPT‑5.4 forbedrer også, hvordan modeller fungerer på tværs af store økosystemer af værktøjer og forbindelser med værktøjssøgning, hvilket hjælper agenter med at finde og bruge de rigtige værktøjer mere effektivt uden at gå på kompromis med intelligensen. Endelig er GPT‑5.4 vores mest token-effektive ræsonneringsmodel til dato, idet den bruger markant færre tokens til at løse problemer sammenlignet med GPT‑5.2, hvilket resulterer i lavere tokenforbrug og hurtigere hastigheder.
Sammen med fremskridt inden for generel ræsonnering, kodning og professionelt vidensarbejde muliggør GPT‑5.4 mere pålidelige agenter, hurtigere udviklerarbejdsgange og output af højere kvalitet på tværs af ChatGPT, API'et og Codex.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (sejr eller uafgjort) | 83,0 % | 70,9 % | 70,9 % |
SWE-Bench Pro (offentlig) | 57,7 % | 56,8 % | 55,6 % |
OSWorld-Verified | 75,0 % | 74,0 %* | 47,3 % |
Toolathlon | 54,6 % | 51,9 % | 46,3 % |
BrowseComp | 82,7 % | 77,3 % | 65,8 % |
*Tidligere rapporteret som 64,7 %. GPT‑5.3‑Codex opnår 74,0 % med en nyligt introduceret API-parameter, der bevarer den oprindelige billedopløsning.
Bygger på GPT‑5.2's Generelle ræsonneringsevner leverer GPT‑5.4 endnu mere konsistente og polerede resultater på opgaver i den virkelige verden, som betyder noget for professionelle.
På GDPval, en evaluering, der tester agenters evne til at udføre veldefineret vidensarbejde på tværs af 44 erhverv, opnår GPT‑5.4 en ny standard og matcher eller overgår topfagfolk i branchen i 83,0 % af sammenligningerne, sammenlignet med 71,0 % for GPT‑5.2.
I GDPval forsøger modeller at udføre veldefineret vidensarbejde, der omfatter 44 erhverv fra de 9 brancher, der bidrager mest til USA's BNP. Opgaverne kræver konkrete arbejdsprodukter, såsom salgspræsentationer, regnskabsark, akutte plejeplaner, produktionsdiagrammer eller korte videoer. Ræsonnering blev sat til xhigh for GPT‑5.4 og heavy for GPT‑5.2 (et lidt lavere niveau i ChatGPT).
“GPT-5.4 er den bedste model, vi nogensinde har prøvet. Den ligger nu øverst på leaderboardet i vores APEX-Agents-benchmark, som måler modelpræstationer for professionelt servicearbejde. Den udmærker sig ved at skabe langsigtede leverancer såsom slide decks, finansielle modeller og juridiske analyser, og leverer toppræstation, samtidig med at den kører hurtigere og til en lavere pris end konkurrerende frontier-modeller.
Vi lagde et særligt fokus på at forbedre GPT‑5.4’s mulighed for at oprette og redigere regneark, præsentationer og dokumenter. På et internt benchmark af regnearksmodelleringsopgaver, som en junior investment banking-analytiker kunne udføre, opnår GPT‑5.4 en gennemsnitlig score på 87,5 %, sammenlignet med 68,4 % for GPT‑5.2. I et sæt af præsentationsevalueringsprompts foretrak menneskelige bedømmere præsentationer fra GPT‑5.4 68,0 % af tiden frem for dem fra GPT‑5.2 på grund af stærkere æstetik, større visuel variation og mere effektiv brug af billedgenerering.

Dokumenter blev genereret med ræsonnering sat til xhigh
Du kan prøve disse funktioner i ChatGPT ved hjælp af GPT‑5.4 Thinking eller Pro. Hvis du er Enterprise-kunde, anbefaler vi at bruge vores nyligt lancerede ChatGPT for Excel- og Google Sheets-plugins(åbner i et nyt vindue), som også blev lanceret i dag. Vi har også opdateret vores regnearks-(åbner i et nyt vindue) og præsentationsfærdigheder(åbner i et nyt vindue), som er tilgængelige i Codex og API’en.
For at skabe GPT‑5.4 bedre til arbejde i den virkelige verden fortsatte vi vores fremskridt med at reducere hallucinationer og fejl. GPT‑5.4 er vores hidtil mest faktuelle model: på et sæt af afidentificerede prompts, hvor brugere markerede faktuelle fejl, GPT‑5.4’s Individuelle påstande er 33 % mindre tilbøjelige til at være falske, og dens fulde svar er 18 % mindre tilbøjelige til at indeholde fejl i forhold til GPT‑5.2.
“GPT-5.4 sætter en ny standard for dokumenttungt juridisk arbejde. På vores BigLaw Bench-evaluering scorede den 91 %. Sammenlignet med andre modeller er GPT-5.4 i øjeblikket bedre til at strukturere komplekse transaktionsanalyser, opretholde nøjagtighed i lange kontrakter og levere det høje detaljeringsniveau, som jurister kræver.
GPT‑5.4 er vores første general-purpose-model med indbyggede evner til computerbrug og markerer et stort skridt fremad for både udviklere og agenter. Det er den bedste model, der i øjeblikket er tilgængelig for udviklere, der bygger agenter, som udfører rigtige opgaver på tværs af websites og softwaresystemer.
Vi har designet GPT‑5.4 til at levere høj ydeevne på tværs af en lang række arbejdsbelastninger til computerbrug. Den udmærker sig ved at skrive kode til at betjene computere via biblioteker som Playwright samt ved at udstede muse- og tastaturkommandoer som reaktion på skærmbilleder. Dens adfærd kan styres via udviklerbeskeder, hvilket betyder, at udviklere kan tilpasse adfærden, så den passer til bestemte anvendelsestilfælde. Udviklere kan endda konfigurere modellens sikkerhedsadfærd, så den passer til forskellige niveauer af risikotolerance, ved at angive tilpassede bekræftelsespolitikker.
Modellens ydeevne og fleksibilitet afspejles på tværs af benchmarks, der tester computerbrug på tværs af forskellige indstillinger. På OSWorld-Verified, som måler en models evne til at navigere i et desktopmiljø via skærmbilleder og tastatur-/musehandlinger, opnår GPT‑5.4 en topmoderne 75,0 % succesrate, langt over GPT‑5.2's 47,3 %, og overgår menneskelig præstation med 72,4 %.1
På WebArena-Verified, som tester browserbrug, opnår GPT‑5.4 en førende succesrate på 67,3 %, når den bruger både DOM- og skærmbilledebaseret interaktion, sammenlignet med GPT‑5.2's 65,4 %. På Online-Mind2Web, som også tester browserbrug, opnår GPT‑5.4 en succesrate på 92,8 % ved kun at bruge skærmbilledebaserede observationer, hvilket er en forbedring i forhold til ChatGPT Atlas’ Agent Mode, som opnår en succesrate på 70,9 %.
Et værktøjsyield er, når en assistent venter på svar fra værktøjer. Hvis 3 værktøjer kaldes parallelt efterfulgt af 3 yderligere værktøjer, der også kaldes parallelt, ville antallet af udbytter være 2. Værktøjsudbytte er en bedre indikator for latenstid end værktøjskald, fordi de afspejler fordelene ved parallelisering.
GPT‑5.4 fortolker skærmbilleder af en browsergrænseflade og interagerer med brugerfladeelementer via koordinatbaserede klik for at sende e-mails og planlægge en kalenderbegivenhed.
GPT‑5.4’s forbedrede computerbrug bygger på modellens forbedrede generelle visuelle perceptionsevner. På MMMU-Pro, en test af en models visuelle forståelse og ræsonnering, opnår GPT‑5.4 en 81,2 % succesrate uden brug af værktøjer, en forbedring i forhold til GPT‑5.2’s 79,5 %. Forbedret visuel perception fører også til bedre kapaciteter til dokumentparsing. På OmniDocBench opnår GPT‑5.4 uden ræsonnement en gennemsnitlig fejl (målt ved normaliseret redigeringsafstand mellem modelforudsigelse og jordsandhed) på 0,109, forbedret fra GPT‑5.2's 0,140.
MMMUPro blev kørt med ræsonnering sat til xhigh. OmniDocBench blev kørt med ræsonnering sat til none for at afspejle ydeevne med lave omkostninger og lav latenstid.
Vi forbedrer også den visuelle forståelse af tætte billeder i høj opløsning, hvor fuld troværdighed er vigtig. Fra og med GPT‑5.4 introducerer vi et originalbillede med et niveau af inputdetaljer(åbner i et nyt vindue), som understøtter fuld troværdighed op til 10,24 millioner pixels i alt eller en maksimal dimension på 6000 pixels, alt efter hvad der er lavest; det høje detaljeringsniveau for billedinput understøtter nu op til 2,56 millioner pixels i alt eller en maksimal dimension på 2048 pixels. I den tidlige testfase med API-brugere observerede vi markante forbedringer i lokaliseringsevne, billedforståelse og kliknøjagtighed ved brug af original eller høj detaljegrad.
“I vores evalueringer, der måler ydeevne for computerbrug på tværs af ~30K HOA- og ejendomsskatteportaler, opnåede GPT-5.4 en succesrate på 95 % i første forsøg og 100 % inden for tre forsøg, sammenlignet med ~73-79% med tidligere CUA-modeller. Det gennemførte også sessioner ~3x hurtigere, samtidig med at det brugte ~70 % færre tokens, hvilket i væsentlig grad forbedrede pålideligheden og omkostningseffektiviteten i stor skala."
I API'en kan udviklere få adgang til disse funktioner ved hjælp af det opdaterede computer-værktøj. Se vores opdaterede dokumentation(åbner i et nyt vindue) for anbefalede fremgangsmåder.
GPT‑5.4 kombinerer kodningsstyrkerne fra GPT‑5.3‑Codex med førende evner inden for videnarbejde og computerbrug, som betyder mest ved langvarige opgaver, hvor modellen kan bruge værktøjer, iterere og føre arbejdet videre med mindre manuel indgriben. Den matcher eller overgår GPT‑5.3‑Codex på SWE-Bench Pro, samtidig med at den har lavere latenstid på tværs af ræsonnering.
Vi estimerer latenstid ved at se på vores modellers adfærd i produktion og simulere dette offline. Latensestimatet tager højde for varigheden af værktøjskald (kodekørselstid), samplede tokens og input tokens. Latens i den virkelige verden kan variere meget og afhænger af mange faktorer, som ikke indgår i vores simulering. Ræsonnering blev ændret fra none til xhigh.
Når den er slået til, leverer /fast mode i Codex op til 1,5x hurtigere token hastighed med GPT‑5.4. Det er den samme model og den samme intelligens, bare hurtigere. Det betyder, at brugerne kan bevæge sig gennem kodningsopgaver, iteration og fejlsøgning, mens de forbliver i flow. Udviklere kan få adgang til GPT‑5.4 med de samme høje hastigheder via API'en ved at bruge Prioritetsbehandling(åbner i et nyt vindue).
I evaluering og intern testning fandt vi, at GPT‑5.4 udmærker sig til komplekse frontend-opgaver med mærkbart mere æstetiske og mere funktionelle resultater end nogen af de modeller, vi tidligere har lanceret.
Som en demonstration af modellens forbedrede computerbrug og kodningsfunktioner i samarbejde udgiver vi også en eksperimentel Codex-færdighed kaldet "Playwright (Interactive)(åbner i et nyt vindue) ". Dette gør det muligt for Codex at fejlsøge web- og Electron-apps visuelt; det kan endda bruges til at teste en app, som det er ved at bygge, mens det bygger den.
Tema-park-simulationsspil lavet med GPT‑5.4 ud fra en enkelt, let specificeret prompt, ved hjælp af Playwright Interactive til browser-spiltest og billedgenerering til det isometriske asset-sæt. Simuleringen omfatter flisebaseret stiplacering, opførelse af forlystelser og kulisser, gæsters rutevalg, kødannelse og forlystelsescyklusser, mens parkmålinger som penge, antal gæster, tilfredshed, renlighed og vurdering stiger eller falder afhængigt af, hvordan layoutet fungerer, og hvordan gæsterne reagerer på det. Playwright blev brugt til at automatisere browserbaserede playtests ved at bygge og udvide parken, placere og fjerne stier og forlystelser, kontrollere kameranavigation og verificere, at gæster, køer, forlystelsestilstande og UI-målinger blev opdateret korrekt over flere runder af spil.
Prompt: Use $playwright-interactive and $imagegen. Create an interactive isometric theme park simulation game that I can build and navigate in the browser. Use imagegen to establish the overall visual vision and generate the game’s assets, including rides, paths, terrain, trees, water, food stalls, decorations, buildings, icons, and UI illustrations. The world should feel cohesive, polished, and visually rich, with a premium art direction that works well from an isometric perspective. Let me place and remove paths, add attractions, position scenery, and move around the park smoothly while monitoring guest activity, ride status, and park growth. Include believable guest movement, simple park management systems like money, cleanliness, queueing, and happiness, and make the experience feel playful, clear, and complete rather than like a rough prototype. Prioritize charm, readability, and strong game feel over realism.
Når du tester spillet, skal du sørge for at opbygge og udvide en park gennem flere runder, kontrollere, at placering og navigation fungerer problemfrit, bekræfte, at gæsterne reagerer på parkens layout og attraktioner, og sikre, at grafikken, brugergrænsefladen og interaktionerne føles stabile og sammenhængende.
“Vores ingeniører finder GPT-5.4 mere naturlig og mere selvsikker end tidligere modeller. Den arbejder sig gennem tvetydige problemer uden at tvivle på sig selv og er proaktivt med at parallelisere arbejdet for at holde tingene i gang.”
Med GPT‑5.4 har vi markant forbedret, hvordan modeller arbejder med eksterne værktøjer. Agenter kan nu fungere på tværs af større værktøjsøkosystemer, vælge de rigtige værktøjer mere pålideligt og gennemføre arbejdsgange med flere trin med lavere omkostninger og latens.
I API'en introducerer GPT‑5.4 værktøjssøgning(åbner i et nyt vindue), som gør det muligt for modeller at arbejde effektivt, når de får mange værktøjer.
Tidligere, når en model fik værktøjer, blev alle værktøjsdefinitioner inkluderet i prompten på forhånd. For systemer med mange værktøjer kan dette tilføje tusindvis – eller endda titusindvis – af tokens til hver anmodning, hvilket øger omkostningerne, forsinker svarene og overfylder konteksten med information, som modellen måske aldrig bruger.
Med værktøjssøgning modtager GPT‑5.4 i stedet en letvægtsliste over tilgængelige værktøjer sammen med en funktion til værktøjssøgning. Når modellen har brug for at bruge et værktøj, kan den slå værktøjets definition op og føje den til samtalen på det tidspunkt.
Denne tilgang reducerer dramatisk antallet af token, der kræves til værktøjstunge arbejdsgange, og bevarer cachen, hvilket gør anmodninger hurtigere og billigere. Det gør det også muligt for agenter pålideligt at arbejde med langt større værktøjsøkosystemer. For MCP-servere, der kan indeholde titusindvis af tokens af værktøjsdefinitioner, kan effektivitetsgevinsterne være betydelige.
For at demonstrere effektivitetsgevinsterne evaluerede vi 250 opgaver fra Scale’s MCP Atlas(åbner i et nyt vindue)-benchmark med alle 36 MCP-servere aktiveret i to tilstande: (1) at eksponere hver MCP-funktion direkte i modelkonteksten og (2) at placere alle MCP-servere bag værktøjssøgning. Konfigurationen af værktøjssøgning reducerede det samlede tokensforbrug med 47 % og opnåede samtidig den samme nøjagtighed.
Eksempel på token stammer fra et gennemsnit af 250 opgaver i det offentlige MCP-Atlas-datasæt.
GPT‑5.4 forbedrer også værktøjskald, hvilket gør det mere præcist og effektivt, når den beslutter, hvornår og hvordan den skal bruge værktøjer under ræsonnering, især i API'et. Sammenlignet med GPT‑5.2 opnår den højere nøjagtighed på færre runder på Toolathlon, en benchmark, der tester, hvor godt AI-agenter kan bruge værktøjer og API'er fra den virkelige verden til at fuldføre opgaver med flere trin. For eksempel skal en agent læse e-mails, udtrække vedhæftede filer til opgaver, uploade dem, bedømme dem og registrere resultater i et regneark.
Et værktøjsyield er, når en assistent venter på svar fra værktøjer. Hvis 3 værktøjer kaldes parallelt efterfulgt af 3 yderligere værktøjer, der også kaldes parallelt, ville antallet af udbytter være 2. Værktøjsudbytte er en bedre indikator for latenstid end værktøjskald, fordi de afspejler fordelene ved parallelisering.
Til latensfølsomme brugssituationer, hvor ingen ræsonnering foretrækkes, forbedrer GPT‑5.4 sig yderligere i forhold til sine forgængere.
I τ2-bench(åbner i et nyt vindue) skal en model bruge værktøjer til at udføre en kundeserviceopgave, hvor der kan være en simuleret bruger, som kan kommunikere og foretage handlinger i verdens tilstand. Ræsonnering blev sat til ingen.
GPT‑5.4 er bedre til agentisk internetsøgning. På BrowseComp, en måling af, hvor godt AI-agenter vedvarende kan browse på nettet for at finde svært tilgængelig information, springer GPT‑5.4 17 %abs over GPT‑5.2, og GPT‑5.4 Pro sætter en ny standard på 89,3 %.
I praksis betyder det, at GPT‑5.4 Thinking er bedre til at besvare spørgsmål, der kræver indsamling af information fra mange kilder på nettet. Den kan mere vedholdende søge på tværs af flere runder for at identificere de mest relevante kilder, især til “nålen i høstakken”-spørgsmål, og syntetisere dem til et klart, velformuleret og velbegrundet svar.
I BrowseComp brugte vi en søgeblokeringsliste, der udelukker websteder, som indeholder benchmark-svar, fra evalueringen for at forhindre kontaminering og sikre en retfærdig måling af ydeevne. GPT‑5.4 blev målt på en senere dato end GPT‑5.2, således at scorer afspejler ændringer i modellen, vores søgesystem og internettets tilstand. GPT‑5.4 blev testet med en længere, opdateret blokeringsliste. Modeller bruger ChatGPT‑søgeværktøjet, som kan have små forskelle i forhold til API-søgning.
“GPT-5.4 xhigh er den nye standard for brug af værktøjer i flere trin. Zapier kører nogle af de mest grundige benchmarks for værktøjsbrug i branchen og tester modeller på tværs af hundredvis af avancerede arbejdsgange i den virkelige verden. GPT-5.4 fuldførte det arbejde, som tidligere modeller havde opgivet – den mest vedholdende model til dato.
På samme måde som Codex skitserer sin tilgang, når den begynder at arbejde, gør GPT‑5.4 det også. ChatGPT vil nu skitsere sit arbejde med en indledning til længere og mere komplekse forespørgsler. Du kan også tilføje instruktioner eller justere dens retning undervejs i svaret. Det gør det nemmere at guide modellen hen imod det præcise resultat, du ønsker, uden at starte forfra eller kræve flere ekstra trin. Denne funktion er tilgængelig nu på chatgpt.com(åbner i et nyt vindue) og i Android-appen og kommer snart til iOS-appen.
Modellen kan også tænke længere over vanskelige opgaver, samtidig med at den bevarer en stærkere bevidsthed om tidligere trin i samtalen. Det gør det muligt at håndtere længere arbejdsgange og mere komplekse prompts, samtidig med at svarene forbliver sammenhængende og relevante hele vejen igennem.
Denne video blev fremskyndet af illustrative årsager.
I de seneste måneder har vi fortsat med at forbedre de sikkerhedsforanstaltninger, vi introducerede med GPT‑5.3‑Codex, samtidig med at vi forbereder GPT‑5.4 til udrulning. Ligesom GPT‑5.3‑Codex betragter vi GPT‑5.4 som havende høj cyberkapacitet under vores Preparedness Framework, og vi udruller den med de tilsvarende beskyttelser som dokumenteret i systemkort. Disse omfatter en udvidet cyber-sikkerhedsstak, herunder overvågningssystemer, betroede adgangskontroller og asynkron blokering af anmodninger med højere risiko for kunder på overflader med ingen datalagring (ZDR), sammen med løbende investeringer i det bredere sikkerhedsøkosystem.
Fordi cybersikkerhedskapaciteter i sagens natur har dobbelt anvendelse, opretholder vi en forsigtig tilgang til udrulning, samtidig med at vi fortsætter med at justere vores politikker og klassifikatorer. For visse kunder ZDR-platforme forbliver blokering på anmodningsniveau en del af vores cyber risk mitigation stack. Eftersom klassifikatorer stadig forbedres, kan der forekomme nogle falske positiver, mens vi fortsætter med at finjustere disse sikkerhedsforanstaltninger. Disse opdateringer har til formål at forbedre, hvordan sikkerhedsforanstaltninger fungerer i praksis, herunder at reducere unødvendige afvisninger og svar med for mange forbehold, samtidig med at stærke beskyttelser mod misbrug bevares.
Vi har fortsat vores sikkerhedsforskning i Chain-of-Thought (CoT)-overvågningsevne for bedre at forstå, hvordan modeller ræsonnerer, og for at hjælpe med at opdage potentiel dårlig opførsel. Som en del af dette arbejde introducerer vi en ny open source-evaluering, CoT-kontrollérbarhed, der måler, om modeller bevidst kan sløre deres ræsonnering for at undgå overvågning. Vi har fundet, at GPT‑5.4 Thinking’s evne til at kontrollere sin CoT er lav, hvilket er en positiv egenskab for sikkerheden, da det tyder på, at modellen mangler evnen til at skjule sin ræsonnering, og at CoT-overvågning fortsat er et effektivt sikkerhedsværktøj.
GPT‑5.4 begynder at blive udrullet gradvist i dag på tværs af ChatGPT og Codex. I API'en er GPT‑5.4 nu tilgængelig som gpt-5.4. GPT‑5.4 Pro er også tilgængelig i API'en som gpt-5.4-pro for udviklere, der har brug for maksimal ydeevne til de mest komplekse opgaver.
I ChatGPT er GPT‑5.4 Thinking tilgængelig fra i dag for ChatGPT Plus-, Team- og Pro-brugere og erstatter GPT‑5.2 Thinking. GPT‑5.2 Thinking vil forblive tilgængelig i tre måneder for betalende brugere i modelvælgeren under sektionen Legacy-modeller, hvorefter den vil blive udfaset den 5. juni 2026. Enterprise- og Edu-abonnenter kan aktivere tidlig adgang via administratorindstillinger. GPT‑5.4 Pro er tilgængelig for Pro- og Enterprise-abonnenter. Kontekstvinduer(åbner i et nyt vindue) i ChatGPT til GPT‑5.4 Thinking forbliver uændret fra GPT‑5.2 Thinking.
GPT‑5.4 er vores første mainline-ræsonneringsmodel, der inkorporerer frontier-kodningsfunktionerne i GPT‑5.3‑codex, og som rulles ud på tværs af ChatGPT, API'en og Codex. Vi kalder det GPT‑5.4 for at afspejle dette spring og for at forenkle valget mellem modeller, når Codex bruges. Over tid kan du forvente, at vores Instant-modeller og Thinking-modeller udvikler sig i forskellige tempi.
GPT‑5.4 i Codex inkluderer eksperimentel support til 1M-kontekstvinduet. Udviklere kan prøve dette ved at konfigurere model_context_window og model_auto_compact_token_limit. Anmodninger, der overskrider det standardmæssige kontekstvindue på 272K, tæller med i forbrugsgrænserne med 2x den normale takst.
I API'en er GPT‑5.4 prissat højere pr. token end GPT‑5.2 for at afspejle dens forbedrede kapaciteter, mens dens større token-effektivitet hjælper med at reducere det samlede antal tokens, der kræves til mange opgaver. Priser for Batch og Flex er tilgængelige til halvdelen af standardprisen for API'en, mens prioritetsbehandling er tilgængelig til det dobbelte af standardprisen for API'en.
API-model | Inputpris | Pris for cachelagret input | Outputpris |
gpt-5.2 | $1.75 pr. M tokens | $0,175 pr. M tokens | $14 pr. M tokens |
gpt-5.4 | $2,50 pr. M tokens | $0,25 pr. M tokens | $15 pr. M tokens |
gpt-5.2-pro | $21 pr. M tokens | - | $168 pr. M tokens |
gpt-5.4-pro | $30 pr. M tokens | - | $180 pr. M tokens |
Professionel
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83,0 % | 82,0 % | 70,9 % | 70,9 % | 74,1 % |
FinanceAgent v1.1 | 56,0 % | 61,5 % | 54,0 % | 59,5 % | — |
Opgaver inden for investeringsbankmodellering (intern) | 87,3 % | 83,6 % | 79,3 % | 68,4 % | 71,7 % |
OfficeQA | 68,1 % | — | 65,1 % | 63,1 % | — |
Kodning
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (offentlig) | 57,7 % | — | 56,8 % | 55,6 % | — |
Terminal-Bench 2.0 | 75,1 % | — | 77,3 % | 62,2 % | — |
Brug af computer og syn
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-Verified | 75,0 % | — | 74,0 % | 47,3 % | — |
MMMU Pro (ingen værktøjer) | 81,2 % | — | — | 79,5 % | — |
MMMU Pro (med værktøjer) | 82,1 % | — | — | 80,4 % | — |
Brug af værktøjer
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82,7 % | 89,3% | 77,3 % | 65,8 % | 77,9 % |
MCP Atlas | 67,2 % | — | — | 60,6 % | — |
Toolathlon | 54,6 % | — | 51,9 % | 45,7 % | — |
Tau2-bench Telecom | 98,9 % | — | — | 98,7 % | — |
Akademisk
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Banebrydende videnskabelig forskning | 33,0 % | 36,7 % | — | 25,2 % | — |
FrontierMath Niveau 1–3 | 47,6 % | — | — | 40,7 % | — |
FrontierMath Niveau 4 | 27,1 % | 38,0 % | — | 18,8 % | 31,3 % |
GPQA Diamant | 92,8 % | 94,4 % | 92,6 % | 92,4 % | 93,2 % |
Humanity's Last Exam (ingen værktøjer) | 39,8 % | 42,7 % | — | 34,5 % | 36,6 % |
Humanity's Last Exam (med værktøjer) | 52,1 % | 58,7 % | — | 45,5 % | 50,0 % |
Lang kontekst
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93,0 % | — | — | 94,0 % | — |
Graphwalks BFS 256.000-1 mio. | 21,4 % | — | — | — | — |
Graphwalks overordnede 0–128.000 (nøjagtighed) | 89,8 % | — | — | 89,0 % | — |
Graphwalks overordnede 256K–1 mio. (nøjagtighed) | 32,4 % | — | — | — | — |
OpenAI MRCR v2 8-nåls 4K–8K | 97,3 % | — | — | 98,2 % | — |
OpenAI MRCR v2 8-nåls 8K–16K | 91,4 % | — | — | 89,3 % | — |
OpenAI MRCR v2 8-nåls 16K–32K | 97,2 % | — | — | 95,3 % | — |
OpenAI MRCR v2 8-nåls 32K–64K | 90,5 % | — | — | 92,0 % | — |
OpenAI MRCR v2 8-nåls 64K–128K | 86,0 % | — | — | 85,6 % | — |
OpenAI MRCR v2 8-nåls 128K–256K | 79,3 % | — | — | 77,0 % | — |
OpenAI MRCR v2 8-nåls 256K–512K | 57,5 % | — | — | — | — |
OpenAI MRCR v2 8-nåls 512K–1M | 36,6 % | — | — | — | — |
Abstrakt tænkning
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (Verificeret) | 93,7 % | 94,5 % | — | 86,2 % | 90,5 % |
ARC-AGI-2 (verificeret) | 73,3 % | 83,3 % | — | 52,9 % | 54,2 % (høj) |
Evalueringer uden ræsonnering
Eval | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (normaliseret redigeringsafstand) | 0,109 | 0,140 | — |
Tau2-bench Telecom | 64,3 % | 57,2 % | 43,6 % |
Der blev kørt evalueringer med ræsonnering sat til xhigh, undtagen hvor andet er angivet. Benchmarktests blev udført i et forskningsmiljø, hvilket i nogle tilfælde kan give output, der adskiller sig en smule fra ChatGPT‑produktionen.
Skrevet af
Fodnoter
1 Menneskelig præstation rapporteret i OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(åbner i et nyt vindue).


