5 maart 2026

Maak kennis met GPT‑5.4

Ontworpen voor professioneel werk

Bezig met laden...

Vandaag lanceren we GPT‑5.4 in ChatGPT (als GPT‑5.4 Thinking), de API en Codex. Het is ons meest capabele en efficiënte frontier-model voor professioneel werk. We introduceren ook GPT‑5.4 Pro in ChatGPT en de API, voor mensen die maximale prestaties willen bij complexe taken.

GPT‑5.4 brengt het beste van onze recente vooruitgang op het gebied van redenering, programmeren en agentic workflows samen in één grensverleggend model. Het bevat de toonaangevende programmeermogelijkheden van GPT‑5.3‑Codex⁠ en verbetert tegelijkertijd hoe het model werkt met verschillende tools, softwareomgevingen en professionele taken met spreadsheets, presentaties en documenten. Het resultaat is een model dat complex werk nauwkeurig, effectief en efficiënt gedaan krijgt, en levert waar je om vraagt met minder heen-en-weer.

In ChatGPT, kan GPT‑5.4 Thinking nu vooraf een plan van zijn denkproces geven, zodat je halverwege de reactie de koers kunt bijstellen terwijl het bezig is, en tot een eindresultaat komt dat beter aansluit op wat je nodig hebt, zonder extra turns. GPT‑5.4 Thinking verbetert ook diepgaand onderzoek op het web, met name voor zeer specifieke zoekopdrachten, terwijl het de context beter behoudt bij vragen die langer nadenken vereisen. Samen zorgen deze verbeteringen voor snellere antwoorden van hogere kwaliteit die relevant blijven voor de taak waaraan gewerkt wordt.

In Codex en in de API is GPT‑5.4 het eerste model voor algemeen gebruik dat we hebben uitgebracht met native, state-of-the-art mogelijkheden voor computergebruik, waardoor agents computers kunnen bedienen en complexe workflows kunnen uitvoeren in verschillende applicaties. Het ondersteunt tot 1M tokens aan context, waardoor agents taken kunnen plannen, uitvoeren en verifiëren over lange periodes. GPT‑5.4 verbetert ook hoe modellen werken in grote ecosystemen van tools en connectors met tool search, waardoor agents de juiste tools efficiënter kunnen vinden en gebruiken zonder in te leveren op intelligentie. Tot slot is GPT‑5.4 ons meest token-efficiënte redenerend model tot nu toe, dat aanzienlijk minder tokens gebruikt om problemen op te lossen in vergelijking met GPT‑5.2, wat resulteert in een lager tokengebruik en hogere snelheden.

Samen met vooruitgang in algemene redenering, programmeren en professionele kenniswerkzaamheden maakt GPT‑5.4 betrouwbaardere agents, snellere workflows voor ontwikkelaars en uitvoer van hogere kwaliteit mogelijk in ChatGPT, de API en Codex.

	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2
GDPval (winst of gelijkspel)	83.0%	70,9%	70,9%
SWE-Bench Pro (Public)	57,7%	56,8%	55,6%
OSWorld-Verified	75,0%	74.0%*	47,3%
Toolathlon	54,6%	51.9%	46,3%
BrowseComp	82.7%	77,3%	65,8%

*Eerder gerapporteerd als 64,7%. GPT‑5.3‑Codex behaalt 74,0% met een nieuw geïntroduceerde API-parameter die de oorspronkelijke afbeeldingsresolutie behoudt.

Kenniswerk

Voortbouwend op de redeneringscapaciteiten van GPT‑5.2, levert GPT‑5.4 nog consistentere en meer gepolijste resultaten bij praktijkgerichte taken die ertoe doen voor professionals.

Op GDPval⁠, een evaluatie die het vermogen van agents test om goed gespecificeerd kenniswerk te produceren over 44 beroepen, behaalt GPT‑5.4 een nieuwe state-of-the-art, en evenaart of overtreft het professionals uit de sector in 83.0% van de vergelijkingen, vergeleken met 71.0% voor GPT‑5.2.

In GDPval proberen modellen goed gespecificeerd kenniswerk uit te voeren dat 44 beroepen omvat uit de top 9 industrieën die bijdragen aan het BNP van de VS. Taken vragen om echte werkproducten, zoals sales-presentaties, boekhoudspreadsheets, roosters voor spoedeisende zorg, productiediagrammen of korte video's. Redenering werd ingesteld op xhigh voor GPT‑5.4 en heavy voor GPT‑5.2 (een iets lager niveau in ChatGPT).

“GPT-5.4 is het beste model dat we ooit hebben geprobeerd. Het staat nu bovenaan het klassement op onze APEX-Agents-benchmark, die de prestaties van het model meet voor werk in professionele dienstverlening. Het blinkt uit in het maken van deliverables met een lange horizon, zoals slide decks, financiële modellen en juridische analyses, en levert topprestaties terwijl het sneller draait en tegen lagere kosten dan concurrerende modellen.”

— Brendan Foody, CEO van Mercor

We hebben ons vooral gericht op het verbeteren van GPT‑5.4’s vaardigheid om spreadsheets, presentaties en documenten te maken en te bewerken. In een interne benchmark met spreadsheetmodelleringsopdrachten die typisch door een junior investment-bankinganalist worden uitgevoerd, behaalt GPT‑5.4 een gemiddelde score van 87,5%, tegenover 68,4% voor GPT‑5.2. Bij een set presentatie-evaluatieprompts gaven menselijke beoordelaars 68.0% van de tijd de voorkeur aan presentaties van GPT‑5.4 boven die van GPT‑5.2 vanwege sterkere esthetiek, grotere visuele variatie en effectiever gebruik van beeldgeneratie.

Voorbeeld van spreadsheetuitvoer van GPT-5.2 vergeleken met GPT-5.4, naast elkaar weergegeven

Documenten zijn gegenereerd met redeneringsinspanning ingesteld op xhigh

Je kunt deze mogelijkheden uitproberen in ChatGPT met GPT‑5.4 Thinking of Pro. Als je een Enterprise-klant bent, raden we aan onze onlangs uitgebrachte ChatGPT‑plug‑ins voor Excel en Google Sheets⁠(opent in een nieuw venster) te gebruiken, die ook vandaag zijn gelanceerd. We hebben ook onze spreadsheet-⁠(opent in een nieuw venster) en presentatievaardigheden⁠(opent in een nieuw venster) bijgewerkt die beschikbaar zijn in Codex en de API.

Om GPT‑5.4 beter te maken in praktijkwerk, hebben we verdere vooruitgang geboekt met het verminderen van hallucinaties en fouten. GPT‑5.4 is ons meest betrouwbare model tot nu toe als het om feiten gaat: op een set gedeïdentificeerde prompts waarbij gebruikers feitelijke fouten hadden gemarkeerd, zijn de afzonderlijke claims van GPT‑5.4 33% minder vaak onjuist en bevatten de volledige antwoorden 18% minder vaak fouten dan die van GPT‑5.2.

“GPT-5.4 legt de lat hoger voor documentintensief juridisch werk. Op onze BigLaw Bench-evaluatie behaalde het 91%. Vergeleken met andere modellen is GPT-5.4 momenteel beter in het structureren van complexe transactionele analyses, het behouden van nauwkeurigheid in lange contracten en het leveren van het hoge detailniveau dat juridische professionals nodig hebben.”

— Niko Grupen, Head of Applied Research bij Harvey

Computergebruik en visie

GPT‑5.4 is ons eerste model voor algemene doeleinden met native mogelijkheden voor computergebruik en betekent een grote stap voorwaarts voor zowel ontwikkelaars als agents. Het is het beste model dat momenteel beschikbaar is voor ontwikkelaars die agents bouwen die echte taken voltooien op websites en in softwaresystemen.

We hebben GPT‑5.4 ontworpen om hoge prestaties te leveren bij een breed scala aan computergebruik-workloads. Het blinkt uit in het schrijven van code om computers te bedienen via bibliotheken zoals Playwright, en in het geven van muis- en toetsenbordcommando's als reactie op schermafbeeldingen. Het gedrag is aanstuurbaar via ontwikkelaarsberichten, wat betekent dat ontwikkelaars het gedrag kunnen aanpassen aan specifieke use-cases. Ontwikkelaars kunnen zelfs het veiligheidsgedrag van het model configureren om aan te sluiten bij verschillende niveaus van risicotolerantie door aangepaste bevestigingsbeleidsregels te specificeren.

De prestaties en flexibiliteit van het model komen tot uiting in benchmarks die computergebruik in verschillende omgevingen testen. Op OSWorld-Verified, dat het vermogen van een model meet om via screenshots en toetsenbord-/muisacties door een desktopomgeving te navigeren, behaalt GPT‑5.4 een state-of-the-art 75,0% slagingspercentage, dat GPT‑5.2's 47,3% ruimschoots overtreft, en menselijke prestaties (72,4%)ook.¹

Op WebArena-Verified, dat browsergebruik test, behaalt GPT‑5.4 een toonaangevend 67,3% succespercentage bij gebruik van zowel DOM- als screenshotgestuurde interactie, vergeleken met GPT‑5.2’s 65,4%. Op Online-Mind2Web, dat ook browsergebruik test, behaalt GPT‑5.4 eensuccespercentage van 92.8% met alleen op screenshots gebaseerde observaties, waarmee het de Agent-modus van ChatGPT Atlas, die een succespercentage van 70.9% behaalt, verslaat.

Een tool yield is het moment waarop een assistant wacht op de resultaten van toolaanroepen. Als 3 tools tegelijkertijd worden aangeroepen, gevolgd door nog eens 3 tools die tegelijkertijd worden aangeroepen, dan zou het aantal yields 2 zijn. Tool yields zijn een betere proxy voor latentie dan toolaanroepen, omdat ze de voordelen van parallelisatie weerspiegelen.

GPT‑5.4 interpreteert screenshots van een browserinterface en werkt met UI-elementen via coördinaatgebaseerde clicks om e-mails te verzenden en een agenda-afspraak te plannen.

Het verbeterde computergebruik van GPT‑5.4 bouwt voort op de sterkere visuele waarneming van het model. Op MMMU-Pro, een test voor visueel begrip en redeneren, behaalt GPT‑5.4 een succespercentage van 81,2% zonder tools te gebruiken. Dat is hoger dan GPT‑5.2, dat 79.5% scoorde. Verbeterde visuele perceptie vertaalt zich ook in betere mogelijkheden voor het parsen van documenten. Op OmniDocBench behaalt GPT‑5.4 zonder redeneringsinspanning een gemiddelde foutscore (gemeten als de genormaliseerde bewerkingsafstand tussen de modelvoorspelling en de ground truth) van 0,109, een verbetering ten opzichte van GPT‑5.2’s 0,140.

MMMUPro werd uitgevoerd met redeneringsinspanning ingesteld op xhigh. OmniDocBench werd uitgevoerd met redeneringsinspanning 'none', om prestaties met lage kosten en lage latentie te weerspiegelen.

We verbeteren ook het visuele begrip van detailrijke hoge-resolutieafbeeldingen, waarbij volledige beeldkwaliteit belangrijk is. Vanaf GPT‑5.4 introduceren we een original detailniveau voor afbeeldingsinvoer⁠(opent in een nieuw venster) dat volledige beeldkwaliteit ondersteunt tot 10,24M pixels totaal of een maximale dimensie van 6000 pixels, afhankelijk van welke limiet eerst wordt bereikt. Het detailniveau high voor afbeeldingsinvoer ondersteunt nu tot 2,56M pixels totaal of een maximale dimensie van 2048 pixels. In eerste tests met API-gebruikers zagen we duidelijke verbeteringen in lokalisatievermogen, beeldbegrip en kliknauwkeurigheid bij gebruik van original of high detail.

“In onze evals die computergebruikprestaties meten over ~30K HOA- en onroerendgoedbelastingportalen, behaalde GPT-5.4 een succespercentage van 95% bij de eerste poging en 100% binnen drie pogingen, vergeleken met ~73–79% met eerdere CUA-modellen. Het voltooide ook sessies ~3x sneller terwijl het ~70% minder tokens gebruikte, wat de betrouwbaarheid en kostenefficiëntie op schaal aanzienlijk verbeterde."

— Dod Fraser, CEO van Mainstay

In de API kunnen ontwikkelaars deze mogelijkheden gebruiken met de bijgewerkte computer -tool. Bekijk onze bijgewerkte documentatie⁠(opent in een nieuw venster) voor aanbevolen best practices.

Programmeren

GPT‑5.4 combineert de programmeerkracht van GPT‑5.3‑Codex met sterke mogelijkheden voor kenniswerk en computergebruik. Dat komt vooral tot zijn recht bij langere taken, waarbij het model tools kan gebruiken, kan itereren en werk verder kan uitwerken met minder handmatige tussenkomst. Het evenaart of overtreft GPT‑5.3‑Codex op SWE-Bench Pro, met lagere latentie over het volledige bereik van redeneerinspanning.

We schatten de latentie door te kijken naar het productiegedrag van onze modellen en deze offline te simuleren. De latentieschatting houdt rekening met de duur van toolaanroepen (code-uitvoeringstijd), gesamplede tokens en invoertokens. De latentie in de praktijk kan aanzienlijk variëren en is afhankelijk van veel factoren die niet in onze simulatie zijn vastgelegd. De redeneerinspanning werd getest op alle niveaus van none tot xhigh.

Wanneer ingeschakeld, levert /fast mode in Codex tot 1,5x snellere token-snelheid met GPT‑5.4. Het is hetzelfde model en dezelfde intelligentie, alleen sneller. Dat betekent dat gebruikers programmeertaken, iteraties en debugging kunnen doorlopen zonder hun werkritme te onderbreken. Ontwikkelaars kunnen GPT‑5.4 via de API met dezelfde hoge snelheden gebruiken door prioriteitsverwerking⁠(opent in een nieuw venster) te gebruiken.

In evaluaties en interne tests blijkt dat GPT‑5.4 uitblinkt in complexe frontend-taken, met duidelijk mooiere en functionelere resultaten dan onze eerdere modellen.

Om te laten zien hoe de verbeterde computergebruik- en programmeermogelijkheden van het model samenkomen, introduceren we ook een experimentele Codex-vaardigheid genaamd 'Playwright (Interactive)⁠(opent in een nieuw venster)'. Hiermee kan Codex web- en Electron-apps visueel debuggen; het kan zelfs worden gebruikt om een app te testen die het aan het bouwen is, terwijl het die bouwt.

Pretpark-simulatiegame gemaakt met GPT‑5.4 op basis van één licht gespecificeerde prompt, met Playwright Interactive voor browser-playtesting en beeldgeneratie voor de isometrische assetset. De simulatie omvat op tegels gebaseerde padplaatsing, de bouw van attracties en decor, routevinding van gasten, wachtrijen en attractiecycli, terwijl parkstatistieken zoals geld, aantal gasten, tevredenheid, netheid en waardering stijgen of dalen op basis van hoe de indeling presteert en hoe gasten erop reageren. Playwright werd gebruikt om browser-playtests te automatiseren door het park te bouwen en uit te breiden, paden en attracties te plaatsen en te verwijderen, camer navigatie te controleren en te verifiëren dat gasten, wachtrijen, ritstatussen en UI-metrics gedurende meerdere speelrondes correct werden bijgewerkt.

Prompt: Gebruik $playwright-interactive en $imagegen. Maak een interactieve isometrische pretpark-simulatiegame die ik in de browser kan bouwen en waarin ik kan navigeren. Gebruik imagegen om de overkoepelende visuele visie vast te leggen en de assets van de game te genereren, waaronder attracties, paden, terrein, bomen, water, eetkraampjes, decoraties, gebouwen, pictogrammen en UI-illustraties. De wereld moet samenhangend, gepolijst en visueel rijk aanvoelen, met een premium art direction die goed werkt vanuit een isometrisch perspectief. Laat me paden plaatsen en verwijderen, attracties toevoegen, decor neerzetten en soepel door het park bewegen terwijl ik de activiteit van gasten, de status van attracties en de groei van het park in de gaten kan houden. Voeg geloofwaardige gastbewegingen toe, eenvoudige parkmanagementsystemen zoals geld, netheid, wachtrijen en tevredenheid, en laat de ervaring speels, duidelijk en compleet aanvoelen in plaats van als een ruwe prototype. Geef prioriteit aan charme, leesbaarheid en een sterk gamegevoel boven realisme.

Zorg er bij het playtesten voor dat je een park opbouwt en uitbreidt gedurende meerdere speelrondes, controleer of plaatsing en navigatie soepel werken, bevestig dat gasten reageren op de parkindeling en attracties, en zorg dat de visuals, UI en interacties stabiel en samenhangend aanvoelen.

“Onze engineers vinden GPT-5.4 natuurlijker en assertiever dan eerdere modellen . Het werkt zich door dubbelzinnige problemen heen zonder aan zichzelf te twijfelen, en het is proactief in het paralleliseren van werk om de vaart erin te houden.”

— Lee Robinson, VP of Developer Education bij Cursor

Toolgebruik

Met GPT‑5.4, hebben we aanzienlijk verbeterd hoe modellen met externe tools werken. Agents kunnen nu binnen grotere tool-ecosystemen werken, betrouwbaarder de juiste tools kiezen en meerstapsworkflows voltooien met lagere kosten en latentie.

Tool search

In de API introduceert GPT‑5.4 tool search-functie⁠(opent in een nieuw venster), waarmee modellen efficiënt kunnen werken wanneer ze veel tools ter beschikking hebben.

Voorheen werden, wanneer een model tools kreeg, alle tooldefinities vooraf in de prompt opgenomen. Voor systemen met veel tools kan dit duizenden, of zelfs tienduizenden, tokens aan elk verzoek toevoegen, waardoor de kosten stijgen, reacties vertragen en de context wordt volgepropt met informatie die het model misschien nooit gebruikt.

Met de tool search-functie krijgt GPT‑5.4 in plaats daarvan een lichtgewicht lijst met beschikbare tools, en de mogelijkheid om tools te doorzoeken. Wanneer het model een tool moet gebruiken, kan het de definitie van die tool opzoeken en die op dat moment aan de conversatie toevoegen.

Deze aanpak vermindert drastisch het aantal tokens dat nodig is voor tool-intensieve workflows en behoudt de cache, waardoor verzoeken sneller en goedkoper worden. Het stelt agents ook in staat om betrouwbaar met veel grotere tool-ecosystemen te werken. Voor MCP-servers die mogelijk tienduizenden tokens aan tooldefinities bevatten, kunnen de efficiëntiewinsten aanzienlijk zijn.

Om de efficiëntiewinst aan te tonen, hebben we 250 taken uit Scale’s MCP Atlas⁠(opent in een nieuw venster)-benchmark geëvalueerd, met alle 36 MCP-servers ingeschakeld in twee modi: (1) elke MCP-functie rechtstreeks blootstellen in de modelcontext, en (2) alle MCP-servers achter tool search plaatsen. De configuratie met tool search verminderde het totale tokengebruik met 47% terwijl dezelfde nauwkeurigheid werd behaald.

Tokens zijn gebaseerd op het gemiddelde van 250 taken in de openbare MCP-Atlas-dataset.

Agent-toolaanroepen

GPT‑5.4 verbetert ook toolaanroepen, waardoor het nauwkeuriger en efficiënter wordt bij het bepalen wanneer en hoe tools moeten worden gebruikt tijdens de redenering, met name in de API. Vergeleken met GPT‑5.2 behaalt het een hogere nauwkeurigheid in minder turns op Toolathlon, een benchmark die test hoe goed AI-agents tools en API's uit de praktijk kunnen gebruiken om meerstapse taken te voltooien. Zo moet een agent bijvoorbeeld e-mails lezen, bijlagen met opdrachten eruit halen, ze uploaden, beoordelen en de resultaten in een spreadsheet vastleggen.

Voor latentiegevoelige gebruikssituaties waarbij een redeneringsinspanning van None de voorkeur heeft, laat GPT‑5.4 verdere verbeteringen zien ten opzichte van zijn voorgangers.

In τ2-bench⁠⁠(opent in een nieuw venster) moet een model tools gebruiken om een klantenservicetaak uit te voeren. Daarbij kan een gesimuleerde gebruiker aanwezig zijn die kan communiceren en acties kan uitvoeren die de toestand van de omgeving veranderen. De redenering was ingesteld op None.

Verbeterd zoeken op internet

GPT‑5.4 is beter in agentic webzoekopdrachten. In BrowseComp, een benchmark die meet hoe goed AI-agents het web blijven doorzoeken om moeilijk te vinden informatie op te sporen, scoort GPT‑5.4 17 procentpunten hoger dan GPT‑5.2 en zet GPT‑5.4 Pro een nieuwe standaard van 89.3%.

In de praktijk betekent dit GPT‑5.4 Thinking beter is in het beantwoorden van vragen waarvoor informatie uit veel bronnen op het web moet worden samengebracht. Het kan over meerdere rondes consistenter zoeken om de meest relevante bronnen te identificeren, met name bij 'naald-in-een-hooiberg'-vragen, en deze samenvoegen tot een duidelijk, goed onderbouwd antwoord.

In BrowseComp hebben we een zoekblokkeerlijst gebruikt die websites met benchmarkantwoorden uitsluit van de evaluatie om contaminatie te voorkomen en een eerlijke meting van de prestaties te waarborgen. GPT‑5.4 werd op een latere datum gemeten dan GPT‑5.2, dus scores weerspiegelen veranderingen in het model, ons zoeksysteem en de staat van het internet. GPT‑5.4 is getest met een langere, bijgewerkte blokkeerlijst. Modellen gebruiken de ChatGPT‑zoektool, die kleine verschillen kan hebben ten opzichte van API search.

“GPT-5.4 xhigh is de nieuwe standaard voor meerstaps toolgebruik. Zapier voert enkele van de meest rigoureuze benchmarks voor toolgebruik in de sector uit en test modellen in honderden geavanceerde workflows uit de praktijk. GPT-5.4 klaarde de klus waar eerdere modellen het opgaven; het is het meest volhardende model tot nu toe.”

— Wade, CEO van Zapier

Stuurbaarheid

Op vergelijkbare wijze als Codex zijn aanpak schetst wanneer het aan het werk gaat, zal GPT‑5.4 Thinking in ChatGPT nu zijn werk schetsen met een inleiding voor langere, complexere vragen. Je kunt ook instructies toevoegen of de richting halverwege het antwoord aanpassen. Dit maakt het gemakkelijker om het model precies naar het resultaat te sturen dat je wilt, zonder opnieuw te beginnen of meerdere extra turns nodig te hebben. Deze functie is nu beschikbaar op chatgpt.com⁠(opent in een nieuw venster) en de Android-app, en volgt binnenkort in de iOS-app.

Het model kan ook langer nadenken over moeilijke taken, terwijl het een sterker bewustzijn van eerdere stappen in het gesprek behoudt. Hierdoor kan het langere workflows en complexere prompts verwerken, terwijl de antwoorden gedurende het hele proces samenhangend en relevant blijven.

Deze video is versneld voor illustratieve doeleinden.

Veiligheid

In de afgelopen maanden hebben we de waarborgen die we met GPT‑5.3‑Codex introduceerden verder verbeterd, terwijl we GPT‑5.4 voorbereiden op de uitrol. Net als GPT‑5.3‑Codex behandelen we GPT‑5.4 als High cybercapaciteit onder ons Preparedness Framework, en we implementeren het met de bijbehorende beschermingsmaatregelen zoals gedocumenteerd in de systeemkaart⁠. Deze omvatten een uitgebreide cybersecuritystack, waaronder monitoringsystemen, vertrouwde toegangscontroles en asynchrone blokkering voor verzoeken met een hoger risico voor klanten op oppervlakken met Zero Data Retention (ZDR, geen gegevensbewaring), naast voortdurende investeringen in het bredere beveiligingsecosysteem.

Omdat cybersecurity-capaciteiten inherent dual-use zijn, kiezen we uit voorzorg voor een voorzichtige aanpak bij de uitrol, terwijl we ons beleid en onze classificatiesystemen blijven afstemmen. Voor bepaalde klanten op ZDR surfaces blijft blokkering op verzoekniveau onderdeel van onze risicobeperkende maatregelen voor cyberrisico's; omdat classifiers nog steeds verbeteren, kunnen er enkele false positives optreden terwijl we deze waarborgen verder blijven verfijnen. Deze updates zijn bedoeld om te verbeteren hoe beveiligingsmaatregelen in de praktijk werken, onder meer door onnodige weigeringen en antwoorden met te veel kanttekeningen te verminderen, terwijl sterke bescherming tegen misbruik behouden blijft.

We hebben ons veiligheidsonderzoek naar de monitorbaarheid van Chain-of-Thought (CoT) voortgezet om beter te begrijpen hoe modellen redeneren en om mogelijk wangedrag te helpen detecteren. Als onderdeel van dit werk introduceren we een nieuwe open-source evaluatie, CoT controllability⁠, die meet of modellen hun redenering opzettelijk kunnen verhullen om monitoring te ontwijken. We hebben geconstateerd dat het vermogen van GPT‑5.4 Thinking’s om zijn CoT te controleren laag is, wat een positieve eigenschap is voor veiligheid en suggereert dat het model niet in staat is zijn redenering te verbergen en dat CoT-monitoring een effectief veiligheidsinstrument blijft.

Beschikbaarheid en prijzen

GPT‑5.4 wordt vandaag geleidelijk uitgerold in ChatGPT en Codex. In de API is GPT‑5.4 nu beschikbaar als gpt-5.4. GPT‑5.4 Pro is ook beschikbaar in de API als gpt-5.4-pro voor ontwikkelaars die maximale prestaties nodig hebben bij de meest complexe taken.

In ChatGPT is GPT‑5.4 Thinking vanaf vandaag beschikbaar voor ChatGPT Plus-, Team- en Pro-gebruikers, ter vervanging van GPT‑5.2 Thinking. GPT‑5.2 Thinking blijft drie maanden beschikbaar voor betalende gebruikers in de modelkiezer onder de sectie Legacy-modellen, waarna het op 5 juni 2026 wordt uitgefaseerd. Gebruikers met Enterprise- en Edu-plannen kunnen vroege toegang inschakelen via beheerdersinstellingen. GPT‑5.4 Pro is beschikbaar voor Pro- en Enterprise-abonnementen. Contextvensters⁠(opent in een nieuw venster) in ChatGPT voor GPT‑5.4 Thinking blijven ongewijzigd ten opzichte van GPT‑5.2 Thinking.

GPT‑5.4 is ons eerste redenerende model in de primaire lijn van modellen dat de grensverleggende programmeermogelijkheden van GPT‑5.3‑codex integreert en wordt uitgerold in ChatGPT, de API en Codex. We noemen het GPT‑5.4 om die sprong te weerspiegelen en om de keuze tussen modellen te vereenvoudigen bij het gebruik van Codex. Na verloop van tijd kun je verwachten dat onze Instant-modellen en Thinking-modellen zich in verschillend tempo ontwikkelen.

GPT‑5.4 in Codex biedt experimentele ondersteuning voor een contextvenster van 1 miljoen tokens. Ontwikkelaars kunnen dit uitproberen door model_context_window en model_auto_compact_token_limit te configureren. Verzoeken die het standaardcontextvenster van 272.000 overschrijden, tellen mee voor de gebruikslimieten tegen 2x het normale tarief.

In de API is GPT‑5.4 per token hoger geprijsd dan GPT‑5.2 om de verbeterde mogelijkheden te weerspiegelen, terwijl de hogere token-efficiëntie helpt om voor veel taken het totale aantal benodigde tokens te verminderen. Batch- en Flex-prijzen zijn beschikbaar tegen de helft van het standaard API-tarief, terwijl prioriteitsverwerking beschikbaar is tegen tweemaal het standaard API-tarief.

API-model	Invoerprijs	Prijs voor in cache opgeslagen invoer	Uitvoerprijs
gpt-5.2	$ 1,75 / M tokens	$ 0,175 / M tokens	$ 14 / miljoen tokens
gpt-5.4	$ 2.50 / M tokens	$ 0.25 / mln. tokens	$ 15 / M tokens
gpt-5.2-pro	$ 21 / mln tokens	-	$ 168 / M tokens
gpt-5.4-pro	$ 30 / miljoen tokens	-	$ 180 / mln tokens

Evaluaties

Professioneel

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
GDPval	83.0%	82,0%	70,9%	70,9%	74,1%
FinanceAgent v1.1	56,0%	61,5%	54,0%	59,5%	-
Investment banking-modelleringsopdrachten (Intern)	87,3%	83,6%	79,3%	68,4%	71,7%
OfficeQA	68,1%	-	65,1%	63.1%	-

Programmeren

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
SWE-Bench Pro (Public)	57,7%	-	56,8%	55,6%	-
Terminal-Bench 2.0	75,1%	-	77,3%	62,2%	-

Computergebruik en visie

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
OSWorld-Verified	75,0%	-	74,0%	47,3%	-
MMMU Pro (zonder tools)	81,2%	-	-	79,5%	-
MMMU Pro (met tools)	82,1%	-	-	80,4%	-

Toolgebruik

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
BrowseComp	82.7%	89,3%	77,3%	65,8%	77,9%
MCP Atlas	67,2%	-	-	60,6%	-
Toolathlon	54,6%	-	51.9%	45,7%	-
Tau2-bench Telecom	98,9%	-	-	98,7%	-

Academisch

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Frontier Science Research	33,0%	36,7%	-	25,2%	-
FrontierMath Tier 1–3	47,6%	-	-	40,7%	-
FrontierMath Tier 4	27,1%	38,0%	-	18,8%	31,3%
GPQA Diamond	92,8%	94,4%	92,6%	92,4%	93,2%
Humanity's Last Exam (zonder tools)	39,8%	42,7%	-	34,5%	36,6%
Humanity's Last Exam (met tools)	52,1%	58,7%	-	45,5%	50,0%

Lange context

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Graphwalks BFS 0K–128K	93,0%	-	-	94,0%	-
Graphwalks BFS 256K–1M	21,4%	-	-	-	-
Graphwalks parents 0–128K (nauwkeurigheid)	89,8%	-	-	89,0%	-
Graphwalks parents 256K–1M (nauwkeurigheid)	32,4%	-	-	-	-
OpenAI MRCR v2 8-needle 4K–8K	97,3%	-	-	98,2%	-
OpenAI MRCR v2 8-needle 8K–16K	91,4%	-	-	89,3%	-
OpenAI MRCR v2 8-needle 16K–32K	97,2%	-	-	95,3%	-
OpenAI MRCR v2 8-needle 32K–64K	90,5%	-	-	92,0%	-
OpenAI MRCR v2 8-needle 64K–128K	86,0%	-	-	85,6%	-
OpenAI MRCR v2 8-needle 128K–256K	79,3%	-	-	77.0%	-
OpenAI MRCR v2 8-needle 256K–512K	57,5%	-	-	-	-
OpenAI MRCR v2 8-needle 512K–1M	36,6%	-	-	-	-

Abstract redeneren

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ARC-AGI-1 (Verified)	93,7%	94,5%	-	86,2%	90,5%
ARC-AGI-2 (Verified)	73,3%	83,3%	-	52,9%	54,2% (high)

Evaluaties zonder redenering

Eval	GPT‑5.4 (none)	GPT‑5.2 (none)	GPT‑4.1
OmniDocBench (genormaliseerde bewerkingsafstand)	0,109	0,140	-
Tau2-bench Telecom	64,3%	57,2%	43,6%

Evaluaties werden uitgevoerd met de redenering ingesteld op xhigh, behalve waar anders aangegeven. Benchmarks werden uitgevoerd in een research-omgeving, wat in sommige gevallen een iets andere output kan leveren dan de productieversie van ChatGPT.