11 december 2025

Introductie van GPT‑5.2

Het meest geavanceerde model voor professioneel werk en langlopende agent-taken.

Bezig met laden...

We introduceren GPT‑5.2, de meest capabele serie modellen voor professioneel kenniswerk.

De gemiddelde ChatGPT Enterprise-gebruiker zegt dat⁠ AI hen 40 á 60 minuten per dag bespaart, en intensieve gebruikers zeggen dat het hen meer dan 10 uur per week bespaart. We hebben GPT‑5.2 ontworpen om nog meer economische waarde voor mensen te ontsluiten; het is beter in het maken van spreadsheets, het bouwen van presentaties, het schrijven van code, het waarnemen van afbeeldingen, het begrijpen van lange contexten, het gebruiken van tools en het omgaan met complexe projecten die meerdere stappen vereisen.

GPT‑5.2 zet een nieuwe standaard op veel benchmarks, waaronder GDPval, waar het beter presteert dan veel professionals bij goed gespecificeerde kenniswerktaken die 44 beroepen omvatten.

	GPT‑5.2 Thinking	GPT‑5.1 Thinking
GDPval (wins of ties) ^{kenniswerktaken}	70,9%	38,8% (GPT‑5)
SWE-Bench Pro (public) ^{Softwareontwikkeling}	55,6%	50,8%
SWE-bench geverifieerd ^{Software-ontwikkeling}	80,0%	76,3%
GPQA Diamond (geen tools) ^{Wetenschappelijke vragen}	92,4%	88,1%
CharXiv Reasoning (met Python) ^{Wetenschappelijke figuurvragen}	88,7%	80,3%
HMMT (februari 2025) ^{Wiskundetoernooi}	99,4%	96,3%
FrontierMath (Niveau 1–3) ^{Geavanceerde wiskunde}	40,3%	31,0%
ARC-AGI-1 (Verified) ^{Abstract redeneren}	86,2%	72,8%
ARC-AGI-2 (Verified) ^{Abstract redeneren}	52,9%	17,6%

GPT‑5.2 Instant, Thinking en Pro zijn vanaf vandaag beschikbaar in ChatGPT, eerst voor betaalde plannen. In de API zijn ze nu beschikbaar voor alle ontwikkelaars.

GPT‑5.2 biedt aanzienlijke verbeteringen in algemene intelligentie, begrip van lange contextvensters, agent-gestuurd toolgebruik en beeldverwerking, waardoor het beter dan eerdere modellen complexe, realistische taken van begin tot eind kan uitvoeren.

Modelprestaties

Economisch waardevolle taken

GPT‑5.2 Thinking is het beste model tot nu toe voor professioneel gebruik in werkomgevingen. Op GDPval⁠, een evaluatie die goed gespecificeerde kenniswerktaken meet over 44 beroepen, zet GPT‑5.2 Thinking een nieuwe topscore. Het is ons eerste model dat op of boven het niveau van menselijke experts presteert. GPT‑5.2 Thinking verslaat of evenaart toonaangevende professionals in 70,9% van de kennisintensieve taken in GDPval, volgens beoordelingen door experts. Deze taken omvatten het maken van presentaties, spreadsheets en andere documenten. GPT‑5.2 Thinking produceerde resultaten voor GDPval-taken met meer dan 11x de snelheid en minder dan 1% van de kosten van deskundige professionals, wat suggereert dat GPT‑5.2, in combinatie met menselijk toezicht, kan helpen bij professioneel werk. Snelheids- en kostenramingen zijn gebaseerd op historische gegevens; de snelheid in ChatGPT kan variëren.

In GDPval proberen modellen goed gespecificeerd kenniswerk uit te voeren dat 44 beroepen omvat uit de top 9 industrieën die bijdragen aan het BNP van de VS. Taken vragen om echte werkproducten, zoals sales-presentaties, boekhoudspreadsheets, roosters voor spoedeisende zorg, productiediagrammen of korte video's. In ChatGPT heeft ChatGPT‑5.2 Thinking nieuwe tools die GPT‑5 Thinking niet heeft.

Bij het beoordelen van een bijzonder goed resultaat merkte een GDPval-beoordelaar op: "Het is een spannende en opvallende sprong in de outputkwaliteit... [het] lijkt te zijn gemaakt door een professioneel bedrijf en heeft een verrassend goed ontworpen lay-out, met advies voor beide deliverables, hoewel we bij één nog enkele kleine fouten moesten corrigeren."

Daarnaast scoort GPT‑5.2 bijzonder goed op onze interne benchmark voor spreadsheetwerk van junior investment-bankinganalisten, zoals het opzetten van een three-statement model voor een Fortune 500-bedrijf met correcte opmaak en bronverwijzingen of het bouwen van een leveraged-buyoutmodel voor een overname. De gemiddelde score van GPT 5.2 is 9.3% hoger dan die van GPT 5.1, waardoor die van 59,1% naar 68,4% is gestegen.

Vergelijkingen naast elkaar tonen verbeterde nuance en opmaak in spreadsheets en slides gegenereerd door GPT‑5.2 Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Prompt: Maak een personeelsplanningsmodel: personeelsbestand, wervingsplan, verloop en budgetimpact. Neem de engineering-, marketing-, juridische en verkoopafdelingen op.

Om de nieuwe spreadsheet- en presentatiecapaciteiten in ChatGPT te gebruiken, moet je een betaald plan hebben en kiezen voor GPT‑5.2 Thinking of Pro. Complexe generaties kunnen vele minuten duren.

Programmeren

GPT‑5.2 Thinking zet een nieuwe standaard van 55,6% op SWE-bench Pro, een rigoureuze evaluatie van software-engineering in de praktijk. In tegenstelling tot SWE-bench Verified, dat alleen Python test, test SWE-bench Pro vier programmeertalen en is bedoeld om meer contaminatiebestendig, uitdagend, divers en industrieel relevant te zijn.

In SWE-bench Pro⁠(opent in een nieuw venster)⁠⁠⁠, krijgt een model een coderepository en moet het een patch genereren om een realistische software-engineeringtaak op te lossen.

Op SWE-bench Verified (not plotted), behaalt GPT‑5.2 Thinking onze topscore van 80%.

Voor dagelijks professioneel gebruik vertaalt dit zich in een model dat betrouwbaarder fouten kan oplossen in productiecode, nieuwe features kan implementeren, grote codebases kan refactoren en end-to-end fixes kan leveren, met minder handmatig werk.

GPT‑5.2 Thinking is ook beter in front-end software engineering dan GPT‑5.1 Thinking. Vroege testers vonden het aanzienlijk sterker in front-end ontwikkeling en complex of ongebruikelijk UI-werk, vooral met betrekking tot 3D-elementen, waardoor het een krachtige dagelijkse partner is voor ontwikkelaars in de gehele stack. Bekijk enkele voorbeelden van wat het kan produceren uit een enkele prompt:

Prompt:Maak een single-page app in een enkel HTML-bestand met de volgende vereisten: - Naam: Ocean Wave Simulation - Doel: Realistische geanimeerde golven weergeven. - Functies: Windsnelheid, golfhoogte en verlichting aanpassen. - De UI moet kalmerend en realistisch zijn.

Vroege testers deelden hun feedback over GPT‑5.2 en hoe het presteert in programmeertaken.

"GPT-5.2 vertegenwoordigt de grootste sprong voor GPT-modellen in agentic programmeren sinds GPT-5 en is een 'state of the art'-model in zijn prijsklasse. De versie-update doet de sprong in intelligentie tekort. We zijn enthousiast om het de standaard te maken in Windsurf en verschillende kernworkloads van Devin."

Jeff Wang, CEO van Windsurf

Feitelijkheid

GPT‑5.2 Thinking hallucineert minder dan GPT‑5.1 Thinking. Bij een reeks niet-herleidbare vragen van ChatGPT kwamen antwoorden met fouten 38%_rel minder vaak voor. Voor professionals betekent dit minder fouten bij het gebruik van het model voor onderzoek, schrijven, analyse en ondersteuning bij besluitvorming, waardoor het model betrouwbaarder wordt voor dagelijks kenniswerk.

De redeneerinspanning werd op het maximaal beschikbare niveau ingesteld en een zoektool werd ingeschakeld. Fouten werden gedetecteerd door andere modellen, die zelf ook fouten kunnen maken. Foutpercentages op claimniveau zijn veel lager dan die op reactieniveau, omdat de meeste reacties veel claims bevatten.

Zoals alle modellen is GPT‑5.2 Thinking niet perfect. Voor alles wat cruciaal is moeten antwoorden worden gecontroleerd.

Lange context

GPT‑5.2 Thinking zet een nieuwe standaard in redeneren met een groot contextvenster en behaalt toonaangevende prestaties op OpenAI MRCRv2, een evaluatie die het vermogen van een model test om informatie te integreren die verspreid is over lange documenten. Bij praktische taken zoals diepgaande documentanalyse, die gerelateerde informatie over honderdduizenden tokens vereisen, is GPT‑5.2 Thinking aanzienlijk nauwkeuriger dan GPT‑5.1 Thinking. In het bijzonder is dit, voor zover wij weten, het eerste model dat bijna 100% nauwkeurigheid behaalt op de 4-needle MRCR-variant (tot 256k tokens).

In praktische termen stelt dit professionals in staat om GPT‑5.2 te gebruiken voor het werken met lange documenten, zoals rapporten, contracten, onderzoeksartikelen, transcripties en projecten met meerdere bestanden, terwijl samenhang en nauwkeurigheid over honderdduizenden tokens behouden blijven. Dit maakt GPT‑5.2 bijzonder geschikt voor diepgaande analyse, synthese en complexe workflows met meerdere bronnen.

In OpenAI-MRCR⁠⁠(opent in een nieuw venster) v2 (multi-round co-referentieoplossing), worden meerdere identieke 'naald'-gebruikersverzoeken ingevoegd in lange 'hooibergen' van vergelijkbare verzoeken en antwoorden, en wordt het model gevraagd om de respons op de n-de naald te reproduceren. Versie 2 van de evaluatie corrigeert ~5% van de taken die onjuiste grondwaarheidswaarden hadden. De gemiddelde matchratio meet de gemiddelde stringmatchratio tussen de respons van het model en het juiste antwoord. De punten bij 256k maximale invoertokens vertegenwoordigen gemiddelden over 128k–256k invoertokens, enzovoort. Hier staat 256k voor 256 * 1.024 = 262.114 tokens. De redeneringsinspanning was ingesteld op het maximaal beschikbare niveau.

Voor taken die baat hebben bij nadenken buiten het maximale contextvenster, is GPT‑5.2 Thinking compatibel met ons nieuwe Responses /compact -endpoint, dat het effectieve contextvenster van het model uitbreidt. Hiermee kan GPT‑5.2 Thinking meer tool-intensieve, langdurige workflows aanpakken die anders beperkt zouden zijn door de lengte van de context. Lees meer in onze API-documentatie⁠(opent in een nieuw venster).

Visie

GPT‑5.2 Thinking is ons sterkste model voor beeldherkenning tot nu toe, dat de foutpercentages ongeveer halveert bij grafiekredenering en begrip van software-interfaces.

Voor dagelijks professioneel gebruik betekent dit dat het model dashboards, screenshots van producten, technische diagrammen en visuele rapporten nauwkeuriger kan interpreteren: het ondersteunt workflows in financiën, bedrijfsprocessen, engineering, ontwerp en klantondersteuning waar visuele informatie centraal staat.

In CharXiv Reasoning⁠(opent in een nieuw venster) beantwoorden modellen vragen over visuele grafieken uit wetenschappelijke artikelen. Een Python-tool werd ingeschakeld en de redeneerinspanning werd op het maximum gezet.

In ScreenSpot-Pro⁠(opent in een nieuw venster) moeten modellen redeneren over screenshots in hoge resolutie van grafische gebruikersinterfaces uit verschillende professionele omgevingen. Een Python-tool is ingeschakeld en de redeneringsinspanning is op maximaal gezet. Zonder de Python-tool zijn de scores veel lager. We raden aan de Python-tool in te schakelen voor visuele taken zoals deze.

Vergeleken met eerdere modellen heeft GPT‑5.2 Thinking een sterker begrip van hoe elementen binnen een afbeelding zijn gepositioneerd, wat helpt bij taken waarbij de relatieve indeling een sleutelrol speelt bij het oplossen van een probleem. In het onderstaande voorbeeld vragen we het model om elementen in een afbeeldinginput (in dit geval een moederbord) te identificeren en labels met geschatte begrenzingskaders te maken. Zelfs op een afbeelding van lage kwaliteit identificeert GPT‑5.2 de belangrijkste regio's en plaatst kaders die ruwweg overeenkomen met de werkelijke locaties van elk onderdeel, terwijl GPT‑5.1 slechts enkele delen labelt en een veel zwakker begrip van hun ruimtelijke ordening toont.

GPT‑5.1

GPT‑5.2

Tool-aanroepen

GPT‑5.2 Thinking behaalt een nieuwe score van 98,7% op de Tau2-bench Telecom, waarmee het zijn vermogen aantoont om betrouwbaar tools te gebruiken bij lange, meerstapse taken.

Voor latentiegevoelige gebruikssituaties is GPT‑5.2 Thinking ook veel beter met de optie "reasoning.effort='none'", waar het substantieel beter presteert dan GPT‑5.1 en GPT‑4.1.

In τ2-bench⁠⁠(opent in een nieuw venster) gebruiken modellen tools om taken voor ondersteuning van klanten uit te voeren in een multi-turn interactie met een gesimuleerde gebruiker. Voor het Telecom-domein hebben we een korte, algemeen nuttige instructie in de Prompt opgenomen om de prestaties te verbeteren. We sluiten de Airline-subset uit vanwege de lagere kwaliteit van de grondwaarheidbeoordeling.

Voor professionals vertaalt dit zich in sterkere end-to-end workflows, zoals het oplossen van customer support-gevallen, het ophalen van gegevens uit meerdere systemen, het uitvoeren van analyses en het genereren van eindresultaten met minder onderbrekingen tussen de stappen.

Wanneer je bijvoorbeeld een complexe customer service-vraag stelt die meerdere stappen vereist om tot een oplossing te komen, kan het model effectiever een volledige workflow coördineren over meerdere agents. In het onderstaande geval meldt een reiziger een vertraagde vlucht, een gemiste aansluiting, een overnachting in New York en een medische zitplaatsvereiste. GPT‑5.2 beheert de hele keten van taken, omboeken, speciale assistentie om een zitplaats te zoeken, en compensatie, en levert een completer resultaat dan GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1

GPT‑5.2

Wetenschap & wiskunde

Een van onze verwachtingen voor AI is dat het wetenschappelijk onderzoek zal versnellen ten behoeve van iedereen. Hiervoor hebben we samengewerkt met en geluisterd naar wetenschappers om te zien hoe AI hun werk kan versnellen, en vorige maand hebben we enkele vroege samenwerkingsproeven hier⁠ gedeeld.

We zijn ervan overtuigd dat GPT‑5.2 Pro en GPT‑5.2 Thinking de beste modellen zijn om wetenschappers sneller en efficiënter te laten werken. Op GPQA Diamond, een Q&A-benchmark op universiteitsniveau, behaalt GPT‑5.2 Pro een score van 93,2%, gevolgd door GPT‑5.2 Thinking, dat een score van 92,4% neerzet.

In GPQA Diamond⁠(opent in een nieuw venster) beantwoorden modellen meerkeuzevragen over natuurkunde, scheikunde en biologie. Er zijn geen hulpmiddelen ingeschakeld en de redeneringsinspanning is op maximaal ingesteld.

Op FrontierMath (Tier 1–3), een evaluatie van wiskunde op expertniveau, zette GPT‑5.2 Thinking een nieuwe standaard, door 40,3% van de problemen op te lossen.

In FrontierMath⁠(opent in een nieuw venster) lossen modellen wiskundeproblemen op expertniveau op. Een Python-tool is ingeschakeld en de redeneringsinspanning is op maximaal gezet.

We beginnen te zien dat AI-modellen op een betekenisvolle manier de vooruitgang in wiskunde en wetenschap versnellen. Bijvoorbeeld, in recent werk⁠ met GPT‑5.2 Pro, onderzochten wetenschappers een open vraag in de statistische leertheorie. In een nauwe, goed gespecificeerde setting stelde het model een bewijs voor dat vervolgens door de auteurs werd geverifieerd en met externe experts werd beoordeeld, wat illustreert hoe topmodellen kunnen bijdragen aan wiskundig onderzoek onder nauwlettend menselijk toezicht.

ARC-AGI 2

Op ARC-AGI-1 (Verified), een benchmark ontworpen om het algemene redeneervermogen te meten, is GPT‑5.2 het eerste model dat de 90%-drempel overschrijdt, een verbetering ten opzichte van de score van 87% die o3‑preview vorig jaar neerzette, terwijl de kosten om die prestatie te bereiken ongeveer 390 keer lager zijn.

Op ARC-AGI-2 (Verified), dat de moeilijkheidsgraad verhoogt en het vloeiend redeneren beter isoleert, zet GPT‑5.2 Thinking een nieuwe standaard voor chain-of-thought-modellen, met een score van 52,9%. GPT‑5.2 Pro presteert zelfs nog beter en bereikt een score van 54,2%, waardoor het vermogen van het model om door nieuwe, abstracte problemen te redeneren verder wordt vergroot.

Verbeteringen in deze evaluaties weerspiegelen GPT‑5.2's sterkere meerstapsredenering, grotere kwantitatieve nauwkeurigheid en betrouwbaardere probleemoplossing bij complexe technische taken.

Dit is wat onze vroege testers zeggen over GPT‑5.2:

"GPT-5.2 ontketende een volledige verschuiving in de architectuur van onze systemen. We hebben een fragiel systeem met meerdere agents samengevoegd tot één enkele mega-agent met meer dan 20 tools. Het beste is dat het gewoonweg werkt. De mega-agent is sneller, slimmer en véél makkelijker te onderhouden. We zien een dramatisch lagere latentie, veel sterkere toolaanroepen, en we hebben geen uitgebreide systeemprompts meer nodig omdat 5.2 eenvoudig kan worden ingezet met één simpele, eenregelige prompt. Het voelt als pure magie."

AJ Orbach, CEO van Triple Whale

GPT‑5.2 in ChatGPT

In ChatGPT zullen gebruikers merken dat GPT‑5.2 beter aanvoelt voor dagelijks gebruik: meer gestructureerd, betrouwbaarder en nog steeds prettig om mee te praten.

GPT‑5.2 Instant is een snelle, capabele alleskunner voor dagelijks werk en leren, met duidelijke verbeteringen in het opzoeken en uitleggen van informatie, technisch schrijven, en vertalen. Het bouwt voort op de warmere gesprekstoon die werd geïntroduceerd in GPT‑5.1 Instant. Vroege testers merkten vooral de duidelijkere uitleg op die belangrijke informatie helder aan het licht brengt.

GPT‑5.2 Thinking is ontworpen voor diepgaander werk, waardoor gebruikers complexere taken met meer verfijning kunnen aanpakken, vooral bij het programmeren, samenvatten van lange documenten, beantwoorden van vragen over geüploade bestanden, stapsgewijs doorlopen van wiskunde en logica, en het helpen plannen en beslissingen nemen met een duidelijke structuur en nuttige verhelderingen.

GPT‑5.2 Pro is onze slimste en meest betrouwbare optie voor moeilijke vragen waarbij een antwoord van hogere kwaliteit het wachten waard is. Vroege tests laten zien dat het minder grote fouten maakt en betere prestaties levert in complexe domeinen zoals softwareontwikkeling.

Veiligheid

GPT‑5.2 bouwt voort op het onderzoek naar veilige voltooiing⁠ dat we introduceerden met GPT‑5, dat het model leert om het meest nuttige antwoord te geven terwijl het binnen de veiligheidsgrenzen blijft.

Met deze release hebben we ons werk voortgezet om de reacties van onze modellen in gevoelige gesprekken te versterken⁠, met betekenisvolle verbeteringen in hoe ze reageren op prompts die tekenen van zelfmoord of zelfbeschadiging, psychische nood of emotionele afhankelijkheid van het model aangeven. Deze gerichte interventies hebben geleid tot minder ongewenste reacties in zowel GPT‑5.2 Instant en GPT‑5.2 Thinking in vergelijking met GPT‑5.1 en de GPT‑5 Instant- en Thinking-modellen. Meer details vind je in de systeemkaart⁠.

We zijn ook begonnen met een beperkte uitrol van ons model voor leeftijdsschatting⁠ zodat we automatisch beter bescherming kunnen bieden voor gebruikers die jonger dan 18 jaar zijn, door de toegang tot gevoelige inhoud te beperken. Dit bouwt voort op onze bestaande aanpak voor gebruikers waarvan we weten dat ze jonger zijn dan 18 jaar, en op ons beleid voor ouderlijk toezicht.

GPT‑5.2 is een stap in een voortdurende reeks van verbeteringen, en we zijn nog lang niet klaar. Hoewel deze release duidelijke verbeteringen in intelligentie en productiviteit biedt, weten we dat er gebieden zijn waar mensen meer willen. Bij ChatGPT werken we aan bekende problemen zoals overmatige weigeringen, terwijl we de lat voor veiligheid en betrouwbaarheid in het algemeen blijven verhogen. Deze veranderingen zijn complex, en we richten ons erop om dit met beleid te doen.

Evaluaties van geestelijke gezondheid

	GPT‑5.2 Instant	GPT‑5.1 Instant	GPT‑5.2 Thinking	GPT‑5.1 Thinking
Geestelijke gezondheid	0,995	0,883	0,915	0,684
Emotionele afhankelijkheid	0,938	0,945	0,955	0,785
Zelfbeschadiging	0,938	0,925	0,963	0,937

Beschikbaarheid & prijzen

In ChatGPT beginnen we vandaag met de uitrol van GPT‑5.2 (Instant, Thinking en Pro), te beginnen met betaalde plannen (Plus, Pro, Go, Business, Enterprise). We implementeren GPT‑5.2 geleidelijk om ChatGPT zo soepel en betrouwbaar mogelijk te houden. Als de nieuwe modellen niet meteen zichtbaar zijn, probeer het dan later opnieuw. In ChatGPT blijft GPT‑5.1 nog drie maanden beschikbaar voor betaalde gebruikers onder de legacy-modellen, waarna we GPT‑5.1 zullen uitfaseren.

Modelbenaming in ChatGPT en in de API

ChatGPT	API
ChatGPT‑5.2 Direct	GPT‑5.2‑chat‑latest
ChatGPT‑5.2 Thinking	GPT‑5.2
ChatGPT‑5.2 Pro	GPT‑5.2 Pro

In ons API-platform is GPT‑5.2 Thinking is vandaag beschikbaar in de Responses API en de Chat Completions-API als gpt-5.2, en GPT‑5.2 Instant als gpt-5.2-chat-latest. GPT‑5.2 Pro is beschikbaar in de Responses API als gpt-5.2-pro. Ontwikkelaars kunnen nu de redeneerparameter instellen in GPT‑5.2 Pro, en zowel GPT‑5.2 Pro als GPT‑5.2 Thinking bieden ondersteuning voor een vijfde redeneerinspanning van 'xhigh', voor taken waarbij kwaliteit het belangrijkst is.

GPT‑5.2 kost $1,75 per 1M invoertokens en $14 per 1M uitvoertokens, met 90% korting op in cache opgeslagen invoer. Uit meerdere agentic evaluaties blijkt dat GPT‑5.2, ondanks de hogere kosten per token, uiteindelijk goedkoper uitvalt om een bepaald kwaliteitsniveau te halen dankzij de hogere token-efficiëntie.

Hoewel de prijzen voor ChatGPT‑abonnementen hetzelfde blijven, is GPT‑5.2 in de API per token hoger geprijsd dan GPT‑5.1 omdat het een capabeler model is. Het is nog steeds goedkoper dan andere hoogwaardige modellen, zodat je het uitvoerig kan blijven gebruiken voor dagelijks werk en kerntoepassingen.

Prijs per miljoen tokens

Model	Invoer	In cache opgeslagen invoer	Uitvoer
gpt-5.2 / gpt-5.2-chat-latest	€1,75	$0,175	€14
gpt-5.2-pro	€21	-	$168
gpt-5.1 / gpt-5.1-chat-latest	$1,25	$0,125	$10
gpt-5-pro	€15	-	$120

We zijn op dit moment niet van plan om GPT‑5.1, GPT‑5, of GPT‑4.1 in de API uit te faseren, en we zullen eventuele plannen voor beëindiging ruim van tevoren aan ontwikkelaars aankondigen. Hoewel we verwachten dat GPT‑5.2 direct goed zal werken in Codex, zijn we van plan om in we in de komende weken een versie van GPT‑5.2 uit te brengen die geoptimaliseerd is voor Codex.

Onze partners

GPT‑5.2 werd gebouwd in samenwerking met onze langdurige partners NVIDIA en Microsoft. Azure-datacenters en NVIDIA GPU's, waaronder H100, H200 en GB200-NVL72, vormen de basis van OpenAI's grootschalige trainingsinfrastructuur, wat aanzienlijke verbeteringen in de intelligentie van onze modellen mogelijk maakt. Deze samenwerking stelt ons in staat om met vertrouwen rekenkracht op te schalen en nieuwe modellen sneller op de markt te brengen.

Bijlage

Gedetailleerde benchmarks

Hieronder rapporteren we uitgebreide benchmarkresultaten voor GPT‑5.2 Thinking, samen met een subset voor GPT‑5.2 Pro.

Professioneel

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
GDPval (ties allowed, wins or ties)	70.9%	74.1%	38.8% (GPT-5)
GDPval (ties allowed, clear wins)	49.8%	60.0%	35.5% (GPT-5)
GDPval (no ties)	61.0%	67.6%	37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)	68.4%	71.7%	59.1%

Programmeren

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
SWE-Bench Pro, Public	55.6%	-	50.8%
SWE-bench Verified	80.0%	-	76.3%
SWE-Lancer, IC Diamond*	74.6%	-	69.7%

Feitelijkheid

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
ChatGPT answers without errors (w/ search)	93.9%	-	91.2%
ChatGPT answers without errors (no search)	88.0%	-	87.3%

Lange context

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k	98.2%	-	65.3%
OpenAI MRCRv2, 8 needles, 8k–16k	89.3%	-	47.8%
OpenAI MRCRv2, 8 needles, 16k–32k	95.3%	-	44.0%
OpenAI MRCRv2, 8 needles, 32k–64k	92.0%	-	37.8%
OpenAI MRCRv2, 8 needles, 64k–128k	85.6%	-	36.0%
OpenAI MRCRv2, 8 needles, 128k–256k	77.0%	-	29.6%
BrowseComp Long Context 128k	92.0%	-	90.0%
BrowseComp Long Context 256k	89.8%	-	89.5%
GraphWalks bfs <128k	94.0%	-	76.8%
Graphwalks parents <128k	89.0%	-	71.5%

Visie

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
CharXiv reasoning (no tools)	82.1%	-	67.0%
CharXiv reasoning (w/ Python)	88.7%	-	80.3%
MMMU Pro (no tools)	79.5%	-	-
MMMU Pro (w/ Python)	80.4%	-	79.0%
Video MMMU (no tools)	85.9%	-	82.9%
Screenspot Pro (w/ Python)	86.3%	-	64.2%

Tool-gebruik

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
Tau2-bench Telecom	98.7%	-	95.6%
Tau2-bench Retail	82.0%	-	77.9%
BrowseComp	65.8%	77.9%	50.8%
Scale MCP-Atlas	60.6%	-	44.5%
Toolathlon	46.3%	-	36.1%

Academisch

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
GPQA Diamond (no tools)	92.4%	93.2%	88.1%
HLE (no tools)	34.5%	36.6%	25.7%
HLE (w/ search, Python)	45.5%	50.0%	42.7%
MMMLU	89.6%	-	89.5%
HMMT, Feb 2025 (no tools)	99.4%	100.0%	96.3%
AIME 2025 (no tools)	100.0%	100.0%	94.0%
FrontierMath Tier 1–3 (w/ Python)	40.3%	-	31.0%
FrontierMath Tier 4 (w/ Python)	14.6%	-	12.5%

Abstract redeneren

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
ARC-AGI-1 (Verified)	86.2%	90.5%	72.8%
ARC-AGI-2 (Verified)	52.9%	54.2% (high)	17.6%

^{Modellen draaiden met de maximaal beschikbare redeneerinspanning in onze API ('xhigh' voor GPT‑5.2 Thinking en Pro, en 'high' voor GPT‑5.1 Thinking), behalve voor de professionele evals, waar GPT‑5.2 Thinking draaide met de maximale 'heavy' redeneerinspanning, die beschikbaar is in ChatGPT Pro. Benchmarks werden uitgevoerd in een research-omgeving, wat in sommige gevallen een iets andere output kan leveren dan de productieversie van ChatGPT.}

^{* Voor SWE-Lancer laten we 40 van de 237 problemen achterwege, omdat deze niet op onze infrastructuur konden draaien.}

2025

Auteur

OpenAI

Andere interessante artikelen

Alles weergeven

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 is nu het voorkeursmodel in Microsoft 365 Copilot

Product9 jul 2026

GPT-5.6: grensverleggende intelligentie die meegroeit met je ambitie

Product9 jul 2026

ChatGPT is nu een partner voor je meest ambitieuze werk

Product9 jul 2026