Update van 24 april 2026: GPT‑5.5 en GPT‑5.5 Pro zijn nu beschikbaar in de API. De systeemkaart is ook bijgewerkt met een beschrijving van de aanvullende beveiligingsmaatregelen die van toepassing zijn.
Vandaag lanceren we GPT‑5.5: ons slimste en meest intuïtieve model tot nu toe, en een volgende stap in hoe we werk op de computer aanpakken.
GPT‑5.5 begrijpt sneller wat je probeert te doen en kan zelf meer van het werk op zich nemen. Het blinkt uit in het schrijven en debuggen van code, online onderzoek doen, data analyseren, documenten en spreadsheets maken, software bedienen en tussen tools schakelen totdat een taak is voltooid. In plaats van elke stap zorgvuldig te beheren, kun je GPT‑5.5 een rommelige taak met meerdere onderdelen geven en erop vertrouwen dat het plant, tools gebruikt, zijn werk controleert, met ambiguïteit omgaat en doorgaat.
De vooruitgang is vooral sterk bij agentic programmeren, computergebruik, kenniswerk en wetenschappelijk onderzoek in een vroeg stadium: gebieden waarin vooruitgang afhangt van het vermogen om context mee te nemen in de redenering en in de loop van de tijd doelgericht actie te ondernemen. GPT‑5.5 biedt deze stap vooruit in intelligentie zonder in te leveren op snelheid: grotere modellen met meer mogelijkheden reageren vaak trager, maar GPT‑5.5 evenaart in de praktijk de latentie per token van GPT‑5.4 en presteert tegelijk op een veel hoger niveau. Het gebruikt ook aanzienlijk minder tokens om dezelfde Codex-taken uit te voeren, waardoor het niet alleen krachtiger maar ook efficiënter is.
We brengen GPT‑5.5 uit met ons sterkste pakket aan beveiligingsmaatregelen tot nu toe, ontworpen om misbruik te beperken en tegelijkertijd toegang voor nuttig gebruik te behouden. We hebben dit model geëvalueerd met ons volledige pakket aan veiligheids- en paraatheidskaders, samengewerkt met interne en externe redteamers, gerichte tests toegevoegd voor geavanceerde cyberbeveiligings- en biologische capaciteiten, en vóór de lancering feedback verzameld over praktijkgerichte use cases van bijna 200 vertrouwde early-accesspartners.
Vandaag wordt GPT‑5.5 uitgerold naar Plus-, Pro-, Business- en Enterprise-gebruikers in ChatGPT en Codex, en GPT‑5.5 Pro wordt uitgerold naar Pro-, Business- en Enterprise-gebruikers in ChatGPT. Voor API-uitrol zijn andere beveiligingsmaatregelen nodig en we werken nauw samen met partners en klanten aan de vereisten op het gebied van veiligheid en beveiliging om deze op grote schaal aan te bieden. We brengen GPT‑5.5 en GPT‑5.5 Pro heel binnenkort naar de API.
GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro | |
Terminal-Bench 2.0 | 82.7% | 75,1% | - | - | 69,4% | 68,5% |
Expert-SWE (Intern) | 73,1% | 68,5% | - | - | - | - |
GDPval (winst of gelijkspel) | 84,9% | 83.0% | 82,3% | 82,0% | 80,3% | 67,3% |
OSWorld-Verified | 78,7% | 75,0% | - | - | 78,0% | - |
Toolathlon | 55,6% | 54,6% | - | - | - | 48,8% |
BrowseComp | 84,4% | 82.7% | 90,1% | 89,3% | 79,3% | 85,9% |
FrontierMath Tier 1–3 | 51,7% | 47,6% | 52,4% | 50,0% | 43,8% | 36,9% |
FrontierMath Tier 4 | 35,4% | 27,1% | 39,6% | 38,0% | 22,9% | 16,7% |
CyberGym | 81,8% | 79,0% | - | - | 73,1% | - |
OpenAI bouwt aan de wereldwijde infrastructuur voor agentisc AI, waardoor mensen en bedrijven over de hele wereld werk kunnen verzetten met AI. Het afgelopen jaar hebben we gezien hoe AI softwareontwikkeling drastisch heeft versneld. Met GPT‑5.5 in Codex en ChatGPT begint diezelfde transformatie zich uit te breiden naar wetenschappelijk onderzoek en het bredere werk dat mensen op computers doen.
In al deze domeinen is GPT‑5.5 niet alleen intelligenter; het werkt ook efficiënter bij het doorwerken van problemen, en bereikt vaak output van hogere kwaliteit met minder tokens en in minder pogingen. Op de Coding Index van Artificial Analysis levert GPT‑5.5 geavanceerde intelligentie tegen de helft van de kosten van concurrerende grensverleggende programmeermodellen.
De Artificial Analysis Intelligence Index(opent in een nieuw venster) is een gewogen gemiddelde van 10 evaluaties, uitgevoerd door een externe partij: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.
GPT‑5.5 is ons sterkste agentic model tot nu toe. Op Terminal-Bench 2.0, dat complexe command line-workflows test waarvoor planning, iteratie en toolcoördinatie nodig zijn, behaalt het een toonaangevende nauwkeurigheid van 82,7%. Op SWE-Bench Pro, dat de oplossing van GitHub-issues in de praktijk evalueert, behaalt het 58,6%, waarbij het in één enkele poging meer taken end-to-end oplost dan eerdere modellen. Op Expert-SWE, onze interne frontier-benchmark voor programmeertaken met een lange doorlooptijd en een geschatte mediane menselijke oplostijd van 20 uur, presteert GPT‑5.5 ook beter dan GPT‑5.4.
In alle drie de evaluaties presteert GPT‑5.5 beter dan GPT‑5.4 terwijl er minder tokens worden gebruikt.
De sterke punten van het model op het gebied van programmeren komen vooral duidelijk naar voren in Codex, waar het softwareontwikkelingswerk kan oppakken dat uiteenloopt van implementatie en refactors tot debugging, testen en validatie. Vroege tests wijzen erop dat GPT‑5.5 beter presteert op de vaardigheden waar echt softwareontwikkelingswerk van afhankelijk is, zoals context behouden in grote systemen, redeneren over onduidelijke fouten, aannames controleren met tools en wijzigingen doorvoeren in de rest van de codebase.
De weergegeven baan gebruikt NASA/JPL Horizons-vectorgegevens voor Orion, de maan en de zon, met aangepaste schaalverhoudingen voor de leesbaarheid.
Prompt: [attached image] Implement this as a new app using webgl and vite using real data from the artemis II mission. Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendering. Ensure it has realistic orbital mechanics.
Naast benchmarks zeiden vroege testers dat GPT‑5.5 een sterker vermogen heeft om de structuur van een systeem te begrijpen: waarom iets faalt, waar de oplossing moet worden doorgevoerd en wat er verder in de codebase zou worden beïnvloed.

"Het eerste model dat ik heb gebruikt en dat echt conceptueel inzicht biedt."
Dan Shipper, oprichter en CEO van Every, omschreef GPT‑5.5 als "het eerste model dat ik heb gebruikt dat echt conceptuele helderheid heeft."
Na de lancering van een app besteedde hij dagen aan het opsporen en verhelpen van een probleem na de lancering, voordat hij een van zijn beste engineers erbij haalde om een deel van het systeem te herschrijven. Om GPT‑5.5 te testen, draaide hij de klok in feite terug: kon het model naar de defecte staat kijken en hetzelfde soort herschrijving produceren waar de ingenieur uiteindelijk voor koos? GPT‑5.4 kon het niet. GPT‑5.5 wel.

"Het voelt echt alsof ik met een hogere intelligentie werk, en dat wekt bijna respect op."
Pietro Schirano, CEO van MagicPath, zag een vergelijkbare grote sprong voorwaarts toen GPT‑5.5 een branch met honderden frontend- en refactorwijzigingen samenvoegde in een main branch die ook aanzienlijk was veranderd, en het werk in één poging binnen ongeveer 20 minuten oploste.
Senior softwareontwikkelaars die het model hebben getest, zeiden dat GPT‑5.5 duidelijk sterker was dan GPT‑5.4 en Claude Opus 4.7 in redenering en autonomie, doordat het problemen vooraf kon signaleren en kon voorspellen welke tests en beoordelingen nodig zouden zijn, zonder dat daar expliciete prompts voor nodig waren. In één geval vroeg een engineer het model om de architectuur van een commentsysteem in een gezamenlijke markdown-editor opnieuw op te zetten en trof bij terugkomst een reeks van 12 diffs aan die bijna klaar was. Anderen gaven aan verrassend weinig implementatiecorrecties te hoeven doen en meer vertrouwen te hebben in de aanpak van GPT‑5.5 dan in die van GPT‑5.4.
Een engineer bij NVIDIA die vroegtijdig toegang had tot het model ging zelfs zo ver om te zeggen: "Toegang verliezen tot GPT‑5.5 voelt alsof er een ledemaat is geamputeerd."
"GPT-5.5 is merkbaar slimmer en volhardender dan GPT-5.4 met betere programmeerprestaties en betrouwbaarder gebruik van tools. Het blijft aanzienlijk langer doorgaan zonder voortijdig te stoppen, wat vooral belangrijk is voor het complexe, langlopende werk dat onze gebruikers aan Cursor delegeren."
Dezelfde sterke punten die GPT‑5.5 zo goed maken in programmeertaken, maken het ook krachtig voor alledaags werk op de computer. Omdat het model de bedoeling van de gebruiker beter begrijpt, kan het zich natuurlijker door de volledige cyclus van kenniswerk bewegen: informatie opzoeken, begrijpen wat belangrijk is, tools gebruiken, de output controleren en ruw materiaal omzetten in iets bruikbaars.
In Codex is GPT‑5.5 beter dan GPT‑5.4 in het genereren van documenten, spreadsheets en slides. Testers van de alfaversie gaven aan dat het beter presteerde dan eerdere modellen bij taken zoals operationeel onderzoek, spreadsheetmodellering en het omzetten van ongestructureerde zakelijke input in concrete plannen. In combinatie met Codex’ vaardigheden voor computergebruik brengt GPT‑5.5 ons dichter bij het gevoel dat het model echt samen met je een computer kan gebruiken: het ziet wat er op het scherm staat, klikt, typt, navigeert door interfaces en schakelt nauwkeurig tussen tools.
Teams bij OpenAI benutten deze voordelen al in echte workflows. Tegenwoordig gebruikt meer dan 85% van het bedrijf wekelijks Codex in verschillende functies, waaronder softwareontwikkeling, finance, communicatie, marketing, datawetenschap en productmanagement. Binnen het communicatieteam gebruikte het team GPT‑5.5 in Codex om gegevens van zes maanden aan aanvragen voor optredens en interviews te analyseren, een beoordelings- en risicokader op te zetten en een geautomatiseerde Slack-agent te valideren, zodat verzoeken met een laag risico automatisch konden worden afgehandeld en verzoeken met een hoger risico nog steeds door mensen werden beoordeeld. Binnen Finance gebruikte het team Codex om 24.771 K-1-belastingformulieren te beoordelen, goed voor in totaal 71.637 pagina’s, met behulp van een workflow waarin persoonsgegevens werden uitgesloten en waardoor het team deze taak twee weken sneller kon afronden dan het jaar ervoor. In het go-to-market-team automatiseerde een medewerker het genereren van wekelijkse bedrijfsrapportages, waarmee 5 tot 10 uur per week werd bespaard.
In ChatGPT biedt GPT‑5.5 Thinking sneller hulp bij complexere vraagstukken, met slimmere en beknoptere antwoorden waarmee je complex werk efficiënter kunt afronden. Het blinkt uit in professionele taken zoals programmeren, onderzoek, informatiesynthese en -analyse, en taken met veel documentatie, vooral in combinatie met plugins.
In GPT‑5.5 Pro zien vroege testers een aanzienlijke sprong voorwaarts in zowel de moeilijkheidsgraad als de kwaliteit van het werk dat ChatGPT aankan, samen met verbeteringen in de latentie die het veel praktischer maken voor veeleisende taken. Vergeleken met GPT‑5.4 Pro vonden testers de antwoorden van GPT‑5.5 Pro aanzienlijk uitgebreider, beter gestructureerd, nauwkeuriger, relevanter en nuttiger, met bijzonder sterke prestaties op het gebied van business, juridische zaken, onderwijs en datawetenschappen.
GPT‑5.5 behaalt state-of-the-art prestaties in meerdere benchmarks die dit soort werk weerspiegelen. Op GDPval, dat het vermogen van agents test om goed gespecificeerd kenniswerk te produceren over 44 beroepen, scoort GPT‑5.5 84,9%. Op OSWorld-Verified, dat meet of een model zelfstandig echte computeromgevingen kan bedienen, behaalt het 78,7%. En op Tau2-bench Telecom, dat complexe klantenserviceworkflows test, haalt het 98,0% zonder prompt tuning. GPT‑5.5 presteert ook sterk op andere benchmarks voor kenniswerk: 60,0% op FinanceAgent, 88,5% op interne modelleringstaken voor investment banking en 54,1% op OfficeQA Pro.
Tau2-bench Telecom werd uitgevoerd zonder prompt tuning (en GPT‑4.1 als user model). GPT‑5.5 begrijpt de bedoeling van de taak beter en is token-efficiënter dan zijn voorgangers.
"GPT-5.5 levert de aanhoudende prestaties die vereist zijn voor uitvoeringsintensief werk. Gebouwd en bediend op NVIDIA GB200 NVL72-systemen stelt het model onze teams in staat end-to-end features te leveren op basis van prompts in natuurlijke taal, de debugtijd terug te brengen van dagen naar uren en weken van experimenteren om te zetten in vooruitgang van de ene op de andere nacht in complexe codebases. Het gaat om meer dan alleen sneller programmeren: het is een nieuwe manier van werken die mensen helpt te werken op een fundamenteel ander tempo."
GPT‑5.5 laat ook verbeteringen zien in wetenschappelijke en technische onderzoeksworkflows, waarvoor meer nodig is dan het beantwoorden van een moeilijke vraag. Onderzoekers moeten een idee verkennen, bewijs verzamelen, aannames toetsen, resultaten interpreteren en bepalen wat ze vervolgens willen proberen. GPT‑5.5 presteert beter gedurende die hele cyclus dan andere modellen.
Op GeneBench(opent in een nieuw venster), een nieuwe benchmark voor meerfasige wetenschappelijke data-analyse in genetica en kwantitatieve biologie, laat GPT‑5.5 duidelijk betere resultaten zien dan GPT‑5.4. Deze vraagstukken vereisen dat modellen redeneren over mogelijk dubbelzinnige of foutieve data met minimale begeleiding, realistische obstakels zoals verborgen confounders of QC-fouten aanpakken en moderne statistische methoden correct implementeren en interpreteren. Dat is des te opvallender omdat deze taken voor wetenschappelijke experts vaak meerdere dagen werk kosten.
Evenzo behaalde GPT‑5.5 op BixBench(opent in een nieuw venster), een benchmark voor bio-informatica en data-analyse in de praktijk, toonaangevende prestaties onder modellen met gepubliceerde scores. De wetenschappelijke capaciteiten van het model zijn nu sterk genoeg om de vooruitgang in baanbrekend biomedisch onderzoek als volwaardige co-wetenschapper merkbaar te versnellen.
In een ander voorbeeld hielp een interne versie van GPT‑5.5 met een aangepast harness bij het ontdekken van een nieuw bewijs(opent in een nieuw venster) over Ramsey-getallen, een van de centrale begrippen in de combinatoriek. Combinatoriek bestudeert hoe discrete objecten samenhangen: grafen, netwerken, verzamelingen en patronen. Ramsey-getallen beschrijven grofweg hoe groot een netwerk moet zijn voordat er gegarandeerd een bepaalde vorm van orde ontstaat. Resultaten op dit gebied zijn zeldzaam en vaak technisch complex. Hier vond GPT‑5.5 een bewijs voor een al lang bestaand asymptotisch resultaat over niet-diagonale Ramsey-getallen, dat later werd geverifieerd in Lean. Dit is een concreet voorbeeld van GPT‑5.5 dat niet alleen code of uitleg levert, maar ook een verrassend en bruikbaar wiskundig argument aandraagt in een fundamenteel onderzoeksgebied.
Vroege testers gebruikten GPT‑5.5 Pro in ChatGPT minder als een tool voor snelle, eenmalige antwoorden en meer als een onderzoekspartner: om manuscripten in meerdere rondes te beoordelen, technische argumenten kritisch te toetsen, analyses voor te stellen en te werken met code, notities en context uit pdf’s. De rode draad is dat GPT‑5.5 onderzoekers beter helpt om van vraag naar experiment en uiteindelijk naar resultaat te komen.
Derya Unutmaz, hoogleraar immunologie en onderzoeker aan het Jackson Laboratory for Genomic Medicine, gebruikte GPT‑5.5 Pro om een dataset met genexpressiegegevens met 62 samples en bijna 28.000 genen te analyseren. Dat leverde een gedetailleerd onderzoeksrapport op dat niet alleen de bevindingen samenvatte, maar ook belangrijke vragen en inzichten aan het licht bracht: werk waarvan hij zei dat het zijn team anders maanden zou hebben gekost.
Bartosz Naskręcki, assistent-professor wiskunde aan de Adam Mickiewicz University in Poznań, Polen, gebruikte GPT‑5.5 in Codex om in 11 minuten vanuit één enkele prompt een app voor algebraïsche meetkunde te bouwen, die de doorsnede van kwadratische oppervlakken visualiseert en de resulterende kromme omzet in een Weierstrass-model.
Later breidde hij de app uit met een stabielere singulariteitsvisualisatie en exacte coëfficiënten die in verder werk kunnen worden hergebruikt. Voor hem is de grotere verandering dat Codex nu kan helpen bij het implementeren van aangepaste workflows voor wiskundige visualisatie en computeralgebra waarvoor voorheen specifieke tools nodig waren. Samen laten deze voorbeelden zien dat GPT‑5.5 de intenties van experts omzet in werkende onderzoekstools en analyses.

Bron: Bartosz Naskręcki(opent in een nieuw venster)
Prompt: # Algebraic geometry surface intersection
Make an app which draws two quadratic surfaces and colors in red the intersection curve. Use computational Riemann-Roch theorem to convert this into Weierstrass curve.
## Main window
Two tinted surfaces with a slightly transparent shading, high quality rendering intersect along a red colored algebraic curve
Rotation with mouses in both directions, full pinch mechanism for zoom, haptic press to show the little menu with sliders for changing the coefficients of each surface; detection via Z-buffor level
## Side right window
Short Weierstrass equation (over Q or quadratic field extension) computed on the go via effective Riemann-Roch theorem formulas
## Ambient mode where all the controls are hidden and the user can admire the beauty of the shapes
## Specs
App is running in the browser, light-weight implementation with full stack newest libraries, portable, deployable
## Docs
Git repo, journal, plan (Markdown files)
"Het is enorm inspirerend om OpenAI’s nieuwe GPT-5.5-model in onze testomgeving te gebruiken, enorme biochemische datasets te laten analyseren om te voorspellen hoe geneesmiddelen bij mensen zullen werken, en vervolgens te zien dat het aanzienlijk beter scoort op onze lastigste benchmarks voor geneesmiddelenontwikkeling. Als OpenAI in dit tempo doorgaat, verandert de basis van geneesmiddelenontwikkeling nog voor het einde van het jaar."
Om GPT‑5.5 te leveren met de latentie van GPT‑5.4 moesten we inferentie heroverwegen als een geïntegreerd systeem, niet als een reeks op zichzelf staande optimalisaties. GPT‑5.5 is mede ontworpen voor, getraind met en wordt ingezet op NVIDIA GB200- en GB300 NVL72-systemen. Codex en GPT‑5.5 speelden een cruciale rol bij het behalen van onze prestatiedoelen. Codex hielp het team sneller van idee naar een implementeerbare oplossing te gaan die getest kon worden, door benaderingen te schetsen, experimenten op te zetten en te helpen bepalen in welke optimalisaties het de moeite waard was verder te investeren. GPT‑5.5 hielp bij het vinden en doorvoeren van belangrijke verbeteringen in de stack zelf. Simpel gezegd hielp het model de infrastructuur waarop het draait te verbeteren.
Een van die verbeteringen betrof load balancing en partitioneringsheuristieken. Vóór GPT‑5.5 verdeelden we verzoeken op een accelerator in een vast aantal segmenten om het werk over de rekenkernen te spreiden, zodat grote en kleine verzoeken op dezelfde GPU konden draaien. Een vooraf bepaald aantal statische segmenten is echter niet optimaal voor alle gebruikspatronen. Om GPU’s beter te benutten, analyseerde Codex productiepatronen van meerdere weken en schreef het aangepaste heuristische algoritmen om het werk optimaal te partitioneren en te verdelen. Die inspanning had een enorme impact: de snelheid van tokengeneratie nam met meer dan 20% toe.
De wereld voorbereiden op modellen die zeer goed zijn in het vinden en patchen van beveiligingskwetsbaarheden is een gezamenlijke inspanning. Het hele ecosysteem zal hard moeten werken aan meer weerbaarheid, met brede toegang tot modellen en een iteratieve uitrol richting het volgende tijdperk van cyberverdediging.
Frontier-modellen worden steeds beter in cybersecurity. Die mogelijkheden zullen breed beschikbaar worden en wij geloven dat de beste aanpak is om ervoor te zorgen dat ze kunnen worden ingezet om de cyberverdediging te versnellen en het ecosysteem te versterken.
GPT‑5.5 is een bescheiden maar belangrijke stap richting AI die kan helpen enkele van de grootste uitdagingen ter wereld aan te pakken, zoals cyberbeveiliging. Met GPT‑5.2 hebben we in december proactief de nodige cyberbeveiligingsmaatregelen ingevoerd om mogelijk misbruik van onze modellen voor cyberaanvallen te beperken. Met GPT‑5.5 voeren we nu strengere classifiers in voor potentieel cyberrisico. Sommige gebruikers zullen die in het begin misschien als storend ervaren, terwijl we ze in de loop van de tijd verder ontwikkelen.
We hebben cybersecurity al jarenlang opgenomen als categorie in ons Preparedness Framework(opent in een nieuw venster), terwijl onze modellen stapsgewijs beter zijn geworden. Intussen ontwikkelen en verfijnen we iteratief maatregelen om modellen met substantiële cyberbeveiligingsmogelijkheden op verantwoorde wijze uit te brengen.
- We implementeren toonaangevende beveiligingsmaatregelen voor dit niveau van cybercapaciteit. Vorig jaar introduceerden we voor het eerst cyberspecifieke beveiligingsmaatregelen met GPT‑5.2(opent in een nieuw venster), die we in latere uitrol zijn blijven testen, verfijnen en verder uitbouwen. Voor GPT‑5.5 hebben we strengere controles ontworpen voor activiteiten met een hoger risico, gevoelige cyberverzoeken en extra bescherming tegen herhaald misbruik toegevoegd. Brede toegang wordt mogelijk gemaakt door onze investeringen in modelveiligheid, geverifieerd gebruik en monitoring op ontoelaatbaar gebruik. We werken al maanden samen met externe experts om de robuustheid van deze veiligheidsmaatregelen te ontwikkelen, te testen en verder te verbeteren. Met GPT‑5.5 zorgen we ervoor dat ontwikkelaars hun code eenvoudig kunnen beveiligen, terwijl we strengere controles inbouwen rond de cyberworkflows met het meeste potentieel om door kwaadwillenden te worden misbruikt.
- We breiden de toegang uit om cyberverdediging op elk niveau te versnellen. We maken onze modellen met ruimere cybermogelijkheden beschikbaar via Trusted Access for Cyber, te beginnen met Codex. Daarmee krijgen geverifieerde gebruikers die bij de lancering aan bepaalde vertrouwenscriteria(opent in een nieuw venster) voldoen, uitgebreidere toegang tot de geavanceerde cybersecuritymogelijkheden van GPT‑5.5, met minder beperkingen. Organisaties die verantwoordelijk zijn voor de bescherming van kritieke infrastructuur kunnen toegang aanvragen tot modellen met ruimere cybermogelijkheden, zoals GPT‑5.4‑Cyber, mits zij voldoen aan strikte beveiligingseisen voor het gebruik van deze modellen om hun interne systemen te beveiligen. Zo krijgen meer geverifieerde beveiligingsprofessionals toegang tot krachtigere tools voor legitiem beveiligingswerk, met minder onnodige drempels, zodat belangrijke defensieve mogelijkheden breder beschikbaar worden. Gebruikers kunnen trusted access aanvragen via chatgpt.com/cyber(opent in een nieuw venster) om onnodige weigeringen te verminderen bij het gebruik van GPT‑5.5 voor geverifieerd defensief werk.
- We werken samen met partners binnen de overheid om kritieke infrastructuur voor het publiek te helpen beschermen. Samen onderzoeken we hoe geavanceerde AI bevoegde functionarissen kan ondersteunen bij hun defensieve werk om systemen te beschermen waarop mensen dagelijks vertrouwen: van digitale systemen die belangrijke belastinggegevens beveiligen tot het elektriciteitsnet en de watervoorziening in lokale gemeenschappen.
We behandelen de biologische/chemische en cybersecurity-capaciteiten van GPT‑5.5 als 'High' onder ons Preparedness Framework(opent in een nieuw venster). Hoewel GPT‑5.5 het capaciteitsniveau 'Critical' op het gebied van cyberveiligheid niet bereikte, bleek uit onze evaluaties en tests dat de cybersecurity-capaciteiten ervan een stap vooruit zijn ten opzichte van GPT‑5.4.
Daarnaast heeft GPT‑5.5 vóór de release ons volledige veiligheids- en governanceproces doorlopen, waaronder preparedness-evaluaties, domeinspecifieke tests, gerichte nieuwe evaluaties voor geavanceerde capaciteiten op het gebied van biologie en cyberbeveiliging, en grondige tests met externe experts. We delen meer details in de GPT‑5.5‑ systeemkaart(opent in een nieuw venster).
Dit werk weerspiegelt onze bredere aanpak van AI-weerbaarheid, die volgens ons nodig is naarmate de mogelijkheden van modellen zich verder ontwikkelen. We willen dat krachtige AI beschikbaar is voor de mensen die deze inzetten om systemen, instellingen en het publiek te beschermen. De juiste weg vooruit is trusted access, robuuste waarborgen die meegroeien met de capaciteiten van modellen, en de operationele slagkracht om ernstig misbruik te detecteren en erop te reageren.
Vandaag wordt GPT‑5.5 uitgerold naar Plus-, Pro-, Business- en Enterprise-gebruikers in ChatGPT en Codex, en GPT‑5.5 Pro wordt uitgerold naar Pro-, Business- en Enterprise-gebruikers in ChatGPT. We brengen GPT‑5.5 en GPT‑5.5 Pro heel binnenkort naar de API.
In ChatGPT is GPT‑5.5 Thinking beschikbaar voor Plus-, Pro-, Business- en Enterprise-gebruikers. GPT‑5.5 Pro, ontworpen voor nog moeilijkere vragen en werk dat een hogere nauwkeurigheid vereist, is beschikbaar voor Pro-, Business- en Enterprise-abonnees.
In Codex is GPT‑5.5 beschikbaar voor Plus-, Pro-, Business-, Enterprise-, Edu- en Go-abonnementen met een contextvenster van 400K. GPT‑5.5 is ook beschikbaar in Fast mode, waarbij tokens 1,5x sneller worden gegenereerd tegen 2,5x de kosten.
Voor API-ontwikkelaars zal gpt-5.5 binnenkort beschikbaar zijn in de Responses-API en de Chat Completions-API’s voor $ 5 per 1 miljoen invoertokens en $ 30 per 1 miljoen uitvoertokens, met een contextvenster van 1 miljoen tokens. Batch- en Flex-prijzen zijn beschikbaar tegen de helft van het standaard API-tarief, terwijl prioriteitsverwerking beschikbaar is tegen 2,5 keer het standaardtarief. We zullen gpt-5.5-pro ook via de API uitbrengen, voor een nog hogere nauwkeurigheid, voor $ 30 per 1 miljoen input tokens en $ 180 per 1 miljoen output tokens. Bekijk de prijzenpagina voor alle details.
Hoewel GPT‑5.5 hoger geprijsd is dan GPT‑5.4, het is zowel intelligenter als veel efficiënter met token-gebruik. In Codex hebben we de ervaring zorgvuldig afgestemd, zodat GPT‑5.5 voor de meeste gebruikers betere resultaten levert met minder tokens dan GPT‑5.4, terwijl we tegelijkertijd ruim gebruik blijven bieden voor alle abonnementsniveaus.
Programmeren
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
SWE-Bench Pro (Public) * | 58,6% | 57,7% | - | - | 64,3% | 54,2% |
Terminal-Bench 2.0 | 82.7% | 75,1% | - | - | 69,4% | 68,5% |
Expert-SWE (Intern) | 73,1% | 68,5% | - | - | - | - |
*Labs hebben aanwijzingen voor memorisatie vastgesteld(opent in een nieuw venster) bij deze evaluatie
Professioneel
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GDPval (winst of gelijkspel) | 84,9% | 83.0% | 82,3% | 82,0% | 80,3% | 67,3% |
FinanceAgent v1.1 | 60,0% | 56,0% | - | 61,5% | 64,4% | 59,7% |
Investment banking-modelleringsopdrachten (Intern) | 88,5% | 87,3% | 88,6% | 83,6% | - | - |
OfficeQA Pro | 54,1% | 53,2% | - | - | 43,6% | 18,1% |
Computergebruik en visie
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
OSWorld-Verified | 78,7% | 75,0% | - | - | 78,0% | - |
MMMU Pro (zonder tools) | 81,2% | 81,2% | - | - | - | 80,5% |
MMMU Pro (met tools) | 83,2% | 82,1% | - | - | - | - |
Toolgebruik
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
BrowseComp | 84,4% | 82.7% | 90,1% | 89,3% | 79,3% | 85,9% |
MCP Atlas** | 75,3% | 70,6% | - | - | 79,1% | 78,2% |
Toolathlon | 55,6% | 54,6% | - | - | - | 48,8% |
Tau2-bench Telecom*** | 98,0% | 92,8% | - | - | - | - |
** MCP Atlas: resultaten van Scale AI na de nieuwste update van april 2026.
*** Tau2-bench Telecom: resultaten voor 5.5 en 5.4 met originele prompts, d.w.z. zonder aanpassing van de prompt. Hierin zijn resultaten van andere labs die met aangepaste prompts zijn geëvalueerd niet opgenomen.
Academisch
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GeneBench | 25,0% | 19,0% | 33,2% | 25,6% | - | - |
FrontierMath Tier 1–3 | 51,7% | 47,6% | 52,4% | 50,0% | 43,8% | 36,9% |
FrontierMath Tier 4 | 35,4% | 27,1% | 39,6% | 38,0% | 22,9% | 16,7% |
BixBench | 80,5% | 74,0% | - | - | - | - |
GPQA Diamond | 93,6% | 92,8% | - | 94,4% | 94,2% | 94,3% |
Humanity's Last Exam (zonder tools) | 41,4% | 39,8% | 43,1% | 42,7% | 46,9% | 44,4% |
Humanity's Last Exam (met tools) | 52,2% | 52,1% | 57,2% | 58,7% | 54,7% | 51,4% |
Cyberbeveiliging
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Capture-the-Flag-uitdagingstaken (Intern)**** | 88,1% | 83,7% | - | - | - | - |
CyberGym | 81,8% | 79,0% | - | - | 73,1% | - |
**** Een uitbreiding van de moeilijkste CTF's die in systeemkaarten worden gebruikt, met extra moeilijke uitdagingen.
Lange context
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Graphwalks BFS 256k f1 | 73,7% | 62,5% | - | - | 76,9% | - |
Graphwalks BFS 1mil f1 | 45,4% | 9,4% | - | - | 41,2% (Opus 4.6) | - |
Graphwalks parents 256K f1 | 90,1% | 82,8% | - | - | 93,6% | - |
Graphwalks parents 1 mln f1 | 58,5% | 44,4% | - | - | 72,0% (Opus 4.6) | - |
OpenAI MRCR v2 8-needle 4K-8K | 98,1% | 97,3% | - | - | - | - |
OpenAI MRCR v2 8-needle 8K-16K | 93,0% | 91,4% | - | - | - | - |
OpenAI MRCR v2 8-needle 16K-32K | 96,5% | 97,2% | - | - | - | - |
OpenAI MRCR v2 8-needle 32K-64K | 90,0% | 90,5% | - | - | - | - |
OpenAI MRCR v2 8-needle 64K-128K | 83,1% | 86,0% | - | - | - | - |
OpenAI MRCR v2 8-needle 128K-256K | 87,5% | 79,3% | - | - | 59,2% | - |
OpenAI MRCR v2 8-needle 256K-512K | 81,5% | 57,5% | - | - | - | - |
OpenAI MRCR v2 8-needle 512K-1M | 74,0% | 36,6% | - | - | 32,2% | - |
Abstract redeneren
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
ARC-AGI-1 (Verified) | 95,0% | 93,7% | - | 94,5% | 93,5% | 98,0% |
ARC-AGI-2 (Verified) | 85,0% | 73,3% | - | 83,3% | 75,8% | 77,1% |
Evaluaties van GPT werden uitgevoerd met de redeneerinspanning ingesteld op xhigh en werden uitgevoerd in een research-omgeving, wat in sommige gevallen een iets andere output kan leveren dan de productieversie van ChatGPT.








