Oppdatering 24. april 2026: GPT‑5.5 og GPT‑5.5 Pro er nå tilgjengelige i API-et. Systemkortet har også blitt oppdatert med en beskrivelse av de ekstra sikkerhetstiltakene som gjelder.
Vi lanserer GPT‑5.5, vår smarteste og mest intuitive modell å bruke så langt, og det neste steget mot en ny måte å få ting gjort på en datamaskin.
GPT‑5.5 forstår hva du prøver å gjøre raskere og kan gjøre mer av arbeidet selv. Den utmerker seg til å skrive kode og utføre feilsøking, gjøre research på nettet, analysere data, lage dokumenter og regneark, bruke programvare og bevege seg på tvers av verktøy til en oppgave er fullført. I stedet for å styre forsiktig hvert trinn, kan du gi GPT‑5.5 en rotete oppgave med flere deler og stole på at den kan planlegge, bruke verktøy, kontrollere arbeidet sitt, navigere gjennom tvetydighet og fortsette.
Gevinstene er spesielt store innen agentisk koding, databruk, kunnskapsarbeid og tidlig vitenskapelig forskning—områder der fremgang avhenger av resonnering på tvers av kontekst og å handle over tid. GPT‑5.5 gir dette løftet i intelligens uten å gå på bekostning av hastigheten: større og mer kapable modeller er ofte tregere å betjene, men GPT‑5.5 matcher GPT‑5.4 i latens per token i produksjon, samtidig som den yter på et langt høyere intelligensnivå. Den bruker også betydelig færre tokens for å fullføre de samme Codex-oppgavene, noe som gjør den både mer effektiv og mer kapabel.
Vi lanserer GPT‑5.5 med vårt sterkeste sett med sikkerhetstiltak til dags dato, utformet for å redusere misbruk samtidig som tilgangen til nyttig arbeid bevares. Vi evaluerte denne modellen på tvers av hele porteføljen vår av sikkerhets- og beredskapsrammeverk, samarbeidet med interne og eksterne red teamere, la til målrettet testing for avanserte kapabiliteter innen cybersikkerhet og biologi, og samlet inn tilbakemeldinger om reelle brukstilfeller fra nesten 200 betrodde partnere med tidlig tilgang før lansering.
I dag rulles GPT‑5.5 ut til Plus-, Pro-, Business- og Enterprise-brukere i ChatGPT og Codex, og GPT‑5.5 Pro rulles ut til Pro-, Business- og Enterprise-brukere i ChatGPT. API-distribusjoner krever andre sikkerhetstiltak, og vi samarbeider tett med partnere og kunder om kravene til trygghet og sikkerhet for å levere dette i stor skala. Vi lanserer GPT‑5.5 og GPT‑5.5 Pro til API-et veldig snart.
GPT‑5.5 | GPT‑5.4 | GPT‑5,5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro | |
Terminal-Bench 2.0 | 82,7 % | 75,1 % | – | – | 69,4 % | 68,5 % |
Expert-SWE (Intern) | 73,1 % | 68,5 % | – | – | – | – |
GDPval (seier eller uavgjort) | 84,9 % | 83,0 % | 82,3 % | 82,0 % | 80,3 % | 67,3 % |
OSWorld-Verified | 78,7 % | 75,0 % | – | – | 78,0 % | – |
Toolathlon | 55,6 % | 54,6 % | – | – | – | 48,8 % |
BrowseComp | 84,4 % | 82,7 % | 90,1 % | 89,3 % | 79,3 % | 85,9 % |
FrontierMath Nivå 1–3 | 51,7 % | 47, 6 % | 52,4 % | 50,0 % | 43,8 % | 36,9 % |
FrontierMath Nivå 4 | 35,4 % | 27,1 % | 39,6 % | 38,0 % | 22,9 % | 16,7 % |
CyberGym | 81,8 % | 79,0 % | – | – | 73,1 % | – |
OpenAI bygger den globale infrastrukturen for agentisk KI og gjør det mulig for folk og bedrifter over hele verden å få utført arbeid ved hjelp av KI. I løpet av det siste året har vi sett at KI akselererer programvareutvikling på en dramatisk måte. Med GPT‑5.5 i Codex og ChatGPT begynner den samme transformasjonen å strekke seg inn i vitenskapelig forskning og det bredere arbeidet folk gjør på datamaskiner.
På tvers av disse områdene er GPT‑5.5 ikke bare smartere; den er også mer effektiv i hvordan den løser problemer, og oppnår ofte resultater av høyere kvalitet med færre tokens og færre forsøk. På Artificial Analysis’ Coding Index leverer GPT‑5.5 toppmoderne intelligens til halve kostnaden av konkurrerende banebrytende kodemodeller.
Artificial Analysis Intelligence Index(åpnes i et nytt vindu) er et vektet gjennomsnitt av 10 evalueringer gjort av en ekstern part: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.
GPT‑5.5 er til dags dato vår sterkeste modell for agentkoding. På Terminal-Bench 2.0, som tester komplekse kommandolinje-arbeidsflyter som krever planlegging, iterasjon og koordinering av verktøy, oppnår den en toppmoderne nøyaktighet på 82,7 %. På SWE-Bench Pro, som evaluerer løsning av GitHub-problemer i den virkelige verden, oppnår den 58,6 % og løser flere oppgaver ende-til-ende i én enkelt gjennomkjøring enn tidligere modeller. På Expert-SWE, vår interne banebrytende evaluering for kodeoppgaver med lang tidshorisont og en estimert median fullføringstid for mennesker på 20 timer, overgår GPT‑5.5 også GPT‑5.4.
På tvers av alle de tre evalueringene forbedrer GPT‑5.5 GPT‑5.4‑ens poengsummer med færre token.
Modellens styrker innen koding kommer spesielt tydelig frem i Codex, der den kan ta på seg ingeniørarbeid som spenner fra implementering og refaktorering til feilsøking, testing og validering. Tidlig testing tyder på at GPT‑5.5 er bedre på atferden som reelt ingeniørarbeid avhenger av, som å holde kontekst på tvers av store systemer, resonnering gjennom tvetydige feil, kontrollere antakelser ved hjelp av verktøy og videreføre endringer gjennom den omkringliggende kodebasen.
Den gjengitte banen bruker NASA/JPL Horizons-vektordata for Orion, Månen og Solen, med visningsskalering brukt for lesbarhet.
Ledetekst: [vedlagt bilde] Implementer dette som en ny app med WebGL og Vite ved hjelp av reelle data fra Artemis II-oppdraget. Sørg for å teste appen grundig til den fungerer fullt ut og ser ut som appen på bildet. Vær nøye med gjengivelsen av planetene og flybanene. Jeg vil kunne samhandle med 3D-gjengivelsen. Sørg for at den har realistisk banemekanikk.
Utover referansetester sa tidlige testere at GPT‑5.5 viser en sterkere evne til å forstå hvordan et system er bygget opp: hvorfor noe feiler, hvor utbedringen må settes inn, og hva annet i kodebasen som ville bli påvirket.

«Den første kodemodellen jeg har brukt som har virkelig konseptuell klarhet.»
Dan Shipper, grunnlegger og administrerende direktør i Every, beskrev GPT‑5.5 som «den første kodemodellen jeg har brukt som har virkelig begrepsmessig klarhet.»
Etter å ha lansert en app brukte han flere dager på å feilsøke et problem etter lansering før han hentet inn en av sine beste ingeniører for å skrive om deler av systemet. For å teste GPT‑5.5 skrudde han i praksis klokken tilbake: kunne modellen se på den ødelagte tilstanden og lage samme type omskriving som ingeniøren til slutt bestemte seg for? GPT‑5.4 kunne ikke. GPT‑5.5 kunne.

«Det føles oppriktig som om jeg jobber med en høyere intelligens, og det medfører nesten en følelse av respekt.»
Pietro Schirano, administrerende direktør i MagicPath, så et lignende sprang da GPT‑5.5 slo sammen en gren med hundrevis av frontend- og refaktoriseringsendringer inn i en hovedgren som også hadde endret seg betydelig, og løste arbeidet i one-shot på rundt 20 minutter.
Erfarne ingeniører som testet modellen, sa at GPT‑5.5 var merkbart sterkere enn GPT‑5.4 og Claude Opus 4.7 på resonnering og autonomi. Den oppdaget problemer på forhånd og forutså behov for testing og gjennomgang uten eksplisitte instrukser. I ett tilfelle ba en ingeniør den om å omstrukturere et kommentarsystem i et samarbeidsbasert markdown-redigeringsprogram og kom tilbake til en nesten ferdig 12-diff stakk. Andre sa at de trengte overraskende lite korrigering av implementeringen og følte seg tryggere på planene til GPT‑5.5 enn til GPT‑5.4.
En ingeniør hos NVIDIA som hadde tidlig tilgang til modellen, gikk så langt som å si: «Når jeg mister tilgangen til GPT‑5.5, føles det som om jeg har fått amputert en kroppsdel.»
«GPT-5.5 er merkbart smartere og mer utholdende enn GPT-5.4, med bedre kodeytelse og mer pålitelig bruk av verktøy. Den holder seg fokusert på oppgaven betydelig lenger uten å stoppe for tidlig, noe som er viktigst for det komplekse, langvarige arbeidet som brukerne våre delegerer til Cursor.»
De samme styrkene som gjør GPT‑5.5 god til å kode, gjør den også kraftig for daglig arbeid på en datamaskin. Fordi modellen er bedre til å forstå intensjon, kan den bevege seg mer naturlig gjennom hele sløyfen i kunnskapsarbeid: finne informasjon, forstå hva som er viktig, bruke verktøy, kontrollere resultatet og gjøre råmateriale om til noe nyttig.
I Codex er GPT‑5.5 bedre enn GPT‑5.4 til å generere dokumenter, regneark og lysbildepresentasjoner. Alfatestere sa at den overgikk tidligere modell på oppgaver som operasjonsanalyse, regnearkmodellering og å gjøre rotete forretningsinndata om til planer. Når dette kombineres med Codex’ ferdigheter i datamaskinbruk, bringer GPT‑5.5 oss nærmere følelsen av at modellen faktisk kan bruke datamaskinen sammen med deg: ser hva som er på skjermen, klikker, skriver, navigerer i grensesnitt og beveger seg mellom verktøy med presisjon.
Teamene i OpenAI bruker allerede disse styrkene i reelle arbeidsflyter. I dag bruker over 85 % av selskapet Codex hver uke på tvers av funksjoner, blant annet programvareutvikling, finans, kommunikasjon, markedsføring, data science og produktledelse. I Comms brukte teamet GPT‑5.5 i Codex til å analysere seks måneders data om taleforespørsler, bygge et rammeverk for poengsetting og risiko og validere en automatisert Slack-agent, slik at forespørsler med lav risiko kunne håndteres automatisk, mens forespørsler med høyere risiko fortsatt rutes til menneskelig gjennomgang. I finans brukte teamet Codex til å gjennomgå 24 771 K-1-skjemaer på til sammen 71 637 sider, ved hjelp av en arbeidsflyt som ekskluderte personopplysninger og gjorde at teamet kunne fullføre oppgaven to uker raskere enn året før. I go-to-market-teamet automatiserte en ansatt arbeidet med å lage ukentlige forretningsrapporter og sparte 5-10 timer i uken.
I ChatGPT gir GPT‑5.5 Thinking deg raskere hjelp med vanskeligere problemer, med smartere og mer konsise svar slik at du kan jobbe deg gjennom komplekse oppgaver mer effektivt. Den utmerker seg til profesjonelt arbeid som koding, research, informasjonssyntese og analyse, og dokumenttunge oppgaver, spesielt ved bruk av plugins.
I GPT‑5.5 Pro ser tidlige testere et betydelig løft i både hvor krevende oppgaver ChatGPT kan ta på seg, og kvaliteten på arbeidet, med forbedringer i latens som gjør det langt mer praktisk for krevende oppgaver. Sammenlignet med GPT‑5.4 Pro, fant testerne at svarene fra GPT‑5.5 Pro var betydelig mer omfattende, bedre strukturert, mer nøyaktige, relevante og nyttige, med særlig sterke resultater innen forretningsliv, jus, utdanning og datavitenskap.
GPT‑5.5 oppnår topp ytelse på tvers av flere referansemålinger som gjenspeiler denne typen arbeid. På GDPval, som tester agenters evne til å produsere velspesifisert kunnskapsarbeid på tvers av 44 yrker, oppnår GPT‑5.5 84,9 %. På OSWorld-Verified, som måler om en modell kan operere i virkelige datamiljøer på egen hånd, oppnår den 78,7 %. Og på Tau2-bench Telecom, som tester komplekse arbeidsflyter innen kundeservice, når den 98,0 % uten justering av ledetekst. GPT‑5.5 presterer også sterkt på andre referansemålinger for kunnskapsarbeid: 60,0 % på FinanceAgent, 88,5 % på interne modelleringsoppgaver innen investeringsbank, og 54,1 % på OfficeQA Pro.
Tau2-bench Telecom ble kjørt uten prompt-justering (og GPT‑4.1 som brukermodell). GPT‑5.5 forstår hensikten med oppgaven bedre og er mer token-effektiv enn forgjengerne sine.
«GPT-5.5 leverer den vedvarende ytelsen som kreves for tungt arbeid. Bygget og levert på NVIDIA GB200 NVL72-systemer gjør modellen det mulig for teamene våre å levere ende-til-ende-funksjoner fra prompt i naturlig språk, redusere feilsøkingstiden fra dager til timer og gjøre ukers eksperimentering om til fremgang over natten i komplekse kodebaser. Det er mer enn raskere koding – det er en ny måte å jobbe på som hjelper folk med å arbeide i et grunnleggende annerledes tempo.»
GPT‑5.5 viser også forbedringer i vitenskapelige og tekniske forskningsarbeidsflyter, som krever mer enn å svare på et vanskelig spørsmål. Forskere må utforske en idé, samle inn bevismateriale, teste antakelser, tolke resultater og avgjøre hva de skal prøve videre. GPT‑5.5 er bedre til å holde seg gjennom den løkken enn andre modell.
Det er særlig verdt å merke seg at GPT‑5.5 viser en tydelig forbedring sammenlignet med GPT‑5.4 på GeneBench(åpnes i et nytt vindu), en ny evaluering med fokus på vitenskapelig dataanalyse i flere trinn innen genetikk og kvantitativ biologi. Disse problemene krever at modeller resonnere om potensielt tvetydige eller feilaktige data med minimal veiledning, håndterer realistiske hindringer som skjulte konfunderende faktorer eller QC-feil, og implementerer og tolker moderne statistiske metoder korrekt. Modellens ytelse er slående sett i lys av at oppgavene her ofte tilsvarer prosjekter som varer i flere dager for vitenskapelige eksperter.
På samme måte oppnådde GPT‑5.5 topp ytelse på BixBench(åpnes i et nytt vindu), en benchmark laget for praktisk bioinformatikk og dataanalyse, blant modeller med publiserte resultater. Modellens vitenskapelige evner er nå sterke nok til å på en meningsfull måte akselerere fremgangen innen de banebrytende områdene av biomedisinsk forskning som en reell medforsker.
I et annet eksempel hjalp en intern versjon av GPT‑5.5 med et tilpasset oppsett til å finne et nytt bevis(åpnes i et nytt vindu) om Ramsey-tall, som er blant de viktigste objektene i kombinatorikk. Kombinatorikk handler om hvordan diskrete objekter passer sammen: grafer, nettverk, mengder og mønstre. Ramsey-tall handler, grovt sagt, om hvor stort et nettverk må være før en eller annen form for orden er garantert å oppstå. Resultater innen dette området er sjeldne og ofte teknisk krevende. Her fant GPT‑5.5 et bevis på et gammelt asymptotisk faktum om ikke-diagonale Ramsey-tall, som senere ble bekreftet i Lean. Resultatet er et konkret eksempel på at GPT‑5.5 ikke bare bidrar med kode eller forklaringer, men også med et overraskende og nyttig matematisk argument i et viktig forskningsområde.
Tidlige testere brukte GPT‑5.5 Pro i ChatGPT mindre som en one-shot-svarmotor og mer som en forskningspartner: de kritiserte manusutkast gjennom flere runder, stresstestet tekniske argumenter, foreslo analyser og jobbet med kode, notater og PDF-kontekst. Den røde tråden er at GPT‑5.5 er bedre til å hjelpe forskere med å gå fra spørsmål til eksperiment til resultat.
Derya Unutmaz, professor og forsker i immunologi ved Jackson Laboratory for Genomic Medicine, brukte GPT‑5.5 Pro til å analysere et genuttrykksdatasett med 62 prøver og nesten 28 000 gener, og laget en detaljert forskningsrapport som ikke bare oppsummerte funnene, men også avdekket viktige spørsmål og innsikter – noe han sa ville tatt teamet hans flere måneder.
Bartosz Naskręcki, førsteamanuensis i matematikk ved Adam Mickiewicz University i Poznań i Polen, brukte GPT‑5.5 i Codex til å bygge en app for algebraisk geometri fra én enkelt prompt på 11 minutter, for å visualisere skjæringen mellom kvadratiske flater og konvertere den resulterende kurven til en Weierstrass-modell.
Han utvidet senere appen med mer stabil singularitetsvisualisering og eksakte koeffisienter som kan gjenbrukes i videre arbeid. For ham er det største skiftet at Codex nå kan hjelpe med å lage egendefinerte arbeidsflyter for matematisk visualisering og datamaskinalgebra som tidligere krevde egne verktøy. Samlet sett viser disse eksemplene hvordan GPT‑5.5 omsetter ekspertintensjoner til fungerende forskningsverktøy og analyser.

Foto: Bartosz Naskręcki(åpnes i et nytt vindu)
Ledetekst: # flateskjæring i algebraisk geometri
Lag en app som tegner to kvadratiske flater og fargelegger skjæringskurven i rødt. Bruk det beregningsmessige Riemann-Roch-teoremet til å konvertere dette til en Weierstrass-kurve.
## Hovedvindu
To fargede flater med lett transparent skyggelegging, gjengitt i høy kvalitet, skjærer hverandre langs en rød algebraisk kurve
Rotasjon med musen i begge retninger, full pinch-mekanisme for zoom, haptisk trykk for å vise den lille menyen med glidebrytere for å endre koeffisientene for hver overflate; deteksjon via Z-buffernivå
## Høyre sidevindu
Kort Weierstrass-ligning (over Q eller en kvadratisk feltutvidelse) beregnet Go ved hjelp av formler fra det effektive Riemann-Roch-teoremet
## Ambient-modus der alle kontrollene er skjult, og du kan beundre hvor vakre formene er
## Spesifikasjoner
Appen kjører i nettleseren, en lettvektsimplementering med full-stack og de nyeste bibliotekene, portabel og enkel å distribuere
## Dokumenter
Git-repo, journal, plan (Markdown-filer)
«Det er utrolig spennende å bruke OpenAI sin nye GPT-5.5-modell i oppsettet vårt, la den analysere store biokjemiske datasett for å forutsi legemiddelresultater hos mennesker, og så se at den gir store forbedringer i nøyaktighet på våre mest utfordrende evalueringer innen legemiddelutvikling. Hvis OpenAI fortsetter å levere som dette, vil grunnlaget for legemiddeloppdagelse være endret innen utgangen av året.»
Levering av GPT‑5.5 med responstiden til GPT‑5.4 krevde at vi tenkte nytt om inferens som et integrert system, ikke som et sett med isolerte optimaliseringer. GPT‑5.5 ble laget sammen, trent med og brukt på NVIDIA GB200- og GB300 NVL72-systemer. Codex og GPT‑5.5 var helt avgjørende for hvordan vi nådde målene våre for ytelse. Codex hjalp teamet med å jobbe raskere fra idé til en implementering som kunne testes, ved å skissere tilnærminger, sette opp eksperimenter og finne ut hvilke optimaliseringer som var verdt å satse på. GPT‑5.5 hjalp til med å finne og implementere viktige forbedringer i selve stakken. Kort sagt hjalp modellen med å forbedre infrastrukturen som støtter den.
En slik forbedring var belastningsfordeling og heuristikker for partisjonering. Før GPT‑5.5 delte vi forespørsler på en akselerator opp i et fast antall deler for å fordele arbeidet jevnt på tvers av beregningskjerner, slik at både store og små forespørsler kunne kjøre på samme GPU. Et forhåndsbestemt antall statiske deler er imidlertid ikke optimalt for alle trafikkmønstre. For å utnytte GPU-er bedre analyserte Codex produksjonstrafikkmønstre over flere uker og skrev tilpassede heuristiske algoritmer for å fordele og balansere arbeidet optimalt. Innsatsen hadde en uforholdsmessig stor effekt og økte hastigheten for generering av tokens med over 20 %.
Det å forberede verden på modeller som er veldig gode til å finne og fikse sikkerhetssårbarheter, er et lagarbeid og vil kreve at hele økosystemet jobber hardt for å bygge robusthet, med demokratisert tilgang til modeller og iterativ utrulling for den neste epoken av cyberforsvar.
Banebrytende modeller får stadig større kapasitet innen cybersikkerhet. Disse evnene vil bli bredt tilgjengelige, og vi tror den beste veien videre er å sørge for at de kan brukes til å styrke cyberforsvaret og gjøre økosystemet bedre.
GPT‑5.5 er et gradvis, men viktig skritt mot KI som kan løse noen av verdens vanskeligste utfordringer, som cybersikkerhet. Med GPT‑5.2 i desember tok vi proaktivt i bruk de nødvendige cybersikkerhetstiltakene for å begrense potensielt cybermisbruk med modellene våre; nå med GPT‑5.5 tar vi i bruk strengere klassifiserere for potensiell cyberrisiko, noe noen brukere i starten kan oppleve som irriterende, mens vi finjusterer dem over tid.
I flere år har vi identifisert cybersikkerhet som en kategori i vårt Preparedness Framework(åpnes i et nytt vindu) etter hvert som modellene våre gradvis har blitt bedre, samtidig som vi utvikler og kalibrerer tiltak iterativt, for å kunne lansere modeller på en ansvarlig måte med reelle cybersikkerhetsmuligheter.
- Vi bruker bransjeledende sikkerhetstiltak for dette nivået av cyberkapasitet. Vi introduserte først sikkerhetstiltak spesifikke for cybersikkerhet med GPT‑5.2(åpnes i et nytt vindu) i fjor, og vi har fortsatt å teste, forbedre og bygge videre på dem i påfølgende utrullinger. For GPT‑5.5 utformet vi strengere kontroller rundt aktivitet med høyere risiko, sensitive forespørsler innen cybersikkerhet og ekstra beskyttelse mot gjentatt misbruk. Bred tilgang gjøres mulig gjennom investeringene våre i modellsikkerhet, autentisert bruk og overvåking for utilbørlig bruk. Vi har samarbeidet med eksterne eksperter i flere måneder for å utvikle, teste og videreutvikle på robustheten til disse sikkerhetstiltakene. Med GPT‑5.5 sørger vi for at utviklere enkelt kan sikre koden sin, samtidig som vi innfører strengere kontroll med arbeidsflyter innen cybersikkerhet som mest sannsynlig kan forårsake skade fra ondsinnede aktører.
- Vi utvider tilgangen for å akselerere cyberforsvaret på alle nivåer. Vi gjør vår cyber-permissive modell tilgjengelig gjennom Trusted Access for Cyber, med start i Codex, som inkluderer utvidet tilgang til de avanserte cybersikkerhetskapasitetene i GPT‑5.5 med færre begrensninger for verifiserte brukere som oppfyller visse tillitssignaler(åpnes i et nytt vindu) ved lansering. Organisasjoner som er ansvarlige for forsvare kritisk infrastruktur kan søke om tilgang til cyber-permissive modeller som GPT‑5.4‑Cyber, forutsatt at de oppfyller strenge sikkerhetskrav for å bruke disse modellene til å sikre sine interne systemer. Dette gir et bredt spekter av verifiserte forsvarere mer kapable verktøy for legitimt sikkerhetsarbeid, med mindre unødvendig friksjon, for å sikre at vi demokratiserer tilgangen til viktige defensive kapasiteter. Brukere kan søke om sikker tilgang på chatgpt.com/cyber(åpnes i et nytt vindu) for å redusere unødvendige nektelser ved bruk av GPT‑5.5 til verifisert defensivt arbeid.
- Vi samarbeider med myndighetspartnere for å beskytte viktig infrastruktur for folk flest. Sammen ser vi på hvordan avansert KI kan støtte arbeidet til pålitelige tjenestepersoner som har ansvar for systemer folk er avhengige av, fra digitale systemer som beskytter viktige skattebetalerdata til strømnettet og vannforsyningen i lokalsamfunn.
Vi vurderer de biologiske/kjemiske og cybersikkerhetskapabilitetene til GPT‑5.5 som høye under vårt Preparedness Framework(åpnes i et nytt vindu). Selv om GPT‑5.5 ikke nådde nivået for kritisk cybersikkerhetskapasitet, viste evalueringene og testene våre at cybersikkerhetskapasitetene er et steg opp sammenlignet med GPT‑5.4.
I tillegg gjennomgikk GPT‑5.5 vår fullstendige prosess for sikkerhet og styring før lansering, inkludert beredskapsevalueringer, domenespesifikk testing, nye målrettede evalueringer av avansert kapasitet innen biologi og cybersikkerhet, og grundig testing med eksterne eksperter. Vi deler flere detaljer i systemkortet(åpnes i et nytt vindu) for GPT‑5.5.
Dette arbeidet gjenspeiler vår bredere tilnærming til robusthet innen kunstig intelligens, som vi mener er nødvendig etter hvert som modellenes kapasitet utvikler seg. Vi vil at kraftfull KI skal være tilgjengelig for dem som bruker den til å forsvare systemer, institusjoner og allmennheten. Den riktige veien er pålitelig tilgang, robuste sikkerhetstiltak som skaleres etter kapasitet, og den operative kapasiteten til å oppdage og reagere på alvorlig misbruk.
I dag rulles GPT‑5.5 ut til Plus-, Pro-, Business- og Enterprise-brukere i ChatGPT og Codex, og GPT‑5.5 Pro rulles ut til Pro-, Business- og Enterprise-brukere i ChatGPT. Vi lanserer GPT‑5.5 og GPT‑5.5 Pro til API-et veldig snart.
I ChatGPT er GPT‑5.5 Thinking tilgjengelig for Plus-, Pro-, Business- og Enterprise-brukere. GPT‑5.5 Pro, utviklet for enda vanskeligere spørsmål og arbeid som krever høyere nøyaktighet, er tilgjengelig for Pro-, Business- og Enterprise-brukere.
I Codex er GPT‑5.5 tilgjengelig for Plus-, Pro-, Business-, Enterprise-, Edu- og Go-planer med et kontekstvindu på 400K. GPT‑5.5 er også tilgjengelig i Fast mode, som genererer tokens 1,5x raskere til 2,5x kostnaden.
For API-utviklere blir gpt-5.5 snart tilgjengelig i Responses API og Chat Completions API (API for samtalesvar) til $5 per 1M input token og $30 per 1M output token, med et kontekstvindu på 1M. Batch- og Flex-priser er tilgjengelige til halvparten av standard API-prisen, mens Priority-behandling er tilgjengelig til 2,5 ganger standardprisen. Vi lanserer også gpt-5.5-pro i API-en for enda høyere nøyaktighet, priset til $30 per 1 million input tokens og $180 per 1 million output tokens. Se prissiden for fullstendige detaljer.
Mens GPT‑5.5 er priset høyere enn GPT‑5.4, den er både mer intelligent og mye mer effektiv i bruk av tokens. I Codex har vi nøye finjustert opplevelsen, slik at GPT‑5.5 gir bedre resultater med færre tokens enn GPT‑5.4 for de fleste brukere, samtidig som vi fortsatt tilbyr generøse bruksmuligheter på tvers av abonnementsnivåer.
Koding
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
SWE-Bench Pro (offentlig) * | 58,6 % | 57,7 % | – | – | 64,3 % | 54,2 % |
Terminal-Bench 2.0 | 82,7 % | 75,1 % | – | – | 69,4 % | 68,5 % |
Expert-SWE (Intern) | 73,1 % | 68,5 % | – | – | – | – |
*Labs har registrert tegn på memorering(åpnes i et nytt vindu) i denne evalueringen
Profesjonellt
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GDPval (seier eller uavgjort) | 84,9 % | 83,0 % | 82,3 % | 82,0 % | 80,3 % | 67,3 % |
FinanceAgent v1.1 | 60,0 % | 56,0 % | – | 61,5 % | 64,4% | 59,7 % |
Modelleringsoppgaver innen investeringsbank (internt) | 88,5 % | 87,3 % | 88.6% | 83,6 % | – | – |
OfficeQA Pro | 54,1 % | 53,2 % | – | – | 43,6 % | 18,1 % |
Datamaskinbruk og syn
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
OSWorld-Verified | 78,7 % | 75,0 % | – | – | 78,0 % | – |
MMMU Pro (ingen verktøy) | 81,2 % | 81,2 % | – | – | – | 80,5 % |
MMMU Pro (med verktøy) | 83,2 % | 82,1 % | – | – | – | – |
Bruk av verktøy
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
BrowseComp | 84,4 % | 82,7 % | 90,1 % | 89,3 % | 79,3 % | 85,9 % |
MCP Atlas** | 75,3 % | 70,6 % | – | – | 79,1 % | 78,2 % |
Toolathlon | 55,6 % | 54,6 % | – | – | – | 48,8 % |
Tau2-bench Telecom*** | 98,0 % | 92,8 % | – | – | – | – |
** MCP Atlas: resultater fra Scale AI etter den siste oppdateringen i april 2026.
*** Tau2-bench Telecom: resultater for 5.5 og 5.4 med originale prompt, dvs. ingen justering av prompt. Dette utelater resultater fra andre laboratorier som ble evaluert med justeringer av prompt.
Akademisk
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GeneBench | 25,0 % | 19,0 % | 33,2 % | 25,6 % | – | – |
FrontierMath Nivå 1–3 | 51,7 % | 47, 6 % | 52,4 % | 50,0 % | 43,8 % | 36,9 % |
FrontierMath Nivå 4 | 35,4 % | 27,1 % | 39,6 % | 38,0 % | 22,9 % | 16,7 % |
BixBench | 80,5 % | 74,0 % | – | – | – | – |
GPQA Diamond | 93,6 % | 92,8 % | – | 94,4 % | 94,2 % | 94,3 % |
Humanity's Last Exam (uten verktøy) | 41,4 % | 39,8 % | 43,1 % | 42,7 % | 46,9 % | 44,4 % |
Humanity's Last Exam (med verktøy) | 52,2 % | 52,1 % | 57,2 % | 58,7 % | 54,7 % | 51,4 % |
Cybersikkerhet
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Capture-the-Flag-utfordringsoppgaver (internt)**** | 88,1 % | 83,7 % | – | – | – | – |
CyberGym | 81,8 % | 79,0 % | – | – | 73,1 % | – |
**** En utvidelse av de vanskeligste CTF-ene som brukes i systemkort, med ytterligere vanskelige utfordringer.
Lang kontekst
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Graphwalks BFS 256k f1 | 73,7 % | 62,5 % | – | – | 76,9 % | – |
Graphwalks BFS 1M f1 | 45,4 % | 9,4 % | – | – | 41,2 % (Opus 4.6) | – |
Graphwalks parents 256 000 f1 | 90,1 % | 82,8 % | – | – | 93,6 % | – |
Graphwalks foreldre 1mil f1 | 58,5 % | 44,4 % | – | – | 72,0 % (Opus 4.6) | – |
OpenAI MRCR v2 8-nåls 4K-8K | 98,1 % | 97,3 % | – | – | – | – |
OpenAI MRCR v2 8-nåls 8K-16K | 93,0 % | 91,4 % | – | – | – | – |
OpenAI MRCR v2 8-nåls 16K-32K | 96,5 % | 97,2 % | – | – | – | – |
OpenAI MRCR v2 8-nåls 32K-64K | 90,0 % | 90,5 % | – | – | – | – |
OpenAI MRCR v2 8-nåls 64K-128K | 83,1 % | 86,0 % | – | – | – | – |
OpenAI MRCR v2 8-nåls 128K-256K | 87,5 % | 79,3 % | – | – | 59,2 % | – |
OpenAI MRCR v2 8-needle 256K-512K | 81,5 % | 57,5 % | – | – | – | – |
OpenAI MRCR v2 8-nåls 512K-1M | 74,0 % | 36,6 % | – | – | 32,2 % | – |
Abstrakt resonnering
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5,5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
ARC-AGI-1 (Verifisert) | 95,0 % | 93,7 % | – | 94,5 % | 93,5 % | 98,0 % |
ARC-AGI-2 (Verifisert) | 85,0 % | 73,3 % | – | 83,3 % | 75,8 % | 77,1 % |
Evals av GPT ble kjørt med resonnering satt til xhigh og ble utført i et forskningsmiljø, som i noen tilfeller kan gi litt annerledes resultater enn produksjonsversjonen av ChatGPT.








