Gå til hovedindhold
OpenAI

23. april 2026

ProduktUdgivelse

Vi introducerer GPT‑5.5

En ny form for intelligens til reelt arbejde

Indlæser ...

Opdatering den 24. april 2026: GPT‑5.5 og GPT‑5.5 Pro er nu tilgængelige i API'en. Systemkortet er også blevet opdateret for at beskrive de yderligere sikkerhedsforanstaltninger, der gælder.


Vi lancerer GPT‑5.5, vores hidtil mest intelligente og intuitive model og det næste skridt mod en ny måde at få arbejde udført på en computer.

GPT‑5.5 forstår hurtigere, hvad du prøver at gøre, og kan selv klare en større del af arbejdet. Den udmærker sig ved at skrive og fejlfinde kode, researche online, analysere data, oprette dokumenter og regneark, betjene software og bevæge sig på tværs af værktøjer, indtil en opgave er fuldført. I stedet for omhyggeligt at styre hvert trin kan du give GPT‑5.5 en rodet opgave med flere dele og stole på, at den kan planlægge, bruge værktøjer, kontrollere sit arbejde, navigere gennem tvetydighed og fortsætte.

Fremskridtene er især markante inden for agentisk kodning, computerbrug, vidensarbejde og tidlig videnskabelig forskning – områder, hvor fremskridt afhænger af ræsonnering på tværs af kontekst og handling over tid. GPT‑5.5 leverer denne forbedring i intelligens uden at gå på kompromis med hastigheden: Større og mere avancerede modeller er ofte langsommere at betjene, men GPT‑5.5 matcher GPT‑5.4’s ventetid pr. token i praksis, samtidig med at den præsterer på et langt højere intelligensniveau. Det bruger også markant færre token til at fuldføre de samme Codex-opgaver, hvilket gør den både mere effektiv og mere kapabel.

Vi lancerer GPT‑5.5 med vores hidtil stærkeste sæt sikkerhedsforanstaltninger, der er designet til at reducere misbrug og samtidig bevare adgangen til gavnligt arbejde. Vi evaluerede denne model på tværs af vores fulde sæt af sikkerheds- og beredskabsrammer, samarbejdede med interne og eksterne red teamere, udførte målrettede tests af avancerede kapaciteter inden for cybersikkerhed og biologi og indsamlede feedback om reelle anvendelsestilfælde fra næsten 200 betroede partnere med tidlig adgang før lanceringen.

I dag rulles GPT‑5.5 ud til Plus-, Pro-, Business- og Enterprise-brugere af ChatGPT og Codex, og GPT‑5.5 Pro rulles ud til Pro-, Business- og Enterprise-brugere af ChatGPT. API-implementeringer kræver forskellige sikkerhedsforanstaltninger, og vi arbejder tæt sammen med partnere og kunder om sikkerheds- og sikringskravene for at levere den i stor skala. Vi introducerer GPT‑5.5 og GPT‑5.5 Pro til API'en meget snart.

GPT‑5.5

GPT‑5.4 

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Terminal-Bench 2.0

82,7 %

75,1 %

-

-

69,4 %

68,5 %

Expert-SWE (Intern)

73,1 %

68,5 %

-

-

-

-

GDPval (sejr eller uafgjort)

84,9 %

83,0 %

82,3 %

82,0 %

80,3 %

67,3%

OSWorld-Verified

78,7 %

75,0 %

-

-

78,0 %

-

Toolathlon

55,6 %

54,6 %

-

-

-

48,8 %

BrowseComp

84,4 %

82,7 %

90,1 %

89,3%

79,3 %

85,9 %

FrontierMath Niveau 1–3

51,7 %

47,6 %

52,4 %

50,0 %

43,8 %

36,9 %

FrontierMath Niveau 4

35,4 %

27,1 %

39,6 %

38,0 %

22,9 %

16,7 %

CyberGym

81,8 %

79,0 %

-

-

73,1 %

-

Modelfunktioner

OpenAI bygger den globale infrastruktur for agentisk AI, hvilket gør det muligt for mennesker og virksomheder over hele verden at få arbejdet gjort med AI. I løbet af det seneste år har vi set AI dramatisk fremskynde softwareudvikling. Med GPT‑5.5 i Codex og ChatGPT begynder den samme transformation at brede sig til videnskabelig forskning og det bredere arbejde, folk udfører på computere.

På tværs af disse områder er GPT‑5.5 ikke blot mere intelligent; den er også mere effektiv i sin måde at løse problemer på og når ofte frem til resultater af højere kvalitet med færre tokens og færre gentagelser. På Artificial Analysis’ Coding Index leverer GPT‑5.5 banebrydende intelligens til halvdelen af prisen for konkurrerende banebrydende modeller.

Artificial Analysis Intelligence Index(åbner i et nyt vindue) er et vægtet gennemsnit af 10 evalueringer udført af en ekstern part: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.

Agentbaseret kodning

GPT‑5.5 er vores hidtil stærkeste agentiske model. I Terminal-Bench 2.0, som tester komplekse kommandolinjearbejdsgange, der kræver planlægning, iteration og koordinering af værktøjer, opnår den en nøjagtighed på 82,7 %, hvilket er blandt de bedste resultater i branchen. På SWE-Bench Pro, som evaluerer løsning af GitHub-problemer i den virkelige verden, opnår den 58,6 % og løser flere opgaver fra ende til anden i én gennemgang end tidligere modeller. På Expert-SWE, vores interne banebrydende evaluering for kodningsopgaver med lang horisont med en estimeret median for menneskelig gennemførelsestid på 20 timer, klarer GPT‑5.5 sig også bedre end GPT‑5.4.

I alle tre evalueringer opnår GPT‑5.5 bedre resultater end GPT‑5.4, samtidig med at den bruger færre tokens.

Modellens styrker inden for kodning kommer særligt tydeligt til udtryk i Codex, hvor den kan udføre ingeniøropgaver, der spænder fra implementering og refaktorering til fejlfinding, testning og validering. Tidlige tests tyder på, at GPT‑5.5 er bedre til de færdigheder, som reelt ingeniørarbejde afhænger af, såsom at fastholde kontekst på tværs af store systemer, ræsonnering gennem tvetydige fejl, efterprøve antagelser med værktøjer og implementere ændringer i den omgivende kodebase.

Den gengivne bane er baseret på vektordata fra NASA/JPL Horizons for Orion, Månen og Solen, og der er anvendt en skalering af visningen for at forbedre læsbarheden.

Prompt: [vedhæftet billede] Implementer dette som en ny app med WebGL og Vite baseret på reelle data fra Artemis II-missionen. Sørg for at teste appen grundigt, indtil den fungerer fuldt ud og ligner appen på billedet. Vær særligt opmærksom på gengivelsen af planeterne og flyvebanerne. Jeg vil gerne kunne interagere med 3D-gengivelsen. Sørg for, at den har en realistisk kredsløbsmekanik.

Ud over benchmarks sagde tidlige testere, at GPT‑5.5 viser en stærkere evne til at forstå et systems struktur: Hvorfor noget fejler, hvor rettelsen skal sættes ind, og hvad der ellers i kodebasen ville blive påvirket.

alt

“Den første kodningsmodel, jeg har brugt, som virkelig har konceptuel klarhed.”

Dan Shipper, grundlægger og administrerende direktør hos Every, beskrev GPT‑5.5 som “den første model, jeg har brugt, der har virkelig begrebsmæssig klarhed.”

Efter at have lanceret en app brugte han flere dage på at fejlfinde et problem, der opstod efter lanceringen, før han tilkaldte en af sine dygtigste ingeniører for at omskrive en del af systemet. For at teste GPT‑5.5 vendte han i praksis tiden tilbage: Kunne modellen analysere den fejlbehæftede version og generere den samme type omskrivning, som ingeniøren til sidst valgte? GPT‑5.4 kunne ikke. GPT‑5.5 kunne.

alt

“Det føles oprigtigt, som om jeg arbejder med en højere intelligens, og der er næsten en følelse af respekt.”

Pietro Schirano, administrerende direktør for MagicPath, oplevede et lignende gennembrud, da GPT‑5.5 sammenførte en gren med hundredvis af ændringer til frontend og omstruktureringer med en hovedgren, der også var ændret væsentligt, og dermed afsluttede arbejdet på én gang på cirka 20 minutter.

Erfarne ingeniører, der testede modellen, udtalte, at GPT‑5.5 var mærkbart stærkere end GPT‑5.4 og Claude Opus 4.7 inden for ræsonnering og autonomi, idet den kunne identificere problemer på forhånd og forudsige behov for test og gennemgang uden eksplicit vejledning. I et tilfælde bad en ingeniør systemet om at omstrukturere et kommentarsystem i en samarbejdsbaseret Markdown-editor og fik retur en stak med 12 diff-filer, der var næsten færdig. Andre nævnte, at de havde brug for overraskende få implementeringskorrektioner og følte større tillid til GPT‑5.5’s planer sammenlignet med GPT‑5.4.

En ingeniør hos NVIDIA, der havde tidlig adgang til modellen, gik så langt som til at sige: "At miste adgangen til GPT‑5.5 føles som at få amputeret en kropsdel."

“GPT-5.5 er mærkbart smartere og mere vedholdende end GPT-5.4, med stærkere ydeevne inden for kodning og mere pålidelig brug af værktøjer. Den holder fokus på opgaven betydeligt længere uden at stoppe for tidligt, hvilket er vigtigst for det komplekse, langvarige arbejde, vores brugere uddelegerer til Cursor.”
– Michael Truell, medstifter og administrerende direktør for Cursor

Vidensarbejde

De samme styrker, der gør GPT‑5.5 så god til kodning, gør den også stærk til dagligt arbejde på computeren. Fordi modellen er bedre til at forstå hensigt, kan den bevæge sig mere naturligt gennem hele loopet i vidensarbejde: finde information, forstå hvad der er vigtigt, bruge værktøjer, kontrollere outputtet og omsætte råmateriale til noget brugbart.

I Codex er GPT‑5.5 bedre end GPT‑5.4 til at generere dokumenter, regneark og slidepræsentationer. Alfatestere sagde, at den klarede sig bedre end tidligere modeller inden for områder som operationsanalyse, regnearksmodellering og omdannelse af uoverskuelige forretningsdata til konkrete planer. Når GPT‑5.5 kombineres med Codex’ computerfærdigheder, giver det os en stærkere fornemmelse af, at modellen rent faktisk kan bruge computeren sammen med dig: Den kan se, hvad der vises på skærmen, klikke, skrive, navigere i brugergrænseflader og skifte mellem værktøjer med stor præcision.

Teams hos OpenAI bruger allerede disse styrker i reelle arbejdsgange. I dag bruger over 85 % af virksomheden Codex hver uge på tværs af afdelinger, herunder softwareudvikling, økonomi, kommunikation, marketing, datavidenskab og produktledelse. I kommunikationsafdelingen anvendte teamet GPT‑5.5 i Codex til at analysere data fra samtaleanmodninger over en periode på seks måneder, udvikle et system til risikovurdering og validere en automatiseret Slack-agent, så anmodninger med lav risiko kunne håndteres automatisk, mens anmodninger med højere risiko fortsat blev videresendt til manuel gennemgang. I finansafdelingen brugte teamet Codex til at gennemgå 24.771 K-1-skatteformularer på i alt 71.637 sider ved hjælp af en arbejdsgang, der udelod personoplysninger og hjalp teamet med at fremskynde opgaven med to uger sammenlignet med året før. I Go-to-Market-teamet har en medarbejder automatiseret udarbejdelsen af ugentlige forretningsrapporter, hvilket sparer 5-10 timer om ugen.

I ChatGPT giver GPT‑5.5 Grundig hurtigere hjælp til sværere problemer med smartere og mere præcise svar, der hjælper dig med at komme mere effektivt gennem komplekst arbejde. Den udmærker sig til professionelt arbejde som kodning, research, informationssyntese og analyse samt dokumenttunge opgaver, især når man bruger plugins.

I GPT‑5.5 Pro oplever tidlige testere et markant løft i både kompleksiteten og kvaliteten af det arbejde, ChatGPT kan påtage sig, sammen med forbedringer i svartiden, der gør det langt mere praktisk til krævende opgaver. Sammenlignet med GPT‑5.4 Pro vurderede testpersonerne, at GPT‑5.5 Pro’s svar var langt mere omfattende, velstrukturerede, præcise, relevante og nyttige, med særligt stærke resultater inden for forretning, jura, uddannelse og datavidenskab.

GPT‑5.5 opnår topmoderne ydeevne på tværs af flere benchmarks, der afspejler denne type arbejde. På GDPval, som tester agenters evne til at udføre veldefineret vidensarbejde på tværs af 44 erhverv, opnår GPT‑5.5 en score på 84,9 %. På OSWorld-Verified, der måler, om en model kan køre ægte computermiljøer på egen hånd, når den op på 78,7 %. Og på Tau2-bench Telecom, der tester komplekse kundeservicearbejdsgange, når den op på 98,0 % uden promt-justering. GPT‑5.5 præsterer også stærkt på andre benchmarks inden for vidensarbejde: 60,0 % på FinanceAgent, 88,5 % på interne modelleringsopgaver inden for investment banking og 54,1 % på OfficeQA Pro.

Tau2-bench Telecom blev kørt uden prompt-tuning (og med GPT‑4.1 som model). GPT‑5.5 forstår hensigten med opgaven bedre og er mere token-effektiv end sine forgængere.

”GPT-5.5 leverer den vedvarende ydeevne, der kræves til opgaver med stor beregningsmæssig belastning.” Modellen, der er udviklet og kører på NVIDIA GB200 NVL72-systemer, giver vores teams mulighed for at implementere komplette funktioner ud fra naturlige sprogprompter, reducere fejlfindingsprocessen fra dage til timer og omdanne ugers eksperimentering til fremskridt på en nat i komplekse kodebaser. Det handler om mere end blot hurtigere kodning – det er en ny måde at arbejde på, der hjælper folk med at arbejde i et helt andet tempo."
— Justin Boitano, vicedirektør for Enterprise AI hos NVIDIA

Videnskabelig forskning

GPT‑5.5 viser også forbedringer i videnskabelige og tekniske forskningsarbejdsgange, som kræver mere end blot at besvare et svært spørgsmål. Forskere skal udforske en idé, indsamle beviser, teste antagelser, fortolke resultater og beslutte, hvad de skal prøve næste gang. GPT‑5.5 er bedre til at fastholde processen end andre modeller.

Det er især værd at bemærke, at GPT‑5.5 viser en tydelig forbedring i forhold til GPT‑5.4 på GeneBench(åbner i et nyt vindue), en ny evaluering, der fokuserer på flerfaset videnskabelig dataanalyse inden for genetik og kvantitativ biologi. Disse problemer kræver modeller, der kan fortolke potentielt tvetydige eller fejlbehæftede data med minimal vejledning fra en overordnet instans, håndtere realistiske udfordringer såsom skjulte forstyrrende faktorer eller fejl i kvalitetskontrollen samt korrekt anvende og fortolke moderne statistiske metoder. Modellens præstation er bemærkelsesværdig i lyset af, at opgaverne her ofte svarer til fler-dages projekter for videnskabelige eksperter.

På samme måde opnåede GPT‑5.5 på BixBench(åbner i et nyt vindue) – en benchmark, der er udviklet med udgangspunkt i virkelige bioinformatik- og dataanalyseopgaver – den bedste ydeevne blandt de model, der har offentliggjort deres resultater. Modellens videnskabelige kapacitet er nu så veludviklet, at den som en fuldgyldig medforsker kan bidrage til at fremskynde fremskridtene inden for den biomedicinske forskning på en meningsfuld måde.

I et andet eksempel bidrog en intern version af GPT‑5.5 med en specialudviklet struktur til at opdage et nyt bevis(åbner i et nyt vindue) vedrørende Ramsey-tal, et af de centrale begreber inden for kombinatorik. Kombinatorik studerer, hvordan diskrete objekter hænger sammen: grafer, netværk, mængder og mønstre. Ramsey-tal handler groft sagt om, hvor stort et netværk skal være, før en eller anden form for orden med sikkerhed vil opstå. Resultater på dette område er sjældne og ofte teknisk vanskelige. Her fandt GPT‑5.5 et bevis for et længe kendt asymptotisk forhold om ikke-diagonale Ramsey-tal, som senere blev verificeret i Lean. Resultatet er et konkret eksempel på, at GPT‑5.5 bidrager med ikke blot kode eller forklaringer, men også et overraskende og nyttigt matematisk argument inden for et centralt forskningsområde.

De første testere brugte GPT‑5.5 Pro i ChatGPT ikke så meget som en motor til engangs-svar, men snarere som en forskningspartner: de gennemgik manuskripter i flere omgange, satte tekniske argumenter på prøve, foreslog analyser og arbejdede med kode, noter og PDF-dokumenter. Den røde tråd er, at GPT‑5.5 er bedre til at hjælpe forskere med at gå fra spørgsmål til eksperiment til output.

Derya Unutmaz, professor i immunologi og forsker ved Jackson Laboratory for Genomic Medicine, brugte GPT‑5.5 Pro til at analysere et datasæt om genekspression med 62 prøver og næsten 28.000 gener. Det resulterede i en detaljeret forskningsrapport, der ikke blot opsummerede resultaterne, men også fremhævede centrale spørgsmål og indsigter – et arbejde, der ifølge ham ville have taget hans team flere måneder.

Bartosz Naskręcki, adjunkt i matematik ved Adam Mickiewicz-universitetet i Poznań, Polen, brugte GPT‑5.5 i Codex til på 11 minutter at udvikle en app til algebraisk geometri ud fra en enkelt prompt, hvor han visualiserede skæringspunktet mellem kvadratiske flader og omdannede den resulterende kurve til en Weierstrass-model.

Han udvidede senere appen med mere stabil singularitetsvisualisering og eksakte koefficienter, som kan genbruges i det videre arbejde. For ham er det største skifte, at Codex nu kan hjælpe med at implementere brugerdefinerede arbejdsprocesser til matematisk visualisering og computeralgebra, som tidligere krævede specialiserede værktøjer. Tilsammen viser disse eksempler, hvordan GPT‑5.5 omdanner eksperters intentioner til brugbare forskningsværktøjer og analyser.

""

Kredit: Bartosz Naskręcki(åbner i et nyt vindue)

Prompt: # Algebraic geometry surface intersection

Make an app which draws two quadratic surfaces and colors in red the intersection curve. Use computational Riemann-Roch theorem to convert this into Weierstrass curve.

## Hovedvindue

To tonede overflader med en let transparent skygge, rendering i høj kvalitet, skærer hinanden langs en rød algebraisk kurve

Rotation med musen i begge retninger, fuld knibemekanisme til zoom, haptisk tryk for at åbne den lille menu med skydere til ændring af koefficienterne for hver overflade; registrering via Z-buffer-niveau

## Sidevindue til højre

Den korte Weierstrass-ligning (over Q eller en kvadratisk feltudvidelse) beregnet på farten ved hjælp af formlerne fra den effektive Riemann-Roch-sætning

## Ambient-tilstand, hvor alle kontrolelementer er skjult, og brugeren kan beundre figurernes skønhed

## Specifikationer

Appen kører i browseren, letvægtsimplementering med de nyeste full-stack-biblioteker, portabel, klar til implementering

## Dokumenter

Git repo, journal, plan (Markdown-filer)

”Det er utroligt inspirerende at bruge OpenAI’s nye GPT-5.5-model i vores værktøjskasse, lade den analysere enorme biokemiske datasæt for at forudsige virkningen af lægemidler på mennesker og derefter se, hvordan den leverer markante forbedringer i nøjagtigheden i vores mest krævende evalueringer inden for lægemiddeludvikling.” Hvis OpenAI fortsætter i dette tempo, vil grundlaget for lægemiddeludviklingen have ændret sig inden årets udgang."
– Brandon White, medstifter og administrerende direktør hos Axiom Bio

Næste generations inferenseffektivitet

At levere GPT‑5.5 med samme ventetid som GPT‑5.4 krævede, at man betragtede inferensen som et integreret system og ikke som en række isolerede optimeringer. GPT‑5.5 blev udviklet til, trænet på og kørt på NVIDIA GB200- og GB300 NVL72-systemer. Codex og GPT‑5.5 var afgørende for, hvordan vi nåede vores præstationsmål. Codex hjalp teamet med at komme hurtigere fra idé til en implementering, der kunne sammenlignes med markedets standard, ved at skitsere tilgange, opsætte eksperimenter og hjælpe med at afgøre, hvilke optimeringer der var værd at satse mere på. GPT‑5.5 hjalp med at finde og implementere vigtige forbedringer i selve stakken. Kort sagt var modellen med til at forbedre den infrastruktur, der betjener den.

En af disse forbedringer var heuristikker til belastningsfordeling og partitionering. Før GPT‑5.5 opdelte vi anmodninger på en accelerator i et fast antal bidder for at fordele arbejdsbyrden ligeligt mellem processorkernerne, så både store og små anmodninger kunne køre på den samme GPU. Imidlertid er et forudbestemt antal statiske segmenter ikke optimalt for alle trafikmønstre. For at udnytte GPU'erne bedre analyserede Codex flere ugers produktionstrafikmønstre og udviklede skræddersyede heuristiske algoritmer til at fordele og afbalancere arbejdsbyrden optimalt. Indsatsen havde en markant effekt og øgede hastigheden for generering af tokens med over 20 %.

Fremmer cybersikkerhed for alles tryghed

At forberede verden på model, der er særdeles dygtige til at opdage og udbedre sikkerhedssårbarheder, er et holdarbejde, der kræver, at hele økosystemet arbejder hårdt på at opbygge modstandsdygtighed gennem demokratiseret adgang til model og iterativ implementering i den næste æra inden for cyberforsvar.

Banebrydende modeller bliver stadig mere effektive inden for cybersikkerhed. Disse funktioner vil blive bredt tilgængelige, og vi mener, at den bedste vej frem er at sikre, at de kan anvendes til at fremskynde cyberforsvaret og styrke økosystemet.

GPT‑5.5 er et gradvist, men vigtigt skridt i retning af AI, der kan løse nogle af verdens sværeste udfordringer som cybersikkerhed. I forbindelse med lanceringen af GPT‑5.2 i december indførte vi proaktivt de nødvendige cybersikkerhedsforanstaltninger for at begrænse potentielt misbrug af vores modeller på nettet. Nu, med GPT‑5.5, indfører vi strengere klassificeringssystemer til at identificere potentielle cyberrisici, hvilket nogle brugere måske i starten vil opleve som irriterende, mens vi finjusterer dem over tid.

Vi har i årevis betragtet cybersikkerhed som en kategori i vores Preparedness Framework(åbner i et nyt vindue), i takt med at vores modeller gradvist er blevet forbedret, samtidig med at vi løbende udvikler og finjusterer afbødende foranstaltninger for på ansvarlig vis at kunne frigive modeller med meningsfulde cybersikkerhedsfunktioner.

  • Vi implementerer brancheførende sikkerhedsforanstaltninger for dette niveau af cyberkapacitet. Vi introducerede først cyberspecifikke sikkerhedsforanstaltninger med GPT‑5.2(åbner i et nyt vindue) sidste år, og dem har vi fortsat med at teste, forfine og bygge videre på i efterfølgende implementeringer. For GPT‑5.5 designede vi strammere kontrol omkring aktiviteter med højere risiko, følsomme cyberanmodninger og tilføjede beskyttelsesforanstaltninger mod gentaget misbrug. Bred adgang sikres gennem vores investeringer i modelsikkerhed, godkendt brug og overvågning af uautoriseret brug. Vi har i flere måneder arbejdet sammen med eksterne eksperter for at udvikle, teste og forbedre robustheden af disse sikkerhedsforanstaltninger. Med GPT‑5.5 sikrer vi, at udviklere nemt kan sikre deres kode, samtidig med at vi indfører stærkere kontrol med de cyberarbejdsgange, som ondsindede aktører med størst sandsynlighed kan bruge til at forvolde skade.
  • Vi udvider adgangen for at fremskynde cyberforsvaret på alle niveauer. Vi stiller vores cyber-tolerante modeller til rådighed via Trusted Access for Cyber, begyndende med Codex, som omfatter udvidet adgang til de avancerede cybersikkerhedsfunktioner i GPT‑5.5 med færre begrænsninger for verificerede brugere, der opfylder visse tillidssignaler(åbner i et nyt vindue) ved lanceringen. Organisationer, der har ansvaret for at beskytte kritisk infrastruktur, kan ansøge om adgang til cyber-tolerante modeller som GPT‑5.4‑Cyber, forudsat at de opfylder strenge sikkerhedskrav for at kunne anvende disse modeller til at sikre deres interne systemer. Dette giver en bred vifte af verificerede forsvarere mere avancerede værktøjer til legitimt sikkerhedsarbejde med mindre unødig friktion for at sikre, at vi demokratiserer adgangen til vigtige defensive kapaciteter. Brugere kan ansøge om betroet adgang på chatgpt.com/cyber(åbner i et nyt vindue) for at reducere unødvendige afvisninger, når de bruger GPT‑5.5 til verificeret defensivt arbejde.
  • Vi arbejder sammen med offentlige partnere for at beskytte kritisk infrastruktur for offentligheden. Sammen undersøger vi, hvordan avanceret AI kan støtte det defensive arbejde hos betroede embedsmænd, der har ansvar for systemer, som folk er afhængige af, fra digitale systemer, der beskytter vigtige skatteyderdata, til elnettet og vandforsyningen i lokale samfund.

Vi klassificerer GPT‑5.5’s biologiske/kemiske og cybersikkerhedsmæssige kapaciteter som høje i henhold til vores Preparedness Framework(åbner i et nyt vindue). Selvom GPT‑5.5 ikke nåede et kritisk niveau for cybersikkerhedskapacitet, viste vores evalueringer og tests, at dens cybersikkerhedskapaciteter er et skridt op i forhold til GPT‑5.4.

Derudover gennemgik GPT‑5.5 vores fulde sikkerheds- og styringsproces inden frigivelsen, herunder beredskabsvurderinger, domænespecifikke test, nye målrettede vurderinger af avancerede funktioner inden for biologi og cybersikkerhed samt grundige test udført i samarbejde med eksterne eksperter. Vi deler flere oplysninger i GPT‑5.5’s systemkort(åbner i et nyt vindue).

Dette arbejde afspejler vores bredere tilgang til AI-robusthed, som vi mener er nødvendig, i takt med at modelkapaciteterne udvikler sig. Vi ønsker, at avanceret kunstig intelligens skal være tilgængelig for dem, der bruger den til at beskytte systemer, institutioner og offentligheden. Den bæredygtige vej frem er pålidelig adgang, solide sikkerhedsforanstaltninger, der kan skaleres i takt med kapaciteten, samt den operationelle evne til at opdage og reagere på alvorligt misbrug.

Tilgængelighed og priser

I dag rulles GPT‑5.5 ud til Plus-, Pro-, Business- og Enterprise-brugere af ChatGPT og Codex, og GPT‑5.5 Pro rulles ud til Pro-, Business- og Enterprise-brugere af ChatGPT. Vi introducerer GPT‑5.5 og GPT‑5.5 Pro til API'en meget snart.

På ChatGPT er GPT‑5.5 Grundig-funktionen tilgængelig for Plus-, Pro-, Business- og Enterprise-brugere. GPT‑5.5 Pro, designet til endnu sværere spørgsmål og arbejde med højere nøjagtighed, er tilgængelig for Pro-, Business- og Enterprise-brugere.

I Codex er GPT‑5.5 tilgængelig for Plus-, Pro-, Business-, Enterprise-, Edu- og Go-abonnementer med et kontekstvindue på 400.000 tegn. GPT‑5.5 findes også i Fast-tilstand, hvor den genererer tokens 1,5 gange hurtigere til en pris, der er 2,5 gange højere.

For API-udviklere vil gpt-5.5 snart være tilgængelig i Responses- og Chat Completions-API'erne til en pris på 5 USD pr. 1 million indgangstokens og 30 USD pr. 1 million udgangstokens, med et kontekstvindue på 1 million. Batch- og Flex-priser tilbydes til halvdelen af standardprisen for API, mens prioriteret behandling tilbydes til 2,5 gange standardprisen. Vi vil også lancere gpt-5.5-pro i API'en for at opnå endnu større nøjagtighed. Prisen er 30 USD pr. 1 million indgangstokens og 180 USD pr. 1 million udgangstokens. Se prissiden for alle detaljer.

Selvom GPT‑5.5 er dyrere end GPT‑5.4, er den både mere intelligent og langt mere token-effektiv. I Codex har vi nøje finjusteret oplevelsen, så GPT‑5.5 leverer bedre resultater med færre token end GPT‑5.4 for de fleste brugere, samtidig med at vi fortsat tilbyder generøs brug på tværs af abonnementsniveauer.

Evalueringer

Kodning

Eval

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

SWE-Bench Pro (offentlig) *

58,6 %

57,7 %

-

-

64,3 %

54,2 %

Terminal-Bench 2.0

82,7 %

75,1 %

-

-

69,4 %

68,5 %

Expert-SWE (Internal)

73,1 %

68,5 %

-

-

-

-

*Labs har bemærket tegn på udenadslære(åbner i et nyt vindue) i denne evaluering

Professionel

Eval

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

GDPval (sejr eller uafgjort)

84,9 %

83,0 %

82,3 %

82,0 %

80,3 %

67,3%

FinanceAgent v1.1

60,0 %

56,0 %

-

61,5 %

64,4 %

59,7 %

Opgaver inden for investeringsbankmodellering (intern)

88,5 %

87,3 %

88,6 %

83,6 %

-

-

OfficeQA Pro

54,1 %

53,2 %

-

-

43,6 %

18,1 %

Brug af computer og syn

Eval

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

OSWorld-Verified

78,7 %

75,0 %

-

-

78,0 %

-

MMMU Pro (ingen værktøjer)

81,2 %

81,2 %

-

-

-

80,5 %

MMMU Pro (med værktøjer)

83,2 %

82,1 %

-

-

-

-

Brug af værktøjer

Eval

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

BrowseComp

84,4 %

82,7 %

90,1 %

89,3%

79,3 %

85,9 %

MCP Atlas**

75,3 %

70,6 %

-

-

79,1 %

78,2 %

Toolathlon

55,6 %

54,6 %

-

-

-

48,8 %

Tau2-bench Telecom***
(originale prompts)

98,0 %

92,8 %

-

-

-

-

** MCP Atlas: resultater fra Scale AI efter den seneste opdatering i april 2026. 
*** Tau2-bench Telecom: resultater for 5,5 og 5,4 med originale prompts, dvs. ingen promptjustering. Dette udelader resultater fra andre laboratorier, der blev evalueret med prompt-justeringer.

Akademisk

Eval

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

GeneBench

25,0 %

19,0 %

33,2 %

25,6 %

-

-

FrontierMath Niveau 1–3

51,7 %

47,6 %

52,4 %

50,0 %

43,8 %

36,9 %

FrontierMath Niveau 4

35,4 %

27,1 %

39,6 %

38,0 %

22,9 %

16,7 %

BixBench

80,5 %

74,0 %

-

-

-

-

GPQA Diamant

93,6 %

92,8 %

-

94,4 %

94,2 %

94,3 %

Humanity's Last Exam (ingen værktøjer)

41,4 %

39,8 %

43,1 %

42,7 %

46,9 %

44,4 %

Humanity's Last Exam (med værktøjer)

52,2 %

52,1 %

57,2 %

58,7 %

54,7 %

51,4 %

Cybersikkerhed

Eval

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Capture-the-Flag-udfordringsopgaver (intern)

88,1 %

83,7 %

-

-

-

-

CyberGym

81,8 %

79,0 %

-

-

73,1 %

-

**** En udvidelse af de sværeste CTF'er, der bruges i systemkort, med yderligere svære udfordringer.

Lang kontekst

Eval

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Graphwalks BFS 256k f1

73,7 %

62,5 %

-

-

76,9 %

-

Graphwalks BFS 1 mio. f1

45,4 %

9,4 %

-

-

41,2 % (Opus 4.6)

-

Graphwalks overordnede 256k f1

90,1 %

82,8 %

-

-

93,6 %

-

Graphwalks overordnede 1 mio f1

58,5 %

44,4 %

-

-

72,0 % (Opus 4.6)

-

OpenAI MRCR v2 8-nåls 4K-8K

98,1 %

97,3 %

-

-

-

-

OpenAI MRCR v2 8-nåls 8K-16K

93,0 %

91,4 %

-

-

-

-

OpenAI MRCR v2 8-nåls 16K-32K

96,5 %

97,2 %

-

-

-

-

OpenAI MRCR v2 8-nåls 32K-64K

90,0 %

90,5 %

-

-

-

-

OpenAI MRCR v2 8-nåls 64K-128K

83,1 %

86,0 %

-

-

-

-

OpenAI MRCR v2 8-nåls 128K-256K

87,5 %

79,3 %

-

-

59,2 %

-

OpenAI MRCR v2 8-nåls 256K-512K

81,5 %

57,5 %

-

-

-

-

OpenAI MRCR v2 8-nåls 512K-1M

74,0 %

36,6 %

-

-

32,2 %

-

Abstrakt tænkning

Eval

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

ARC-AGI-1 (Verificeret)

95,0 %

93,7 %

-

94,5 %

93,5 %

98,0 %

ARC-AGI-2 (verificeret)

85,0 %

73,3 %

-

83,3 %

75,8 %

77,1 %

Evalueringerne af GPT blev udført med indstillingen for ræsonnement på xhigh og blev gennemført i et forskningsmiljø, hvilket i nogle tilfælde kan give resultater, der adskiller sig en smule fra produktionsversionen af ChatGPT.

Skrevet af

OpenAI