23 april 2026

Vi presenterar GPT‑5.5

En ny typ av intelligens för praktiskt arbete

Laddar …

Uppdatering den 24 april 2026: GPT‑5.5 och GPT‑5.5 Pro är nu tillgängliga i API:et. Systemkortet har också uppdaterats för att beskriva de ytterligare skyddsåtgärder som gäller.

Vi släpper nu GPT‑5.5, vår smartaste och mest intuitiva modell hittills och nästa steg mot ett nytt sätt att utföra arbete på en dator.

GPT‑5.5 förstår snabbare vad du försöker göra och kan göra mer av arbetet själv. Den utmärker sig i att skriva och felsöka kod, utföra efterforskningar online, analysera data, skapa dokument och kalkylark, använda programvara och förflytta sig mellan verktyg tills en uppgift är slutförd. I stället för att noggrant hantera varje steg kan du ge GPT‑5.5 en rörig uppgift i flera delar och lita på att den kan planera, använda verktyg, kontrollera arbetet, navigera genom tvetydighet och fortsätta.

Framstegen är särskilt stora inom områden där framsteg beror på resonemang över kontext och att vidta åtgärder över tid såsom agentbaserad kodning, datoranvändning, kunskapsarbete och tidig vetenskaplig forskning. GPT‑5.5 gör detta bättre utan att kompromissa med hastigheten: större och mer kapabla modeller är ofta långsammare fast GPT‑5.5 matchar GPT‑5.4:s latens per token i verklig drift samtidigt som den presterar på en mycket högre intelligensnivå. Den använder även betydligt färre token för att slutföra samma Codex-uppgifter vilket gör den både mer effektiv och mer kapabel.

Vi lanserar GPT‑5.5 med vår starkaste uppsättning skyddsåtgärder hittills, skyddsåtgärder utformade för att minska missbruk samtidigt som åtkomst för gynnsamt arbete bevaras. Vi utvärderade den här modellen inom alla våra ramverk för säkerhet och beredskap, arbetade med interna och externa redteamare, lade till riktade tester för avancerade förmågor inom cybersäkerhet och biologi samt samlade in feedback om verkliga användningsfall från närmare 200 betrodda partner med tidig åtkomst före lanseringen.

Idag lanseras GPT‑5.5 för Plus-, Pro-, Business- och Enterprise-användare i ChatGPT och Codex, och GPT‑5.5 Pro lanseras för Pro-, Business- och Enterprise-användare i ChatGPT. API-distributioner kräver andra skyddsåtgärder och vi arbetar tillsammans med partners och kunder på kraven inom säkerhet och skydd för att tillhandahålla det i stor skala. Vi kommer att introducera GPT‑5.5 och GPT‑5.5 Pro till API:n mycket snart.

	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82,7 %	75,1 %	-	-	69,4 %	68,5 %
Expert-SWE (intern)	73,1 %	68,5 %	-	-	-	-
GDPval (vinner eller oavgjort)	84,9 %	83,0 %	82,3 %	82,0 %	80,3 %	67,3 %
OSWorld-Verified	78,7 %	75,0 %	-	-	78,0 %	-
Toolathlon	55,6 %	54,6 %	-	-	-	48,8 %
BrowseComp	84,4 %	82,7 %	90,1 %	89,3 %	79,3%	85,9 %
FrontierMath Tier 1–3	51,7 %	47,6 %	52,4 %	50,0 %	43,8 %	36,9 %
FrontierMath Tier 4	35,4 %	27,1 %	39,6 %	38,0 %	22,9 %	16,7 %
CyberGym	81,8 %	79,0 %	-	-	73,1 %	-

Modellfunktioner

OpenAI bygger den globala infrastrukturen för AI-agenter vilket gör det möjligt för människor och företag runt om i världen att få arbete utfört med AI. Under det senaste året har vi sett AI påskynda programvaruutvecklingen avsevärt. Med GPT‑5.5 i Codex och ChatGPT börjar samma omvandling att ta sig in i vetenskaplig forskning och det bredare arbete som utförs på datorer.

Inom dessa områden är GPT‑5.5 inte bara mer intelligent utan även mer effektiv i hur den arbetar sig igenom problem och uppnår ofta resultat av högre kvalitet med färre token och färre omförsök. I Artificial Analysis's Coding Index levererar GPT‑5.5 toppmodern intelligens till halva kostnaden jämfört med konkurrerande banbrytande modeller.

Artificial Analysis Intelligence Index⁠(öppnas i ett nytt fönster) är ett viktat genomsnitt av 10 utvärderingar som genomförts av en extern part: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.

Agentisk kodning

GPT‑5.5 är vår hittills mest kraftfulla modell. På Terminal-Bench 2.0 som testar komplexa arbetsflöden på kommandoraden som kräver planering, iteration och verktygssamordning uppnår den en banbrytande noggrannhet på 82,7 %. På SWE-Bench Pro som utvärderar lösningen av GitHub-ärenden i verkliga situationer uppnår den 58,6 % och löser fler uppgifter från början till slut i ett enda försök än tidigare modeller. På Expert-SWE (vår interna banbrytande utvärdering för långsiktiga kodningsuppgifter med en uppskattad medianmässig slutförandetid på 20 timmar) presterar GPT‑5.5 även bättre än GPT‑5.4.

GPT‑5.5 presterar bättre än GPT‑5.4 i alla tre utvärderingarna samtidigt som den använder färre token.

Modellens styrkor inom kodning framträder särskilt tydligt i Codex där den kan ta sig an ingenjörsarbeten som sträcker sig från implementering och refaktorisering till felsökning, testning och validering. Tidiga tester tyder på att GPT‑5.5 är bättre på de beteenden som verkligt ingenjörsarbete är beroende av såsom att behålla kontext över stora system, använda resonemang för att hantera tvetydiga fel, kontrollera antaganden med verktyg och föra ändringar genom den omgivande kodbasen.

Den renderade banan använder NASA/JPL Horizons-vektordata för Orion, månen och solen med visningsskalning tillämpad för läsbarhet.

Prompt: [bifogad bild] Implementera detta som en ny app med WebGL och Vite med hjälp av verkliga data från Artemis II-uppdraget. Se till att testa appen noggrant tills den är fullt fungerande och ser ut som appen på bilden. Var noga med renderingen av planeterna och flygbanorna. Jag vill kunna interagera med 3D-renderingen. Se till att den har realistisk omloppsmekanik.

Utöver riktmärken sade tidiga testare att GPT‑5.5 har en ökad förmåga när det kommer till att förstå hur ett system är uppbyggt: varför något misslyckas, vart åtgärder behövs och vad mer i kodbasen som skulle påverkas.

"Den första kodningsmodellen jag har använt med verklig konceptuell tydlighet."

Dan Shipper, grundare och vd på Every, beskrev GPT‑5.5 med orden "den första kodningsmodellen jag har använt som haft verklig begreppsmässig tydlighet".

Efter att ha lanserat en app spenderade han flera dagar på att felsöka ett problem efter lanseringen innan han tog in en av sina bästa ingenjörer för att skriva om en del av systemet. För att testa GPT‑5.5 vred han i praktiken tillbaka klockan: Kunde modellen titta på det trasiga tillståndet och ta fram samma omskrivningslösning som ingenjören till sist valde? GPT‑5.4 kunde inte, men GPT‑5.5 kunde.

"Det känns verkligen som att jag arbetar med en högre intelligens och det finns nästan en känsla av respekt."

Pietro Schirano, vd på MagicPath, såg ett liknande språng när GPT‑5.5 slog samman en gren med hundratals frontend- och refaktoreringsändringar till en huvudgren som även ändrats avsevärt och löste arbetet på cirka 20 minuter.

Seniora ingenjörer som testade modellen sade att GPT‑5.5 var märkbart bättre än GPT‑5.4 och Claude Opus 4.7 inom resonemang och autonomi, och kunde identifiera problem i förväg samt förutse behov av testning och granskning utan uttryckliga uppmaningar. I ett fall bad en ingenjör att den omstrukturerar ett kommentarsystem i en samarbetsinriktad markdown-redigerare och kom tillbaka till en stack med 12 diffar som var nästan färdig. Andra sa att de behövde förvånansvärt få korrigeringar i implementeringen och hade större förtroende för GPT‑5.5:s planer jämfört med GPT‑5.4:s.

En ingenjör på NVIDIA som hade tidig åtkomst till modellen uttryckte det så här: ”Att förlora åtkomsten till GPT‑5.5 känns som att få en kroppsdel amputerad.”

"GPT-5.5 är märkbart smartare och en mer uthållig modell än GPT-5.4, den har bättre kodprestanda och en mer tillförlitlig användning av verktyg. Den håller sig till uppgiften betydligt längre utan att avbryta i förtid vilket är viktigt för det komplexa och långvariga arbete som våra användare överlämnar till Cursor."

— Michael Truell, medgrundare och vd på Cursor

Kunskapsarbete

Samma styrkor som gör GPT‑5.5 bra på kodning gör den även användbar för vardagligt arbete på datorn. Eftersom modellen är bättre på att förstå avsikter kan den röra sig mer naturligt genom hela kunskapsarbetets kretslopp: hitta information, förstå vad som är viktigt, använda verktyg, kontrollera resultatet och omvandla råmaterial till något användbart.

I Codex är GPT‑5.5 bättre än GPT‑5.4 på att generera dokument, kalkylark och bildpresentationer. Alfatestare sa att den överträffade tidigare modeller i uppgifter såsom operationsanalys, kalkylbladsmodellering och omvandling av ostrukturerade affärsunderlag till planer. När GPT‑5.5 kombineras med färdigheterna hos Codex inom datoranvändning närmar vi oss känslan av att modellen faktiskt kan använda datorn tillsammans med oss, t.ex. se vad som finns på skärmen, klicka, skriva, navigera i gränssnitt och röra sig mellan verktyg med precision.

Team på OpenAI använder redan de här styrkorna i verkliga arbetsflöden. I dag använder mer än 85 % av företaget Codex varje vecka inom områden såsom programvaruutveckling, ekonomi, kommunikation, marknadsföring, datavetenskap och produktledning. I Comms använde teamet GPT‑5.5 i Codex för att analysera sex månaders data om talarförfrågningar, ta fram ett ramverk för poängsättning och riskbedömning samt validering av en automatiserad Slack-agent så att förfrågningar med låg risk kunde hanteras automatiskt medan förfrågningar med högre risk skickades vidare för mänsklig granskning. Inom ekonomi använde teamet Codex för att granska 24 771 K-1-skatteblanketter med totalt 71 637 sidor med hjälp av ett arbetsflöde som exkluderade personuppgifter och hjälpte teamet att slutföra uppgiften två veckor snabbare än föregående år. I teamet för marknadsstrategi automatiserade en anställd genereringen av veckovisa affärsrapporter vilket sparade 5–10 timmar i veckan.

I ChatGPT möjliggör GPT‑5.5 Thinking snabbare hjälp med svårare problem i kombination med smartare och mer koncisa svar för mer effektiv hantering av komplext arbete. Den utmärker sig i professionellt arbete såsom kodning, forskning, informationssyntes och analys samt dokumenttunga uppgifter, särskilt vid användning av plugins.

I GPT‑5.5 Pro har tidiga testare märkt ett betydande framsteg både i svårighetsgraden och kvaliteten på de uppgifter som ChatGPT kan hantera tillsammans med latensförbättringar som gör den mycket mer användbar för krävande uppgifter. Jämfört med GPT‑5.4 Pro upptäckte testpersoner att GPT‑5.5 Pro:s svar var mycket mer omfattande, välstrukturerade, korrekta, relevanta och användbara med särskilt bra resultat inom affärsverksamhet, juridik, utbildning och datavetenskap.

GPT‑5.5 uppnår topprestanda inom flera riktmärken som återspeglar den här typen av arbete. I GDPval⁠⁠, ett utvärderingssystem som testar agenters förmåga att producera välspecificerat kunskapsarbete inom 44 yrken, uppnår GPT‑5.5 84,9 %. På OSWorld-Verified som mäter om en modell kan använda verkliga datormiljöer på egen hand uppnår den 78,7 %. På Tau2-bench Telecom som testar komplexa arbetsflöden inom kundservice uppnår den 98,0 % utan justering av prompten. GPT‑5.5 presterar även bra inom andra riktmärken för kunskapsarbete: 60,0 % på FinanceAgent, 88,5 % på interna modelleringsuppgifter inom investment banking och 54,1 % på OfficeQA Pro.

Tau2-bench Telecom kördes utan finjustering av prompt (och GPT‑4.1 som användarmodell). GPT‑5.5 förstår avsikten med uppgiften bättre och är mer tokeneffektiv än sina föregångare.

"GPT-5.5 levererar den uthålliga prestanda som krävs för arbete med hög exekveringsbelastning. Modellen är byggd och används på NVIDIA GB200 NVL72-system vilket gör det möjligt för våra team att leverera heltäckande funktioner från naturliga promptar, minska felsökningstiden från dagar till timmar och omvandla veckor av experimenterande till framsteg över en natt i komplexa kodbaser. Det handlar om mer än bara snabbare kodning, det är ett nytt sätt att arbeta som hjälper människor att arbeta med ett helt annat tempo."

— Justin Boitano, VP för AI för företag hos NVIDIA

Vetenskaplig forskning

GPT‑5.5 visar även förbättringar inom vetenskapliga och tekniska forskningsarbetsflöden som kräver mer än att besvara en svår fråga. Forskare behöver utforska en idé, samla in bevis, testa antaganden, tolka resultat och avgöra vad de ska prova härnäst. GPT‑5.5 är bättre på att ta sig igenom denna loop än andra modeller.

Det är även värt att notera att GPT‑5.5 även presterar bättre än GPT‑5.4 på GeneBench⁠(öppnas i ett nytt fönster), en ny utvärdering med fokus på vetenskaplig dataanalys i flera steg inom genetik och kvantitativ biologi.Dessa problem kräver att modeller resonerar kring potentiellt tvetydiga eller felaktiga data med minimal vägledning, hanterar realistiska hinder såsom dolda confounders eller brister i kvalitetskontrollen, och korrekt implementerar och tolkar moderna statistiska metoder. Modellens prestanda är imponerande med tanke på att uppgifterna här ofta motsvarar projekt som tar flera dagar för vetenskapliga experter.

På samma sätt uppnådde GPT‑5.5 på BixBench⁠(öppnas i ett nytt fönster) (ett riktmärke utformat kring verklig bioinformatik och dataanalys) ledande prestanda bland modeller med publicerade poäng. Modellens vetenskapliga kapacitet är nu tillräckligt hög för att på ett betydande sätt påskynda utvecklingen i biomedicinsk forskning som en verklig medforskare.

I ett annat exempel bidrog en intern version av GPT‑5.5 med en anpassad testmiljö till att upptäcka ett nytt bevis⁠(öppnas i ett nytt fönster) om Ramseytal, ett av de centrala objekten inom kombinatorik. Kombinatorik studerar hur diskreta objekt hänger ihop: grafer, nätverk, mängder och mönster. Ramseytal handlar i grova drag om hur stort ett nätverk måste vara innan någon form av ordning garanterat uppstår. Resultat inom detta område är sällsynta och ofta tekniskt svåra att uppnå. Här hittade GPT‑5.5 ett bevis för ett sedan länge känt asymptotiskt faktum om icke-diagonala Ramseytal som senare verifierades i Lean. Resultatet är ett konkret exempel på att GPT‑5.5 inte bara bidrar med kod eller förklaringar utan även ett överraskande och användbart matematiskt resonemang inom ett centralt forskningsområde.

Tidiga testare använde GPT‑5.5 Pro i ChatGPT mer som en forskningspartner istället för en one-shot-svarsmotor: de granskade manuskript i flera omgångar, stresstestade tekniska resonemang, föreslog analyser och arbetade med kod, anteckningar och PDF-dokument. Den gemensamma nämnaren är att GPT‑5.5 är bättre på att hjälpa forskare att gå från fråga till experiment och därefter till resultat.

Derya Unutmaz, professor i immunologi och forskare vid Jackson Laboratory for Genomic Medicine, använde GPT‑5.5 Pro för att analysera ett genuttrycksdataset med 62 prover och nästan 28 000 gener och tog fram en detaljerad forskningsrapport som inte bara sammanfattade resultaten utan även kom med viktiga frågor och insikter – ett arbete som han sade skulle ha tagit hans team flera månader.

Bartosz Naskręcki, biträdande professor i matematik vid Adam Mickiewicz University i Poznań, Polen, använde GPT‑5.5 i Codex för att skapa en app för algebraisk geometri från en enda prompt på 11 minuter, visualisera skärningen mellan kvadratiska ytor och omvandla den resulterande kurvan till en Weierstrass-modell.

Han byggde senare ut appen med stabilare singularitetsvisualisering och exakta koefficienter som kan återanvändas i annat arbete. För honom är den största förändringen att Codex nu kan hjälpa till att implementera anpassade arbetsflöden för matematisk visualisering och datoralgebra vilket tidigare krävde särskilda verktyg. Sammantaget visar dessa exempel hur GPT‑5.5 omvandlar expertavsikter till fungerande forskningsverktyg och analyser.

Bild: Bartosz Naskręcki⁠(öppnas i ett nytt fönster)

Prompt: # Skärning av ytor inom algebraisk geometri

Skapa en app som ritar två kvadratiska ytor och färglägger skärningskurvan i rött. Använd det beräkningsmässiga Riemann-Roch-teoremet för att omvandla det till en Weierstrass-kurva.

## Huvudfönster

Två färgade ytor med lätt transparent skuggning och högkvalitativ rendering som skär varandra längst en rödfärgad algebraisk kurva

Rotation med musen i båda riktningarna, full nypmekanism för zoom, haptisk tryckning för att visa den lilla menyn med reglage för att ändra koefficienterna för varje yta, detektering via Z-buffor-nivå

## Sidofönster till höger

Kort Weierstrass-ekvation (över Q eller en kvadratisk fältutvidgning) beräknad Go med hjälp av formler från den effektiva Riemann-Roch-satsen

## Omgivningsläge där alla reglage är dolda och användaren kan uppskatta formernas skönhet

## Specifikationer

Appen körs i webbläsaren, resurseffektiv implementering med de senaste fullstack-biblioteken, portabel, driftsättningsbar

## Dokumentation

Git-repo, journal, plan (Markdown-filer)

"Det är otroligt energigivande att använda OpenAIs nya GPT-5.5-modell i vår testmiljö, att låta den analysera enorma biokemiska datamängder för att förutsäga läkemedelsresultat hos människor och sedan se den leverera betydande förbättringar i träffsäkerheten i våra mest utmanande utvärderingar inom läkemedelsutveckling. Om OpenAI fortsätter att prestera på samma nivå kommer grunderna inom läkemedelsupptäckt att ha förändras före årets slut."

— Brandon White, medgrundare och VD på Axiom Bio

Nästa generations inferenseffektivitet

Att leverera GPT‑5.5 med GPT‑5.4‑latens krävde omvärdering av inferens som ett integrerat system istället för en uppsättning isolerade optimeringar. GPT‑5.5 har utformats för, tränats med och används på NVIDIA GB200- och GB300 NVL72-system. Codex och GPT‑5.5 spelade en avgörande roll i hur vi uppnådde våra prestandamål. Codex hjälpte teamet att gå snabbare från idé till en implementering genom att skissa på angreppssätt, skapa experiment och hjälpa till att identifiera värdefulla optimeringar. GPT‑5.5 hjälpte till att identifiera och genomföra viktiga förbättringar i stacken. Enkelt förklarat bidrog modellen till att förbättra den infrastruktur som betjänar den.

En sådan förbättring var lastbalansering och heuristiker för partitionering. Före GPT‑5.5 delade vi upp förfrågningar med hjälp av en accelerator i ett fast antal delar för att balansera arbetsbelastningen mellan beräkningskärnor så att både stora och små förfrågningar kunde köras på samma GPU. Fast ett förutbestämt antal statiska delar är inte optimalt för alla trafikmönster. För att bättre utnyttja GPU:er analyserade Codex produktionsmönster i trafiken under flera veckor och skrev anpassade heuristiska algoritmer för att optimalt fördela och balansera arbetsbelastningen. Arbetet hade en oproportionerligt stor påverkan och ökade hastigheten för tokengenerering med över 20 %.

Vi utvecklar cybersäkerhet för allas säkerhet

Att förbereda världen för modeller som är väldigt bra på att hitta och åtgärda säkerhetsproblem är en lagsport och kommer att kräva att hela ekosystemet arbetar hårt på att bygga motståndskraft med demokratiserad tillgång till modeller och gradvis implementering för nästa era av cyberförsvar⁠.

Banbrytande modeller får allt större förmåga inom cybersäkerhet. Dessa förmågor kommer att spridas och vi anser att den bästa vägen framåt är att se till att de kan användas för att stärka cyberförsvaret och ekosystemet.

GPT‑5.5 är ett gradvis men viktigt steg mot AI som kan lösa några av världens svåraste utmaningar såsom cybersäkerhet. Vi driftsatte med GPT‑5.2 under december nödvändiga cybersäkerhetsåtgärder⁠ för att begränsa potentiellt cybermissbruk med våra modeller. Nu driftsätter vi med GPT‑5.5 striktare klassificerare för potentiell cyberrisk (som vissa användare till en början kan uppleva som störande) i takt med att vi finjusterar dem över tid.

Vi har under flera år identifierat cybersäkerhet som en kategori i vårt Preparedness Framework⁠(öppnas i ett nytt fönster) i takt med att våra modeller har gradvis förbättrats. Vi utvecklar och kalibrerar samtidigt iterativt skyddsåtgärder för att kunna lansera modeller med avancerade cybersäkerhetsfunktioner på ett ansvarsfullt sätt.

Vi implementerar branschledande skyddsåtgärder för denna nivå av cyberkapacitet. Vi introducerade först cyberspecifika skyddsåtgärder med GPT‑5.2⁠(öppnas i ett nytt fönster) under förra året och har sedan dess fortsatt att testa, förfina och bygga vidare på dem i efterföljande driftsättningar. För GPT‑5.5 har vi utformat striktare kontroller för aktiviteter med högre risk, känsliga cyberförfrågningar samt lagt till skydd mot upprepat missbruk. Bred åtkomst är möjlig tack vare våra investeringar i modellsäkerhet, autentiserad användning och övervakning av otillåten användning. Vi har arbetat med externa experter i flera månader på att utveckla, testa och iterera robustheten i dessa skyddsåtgärder. Med GPT‑5.5 säkerställer vi att utvecklare enkelt kan skydda sin kod samtidigt som vi inför bättre kontroller runt de cyberarbetsflöden som illvilliga aktörer sannolikt kan använda för att orsaka skada.
Vi utökar tillgången för att påskynda cyberförsvaret på alla nivåer. Vi gör våra cybertillåtande modeller tillgängliga via Trusted Access for Cyber⁠ från och med Codex som inkluderar utökad åtkomst till de avancerade cybersäkerhetsfunktionerna i GPT‑5.5 med färre begränsningar för verifierade användare som vid lanseringen uppfyller vissa förtroendesignaler⁠(öppnas i ett nytt fönster). Organisationer som ansvarar för att försvara kritisk infrastruktur⁠ kan ansöka om tillgång till cybertillåtande modeller såsom GPT‑5.4‑Cyber förutsatt att de uppfyller strikta säkerhetskrav för användning av dessa modeller. Detta ger ett brett spektrum av verifierade försvarare mer kraftfulla verktyg för legitimt säkerhetsarbete med mindre onödig friktion och säkerställer att vi demokratiserar tillgången till viktiga defensiva förmågor. Användare kan ansöka om säker åtkomst på chatgpt.com/cyber⁠(öppnas i ett nytt fönster) för att minska onödiga avslag när de använder GPT‑5.5 för verifierat defensivt arbete.
Vi samarbetar med myndigheter för att bidra till att skydda kritisk infrastruktur för allmänheten. Tillsammans utforskar vi hur avancerad AI kan stödja det defensiva arbete som utförs av betrodda tjänstepersoner med ansvar för system som människor förlitar sig på såsom system som skyddar viktiga skattebetalaruppgifter till elnätet och vattenförsörjningen i lokala samhällen.

Vi behandlar GPT‑5.5:s biologiska/kemiska förmågor och cybersäkerhetsförmågor som höga inom ramen för vårt Preparedness Framework⁠(öppnas i ett nytt fönster). Även om GPT‑5.5 inte uppnådde kritisk nivå av cybersäkerhetsförmåga visade våra utvärderingar och tester att dess cybersäkerhetsförmåga är ett steg upp jämfört med GPT‑5.4.

Dessutom genomgick GPT‑5.5 vår fullständiga säkerhets- och styrningsprocess före lanseringen, inklusive beredskapsutvärderingar, domänspecifika tester, nya riktade utvärderingar för avancerade förmågor inom biologi och cybersäkerhet samt omfattande tester med externa experter. Vi delar med oss av mer information i systemkortet⁠(öppnas i ett nytt fönster) för GPT‑5.5.

Detta arbete återspeglar vår bredare strategi för AI-motståndskraft vilket vi anser behövs i takt med att modellers förmågor utvecklas. Vi vill att kraftfull AI ska vara tillgänglig för personer som använder den för att försvara system, institutioner och allmänheten. Vägen för att uppnå detta är betrodd åtkomst, robusta skyddsåtgärder som anpassas efter kapaciteten och operativ kapacitet att upptäcka och reagera på allvarligt missbruk.

Tillgänglighet och priser

I ChatGPT är GPT‑5.5 Thinking tillgänglig för Plus-, Pro-, Business- och Enterprise-användare. GPT‑5.5 Pro som är utformad för ännu svårare frågor och arbete med högre precision är tillgänglig för Pro-, Business- och Enterprise-användare.

I Codex är GPT‑5.5 tillgänglig för Plus-, Pro-, Business-, Enterprise-, Edu- och Go-abonnemangen med ett sammanhangsfönster på 400K. GPT‑5.5 är även tillgänglig i snabbläge och genererar token 1,5 gånger snabbare till 2,5 gånger kostnaden.

För API-utvecklare kommer gpt-5.5 snart att finnas tillgänglig i API:erna för svar och slutförda chattar till en kostnad av 5 dollar per 1 miljon token och 30 dollar per 1 miljon token med ett kontextfönster på 1 miljon. Priser för Batch och Flex är tillgängliga till halva standardpriset för API:et medan prioritetsbearbetning är tillgänglig för 2,5 gånger standardpriset. Vi kommer även att lansera gpt-5.5-pro i API:et för ännu högre noggrannhet till ett pris på 30 dollar per 1 miljon indatatoken och 180 dollar per 1 miljon utdatatoken. Se prissidan⁠ för mer information.

GPT‑5.5 har ett högre pris än GPT‑5.4 men är mer intelligent och mycket mer tokeneffektiv. Vi har noggrant finjusterat upplevelsen i Codex så att GPT‑5.5 ger bättre resultat med färre token än GPT‑5.4 för de flesta användare samtidigt som vi fortsätter att erbjuda generös användning över alla abonnemangsnivåer.

Utvärderingar

Kodning

Utv.	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
SWE-Bench Pro (offentlig) *	58,6 %	57,7 %	-	-	64,3 %	54,2 %
Terminal-Bench 2.0	82,7 %	75,1 %	-	-	69,4 %	68,5 %
Expert-SWE (intern)	73,1 %	68,5 %	-	-	-	-

^*^{Labben har noterat}^{bevis på memorering}⁠(öppnas i ett nytt fönster)^{i denna utvärdering}

Professionell

Utv.	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
GDPval (vinner eller oavgjort)	84,9 %	83,0 %	82,3 %	82,0 %	80,3 %	67,3 %
FinanceAgent v1.1	60,0 %	56,0 %	-	61,5 %	64,4 %	59,7 %
Modelleringsuppgifter inom investment banking (internt)	88,5 %	87,3 %	88,6 %	83,6 %	-	-
OfficeQA Pro	54,1 %	53,2 %	-	-	43,6 %	18,1 %

Datoranvändning och visuell förmåga

Utv.	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
OSWorld-Verified	78,7 %	75,0 %	-	-	78,0 %	-
MMMU Pro (inga verktyg)	81,2 %	81,2 %	-	-	-	80,5 %
MMMU Pro (med verktyg)	83,2 %	82,1 %	-	-	-	-

Verktygsanvändning

Utv.	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
BrowseComp	84,4 %	82,7 %	90,1 %	89,3 %	79,3%	85,9 %
MCP Atlas**	75,3 %	70,6 %	-	-	79,1 %	78,2 %
Toolathlon	55,6 %	54,6 %	-	-	-	48,8 %
Tau2-bench Telecom*** (ursprunglig prompt)	98,0 %	92,8 %	-	-	-	-

^{** MCP Atlas: resultat från Scale AI efter den senaste uppdateringen i april 2026.
*** Tau2-bench telecom: resultat för 5.5 och 5.4 med ursprungliga promptar, d.v.s. ingen justering av prompten. Detta utelämnar resultat från andra labb som utvärderade med justeringar av prompten.}

Akademisk

Utv.	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
GeneBench	25,0 %	19,0 %	33,2 %	25,6 %	-	-
FrontierMath Tier 1–3	51,7 %	47,6 %	52,4 %	50,0 %	43,8 %	36,9 %
FrontierMath Tier 4	35,4 %	27,1 %	39,6 %	38,0 %	22,9 %	16,7 %
BixBench	80,5 %	74,0 %	-	-	-	-
GPQA Diamond	93,6 %	92,8 %	-	94,4 %	94,2 %	94,3 %
Humanitys Last Exam (inga verktyg)	41,4 %	39,8 %	43,1 %	42,7%	46,9 %	44,4 %
Humanity's Last Exam (med verktyg)	52,2 %	52,1 %	57,2 %	58,7 %	54,7 %	51,4 %

Cybersäkerhet

Utv.	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Capture-the-Flag-utmaningsuppgifter (internt)****	88,1 %	83,7 %	-	-	-	-
CyberGym	81,8 %	79,0 %	-	-	73,1 %	-

^{**** En utökning av de svåraste CTF:erna som används i systemkort med fler utmanande uppgifter.}

Långt kontext

Utv.	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Graphwalks BFS 256k f1	73,7 %	62,5 %	-	-	76,9 %	-
Graphwalks BFS 1mil f1	45,4 %	9,4 %	-	-	41,2 % (Opus 4.6)	-
Graphwalks parents 256k f1	90,1 %	82,8 %	-	-	93,6 %	-
Graphwalks parents 1mil f1	58,5 %	44,4 %	-	-	72,0 % (Opus 4.6)	-
OpenAI MRCR v2 med 8 nålar, 4K-8K	98,1 %	97,3 %	-	-	-	-
OpenAI MRCR v2 med 8 nålar, 8K-16K	93,0 %	91,4 %	-	-	-	-
OpenAI MRCR v2 med 8 nålar, 16K-32K	96,5 %	97,2 %	-	-	-	-
OpenAI MRCR v2 med 8 nålar, 32K-64K	90,0 %	90,5 %	-	-	-	-
OpenAI MRCR v2 med 8 nålar, 64K-128K	83,1 %	86,0 %	-	-	-	-
OpenAI MRCR v2 med 8 nålar, 128K-256K	87,5 %	79,3%	-	-	59,2 %	-
OpenAI MRCR v2 med 8 nålar, 256K-512K	81,5 %	57,5 %	-	-	-	-
OpenAI MRCR v2 med 8 nålar, 512K-1M	74,0 %	36,6 %	-	-	32,2 %	-

Abstrakt resonemang

Utv.	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
ARC-AGI-1 (Verified)	95,0 %	93,7 %	-	94,5 %	93,5 %	98,0 %
ARC-AGI-2 (Verified)	85,0 %	73,3 %	-	83,3 %	75,8 %	77,1 %

Utvärderingar av GPT kördes med resonemanget inställt på mycket hög och utfördes i en forskningsmiljö, vilket i vissa fall kan ge något annorlunda resultat jämfört med ChatGPT i produktion.