Vi presenterar GPT‑5.2, den hittills mest kapabla modellserien för professionellt kunskapsarbete.
Redan nu säger den genomsnittliga användaren av ChatGPT Enterprise att AI sparar dem 40–60 minuter per dag, och flitiga användare säger att det sparar dem mer än 10 timmar per vecka. Vi designade GPT‑5.2 för att frigöra ännu mer ekonomiskt värde för människor – den är bättre på att skapa kalkylblad, bygga presentationer, skriva kod, uppfatta bilder, förstå långa kontext, använda verktyg och hantera komplexa projekt med flera steg.
GPT‑5.2 sätter en ny standard inom många riktmärken, inklusive GDPval, där den överträffar branschproffs i väldefinierade kunskapsarbetsuppgifter som täcker 44 yrken.
GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
GDPval (vinner eller delar plats) | 70,9 % | 38,8 % (GPT‑5) |
SWE-Bench Pro (allmän) | 55,6 % | 50,8 % |
SWE-bench Verified | 80,0 % | 76,3 % |
GPQA Diamond (utan verktyg) | 92,4% | 88,1 % |
CharXiv Reasoning (med Python) | 88,7 % | 80,3 % |
HMMT (Feb 2025) | 99,4 % | 96,3 % |
FrontierMath (Tier 1–3) | 40,3 % | 31,0 % |
ARC-AGI-1 (Verifierad) | 86,2 % | 72,8 % |
ARC-AGI-2 (Verifierad) | 52,9 % | 17,6 % |
Notion(öppnas i ett nytt fönster), Box(öppnas i ett nytt fönster), Shopify(öppnas i ett nytt fönster), Harvey(öppnas i ett nytt fönster) och Zoom(öppnas i ett nytt fönster) observerade att GPT‑5.2 uppvisar toppmoderna prestationer inom långsiktigt resonemang och verktygsanvändning. Databricks(öppnas i ett nytt fönster), Hex(öppnas i ett nytt fönster) och Triple Whale(öppnas i ett nytt fönster) fann att GPT‑5.2 var exceptionellt bra på agentisk datavetenskap och dokumentanalysuppgifter. Cognition(öppnas i ett nytt fönster), Warp(öppnas i ett nytt fönster), Charlie Labs(öppnas i ett nytt fönster), JetBrains(öppnas i ett nytt fönster) och Augment Code(öppnas i ett nytt fönster) säger att GPT‑5.2 levererar toppmodern agentisk kodningsprestanda, med mätbara förbättringar inom områden som interaktiv kodning, kodgranskningar och buggupptäckt.
I ChatGPT, GPT‑5,2 Instant, Thinking och Pro kommer att börja lanseras idag, med början med betalda abonnemang. I API:n är de nu tillgängliga för alla utvecklare.
Sammantaget innebär GPT‑5.2 betydande förbättringar inom allmän intelligens, förståelse av långa sammanhang, agentiskt verktygsanrop och syn – vilket gör den bättre på att utföra komplexa, verkliga uppgifter från början till slut än någon tidigare modell.
GPT‑5.2 Thinking är vår bästa modell hittills för professionellt bruk i verkliga livet. På GDPval, ett utvärderingssystem som mäter välspecifierade kunskapsarbetsuppgifter inom 44 yrken, är GPT‑5.2 Thinking sätter ett nytt rekord och är vår första modell som presterar på eller över en mänsklig expertnivå. Enligt expertbedömare Enligt expertbedömare överträffar Thinking eller ligger i nivå med branschens främsta experter i 70,9 % av jämförelserna av GDPval-kunskapsarbetsuppgifter. Dessa uppgifter omfattar att göra presentationer, kalkylblad och andra artefakter. GPT‑5.2 Thinking producerade resultat för GDPval-uppgifter mer än elva gånger snabbare och till mindre än en procent av kostnaden jämfört med expertprofessionella, vilket tyder på att GPT‑5.2, när det används tillsammans med mänsklig tillsyn, kan bistå vid professionellt arbete. Hastighets- och kostnadsberäkningar baseras på historiska mått; hastigheten i ChatGPT kan variera.
I GDPval försöker modellerna beskriva välspecificerat kunskapsarbete inom 44 yrken från de nio branscher som bidrar mest till USA:s BNP. Uppgifter begär verkliga arbetsprodukter, såsom försäljningspresentationer, bokföringskalkylblad, scheman för akutvård, tillverkningsdiagram eller korta videor. I ChatGPT har GPT‑5.2 Thinking nya verktyg som GPT‑5 Thinking inte har.
När en särskilt bra utdata granskades, kommenterade en GDPval-domare: ”Det är ett spännande och märkbart språng i utdatans kvalitet... [det] verkar ha utförts av ett professionellt företag med personal och har en överraskande väl utformad layout och råd för båda leveranserna, även om vi fortfarande har några mindre fel att korrigera.”
Dessutom, enligt vårt interna riktmärke för juniora investmentbankanalytikers kalkylbladsmodellering – såsom att sammanställa en modell med tre rapporter för ett Fortune 500-företag, med korrekt formatering och källhänvisningar, eller bygga en modell för ett lånefinansierat uppköp för en privatisering – GPT 5.2 Thinkings genomsnittliga poäng per uppgift är 9,3 % högre än GPT‑5.1:s, vilket är en ökning från 59,1 % till 68,4 %.
Jämförelser sida vid sida visar förbättrad sofistikering och formatering i kalkylblad och bilder genererade av GPT‑5.2. Thinking:

Prompt: Skapa en arbetskraftsplaneringsmodell: personalstyrka, rekryteringsabonnemang, personalomsättning och budgetpåverkan. Inkludera avdelningarna för teknik, marknadsföring, juridik och försäljning.
För att använda de nya kalkylblads- och presentationsfunktionerna i ChatGPT måste du vara på ett betalt abonnemang och välja antingen GPT‑5.2 Thinking eller Pro. Komplexa genereringar kan ta många minuter att skapa.
GPT‑5.2 Thinking sätter en ny standard på 55,6 % på SWE-bench Pro, en rigorös utvärdering av verklig mjukvaruutveckling. Till skillnad från SWE-bench Verifierad, som endast testar Python, testar SWE-bench Pro på fyra språk och strävar efter att vara mer kontamineringsresistent, utmanande, mångsidig och industriellt relevant.
I SWE-bench Pro(öppnas i ett nytt fönster), en modell får ett kodarkiv och måste generera en patch för att lösa en realistisk uppgift inom mjukvaruutveckling.
På SWE-bench Verifierad (ej plottad), GPT‑5.2 Thinking får vårt nya högsta betyg på 80 %.
För daglig professionell användning innebär detta en modell som på ett mer tillförlitligt sätt kan felsöka produktionskod, implementera funktionsförfrågningar, omstrukturera stora kodbaser och leverera korrigeringar från början till slut med mindre manuell inblandning.
GPT‑5.2 Thinking är också bättre på front-end-mjukvaruutveckling än GPT‑5.1 Thinking. De första testarna fann att det var betydligt starkare vid frontend-utveckling och komplexa eller okonventionella UI-arbeten – särskilt när det gällde 3D-element – vilket gjorde det till en kraftfull daglig partner för ingenjörer över hela stacken. Se några exempel på vad det kan producera från en enda prompt:
Prompt: Skapa en app med en enda sida i en enda HTML-fil med följande krav:
- Namn: Ocean Wave Simulation-
Mål: Visa realistiska animerade vågor.
- Funktioner: Ändra vindhastighet, våghöjd, belysning.
- Användargränssnittet ska vara lugnande och realistiskt.
Tidiga testare delade med sig av sin feedback om GPT‑5.2:s kodningskapacitet:
”GPT-5.2 representerar det största språnget för GPT-modeller inom agentkodning sedan GPT-5 och är en SOTA-kodningsmodell i sin prisklass. Versionshöjningen underskattar språnget i intelligens. Vi är glada över att göra det till standard i hela Windsurf och flera av Devins centrala arbetsbelastningar.”
GPT‑5.2 Thinking hallucinerar mindre än GPT‑5.1 Thinking. I en uppsättning av anonymiserade frågor från ChatGPT var svar med fel 38 %rel mindre vanliga. För yrkesverksamma innebär detta färre misstag när modellen används för forskning, skrivande, analys och beslutsstöd – vilket gör modellen mer tillförlitlig för det dagliga kunskapsarbetet.
Resonemangskapaciteten sattes till det maximalt tillgängliga och ett sökverktyg aktiverades. Fel upptäcktes av andra modeller, som själva kan göra fel. Felfrekvenser på påståendenivå är mycket lägre än felfrekvenser på svarsnivå, eftersom de flesta svar innehåller många påståenden.
Liksom alla modeller är GPT‑5.2 Thinking inte perfekt. För allt som är viktigt, dubbelkolla svaren.
GPT‑5.2 Thinking sätter en ny standard inom långsiktigt resonemang och uppnår ledande prestanda på OpenAI MRCRv2 – en utvärdering som testar en modells förmåga att integrera information spridd över långa dokument. Vid verkliga uppgifter som djupgående dokumentanalys, som kräver relaterad information från hundratusentals tokens, GPT‑5.2 Tänkandet är betydligt mer exakt än GPT‑5.1 Thinking. Det är framför allt den första modellen vi har sett som uppnår nästan 100 % noggrannhet på 4-nåls MRCR-varianten (upp till 256 000 tokens).
I praktiken innebär detta att yrkesverksamma kan använda GPT‑5.2 för att arbeta med långa dokument – såsom rapporter, kontrakt, forskningsrapporter, transkriptioner och projekt med flera filer – samtidigt som de upprätthåller sammanhang och noggrannhet över hundratusentals token. Detta gör GPT‑5.2 särskilt väl lämpad för djupgående analys, syntes och komplexa arbetsflöden med flera källor.
I OpenAI-MRCR(öppnas i ett nytt fönster) v2 (multi-round co-reference resolution) infogas flera identiska ”nål”-användarförfrågningar i långa ”höstackar” av liknande förfrågningar och svar, och modellen ombeds att reproducera svaret på den n:te nålen. Version 2 av utvärderingen korrigerar ~5 % av uppgifterna som hade felaktiga grundläggande sanningsvärden. Genomsnittlig matchningsgrad mäter den genomsnittliga strängmatchningsgraden mellan modellens svar och det rätta svaret. Poängen vid 256k max ingångstoken representerar genomsnitt över 128k–256k ingångstoken, och så vidare. Här representerar 256k 256 * 1 024 = 262 114 token. Resonemangskraften sattes till det maximala tillgängliga värdet.
För uppgifter som gynnas av att tänka utanför det maximala kontextfönstret, är GPT‑5.2 Thinking kompatibelt med vår nya Responses /compact-slutpunkt, som utökar modellens effektiva kontextfönster. Detta gör att GPT‑5.2 Thinking kan hantera mer verktygsintensiva, långvariga arbetsflöden som annars skulle vara begränsade av kontextlängden. Läs mer i vår API-dokumentation(öppnas i ett nytt fönster).
GPT‑5.2 Thinking är vår hittills starkaste visionsmodell, som minskar felfrekvensen med ungefär hälften när det gäller diagramanalys och förståelse av programvarugränssnitt.
För daglig professionell användning innebär detta att modellen kan tolka instrumentpaneler, produktskärmdumpar, tekniska diagram och visuella rapporter mer exakt, vilket underlättar arbetsflöden inom ekonomi, drift, teknik, design och kundsupport där visuell information är central.
I CharXiv Reasoning(öppnas i ett nytt fönster)svarar modeller på frågor om visuella diagram från vetenskapliga artiklar. Ett Python-verktyg aktiverades och resonemanget ställdes in på maximalt.
I ScreenSpot-Pro(öppnas i ett nytt fönster) måste modellerna resonera kring högupplösta skärmdumpar av grafiska användargränssnitt från en rad olika professionella miljöer. Ett Python-verktyg aktiverades och resonansinsatsen sattes till maximal. Utan Python-verktyget blir poängen mycket lägre. Vi rekommenderar att Python-verktyget aktiveras för synuppgifter som dessa.
Jämfört med tidigare modeller har GPT‑5.2 Thinking en starkare förståelse för hur element är placerade i en bild, vilket hjälper vid uppgifter där den relativa layouten spelar en nyckelroll för att lösa problemet. I exemplet nedan ber vi modellen att identifiera komponenterna i en bildindata (i detta fall ett moderkort) och returnera etiketter med ungefärliga avgränsningsrutor. Även på en lågkvalitetsbild identifierar GPT‑5.2 de viktigaste områdena och placerar rutor som ungefär matchar de exakta platserna för varje komponent, medan GPT‑5.1 endast märker några delar och visar en mycket svagare förståelse för deras rumsliga arrangemang.
GPT‑5.1

GPT‑5.2

GPT‑5.2 Thinking uppnår en ny toppnivå på 98,7 % på Tau2-bench Telecom, vilket visar dess förmåga att pålitligt använda verktyg i långa, flerstegsuppgifter.
För latens-känsliga användningsfall är GPT‑5.2 Thinking också mycket bättre när det gäller resonemang.effort=’none’, och överträffar GPT‑5.1 och GPT‑4.1 avsevärt.
I τ2-bench(öppnas i ett nytt fönster) använder modellerna verktyg för att utföra kundsupportuppgifter i en interaktion med flera turer med en simulerad användare. För telekomområdet har vi inkluderat en kort, allmänt användbar instruktion i systemmeddelandet för att förbättra prestandan. Vi utesluter undergruppen flygbolag på grund av lägre kvalitet på marknadsbedömningen.
För yrkesverksamma innebär detta starkare arbetsflöden från början till slut – till exempel att lösa kundsupportärenden, hämta data från flera system, köra analyser och generera slutliga resultat med färre avbrott mellan stegen.
När man till exempel ställer en komplex kundtjänstfråga som kräver flera steg för att lösa, kan modellen mer effektivt samordna ett komplett arbetsflöde mellan flera agenter. I fallet nedan rapporterar en resenär ett försenat flyg, en missad anslutning, en övernattning i New York och ett medicinskt krav på sittplats. GPT‑5.2 hanterar hela kedjan av uppgifter – ombokning, specialassistansplatser och kompensation – och levererar ett mer komplett resultat än GPT‑5.1.
GPT‑5.1

GPT‑5.2

En av våra förhoppningar för AI är att den ska påskynda den vetenskapliga forskningen till gagn för alla. För att uppnå detta har vi samarbetat med och lyssnat på forskare för att se hur AI kan påskynda deras arbete, och förra månaden delade vi några tidiga samarbetsförsök här.
Vi anser att GPT‑5.2 Pro och GPT‑5.2 Thinking är världens bästa modeller för att bistå och accelerera forskare. På GPQA Diamond, ett Google-säkert Q&A-benchmark på avancerad nivå, uppnår GPT‑5.2 Pro 93,2 %, tätt följt av GPT‑5.2 Thinking med 92,4 %.
I GPQA Diamond(öppnas i ett nytt fönster) svarar modellerna på flervalsfrågor om fysik, kemi och biologi. Inga verktyg var aktiverade och resonemangskraften var inställd på maximal nivå.
På FrontierMath (nivå 1–3), en utvärdering av matematik på expertnivå, satte GPT‑5.2 Thinking satte en ny standard genom att lösa 40,3 % av problemen.
I FrontierMath(öppnas i ett nytt fönster) löser modeller matematiska problem på expertnivå. Ett Python-verktyg aktiverades och resonemangskraften ställdes in på maximal.
Vi börjar se hur AI-modeller på ett konkret sätt på ett meningsfullt sätt accelererar framstegen inom matematik och naturvetenskap. Till exempel, i nyligen utfört arbete med GPT‑5.2 Pro, utforskade forskare en öppen fråga inom statistisk inlärningsteori. I en smal, väl specificerad miljö föreslog modellen ett bevis som därefter verifierades av författarna och granskades av externa experter, vilket illustrerar hur frontier-modeller kan hjälpa matematisk forskning under nära mänsklig övervakning.
På ARC-AGI-1 (Verifierad), ett riktmärke utformat för att mäta allmän resonemangsförmåga, är GPT‑5.2 den första modellen att överstiga 90 %-gränsen, en förbättring från 87 % av o3‑förhandsgranskningen förra året samtidigt som kostnaden för att uppnå den prestandan minskades med ungefär 390 gånger.
På ARC-AGI-2 (Verifierad), vilket ökar svårighetsgraden och bättre isolerar flytande resonemang, uppnår GPT‑5.2 Thinking en ny toppnivå för tankekedjemodeller, med en poäng på 52,9 %. GPT‑5.2 Pro presterar ännu bättre och når 54,2 %, vilket ytterligare utökar modellens förmåga att resonera genom nya, abstrakta problem.
Förbättringar i dessa utvärderingar återspeglar GPT‑5.2:s kapacitet för starkare flerstegsresonemang, större kvantitativ noggrannhet och mer tillförlitlig problemlösning vid komplexa tekniska uppgifter.
Så här säger våra tidiga testare om GPT‑5.2:
”GPT-5.2 låste upp ett komplett arkitekturskifte för oss. Vi kollapsade ett bräckligt multiagent-system till en enda mega-agent med över 20 verktyg. Det bästa är att det bara fungerar. Mega-agenten är snabbare, smartare och 100 gånger lättare att underhålla. Vi ser mycket lägre latens, mycket starkare verktygsanrop, och vi behöver inte längre omfattande systemprompt eftersom 5.2 kommer att köras smidigt med en enkel, enradig prompt. Det känns som ren magi.”
I ChatGPT ska användare märka att GPT‑5.2 känns bättre att använda dagligen – mer strukturerad, mer pålitlig och fortfarande trevlig att prata med.
GPT‑5.2 Instant är ett snabbt och kapabelt verktyg för vardagligt arbete och lärande, med tydliga förbättringar inom informationssökning, instruktioner och genomgångar, teknisk skrivning och översättning, och bygger vidare på den varmare samtalstonen som introducerades i GPT‑5.1 Instant. Tidiga testare noterade särskilt tydligare förklaringar som presenterar viktig information direkt.
GPT‑5.2 Thinking är utformad för djupare arbete och hjälper användare att hantera mer komplexa uppgifter med större finess – särskilt för kodning, sammanfattning av långa dokument, svar på frågor om uppladdade filer, stegvis genomgång av komplex matematik och logik samt hjälp med planering och beslutsfattande med tydligare struktur och mer användbara detaljer.
GPT‑5.2 Pro är vårt smartaste och mest pålitliga alternativ för svåra frågor där ett svar av högre kvalitet är värt att vänta på, med tidiga tester som visar färre större fel och bättre prestanda inom komplexa domäner som programmering.
GPT‑5.2 bygger vidare på den forskning om säkra slutföranden som vi introducerade med GPT‑5, vilket lär modellen att ge det mest användbara svaret samtidigt som den bibehåller säkerhetsgränserna.
Med den här versionen fortsatte vi vårt arbete med att förbättra våra modellers svar i känsliga samtal, med betydande förbättringar i hur de svarar på frågor som tyder på självmord eller självskadebeteende, psykisk ohälsa eller emotionellt beroende av modellen. Dessa riktade insatser har resulterat i färre oönskade reaktioner i både GPT‑5.2 Instant och GPT‑5.2 Thinking jämfört med GPT‑5.1 och GPT‑5 Instant- och Thinking-modeller. Mer information finns i systemkortet.
Vi är i de tidiga stadierna av att lansera vår åldersförutsägelsemodell så att vi automatiskt kan tillämpa innehållsskydd för användare under 18 år, för att begränsa tillgången till känsligt innehåll. Detta bygger på vår befintliga strategi för användare som vi vet är under 18 år och våra föräldrainställningar.
GPT‑5.2 är ett steg i en pågående serie förbättringar, och vi är långt ifrån färdiga. Även om den här versionen ger betydande förbättringar i intelligens och produktivitet, vet vi att det finns områden där användarna vill ha mer. I ChatGPT arbetar vi med kända problem som överdrivna avslag, samtidigt som vi fortsätter att höja ribban för säkerhet och tillförlitlighet i allmänhet. Dessa förändringar är komplexa, och vi fokuserar på att göra dem rätt.
GPT‑5.2 Instant | GPT‑5.1 Instant | GPT‑5.2 | GPT‑5.1 Thinking | |
Psykisk hälsa | 0,995 | 0,883 | 0,915 | 0,684 |
Känslomässigt beroende | 0,938 | 0,945 | 0,955 | 0,785 |
Självskada | 0,938 | 0,925 | 0,963 | 0,937 |
I ChatGPT börjar vi idag lansera GPT‑5.2 (Instant, Thinking och Pro), med början för betalda abonnemang (Plus, Pro, Go, Business, Enterprise). Vi implementerar GPT‑5.2 gradvis för att ChatGPT ska fungera så smidigt och tillförlitligt som möjligt. Om du inte ser den direkt, försök igen senare. I ChatGPT kommer GPT‑5.1 fortfarande att vara tillgängligt för betalande användare i tre månader enligt äldre modeller, varefter vi kommer att avveckla GPT‑5.1.
ChatGPT | API |
ChatGPT‑5.2 Instant | GPT‑5.2‑chatt‑latest |
ChatGPT‑5.2 Thinking | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
I vår API-plattform är GPT‑5.2 Thinking idag tillgängligt i svar-API och API för slutförda chattar, som GPT‑5.2 och GPT‑5.2 Instant som GPT‑5.2‑chat‑latest. GPT‑5.2 Pro är tillgänglig i svar-API som gpt-5.2-pro. Utvecklare kan nu ställa in resonemangsparametern i GPT‑5.2 Pro, och både GPT‑5.2 Pro och GPT‑5.2 Thinking har nu stöd för den nya femte resonemangsinsatsen av xhigh, för uppgifter där kvalitet är viktigast.
GPT‑5.2 kostar 1,75 $/1 miljoner indatatokens och 14 $/1 miljoner utdatatokens, med 90 % rabatt på cachade indatatokens. Vid flera agentiska utvärderingar upptäckte vi att, trots GPT‑5.2:s högre kostnad per token, blev kostnaden för att uppnå en given kvalitetsnivå mindre tack vare GPT‑5.2:s större tokeneffektivitet.
Medan priset för ChatGPT‑abonnemanget förblir oförändrat, är priset per token för API GPT‑5.2 högre än för GPT‑5.1, eftersom det är en mer kapabel modell. Priset ligger fortfarande under andra gränsöverskridande modeller, så användarna kan fortsätta att använda den flitigt i sitt dagliga arbete och sina kärnprogram.
Modell | Indata | Cachad indata | Utdata |
GPT‑5.2 / GPT‑5.2‑chatt‑latest | 1,75 $ | 0,175 $ | 14 $ |
gpt-5.2-pro | 21 $ | - | 168 $ |
GPT‑5.1 / GPT‑5.1‑chatt‑latest | 1,25 $ | 0,125 $ | 10 $ |
gpt-5-pro | 15 $ | - | 120 USD |
Vi har för närvarande inga planer på att avveckla GPT‑5.1, GPT‑5, eller GPT‑4.1 i API:n, och vi kommer att meddela eventuella planer med god framförhållning till utvecklare. GPT‑5.2 fungerar bra direkt i Codex, men vi räknar med att släppa en version av GPT‑5.2 som är optimerad för Codex inom de närmaste veckorna.
GPT‑5.2 byggdes i samarbete med våra långvariga partners NVIDIA och Microsoft. Azure-datacenter och NVIDIA-GPU:er, inklusive H100, H200 och GB200-NVL72, ligger till grund för OpenAI:s storskaliga träningsinfrastruktur, vilket ger betydande vinster i modellintelligens. Tillsammans gör detta samarbete det möjligt för oss att skala upp beräkningskapaciteten med tillförsikt och snabbare lansera nya modeller på marknaden.
Nedan rapporterar vi omfattande benchmarkresultat för GPT‑5.2. Thinking, tillsammans med en delmängd för GPT‑5.2 Pro
Professionell
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
Kodning
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
Faktualitet
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
Långt kontext
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
Vision
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
Verktygsanvändning
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
Akademisk
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
Abstrakt resonemang
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
Modellerna kördes med maximal tillgänglig resonemangsansträngning i vår API (xhigh för GPT‑5.2 Thinking och Pro, och högt för GPT‑5.1 Thinking), förutom för de professionella utvärderingarna, där GPT‑5.2 Thinking kördes med tung resonemangsinsats, det maximalt tillgängliga i ChatGPT Pro. Benchmarktester utfördes i en forskningsmiljö, vilket kan ge något annorlunda resultat jämfört med ChatGPT i produktion i vissa fall.
* För SWE-Lancer utelämnar vi 40/237 problem som inte kunde köras på vår infrastruktur.


