11 december 2025

Vi presenterar GPT‑5.2

Den mest avancerade banbrytande modellen för professionellt arbete och långvariga agenter.

Laddar …

Vi presenterar GPT‑5.2, den hittills mest kapabla modellserien för professionellt kunskapsarbete.

Redan nu säger⁠ den genomsnittliga användaren av ChatGPT Enterprise att AI sparar dem 40–60 minuter per dag, och flitiga användare säger att det sparar dem mer än 10 timmar per vecka. Vi designade GPT‑5.2 för att frigöra ännu mer ekonomiskt värde för människor – den är bättre på att skapa kalkylblad, bygga presentationer, skriva kod, uppfatta bilder, förstå långa kontext, använda verktyg och hantera komplexa projekt med flera steg.

GPT‑5.2 sätter en ny standard inom många riktmärken, inklusive GDPval, där den överträffar branschproffs i väldefinierade kunskapsarbetsuppgifter som täcker 44 yrken.

	GPT‑5.2 Thinking	GPT‑5.1 Thinking
GDPval (vinner eller delar plats) ^{kunskapsuppgifter}	70,9 %	38,8 % (GPT‑5)
SWE-Bench Pro (allmän) ^{Mjukvaruutveckling}	55,6 %	50,8 %
SWE-bench Verified ^{Programvaruutveckling}	80,0 %	76,3 %
GPQA Diamond (utan verktyg) ^{Vetenskapliga frågor}	92,4%	88,1 %
CharXiv Reasoning (med Python) ^{Vetenskapliga figurfrågor}	88,7 %	80,3 %
HMMT (Feb 2025) ^{Matematikturnering}	99,4 %	96,3 %
FrontierMath (Tier 1–3) ^{Avancerad matematik}	40,3 %	31,0 %
ARC-AGI-1 (Verifierad) ^{Abstrakt resonemang}	86,2 %	72,8 %
ARC-AGI-2 (Verifierad) ^{Abstrakt resonemang}	52,9 %	17,6 %

I ChatGPT, GPT‑5,2 Instant, Thinking och Pro kommer att börja lanseras idag, med början med betalda abonnemang. I API:n är de nu tillgängliga för alla utvecklare.

Sammantaget innebär GPT‑5.2 betydande förbättringar inom allmän intelligens, förståelse av långa sammanhang, agentiskt verktygsanrop och syn – vilket gör den bättre på att utföra komplexa, verkliga uppgifter från början till slut än någon tidigare modell.

Modellprestanda

Ekonomiskt värdefulla uppgifter

GPT‑5.2 Thinking är vår bästa modell hittills för professionellt bruk i verkliga livet. På GDPval⁠, ett utvärderingssystem som mäter välspecifierade kunskapsarbetsuppgifter inom 44 yrken, är GPT‑5.2 Thinking sätter ett nytt rekord och är vår första modell som presterar på eller över en mänsklig expertnivå. Enligt expertbedömare Enligt expertbedömare överträffar Thinking eller ligger i nivå med branschens främsta experter i 70,9 % av jämförelserna av GDPval-kunskapsarbetsuppgifter. Dessa uppgifter omfattar att göra presentationer, kalkylblad och andra artefakter. GPT‑5.2 Thinking producerade resultat för GDPval-uppgifter mer än elva gånger snabbare och till mindre än en procent av kostnaden jämfört med expertprofessionella, vilket tyder på att GPT‑5.2, när det används tillsammans med mänsklig tillsyn, kan bistå vid professionellt arbete. Hastighets- och kostnadsberäkningar baseras på historiska mått; hastigheten i ChatGPT kan variera.

I GDPval försöker modellerna beskriva välspecificerat kunskapsarbete inom 44 yrken från de nio branscher som bidrar mest till USA:s BNP. Uppgifter begär verkliga arbetsprodukter, såsom försäljningspresentationer, bokföringskalkylblad, scheman för akutvård, tillverkningsdiagram eller korta videor. I ChatGPT har GPT‑5.2 Thinking nya verktyg som GPT‑5 Thinking inte har.

När en särskilt bra utdata granskades, kommenterade en GDPval-domare: ”Det är ett spännande och märkbart språng i utdatans kvalitet... [det] verkar ha utförts av ett professionellt företag med personal och har en överraskande väl utformad layout och råd för båda leveranserna, även om vi fortfarande har några mindre fel att korrigera.”

Dessutom, enligt vårt interna riktmärke för juniora investmentbankanalytikers kalkylbladsmodellering – såsom att sammanställa en modell med tre rapporter för ett Fortune 500-företag, med korrekt formatering och källhänvisningar, eller bygga en modell för ett lånefinansierat uppköp för en privatisering – GPT 5.2 Thinkings genomsnittliga poäng per uppgift är 9,3 % högre än GPT‑5.1:s, vilket är en ökning från 59,1 % till 68,4 %.

Jämförelser sida vid sida visar förbättrad sofistikering och formatering i kalkylblad och bilder genererade av GPT‑5.2. Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Prompt: Skapa en arbetskraftsplaneringsmodell: personalstyrka, rekryteringsabonnemang, personalomsättning och budgetpåverkan. Inkludera avdelningarna för teknik, marknadsföring, juridik och försäljning.

För att använda de nya kalkylblads- och presentationsfunktionerna i ChatGPT måste du vara på ett betalt abonnemang och välja antingen GPT‑5.2 Thinking eller Pro. Komplexa genereringar kan ta många minuter att skapa.

Kodning

GPT‑5.2 Thinking sätter en ny standard på 55,6 % på SWE-bench Pro, en rigorös utvärdering av verklig mjukvaruutveckling. Till skillnad från SWE-bench Verifierad, som endast testar Python, testar SWE-bench Pro på fyra språk och strävar efter att vara mer kontamineringsresistent, utmanande, mångsidig och industriellt relevant.

I SWE-bench Pro⁠(öppnas i ett nytt fönster)⁠⁠⁠, en modell får ett kodarkiv och måste generera en patch för att lösa en realistisk uppgift inom mjukvaruutveckling.

På SWE-bench Verifierad (ej plottad), GPT‑5.2 Thinking får vårt nya högsta betyg på 80 %.

För daglig professionell användning innebär detta en modell som på ett mer tillförlitligt sätt kan felsöka produktionskod, implementera funktionsförfrågningar, omstrukturera stora kodbaser och leverera korrigeringar från början till slut med mindre manuell inblandning.

GPT‑5.2 Thinking är också bättre på front-end-mjukvaruutveckling än GPT‑5.1 Thinking. De första testarna fann att det var betydligt starkare vid frontend-utveckling och komplexa eller okonventionella UI-arbeten – särskilt när det gällde 3D-element – vilket gjorde det till en kraftfull daglig partner för ingenjörer över hela stacken. Se några exempel på vad det kan producera från en enda prompt:

Prompt:Skapa en app med en enda sida i en enda HTML-fil med följande krav: - Namn: Ocean Wave Simulation- Mål: Visa realistiska animerade vågor. - Funktioner: Ändra vindhastighet, våghöjd, belysning. - Användargränssnittet ska vara lugnande och realistiskt.

Tidiga testare delade med sig av sin feedback om GPT‑5.2:s kodningskapacitet:

”GPT-5.2 representerar det största språnget för GPT-modeller inom agentkodning sedan GPT-5 och är en SOTA-kodningsmodell i sin prisklass. Versionshöjningen underskattar språnget i intelligens. Vi är glada över att göra det till standard i hela Windsurf och flera av Devins centrala arbetsbelastningar.”

Jeff Wang, VD, Windsurf

Faktualitet

GPT‑5.2 Thinking hallucinerar mindre än GPT‑5.1 Thinking. I en uppsättning av anonymiserade frågor från ChatGPT var svar med fel 38 %_rel mindre vanliga. För yrkesverksamma innebär detta färre misstag när modellen används för forskning, skrivande, analys och beslutsstöd – vilket gör modellen mer tillförlitlig för det dagliga kunskapsarbetet.

Resonemangskapaciteten sattes till det maximalt tillgängliga och ett sökverktyg aktiverades. Fel upptäcktes av andra modeller, som själva kan göra fel. Felfrekvenser på påståendenivå är mycket lägre än felfrekvenser på svarsnivå, eftersom de flesta svar innehåller många påståenden.

Liksom alla modeller är GPT‑5.2 Thinking inte perfekt. För allt som är viktigt, dubbelkolla svaren.

Lång kontext

GPT‑5.2 Thinking sätter en ny standard inom långsiktigt resonemang och uppnår ledande prestanda på OpenAI MRCRv2 – en utvärdering som testar en modells förmåga att integrera information spridd över långa dokument. Vid verkliga uppgifter som djupgående dokumentanalys, som kräver relaterad information från hundratusentals tokens, GPT‑5.2 Tänkandet är betydligt mer exakt än GPT‑5.1 Thinking. Det är framför allt den första modellen vi har sett som uppnår nästan 100 % noggrannhet på 4-nåls MRCR-varianten (upp till 256 000 tokens).

I praktiken innebär detta att yrkesverksamma kan använda GPT‑5.2 för att arbeta med långa dokument – såsom rapporter, kontrakt, forskningsrapporter, transkriptioner och projekt med flera filer – samtidigt som de upprätthåller sammanhang och noggrannhet över hundratusentals token. Detta gör GPT‑5.2 särskilt väl lämpad för djupgående analys, syntes och komplexa arbetsflöden med flera källor.

I OpenAI-MRCR⁠⁠(öppnas i ett nytt fönster) v2 (multi-round co-reference resolution) infogas flera identiska ”nål”-användarförfrågningar i långa ”höstackar” av liknande förfrågningar och svar, och modellen ombeds att reproducera svaret på den n:te nålen. Version 2 av utvärderingen korrigerar ~5 % av uppgifterna som hade felaktiga grundläggande sanningsvärden. Genomsnittlig matchningsgrad mäter den genomsnittliga strängmatchningsgraden mellan modellens svar och det rätta svaret. Poängen vid 256k max ingångstoken representerar genomsnitt över 128k–256k ingångstoken, och så vidare. Här representerar 256k 256 * 1 024 = 262 114 token. Resonemangskraften sattes till det maximala tillgängliga värdet.

För uppgifter som gynnas av att tänka utanför det maximala kontextfönstret, är GPT‑5.2 Thinking kompatibelt med vår nya Responses /compact-slutpunkt, som utökar modellens effektiva kontextfönster. Detta gör att GPT‑5.2 Thinking kan hantera mer verktygsintensiva, långvariga arbetsflöden som annars skulle vara begränsade av kontextlängden. Läs mer i vår API-dokumentation⁠(öppnas i ett nytt fönster).

Vision

GPT‑5.2 Thinking är vår hittills starkaste visionsmodell, som minskar felfrekvensen med ungefär hälften när det gäller diagramanalys och förståelse av programvarugränssnitt.

För daglig professionell användning innebär detta att modellen kan tolka instrumentpaneler, produktskärmdumpar, tekniska diagram och visuella rapporter mer exakt, vilket underlättar arbetsflöden inom ekonomi, drift, teknik, design och kundsupport där visuell information är central.

I CharXiv Reasoning⁠(öppnas i ett nytt fönster)svarar modeller på frågor om visuella diagram från vetenskapliga artiklar. Ett Python-verktyg aktiverades och resonemanget ställdes in på maximalt.

I ScreenSpot-Pro⁠(öppnas i ett nytt fönster) måste modellerna resonera kring högupplösta skärmdumpar av grafiska användargränssnitt från en rad olika professionella miljöer. Ett Python-verktyg aktiverades och resonansinsatsen sattes till maximal. Utan Python-verktyget blir poängen mycket lägre. Vi rekommenderar att Python-verktyget aktiveras för synuppgifter som dessa.

Jämfört med tidigare modeller har GPT‑5.2 Thinking en starkare förståelse för hur element är placerade i en bild, vilket hjälper vid uppgifter där den relativa layouten spelar en nyckelroll för att lösa problemet. I exemplet nedan ber vi modellen att identifiera komponenterna i en bildindata (i detta fall ett moderkort) och returnera etiketter med ungefärliga avgränsningsrutor. Även på en lågkvalitetsbild identifierar GPT‑5.2 de viktigaste områdena och placerar rutor som ungefär matchar de exakta platserna för varje komponent, medan GPT‑5.1 endast märker några delar och visar en mycket svagare förståelse för deras rumsliga arrangemang.

GPT‑5.1

GPT‑5.2

Verktygsanrop

GPT‑5.2 Thinking uppnår en ny toppnivå på 98,7 % på Tau2-bench Telecom, vilket visar dess förmåga att pålitligt använda verktyg i långa, flerstegsuppgifter.

För latens-känsliga användningsfall är GPT‑5.2 Thinking också mycket bättre när det gäller resonemang.effort=’none’, och överträffar GPT‑5.1 och GPT‑4.1 avsevärt.

I τ2-bench⁠⁠(öppnas i ett nytt fönster) använder modellerna verktyg för att utföra kundsupportuppgifter i en interaktion med flera turer med en simulerad användare. För telekomområdet har vi inkluderat en kort, allmänt användbar instruktion i systemmeddelandet för att förbättra prestandan. Vi utesluter undergruppen flygbolag på grund av lägre kvalitet på marknadsbedömningen.

För yrkesverksamma innebär detta starkare arbetsflöden från början till slut – till exempel att lösa kundsupportärenden, hämta data från flera system, köra analyser och generera slutliga resultat med färre avbrott mellan stegen.

När man till exempel ställer en komplex kundtjänstfråga som kräver flera steg för att lösa, kan modellen mer effektivt samordna ett komplett arbetsflöde mellan flera agenter. I fallet nedan rapporterar en resenär ett försenat flyg, en missad anslutning, en övernattning i New York och ett medicinskt krav på sittplats. GPT‑5.2 hanterar hela kedjan av uppgifter – ombokning, specialassistansplatser och kompensation – och levererar ett mer komplett resultat än GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1

GPT‑5.2

Vetenskap och matte

En av våra förhoppningar för AI är att den ska påskynda den vetenskapliga forskningen till gagn för alla. För att uppnå detta har vi samarbetat med och lyssnat på forskare för att se hur AI kan påskynda deras arbete, och förra månaden delade vi några tidiga samarbetsförsök här⁠.

Vi anser att GPT‑5.2 Pro och GPT‑5.2 Thinking är världens bästa modeller för att bistå och accelerera forskare. På GPQA Diamond, ett Google-säkert Q&A-benchmark på avancerad nivå, uppnår GPT‑5.2 Pro 93,2 %, tätt följt av GPT‑5.2 Thinking med 92,4 %.

I GPQA Diamond⁠(öppnas i ett nytt fönster) svarar modellerna på flervalsfrågor om fysik, kemi och biologi. Inga verktyg var aktiverade och resonemangskraften var inställd på maximal nivå.

På FrontierMath (nivå 1–3), en utvärdering av matematik på expertnivå, satte GPT‑5.2 Thinking satte en ny standard genom att lösa 40,3 % av problemen.

I FrontierMath⁠(öppnas i ett nytt fönster) löser modeller matematiska problem på expertnivå. Ett Python-verktyg aktiverades och resonemangskraften ställdes in på maximal.

Vi börjar se hur AI-modeller på ett konkret sätt på ett meningsfullt sätt accelererar framstegen inom matematik och naturvetenskap. Till exempel, i nyligen utfört arbete⁠ med GPT‑5.2 Pro, utforskade forskare en öppen fråga inom statistisk inlärningsteori. I en smal, väl specificerad miljö föreslog modellen ett bevis som därefter verifierades av författarna och granskades av externa experter, vilket illustrerar hur frontier-modeller kan hjälpa matematisk forskning under nära mänsklig övervakning.

ARC-AGI 2

På ARC-AGI-1 (Verifierad), ett riktmärke utformat för att mäta allmän resonemangsförmåga, är GPT‑5.2 den första modellen att överstiga 90 %-gränsen, en förbättring från 87 % av o3‑förhandsgranskningen förra året samtidigt som kostnaden för att uppnå den prestandan minskades med ungefär 390 gånger.

På ARC-AGI-2 (Verifierad), vilket ökar svårighetsgraden och bättre isolerar flytande resonemang, uppnår GPT‑5.2 Thinking en ny toppnivå för tankekedjemodeller, med en poäng på 52,9 %. GPT‑5.2 Pro presterar ännu bättre och når 54,2 %, vilket ytterligare utökar modellens förmåga att resonera genom nya, abstrakta problem.

Förbättringar i dessa utvärderingar återspeglar GPT‑5.2:s kapacitet för starkare flerstegsresonemang, större kvantitativ noggrannhet och mer tillförlitlig problemlösning vid komplexa tekniska uppgifter.

Så här säger våra tidiga testare om GPT‑5.2:

”GPT-5.2 låste upp ett komplett arkitekturskifte för oss. Vi kollapsade ett bräckligt multiagent-system till en enda mega-agent med över 20 verktyg. Det bästa är att det bara fungerar. Mega-agenten är snabbare, smartare och 100 gånger lättare att underhålla. Vi ser mycket lägre latens, mycket starkare verktygsanrop, och vi behöver inte längre omfattande systemprompt eftersom 5.2 kommer att köras smidigt med en enkel, enradig prompt. Det känns som ren magi.”

AJ Orbach, VD, Triple Whale

GPT‑5.2 i ChatGPT

I ChatGPT ska användare märka att GPT‑5.2 känns bättre att använda dagligen – mer strukturerad, mer pålitlig och fortfarande trevlig att prata med.

GPT‑5.2 Instant är ett snabbt och kapabelt verktyg för vardagligt arbete och lärande, med tydliga förbättringar inom informationssökning, instruktioner och genomgångar, teknisk skrivning och översättning, och bygger vidare på den varmare samtalstonen som introducerades i GPT‑5.1 Instant. Tidiga testare noterade särskilt tydligare förklaringar som presenterar viktig information direkt.

GPT‑5.2 Thinking är utformad för djupare arbete och hjälper användare att hantera mer komplexa uppgifter med större finess – särskilt för kodning, sammanfattning av långa dokument, svar på frågor om uppladdade filer, stegvis genomgång av komplex matematik och logik samt hjälp med planering och beslutsfattande med tydligare struktur och mer användbara detaljer.

GPT‑5.2 Pro är vårt smartaste och mest pålitliga alternativ för svåra frågor där ett svar av högre kvalitet är värt att vänta på, med tidiga tester som visar färre större fel och bättre prestanda inom komplexa domäner som programmering.

Säkerhet

GPT‑5.2 bygger vidare på den forskning om säkra slutföranden⁠ som vi introducerade med GPT‑5, vilket lär modellen att ge det mest användbara svaret samtidigt som den bibehåller säkerhetsgränserna.

Med den här versionen fortsatte vi vårt arbete med att förbättra våra modellers svar i känsliga samtal⁠, med betydande förbättringar i hur de svarar på frågor som tyder på självmord eller självskadebeteende, psykisk ohälsa eller emotionellt beroende av modellen. Dessa riktade insatser har resulterat i färre oönskade reaktioner i både GPT‑5.2 Instant och GPT‑5.2 Thinking jämfört med GPT‑5.1 och GPT‑5 Instant- och Thinking-modeller. Mer information finns i systemkortet⁠.

Vi är i de tidiga stadierna av att lansera vår åldersförutsägelsemodell⁠ så att vi automatiskt kan tillämpa innehållsskydd för användare under 18 år, för att begränsa tillgången till känsligt innehåll. Detta bygger på vår befintliga strategi för användare som vi vet är under 18 år och våra föräldrainställningar.

GPT‑5.2 är ett steg i en pågående serie förbättringar, och vi är långt ifrån färdiga. Även om den här versionen ger betydande förbättringar i intelligens och produktivitet, vet vi att det finns områden där användarna vill ha mer. I ChatGPT arbetar vi med kända problem som överdrivna avslag, samtidigt som vi fortsätter att höja ribban för säkerhet och tillförlitlighet i allmänhet. Dessa förändringar är komplexa, och vi fokuserar på att göra dem rätt.

Utvärderingar av psykisk hälsa

	GPT‑5.2 Instant	GPT‑5.1 Instant	GPT‑5.2 Thinking	GPT‑5.1 Thinking
Psykisk hälsa	0,995	0,883	0,915	0,684
Känslomässigt beroende	0,938	0,945	0,955	0,785
Självskada	0,938	0,925	0,963	0,937

Tillgänglighet och priser

I ChatGPT börjar vi idag lansera GPT‑5.2 (Instant, Thinking och Pro), med början för betalda abonnemang (Plus, Pro, Go, Business, Enterprise). Vi implementerar GPT‑5.2 gradvis för att ChatGPT ska fungera så smidigt och tillförlitligt som möjligt. Om du inte ser den direkt, försök igen senare. I ChatGPT kommer GPT‑5.1 fortfarande att vara tillgängligt för betalande användare i tre månader enligt äldre modeller, varefter vi kommer att avveckla GPT‑5.1.

Modellnamngivning i ChatGPT och API

ChatGPT	API
ChatGPT‑5.2 Instant	GPT‑5.2‑chatt‑latest
ChatGPT‑5.2 Thinking	GPT‑5.2
ChatGPT‑5.2 Pro	GPT‑5.2 Pro

I vår API-plattform är GPT‑5.2 Thinking idag tillgängligt i svar-API och API för slutförda chattar, som GPT‑5.2 och GPT‑5.2 Instant som GPT‑5.2‑chat‑latest. GPT‑5.2 Pro är tillgänglig i svar-API som gpt-5.2-pro. Utvecklare kan nu ställa in resonemangsparametern i GPT‑5.2 Pro, och både GPT‑5.2 Pro och GPT‑5.2 Thinking har nu stöd för den nya femte resonemangsinsatsen av xhigh, för uppgifter där kvalitet är viktigast.

GPT‑5.2 kostar 1,75 $/1 miljoner indatatokens och 14 $/1 miljoner utdatatokens, med 90 % rabatt på cachade indatatokens. Vid flera agentiska utvärderingar upptäckte vi att, trots GPT‑5.2:s högre kostnad per token, blev kostnaden för att uppnå en given kvalitetsnivå mindre tack vare GPT‑5.2:s större tokeneffektivitet.

Medan priset för ChatGPT‑abonnemanget förblir oförändrat, är priset per token för API GPT‑5.2 högre än för GPT‑5.1, eftersom det är en mer kapabel modell. Priset ligger fortfarande under andra gränsöverskridande modeller, så användarna kan fortsätta att använda den flitigt i sitt dagliga arbete och sina kärnprogram.

Pris per miljon tokens

Modell	Indata	Cachad indata	Utdata
GPT‑5.2 / GPT‑5.2‑chatt‑latest	1,75 $	0,175 $	14 $
gpt-5.2-pro	21 $	-	168 $
GPT‑5.1 / GPT‑5.1‑chatt‑latest	1,25 $	0,125 $	10 $
gpt-5-pro	15 $	-	120 USD

Vi har för närvarande inga planer på att avveckla GPT‑5.1, GPT‑5, eller GPT‑4.1 i API:n, och vi kommer att meddela eventuella planer med god framförhållning till utvecklare. GPT‑5.2 fungerar bra direkt i Codex, men vi räknar med att släppa en version av GPT‑5.2 som är optimerad för Codex inom de närmaste veckorna.

Våra partners

GPT‑5.2 byggdes i samarbete med våra långvariga partners NVIDIA och Microsoft. Azure-datacenter och NVIDIA-GPU:er, inklusive H100, H200 och GB200-NVL72, ligger till grund för OpenAI:s storskaliga träningsinfrastruktur, vilket ger betydande vinster i modellintelligens. Tillsammans gör detta samarbete det möjligt för oss att skala upp beräkningskapaciteten med tillförsikt och snabbare lansera nya modeller på marknaden.

Bilaga

Utförliga riktmärken

Nedan rapporterar vi omfattande benchmarkresultat för GPT‑5.2. Thinking, tillsammans med en delmängd för GPT‑5.2 Pro

Professionell

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
GDPval (ties allowed, wins or ties)	70.9%	74.1%	38.8% (GPT-5)
GDPval (ties allowed, clear wins)	49.8%	60.0%	35.5% (GPT-5)
GDPval (no ties)	61.0%	67.6%	37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)	68.4%	71.7%	59.1%

Kodning

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
SWE-Bench Pro, Public	55.6%	-	50.8%
SWE-bench Verified	80.0%	-	76.3%
SWE-Lancer, IC Diamond*	74.6%	-	69.7%

Faktualitet

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
ChatGPT answers without errors (w/ search)	93.9%	-	91.2%
ChatGPT answers without errors (no search)	88.0%	-	87.3%

Långt kontext

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k	98.2%	-	65.3%
OpenAI MRCRv2, 8 needles, 8k–16k	89.3%	-	47.8%
OpenAI MRCRv2, 8 needles, 16k–32k	95.3%	-	44.0%
OpenAI MRCRv2, 8 needles, 32k–64k	92.0%	-	37.8%
OpenAI MRCRv2, 8 needles, 64k–128k	85.6%	-	36.0%
OpenAI MRCRv2, 8 needles, 128k–256k	77.0%	-	29.6%
BrowseComp Long Context 128k	92.0%	-	90.0%
BrowseComp Long Context 256k	89.8%	-	89.5%
GraphWalks bfs <128k	94.0%	-	76.8%
Graphwalks parents <128k	89.0%	-	71.5%

Vision

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
CharXiv reasoning (no tools)	82.1%	-	67.0%
CharXiv reasoning (w/ Python)	88.7%	-	80.3%
MMMU Pro (no tools)	79.5%	-	-
MMMU Pro (w/ Python)	80.4%	-	79.0%
Video MMMU (no tools)	85.9%	-	82.9%
Screenspot Pro (w/ Python)	86.3%	-	64.2%

Verktygsanvändning

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
Tau2-bench Telecom	98.7%	-	95.6%
Tau2-bench Retail	82.0%	-	77.9%
BrowseComp	65.8%	77.9%	50.8%
Scale MCP-Atlas	60.6%	-	44.5%
Toolathlon	46.3%	-	36.1%

Akademisk

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
GPQA Diamond (no tools)	92.4%	93.2%	88.1%
HLE (no tools)	34.5%	36.6%	25.7%
HLE (w/ search, Python)	45.5%	50.0%	42.7%
MMMLU	89.6%	-	89.5%
HMMT, Feb 2025 (no tools)	99.4%	100.0%	96.3%
AIME 2025 (no tools)	100.0%	100.0%	94.0%
FrontierMath Tier 1–3 (w/ Python)	40.3%	-	31.0%
FrontierMath Tier 4 (w/ Python)	14.6%	-	12.5%

Abstrakt resonemang

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
ARC-AGI-1 (Verified)	86.2%	90.5%	72.8%
ARC-AGI-2 (Verified)	52.9%	54.2% (high)	17.6%

^{Modellerna kördes med maximal tillgänglig resonemangsansträngning i vår API (xhigh för GPT‑5.2 Thinking och Pro, och högt för GPT‑5.1 Thinking), förutom för de professionella utvärderingarna, där GPT‑5.2 Thinking kördes med tung resonemangsinsats, det maximalt tillgängliga i ChatGPT Pro. Benchmarktester utfördes i en forskningsmiljö, vilket kan ge något annorlunda resultat jämfört med ChatGPT i produktion i vissa fall.}

^{* För SWE-Lancer utelämnar vi 40/237 problem som inte kunde köras på vår infrastruktur.}

2025

Författare

OpenAI

Fortsätt läsa

Visa alla

Bättre pris och prestanda med GPT-5.6

Produkt30 juli 2026

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Företag29 juli 2026

Lansering av Hälsa i ChatGPT

Produkt23 juli 2026