Hopp til hovedinnhold
OpenAI

11. desember 2025

ProduktUtgivelse

Vi vil få presentere GPT‑5.2

Den mest avanserte modellen for profesjonelt arbeid og langvarige agenter.

Laster inn …

Vi introduserer GPT‑5.2, den mest kapable modelltypen hittil for profesjonelt kunnskapsarbeid.

Sen gjennomsnittlige ChatGPT Enterprise-brukeren sier allerede at AI sparer dem 40-60 minutter om dagen, og storbrukere sier at det sparer dem mer enn 10 timer i uken. Vi designet GPT‑5.2 for å frigjøre enda mer økonomisk verdi for folk. Den er bedre til å opprett regneark, lage presentasjoner, skrive kode, oppfatte bilder, forstå lange kontekster, bruke verktøy og håndtere komplekse prosjekter med flere trinn.

GPT‑5.2 setter en ny standard på tvers av mange målestokker, inkludert GDPval, hvor den overgår bransjefolk på velspesifiserte kunnskapsoppgaver som spenner over 44 yrker.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (seier eller uavgjort)
Kunnskapsarbeidsoppgaver

70,9 %

38,8 % (GPT‑5)

SWE-Bench Pro (public)
Programvareutvikling

55,6 %

50,8 %

SWE-bench Verified
Programvareutvikling

80,0 %

76,3 %

GPQA Diamond (ingen verktøy)
Vitenskapsspørsmål

92,4 %

88,1 %

CharXiv Reasoning (med Python)
Vitenskapelige figurspørsmål

88,7 %

80,3 %

HMMT (Feb 2025)
Matematikkturnering

99,4 %

96,3 %

FrontierMath (Tier 1–3)
Avansert matematikk

40,3 %

31,0 %

ARC-AGI-1 (Verifisert)
Abstrakt resonnement

86,2 %

72,8 %

ARC-AGI-2 (Verifisert)
Abstrakt resonnement

52,9 %

17,6 %

Notion(åpnes i et nytt vindu), Box(åpnes i et nytt vindu), Shopify(åpnes i et nytt vindu), Harvey(åpnes i et nytt vindu) og Zoom(åpnes i et nytt vindu) observerte at GPT‑5.2 demonstrerer toppmoderne evne til langsiktig resonnering og verktøybruk. Databricks(åpnes i et nytt vindu), Hex(åpnes i et nytt vindu) og Triple Whale(åpnes i et nytt vindu) fastslo at GPT‑5.2 var eksepsjonell til agentisk datavitenskap og dokumentanalyseoppgaver. Cognition(åpnes i et nytt vindu), Warp(åpnes i et nytt vindu), Charlie Labs(åpnes i et nytt vindu), JetBrains(åpnes i et nytt vindu) og Augment Code(åpnes i et nytt vindu) sier at GPT‑5.2 leverer toppmoderne agentisk kodeytelse, med målbare forbedringer i områder som interaktiv koding, kodegjennomganger og feilfinning.

I ChatGPT, GPT‑5.2 Lansering av Instant, Thinking og Pro starter i dag, fra og med betalte planer. I API-et er de nå tilgjengelige for alle utviklere.

Samlet sett gir GPT‑5.2 betydelige forbedringer i generell intelligens, forståelse av lange kontekster, agentisk verktøykalling og visuell forståelse – noe som gjør den bedre til å utføre komplekse, virkelige oppgaver fra start til slutt enn noen tidligere modell.

Modellytelse

Økonomisk verdifulle oppgaver

GPT‑5.2 Thinking er den beste modellen hittil for praktisk, profesjonell bruk. På GDPval, en evaluering som måler veldefinerte kunnskapsarbeidsoppgaver på tvers av 44 yrker, setter GPT‑5.2 Thinking en ny toppscore, og er vår første modell som presterer på eller over et menneskelig ekspertnivå. Spesifikt er GPT‑5.2 Thinkin bedre enn eller på nivå med toppledere i bransjen i 70,9 % av sammenligningene av GDPval kunnskapsarbeidsoppgaver, ifølge menneskelige eksperter. Disse oppgavene inkluderer å lage presentasjoner, regneark og andre artefakter. GPT‑5.2 Thinking produserte resultater for GDPval-oppgaver med >11 ganger hastigheten og <1 % av kostnaden for eksperter, noe som tyder på at GPT‑5.2 kan hjelpe til med profesjonelt arbeid når det kombineres med menneskelig tilsyn. Hastighet- og kostnadsestimater er basert på historiske målinger; hastigheten i ChatGPT kan variere.

I GDPval forsøker modellene å utføre velspesifisert kunnskapsarbeid som spenner over 44 yrker fra de ni største næringene som bidrar til USAs BNP. Oppgaver ber om reelle arbeidsprodukter, for eksempel salgspresentasjoner, regnskapsregneark, timeplaner for akuttmottak, produksjonsdiagrammer eller korte videoer. I ChatGPT, har GPT‑5.2 Thinking nye verktøy som GPT‑5 Thinking ikke har.

Da en GDPval-ekspert vurderte ett spesielt godt resultat, kommenterte vedkommende: «Det er et spennende og merkbart sprang i resultatkvalitet ... [det] ser ut til å ha blitt gjort av et profesjonelt selskap med ansatte, og har et overraskende godt designet oppsett og råd for begge leveransene, selv om vi fortsatt har noen mindre feil å rette opp i ett av dem.»

Dertil, på vår interne referanseverdi av regnearkmodelleringsoppgaver for junior investeringsbankanalytikere – som å sette sammen en tre-setningsmodell for et Fortune 500-selskap med riktig formatering og sitater, eller å bygge en oppkjøpsmodell for et avnotert selskap – er GPT 5.2 Thinkings gjennomsnittlige poengsum per oppgave 9,3 % høyere enn poengsummen til GPT‑5.1. med en økning fra 59,1 % til 68,4 %.

Side-ved-side-sammenligninger viser forbedret raffinement og formatering i regneark og lysbilder generert av GPT‑5.2 Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Spørsmål: Lag en modell for bemanningsplanlegging: antall ansatte, ansettelsesplan, avgang og budsjettpåvirkning. Inkluder ingeniør-, markedsførings-, jus- og salgsavdelingene.

For å bruke de nye regneark- og presentasjonsfunksjonene i ChatGPT, må du ha et kostnadsbelagt abonnement og velge enten GPT‑5.2 Thinking eller Pro. Komplekse genereringer kan ta mange minutter å lage.

Koding

GPT‑5.2 Thinking setter en ny standard på 55,6 % for SWE-bench Pro, en grundig evaluering av programvareutvikling i den virkelige verden. I motsetning til SWE-bench Verified, som kun tester Python, tester SWE-bench Pro fire språk og har som mål å være mer motstandsdyktig mot forurensning, utfordrende, mangfoldig og industrielt relevant.

I SWE-bench Pro(åpnes i et nytt vindu)får en modell et kodearkiv og må generere en patch for å løse en realistisk programvareutviklingsoppgave.

På SWE-bench Verified (ikke plottet), GPT‑5.2 oppnår Thinking vår nye rekord på 80 %.

For daglig profesjonell bruk betyr dette en modell som kan utføre feilsøking av produksjonskode, implementere funksjonsforespørsler, refaktorere store kodebaser på en mer pålitelig måte og levere løsninger fra start til slutt med mindre manuell intervensjon.

GPT‑5.2 Thinking er også bedre på front-end programvareutvikling enn GPT‑5.1 Thinking. Tidlige testere fant at den var betydelig sterkere innen front-end utvikling og komplekst eller ukonvensjonelt UI-arbeid—spesielt når det involverer  3D-elementer—noe som gjør den til en kraftig daglig partner for ingeniører på tvers av hele stakken. Se noen eksempler på hva den kan produsere basert på én enkelt kommando:

Kommando: Opprett en enkelt-sideapp i en enkelt HTML-fil med følgende krav:
- Navn: Ocean Wave Simulation
- Mål: Vise realistiske animerte bølger.
- Funksjoner: Endre vindhastighet, bølgehøyde, belysning.
- Brukergrensesnittet skal være beroligende og realistisk.

Tidlige testere delte sin tilbakemelding på GPT‑5.2 og dens kodefunksjonaliteter:

«GPT-5.2 representerer det største spranget for GPT-modeller innen agentkoding siden GPT-5, og er en SOTA-kodingmodell i sin prisklasse. Versjonsøkningen underformidler hvor mye intelligensen har økt. Vi er begeistret for å gjøre det til standarden på tvers av Windsurf og flere av de sentrale Devin-arbeidsbelastningene.»
Jeff Wang, administrerende direktør i Windsurf

Faktagrunnlag

GPT‑5.2 Thinking hallusinerer mindre enn GPT‑5.1 Thinking. På et sett med avidentifiserte forespørsler fra ChatGPT, var det mindre vanlig med svar med feil 38 %rel. For fagfolk betyr dette færre feil når modellen brukes til forskning, skriving, analyse og beslutningsstøtte—noe som gjør modellen mer pålitelig for daglig kunnskapsarbeid.

Resonneringsinnsats ble satt til det maksimalt tilgjengelige, og et søkeverktøy ble aktivert. Feil ble påvist av andre modeller, som selv kan gjøre feil. Feilrater på påstandsnivå er langt lavere enn feilrater på responsnivå, ettersom de fleste svar inneholder mange påstander.

Som alle modeller er GPT‑5.2 Thinking ufullkommen. Dobbeltsjekk svarene for alt som er av kritisk betydning.

Lang kontekst

GPT‑5.2 Thinking setter en ny standard innen langkontekstresonnement, og oppnår ledende ytelse på OpenAI MRCRv2—en evaluering som tester en modells evne til å integrere informasjon spredt over lange dokumenter. På oppgaver i den virkelige verden som dyp dokumentanalyse, som krever relatert informasjon på tvers av hundretusener av tokens, er GPT‑5.2 Thinking vesentlig mer nøyaktig enn GPT‑5.1 Thinking. Spesielt er det den første modellen vi har sett som oppnår nesten 100 % nøyaktighet på 4-needle MRCR-varianten (ut til 256k tokens).

Praktisk sett, gjør dette det mulig for fagfolk å bruke GPT‑5.2 å arbeide med lange dokumenter—som rapporter, kontrakter, forskningsartikler, transkripsjoner og prosjekter med flere filer—samtidig som de opprettholder sammenheng og nøyaktighet over hundretusener av tokens. Dette gjør GPT‑5.2 spesielt godt egnet for dyp analyse, syntese og komplekse arbeidsflyter med flere kilder.

I OpenAI-MRCR⁠(åpnes i et nytt vindu) v2 (medreferanseløsning i flere runder), settes flere identiske «nålforespørsler» fra brukere inn i lange «høystakker» av lignende forespørsler og svar, og modellen blir bedt om å reprodusere svaret til den n-te nålen. Versjon 2 av evalueringen korrigerer ~5 % av oppgavene som hadde feilaktige fasitverdier. Gjennomsnittlig matchforhold måler den gjennomsnittlige strengmatchen mellom modellens svar og det riktige svaret. Punktene ved 256k maks inndatatokener representerer gjennomsnitt over 128k–256k inndatatokener, og så videre. Her representerer 256k 256 * 1,024 = 262,114 tokener. Resonneringsinnsatsen ble satt til det maksimalt tilgjengelige.

For oppgaver som drar nytte av å tenke utover det maksimale kontekstvinduet, er GPT‑5.2 Thinking er kompatibel med vårt nye Responses /compact-endepunkt, som utvider modellens effektive kontekstvindu. Dette gjør at GPT‑5.2 Thinking kan håndtere mer verktøytunge, langvarige arbeidsflyter som ellers ville vært begrenset av kontekstens lengde. Les mer i vår API-dokumentasjon(åpnes i et nytt vindu).

Vision

GPT‑5.2 Thinking er vår sterkeste visjonsmodell hittil, og reduserer feilrater med omtrent halvparten på diagramresonnering og forståelse av programvaregrensesnitt.

For daglig profesjonell bruk betyr dette at modellen kan tolke instrumentpaneler, produktskjermbilder, tekniske diagrammer og visuelle rapporter på en mer nøyaktig måte—og støtte arbeidsflyt innen finans, drift, ingeniørfag, design og kundestøtte der visuell informasjon er sentral.

I CharXiv-resonnering(åpnes i et nytt vindu) svarer modeller på spørsmål om visuelle diagrammer fra vitenskapelige artikler. Et Python-verktøy ble aktivert, og resonneringsmodellen ble satt til maksimum.

I ScreenSpot-Pro(åpnes i et nytt vindu) må modeller resonnere om høyoppløselige skjermbilder av grafiske brukergrensesnitt fra en rekke profesjonelle miljøer. Et Python-verktøy ble aktivert, og resonnementinnsatsen ble satt til maksimum. Uten Python-verktøyet er poengene mye lavere. Vi anbefaler å aktiver ePython-verktøyet for visuelle oppgaver som disse.

Sammenlignet med tidligere modeller, har GPT‑5.2 Tenkning en bedre forståelse av hvordan elementene er plassert i et bilde, noe som hjelper med oppgaver der relativ utforming spiller en nøkkelrolle i å løse problemet. I eksemplet nedenfor ber vi modellen om å identifisere komponentene i en bildeinngang (i dette tilfellet et hovedkort) og returnere etiketter med omtrentlige avgrensningsbokser. Selv på et bilde av lav kvalitet identifiserer GPT‑5.2 hovedområdene og plasserer bokser som omtrent samsvarer med den faktiske plasseringen av hver komponent, mens GPT‑5.1 bare merker noen få deler og viser mye svakere forståelse av deres romlige arrangement.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

Verktøy som bruker

GPT‑5.2 Thinking, oppnår en ny toppmoderne ytelse på 98,7 % på Tau2-bench Telecom, og viser sin evne til å bruke verktøy pålitelig i lange flertrinnsoppgaver.

For brukstilfeller som er følsomme for forsinkelse, er GPT‑5.2 Thinking mye bedre i resonnement.effort=’none’, og overgår betydelig GPT‑5.1 og GPT‑4.1.

I τ2-bench⁠(åpnes i et nytt vindu) bruker modeller verktøy for å fullføre kundestøtteoppgaver i en flertrinnsinteraksjon med en simulert bruker. For telekomdomenet inkluderte vi en kort, generelt nyttig instruksjon i systemmeldingen for å forbedre ytelsen. Vi utelater flyselskap-undergruppen på grunn av lavere kvalitet på vurderingen av grunnsannheten.

For profesjonelle betyr dette sterkere ende-til-ende-arbeidsflyt—som å løse kundestøttesaker, hente data fra flere systemer, kjøre analyser og generere endelige resultater med færre avbrudd mellom trinnene.

Når du for eksempel stiller et komplekst kundeservicespørsmål som krever flertrinnsløsninger, kan modellen mer effektivt koordinere en full arbeidsflyt på tvers av flere agenter. I følgende tilfelle rapporterer en reisende en forsinket flyvning, en tapt forbindelse, en overnatting i New York og et medisinsk sete krav. GPT‑5.2 håndterer hele kjeden av oppgaver—ombooking, spesialassistanseseter og kompensasjon—og leverer et mer fullstendig resultat enn GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

Vitenskap og matematikk

Noe av det vi håper på for KI er at det vil akselerere vitenskapelig forskning til fordel for alle. For å oppnå dette har vi jobbet med og lyttet til forskere for å se hvordan KI kan få fart på arbeidet deres, og forrige måned delte vi noen tidlige samarbeidseksperimenter her.

Vi tror at GPT‑5.2 Pro og GPT‑5.2 Thinking er verdens beste modell for å assistere og akselerere vitenskapsfolk. Med GPQA Diamond, en Google-sikker spørsmål og svar-benchmark på masternivå, oppnår GPT‑5.2 Pro 93,2 %, tett fulgt av GPT‑5.2 Thinking på 92,4 %.

I GPQA Diamond(åpnes i et nytt vindu) svarer modeller på flervalgsspørsmål om fysikk, kjemi og biologi. Ingen verktøy ble aktivert, og resonneringsinnsatsen ble satt til maksimum.

På FrontierMath (nivå 1–3), en evaluering av matematikk på ekspertnivå, satte GPT‑5.2 Thinking en ny standard for det ypperste, og løste 40,3 % av problemene.

I FrontierMath(åpnes i et nytt vindu) løser modeller matematikkproblemer på ekspertnivå. Et Python-verktøy ble aktivert, og resonneringsinnsatsen ble satt til maksimum.

Vi begynner å se at KI-modeller på en meningsfull måte akselererer fremskritt i matematikk og naturfag. For eksempel, i nylig arbeid med GPT‑5.2 Pro, utforsket forskere et åpent spørsmål innen statistisk læringsteori. I en snever, velspesifisert situasjon foreslo modellen et bevis som senere ble verifisert av forfatterne og gjennomgått med eksterne eksperter, noe som illustrerer hvordan grensemodeller kan hjelpe matematisk forskning under nøye menneskelig tilsyn.

ARC-AGI 2

På ARC-AGI-1 (Verifisert), en referanseindeks utviklet for å måle generell resonneringsevne, er GPT‑5.2 den første modellen som krysser 90 %-terskelen, og forbedrer seg fra 87 % ved o3‑forhåndsvisning i fjor, samtidig som kostnadene for å oppnå denne ytelsen reduseres med omtrent 390 ganger.

På ARC-AGI-2 (verifisert), som øker vanskelighetsgraden og bedre isolerer flytende resonnement, oppnår GPT‑5.2 Thinking en ny toppstandard for tankerekkemodeller, med en score på 52,9 %. GPT‑5.2 Pro presterer enda bedre, og når 54,2 %, noe som ytterligere utvider modellens evne til å resonnere gjennom nye, abstrakte problemer.

Forbedringer på tvers av disse evalueringene viser at GPT‑5.2s har sterkere flertrinnsresonnering, større kvantitativ nøyaktighet og mer pålitelig problemløsning på komplekse tekniske oppgaver.

Her er hva våre tidlige testere sier om GPT‑5.2:

«GPT-5.2 låste opp et fullstendig arkitekturskifte for oss. Vi slo sammen et skjørt multiagentsystem til en enkelt mega-agent med over 20 verktøy. Det beste er at det bare fungerer. Mega-agenten er raskere, smartere og 100 ganger enklere å vedlikeholde. Vi ser dramatisk lavere latens, mye sterkere verktøykall, og vi trenger ikke lenger lange systemledetekster, fordi 5.2 kjøres rent fra en enkel ledetekst på én linje. Det føles som ren magi.
AJ Orbach, administrerende direktør i Triple Whale

GPT‑5.2 i ChatGPT

I ChatGPT bør brukerne merke at GPT‑5.2 føles bedre å bruke i hverdagen – mer strukturert, mer pålitelig og fortsatt hyggelig å snakke med.

GPT‑5.2 Instant er en rask og kapabel arbeidshest for daglig arbeid og læring, med klare forbedringer i informasjonssøkende spørsmål, veiledninger og gjennomganger, teknisk skriving og oversettelse, og bygger på den varmere samtaletonen som ble introdusert i GPT‑5.1 Instant. Tidlige testere la spesielt merke til klarere forklaringer som fremhever nøkkelinformasjon umiddelbart.

GPT‑5.2 Thinking er utviklet for dypere arbeid, og hjelper brukere med å takle mer komplekse oppgaver med større raffinement – spesielt for koding, oppsummering av lange dokumenter, svar på spørsmål om opplastede filer, arbeid med matematikk og logikk trinn for trinn, og støtte planlegging og beslutninger med tydeligere struktur og mer nyttige detaljer.

GPT‑5.2 Pro er vårt smarteste og mest pålitelige alternativ for vanskelige spørsmål der et svar av høyere kvalitet er verdt ventetiden, med tidlig testing som viser færre større feil og sterkere ytelse i komplekse domener som programmering.

Sikkerhet

GPT‑5.2 bygger på forskningen på sikker fullføring som vi introduserte med GPT‑5, som lærer modellen å gi det mest nyttige svaret samtidig som den holder seg innenfor sikkerhetsgrensene.

Med denne utgivelsen fortsatte vi arbeidet med å styrke modellenes responser i sensitive samtaler, med betydelige forbedringer i hvordan de reagerer på spørsmål som indikerer tegn på selvmord eller selvskading, psykiske helseproblemer eller emosjonell avhengighet av modellen. Disse målrettede intervensjonene har resultert i færre uønskede responser i både GPT‑5.2 Instant og GPT‑5.2 Thinking, sammenlignet med GPT‑5.1 og GPT‑5 Instant og Thinking-modellene. Ytterligere detaljer finner du i systemkortet.

Vi er i en tidlig fase av utrullingen av vår aldersforutsigelsesmodell , slik at vi automatisk kan bruke innholdsbeskyttelse for brukere under 18 år for å begrense tilgangen til sensitivt innhold. Dette bygger på vår eksisterende tilnærming til brukere vi vet er under 18 år og våre foreldrekontroller.

GPT‑5.2 er ett steg i en pågående serie av forbedringer, og vi er langt fra ferdige. Selv om denne utgivelsen gir meningsfulle gevinster innen intelligens og produktivitet, vet vi at det finnes områder hvor folk ønsker mer. I ChatGPT jobber vi med kjente problemer som overdrevne avslag, samtidig som vi fortsetter å heve standarden for sikkerhet og pålitelighet generelt. Disse endringene er komplekse, og vi er fokusert på å få dem riktig.

Evalueringer av mental helse


GPT‑5.2
Instant

GPT‑5.1
Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

Psykisk helse

0,995

0,883

0,915

0,684

Emosjonell avhengighet

0,938

0,945

0,955

0,785

Selvskading

0,938

0,925

0,963

0,937

Tilgjengelighet og pris

I ChatGPT begynner vi å rulle ut GPT‑5.2 (Instant, Thinking og Pro) i dag, og vi starter med betalte abonnementer (Plus, Pro, Go, Business, Enterprise). Vi ruller ut GPT‑5.2 gradvis for å gjøre ChatGPT så smidig og pålitelig som mulig. Hvis du ikke ser det med det samme, kan du prøve igjen senere. I ChatGPT vil GPT‑5.1 fortsatt være tilgjengelig for betalende brukere i tre måneder under eldre modeller, hvoretter vi avvikler GPT‑5.1.

Modellnavngivning på tvers av ChatGPT og API

ChatGPT

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

I vår API-plattform, er GPT‑5.2 Tenkning tilgjengelig i dag i Responses API og Chat Completions API (API for samtalesvar) som GPT‑5.2, og GPT‑5.2 Instant som gpt-5.2-chat-latest. GPT‑5.2 Pro er tilgjengelig i Responses API som gpt-5.2-pro. Utviklere kan nå sette resonnementparameteren i GPT‑5.2 Pro, og begge GPT‑5.2 Pro og GPT‑5.2 Nå støtter Thinking den nye femte resonneringsinnsatsen til xhigh, for oppgaver der kvalitet er viktigst.

GPT‑5.2 er priset til 1,75 USD/1 million input-tokens og 14 USD/1 million output-tokens, med 90 % rabatt på hurtigbufrede input-tokens. På flere agentbaserte evalueringer fant vi at til tross for GPT‑5.2s større kostnad per token, ble kostnaden for å oppnå et gitt kvalitetsnivå lavere på grunn av GPT‑5.2s større tokeneffektivitet.

Mens abonnementsprisen på ChatGPT forblir den samme, er GPT‑5.2 i API-et priset høyere per token enn GPT‑5.1 fordi det er en modell med større kapasitet. Den er fortsatt priset lavere enn andre banebrytende modeller, så folk kan fortsette å bruke den i stor grad i sitt daglige arbeid og kjerneapplikasjoner.

Pris per million tokener

Modell

Inndata

Bufrede inndata

Utdata

gpt-5.2 /
gpt-5.2-chat-latest

1,75 USD

0,175 USD

14 USD

gpt-5.2-pro

21 USD

168 USD

gpt-5.1 / gpt-5.1-chat-latest

1,25 USD

0,125 USD

10 USD

gpt-5-pro

15 USD

120 USD

Vi har ingen nåværende planer om å avvikle GPT‑5.1. GPT‑5, eller GPT‑4.1 i API-et, og vi vil kommunisere eventuelle planer om avvikling med god forhåndsvarsel til utviklere. Selv om GPT‑5.2 vil fungere godt rett ut av boksen i Codex, forventer vi å lansere en versjon av GPT‑5.2 som er optimalisert for Codex i løpet av de neste ukene.

Våre partnere

GPT‑5.2 ble bygget i samarbeid med våre langvarige partnere NVIDIA og Microsoft. Azure-datasentre og NVIDIA-GPU-er, inkludert H100, H200 og GB200-NVL72, utgjør grunnlaget for OpenAIs storskala opplæringsinfrastruktur, og gir betydelige gevinster innen modellintelligens. Dette samarbeidet gjør oss i stand til å skalere databehandlingskapasitet trygt, og introdusere nye modeller til markedet raskere.

Vedlegg

Detaljerte referansemålinger

Nedenfor rapporterer vi omfattende referansepoeng for GPT‑5.2 Thinking, sammen med et delsett for GPT‑5.2 Pro.

Profesjonellt
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
Koding
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
Faktagrunnlag
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
Lang kontekst
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
Vision
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
Verktøybruk
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
Akademisk
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
Abstrakt resonnering
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

Modellene ble kjørt med maksimal tilgjengelig resonneringsinnsats i API-et vårt (xhigh for GPT‑5.2) Thinking & Pro, og høy for GPT‑5.1 Thinking), bortsett fra de profesjonelle evalueringene, der GPT‑5.2 Thinking ble utført med tung resonneringsinnsats, det maksimalt tilgjengelige i ChatGPT Pro. Referansepoengene ble utført i et forskningsmiljø, som i noen tilfeller kan gi litt annerledes resultater enn produksjonsversjonen av ChatGPT.

* For SWE-Lancer utelater vi 40/237 problemer som ikke kjørte på vår infrastruktur.

Forfatter

OpenAI