Gå til hovedindhold
OpenAI

11. december 2025

ProduktUdgivelse

Vi præsenterer GPT‑5.2

Den mest avancerede frontlinjemodel til professionelt arbejde og agenter med lang levetid.

Indlæser ...

Vi introducerer GPT‑5.2, den hidtil mest avancerede modelserie til professionelt videnarbejde.

Allerede nu fortæller den gennemsnitlige ChatGPT Enterprise-bruger, at AI sparer dem 40-60 minutter om dagen, og de mest intensive brugere oplever at spare over 10 timer om ugen. Vi har udviklet GPT‑5.2 for at frigøre endnu større økonomisk værdi for mennesker. Den er bedre til at oprette regneark, bygge præsentationer, skrive kode, opfatte billeder, forstå lange kontekster, bruge værktøjer og håndtere komplekse projekter med flere trin.

GPT‑5.2 sætter en ny standard inden for en lang række benchmarks, herunder GDPval, hvor den overgår topfagfolk i branchen i veldefinerede vidensarbejdsopgaver, der spænder over 44 erhverv.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (sejre eller uafgjort)
Opgaver med vidensarbejde

70,9 %

38,8 % (GPT‑5)

SWE-Bench Pro (offentlig)
Softwareudvikling

55,6 %

50,8 %

SWE-bench Verified
Softwareudvikling

80,0 %

76,3 %

GPQA Diamond (uden værktøj)
Videnskabsspørgsmål

92,4 %

88,1 %

CharXiv Reasoning (med Python)
Spørgsmål om videnskabelige figurer

88,7 %

80,3 %

HMMT (Feb 2025)
Matematikturnering

99,4 %

96,3 %

FrontierMath (Tier 1–3)
Avanceret matematik

40,3 %

31,0 %

ARC-AGI-1 (Verified)
Abstrakt avanceret tænkning

86,2 %

72,8 %

ARC-AGI-2 (Verified)
Abstrakt avanceret tænkning

52,9 %

17,6 %

Notion(åbner i et nyt vindue), Box(åbner i et nyt vindue), Shopify(åbner i et nyt vindue), Harvey(åbner i et nyt vindue) og Zoom(åbner i et nyt vindue) observerede, at GPT‑5.2 demonstrerer langsigtet avanceret tænkning og værktøjskald. Databricks(åbner i et nyt vindue), Hex(åbner i et nyt vindue) og Triple Whale(åbner i et nyt vindue) oplevede, at GPT‑5.2 er enestående til agentbaserede datavidenskabelige opgaver og dokumentanalyse. Cognition(åbner i et nyt vindue), Warp(åbner i et nyt vindue), Charlie Labs(åbner i et nyt vindue), JetBrains(åbner i et nyt vindue) og Augment Code(åbner i et nyt vindue) siger, at GPT‑5.2 leverer topmoderne agentisk kodningspræstation med målbare forbedringer inden for områder som interaktiv kodning, kodegennemgang og fejlfindingsprocesser.

I ChatGPT vil GPT‑5.2 Instant, Thinking og Pro begynde at blive udrullet i dag, med betalte abonnementer først. I API'en er de nu tilgængelige for alle udviklere.

Samlet set medfører GPT‑5.2 betydelige forbedringer inden for generel intelligens, forståelse af lange sammenhænge, agentisk værktøjsanvendelse og vision, hvilket gør den bedre til at udføre komplekse, virkelige opgaver fra start til slut end nogen tidligere model.

Modelpræstation

Økonomisk værdifulde opgaver

GPT‑5.2 Thinking er den hidtil bedste model til professionel brug i den virkelige verden. På GDPval, en evaluering, der måler veldefinerede videnarbejdsopgaver på tværs af 44 erhverv, opnår GPT‑5.2 Thinking en ny banebrydende score og er vores første model, der præsterer på eller over et menneskeligt ekspertniveau. Specifikt slår eller matcher GPT‑5.2 Thinking topfagfolk i branchen eller matcher deres niveau i 70,9 % af sammenligningerne på GDPval-opgaver inden for videnarbejde ifølge ekspertvurderinger. Disse opgaver omfatter at lave præsentationer, regneark og andre artefakter. GPT‑5.2 Thinking producerede resultater for GDPval-opgaver >11x hurtigere og til <1% af prisen for professionelle eksperter. Det antyder, at når GPT‑5.2 kombineres med menneskeligt tilsyn, kan den være en hjælp i professionelt arbejde. Hastigheds- og omkostningsestimater er baseret på historiske målinger; hastigheden i ChatGPT kan variere.

I GDPval forsøger modeller at udføre veldefineret vidensarbejde, der omfatter 44 erhverv fra de 9 brancher, der bidrager mest til USAs BNP. Opgaverne kræver konkrete arbejdsprodukter, såsom salgspræsentationer, regnskabsark, akutte plejeplaner, produktionsdiagrammer eller korte videoer. I ChatGPT har GPT‑5.2 Thinking nye værktøjer, som GPT‑5 thinking ikke har.

Ved gennemgangen af et særligt godt resultat kommenterede en GDPval-dommer: "Det er et spændende og mærkbart spring i kvaliteten af resultatet ... [det] ser ud til at være udført af et professionelt firma med personale og har et overraskende godt designet layout og rådgivning for begge leverancer, selvom vi stadig har nogle mindre fejl, der skal rettes."

Derudover har vores interne benchmark for junior investment banking-analytikeres regnearksmodelleringsopgaver – såsom at sammensætte en model med tre udsagn for et Fortune 500-selskab med korrekt formatering og kildehenvisninger eller opbygge en gearet buyout-model for en privatisering – er GPT 5.2 Thinkings gennemsnitlige score pr. opgave 9,3 % højere til sammenligning med GPT‑5.1, og det er en stigning fra 59,1 % til 68,4 %.

Side om side-sammenligninger viser forbedret sofistikering og formatering i regneark og slides genereret af GPT‑5.2 Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Spørgsmål: Opret en model for arbejdsstyrkeplanlægning: antal medarbejdere, ansættelsesplan, afgang og budgetpåvirkning. Inkluder ingeniør-, marketing-, juridisk- og salgsafdelinger.

For at bruge de nye regneark- og præsentationsfunktioner i ChatGPT skal du være på en betalt abonnement og vælge enten GPT‑5.2 Thinking eller Pro. Komplekse genereringer kan tage mange minutter at producere.

Kodning

GPT‑5.2 Thinking sætter en ny standard på 55,6 % på SWE-bench Pro, en grundig evaluering af softwareudvikling i den virkelige verden. I modsætning til SWE-bench Verified, som kun tester Python, tester SWE-bench Pro fire sprog og sigter mod at være mere kontamineringsresistent, udfordrende, alsidig og industrielt relevant.

I SWE-bench Pro(åbner i et nyt vindue) får en model et kodelager og skal generere en patch for at løse en realistisk softwareudviklingsopgave.

På SWE-bench Verified (ikke plottet), GPT‑5.2 Vores Thinking har nået en ny rekord på 80 %.

Til daglig professionel brug betyder dette en model, der mere pålideligt kan fejlfinde produktionskode, implementere funktionsanmodninger, omstrukturere store kodebaser og levere rettelser fra start til slut med mindre manuel indgriben.

GPT‑5.2 Thinking er også bedre til front-end softwareudvikling end GPT‑5.1 Thinking. De første testere fandt, at det var betydeligt stærkere inden for frontend-udvikling og komplekst eller ukonventionelt UI-arbejde – især med 3D-elementer – hvilket gjorde det til en stærk daglig partner for ingeniører på tværs af stacken. Se nogle eksempler på, hvad der kan skabes fra en enkelt forespørgsel:

Prompt: Create a single-page app in a single HTML file with the following requirements:
- Name: Ocean Wave Simulation
- Goal: Display realistic animated waves.
- Features: Change wind speed, wave height, lighting.
- The UI should be calming and realistic.

Tidlige testere delte deres feedback på GPT‑5.2's kodningsevner:

&quot;GPT-5.2 repræsenterer det største spring for GPT-modeller inden for agentisk kodning siden GPT-5 og er en topmoderne kodningsmodel i sin prisklasse. Versionsopdateringen undersælger springet i intelligens. Vi er begejstrede for at gøre det til standarden på tværs af Windsurf og flere af Devins kernearbejdsbelastninger.&quot;
Jeff Wang, administrerende direktør, Windsurf

Saglighed

GPT‑5.2 Thinking hallucinerer mindre end GPT‑5.1 Thinking. På et sæt af afidentificerede forespørgsler fra ChatGPT var svar med fejl 38 %rel mindre almindelige. For professionelle betyder dette færre fejl, når de bruger modellen til research, skrivning, analyse og beslutningsstøtte, hvilket gør modellen mere pålidelig til det daglige arbejde med viden.

Avanceret tænkning blev sat til det maksimalt tilgængelige, og et søgeværktøj blev aktiveret. Fejl blev opdaget af andre modeller, der selv kan lave fejl. Fejlprocenten på kravniveau er langt lavere end fejlprocenten på svarniveau, da de fleste svar indeholder mange krav.

Ligesom alle modeller er GPT‑5.2 Thinking ufuldkommen. Dobbelttjek altid svarene ved vigtige emner.

Lang kontekst

GPT‑5.2 Thinking sætter en ny standard inden for avanceret tænkning med lang kontekst og opnår førende ydeevne på OpenAI MRCRv2 – en evaluering, der tester en models evne til at integrere information spredt over lange dokumenter. Ved virkelige opgaver som dybdegående dokumentanalyse, der kræver relaterede oplysninger på tværs af hundredtusindvis af tokens, er GPT‑5.2 Thinking væsentligt mere nøjagtig end GPT‑5.1 Thinking. Især er det den første model, vi har set, der opnår næsten 100 % nøjagtighed på MRCR-varianten med 4 nåle (op til 256k tokens).

I praksis gør dette det muligt for professionelle at bruge GPT‑5.2 til at arbejde med lange dokumenter såsom rapporter, kontrakter, forskningsartikler, udskrifter og projekter med flere filer, samtidig med at sammenhæng og nøjagtighed opretholdes på tværs af hundredtusindvis af tokens. Dette gør GPT‑5.2 særligt velegnet til dybdegående analyse, syntese og komplekse arbejdsgange med flere kilder.

I OpenAI-MRCR⁠(åbner i et nyt vindue) v2 (multi-round co-reference resolution) indsættes flere identiske "nål"-brugeranmodninger i lange "høstakke" af lignende anmodninger og svar, og modellen bliver bedt om at gengive svaret på den n'te nål. Version 2 af evalueringen retter ~5 % af opgaverne, der havde forkerte grundlæggende sandhedsværdier. Gennemsnitlig matchprocent måler den gennemsnitlige strengmatchprocent mellem modellens svar og det korrekte svar. Punkterne ved 256k maksimale input-tokens repræsenterer gennemsnit over 128k–256k input-tokens og så videre. Her repræsenterer 256k 256 * 1.024 = 262.114 tokens. Avanceret tænkning blev sat til det maksimalt tilgængelige.

For opgaver, der drager fordel af at tænke ud over det maksimale kontekstvindue, er GPT‑5.2 Thinking kompatibel med vores nye respons-/kompakt-endepunkt, som udvider modellens effektive kontekstvindue. Dette gør det muligt for GPT‑5.2 Thinking at håndtere mere værktøjstunge, langvarige arbejdsgange, der ellers ville være begrænset af kontekstens længde. Læs mere i vores API-dokumentation(åbner i et nyt vindue).

Vision

GPT‑5.2 Thinking er vores hidtil stærkeste visionsmodel, der halverer fejlprocenten ved diagramfortolkning og forståelse af softwareinterfaces.

Til daglig professionel brug betyder dette, at modellen kan fortolke dashboards, produktskærmbilleder, tekniske diagrammer og visuelle rapporter mere præcist – hvilket understøtter arbejdsgange inden for økonomi, drift, teknik, design og kundesupport, hvor visuel information er central.

I CharXiv Reasoning(åbner i et nyt vindue) besvarer modeller spørgsmål om visuelle diagrammer fra videnskabelige artikler. Et Python-værktøj blev aktiveret, og ræsonnementet blev indstillet til maksimalt.

I ScreenSpot-Pro(åbner i et nyt vindue) skal modellerne analysere højopløselige skærmbilleder af grafiske brugergrænseflader fra en række professionelle miljøer. Et Python-værktøj blev aktiveret, og analyseindsatsen blev sat til maksimum. Uden Python-værktøjet er resultaterne meget lavere. Vi anbefaler at aktivere Python-værktøjet til synsopgaver som disse.

Sammenlignet med tidligere modeller har GPT‑5.2 Thinking en bedre forståelse af, hvordan elementer er placeret i et billede, hvilket er en fordel i opgaver, hvor den relative placering spiller en central rolle for at kunne løse problemet. I eksemplet nedenfor beder vi modellen om at identificere komponenterne i et billedinput (i dette tilfælde et bundkort) og returnere etiketter med omtrentlige afgrænsningsbokse. Selv på et billede af lav kvalitet identificerer GPT‑5.2 de vigtigste områder og placerer bokse, der nogenlunde matcher de faktiske placeringer af hver komponent, mens GPT‑5.1 kun markerer nogle få dele og viser en meget svagere forståelse af deres rumlige forhold.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

Værktøjsopkald

GPT‑5.2 Thinking opnår en ny banebrydende score på 98,7 % på Tau2-bench Telecom, hvilket demonstrerer dens evne til pålideligt at bruge værktøjer på tværs af lange opgaver med flere trin.

Til brugssituationer, hvor latens er vigtig, præsterer GPT‑5.2 Thinking også meget bedre i avanceret tænkning. effort=’none’, overgår betydeligt GPT‑5.1 og GPT‑4.1.

I τ2-bench⁠(åbner i et nyt vindue) bruger modeller værktøjer til at udføre kundesupportopgaver i en interaktion med flere omgange med en simuleret bruger. For telekommunikationsområdet har vi inkluderet en kort, generelt nyttig instruktion i systemprompten for at øge ydeevnen. Vi udelukker undergruppen flyselskaber på grund af lavere kvalitet i vurderingen af det grundlæggende svar.

For fagfolk betyder dette stærkere end-to-end-arbejdsgange, såsom løsning af kundesupportsager, hentning af data fra flere systemer, udførelse af analyser og generering af endelige resultater med færre afbrydelser mellem trinene.

Når der for eksempel stilles et komplekst kundeservicespørgsmål, der kræver en løsning i flere trin, kan modellen mere effektivt koordinere en komplet arbejdsgang på tværs af flere agenter. I nedenstående tilfælde rapporterer en rejsende om et forsinket fly, en mistet forbindelse, en overnatning i New York og et medicinsk krav om sædeplads. GPT‑5.2 håndterer hele kæden af opgaver – ombooking, særlige hjælp til pladsvalg og kompensation – og leverer et mere komplet resultat end GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

Naturvidenskab og matematik

Et af vores håb for AI er, at det vil accelerere videnskabelig forskning til gavn for alle. I den forbindelse har vi arbejdet med og lyttet til forskere for at se, hvordan AI kan fremskynde deres arbejde, og sidste måned delte vi nogle tidlige samarbejdseksperimenter her.

Vi mener, at GPT‑5.2 Pro og GPT‑5.2 Thinking er verdens bedste model til at hjælpe og accelerere forskere. På GPQA Diamond, en Google-sikker Q&A-benchmark på kandidatniveau, opnår GPT‑5.2 Pro 93,2 %, tæt fulgt af GPT‑5.2 Thinking på 92,4 %.

I GPQA Diamond(åbner i et nyt vindue) besvarer modellerne multiple choice-spørgsmål om fysik, kemi og biologi. Der blev ikke aktiveret nogen værktøjer, og avanceret tænkning blev sat til maksimalt niveau.

På FrontierMath (Tier 1–3), en evaluering af matematik på ekspertniveau, satte GPT‑5.2 Thinking en ny standard for kunst, ved at løse 40,3 % af problemerne.

I FrontierMath(åbner i et nyt vindue) løser modeller matematiske problemer på ekspertniveau. Et Python-værktøj blev aktiveret, og avanceret tænkning blev indstillet til maksimalt niveau.

Vi begynder at se, at AI-modeller på konkret vis fremmer fremskridt inden for matematik og naturvidenskab. I nyere arbejde med GPT‑5.2. Pro, udforskede researchere bl.a. et åbent spørgsmål i statistisk læringsteori. I en snæver, veldefineret kontekst foreslog modellen et bevis, der efterfølgende blev verificeret af forfatterne og gennemgået med eksterne eksperter, hvilket illustrerer, hvordan avancerede modeller kan assistere matematisk forskning under tæt menneskeligt tilsyn.

ARC-AGI 2

På ARC-AGI-1 (Verified), et benchmark designet til at måle den generelle evne til avanceret tænkning, er GPT‑5.2 den første model, der passerer tærsklen på 90 %. Det er en forbedring fra de 87 %, som o3‑forhåndsvisningen opnåede sidste år, samtidig med at omkostningerne ved at opnå denne præstation reduceres med cirka 390×.

På ARC-AGI-2 (verificeret), som øger sværhedsgraden og bedre isolerer flydende avanceret tænkning, opnår GPT‑5.2 Thinking en ny standard for tankekædemodeller og scorer 52,9 %. GPT‑5.2 Pro præsterer endnu bedre og når op på 54,2 %, hvilket yderligere udvider modellens evne til ræsonnere over nye, abstrakte problemer.

Forbedringer på tværs af disse evalueringer afspejler GPT‑5.2's. stærkere flertrinsræsonnement, større kvantitative nøjagtighed og mere pålidelige problemløsning i forbindelse med komplekse tekniske opgaver.

Her er, hvad vores tidlige testere siger om GPT‑5.2:

&quot;GPT-5.2 åbnede op for et komplet arkitekturskifte for os. Vi kollapsede et skrøbeligt system med flere agenter til én megaagent med over 20 værktøjer. Det bedste er, at det bare virker. Mega-agenten er hurtigere, klogere og 100 gange lettere at vedligeholde. Vi ser dramatisk lavere latenstid, meget stærkere værktøjskald, og vi behøver ikke længere spredte systemprompter, fordi 5.2 udføres rent fra en simpel prompt på én linje. Det føles som ren magi.&quot;
AJ Orbach, administrerende direktør, Triple Whale

GPT‑5.2 i ChatGPT

I ChatGPT vil brugerne opleve, at GPT‑5.2 føles bedre at bruge i hverdagen – mere struktureret, mere pålidelig og stadig behagelig at tale med.

GPT‑5.2 Instant er en hurtig og kraftfuld arbejdshest til dagligt arbejde og læring, med klare forbedringer i informationssøgning, vejledninger og gennemgange, teknisk skrivning og oversættelse, mens den bygger videre på den varmere, mere samtaleagtige tone, der blev introduceret i GPT‑5.1 Instant. Tidlige testere bemærkede især forklaringer, der er lettere at forstå, og som fremhæver vigtige oplysninger fra starten.

GPT‑5.2 Thinking er designet til mere dybdegående arbejde, der hjælper brugere med at tackle mere komplekse opgaver med større finesse – særligt til kodning, sammenfatning af lange dokumenter, besvarelse af spørgsmål om uploadede filer, trinvis gennemgang af matematik og logik samt støtte til planlægning og beslutningstagning med en klarere struktur og mere nyttige detaljer.

GPT‑5.2 Pro er vores hidtil klogeste og mest pålidelige valg til svære spørgsmål, hvor et svar af højere kvalitet er værd at vente på. I de tidlige tests viser det færre store fejl og stærkere præstationer i komplekse domæner som programmering.

Sikkerhed

GPT‑5.2 bygger videre på forskningen af sikre svar, som vi introducerede med GPT‑5, der lærer modellen at give det mest nyttige svar, samtidig med at den holder sig inden for sikkerhedsgrænser.

Med denne udgivelse fortsatte vi vores arbejde med at styrke vores modellers svar i følsomme samtaler, med betydelige forbedringer i, hvordan de reagerer på forespørgsler, der indikerer tegn på selvmord eller selvskade, psykisk nød eller følelsesmæssig afhængighed af modellen. Disse målrettede interventioner har resulteret i færre uønskede svar i både GPT‑5.2 Instant og GPT‑5.2 Thinking sammenlignet med GPT‑5.1 og GPT‑5 Instant og Thinking-modeller. Yderligere detaljer kan findes i systemkortet.

Vi er i de tidlige stadier af at udrulle vores aldersforudsigelsesmodel, så vi automatisk kan anvende indholdsbeskyttelse for brugere under 18 år for at begrænse adgangen til følsomt indhold. Dette bygger på vores eksisterende tilgang til brugere, som vi ved er under 18 år, og vores forældrestyring.

GPT‑5.2 er et skridt i en løbende række af forbedringer, og vi er langt fra færdige. Selvom denne udgivelse giver betydelige forbedringer inden for intelligens og produktivitet, ved vi, at der er områder, hvor folk ønsker mere. I ChatGPT arbejder vi på kendte problemer som overnægtelse, samtidig med at vi fortsætter med at hæve standarden for sikkerhed og pålidelighed generelt. Disse ændringer er komplekse, og vi fokuserer på at få dem korrekt.

Evalueringer af mental sundhed


GPT‑5.2
Instant

GPT‑5.1 Instant

GPT‑5.2
Thinking

GPT‑5.1 Thinking

Psykisk trivsel

0,995

0,883

0,915

0,684

Følelsesmæssig afhængighed

0,938

0,945

0,955

0,785

Selvskade

0,938

0,925

0,963

0,937

Tilgængelighed og priser

I ChatGPT begynder vi i dag at rulle GPT‑5.2 (Instant, Thinking og Pro) ud, og vi starter med betalte abonnementer (Plus, Pro, Business, Enterprise). Vi udruller GPT‑5.2 gradvist for at holde ChatGPT så problemfri og pålidelig som muligt. Hvis du ikke ser det med det samme, så prøv igen senere. I ChatGPT vil GPT‑5.1 stadig være tilgængelig for betalende brugere i tre måneder under ældre modeller, hvorefter vi vil udfase GPT‑5.1.

Modelnavngivning på tværs af ChatGPT og API

ChatGPT

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 At tænke

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

På vores API-platform er GPT‑5.2 Thinking tilgængelig i dag via Responses API'en og Chat Completions-API (API for chatsvar) som gpt-5.2, og GPT‑5.2 Instant som gpt-5.2-chat-latest. GPT‑5.2 Pro er tilgængelig i Responses API som gpt-5.2-pro. Udviklere kan nu indstille parameteret for avanceret tænkning i GPT‑5.2 Pro, og både GPT‑5.2 Pro og GPT‑5.2 Thinking understøtter nu den femte Extra high ("xhigh") ræsonneringsindsats for opgaver, hvor kvalitet er vigtigst.

GPT‑5.2 er prissat til 1,75 USD/1M input-tokens og 14 USD/1M output-tokens, med 90 % rabat på cachelagrede input. På flere evalueringer af autonome (agentiske) systemer fandt vi, at selv om GPT‑5.2 har en højere pris pr. token, endte omkostningerne ved at opnå et givet kvalitetsniveau med at være billigere på grund af GPT‑5.2's større token-effektivitet.

Selvom priserne på ChatGPT‑abonnementer forbliver de samme, er GPT‑5.2 i API'en prissat højere pr. token end GPT‑5.1, fordi det er en mere kapabel model. Den er stadig prissat under andre frontlinjemodeller, så folk kan fortsætte med at bruge den i dybden i deres daglige arbejde og kerneanvendelser.

Pris pr. million tokens

Model

Input

Cachelagret input

Output

gpt-5.2 / gpt-5.2-chat-latest

1,75 USD

0,175 USD

14 USD

gpt-5.2-pro

21 USD

-

168 USD

gpt-5.1 /
gpt-5.1-chat-latest

1,25 USD

0,125 USD

10 USD

gpt-5-pro

15 USD

-

120 USD

Vi har ingen nuværende planer om at udfase GPT‑5.1, GPT‑5 eller GPT‑4.1 i API'en, og vi vil kommunikere eventuelle udfasningsplaner med rigeligt forudgående varsel til udviklere. Mens GPT‑5.2 vil fungere godt direkte i Codex, forventer vi at udgive en version af GPT‑5.2, der er optimeret til Codex i de kommende uger.

Vores partnere

GPT‑5.2 blev udviklet i samarbejde med vores mangeårige partnere NVIDIA og Microsoft. Azure-datacentre og NVIDIA GPU'er, herunder H100, H200 og GB200-NVL72, danner grundlaget for OpenAI’s træningsinfrastruktur i stor skala, hvilket fører til betydelige fremskridt i modellens intelligens. Sammen giver dette samarbejde os mulighed for at skalere vores databehandling med tillid og bringe nye modeller hurtigere på markedet.

Appendiks

Detaljerede benchmarks

Nedenfor præsenterer vi omfattende benchmarkresultater for GPT‑5.2 sammen med et udvalg af resultater for GPT‑5.2 Pro

Professionel
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
Kodning
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
Saglighed
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
Lang kontekst
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
Vision
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
Brug af værktøj
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
Akademisk
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
Abstrakt tænkning
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

Modellerne blev kørt med maksimal tilgængelig indsats for avanceret tænkning i vores API (xhigh for GPT‑5.2 Thinking & Pro og high for GPT‑5.1 Thinking), bortset fra de professionelle evalueringer, hvor GPT‑5.2 Thinking blev udført med tungt indsatsniveau for avanceret tænkning – det højeste niveau, der er tilgængeligt i ChatGPT Pro. Benchmarktests blev udført i et forskningsmiljø, hvilket i nogle tilfælde kan give output, der adskiller sig en smule fra ChatGPT‑produktionen.

* For SWE-Lancer udelader vi 40/237 problemer, der ikke kørte på vores infrastruktur.

Skrevet af

OpenAI