Við kynnum GPT‑5.2, öflugustu líkanaröðina hingað til fyrir faglega þekkingarvinnu.
Að meðaltali segja notendur ChatGPT Enterprise að gervigreind spari þeim 40–60 mínútur á dag, og stórnotendur segja að hún spari þeim meira en 10 klukkustundir á viku. Við hönnuðum GPT‑5.2 til að auka enn frekar efnahagslegt gildi fyrir fólk; það er betra í að búa til töflureikna, setja saman framsetningu, skrifa kóða, greina myndir, skilja langt samhengi, nota verkfæri og meðhöndla flókin, fjölþrepa verkefni.
GPT‑5.2 setur nýtt viðmið í mörgum mælikvörðum, þar á meðal GDPval, þar sem það skarar fram úr atvinnusérfræðingum í vel skilgreindum þekkingarverkefnum sem ná yfir 44 starfsgreinar.
GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
GDPval (wins or ties) | 70,9% | 38,8% (GPT‑5) |
SWE-Bench Pro (opinber) | 55,6% | 50,8% |
SWE-bench Verified | 80,0% | 76,3% |
GPQA Diamond (engin verkfæri) | 92,4% | 88,1% |
CharXiv Reasoning (m/ Python) | 88,7% | 80,3% |
HMMT (Feb 2025) | 99,4% | 96,3% |
FrontierMath (stig 1–3) | 40,3% | 31,0% |
ARC-AGI-1 (Verified) | 86,2% | 72,8% |
ARC-AGI-2 (Verified) | 52,9% | 17,6% |
Notion(opnast í nýjum glugga), Box(opnast í nýjum glugga), Shopify(opnast í nýjum glugga), Harvey(opnast í nýjum glugga) og Zoom(opnast í nýjum glugga) tóku eftir að GPT‑5.2 sýnir framúrskarandi getu í langtímaröksemdafærslu og frammistöðu verkfærakalls. Databricks(opnast í nýjum glugga), Hex(opnast í nýjum glugga) og Triple Whale(opnast í nýjum glugga) komust að því að GPT‑5.2 er framúrskarandi í verkefnum tengdum sjálfvirkum gagnavísindum og skjalaúrvinnslu. Cognition(opnast í nýjum glugga), Warp(opnast í nýjum glugga), Charlie Labs(opnast í nýjum glugga), JetBrains(opnast í nýjum glugga) og Augment Code(opnast í nýjum glugga) segja að GPT‑5.2 skili háþróaðri frammistöðu í fulltrúakóðun með mælanlegum framförum á sviðum eins og gagnvirkri kóðun, kóðaskoðunum og villuleit.
Í ChatGPT munu GPT‑5.2 Instant, Thinking og Pro virkjast í dag, fyrst fyrir greiddar áætlanir. Í API eru þau nú í boði fyrir alla forritara.
Í heildina litið færir GPT‑5.2 verulegar framfarir í almennri greind, skilningi á löngu samhengi, sjálfvirkum verkfæraköllum og sýn—sem gerir það betra í að framkvæma flókin, raunveruleg verkefni frá upphafi til enda en nokkurt fyrra líkan.
GPT‑5.2 Thinking er besta líkanið hingað til fyrir raunverulega, faglega notkun. Á GDPval, mati sem mælir vel skilgreind þekkingarverkefni yfir 44 starfsgreinar, GPT‑5.2 Thinking setur nýtt met í tæknistöðu og er fyrsta líkanið okkar sem skilar frammistöðu á eða yfir mannlegu sérfræðistigi. Einkum, GPT‑5.2 Thinking jafnast á við eða slær helstu sérfræðinga í atvinnugreinum í 70,9% af samanburðum á þekkingarverkefnum GDPval, samkvæmt mannlegra dómara. Þessi verkefni fela í sér að búa til framsetningar, töflureikna og önnur skjöl. GPT‑5.2 Thinking framleiddi frálag fyrir GDPval verkefni á >11x hraða og <1% kostnaði miðað við sérfræðinga, sem bendir til þess að þegar það er parað með mannlegu eftirliti, geti GPT‑5.2 hjálpað við fagleg störf. Hraða- og kostnaðarmat byggist á sögulegum mælikvörðum; hraði í ChatGPT getur verið breytilegur.
Í GDPval reyna líkön að vinna vel skilgreind þekkingarstörf sem spanna 44 starfsgreinar úr efstu 9 atvinnugreinum sem leggja mest til verga landsframleiðslu Bandaríkjanna. Verkefni krefjast raunverulegra vinnuafurða, eins og framsetninga, bókhaldsskjalatöflureikna, áætlanir fyrir bráðaþjónustu, framleiðsluteikningar eða stutt myndbönd. Í ChatGPT hefur GPT‑5.2 Thinking ný verkfæri sem GPT‑5 Thinking hefur ekki.
Þegar einn GDPval dómari skoðaði sérstaklega gott frálag, sagði hann: „Þetta er spennandi og áberandi stökk í gæðum frálagsins... [það] virðist hafa verið gert af faglegu fyrirtæki með starfsfólki, og hefur ótrúlega vel hannað útlit og ráðleggingar fyrir bæði afurðirnar, þó að við höfum enn nokkrar minniháttar villur til að leiðrétta.“
Auk þess, á innri viðmiðun okkar fyrir verkefni yngri greiningaraðila í fjárfestingabanka sem snúa að töflureiknilíkönum—eins og að setja saman þriggja yfirlýsinga líkan fyrir Fortune 500 fyrirtæki með réttu sniði og tilvísunum, eða byggja skuldsett kaupslíkan fyrir einkakaup—er meðalskor GPT‑5.2 Thinking á hvert verkefni er 9,3% hærra en hjá GPT‑5.1, hækkar úr 59,1% í 68,4%.
Samanburður hlið við hlið sýnir aukna fágun og snið í töflureiknum og glærum sem búið er til af GPT‑5.2 Thinking:

Kvaðning: Búðu til vinnuaflsáætlunarlíkan: starfsmannafjöldi, ráðningaráætlun, starfsmannavelta og áhrif á fjárhagsáætlun. Hafðu með verkfræði-, markaðs-, lögfræði- og söludeildir.
Til að nota nýju töflureikni- og framsetningargetuna í ChatGPT þarftu að vera á greiddri áætlun og velja annað hvort GPT‑5.2 Thinking eða Pro. Flóknar myndanir geta tekið margar mínútur að framleiða.
GPT‑5.2 Thinking setur nýtt met með 55,6% á SWE-bench Pro, sem er strangt mat á raunverulegri hugbúnaðarverkfræði. Ólíkt SWE-bench Verified, sem prófar aðeins Python, prófar SWE-bench Pro fjögur tungumál og miðar að því að vera meira ónæmt fyrir mengun, krefjandi, fjölbreytt og viðeigandi fyrir iðnaðinn.
In SWE-bench Pro(opnast í nýjum glugga) fær líkan kóðageymslu og þarf að búa til bót til að leysa raunhæft hugbúnaðarverkefni.
Á SWE-bench Verified (ekki teiknað), GPT‑5.2 Thinking setur nýtt met hjá okkur með 80%.
Fyrir daglega faglega notkun hefur þetta líkan í för með sér að það getur framkvæmt áreiðanlega villuleit á framleiðslukóða, innleitt eiginleikabeiðnir, endurskipulagt stór kóðasöfn og sent lagfæringar frá upphafi til enda með minni handvirkri íhlutun.
GPT‑5.2 Thinking er einnig betri í framvinnslu hugbúnaðarverkfræði en GPT‑5.1 Thinking. Fyrstu prófararnir komust að því að það var verulega sterkara í framvinnsluforritun og flóknu eða óhefðbundnu notendaviðmóti—sérstaklega þegar um er að ræða 3D þætti—sem gerir það að öflugum daglegum samstarfsaðila fyrir verkfræðinga í gegnum allan staflann. Sjáðu nokkur dæmi um hvað hægt er að framleiða úr einni kvaðningu:
Kvaðning: Búðu til einnar síðu app í einni HTML-skrá með eftirfarandi kröfum:
- Nafn: Ocean Wave Simulation
- Markmið: Sýna raunsæjar hreyfimyndaðar öldur.
- Eiginleikar: Breyta vindhraða, ölduhæð og lýsingu.
- Notendaviðmótið á að vera róandi og raunsætt.
Fyrstu prófarar deildu ábendingum sínum um GPT‑5.2 kóðunarfærni:
„GPT-5.2 endurspeglar stærsta framfaraskrefið fyrir GPT-líkön í sjálfráðri kóðun síðan GPT-5 og er kóðunarlíkan í fremstu röð í sínum verðflokki. Útgáfuaukningin vanmetur stökkið í greind. Við erum spennt að gera það sjálfgefið í Windsurf og nokkur kjarnavinnuálag Devin.“
GPT‑5.2 Thinking ofskynjar minna en GPT‑5.1 Thinking. Í setti af óauðkenndum fyrirspurnum frá ChatGPT voru svör með villum 38%rel sjaldgæfari. Fyrir fagfólk þýðir þetta færri mistök við notkun líkansins til rannsókna, skrifa, greiningar og ákvarðanatökuaðstoðar—sem gerir líkanið áreiðanlegra fyrir daglega þekkingarvinnu.
Röksemdafærsla var stillt á hámark og leitartól var virkjað. Villur voru greindar af öðrum líkönum, sem gætu sjálf gert villur. Villutíðni á kröfustigi er mun lægri en villutíðni á svarsstigi, þar sem flest svör innihalda margar kröfur.
Eins og öll líkön er GPT‑5.2 Thinking ófullkomið. Fyrir allt sem er mikilvægt skaltu fara tvisvar sinnum yfir svörin.
Thinking GPT‑5.2 setur nýtt viðmið í röksemdafærslu fyrir langt samhengi, með því að ná leiðandi árangri á OpenAI MRCRv2—mati sem prófar getu líkans til að samþætta upplýsingar sem dreifast yfir löng skjöl. Á raunverulegum verkefnum eins og ítarlegri skjalagreiningu, sem krefst tengdra upplýsinga yfir hundruð þúsunda tákna er GPT‑5.2 Thinking mun nákvæmari en Thinking GPT‑5.1. Einkum er þetta fyrsta líkanið sem við höfum séð sem nær næstum 100% nákvæmni á 4-nála MRCR afbrigðinu (allt að 256 þús. tákn).
Í hagnýtum skilningi gerir þetta fagfólki kleift að nota GPT‑5.2 að vinna með löng skjöl—svo sem skýrslur, samninga, rannsóknargreinar, afrit og fjölskráaverkefni—á meðan samræmi og nákvæmni er viðhaldið yfir hundruð þúsunda tákna. Þetta gerir GPT‑5.2 sérstaklega vel til þess fallið að sinna ítarlegri greiningu, samþættingu og flóknum vinnuferlum úr mörgum heimildum.
Í OpenAI-MRCR(opnast í nýjum glugga) v2 (fjölumferðasamvísunarlausn), eru margar eins „nálar“-beiðnir notenda settar inn í langar „heysátur“ af svipuðum beiðnum og svörum, og líkanið er beðið um að endurgera svarið við n-ta nálinni. Útgáfa 2 af matinu lagar um ~5% af verkefnum sem höfðu röng grunngildisgildi. Meðaltal samsvörunarhlutfalls mælir meðalstrengjasamsvörun milli svars líkansins og rétta svarsins. Punktarnir við 256k hámarksinntaksmerki tákna meðaltal yfir 128k–256k inntaksmerki, og svo framvegis. Hér táknar 256k 256 * 1,024 = 262,114 tákn. Rökhugsunaráreynsla var stillt á það hámark sem var í boði.
Fyrir verkefni sem njóta góðs af því að hugsa út fyrir hámarks samhengisglugga er GPT‑5.2 Thinking samhæft við nýja Responses /compact endapunktinn okkar, sem lengir áhrifaríkan samhengisglugga líkansins. Þetta gerir GPT‑5.2 Thinking kleift að takast á við verkflæði sem eru verkfæraþung og langvarandi, sem annars væru takmörkuð af samhengislengd. Lestu meira í API-skjölunum(opnast í nýjum glugga) okkar.
GPT‑5.2 Thinking er öflugasta líkanið okkar hingað til, sem dregur úr villuhlutföllum um það bil helming í myndritarökhugsun og skilningi á hugbúnaðarviðmótum.
Fyrir daglega faglega notkun þýðir þetta að líkanið getur túlkað stjórnborð, vöruskjáskot, tæknilegar skýringarmyndir og sjónrænar skýrslur með meiri nákvæmni—sem styður verkflæði í fjármálum, rekstri, verkfræði, hönnun og aðstoð við viðskiptavini þar sem sjónrænar upplýsingar eru miðlægar.
Í CharXiv Reasoning(opnast í nýjum glugga) svara líkön spurningum um sjónrænar töflur úr vísindagreinum. Python-verkfærið var virkjað og röksemdafærslan var stillt á hámark.
Í ScreenSpot-Pro(opnast í nýjum glugga) þurfa líkön að rökstyðja háupplausnarskjáskot af grafískum notendaviðmótum frá ýmsum faglegum umhverfum. Python-verkfæri var virkjað og röksemdafærsluátak var stillt á hámark. Án Python-verkfærisins eru einkunnir mun lægri. Við mælum með að virkja Python-verkfærið fyrir sjónverkefni eins og þessi.
Í samanburði við fyrri líkön hefur GPT‑5.2 Thinking betri skilning á hvernig þættir eru staðsettir innan myndar, sem hjálpar við verkefni þar sem hlutfallsleg uppsetning gegnir lykilhlutverki í að leysa vandamál. Í dæminu hér að neðan biðjum við líkanið um að bera kennsl á þætti í inntaki myndarinnar (í þessu tilviki, móðurborð) og skila merkjum með áætluðum afmörkunarkössum. Jafnvel í mynd af lágum gæðum greinir GPT‑5.2 helstu svæði og setur kassa sem passa nokkurn veginn við raunverulegar staðsetningar hvers hluta, á meðan GPT‑5.1 merkir aðeins nokkra hluta og sýnir mun veikari skilning á rúmlegri uppröðun þeirra.
GPT‑5.1

GPT‑5.2

GPT‑5.2 Thinking nær nýju stigi tækninnar með 98,7% á Tau2-bench Telecom, sem sýnir getu þess til að nota áreiðanlega verkfæri í löngum verkefnum í mörgum umferðum.
Fyrir notkunartilvik sem eru viðkvæm fyrir biðtíma stendur GPT‑5.2 Thinking sig einnig mun betur í reasoning.effort=’none’, skarar verulega fram úr GPT‑5.1 og GPT‑4.1.
Í τ2-bench(opnast í nýjum glugga) nota líkön verkfæri til að ljúka verkefnum til að aðstoða viðskiptavini í samskiptum með mörgum umferðum við hermdan notanda. Fyrir fjarskiptasvið, inniföldum við stutta, almennt gagnlega leiðbeiningu í kerfiskvaðning til að auka frammistöðu. Við útilokum flugfélagahlutann vegna lægri gæða í raunverulegum einkunnum.
Fyrir fagfólk þýðir þetta sterkari heildarverkflæði—svo sem að leysa úr aðstoðarbeiðnum viðskiptavina, draga gögn úr mörgum kerfum, framkvæma greiningar og búa til lokaafurðir með færri truflunum á milli skrefa.
Til dæmis, þegar spurt er flókinna spurninga í þjónustu við viðskiptavini sem krefjast margþrepa lausnar, getur líkanið samræmt allt verkferlið á áhrifaríkari hátt yfir marga fulltrúa. Í eftirfarandi tilfelli tilkynnir ferðalangur um seinkað flug, missir af tengingu, næturdvöl í New York og þörf fyrir aðstoðarsæti. GPT‑5.2 sér um alla keðju verkefna—endurpöntun, sérstöku aðstoðarsæti og bætur—og skilar fullkomnari niðurstöðu en GPT‑5.1.
GPT‑5.1

GPT‑5.2

Eitt af vonum okkar fyrir gervigreind er að hún muni flýta fyrir vísindarannsóknum til hagsbóta fyrir alla. Í þessu skyni höfum við verið að vinna með og hlusta á vísindamenn til að sjá hvernig gervigreind getur flýtt fyrir vinnu þeirra, og í síðasta mánuði deildum við nokkrum snemmbúnum samstarfstilraunum hér.
Við trúum að GPT‑5.2 Pro og GPT‑5.2 Thinking séu bestu líkön heimsins til að styðja og hraða vísindarannsóknum. Á GPQA Diamond, viðmiðunarprófi á framhaldsstigi sem er ónæmt fyrir Google-leit, nær GPT‑5.2 Pro 93,2%, fylgt fast á eftir af GPT‑5.2. Thinking með 92,4%.
Í GPQA Diamond(opnast í nýjum glugga) svara líkön fjölvalsspurningum um eðlisfræði, efnafræði og líffræði. Engin verkfæri voru virkjuð og röksemdafærsluátak var stillt á hámark.
Á FrontierMath (stig 1–3), mat á stærðfræði á sérfræðistigi setti GPT‑5.2 Thinking nýtt viðmið, leysti 40,3% af vandamálum.
Í FrontierMath(opnast í nýjum glugga) leysa líkön stærðfræðiverkefni á sérfræðistigi. Python-verkfæri var virkjað og röksemdafærsla var stillt á hámark.
Við erum farin að sjá gervigreindarlíkön merkjanlega flýta fyrir framförum í stærðfræði og vísindum á áþreifanlegan hátt. Til dæmis, í nýlegri vinnu með GPT‑5.2 Pro, könnuðu vísindamenn opna spurningu í tölfræðilegri námskenningu. Í þröngu, vel skilgreindu samhengi lagði líkanið fram sönnun sem höfundarnir staðfestu og var endurskoðuð af utanaðkomandi sérfræðingum, sem sýnir hvernig frontier-líkön geta aðstoðað við stærðfræðirannsóknir undir náinni mannlegri umsjón.
Við ARC-AGI-1 (Verified), viðmiðunarprófi sem er hannað til að mæla almenna röksemdafærslugetu, er GPT‑5.2 fyrsta líkanið til að fara yfir 90% þröskuldinn, og bætti sig úr 87% í o3‑preview í fyrra, á sama tíma og kostnaður við að ná þeirri frammistöðu var lækkaður um u.þ.b. 390×.
Á ARC-AGI-2 (Verified), sem eykur erfiðleikastigið og einangrar betur fljótandi röksemdafærslu nær GPT‑5.2 Thinking nýjum hápunkti fyrir hugsanaþráðarlíkön, með einkunnina 52,9%. GPT‑5.2 Pro nær enn hærra, nær 54,2%, og eykur enn frekar getu líkansins til að rökstyðja í gegnum ný og abstrakt vandamál.
Umbætur í þessu mati endurspegla frammistöðu GPT‑5.2 hvað varðar sterkari fjölþrepa röksemdafærslu, meiri magnbundna nákvæmni og áreiðanlegri lausn á flóknum tæknilegum verkefnum.
Hér er það sem fyrstu prófararnir okkar segja um GPT‑5.2:
„GPT-5.2 opnaði fyrir heildarbreytingu á arkitektúr fyrir okkur. Við sameinuðum viðkvæmt fjölfulltrúakerfi í einn risafulltrúa með yfir 20 verkfæri. Það besta er að það virkar einfaldlega. Mega-fulltrúinn er hraðari, snjallari og 100x auðveldari í viðhaldi. Við sjáum verulega minni biðtíma, mun sterkari verkfæranotkun, og við þurfum ekki lengur umfangsmiklar kerfiskvaðningar því 5.2 mun framkvæma hreint af einfaldri, einlínukvaðningu. Það er eins og hrein töfrar.
Í ChatGPT ættu notendur að taka eftir því að GPT‑5.2 er betra í daglegri notkun—meira skipulagt, áreiðanlegra og enn skemmtilegt að tala við.
GPT‑5.2 Instant er hraðvirkur og hæfur vinnuhestur fyrir daglega vinnu og nám, með skýrum umbótum í upplýsingaleit, leiðbeiningum og yfirferðum, tæknilegri ritun og þýðingum, byggt á hlýlegri samtalslegri tón sem kynntur var í GPT‑5.1 Instant. Fyrstu prófarar tóku sérstaklega eftir skýrari útskýringum sem setja lykilupplýsingar í forgrunn.
GPT‑5.2 Thinking er hannað fyrir dýpri vinnu, sem hjálpar notendum að takast á við flóknari verkefni með meiri fágun—sérstaklega í kóðun, samantekt á löngum skjölum, svara spurningum um skrár sem hafa verið hlaðnar upp, að vinna í gegnum stærðfræði og rökfræði skref fyrir skref, og að styðja við skipulagningu og ákvarðanatöku með skýrari uppbyggingu og gagnlegri smáatriðum.
GPT‑5.2 Pro er snjallasti og áreiðanlegasti kosturinn okkar fyrir erfiðar spurningar þar sem svar af hærri gæðum er þess virði að bíða eftir. Fyrstu prófanir sýna færri meiriháttar villur og betri frammistöðu á flóknum sviðum eins og forritun.
GPT‑5.2 byggir á öruggri útfærslu rannsókna sem við kynntum með GPT‑5, sem kennir líkaninu að veita gagnlegasta svarið á sama tíma og það heldur sig innan öryggismarka.
Með þessari útgáfu héldum við áfram að styrkja viðbrögð líkana okkar í viðkvæmum samtölum, með þýðingarmiklum endurbótum á því hvernig þau bregðast við kvaðningum sem gefa til kynna merki um sjálfsvíg eða sjálfsskaða, andlega vanlíðan eða tilfinningalega tiltrú. Þessar markvissu íhlutunaraðgerðir hafa leitt til færri óæskilegra viðbragða í bæði GPT‑5.2. Instant og GPT‑5.2 Thinking í samanburði við GPT‑5.1, GPT‑5 Instant og Thinking líkön. Frekari upplýsingar er að finna í kerfiskortinu.
Við erum á fyrstu stigum þess að setja á markað aldursspálíkanið okkar svo við getum sjálfkrafa beitt efnisvörnum fyrir notendur undir 18 ára aldri, til að takmarka aðgang að viðkvæmu efni. Þetta byggir á núverandi nálgun okkar gagnvart notendum sem við vitum að eru undir 18 ára og foreldraeftirliti okkar.
GPT‑5.2 er eitt skref í áframhaldandi röð úrbóta, og við erum langt frá því að vera búin. Þó að þessi útgáfa skili mikilvægum framförum í greind og framleiðni, vitum við að það eru svið þar sem fólk vill meira. Í ChatGPT erum við að vinna að þekktum málum eins og ofsynjunum, á meðan við höldum áfram að auka öryggi og áreiðanleika. Þessar breytingar eru flóknar, og við einbeitum okkur að því að gera þær rétt.
GPT‑5.2 | GPT‑5.1 | GPT‑5.2 | GPT‑5.1 | |
Geðheilsa | 0,995 | 0,883 | 0,915 | 0,684 |
Tilfinningaleg háð | 0,938 | 0,945 | 0,955 | 0,785 |
Sjálfskaði | 0,938 | 0,925 | 0,963 | 0,937 |
Í ChatGPT munum við hefja innleiðingu á GPT‑5.2 (Instant, Thinking og Pro) í dag, fyrst fyrir greiddar áætlanir (Plus, Pro, Business, Enterprise). Við innleiðum GPT‑5.2 smám saman til að halda ChatGPT eins hnökralausu og áreiðanlegu og við getum; ef þú sérð það ekki strax skaltu reyna aftur síðar. Í ChatGPT verður GPT‑5.1 áfram aðgengilegt fyrir greidda notendur í þrjá mánuði undir eldri líkönum, eftir það munum við hætta með GPT‑5.1.
ChatGPT | FORRITASKIL (API) |
ChatGPT‑5.2 Instant | GPT‑5.2‑chat‑latest |
ChatGPT‑5.2 Thinking | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
Á API-verkvangi okkar er GPT‑5.2 Thinking fáanlegt í dag í Responses API og Chat Completions API sem gpt-5.2, og GPT‑5.2 Instant sem GPT‑5.2‑chat‑latest. GPT‑5.2 Pro er fáanlegt í Responses API sem gpt-5.2-pro. Forritarar geta nú stillt röksemdarfærslubreytuna í GPT‑5.2 Pro, og bæði GPT‑5.2 Pro og GPT‑5.2 Thinking styðja núna nýja fimmta röksemdafærsluátakið hjá xhigh, fyrir verkefni þar sem gæði skipta mestu máli.
GPT‑5.2 kostar $1,75/1M inntaksmerki og $14/1M úttaksmerki, með 90% afslætti á skyndiminnisinntökum. Í mörgum fulltrúamötum komumst við að því að þrátt fyrir GPT‑5.2 varðandi meiri kostnað á hvert tákn, en kostnaðurinn við að ná tilteknu gæðastigi reyndist ódýrari vegna meiri táknahagkvæmni GPT‑5.2.
Þó að verð á ChatGPT áskriftum haldist óbreytt, er GPT‑5.2 verðlagt hærra á hverju tákni í API en GPT‑5.1 vegna þess að það er öflugra líkan. Það er enn verðlagt undir öðrum frontier-líkönum, svo fólk getur haldið áfram að nota það ítarlega í daglegu starfi sínu og kjarnaaðgerðum.
Líkan | Inntak | Skyndiminnisinntak | Frálag |
gpt-5.2 / | $1,75 | $0,175 | $14 |
gpt-5.2-pro | $21 | - | $168 |
gpt-5.1 / | $1,25 | $0,125 | $10 |
gpt-5-pro | $15 | - | $120 |
Við höfum engin núverandi plön um að úrelda GPT‑5.1, GPT‑5, eða GPT‑4.1 í API, og við munum tilkynna forriturum með góðum fyrirvara um áætlanir um úreldingu. Þó að GPT‑5.2 muni virka vel strax í Codex, búumst við við að gefa út útgáfu af GPT‑5.2 sem er fínstillt fyrir Codex á næstu vikum.
GPT‑5.2 var þróað í samstarfi við okkar langvarandi samstarfsaðila NVIDIA og Microsoft. Azure gagnaver og NVIDIA GPU, þar á meðal H100, H200 og GB200-NVL72, eru undirstaða þjálfunarinnviða OpenAI í stórum stíl, sem stuðla að verulegum framförum í greind líkansins. Saman gerir þetta samstarf okkur kleift að stækka útreikninga með öryggi og koma nýjum líkönum á markað hraðar.
Hér að neðan birtum við ítarleg viðmiðunarstig fyrir GPT‑5.2 Thinking, ásamt undirmengi fyrir GPT‑5.2 Pro.
Faglegur
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
Kóðun
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
Staðreyndir
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
Langt samhengi
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
Sýn
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
Notkun verkfæra
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
Akademískt
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
Abstrakt hugsun
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
Líkön voru keyrð með hámarks tiltækri röksemdafærslu í API okkar (xhigh fyrir GPT‑5.2 Thinking og Pro, og hátt fyrir GPT‑5.1 Thinking), nema fyrir faglegu mötin, þar sem GPT‑5.2 Thinking var keyrt með mikilli röksemdafærslu, hámarkinu sem er í boði í ChatGPT Pro. Viðmiðanir voru framkvæmdar í rannsóknarumhverfi, sem gætu í sumum tilfellum veitt örlítið frábrugðið frálag frá framleiðsluútgáfu ChatGPT.
* Fyrir SWE-Lancer sleppum við 40/237 vandamálum sem ekki keyrðu á innviðum okkar.


