Jäta vahele ja mine põhisisu juurde
OpenAI

11. detsember 2025

ToodeVäljalase

Tutvustame GPT‑5.2

Kõige arenenum eesrindlik mudel professionaalseks tööks ja pikaajaliste agentide jaoks.

Laadimine…

Tutvustame GPT‑5.2, seni kõige võimekamat mudeliseeriat professionaalseks teadmustööks.

Juba praegu ütleb keskmine ChatGPT Enterprise'i kasutaja, et AI säästab tal 40–60 minutit päevas, ja intensiivsed kasutajad ütlevad, et see säästab neil rohkem kui 10 tundi nädalas. Me kujundasime GPT‑5.2, et vabastada inimestele veelgi rohkem majanduslikku väärtust; see on parem arvutustabelite loomisel, esitluste koostamisel, koodi kirjutamisel, piltide tajumisel, pikkade kontekstide mõistmisel, tööriistade kasutamisel ja keerukate, mitmeastmeliste projektide käsitlemisel.

GPT‑5.2 seab uue tipptaseme paljudes võrdlusalustes, sealhulgas GDPvalis, kus see ületab valdkonna professionaale hästi määratletud teadmistega seotud ülesannetes, mis hõlmavad 44 ametit.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (võidud või viigid)
Teadmustöö ülesanded

70,9%

38,8% (GPT‑5)

SWE-Bench Pro (avalik)
Tarkvaratehnika

55,6%

50,8%

SWE-bench kinnitatud
Tarkvaratehnika

80,0%

76,3%

GPQA Diamond (ilma tööriistadeta)
Teadusküsimused

92,4%

88,1%

CharXiv arutlus (Pythoniga)
Teaduslike jooniste küsimused

88,7%

80,3%

HMMT (veebr 2025)
Matemaatikavõistlus

99,4%

96,3%

FrontierMath (1.–3. tase)
Edasijõudnud matemaatika

40,3%

31,0%

ARC-AGI-1 (kinnitatud)
Abstraktne arutlus

86,2%

72,8%

ARC-AGI-2 (kinnitatud)
Abstraktne arutlus

52.9%

17,6%

Notion(avaneb uues aknas), Box(avaneb uues aknas), Shopify(avaneb uues aknas), Harvey(avaneb uues aknas) ja Zoom(avaneb uues aknas) täheldasid, et GPT‑5.2 demonstreerib tipptasemel pikaajalist arutlusvõimet ja tööriistade kasutamise võimekust. Databricks(avaneb uues aknas), Hex(avaneb uues aknas) ja Triple Whale(avaneb uues aknas) leidsid, et GPT‑5.2 on erakordne agentliku andmeteaduse ja dokumentide analüüsi ülesannete puhul. Cognition(avaneb uues aknas), Warp(avaneb uues aknas), Charlie Labs(avaneb uues aknas), JetBrains(avaneb uues aknas) ja Augment Code(avaneb uues aknas) väidavad, et GPT‑5.2 pakub tipptasemel agentlikku kodeerimisvõimekust, millel on mõõdetavad parandused sellistes valdkondades nagu interaktiivne kodeerimine, koodide ülevaatus ja vigade leidmine.

ChatGPT‑s, GPT‑5.2 Instant, Thinking ja Pro hakkavad täna kasutusele jõudma, alustades tasulistest plaanidest. API-s on need nüüd saadaval kõigile arendajatele.

Üldiselt toob GPT‑5.2 märkimisväärseid täiustusi üldises intelligentsuses, pika konteksti mõistmises, agentsete tööriistakutsete tegemises ja nägemises, muutes selle paremaks keeruliste, reaalse maailma ülesannete täitmisel algusest lõpuni kui ükski varasem mudel.

Mudeli tulemuslikkus

Majanduslikult väärtuslikud ülesanded

GPT‑5.2 on seni parim mudel reaalseks ja professionaalseks kasutamiseks. GDPval, testis, mis mõõdab selgelt määratletud teadmustöö ülesandeid 44 ametikohal, saavutab GPT‑5.2. Thinking saavutab uue tipptasemel tulemuse ja on meie esimene mudel, mis toimib inimeksperdi tasemel või sellest paremini. Täpsemalt öeldes edestab GPT‑5.2 Thinking GDPval teadmustöö ülesannetes valdkonna tippspetsialiste või on nendega samal tasemel 70,9% võrdlustest, seda inimekspertidest kohtunike hinnangul. Need ülesanded hõlmavad esitluste, arvutustabelite ja muude artefaktide loomist. GPT‑5.2 Thinking lahendas GDPvali ülesandeid üle 11 korra kiiremini ja vähem kui 1% kuluga võrreldes tippspetsialistidega. See viitab sellele, et inimjärelevalve all saab GPT‑5.2 olla suureks abiks professionaalses töös. Kiiruse ja kulude hinnangud põhinevad ajaloolistel mõõdikutel; kiirus ChatGPT‑s võib erineda.

GDPvalis püüavad mudelid hästi määratletud teadmiste tööga, mis hõlmab 44 ametit 9 peamisest tööstusharust, mis annavad panuse USA SKP-sse. Ülesanded nõuavad reaalseid töötooteid, nagu müügiesitlused, raamatupidamisarvutustabelid, erakorralise abi ajakavad, tootmisdiagrammid või lühivideod. ChatGPT‑s, GPT‑5.2 Thinking on uued tööriistad, mida mudelil GPT‑5 Thinking ei ole.

Üks GDPvali kohtunik kommenteeris ühe eriti hea väljundi ülevaatamisel: „See on põnev ja märgatav hüpe väljundi kvaliteedis... [see] näib olevat tehtud professionaalse ettevõtte poolt, kus on personal, ning sellel on üllatavalt hästi kujundatud paigutus ja nõuanded mõlema tulemuse jaoks, kuigi ühes neist on meil veel mõned väikesed vead, mida parandada.“

Lisaks on meie investeerimispanganduse nooremanalüütiku tabelarvutuse modelleerimisülesannete sisemises testis—mis hõlmab näiteks Fortune 500 ettevõtte kolme aruande mudeli koostamist koos korrektse vorminduse ja viidetega või võimendusega väljaostu mudeli loomist ettevõtte börsilt ära viimiseks—GPT 5.2 Thinkingu keskmine tulemus ülesande kohta 9,3% kõrgem kui GPT‑5.1‑l, tõustes 59,1%-lt 68,4%-ni.

Kõrvutised võrdlused näitavad GPT‑5.2 genereeritud tabelarvutuste ja slaidide suuremat viimistletust ja paremat vormindust. Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Viip: loo tööjõu planeerimise mudel: töötajate arv, värbamisplaan, voolavus ja eelarve mõju. Kaasa inseneri-, turundus-, juriidilised- ja müügiosakonnad.

ChatGPT uute tabelarvutus- ja esitlusvõimaluste kasutamiseks peab sul olema tasuline pakett ning pead valima kas GPT‑5.2 Thinking või Pro. Keerukamate tööde genereerimine võib võtta mitu minutit.

Kodeerimine

GPT‑5.2 Thinking püstitas uue tipptulemuse 55,6% SWE-Bench Pro testis, mis on range hindamine reaalses maailmas esineva tarkvaratehnika võimekuse kohta. Erinevalt SWE-bench Verifiedist, mis testib ainult Pythonit, testib SWE-bench Pro nelja keelt ja püüab olla saastekindlam, väljakutsuvam, mitmekesisem ja tööstuslikult asjakohasem.

Mudelis SWE-bench Pro(avaneb uues aknas), mudelile antakse koodihoidla ja see peab koostama paranduse, et lahendada realistlik tarkvarainsenerluse ülesanne.

SWE-benchil kinnitatud (ei ole graafikul), GPT‑5.2. Thinking saavutas meie uue kõrgeima tulemuse 80%.

Igapäevaseks professionaalseks kasutamiseks tähendab see mudelit, mis suudab usaldusväärsemalt kõrvalda vead tootmiskoodis, rakendada funktsioonitaotlusi, refaktoreerida suuri koodibaase ja tarnida parandusi otsast lõpuni vähem käsitsi sekkumisega.

GPT‑5.2 Thinking on front-end tarkvarainseneri valdkonnas samuti parem kui GPT‑5.1 Thinking. Varajased testijad leidsid, et see on märkimisväärselt tugevam esikülje arenduses ja keerulises või ebatavalises kasutajaliidese töö, eriti 3D elementide kaasamisel, muutes selle võimsaks igapäevaseks partneriks inseneridele kogu virnas. Vaata mõningaid näiteid sellest, mida saab ühe viibiga luua:

Viip: loo ühe lehekülje rakendus ühes HTML-failis järgmiste nõuetega:
- Nimi: Ookeani laine simulatsioon
- Eesmärk: Kuvada realistlikult animeeritud lained.
- Omadused: Muuda tuule kiirust, laine kõrgust, valgustust.
- Kasutajaliides peaks olema rahustav ja realistlik.

Varajased testijad jagasid tagasisidet GPT‑5.2 kodeerimisvõimekuse kohta:

„GPT-5.2 on GPT mudelite suurim hüpe agentses programmeerimises alates GPT-5-st ning oma hinnaklassis absoluutne tipp (SOTA). Väike muutus versiooninumbris ei peegelda tegelikku intelligentsuse kasvu. Oleme põnevil, et muudame selle vaikevalikuks Windsurfis ja mitmetes Devini põhiülesannetes.“
Jeff Wang, Windsurfi tegevjuht

Faktilisus

GPT‑5.2 Thinking hallutsineerib vähem kui GPT‑5.1 Thinking. ChatGPT umbisikustatud päringute komplektis esines veaga vastuseid 38%rel harvemini. Professionaalide jaoks tähendab see vähem vigu mudeli kasutamisel uurimistööks, kirjutamiseks, analüüsiks ja otsuste toetamiseks, muutes mudeli igapäevaseks teadmiste tööks usaldusväärsemaks.

Mõtlemiskoormus seati maksimaalsele tasemele ja otsingutööriist luba. Vigu tuvastasid teised mudelid, mis võivad ise samuti vigu teha. Nõudetaseme veamäärad on palju madalamad kui vastustetaseme veamäärad, kuna enamik vastuseid sisaldab palju nõudeid.

Nagu kõik mudelid, on ka GPT‑5.2 Thinking on ebatäiuslik. Kriitiliste asjade puhul kontrolli vastuseid kaks korda.

Pikk kontekst

GPT‑5.2 Thinking seab uue tipptaseme pika konteksti arutlemises, saavutades juhtiva jõudluse OpenAI MRCRv2 hindamisel, mis testib mudeli võimet integreerida teavet, mis on jaotatud pikkades dokumentides. Reaalmaailma ülesannete puhul, nagu süvitsi dokumentide analüüs, mis nõuavad seotud teavet sadade tuhandete tokenite ulatuses, GPT‑5.2 Thinking on oluliselt täpsem kui GPT‑5.1 Thinking. Eriti on see esimene mudel, mida oleme näinud, mis saavutab peaaegu 100% täpsuse 4-nõela MRCR variandil (kuni 256k tokenini).

Praktilises mõttes luba see spetsialistidel kasutada GPT‑5.2, et töötada pikkade dokumentidega – nagu aruanded, lepingud, teadusartiklid, ärakirjad ja mitme failiga projektid – säilitades samal ajal sidususe ja täpsuse sadade tuhandete tokenite ulatuses. See teeb GPT‑5.2‑st eriti sobivaks süvitsi analüüsimiseks, sünteesiks ja keerukate mitmeallikaliste töövoogude jaoks.

Versioonis OpenAI-MRCR⁠(avaneb uues aknas) v2 (mitmevooruline kaasviite lahendus) sisestatakse mitu identset „nõela” kasutaja päringut pikkadesse sarnaste päringute ja vastuste „heinakuhjadesse” ning mudelil palutakse taastoota vastus n-ndale nõelale. Versioon 2 parandab ~5% ülesannetest, millel olid valed tõeväärtused. Keskmine vastavus mõõdab mudeli vastuse ja õige vastuse vahelist keskmist sõnede vastavuse suhet. Punktid 256k maksimaalse sisestusmärgi juures tähistavad keskmisi 128k–256k sisestusmärkide vahel ja nii edasi. Siin tähistab 256k 256 * 1,024 = 262,114 tokenit. Arutluspingutus oli seatud maksimaalsele võimalikule tasemele.

Ülesannete puhul, mis vajavad arutlemist väljaspool maksimaalset kontekstiakent, on GPT‑5.2 Thinking ühilduv meie uue Response /compact lõpp-punktiga, mis laiendab mudeli efektiivset kontekstiakent. See võimaldab mudelil GPT‑5.2 Thinking tegelda tööriistamahukamate ja pikaleveninud töövoogudega, mida muidu konteksti pikkus piiraks. Loe rohkem meie API dokumentatsioonist(avaneb uues aknas).

Nägemus

GPT‑5.2 Thinking on meie seni tugevaim visuaalmudel, vähendades veamäärasid diagrammide arutluskäikude ja tarkvaraliideste mõistmisel umbes poole võrra.

Igapäevaseks professionaalseks kasutamiseks tähendab see, et mudel suudab täpsemalt tõlgendada töölaudu, tootepilte, tehnilisi diagramme ja visuaalseid aruandeid, toetades töövooge finants-, operatsiooni-, inseneri-, disaini- ja tugi valdkondades, kus visuaalne teave on keskne.

In CharXiv Reasoning(avaneb uues aknas), mudelid vastavad teadusartiklite visuaalsete diagrammide küsimustele. Pythoni tööriist lubati ja arutluskoormus seati maksimaalseks.

In ScreenSpot-Pro(avaneb uues aknas), mudelid peavad arutlema kõrge eraldusvõimega ekraanipiltide üle, mis on pärit erinevatest professionaalsetest keskkondadest. Pythoni tööriist lubati ja arutlemise pingutus seati maksimaalseks. Ilma Pythoni tööriistata on tulemused palju madalamad. Soovitame lubada Pythoni tööriista selliste nägemisülesannete jaoks.

Võrreldes varasemate mudelitega mõistab GPT‑5.2 Thinking paremini elementide paiknemist pildil, mis on abiks ülesannete puhul, kus suhteline paigutus mängib probleemi lahendamisel võtmerolli. Allolevas näites palume mudelil tuvastada sisendpildil (antud juhul emaplaat) olevad komponendid ja väljastada sildid koos ligikaudsete piirdekastidega. Isegi madala kvaliteediga pildil tuvastab GPT‑5.2 peamised piirkonnad ja paigutab kastid nii, et need kattuvad ligikaudselt iga komponendi tegeliku asukohaga, samas kui GPT‑5.1 sildistab vaid mõned osad ja näitab oluliselt nõrgemat arusaama nende ruumilisest paigutusest.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

Tööriista kutsumine

GPT‑5.2 Thinking saavutab Tau2-bench Telecomis uue tipptaseme 98,7%, demonstreerides oma võimet kasutada tööriistu usaldusväärselt pikkade, mitmevooruliste ülesannete puhul.

Latentsustundlike kasutusjuhtude puhul toimib GPT‑5.2 Thinking palju paremini ka seadistusega reasoning.effort=’none’, edestades märkimisväärselt mudeleid GPT‑5.1 ja GPT‑4.1.

In τ2-bench⁠(avaneb uues aknas) kasutavad mudelid tööriistu, et täita tugiteenuste ülesandeid mitme pöördega suhtluses simuleeritud kasutajaga. Telecomi domeeni jaoks lisasime süsteemi viipale lühikese, üldiselt abistava juhise, et parandada jõudlust. Lennunduse alamhulka me ei kaasanud, kuna selle tõe hindamine on madalama kvaliteediga.

Professionaalide jaoks tähendab see tugevamaid otsast lõpuni töövooge, näiteks klienditoe juhtumite lahendamine, andmete kogumine mitmest süsteemist, analüüside läbiviimine ja lõplike väljundite koosta, kus etappide vahel on vähem katkestusi.

Näiteks, kui esitad keerulise klienditeeninduse küsimuse, mis vajab mitmeastmelist lahendust, suudab mudel tõhusamalt koordineerida kogu töövoogu mitme agendi vahel. Allpool toodud juhtumis teatab reisija hilinenud lennust, vahelejäänud ühendusest, ööbimisest New Yorgis ja meditsiinilisest istekoha nõudest. GPT‑5.2 haldab kogu ülesannete ahelat—uuesti broneerimine, erivajadustega istekohtade määramine ja kompensatsioon—pakkudes täielikumat tulemust kui GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

Teadus ja matemaatika

Üks meie lootusi tehisintellekti suhtes on, et see kiirendab teadusuuringuid kõigi hüvanguks. Selle nimel oleme teinud koostööd ja kuulanud teadlasi, et näha, kuidas tehisintellekt saaks nende tööd kiirendada, ning eelmisel kuul jagasime mõningaid varajasi koostöökatsed siin.

Usume, et GPT‑5.2 Pro ja GPT‑5.2 Thinking on maailma parimad mudelid teadlaste abistamiseks ja nende töö kiirendamiseks. GPQA Diamondil, kraadiõppe tasemel Google'i tõend Q&A võrdlusalusel, GPT‑5.2 Pro saavutab 93,2%, millele järgneb tihedalt GPT‑5.2. Thinking 92,4 protsendiga.

GPQA Diamond-s GPQA Diamond(avaneb uues aknas), mudelid vastavad valikvastustega küsimustele füüsika, keemia ja bioloogia kohta. Tööriistu ei olnud lubatud ja arutluspingutus oli seatud maksimaalsele tasemele.

FrontierMathi (1.–3. tase) ekspertide tasemel matemaatika hindamisel saavutas GPT‑5.2 Thinking uue tipptaseme, lahendades 40,3% probleemidest.

Programmis FrontierMath(avaneb uues aknas) lahendavad mudelid ekspertide tasemel matemaatikaülesandeid. Pythoni tööriist lubati ja arutluskoormus seati maksimaalseks.

Me hakkame nägema, kuidas tehisintellekti mudelid kiirendavad käegakatsutavatel viisidel matemaatika ja loodusteaduste edenemist. Näiteks hiljutises töös GPT‑5.2 Proga uurisid teadlased avatud küsimust statistilise õppimise teoorias. Kitsas ja täpselt määratletud kontekstis pakkus mudel välja tõestuse, mille autorid seejärel verifitseerisid ja koos välisekspertidega läbi vaatasid, illustreerides, kuidas tipptaseme mudelid saavad tiheda inimjärelevalve all matemaatilisele uurimistööle kaasa aidata.

ARC-AGI 2

ARC-AGI-1 (kinnitatud) testis, mis on loodud üldise arutlusvõime mõõtmiseks, on GPT‑5.2 esimene mudel, mis ületas 90% künnise, parandades eelmisel aastal o3‑preview saavutatud 87% tulemust ja vähendades samal ajal selle soorituse saavutamise kulu ligikaudu 390 korda.

ARC-AGI-2 (kinnitatud) testis, mis tõstab raskusastet ja eraldab paremini voolava arutlusvõime, saavutab GPT‑5.2 Thinking chain-of-thought mudelite seas uue tipptaseme tulemusega 52,9%. GPT‑5.2 Pro tulemus on veelgi parem, ulatudes 54,2%-ni, laiendades veelgi mudeli võimet lahendada arutluskäigu abil uudseid ja abstraktseid probleeme.

Paranenud tulemused neis hindamistes kajastavad GPT‑5.2 tugevamat mitmeastmelist arutlusvõimet, suuremat kvantitatiivset täpsust ja usaldusväärsemat probleemide lahendamist keerukate tehniliste ülesannete puhul.

Meie esimesed testijad räägivad GPT‑5.2 kohta nii:

„GPT-5.2 võimaldas meil teha täieliku arhitektuurilise pöörde. Koondasime ebakindla mitme agendiga süsteemi üheks enam kui 20 tööriistaga mega-agendiks. Parim osa on see, et see lihtsalt töötab. See mega-agent on kiirem, targem ja 100 korda lihtsamini hallatav. Me näeme drastiliselt väiksemat latentsust ja palju tugevamat tööriistade kasutust ning me ei vaja enam lohisevaid süsteemiviipe, sest 5.2 täidab ülesande puhtalt ka lihtsa üherealise korralduse peale. See tundub nagu puhas maagia.“
AJ Orbach, Triple Whale'i tegevjuht

GPT‑5.2 rakenduses ChatGPT

ChatGPT‑s peaksid kasutajad märkama, et GPT‑5.2 on igapäevasel kasutamisel parema tunnetusega—see on struktureeritum, usaldusväärsem ja sellega on endiselt meeldiv vestelda.

GPT‑5.2 Instant on kiire ja võimekas tööloom igapäevatööks ja õppimiseks, pakkudes selgeid täiustusi infopäringute, juhiste ja samm-sammuliste selgituste, tehnilise kirjutamise ning tõlkimise osas, arendades edasi GPT‑5.1 Instantis tutvustatud soojemat vestlustooni. Varajased testijad tõstsid eriti esile selgemaid selgitusi, mis toovad olulise info kohe alguses välja.

GPT‑5.2 Thinking on loodud süvenemist nõudvaks tööks, aidates kasutajatel lahendada keerukamaid ülesandeid suurema viimistletusega—eriti koodimisel, pikkade dokumentide kokkuvõtmisel, üleslaaditud faile puudutavatele küsimustele vastamisel, matemaatika- ja loogikaülesannete samm-sammulisel lahendamisel ning planeerimise ja otsustamise toetamisel selgema struktuuri ja sisukamate detailidega.

GPT‑5.2 Pro on meie kõige targem ja usaldusväärsem valik keeruliste küsimuste puhul, kus kvaliteetsem vastus on ootamist väärt; varajased testid näitavad vähem suuri vigu ja tugevamat sooritust keerukates valdkondades, nagu programmeerimine.

Ohutus

GPT‑5.2 tugineb ohutu lõpetamise uurimistööle, mille me tutvustasime koos GPT‑5‑ga, mis õpetab mudelit andma kõige kasulikuma vastuse, jäädes samal ajal ohutuspiiridesse.

Selle versiooniga jätkasime tööd oma mudelite reaktsioonide tugevdamiseks tundlikes vestlustes, tehes olulisi parandusi selles, kuidas nad reageerivad küsimustele, mis viitavad enesetapu või enesevigastamise, vaimse tervise probleemide või emotsionaalse mudelist sõltuvuse märkidele. Need sihitud sekkumised on viinud vähem soovimatute vastusteni nii mudelites GPT‑5.2 Instant kui ka GPT‑5.2 Thinking võrreldes mudelitega GPT‑5.1, GPT‑5 Instant ja Thinking. Täiendavad üksikasjad leiate süsteemikaardilt.

Oleme oma vanuse prognoosimise mudeli kasutuselevõtu algfaasis, et saaksime alla 18-aastastele kasutajatele automaatselt rakendada sisukaitsemeetmeid, piiramaks ligipääsu tundlikule sisule. See tugineb meie olemasolevale lähenemisviisile kasutajatele, keda me teame olevat alla 18-aastased, ja meie vanemlikule järelevalvele.

GPT‑5.2 on üks samm pidevas täiustuste seerias ja me pole kaugeltki valmis. Kuigi see väljaanne toob kaasa märkimisväärseid edusamme intelligentsuses ja tootlikkuses, teame, et on valdkondi, kus inimesed tahavad rohkem. ChatGPT‑s töötame teadaolevate probleemide, nagu liigne keeldumine, kallal, samal ajal jätkates ohutuse ja usaldusväärsuse üldist tõstmist. Need muudatused on keerulised ja me keskendume nende õigesti tegemisele.

Vaimse tervise hindamised


GPT‑5.2
Instant

GPT‑5.1
Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

Vaimne tervis

0,995

0,883

0,915

0,684

Emotsionaalne sõltuvus

0,938

0,945

0,955

0,785

Enesevigastamine

0,938

0,925

0,963

0,937

Saadavus ja hinnastamine

Alustame täna ChatGPT‑s GPT‑5.2 (Instant, Thinking ja Pro) levitamist, alustades tasulistest pakettidest (Plus, Pro, Go, Business, Enterprise). Me juurutame GPT‑5.2 järk-järgult, et hoida ChatGPT võimalikult sujuva ja töökindlana; kui sa seda esialgu ei näe, proovi hiljem uuesti. ChatGPT‑s on GPT‑5.1 endiselt saadaval tasulistele kasutajatele kolme kuu jooksul vanade mudelite all, pärast mida lõpetame GPT‑5.1.

Mudelite nimetamine ChatGPT ja API kaudu

ChatGPT

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

Meie API platvormil on GPT‑5.2 Thinking tänasest saadaval Responses API-s ja Chat Completions API-s nimega gpt-5.2 ning GPT‑5.2 Instant nimega gpt-5.2-chat-latest. GPT‑5.2 Pro on Responses API-s saadaval nimega gpt-5.2-pro. Arendajad saavad nüüd GPT‑5.2 Pro puhul määrata reasoning-parameetrit ning nii GPT‑5.2 Pro kui ka GPT‑5.2 Thinking toetavad nüüd uut viiendat reasoning effort'i taset xhigh ülesannete jaoks, kus kvaliteet on kõige olulisem.

GPT‑5.2 hind on $1,75/1M sisestusmärgi ja $14/1M väljundmärgi kohta, koos 90% soodustusega vahemällu salvestatud sisendite puhul. Mitmes agentses hindamises leidsime, et vaatamata GPT‑5.2 kõrgemale hinnale märgise kohta, kujunes kindla kvaliteeditaseme saavutamine lõpuks odavamaks tänu GPT‑5.2 tõhusamale märgisekasutusele.

Kuigi ChatGPT püsitellimuse hinnastamine jääb samaks, on API-s GPT‑5.2 tokeni hind kõrgem kui GPT‑5.1‑l, kuna see on võimekam mudel. See on endiselt hinnalt madalam kui teised tipptasemel mudelid, seega saavad inimesed seda jätkata süvitsi kasutada oma igapäevatöös ja põhirakendustes.

Hind miljoni tokeni kohta

Mudel

Sisend

Vahemällu talletatud sisend

Väljund

GPT‑5.2 / GPT‑5.2‑chat‑latest

1,75 dollarit

0,175 dollarit

14 dollarit

gpt-5.2-pro

21 dollarit

-

168 dollarit

gpt-5.1 /
gpt-5.1-chat-latest

1,25 dollarit

0,125 dollarit

10 dollarit

gpt-5-pro

15 dollarit

-

$120

Meil pole praegu plaane GPT‑5.1 kasutusest loobuda. GPT‑5 või GPT‑4.1 API-s ning anname arendajatele aegsasti teada, kui plaanime kasutusest kõrvaldada mõne versiooni. Kuigi GPT‑5.2 töötab Codexis hästi juba algusest peale, eeldame, et lähinädalatel avaldame Codexi jaoks optimeeritud versiooni GPT‑5.2‑st.

Meie partnerid

GPT‑5.2 loodi koostöös meie pikaajaliste partnerite NVIDIA ja Microsoftiga. Azure andmekeskused ja NVIDIA GPU-d, sealhulgas H100, H200 ja GB200-NVL72, toetavad OpenAI ulatuslikku koolitusinfrastruktuuri, saavutades märkimisväärseid edusamme mudeli intelligentsuses. Koos võimaldab see koostöö meil arvutusvõimsust enesekindlalt skaleerida ja uusi mudeleid kiiremini turule tuua.

Lisa

Üksikasjalikud võrdlusalused

Allpool esitame GPT‑5.2 põhjalikud võrdlustulemused. Mõtlemine koos alamhulgaga GPT‑5.2 Pro jaoks.

Professionaalne
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
Kodeerimine
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
Faktilisus
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
Pikk kontekst
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
Nägemus
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
Tööriista kasutamine
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
Akadeemiline
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
Abstraktne arutlemine
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

Mudeleid käitati meie API-s maksimaalse saadaoleva arutluspingutusega (xhigh GPT‑5.2 Thinking & Pro ja high GPT‑5.1 Thinking jaoks), v.a professionaalsed evaluatsioonid, kus mudelit GPT‑5.2 Thinking kasutati arutluspingutusega heavy, mis on maksimaalne tase ChatGPT Pros. Võrdlustestid viidi läbi uurimiskeskkonnas, mis võib mõnel juhul anda tootekeskkonna ChatGPT‑st veidi erinevaid tulemusi.

* SWE-Lanceri jaoks jätame välja 40/237 probleemi, mis ei töötanud meie infrastruktuuril.

Autor

OpenAI