Mēs iepazīstinām ar GPT‑5.2, visjaudīgāko modeļu sēriju profesionālajam zināšanu darbam.
Jau tagad vidējais ChatGPT Enterprise lietotājs saka, ka MI ļauj ietaupīt 40–60 minūtes dienā, un aktīvie lietotāji saka, ka tas ietaupa vairāk nekā 10 stundas nedēļā. Mēs izstrādājām GPT‑5.2, lai cilvēkiem sniegtu vēl lielāku ekonomisko vērtību; tas ir labāks izklājlapu izveidē, prezentāciju sagatavošanā, koda rakstīšanā, attēlu uztverē, gara konteksta izpratnē, rīku izmantošanā un sarežģītu vairāklīmeņu projektu vadīšanā.
GPT‑5.2 nosaka jaunu līmeni daudzos etalonos, tostarp GDPval, kur tas pārspēj nozares profesionāļus labi definētos zināšanu darba uzdevumos, kas aptver 44 profesijas.
GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
GDPval (wins or ties) | 70,9% | 38.8% (GPT‑5) |
SWE-Bench Pro (public) | 55,6% | 50,8% |
SWE-bench verificēts | 80,0% | 76,3% |
GPQA Diamond (no tools) | 92,4% | 88,1% |
CharXiv Reasoning (ar Python) | 88,7% | 80,3% |
HMMT (Februāris 2025) | 99,4% | 96,3% |
FrontierMath (1.–3. līmenis) | 40,3% | 31,0% |
ARC-AGI-1 (Verified) | 86,2% | 72,8% |
ARC-AGI-2 (Verified) | 52,9% | 17,6% |
Notion(atveras jaunā logā), Box(atveras jaunā logā), Shopify(atveras jaunā logā), Harvey(atveras jaunā logā) un Zoom(atveras jaunā logā) novēroja, ka GPT‑5.2 demonstrē modernāko tālejošas loģiskās domāšanas un rīku izmantošanas veiktspēju. Databricks(atveras jaunā logā), Hex(atveras jaunā logā) un Triple Whale(atveras jaunā logā) secināja, ka GPT‑5.2 ir izcils aģentiskās datu zinātnes un dokumentu analīzes uzdevumos. Cognition(atveras jaunā logā), Warp(atveras jaunā logā), Charlie Labs(atveras jaunā logā), JetBrains(atveras jaunā logā) un Augment Code(atveras jaunā logā) apgalvo, ka GPT‑5.2 nodrošina modernāko aģentisko kodēšanas veiktspēju ar izmērāmiem uzlabojumiem tādās jomās kā interaktīvā kodēšana, koda pārskatīšana un kļūdu atrašana.
Programmā ChatGPT, GPT‑5.2 Instant, Thinking un Pro sāks ieviest šodien, sākot ar maksas plāniem. API tagad ir pieejami visiem izstrādātājiem.
Kopumā GPT‑5.2 sniedz ievērojamus uzlabojumus vispārējā intelektā, ilgtermiņa konteksta izpratnē, aģentisko rīku izmantošanā un redzējumā, padarot to labāku nekā jebkurš iepriekšējais modelis sarežģītu reālās pasaules uzdevumu izpildē no sākuma līdz beigām.
GPT‑5.2 Thinking ir līdz šim labākais modelis reālai, profesionālai lietošanai. Etalonā GDPval, kas mēra labi definētus zināšanu darba uzdevumus 44 profesijās, GPT‑5.2 Thinking nosaka jaunu izcilības līmeni un ir mūsu pirmais modelis, kas darbojas cilvēka eksperta līmenī vai augstāk. Konkrēti, GPT‑5.2 Thinking, pēc ekspertu cilvēku vērtētāju domām, ir līdzvērtīgs vadošajiem nozares profesionāļiem vai pārspēj tos 70,9% GDPval zināšanu darba uzdevumu salīdzinājumos. Šie uzdevumi ietver prezentāciju, izklājlapu un citu materiālu veidošanu. GPT‑5.2 Thinking radīja rezultātus GDPval uzdevumiem ar >11x ātrumu un <1% no ekspertu profesionāļu izmaksām, kas liecina, ka, apvienojot to ar cilvēka uzraudzību, GPT‑5.2 var palīdzēt profesionālajā darbā. Ātruma un izmaksu aprēķini ir balstīti uz vēsturiskajiem rādītājiem; ātrums ChatGPT vidē var atšķirties.
Etalonā GDPval modeļi mēģina izpildīt precīzi definētu zināšanu darbu, kas aptver 44 profesijas no 9 vadošajām nozarēm, kuras veicina ASV IKP. Uzdevumi pieprasa reālus darba produktus, piemēram, pārdošanas prezentācijas, grāmatvedības izklājlapas, neatliekamās aprūpes grafikus, ražošanas diagrammas vai īsus video. ChatGPT vidē modelim GPT‑5.2 Thinking ir jauni rīki, kas nav pieejami GPT‑5 Thinking.
Pārskatot kādu īpaši labu izvades rezultātu, viens no GDPval tiesnešiem komentēja: "Tas ir aizraujošs un ievērojams lēciens izvades kvalitātē... šķiet, ka to ir veidojis profesionāls uzņēmums ar personālu, un tam ir pārsteidzoši labi izstrādāts izkārtojums un padomi abiem piegādājumiem, lai gan vienam no tiem mums joprojām ir dažas nelielas kļūdas, kas jālabo."
Turklāt mūsu iekšējā etalonā jaunāko investīciju banku analītiķu izklājlapu modelēšanas uzdevumiem – piemēram, trīs pārskatu modeļa izveidei Fortune 500 uzņēmumam ar atbilstošu formatējumu un atsaucēm vai piesaistītā izpirkuma modeļa izstrādei uzņēmuma privatizācijai – GPT‑5.2 Thinking vidējais rezultāts uzdevumā ir par 9,3 % augstāks nekā GPT‑5.1, pieaugot no 59,1% līdz 68,4%.
Blakus salīdzinājumi parāda uzlabotu izsmalcinātību un formatēšanu izklājlapās un slaidos, ko ģenerē GPT‑5.2 Thinking:

Uzvedne: Izveido darbaspēka plānošanas modeli: darbinieku skaits, pieņemšanas darbā plāns, atbirums un ietekme uz budžetu. Iekļauj inženierijas, mārketinga, juridisko un pārdošanas nodaļas.
Lai izmantotu jaunās izklājlapu un prezentāciju iespējas ChatGPT, tev jābūt maksas plāna lietotājam un jāizvēlas vai nu GPT‑5.2 Thinking, vai Pro. Sarežģīti veidojumi var prasīt daudzas minūtes.
GPT‑5.2 Thinking paceļ latiņu līdz 55,6% etalonā SWE-bench Pro, kas ir stingrs reālās pasaules programmatūras inženierijas novērtējums. Atšķirībā no SWE-bench Verified, kas testē tikai Python, SWE-bench Pro testē četras programmēšanas valodas un ir vērsts uz lielāku noturību pret datu “piesārņojumu”, kā arī uz sarežģītākiem, daudzveidīgākiem un industrijai nozīmīgākiem uzdevumiem.
Etalonā SWE-bench Pro(atveras jaunā logā), modelim tiek dots koda repozitorijs, un tam jāģenerē ielāps, lai atrisinātu reālistisku programmatūras inženierijas uzdevumu.
SWE-bench verificēts (nav attēlots), GPT‑5.2 Thinking rezultāti sasniedz mūsu jauno rekordu - 80%.
Ikdienas profesionālai lietošanai tas nozīmē modeli, kas spēj uzticamāk atkļūdot ražošanas kodu, ieviest funkciju pieprasījumus, pārveidot lielas kodu bāzes un piegādāt labojumus no sākuma līdz beigām ar mazāku manuālu iejaukšanos.
GPT‑5.2 Thinking ir arī labāks front-end programmatūras inženierijā nekā GPT‑5.1 Thinking. Agrīnie testētāji atklāja, ka tas ir ievērojami spēcīgāks front-end izstrādē un sarežģītā vai neparastā lietotāja saskarnes darbā, īpaši iesaistot 3D elementus, padarot to par spēcīgu ikdienas partneri inženieriem visā pakotnē. Apskati dažus piemērus, ko tas var radīt no vienas uzvednes:
Uzvedne: izveido vienas lapas lietotni vienā HTML failā ar šādām prasībām:
- Nosaukums: Okeāna viļņu simulācija
- Mērķis: attēlot reālistiskus animētus viļņus.
- Funkcijas: mainīt vēja ātrumu, viļņu augstumu, apgaismojumu.
- Lietotāja saskarnei jābūt nomierinošai un reālistiskai.
Agrīnie testētāji dalījās ar savām atsauksmēm par GPT‑5.2 programmēšanas spējām:
"GPT-5.2 pārstāv lielāko izrāvienu GPT modeļos aģentiskajā kodēšanā kopš GPT-5 un ir modernākais kodēšanas modelis savā cenu kategorijā. Versijas paaugstinājums nepietiekami atspoguļo intelekta līmeņa lēcienu. Mēs ar prieku padarām to par noklusējuma variantu visā Windsurf darbībā un vairākās galvenajās Devin darba slodzēs."
GPT‑5.2 Thinking halucinē mazāk nekā GPT‑5.1 Thinking. Anonimizētu ChatGPT vaicājumu kopā atbildes ar kļūdām bija par 38%rel retāk sastopamas. Profesionāļiem tas nozīmē mazāk kļūdu, izmantojot modeli pētniecībai, rakstīšanai, analīzei un lēmumu pieņemšanas atbalstam, padarot modeli uzticamāku ikdienas zināšanu darbā.
Argumentācijas piepūle tika iestatīta uz maksimālo pieejamo līmeni, un meklēšanas rīks iespējots. Kļūdas tika atklātas ar citiem modeļiem, kuri paši var pieļaut kļūdas. Prasību līmeņa kļūdu rādītāji ir daudz zemāki nekā atbilžu līmeņa kļūdu rādītāji, jo lielākā daļa atbilžu satur daudzas prasības.
Tāpat kā visi modeļi, GPT‑5.2 Thinking ir nepilnīgs. Pārbaudi atbildes uz visiem svarīgākajiem jautājumiem.
GPT‑5.2 domāšana nosaka jaunu līmeni ilgtermiņa konteksta secināšanā, sasniedzot vadošo veiktspēju OpenAI MRCRv2 — novērtējumā, kas pārbauda modeļa spēju integrēt informāciju, kas izkliedēta pa gariem dokumentiem. Reālās pasaules uzdevumos, piemēram, dziļā dokumentu analīzē, kas prasa saistītu informāciju no simtiem tūkstošu tokenu, GPT‑5.2 Thinking ir ievērojami precīzāks nekā GPT‑5.1 Thinking. Pie tam tas ir pirmais modelis, ko esam redzējuši, kas sasniedz gandrīz 100% precizitāti 4-adatu MRCR variantā (līdz 256k tokeniem).
Praktiski tas ļauj profesionāļiem izmantot GPT‑5.2, lai strādātu ar gariem dokumentiem, piemēram, ziņojumiem, līgumiem, pētnieciskajiem darbiem, stenogrammām un vairāku failu projektiem, vienlaikus saglabājot saskaņotību un precizitāti simtiem tūkstošu žetonu. Tas padara GPT‑5.2 īpaši piemērotu padziļinātai analīzei, sintēzei un sarežģītām daudzavotu darbplūsmām.
In OpenAI-MRCR(atveras jaunā logā) v2 (vairāku kārtu kopreferences izšķirtspēja), vairāki identiski “adatas” lietotāju pieprasījumi tiek ievietoti garās līdzīgu pieprasījumu un atbilžu “siena kaudzēs”, un modelim tiek lūgts reproducēt atbildi uz n-to adatu. 2. versijā ir laboti ~5% uzdevumu, kuriem bija nepareizas patiesās vērtības. Vidējā atbilstības attiecība mēra vidējo virknes atbilstības attiecību starp modeļa atbildi un pareizo atbildi. Punkti pie 256k maksimālajām ievades tekstvienībām atspoguļo vidējos rādītājus 128 tūkst.–256 tūkst. ievades tekstvienībām un tā tālāk. Šeit 256 tūkst. apzīmē 256 * 1,024 = 262,144 tokeni. Apsvēršanas piepūle tika iestatīta uz maksimāli pieejamo.
Uzdevumiem, kas gūst labumu no domāšanas ārpus maksimālā konteksta loga, GPT‑5.2 Thinking ir saderīgs ar mūsu jauno Responses /compact mērķparametru, kas paplašina modeļa efektīvo konteksta logu. Tas ļauj GPT‑5.2 Thinking tikt galā ar intensīvāku, ilgstošu darba plūsmu risināšanu, kas citādi būtu ierobežotas konteksta garuma dēļ. Uzzini vairāk mūsu API dokumentācijā(atveras jaunā logā).
GPT‑5.2 Thinking ir mūsu līdz šim spēcīgākais redzes modelis, kas aptuveni uz pusi samazina kļūdu līmeni diagrammu analīzē un programmatūras saskarnes izpratnē.
Ikdienas profesionālai lietošanai tas nozīmē, ka modelis var precīzāk interpretēt infopaneļus, produktu ekrānuzņēmumus, tehniskās diagrammas un vizuālos ziņojumus, atbalstot darbplūsmas finansēs, operācijās, inženierijā, dizainā un klientu atbalstā, kur vizuālā informācija ir centrāla.
In CharXiv Reasoning(atveras jaunā logā), modeļi atbild uz jautājumiem par zinātnisko rakstu vizuālajām diagrammām. Python rīks tika iespējots, un apsvēršanas piepūle tika iestatīta uz maksimālo.
Programmā ScreenSpot-Pro(atveras jaunā logā) modeļiem jāapsver augstas izšķirtspējas ekrānuzņēmumi no grafiskajām lietotāja saskarnēm dažādās profesionālās vidēs. Python rīks tika iespējots, un apsvēršanas piepūle tika iestatīta uz maksimālo. Bez Python rīka rezultāti ir daudz zemāki. Mēs iesakām iespējot Python rīku šādiem redzes uzdevumiem.
Salīdzinot ar iepriekšējiem modeļiem, GPT‑5.2 Thinking labāk izprot, kā elementi ir izvietoti attēlā, un tas palīdz uzdevumos, kur relatīvajam izkārtojumam ir būtiska nozīme problēmas risināšanā. Zemāk esošajā piemērā mēs prasām modeli identificēt komponentus attēla ievadē (šajā gadījumā mātesplatē) un atgriezt apzīmējumus ar aptuveniem robežu rāmjiem. Pat zemas kvalitātes attēlā GPT‑5.2 identificē galvenos reģionus un novieto rāmjus, kas aptuveni atbilst katras komponentes patiesajām atrašanās vietām, savukārt GPT‑5.1 tikai marķē dažas daļas un parāda daudz vājāku izpratni par to telpisko izvietojumu.
GPT‑5.1

GPT‑5.2

GPT‑5.2 Thinking sasniedz jaunu sasniegumu līmeni ar 98,7% Tau2-bench Telecom, demonstrējot tā spēju uzticami izmantot rīkus ilgstošos, daudzpakāpju uzdevumos.
Lietošanas gadījumiem, kuros liela nozīme ir latentumam, GPT‑5.2 Thinking arī dod daudz labāku sniegumu, izmantojot reasoning.effort=’none’, ievērojami pārspējot GPT‑5.1 un GPT‑4.1.
In τ2-bench(atveras jaunā logā), modeļi izmanto rīkus, lai pabeigtu klientu atbalsta uzdevumus daudzpakāpju mijiedarbībā ar simulētu lietotāju. Telekomunikāciju domēnā mēs iekļāvām īsu, vispārīgi noderīgu instrukciju sistēmas uzvednē, lai uzlabotu veiktspēju. Mēs izslēdzam Aviokompāniju apakškopu zemākas kvalitātes patiesības novērtējuma dēļ.
Profesionāļiem tas nozīmē spēcīgākas pilnīgas darbplūsmas, piemēram, klientu atbalsta gadījumu risināšanu, datu iegūšanu no vairākām sistēmām, analīžu veikšanu un galīgo rezultātu ģenerēšanu ar retākiem traucējumiem starp soļiem.
Piemēram, uzdodot sarežģītu klientu apkalpošanas jautājumu, kas prasa daudzpakāpju risinājumu, modelis var efektīvāk koordinēt pilnu darbplūsmu starp vairākiem aģentiem. Tālāk minētajā gadījumā ceļotājs ziņo par aizkavētu lidojumu, nokavētu savienojumu, nakšņošanu Ņujorkā un medicīnisku sēdvietu prasību. GPT‑5.2 pārvalda visu uzdevumu ķēdi—pārrezervēšanu, īpašas palīdzības sēdvietas un kompensāciju—sniedzot pilnīgāku rezultātu nekā GPT‑5.1.
GPT‑5.1

GPT‑5.2

Viena no mūsu cerībām par MI ir, ka tas paātrinās zinātniskos pētījumus, sniedzot labumu visiem. Lai to īstenotu, mēs sadarbojamies ar zinātniekiem un uzklausām tos, lai redzētu, kā mākslīgais intelekts var paātrināt viņu darbu, un pagājušajā mēnesī mēs dalījāmies ar dažiem agrīniem sadarbības eksperimentiem šeit.
Mēs uzskatām, ka GPT‑5.2 Pro un GPT‑5.2 Thinking ir pasaules labākie modeļi zinātnieku atbalstam un paātrināšanai. Uz GPQA Diamond, augstākā līmeņa Google-izturīgā jautājumu un atbilžu etalonā, GPT‑5.2 Pro sasniedz 93,2%, kam cieši seko GPT‑5.2 Domāšana ir 92,4%.
In GPQA Diamond(atveras jaunā logā), modeļi atbild uz izvēles jautājumiem par fiziku, ķīmiju un bioloģiju. Nekādi rīki netika iespējoti, un loģiskās piepūles iestatījums bija maksimāls.
Etalonā FrontierMath (1.–3. līmenis), kas ir ekspertu līmeņa matemātikas novērtējums, GPT‑5.2 Thinking sasniedza jaunu rekordu, atrisinot 40,3% uzdevumu.
Programmā FrontierMath(atveras jaunā logā) modeļi risina ekspertu līmeņa matemātikas problēmas. Python rīks tika iespējo, un loģiskās piepūles iestatījums tika iestatīts uz maksimālo.
Mēs sākam redzēt, kā MI modeļi būtiski paātrina progresu matemātikā un zinātnē taustāmā veidā. Piemēram, nesenā darbā ar GPT‑5.2 Pro, pētnieki izpētīja neatrisinātu jautājumu statistiskās mācīšanās teorijā. Šaurā, labi definētā vidē modelis piedāvāja pierādījumu, ko vēlāk verificēja autori un pārskatīja ārēji eksperti, parādot, kā robežmodeļi var palīdzēt matemātikas pētniecībā ciešā cilvēka uzraudzībā.
ARC-AGI-1 (Verified) ir etalons, kas izstrādāts, lai mērītu vispārējo spriešanas spēju, un GPT‑5.2 ir pirmais modelis, kas pārsniedz 90% slieksni, pārspējot 87%, ko pagājušajā gadā sasniedza o3‑preview, vienlaikus samazinot šī snieguma izmaksas aptuveni 390 reizes.
Etalonā ARC-AGI-2 (Verified), kas paaugstina grūtības pakāpi un labāk izolē plūstošo spriešanu, GPT‑5.2 Thinking sasniedz jaunu domāšanas ķēdes modeļu izcilības līmeni, iegūstot 52.9%. GPT‑5.2 Pro veiktspēja ir vēl augstāka, sasniedzot 54,2%, tālāk paplašinot modeļa spēju apsvērt jaunas, abstraktas problēmas.
Uzlabojumi šajos novērtējumos atspoguļo GPT‑5.2 spēcīgo daudzpakāpju spriešanu, lielāku kvantitatīvo precizitāti un uzticamāku problēmu risināšanu sarežģītos tehniskos uzdevumos.
Lūk, ko mūsu agrīnie testētāji saka par GPT‑5.2:
"GPT-5.2 mums pavēra pilnīgu arhitektūras maiņu. Mēs sakļāvām trauslu, daudzu aģentu sistēmu vienā mega-aģentā ar vairāk nekā 20 rīkiem. Un labākais ir tas, ka tas vienkārši strādā. Mega-aģents ir ātrāks, gudrāks un simtreiz vieglāk uzturams. Mēs novērojam ievērojami zemāku latentumu, daudz spējīgāku rīku izsaukšanu, un mums vairs nav nepieciešamas plašas sistēmas uzvednes, jo 5.2 tīri izpildās no vienkāršas, vienrindas uzvednes. Tā ir kā tīra maģija."
ChatGPT vidē lietotājiem vajadzētu pamanīt, ka GPT‑5.2 ikdienas lietošanā ir jūtami labāks – strukturētāks, uzticamāks, un joprojām ir patīkami ar to sarunāties.
GPT‑5.2 Instant ir ātrs un spējīgs "darba zirgs" ikdienas darbam un mācībām, ar nepārprotamiem uzlabojumiem informācijas meklēšanas jautājumos, pamācībās un ceļvežos, tehniskajā rakstīšanā un tulkošanā, lietojot siltāku sarunvalodas toni, kas tika ieviests ar GPT‑5.1 Instant. Agrīnie testētāji īpaši atzīmēja saprotamākus skaidrojumus, kas izceļ galveno informāciju jau sākumā.
GPT‑5.2 Thinking ir izstrādāts dziļākam darbam, palīdzot lietotājiem risināt sarežģītākus uzdevumus ar lielāku precizitāti – īpaši programmēšanā, garu dokumentu kopsavilkumu veidošanā, jautājumu atbildēšanā par augšupielādētiem failiem, matemātikas un loģikas uzdevumu izpildē soli pa solim, kā arī plānošanas un lēmumu pieņemšanas atbalstam ar skaidrāku struktūru un noderīgāku detalizāciju.
GPT‑5.2 Pro ir mūsu visgudrākais un uzticamākais risinājums sarežģītiem jautājumiem, kur augstākas kvalitātes atbilde ir gaidīšanas vērta, un agrīnie testi rāda mazāk būtisku kļūdu un spēcīgāku veiktspēju sarežģītos domēnos, piemēram, programmēšanā.
GPT‑5.2 balstās uz drošas pabeigšanas pētījumiem, ko mēs ieviesām ar GPT‑5, kas māca modelim sniegt visnoderīgāko atbildi, vienlaikus paliekot drošības robežās.
Ar šo laidienu mēs turpinājām darbu, lai stiprinātu savu modeļu atbildes sensitīvās sarunās, ar būtiskiem uzlabojumiem tajā, kā tie reaģē uz uzvednēm, kas norāda uz pašnāvības vai pašsavainošanās pazīmēm, garīgās veselības traucējumiem vai emocionālu atkarību no modeļa. Šīs mērķtiecīgās iejaukšanās ir novedušas pie mazāk nevēlamām reakcijām gan GPT‑5.2 Instant, gan GPT‑5.2 Thinking salīdzinājumā ar GPT‑5.1 un GPT‑5 Instant un Thinking modeļiem. Papildu informāciju var atrast sistēmas kartē.
Mēs esam agrīnā vecuma prognozēšanas modeļa ieviešanas posmā, lai automātiski piemērotu satura aizsardzību lietotājiem, kas ir jaunāki par 18 gadiem, lai ierobežotu piekļuvi sensitīvam saturam. Tas balstās uz mūsu esošo pieeju lietotājiem, par kuriem zinām, ka viņi ir jaunāki par 18 gadiem, un mūsu vecāku kontroli.
GPT‑5.2 ir viens solis nepārtrauktā uzlabojumu sērijā, un mēs vēl neesam pabeiguši. Lai gan šis izlaidums sniedz būtiskus ieguvumus intelekta un produktivitātes jomā, mēs zinām, ka ir jomas, kur cilvēki vēlas vairāk. Programmā ChatGPT mēs strādājam pie zināmām problēmām, piemēram, pārspīlētiem atteikumiem, vienlaikus turpinot paaugstināt drošības un uzticamības latiņu kopumā. Šīs izmaiņas ir sarežģītas, un mēs koncentrējamies uz to, lai tās būtu pareizas.
GPT‑5.2 | GPT‑5.1 | GPT‑5.2 | GPT‑5.1 | |
Garīgā veselība | 0,995 | 0,883 | 0,915 | 0,684 |
Emocionālā atkarība | 0,938 | 0,945 | 0,955 | 0,785 |
Paškaitējums | 0,938 | 0,925 | 0,963 | 0,937 |
ChatGPT vidē mēs šodien sāksim ieviest GPT‑5.2 (Instant, Thinking un Pro), sākot ar maksas plāniem (Plus, Pro, Go, Business, Enterprise). Mēs ieviešam GPT‑5.2 pakāpeniski, lai ChatGPT darbotos pēc iespējas vienmērīgāk un uzticamāk; ja sākumā to neredzi, lūdzu, mēģini vēlreiz vēlāk. ChatGPT vidē GPT‑5.1 joprojām būs pieejams maksas lietotājiem trīs mēnešus kā novecojis modelis; pēc tam mēs izbeigsim GPT‑5.1 darbību.
ChatGPT | API |
ChatGPT‑5.2 Instant | GPT‑5.2‑chat‑latest |
ChatGPT‑5.2 Thinking | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
Mūsu API platformā GPT‑5.2 Thinking ir pieejams jau šodien Responses API un Chat Completions API kā gpt-5.2, un GPT‑5.2 Instant kā gpt-5.2-chat-latest. GPT‑5.2 Pro ir pieejams Responses API kā gpt-5.2-pro. Izstrādātāji tagad var iestatīt spriešanas parametru GPT‑5.2 Pro, un gan GPT‑5.2 Pro, gan GPT‑5.2 Thinking tagad ir atbalsts jaunajai piektajai xhigh spriešanas spējai uzdevumiem, kuros kvalitāte ir vissvarīgākā.
GPT‑5.2 cena ir 1,75 USD par 1 miljonu ievades tekstvienību un 14 USD par 1 miljonu izvades tekstvienību, ar 90% atlaidi kešatmiņā saglabātām ievadēm. Vairākos aģentu novērtējumos mēs atklājām, ka, neskatoties uz GPT‑5.2 augstāko maksu par vienu tekstvienību, izmaksas noteikta kvalitātes līmeņa sasniegšanai izrādījās zemākas, pateicoties augstākai GPT‑5.2 tekstvienību efektivitātei.
Lai gan ChatGPT abonementa izcenojums paliek nemainīgs, API GPT‑5.2 cena par tokenu ir augstāka nekā GPT‑5.1, jo tas ir spējīgāks modelis. Tas joprojām ir lētāks nekā citi modeļi, tāpēc cilvēki var turpināt to padziļināti izmantot savā ikdienas darbā un pamatlietotnēs.
Modelis | Ievade | Kešatmiņā saglabāta ievade | Izvade |
gpt-5.2 / | 1,75 ASV dolāri | 0,175 ASV dolāri | 14 ASV dolāri |
gpt-5.2-pro | 21 ASV dolāri | - | 168 ASV dolāri |
GPT‑5.1 / GPT‑5.1‑tērzēšana‑latest | 1,25 ASV dolāri | 0,125 ASV dolāri | 10 ASV dolāri |
gpt-5-pro | 15 ASV dolāri | - | $120 |
Mums pašlaik nav plānu pārtraukt GPT‑5.1 izmantošanu, GPT‑5, vai GPT‑4.1 API, un mēs savlaicīgi informēsim izstrādātājus par jebkādiem atbalsta pārtraukšanas plāniem ar pietiekamu laika rezervi. Lai gan GPT‑5.2 labi darbosies Codex vidē jau no paša sākuma, mēs plānojam izlaist GPT‑5.2 versiju, kas ir optimizēta Codex, tuvāko nedēļu laikā.
GPT‑5.2 tika izveidots sadarbībā ar mūsu ilgstošajiem partneriem NVIDIA un Microsoft. Azure datu centri un NVIDIA GPU, tostarp H100, H200 un GB200-NVL72, ir OpenAI plaša mēroga mācību infrastruktūras pamats, kas veicina ievērojamus uzlabojumus modeļu intelektā. Kopā šī sadarbība ļauj mums ar pārliecību paplašināt skaitļošanas jaudu un ātrāk ieviest jaunus modeļus tirgū.
Zemāk mēs sniedzam visaptverošus etalonu rezultātus par GPT‑5.2 Thinking, kopā ar GPT‑5.2 Pro apakškopu.
Profesionāls
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
Programmēšana
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
Fakti
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
Garš konteksts
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
Redze
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
Rīka lietošana
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
Akadēmisks
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
Abstraktā domāšana
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
Modeļi tika darbināti ar maksimālo pieejamo apsvērumu intensitāti mūsu API ("xhigh" modeļiem GPT‑5.2 Thinking un Pro, un "high" modelim GPT‑5.1 Thinking), izņemot profesionālos novērtējumus, kur GPT‑5.2 Thinking tika palaists ar "heavy" līmeņa apsvērumu piepūli, maksimāli pieejamo ChatGPT Pro vidē. Pārbaudes tika veiktas pētniecības vidē, kas dažos gadījumos var sniegt nedaudz atšķirīgu rezultātu nekā ražošanas ChatGPT.
* SWE-Lancer gadījumā mēs izslēdzam 40 no 237 uzdevumiem, kas nedarbojās mūsu infrastruktūrā.


