Pāriet uz galveno saturu
OpenAI

2025. gada 11. decembris

ProduktsIzlaidums

Iepazīstinām ar GPT‑5.2

Vismodernākais robežmodelis profesionālam darbam un ilgstošiem aģentiem.

Notiek ielāde…

Mēs iepazīstinām ar GPT‑5.2, visjaudīgāko modeļu sēriju profesionālajam zināšanu darbam.

Jau tagad vidējais ChatGPT Enterprise lietotājs saka, ka MI ļauj ietaupīt 40–60 minūtes dienā, un aktīvie lietotāji saka, ka tas ietaupa vairāk nekā 10 stundas nedēļā. Mēs izstrādājām GPT‑5.2, lai cilvēkiem sniegtu vēl lielāku ekonomisko vērtību; tas ir labāks izklājlapu izveidē, prezentāciju sagatavošanā, koda rakstīšanā, attēlu uztverē, gara konteksta izpratnē, rīku izmantošanā un sarežģītu vairāklīmeņu projektu vadīšanā.

GPT‑5.2 nosaka jaunu līmeni daudzos etalonos, tostarp GDPval, kur tas pārspēj nozares profesionāļus labi definētos zināšanu darba uzdevumos, kas aptver 44 profesijas.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (wins or ties)
Zināšanas darba uzdevumi

70,9%

38.8% (GPT‑5)

SWE-Bench Pro (public)
Programmatūras inženierija

55,6%

50,8%

SWE-bench verificēts
Programmatūras inženierija

80,0%

76,3%

GPQA Diamond (no tools)
Zinātnes jautājumi

92,4%

88,1%

CharXiv Reasoning (ar Python)
Zinātnisko attēlu jautājumi

88,7%

80,3%

HMMT (Februāris 2025)
Matemātikas turnīrs

99,4%

96,3%

FrontierMath (1.–3. līmenis)
Augstākā matemātika

40,3%

31,0%

ARC-AGI-1 (Verified)
Abstraktā domāšana

86,2%

72,8%

ARC-AGI-2 (Verified)
Abstraktā domāšana

52,9%

17,6%

Notion(atveras jaunā logā), Box(atveras jaunā logā), Shopify(atveras jaunā logā), Harvey(atveras jaunā logā) un Zoom(atveras jaunā logā) novēroja, ka GPT‑5.2 demonstrē modernāko tālejošas loģiskās domāšanas un rīku izmantošanas veiktspēju. Databricks(atveras jaunā logā), Hex(atveras jaunā logā) un Triple Whale(atveras jaunā logā) secināja, ka GPT‑5.2 ir izcils aģentiskās datu zinātnes un dokumentu analīzes uzdevumos. Cognition(atveras jaunā logā), Warp(atveras jaunā logā), Charlie Labs(atveras jaunā logā), JetBrains(atveras jaunā logā) un Augment Code(atveras jaunā logā) apgalvo, ka GPT‑5.2 nodrošina modernāko aģentisko kodēšanas veiktspēju ar izmērāmiem uzlabojumiem tādās jomās kā interaktīvā kodēšana, koda pārskatīšana un kļūdu atrašana.

Programmā ChatGPT, GPT‑5.2 Instant, Thinking un Pro sāks ieviest šodien, sākot ar maksas plāniem. API tagad ir pieejami visiem izstrādātājiem.

Kopumā GPT‑5.2 sniedz ievērojamus uzlabojumus vispārējā intelektā, ilgtermiņa konteksta izpratnē, aģentisko rīku izmantošanā un redzējumā, padarot to labāku nekā jebkurš iepriekšējais modelis sarežģītu reālās pasaules uzdevumu izpildē no sākuma līdz beigām.

Modeļa veiktspēja

Ekonomiski vērtīgi uzdevumi

GPT‑5.2 Thinking ir līdz šim labākais modelis reālai, profesionālai lietošanai. Etalonā GDPval, kas mēra labi definētus zināšanu darba uzdevumus 44 profesijās, GPT‑5.2 Thinking nosaka jaunu izcilības līmeni un ir mūsu pirmais modelis, kas darbojas cilvēka eksperta līmenī vai augstāk. Konkrēti, GPT‑5.2 Thinking, pēc ekspertu cilvēku vērtētāju domām, ir līdzvērtīgs vadošajiem nozares profesionāļiem vai pārspēj tos 70,9% GDPval zināšanu darba uzdevumu salīdzinājumos. Šie uzdevumi ietver prezentāciju, izklājlapu un citu materiālu veidošanu. GPT‑5.2 Thinking radīja rezultātus GDPval uzdevumiem ar >11x ātrumu un <1% no ekspertu profesionāļu izmaksām, kas liecina, ka, apvienojot to ar cilvēka uzraudzību, GPT‑5.2 var palīdzēt profesionālajā darbā. Ātruma un izmaksu aprēķini ir balstīti uz vēsturiskajiem rādītājiem; ātrums ChatGPT vidē var atšķirties.

Etalonā GDPval modeļi mēģina izpildīt precīzi definētu zināšanu darbu, kas aptver 44 profesijas no 9 vadošajām nozarēm, kuras veicina ASV IKP. Uzdevumi pieprasa reālus darba produktus, piemēram, pārdošanas prezentācijas, grāmatvedības izklājlapas, neatliekamās aprūpes grafikus, ražošanas diagrammas vai īsus video. ChatGPT vidē modelim GPT‑5.2 Thinking ir jauni rīki, kas nav pieejami GPT‑5 Thinking.

Pārskatot kādu īpaši labu izvades rezultātu, viens no GDPval tiesnešiem komentēja: "Tas ir aizraujošs un ievērojams lēciens izvades kvalitātē... šķiet, ka to ir veidojis profesionāls uzņēmums ar personālu, un tam ir pārsteidzoši labi izstrādāts izkārtojums un padomi abiem piegādājumiem, lai gan vienam no tiem mums joprojām ir dažas nelielas kļūdas, kas jālabo."

Turklāt mūsu iekšējā etalonā jaunāko investīciju banku analītiķu izklājlapu modelēšanas uzdevumiem – piemēram, trīs pārskatu modeļa izveidei Fortune 500 uzņēmumam ar atbilstošu formatējumu un atsaucēm vai piesaistītā izpirkuma modeļa izstrādei uzņēmuma privatizācijai – GPT‑5.2 Thinking vidējais rezultāts uzdevumā ir par 9,3 % augstāks nekā GPT‑5.1, pieaugot no 59,1% līdz 68,4%.

Blakus salīdzinājumi parāda uzlabotu izsmalcinātību un formatēšanu izklājlapās un slaidos, ko ģenerē GPT‑5.2 Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Uzvedne: Izveido darbaspēka plānošanas modeli: darbinieku skaits, pieņemšanas darbā plāns, atbirums un ietekme uz budžetu. Iekļauj inženierijas, mārketinga, juridisko un pārdošanas nodaļas.

Lai izmantotu jaunās izklājlapu un prezentāciju iespējas ChatGPT, tev jābūt maksas plāna lietotājam un jāizvēlas vai nu GPT‑5.2 Thinking, vai Pro. Sarežģīti veidojumi var prasīt daudzas minūtes.

Programmēšana

GPT‑5.2 Thinking paceļ latiņu līdz 55,6% etalonā SWE-bench Pro, kas ir stingrs reālās pasaules programmatūras inženierijas novērtējums. Atšķirībā no SWE-bench Verified, kas testē tikai Python, SWE-bench Pro testē četras programmēšanas valodas un ir vērsts uz lielāku noturību pret datu “piesārņojumu”, kā arī uz sarežģītākiem, daudzveidīgākiem un industrijai nozīmīgākiem uzdevumiem.

Etalonā SWE-bench Pro(atveras jaunā logā), modelim tiek dots koda repozitorijs, un tam jāģenerē ielāps, lai atrisinātu reālistisku programmatūras inženierijas uzdevumu.

SWE-bench verificēts (nav attēlots), GPT‑5.2 Thinking rezultāti sasniedz mūsu jauno rekordu - 80%.

Ikdienas profesionālai lietošanai tas nozīmē modeli, kas spēj uzticamāk atkļūdot ražošanas kodu, ieviest funkciju pieprasījumus, pārveidot lielas kodu bāzes un piegādāt labojumus no sākuma līdz beigām ar mazāku manuālu iejaukšanos.

GPT‑5.2 Thinking ir arī labāks front-end programmatūras inženierijā nekā GPT‑5.1 Thinking. Agrīnie testētāji atklāja, ka tas ir ievērojami spēcīgāks front-end izstrādē un sarežģītā vai neparastā lietotāja saskarnes darbā, īpaši iesaistot 3D elementus, padarot to par spēcīgu ikdienas partneri inženieriem visā pakotnē. Apskati dažus piemērus, ko tas var radīt no vienas uzvednes:

Uzvedne: izveido vienas lapas lietotni vienā HTML failā ar šādām prasībām:
- Nosaukums: Okeāna viļņu simulācija
- Mērķis: attēlot reālistiskus animētus viļņus.
- Funkcijas: mainīt vēja ātrumu, viļņu augstumu, apgaismojumu.
- Lietotāja saskarnei jābūt nomierinošai un reālistiskai.

Agrīnie testētāji dalījās ar savām atsauksmēm par GPT‑5.2 programmēšanas spējām:

&quot;GPT-5.2 pārstāv lielāko izrāvienu GPT modeļos aģentiskajā kodēšanā kopš GPT-5 un ir modernākais kodēšanas modelis savā cenu kategorijā. Versijas paaugstinājums nepietiekami atspoguļo intelekta līmeņa lēcienu. Mēs ar prieku padarām to par noklusējuma variantu visā Windsurf darbībā un vairākās galvenajās Devin darba slodzēs.&quot;
Jeff Wang, Windsurf izpilddirektors

Fakti

GPT‑5.2 Thinking halucinē mazāk nekā GPT‑5.1 Thinking. Anonimizētu ChatGPT vaicājumu kopā atbildes ar kļūdām bija par 38%rel retāk sastopamas. Profesionāļiem tas nozīmē mazāk kļūdu, izmantojot modeli pētniecībai, rakstīšanai, analīzei un lēmumu pieņemšanas atbalstam, padarot modeli uzticamāku ikdienas zināšanu darbā.

Argumentācijas piepūle tika iestatīta uz maksimālo pieejamo līmeni, un meklēšanas rīks iespējots. Kļūdas tika atklātas ar citiem modeļiem, kuri paši var pieļaut kļūdas. Prasību līmeņa kļūdu rādītāji ir daudz zemāki nekā atbilžu līmeņa kļūdu rādītāji, jo lielākā daļa atbilžu satur daudzas prasības.

Tāpat kā visi modeļi, GPT‑5.2 Thinking ir nepilnīgs. Pārbaudi atbildes uz visiem svarīgākajiem jautājumiem.

Garš konteksts

GPT‑5.2 domāšana nosaka jaunu līmeni ilgtermiņa konteksta secināšanā, sasniedzot vadošo veiktspēju OpenAI MRCRv2 — novērtējumā, kas pārbauda modeļa spēju integrēt informāciju, kas izkliedēta pa gariem dokumentiem. Reālās pasaules uzdevumos, piemēram, dziļā dokumentu analīzē, kas prasa saistītu informāciju no simtiem tūkstošu tokenu, GPT‑5.2 Thinking ir ievērojami precīzāks nekā GPT‑5.1 Thinking. Pie tam tas ir pirmais modelis, ko esam redzējuši, kas sasniedz gandrīz 100% precizitāti 4-adatu MRCR variantā (līdz 256k tokeniem).

Praktiski tas ļauj profesionāļiem izmantot GPT‑5.2, lai strādātu ar gariem dokumentiem, piemēram, ziņojumiem, līgumiem, pētnieciskajiem darbiem, stenogrammām un vairāku failu projektiem, vienlaikus saglabājot saskaņotību un precizitāti simtiem tūkstošu žetonu. Tas padara GPT‑5.2 īpaši piemērotu padziļinātai analīzei, sintēzei un sarežģītām daudzavotu darbplūsmām.

In OpenAI-MRCR⁠(atveras jaunā logā) v2 (vairāku kārtu kopreferences izšķirtspēja), vairāki identiski “adatas” lietotāju pieprasījumi tiek ievietoti garās līdzīgu pieprasījumu un atbilžu “siena kaudzēs”, un modelim tiek lūgts reproducēt atbildi uz n-to adatu. 2. versijā ir laboti ~5% uzdevumu, kuriem bija nepareizas patiesās vērtības. Vidējā atbilstības attiecība mēra vidējo virknes atbilstības attiecību starp modeļa atbildi un pareizo atbildi. Punkti pie 256k maksimālajām ievades tekstvienībām atspoguļo vidējos rādītājus 128 tūkst.–256 tūkst. ievades tekstvienībām un tā tālāk. Šeit 256 tūkst. apzīmē 256 * 1,024 = 262,144 tokeni. Apsvēršanas piepūle tika iestatīta uz maksimāli pieejamo.

Uzdevumiem, kas gūst labumu no domāšanas ārpus maksimālā konteksta loga, GPT‑5.2 Thinking ir saderīgs ar mūsu jauno Responses /compact mērķparametru, kas paplašina modeļa efektīvo konteksta logu. Tas ļauj GPT‑5.2 Thinking tikt galā ar intensīvāku, ilgstošu darba plūsmu risināšanu, kas citādi būtu ierobežotas konteksta garuma dēļ. Uzzini vairāk mūsu API dokumentācijā(atveras jaunā logā).

Redze

GPT‑5.2 Thinking ir mūsu līdz šim spēcīgākais redzes modelis, kas aptuveni uz pusi samazina kļūdu līmeni diagrammu analīzē un programmatūras saskarnes izpratnē.

Ikdienas profesionālai lietošanai tas nozīmē, ka modelis var precīzāk interpretēt infopaneļus, produktu ekrānuzņēmumus, tehniskās diagrammas un vizuālos ziņojumus, atbalstot darbplūsmas finansēs, operācijās, inženierijā, dizainā un klientu atbalstā, kur vizuālā informācija ir centrāla.

In CharXiv Reasoning(atveras jaunā logā), modeļi atbild uz jautājumiem par zinātnisko rakstu vizuālajām diagrammām. Python rīks tika iespējots, un apsvēršanas piepūle tika iestatīta uz maksimālo.

Programmā ScreenSpot-Pro(atveras jaunā logā) modeļiem jāapsver augstas izšķirtspējas ekrānuzņēmumi no grafiskajām lietotāja saskarnēm dažādās profesionālās vidēs. Python rīks tika iespējots, un apsvēršanas piepūle tika iestatīta uz maksimālo. Bez Python rīka rezultāti ir daudz zemāki. Mēs iesakām iespējot Python rīku šādiem redzes uzdevumiem.

Salīdzinot ar iepriekšējiem modeļiem, GPT‑5.2 Thinking labāk izprot, kā elementi ir izvietoti attēlā, un tas palīdz uzdevumos, kur relatīvajam izkārtojumam ir būtiska nozīme problēmas risināšanā. Zemāk esošajā piemērā mēs prasām modeli identificēt komponentus attēla ievadē (šajā gadījumā mātesplatē) un atgriezt apzīmējumus ar aptuveniem robežu rāmjiem. Pat zemas kvalitātes attēlā GPT‑5.2 identificē galvenos reģionus un novieto rāmjus, kas aptuveni atbilst katras komponentes patiesajām atrašanās vietām, savukārt GPT‑5.1 tikai marķē dažas daļas un parāda daudz vājāku izpratni par to telpisko izvietojumu.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

Rīka izsaukšana

GPT‑5.2 Thinking sasniedz jaunu sasniegumu līmeni ar 98,7% Tau2-bench Telecom, demonstrējot tā spēju uzticami izmantot rīkus ilgstošos, daudzpakāpju uzdevumos.

Lietošanas gadījumiem, kuros liela nozīme ir latentumam, GPT‑5.2 Thinking arī dod daudz labāku sniegumu, izmantojot reasoning.effort=’none’, ievērojami pārspējot GPT‑5.1 un GPT‑4.1.

In τ2-bench⁠(atveras jaunā logā), modeļi izmanto rīkus, lai pabeigtu klientu atbalsta uzdevumus daudzpakāpju mijiedarbībā ar simulētu lietotāju. Telekomunikāciju domēnā mēs iekļāvām īsu, vispārīgi noderīgu instrukciju sistēmas uzvednē, lai uzlabotu veiktspēju. Mēs izslēdzam Aviokompāniju apakškopu zemākas kvalitātes patiesības novērtējuma dēļ.

Profesionāļiem tas nozīmē spēcīgākas pilnīgas darbplūsmas, piemēram, klientu atbalsta gadījumu risināšanu, datu iegūšanu no vairākām sistēmām, analīžu veikšanu un galīgo rezultātu ģenerēšanu ar retākiem traucējumiem starp soļiem.

Piemēram, uzdodot sarežģītu klientu apkalpošanas jautājumu, kas prasa daudzpakāpju risinājumu, modelis var efektīvāk koordinēt pilnu darbplūsmu starp vairākiem aģentiem. Tālāk minētajā gadījumā ceļotājs ziņo par aizkavētu lidojumu, nokavētu savienojumu, nakšņošanu Ņujorkā un medicīnisku sēdvietu prasību. GPT‑5.2 pārvalda visu uzdevumu ķēdi—pārrezervēšanu, īpašas palīdzības sēdvietas un kompensāciju—sniedzot pilnīgāku rezultātu nekā GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

Zinātne un matemātika

Viena no mūsu cerībām par MI ir, ka tas paātrinās zinātniskos pētījumus, sniedzot labumu visiem. Lai to īstenotu, mēs sadarbojamies ar zinātniekiem un uzklausām tos, lai redzētu, kā mākslīgais intelekts var paātrināt viņu darbu, un pagājušajā mēnesī mēs dalījāmies ar dažiem agrīniem sadarbības eksperimentiem šeit.

Mēs uzskatām, ka GPT‑5.2 Pro un GPT‑5.2 Thinking ir pasaules labākie modeļi zinātnieku atbalstam un paātrināšanai. Uz GPQA Diamond, augstākā līmeņa Google-izturīgā jautājumu un atbilžu etalonā, GPT‑5.2 Pro sasniedz 93,2%, kam cieši seko GPT‑5.2 Domāšana ir 92,4%.

In GPQA Diamond(atveras jaunā logā), modeļi atbild uz izvēles jautājumiem par fiziku, ķīmiju un bioloģiju. Nekādi rīki netika iespējoti, un loģiskās piepūles iestatījums bija maksimāls.

Etalonā FrontierMath (1.–3. līmenis), kas ir ekspertu līmeņa matemātikas novērtējums, GPT‑5.2 Thinking sasniedza jaunu rekordu, atrisinot 40,3% uzdevumu.

Programmā FrontierMath(atveras jaunā logā) modeļi risina ekspertu līmeņa matemātikas problēmas. Python rīks tika iespējo, un loģiskās piepūles iestatījums tika iestatīts uz maksimālo.

Mēs sākam redzēt, kā MI modeļi būtiski paātrina progresu matemātikā un zinātnē taustāmā veidā. Piemēram, nesenā darbā ar GPT‑5.2 Pro, pētnieki izpētīja neatrisinātu jautājumu statistiskās mācīšanās teorijā. Šaurā, labi definētā vidē modelis piedāvāja pierādījumu, ko vēlāk verificēja autori un pārskatīja ārēji eksperti, parādot, kā robežmodeļi var palīdzēt matemātikas pētniecībā ciešā cilvēka uzraudzībā.

ARC-AGI 2

ARC-AGI-1 (Verified) ir etalons, kas izstrādāts, lai mērītu vispārējo spriešanas spēju, un GPT‑5.2 ir pirmais modelis, kas pārsniedz 90% slieksni, pārspējot 87%, ko pagājušajā gadā sasniedza o3‑preview, vienlaikus samazinot šī snieguma izmaksas aptuveni 390 reizes.

Etalonā ARC-AGI-2 (Verified), kas paaugstina grūtības pakāpi un labāk izolē plūstošo spriešanu, GPT‑5.2 Thinking sasniedz jaunu domāšanas ķēdes modeļu izcilības līmeni, iegūstot 52.9%. GPT‑5.2 Pro veiktspēja ir vēl augstāka, sasniedzot 54,2%, tālāk paplašinot modeļa spēju apsvērt jaunas, abstraktas problēmas.

Uzlabojumi šajos novērtējumos atspoguļo GPT‑5.2 spēcīgo daudzpakāpju spriešanu, lielāku kvantitatīvo precizitāti un uzticamāku problēmu risināšanu sarežģītos tehniskos uzdevumos.

Lūk, ko mūsu agrīnie testētāji saka par GPT‑5.2:

&quot;GPT-5.2 mums pavēra pilnīgu arhitektūras maiņu. Mēs sakļāvām trauslu, daudzu aģentu sistēmu vienā mega-aģentā ar vairāk nekā 20 rīkiem. Un labākais ir tas, ka tas vienkārši strādā. Mega-aģents ir ātrāks, gudrāks un simtreiz vieglāk uzturams. Mēs novērojam ievērojami zemāku latentumu, daudz spējīgāku rīku izsaukšanu, un mums vairs nav nepieciešamas plašas sistēmas uzvednes, jo 5.2 tīri izpildās no vienkāršas, vienrindas uzvednes. Tā ir kā tīra maģija.&quot;
AJ Orbach, Triple Whale izpilddirektors

GPT‑5.2 programmā ChatGPT

ChatGPT vidē lietotājiem vajadzētu pamanīt, ka GPT‑5.2 ikdienas lietošanā ir jūtami labāks – strukturētāks, uzticamāks, un joprojām ir patīkami ar to sarunāties.

GPT‑5.2 Instant ir ātrs un spējīgs "darba zirgs" ikdienas darbam un mācībām, ar nepārprotamiem uzlabojumiem informācijas meklēšanas jautājumos, pamācībās un ceļvežos, tehniskajā rakstīšanā un tulkošanā, lietojot siltāku sarunvalodas toni, kas tika ieviests ar GPT‑5.1 Instant. Agrīnie testētāji īpaši atzīmēja saprotamākus skaidrojumus, kas izceļ galveno informāciju jau sākumā.

GPT‑5.2 Thinking ir izstrādāts dziļākam darbam, palīdzot lietotājiem risināt sarežģītākus uzdevumus ar lielāku precizitāti – īpaši programmēšanā, garu dokumentu kopsavilkumu veidošanā, jautājumu atbildēšanā par augšupielādētiem failiem, matemātikas un loģikas uzdevumu izpildē soli pa solim, kā arī plānošanas un lēmumu pieņemšanas atbalstam ar skaidrāku struktūru un noderīgāku detalizāciju.

GPT‑5.2 Pro ir mūsu visgudrākais un uzticamākais risinājums sarežģītiem jautājumiem, kur augstākas kvalitātes atbilde ir gaidīšanas vērta, un agrīnie testi rāda mazāk būtisku kļūdu un spēcīgāku veiktspēju sarežģītos domēnos, piemēram, programmēšanā.

Drošība

GPT‑5.2 balstās uz drošas pabeigšanas pētījumiem, ko mēs ieviesām ar GPT‑5, kas māca modelim sniegt visnoderīgāko atbildi, vienlaikus paliekot drošības robežās.

Ar šo laidienu mēs turpinājām darbu, lai stiprinātu savu modeļu atbildes sensitīvās sarunās, ar būtiskiem uzlabojumiem tajā, kā tie reaģē uz uzvednēm, kas norāda uz pašnāvības vai pašsavainošanās pazīmēm, garīgās veselības traucējumiem vai emocionālu atkarību no modeļa. Šīs mērķtiecīgās iejaukšanās ir novedušas pie mazāk nevēlamām reakcijām gan GPT‑5.2 Instant, gan GPT‑5.2 Thinking salīdzinājumā ar GPT‑5.1 un GPT‑5 Instant un Thinking modeļiem. Papildu informāciju var atrast sistēmas kartē.

Mēs esam agrīnā vecuma prognozēšanas modeļa ieviešanas posmā, lai automātiski piemērotu satura aizsardzību lietotājiem, kas ir jaunāki par 18 gadiem, lai ierobežotu piekļuvi sensitīvam saturam. Tas balstās uz mūsu esošo pieeju lietotājiem, par kuriem zinām, ka viņi ir jaunāki par 18 gadiem, un mūsu vecāku kontroli.

GPT‑5.2 ir viens solis nepārtrauktā uzlabojumu sērijā, un mēs vēl neesam pabeiguši. Lai gan šis izlaidums sniedz būtiskus ieguvumus intelekta un produktivitātes jomā, mēs zinām, ka ir jomas, kur cilvēki vēlas vairāk. Programmā ChatGPT mēs strādājam pie zināmām problēmām, piemēram, pārspīlētiem atteikumiem, vienlaikus turpinot paaugstināt drošības un uzticamības latiņu kopumā. Šīs izmaiņas ir sarežģītas, un mēs koncentrējamies uz to, lai tās būtu pareizas.

Garīgās veselības novērtējumi


GPT‑5.2
Instant

GPT‑5.1
Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

Garīgā veselība

0,995

0,883

0,915

0,684

Emocionālā atkarība

0,938

0,945

0,955

0,785

Paškaitējums

0,938

0,925

0,963

0,937

Pieejamība un izcenojums

ChatGPT vidē mēs šodien sāksim ieviest GPT‑5.2 (Instant, Thinking un Pro), sākot ar maksas plāniem (Plus, Pro, Go, Business, Enterprise). Mēs ieviešam GPT‑5.2 pakāpeniski, lai ChatGPT darbotos pēc iespējas vienmērīgāk un uzticamāk; ja sākumā to neredzi, lūdzu, mēģini vēlreiz vēlāk. ChatGPT vidē GPT‑5.1 joprojām būs pieejams maksas lietotājiem trīs mēnešus kā novecojis modelis; pēc tam mēs izbeigsim GPT‑5.1 darbību.

Modeļu nosaukumi visā ChatGPT un API

ChatGPT

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

Mūsu API platformā GPT‑5.2 Thinking ir pieejams jau šodien Responses API un Chat Completions API kā gpt-5.2, un GPT‑5.2 Instant kā gpt-5.2-chat-latest. GPT‑5.2 Pro ir pieejams Responses API kā gpt-5.2-pro. Izstrādātāji tagad var iestatīt spriešanas parametru GPT‑5.2 Pro, un gan GPT‑5.2 Pro, gan GPT‑5.2 Thinking tagad ir atbalsts jaunajai piektajai xhigh spriešanas spējai uzdevumiem, kuros kvalitāte ir vissvarīgākā.

GPT‑5.2 cena ir 1,75 USD par 1 miljonu ievades tekstvienību un 14 USD par 1 miljonu izvades tekstvienību, ar 90% atlaidi kešatmiņā saglabātām ievadēm. Vairākos aģentu novērtējumos mēs atklājām, ka, neskatoties uz GPT‑5.2 augstāko maksu par vienu tekstvienību, izmaksas noteikta kvalitātes līmeņa sasniegšanai izrādījās zemākas, pateicoties augstākai GPT‑5.2 tekstvienību efektivitātei.

Lai gan ChatGPT abonementa izcenojums paliek nemainīgs, API GPT‑5.2 cena par tokenu ir augstāka nekā GPT‑5.1, jo tas ir spējīgāks modelis. Tas joprojām ir lētāks nekā citi modeļi, tāpēc cilvēki var turpināt to padziļināti izmantot savā ikdienas darbā un pamatlietotnēs.

Cena par miljonu tokenu

Modelis

Ievade

Kešatmiņā saglabāta ievade

Izvade

gpt-5.2 /
gpt-5.2-chat-latest

1,75 ASV dolāri

0,175 ASV dolāri

14 ASV dolāri

gpt-5.2-pro

21 ASV dolāri

-

168 ASV dolāri

GPT‑5.1 / GPT‑5.1‑tērzēšana‑latest

1,25 ASV dolāri

0,125 ASV dolāri

10 ASV dolāri

gpt-5-pro

15 ASV dolāri

-

$120

Mums pašlaik nav plānu pārtraukt GPT‑5.1 izmantošanu, GPT‑5, vai GPT‑4.1 API, un mēs savlaicīgi informēsim izstrādātājus par jebkādiem atbalsta pārtraukšanas plāniem ar pietiekamu laika rezervi. Lai gan GPT‑5.2 labi darbosies Codex vidē jau no paša sākuma, mēs plānojam izlaist GPT‑5.2 versiju, kas ir optimizēta Codex, tuvāko nedēļu laikā.

Mūsu partneri

GPT‑5.2 tika izveidots sadarbībā ar mūsu ilgstošajiem partneriem NVIDIA un Microsoft. Azure datu centri un NVIDIA GPU, tostarp H100, H200 un GB200-NVL72, ir OpenAI plaša mēroga mācību infrastruktūras pamats, kas veicina ievērojamus uzlabojumus modeļu intelektā. Kopā šī sadarbība ļauj mums ar pārliecību paplašināt skaitļošanas jaudu un ātrāk ieviest jaunus modeļus tirgū.

Pielikums

Detalizēti etaloni

Zemāk mēs sniedzam visaptverošus etalonu rezultātus par GPT‑5.2 Thinking, kopā ar GPT‑5.2 Pro apakškopu.

Profesionāls
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
Programmēšana
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
Fakti
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
Garš konteksts
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
Redze
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
Rīka lietošana
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
Akadēmisks
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
Abstraktā domāšana
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

Modeļi tika darbināti ar maksimālo pieejamo apsvērumu intensitāti mūsu API ("xhigh" modeļiem GPT‑5.2 Thinking un Pro, un "high" modelim GPT‑5.1 Thinking), izņemot profesionālos novērtējumus, kur GPT‑5.2 Thinking tika palaists ar "heavy" līmeņa apsvērumu piepūli, maksimāli pieejamo ChatGPT Pro vidē. Pārbaudes tika veiktas pētniecības vidē, kas dažos gadījumos var sniegt nedaudz atšķirīgu rezultātu nekā ražošanas ChatGPT.

* SWE-Lancer gadījumā mēs izslēdzam 40 no 237 uzdevumiem, kas nedarbojās mūsu infrastruktūrā.

Autors

OpenAI