Pereiti prie pagrindinio turinio
OpenAI

2025 m. gruodžio 11 d.

ProduktasLeidimas

Pristatome GPT‑5.2

Pažangiausias modelis, skirtas profesionaliam darbui ir ilgai trunkančioms agentinėms užduotims.

Įkeliama...

Pristatome GPT‑5.2 – mūsų pajėgiausių modelių seriją, skirtą profesionaliam žinių darbui.

Jau dabar vidutinis „ChatGPT Enterprise“ naudotojas teigia, kad DI sutaupo jam 40–60 minučių per dieną, o aktyvūs naudotojai teigia, kad jis sutaupo daugiau nei 10 valandų per savaitę. GPT‑5.2 sukūrėme tam, kad žmonėms suteiktume dar daugiau ekonominės vertės; jis geriau kuria skaičiuokles, rengia pristatymus, rašo kodą, suvokia vaizdus, supranta ilgus kontekstus, naudojasi įrankiais ir valdo sudėtingus, daugiapakopius projektus.

GPT‑5.2 nustato naują standartą daugelyje lyginamųjų testų, įskaitant „GDPval“, kur jis lenkia pramonės profesionalus atliekant tiksliai apibrėžtas protinio darbo užduotis, apimančias 44 profesijas.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval“ (laimėjimai arba lygiosios)
Žinių darbo užduotys

70,9 %

38,8 % (GPT‑5)

„SWE-Bench Pro“ (viešas)
Programinės įrangos inžinerija

55,6 %

50,8 %

SWE-bench Verified
Programų inžinerija

80,0 %

76,3 %

„GPQA Diamond“ (be įrankių)
Mokslo klausimai

92,4 %

88,1 %

„CharXiv Reasoning“ (su „Python“)
Moksliniai klausimai su figūromis

88,7 %

80,3 %

HMMT (2025 m. vasaris)
Matematikos turnyras

99,4 %

96,3 %

FrontierMath (1–3 pakopos)
Išplėstinė matematika

40,3 %

31,0 %

„ARC-AGI-1 (Verified)“
Abstraktus samprotavimas

86,2 %

72,8 %

„ARC-AGI-2 (Verified)“
Abstraktus samprotavimas

52,9 %

17,6 %

Notion(atsidaro naujame lange), Box(atsidaro naujame lange), Shopify(atsidaro naujame lange), Harvey(atsidaro naujame lange) ir Zoom(atsidaro naujame lange) pastebėjo, kad GPT‑5.2 demonstruoja aukščiausio lygio ilgalaikio samprotavimo ir įrankių iškvietimo našumą. Databricks(atsidaro naujame lange), Hex(atsidaro naujame lange) ir Triple Whale(atsidaro naujame lange) nustatė, kad GPT‑5.2 išskirtinai gerai atliekan agentines duomenų mokslo ir dokumentų analizės užduotis. Cognition(atsidaro naujame lange), Warp(atsidaro naujame lange), Charlie Labs(atsidaro naujame lange), JetBrains(atsidaro naujame lange) ir Augment Code(atsidaro naujame lange) teigia, kad GPT‑5.2 užtikrina aukščiausio lygio agentinio programavimo našumą, o patobulinimai išmatuojami tokiose srityse kaip interaktyvusis programavimas, kodo peržiūros ir klaidų paieška.

„ChatGPT“ platformoje „GPT‑5.2 Instant“, „Thinking“ ir „Pro“ modeliai bus pradėti diegti šiandien, pradedant nuo mokamų planų. API sąsajoje jie jau dabar prieinami visiems programuotojams.

Apskritai GPT‑5.2 suteikia reikšmingų patobulinimų bendrojo intelekto, ilgo konteksto supratimo, agentinio įrankių iškvietimo ir regos srityse, todėl jis geriau nei bet kuris ankstesnis modelis atlieka sudėtingas, realias užduotis nuo pradžios iki galo.

Modelio našumas

Ekonomiškai vertingos užduotys

„GPT‑5.2 Thinking“ yra geriausias modelis realiam, profesionaliam naudojimui. Atliekant „GDPval“ vertinimą, kuriuo matuojamos aiškiai apibrėžtos žinių reikalaujančio darbo užduotys 44 profesijose, „GPT‑5.2 Thinking“ pasiekė naują rekordą ir yra pirmasis mūsų modelis, veikiantis žmogaus eksperto lygiu arba geriau. Konkrečiai, „GPT‑5.2 Thinking“, remiantis ekspertų vertinimais, lenkia geriauius pramonės profesionalus arba jiems prilygsta atlikdamas 70,7 proc. „GDPval“ žinių darbo užduočių. Šios užduotys apima pristatymų, skaičiuoklių ir kitų artefaktų kūrimą. „GPT‑5.2 Thinking“ rezultatus „GDPval“ užduotims atlikti generavo daugiau nei 11 kartų greičiau ir už mažiau nei 1 proc. ekspertų kainos; tai rodo, kad prižiūrimas žmogaus GPT‑5.2 gali padėti atlikti profesionalų darbą. Greičio ir kainos įverčiai pagrįsti istoriniais rodikliais; greitis „ChatGPT“ gali skirtis.

„GDPval“ vertinime modeliai bando atlikti tiksliai apibrėžtus žinių darbus, apimančius 44 profesijas iš devynių pagrindinių pramonės šakų, prisidedančių prie JAV BVP. Užduotyse prašoma realių darbo produktų, pavyzdžiui, pardavimų pristatymų, apskaitos skaičiuoklių, skubios pagalbos tvarkaraščių, gamybos diagramų ar trumpų vaizdo įrašų. „ChatGPT“ platformoje „GPT‑5.2 Thinking“ turi naujų įrankių, kurių neturi „GPT‑5 Thinking“.

Peržiūrėdamas vieną ypač gerą rezultatą, vienas „GDPval“ vertintojas pakomentavo: „Tai jaudinantis ir pastebimas rezultato kokybės šuolis... [jis] atrodo atliktas profesionalios įmonės su darbuotojais, išdėstymas stebėtinai gerai suprojektuotas, o patarimai dėl abiejų rezultatų yra puikūs, nors viename dar turime ištaisyti keletą smulkių klaidų.“

Be to, mūsų vidaus jaunesniųjų investicinės bankininkystės analitikų skaičiuoklių modeliavimo užduočių lyginamajame teste – pavyzdžiui, sudarant „Fortune 500“ įmonės trijų ataskaitų modelį su tinkamu formatavimu ir citatomis arba kuriant svertinio išpirkimo modelį privatizavimui – „GPT‑5.2 Thinking“ vidutinis balas už užduotį yra 9,3 ž proc. didesnis nei GPT‑5.1, ir pakilo nuo 59,1 proc. iki 68,4 proc.

Tiesioginiai palyginimai rodo geresnį „GPT‑5.2 Thinking“ sugeneruotų skaičiuoklių ir skaidrių sudėtingumą bei formatavimą:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Raginimas: sukurk darbo jėgos planavimo modelį: darbuotojų skaičius, samdymo planas, darbuotojų kaita ir poveikis biudžetui. Įtrauk inžinerijos, rinkodaros, teisės ir pardavimo skyrius.

Norėdami naudoti naujas skaičiuoklių ir pristatymų galimybes „ChatGPT“, turite turėti mokamą planą ir pasirinkti GPT‑5.2 Thinking arba Pro. Sudėtingas generavimas gali užtrukti ilgą laiką.

Programavimas

„GPT‑5.2 Thinking“ nustato naują 55,6 proc. standartą „SWE-Bench Pro“ – griežtame realios programinės įrangos inžinerijos vertinime. Kitaip nei „SWE-bench Verified“, kuriame testuojama tik „Python“, „SWE-Bench Pro“ testuojamos keturios kalbos ir siekiama, kad jis būtų atsparesnis taršai, sudėtingesnis, įvairesnis ir aktualesnis pramonei.

Teste SWE-Bench Pro(atsidaro naujame lange) modeliui pateikiama kodo saugykla ir jis turi sugeneruoti pataisą, kad išspręstų realistinę programinės įrangos inžinerijos užduotį.

„SWE-bench Verified“ teste (nepavaizduota) „GPT‑5.2 Thinking“ surenka naują aukščiausią mūsų balą – 80 proc.

Kasdieniam profesionaliam naudojimui tai reiškia modelį, kuris gali patikimiau šalinti gamybos kodo riktus, įgyvendinti funkcijų užklausas, pertvarkyti dideles kodų bazes ir pateikti pataisymus nuo pradžios iki galo su mažesniu rankiniu įsikišimu.

„GPT‑5.2 Thinking“ taip pat geriau atlieka sąsajos programinės įrangos inžinerijos darbus nei „GPT‑5.1 Thinking“. Ankstyvieji bandytojai pastebėjo, kad jis daug stipresnis sąsajos kūrimo ir sudėtingo ar netradicinio naudotojo sąsajos darbo srityse – ypač apimančiose 3D elementus, – todėl yra galingas kasdienis partneris visų grandžių inžinieriams. Peržiūrėkite keletą pavyzdžių, ką jis gali sukurti pagal vieną raginimą.

Raginimas: sukurk vieno puslapio programą viename HTML faile, atitinkančią šiuos reikalavimus:
- pavadinimas: „Vandenyno bangų simuliacija“;
- tikslas: atvaizduoti tikroviškas animuotas bangas;
- funkcijos: keisti vėjo greitį, bangų aukštį, apšvietimą;
- NS turi būti raminanti ir tikroviška.

Ankstyvieji bandytojai pasidalijo atsiliepimais apie GPT‑5.2 programavimo galimybes:

„GPT-5.2 yra didžiausias GPT modelių šuolis agentinio programavimo srityje nuo GPT-5 laikų ir yra moderniausias (SOTA) programavimo modelis savo kainų kategorijoje. Versijos numerio pakeitimas neatskleidžia tikrojo intelekto šuolio. Džiaugiamės galėdami padaryti jį numatytuoju visame „Windsurf“ ir keliuose pagrindiniuose „Devin“ darbo krūviuose.“
Jeff Wang, „Windsurf“ generalinis direktorius

Faktinis tikslumas

„GPT‑5.2 Thinking“ kuria mažiau pramanų nei „GPT‑5.1 Thinking“. Naudojant nuasmenintų užklausų iš „ChatGPT“ rinkinį, atsakymų su klaidomis buvo 38 proc.relmažiau. Profesionalams tai reiškia mažiau klaidų naudojant modelį tyrimams, rašymui, analizei ir sprendimų palaikymui, todėl modelis tampa patikimesnis kasdieniame žinių darbe.

Samprotavimo pastangos buvo nustatytos ties maksimalia prieinama riba ir buvo įjungtas paieškos įrankis. Klaidas aptiko kiti modeliai, kurie patys gali daryti klaidų. Teiginių lygio klaidų rodikliai yra daug mažesni nei atsakymų lygio klaidų rodikliai, nes daugumoje atsakymų yra daug teiginių.

Kaip ir visi modeliai, „GPT‑5.2 Thinking“ nėra tobulas. Atlikdami bet kokius svarbius veiksmus, dar kartą patikrinkite jo atsakymus.

Ilgas kontekstas

„GPT‑5.2 Thinking“ nustato naują ilgo konteksto samprotavimo standartą ir pasiekia lyderio pozicijas „OpenAI MRCRv2“ – vertinime, kuriuo tikrinamas modelio gebėjimas integruoti informaciją, išsklaidytą ilguose dokumentuose. Atliekant realias užduotis, pavyzdžiui, gilią dokumentų analizę, kuriai reikia susijusios informacijos iš šimtų tūkstančių prieigos raktų, „GPT‑5.2 Thinking“ yra gerokai tikslesnis nei „GPT‑5.1 Thinking“. Visų pirma, tai pirmasis mūsų matytas modelis, pasiekiantis beveik 100 proc. tikslumą 4 adatų MRCR variante (iki 256 tūkst. prieigos raktų).

Praktiškai tai leidžia profesionalams naudoti GPT‑5.2 darbui su ilgais dokumentais – ataskaitomis, sutartimis, tyrimų straipsniais, nuorašais ir kelių failų projektais – išlaikant rišlumą ir tikslumą šimtuose tūkstančių prieigos raktų. Dėl to GPT‑5.2 ypač tinka giliai analizei, sintezei ir sudėtingoms kelių šaltinių darbo eigoms.

Teste „OpenAI MRCRv2“(atsidaro naujame lange) (kelių etapų koreferencijos nustatymas) kelios identiškos „adatos“ (naudotojo užklausos) įterpiamos į ilgas panašių užklausų ir atsakymų „šieno kupetas“, o modelio prašoma atkurti atsakymą į n-tąją adatą. 2-ojoje vertinimo versijoje ištaisyta ~5 proc. užduočių, kurių faktinės tiesos reikšmės buvo neteisingos. Vidutinis atitikties santykis matuoja vidutinį eilučių atitikties santykį tarp modelio atsakymo ir teisingo atsakymo. Taškai ties 256 tūkst. maksimalių įvesties žetonų žymi vidurkius virš 128–256 tūkst. įvesties žetonų ir t. t. Čia 256 tūkst. reiškia 256 * 1 024 = 262 114 žetonų. Samprotavimo pastangos buvo nustatytos kaip maksimalios galimos.

Užduotims, kurioms naudingas mąstymas viršijant maksimalų konteksto langą, „GPT‑5.2 Thinking“ yra suderinamas su mūsų naujuoju „Responses /compact“ galutiniu tašku, kuris praplečia efektyvų modelio konteksto langą. Dėl to „GPT‑5.2 Thinking“ gali susitvarkyti su darbo eigomis, kuriose gausiau naudojami įrankiai ir kurios trunka ilgiau, o kitu atveju būtų ribojamos konteksto ilgio. Skaitykite daugiau mūsų API dokumentacijoje(atsidaro naujame lange).

Vizija

„GPT‑5.2 Thinking“ yra stipriausias mūsų regos modelis, maždaug perpus sumažinantis klaidų skaičių diagramų samprotavimo ir programinės įrangos sąsajų supratimo srityse.

Kasdieniam profesionaliam naudojimui tai reiškia, kad modelis gali tiksliau interpretuoti sąvadus, produktų ekrano kopijas, technines schemas ir vizualines ataskaitas, taip palaikydamas darbo eigas finansų, operacijų, inžinerijos, dizaino ir klientų aptarnavimo srityse, kur vaizdinė informacija yra labai svarbi.

Teste „CharXiv Reasoning“(atsidaro naujame lange) modeliai atsako į klausimus apie vaizdines diagramas iš mokslinių straipsnių. Buvo įjungtas „Python“ įrankis, o samprotavimo pastangos nustatytos kaip maksimalios.

Teste „ScreenSpot-Pro“(atsidaro naujame lange) modeliai turi samprotauti apie didelės raiškos grafinių naudotojo sąsajų ekrano kopijas iš įvairių profesinių aplinkų. Buvo įjungtas „Python“ įrankis, o samprotavimo pastangos nustatytos kaip maksimalios. Be „Python“ įrankio balai yra daug mažesni. Rekomenduojame įjungti „Python“ įrankį atliekant tokias regos užduotis.

Palyginti su ankstesniais modeliais, „GPT‑5.2 Thinking“ geriau supranta, kaip elementai išdėstyti vaizde, o tai padeda atliekant užduotis, kuriose santykinis išdėstymas yra labai svarbus sprendžiant problemą. Toliau pateiktame pavyzdyje prašome modelio identifikuoti komponentus įvestame vaizde (šiuo atveju – pagrindinėje plokštėje) ir pateikti etiketes su apytiksliais ribojančiaisiais stačiakampiais. Net ir esant prastos kokybės vaizdui, GPT‑5.2 nustato pagrindines sritis ir uždeda stačiakampius, kurie apytiksliai atitinka tikrąsias kiekvieno komponento vietas, o GPT‑5.1 pažymi tik kelias dalis ir daug prasčiau supranta jų erdvinį išdėstymą.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

Įrankių iškvietimas

„GPT‑5.2 Thinking“ pasiekia naują 98,7 proc. standartą „Tau2-bench Telecom“, demonstruodamas gebėjimą patikimai naudoti įrankius ilgose, daugiapakopėse užduotyse.

Naudojimo atvejais, jautriems delsai, „GPT‑5.2 Thinking“ taip pat veikia daug geriau nesant jokių samprotavimo pastangų (reasoning.effort=’none'), gerokai lenkdamas GPT‑5.1 ir GPT‑4.1.

Teste „Tau2-bench“(atsidaro naujame lange) modeliai naudoja įrankius klientų aptarnavimo užduotims atlikti per kelių etapų sąveiką su imituojamu naudotoju. Telekomunikacijų sričiai į sistemos užklausą įtraukėme trumpą, bendro pobūdžio naudingą instrukciją, kad padidintume našumą. Oro linijų poaibio neįtraukėme dėl prastesnės faktinės tiesos vertinimo kokybės.

Profesionalams tai reiškia stipresnes darbo eigas nuo pradžios iki galo – pavyzdžiui, sprendžiant klientų aptarnavimo atvejus, traukiant duomenis iš kelių sistemų, atliekant analizes ir generuojant galutinius rezultatus su mažiau trikdžių tarp etapų.

Pavyzdžiui, uždavus sudėtingą klientų aptarnavimo klausimą, kuriam reikia daugiapakopio sprendimo, modelis gali efektyviau koordinuoti visą darbo eigą tarp kelių agentų. Toliau pateiktu atveju keliautojas praneša apie atidėtą skrydį, praleistą persėdimą, nakvynę Niujorke ir reikalavimą dėl sėdimos vietos dėl medicininių priežasčių. GPT‑5.2 valdo visą užduočių grandinę – pakartotinį užsakymą, specialios pagalbos sėdimos vietos parinkimą ir kompensavimą – ir pateikia išsamesnį rezultatą nei GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

Mokslas ir matematika

Viena iš mūsų vilčių dėl DI yra ta, kad jis paspartins mokslinius tyrimus visų labui. Siekdami šio tikslo, dirbame su mokslininkais ir klausomės jų, kad pamatytume, kaip DI gali pagreitinti jų darbą, o praėjusį mėnesį pasidalijome keletu ankstyvųjų bendradarbiavimo eksperimentų čia.

Tikime, kad „GPT‑5.2 Pro“ ir „GPT‑5.2 Thinking“ yra geriausi pasaulyje modeliai, padedantys mokslininkams ir spartinantys jų darbą. „GPQA Diamond“ – magistrantūros lygio „Google“ neįveikiamame klausimų ir atsakymų lyginamajame teste – „GPT‑5.2 Pro“ pasiekia 93,2 proc., o jam iš paskos seka „GPT‑5.2 Thinking“ su 92,4 proc.

Teste „GPQA Diamond“(atsidaro naujame lange) modeliai atsako į klausimus su pasirenkamais atsakymais apie fiziką, chemiją ir biologiją. Įrankiai nebuvo įjungti, o samprotavimo pastangos nustatytos kaip maksimalios.

„FrontierMath“ (1–3 lygiai) – ekspertinio lygio matematikos vertinime – „GPT‑5.2 Thinking“ nustato naują standartą, išspręsdamas 40,3 proc. uždavinių.

Teste „FrontierMath“(atsidaro naujame lange) modeliai sprendžia eksperto lygio matematikos uždavinius. Buvo įjungtas „Python“ įrankis, o samprotavimo pastangos nustatytos kaip maksimalios.

Pradedame matyti, kad DI modeliai apčiuopiamai spartina pažangą matematikos ir mokslo srityse. Pavyzdžiui, neseniai atliktame tyrime su „GPT‑5.2 „Pro“ tyrėjai nagrinėjo atvirą statistinio mokymosi teorijos klausimą. Siauroje, tiksliai apibrėžtoje aplinkoje modelis pasiūlė įrodymą, kurį vėliau patikrino autoriai ir peržiūrėjo išorės ekspertai; tai iliustruoja, kaip pažangiausi modeliai gali padėti atlikti matematinius tyrimus, atidžiai prižiūrint žmogui.

ARC-AGI 2

„ARC-AGI-1 (Verified)“, lyginamajame teste, skirtame bendriesiems samprotavimo gebėjimams matuoti, GPT‑5.2 yra pirmasis modelis, peržengęs 90 proc. ribą (pagerino pernykštį „o3‑preview“ 87 proc. rezultatą), kartu sumažindamas šio rezultato pasiekimo sąnaudas maždaug 390 kartų.

„ARC-AGI-2 (Verified)“, kuriame padidintas sudėtingumas ir geriau išskiriamas takusis samprotavimas, „GPT‑5.2 Thinking“ pasiekė naują standartą minčių grandinės modeliams – 52,9 proc. „GPT‑5.2 Pro“ pasirodė dar geriau ir pasiekė 54,2 proc., dar labiau išplėsdamas modelio gebėjimą samprotauti sprendžiant naujas, abstrakčias problemas.

Šių vertinimų patobulinimai rodo stipresnį GPT‑5.2 daugiapakopį samprotavimą, didesnį kiekybinį tikslumą ir patikimesnį sudėtingų techninių užduočių sprendimą.

Štai ką apie GPT‑5.2 sako mūsų ankstyvieji bandytojai:

„GPT-5.2 mums atvėrė galimybę visiškai pakeisti architektūrą. Sutraukėme trapią kelių agentų sistemą į vieną mega-agentą su daugiau nei 20 įrankių. Geriausia tai, kad ji tiesiog veikia. Mega-agentas yra greitesnis, išmanesnis ir 100 kartų lengviau prižiūrimas. Pastebime žymiai mažesnę delsą, daug geresnį įrankių iškvietimą, ir mums nebereikia gremėzdiškų sistemos raginimų, nes 5.2 versija švariai įvykdo užduotį gavusi paprastą vienos eilutės raginimą. Tai atrodo kaip tikra magija.“
AJ Orbach, „Triple Whale“ generalinis direktorius

GPT‑5.2 sistemoje „ChatGPT“

„ChatGPT“ naudotojai turėtų pastebėti, kad GPT‑5.2 kasdien naudoti yra maloniau – jis labiau susistemintas, patikimesnis ir su juo vis dar malonu kalbėtis.

GPT‑5.2 Instant yra greitas ir pajėgus „darbinis arkliukas“ kasdieniam darbui ir mokymuisi, pasižymintis aiškiais informacijos paieškos klausimų, instrukcijų ir paaiškinimų, techninio rašymo bei vertimo patobulinimais, paremtais šiltesniu pokalbio tonu, pristatytu „GPT‑5.1 Instant“. Ankstyvieji bandytojai ypač atkreipė dėmesį į aiškesnius paaiškinimus, kuriuose pagrindinė informacija pateikiama iš karto.

GPT‑5.2 Thinking sukurtas gilesniam darbui, padeda naudotojams atlikti sudėtingesnes užduotis kokybiškiau – ypač programuojant, apibendrinant ilgus dokumentus, atsakant į klausimus apie įkeltus failus, sprendžiant matematikos ir logikos uždavinius žingsnis po žingsnio bei palaikant planavimą ir sprendimų priėmimą aiškesne struktūra ir naudingesnėmis detalėmis.

GPT‑5.2 Pro – mūsų išmaniausias ir patikimiausias pasirinkimas sudėtingiems klausimams, kai verta palaukti kokybiškesnio atsakymo; ankstyvieji bandymai rodo mažiau didelių klaidų ir geresnį našumą sudėtingose srityse, pavyzdžiui, programavimo.

Sauga

GPT‑5.2 remiasi saugaus užbaigimo tyrimais, kuriuos pristatėme su GPT‑5, kai modelis mokomas pateikti naudingiausią atsakymą, kartu neperžengiant saugos ribų.

Išleisdami šią versiją, tęsėme darbą siekdami sustiprinti mūsų modelių atsakymus jautriuose pokalbiuose, reikšmingai patobulindami tai, kaip jie reaguoja į raginimus, rodančius savižudybės ar savęs žalojimo, psichikos sveikatos sutrikimų ar emocinės priklausomybės nuo modelio požymius. Dėl šių tikslingų intervencijų tiek „GPT‑5.2 Instant“, tiek „GPT‑5.2 Thinking“ modeliuose nepageidaujamų atsakymų sumažėjo, palyginti su GPT‑5.1 ir „GPT‑5 Instant“ bei „Thinking“ modeliais. Daugiau informacijos rasite sistemos kortelėje.

Esame ankstyvojoje mūsų amžiaus spėjimo modelio diegimo stadijoje, kad galėtume automatiškai taikyti turinio apsaugos priemones naudotojams, kurie yra jaunesni nei 18 metų, siekdami apriboti prieigą prie jautraus turinio. Tai papildo mūsų esamą požiūrį į naudotojus, apie kuriuos žinome, kad jie yra jaunesni nei 18 metų, ir mūsų tėvų kontrolės priemones.

GPT‑5.2 yra vienas žingsnis nuolatinėje patobulinimų serijoje, ir mes dar toli gražu nebaigėme. Nors ši versija suteikia reikšmingą intelekto ir našumo prieaugį, žinome, kad yra sričių, kuriose vartotojai nori daugiau. „ChatGPT“ platformoje dirbame ties žinomomis problemomis, tokiomis kaip pernelyg dažni atsisakymai, ir toliau keliame bendrą saugos bei patikimumo kartelę. Šie pokyčiai yra sudėtingi, todėl susitelkiame į tai, kad juos įgyvendintume tinkamai.

Psichikos sveikatos vertinimai


GPT‑5.2
Instant

GPT‑5.1
Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

Psichikos sveikata

0,995

0,883

0,915

0,684

Emocinė priklausomybė

0,938

0,945

0,955

0,785

Savęs žalojimas

0,938

0,925

0,963

0,937

Prieinamumas ir kainos

„ChatGPT“ platformoje GPT‑5.2 („Instant“, „Thinking“ ir „Pro“) pradėsime diegti šiandien, pradedant nuo mokamų planų („Plus“, „Pro“, „Go“, „Business“, „Enterprise“). GPT‑5.2 diegiame palaipsniui, kad „ChatGPT“ veiktų kuo sklandžiau ir patikimiau; jei iš pradžių jo nematote, bandykite vėliau. „ChatGPT“ platformoje mokami naudotojai dar tris mėnesius galės naudotis GPT‑5.1 pagal senųjų modelių kategoriją, po to GPT‑5.1 atsisakysime.

Modelių pavadinimai „ChatGPT“ ir API

„ChatGPT“

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

Mūsų API platformoje „GPT‑5.2 Thinking“ šiandien prieinamas „Responses“ API ir „Chat Completions“ API kaip gpt-5.2, o „GPT‑5.2 Instant“ – kaip „gpt-5.2-chat-latest“. „GPT‑5.2 Pro“ prieinamas „Responses“ API kaip gpt-5.2-pro. Programuotojai dabar gali nustatyti samprotavimo parametrą „GPT‑5.2 Pro“, o „GPT‑5.2 Pro“ ir „GPT‑5.2 Thinking“ dabar palaiko naują penktąjį – itin didelių („xhigh“) – samprotavimo pastangų lygį užduotims, kuriose svarbiausia kokybė.

GPT‑5.2 kaina yra 1,75 USD už 1 mln. įvesties prieigos raktų ir 14 USD už 1 mln. išvesties prieigos raktų, taikant 90 proc. nuolaidą talpyklos įvestims. Atlikę daugybę agentinių vertinimų nustatėme, kad nepaisant didesnės GPT‑5.2 prieigos raktų kainos, tam tikro lygio kokybės pasiekimo kaina galiausiai buvo mažesnė dėl didesnio GPT‑5.2 prieigos raktų naudojimo efektyvumo.

Nors „ChatGPT“ prenumeratos kainos išlieka tokios pačios, API sąsajoje GPT‑5.2 kaina už prieigos raktą yra didesnė nei GPT‑5.1, nes tai pajėgesnis modelis. Jo kaina vis tiek yra mažesnė nei kitų pažangiausių modelių, todėl žmonės gali ir toliau intensyviai naudoti jį kasdieniame darbe ir pagrindinėse programose.

Kaina už milijoną prieigos raktų

Modelis

Įvestis

Talpyklos įvestis

Išvestis

gpt-5.2 /
gpt-5.2-chat-latest

1,75 USD

0,175 USD

14 USD

gpt-5.2-pro

21 USD

-

168 USD

gpt-5.1 /
gpt-5.1-chat-latest

1,25 USD

0,125 USD

10 USD

gpt-5-pro

15 USD

-

120 USD

Šiuo metu neplanuojame API sąsajoje atsisakyti GPT‑5.1, GPT‑5 arba GPT‑4.1, o apie bet kokius planus atsisakyti modelių programuotojams pranešime iš anksto. Nors GPT‑5.2 iš karto gerai veiks „Codex“ aplinkoje, tikimės artimiausiomis savaitėmis išleisti „Codex“ aplinkai optimizuotą GPT‑5.2 versiją.

Mūsų partneriai

GPT‑5.2 sukurtas bendradarbiaujant su mūsų ilgalaikiais partneriais NVIDIA ir „Microsoft“. „Azure“ duomenų centrai ir NVIDIA GPU, įskaitant H100, H200 ir GB200-NVL72, sudaro „OpenAI“ didelio masto mokymo infrastruktūros pagrindą, skatinantį reikšmingą modelių intelekto augimą. Kartu šis bendradarbiavimas leidžia mums užtikrintai didinti skaičiavimų mastą ir greičiau pateikti rinkai naujus modelius.

Priedas

Išsamūs lyginamieji testai

Toliau pateikiame išsamius „GPT‑5.2 Thinking“ lyginamuosius balus kartu su „GPT‑5.2 Pro“ poaibiu.

Profesionalus
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
Programavimas
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
Faktinis tikslumas
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
Ilgas kontekstas
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
Vizija
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
Įrankių naudojimas
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
Akademinis
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
Abstraktus samprotavimas
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

Modeliai mūsų API buvo paleisti naudojant maksimalias galimas samprotavimo pastangas („xhigh“ modeliui „GPT‑5.2 Thinking“ bei „Pro“ ir „high“ modeliui „GPT‑5.1 Thinking“), išskyrus profesionalius vertinimus, kur „GPT‑5.2 Thinking“ buvo paleistas naudojant dideles („heavy“) samprotavimo pastangas – maksimalias galimas „ChatGPT Pro“. Lyginamieji testai buvo atlikti tyrimų aplinkoje, todėl kai kuriais atvejais rezultatai gali šiek tiek skirtis nuo realiomis sąlygomis naudojamo „ChatGPT“ rezultatų.

* „SWE-Lancer“ atveju praleidžiame 40/237 problemų, kurios nebuvo vykdomos mūsų infrastruktūroje.

Autorius

OpenAI