Preskočite na glavni sadržaj
OpenAI

11. prosinca 2025.

ProizvodIzdanje

Predstavljamo model GPT‑5.2

Najmoderniji napredni model za profesionalni rad i dugotrajne agente.

Učitavanje…

Predstavljamo GPT‑5.2, dosad najnapredniju seriju modela za profesionalni rad sa znanjem.

Već sada, prosječni korisnik modela ChatGPT Enterprise kaže da im AI štedi 40 – 60 minuta dnevno, a intenzivni korisnici kažu da im štedi više od 10 sati tjedno. Dizajnirali smo GPT‑5.2 kako bismo ljudima pružili još veću ekonomsku vrijednost; bolji je u stvaranju proračunskih tablica, izradi prezentacija, pisanju koda, prepoznavanju slika, razumijevanju dugog konteksta, korištenju alata i upravljanju složenim projektima u više koraka.

GPT‑5.2 postavlja novu razinu izvrsnosti u mnogim mjerilima, uključujući GDPval, gdje nadmašuje industrijske profesionalce u precizno definiranim zadacima temeljenim na znanju koji obuhvaćaju 44 zanimanja.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (pobjede ili izjednačenja)
Znanstveno-radni zadaci

70,9 %

38,8 % (GPT‑5)

SWE-Bench Pro (javni)
Softversko inženjerstvo

55,6 %

50,8 %

SWE-bench Verified
Softversko inženjerstvo

80,0 %

76,3 %

GPQA Diamond (bez alata)
Znanstvena pitanja

92,4 %

88,1 %

CharXiv Reasoning (s Pythonom)
Pitanja o znanstvenim prikazima

88,7 %

80,3 %

HMMT (veljača 2025.)
Matematičko natjecanje

99,4 %

96,3 %

FrontierMath (Razina 1 do 3)
Napredna matematika

40,3 %

31,0 %

ARC-AGI-1 (verificiran)
Apstraktno razmišljanje

86,2 %

72,8 %

ARC-AGI-2 (verificiran)
Apstraktno razmišljanje

52,9 %

17,6 %

Notion(otvara se u novom prozoru), Box(otvara se u novom prozoru), Shopify(otvara se u novom prozoru), Harvey(otvara se u novom prozoru) i Zoom(otvara se u novom prozoru) primijetili su da GPT‑5.2 pokazuje vrhunske performanse u dugoročnom zaključivanju i pozivanju alata. Databricks(otvara se u novom prozoru), Hex(otvara se u novom prozoru) i Triple Whale(otvara se u novom prozoru) otkrili su da je GPT‑5.2 izvanredan u agentnim zadacima podatkovne znanosti i analizi dokumenata. Cognition(otvara se u novom prozoru), Warp(otvara se u novom prozoru), Charlie Labs(otvara se u novom prozoru), JetBrains(otvara se u novom prozoru) i Augment Code(otvara se u novom prozoru) kažu da GPT‑5.2 pruža vrhunske performanse u agentnom kodiranju, s mjerljivim poboljšanjima u područjima kao što su interaktivno kodiranje, pregled koda i pronalaženje grešaka.

U ChatGPT‑ju, GPT‑5.2 Instant, Thinking i Pro počet će se uvoditi danas, počevši s plaćenim planovima. U API-ju su sada dostupni svim razvojnim inženjerima.

Sveukupno, GPT‑5.2 donosi značajna poboljšanja u općoj inteligenciji, razumijevanju dugog konteksta, agentskom pozivanju alata i viziji, što ga čini boljim u izvršavanju složenih, stvarnih zadataka od početka do kraja u odnosu na bilo koji prethodni model.

Učinak modela

Ekonomski vrijedni zadaci

GPT‑5.2 Thinking je dosad najbolji model za stvarnu, profesionalnu upotrebu. Na GDPval, evaluaciji koja mjeri dobro specificirane zadatke u znanju u 44 zanimanja, GPT‑5.2 Thinking postavlja novi vrhunski rezultat i naš je prvi model koji djeluje na razini ili iznad razine ljudskog stručnjaka. Konkretno, GPT‑5.2 Thinking nadmašuje ili izjednačava vrhunske stručnjake u industriji u 70,9 % usporedbi na zadacima znanja GDPval prema ocjenama stručnih sudaca. Ovi zadaci uključuju izradu prezentacija, proračunskih tablica i ostalih artefakata. GPT‑5.2 Thinking je proizveo rezultate za GDPval zadatke brzinom većom od 11 puta i uz manje od 1 % troškova stručnih profesionalaca, što sugerira da, kada je uparen s ljudskim nadzorom, GPT‑5.2 može pomoći u profesionalnom radu. Procjene brzine i cijene temelje se na povijesnim metrikama; brzina u ChatGPT‑ju može varirati.

U GDPval, modeli pokušavaju obaviti dobro specificiran rad sa znanjem koji obuhvaća 44 zanimanja iz 9 vodećih djelatnosti koje doprinose BDP-u SAD-a. Zadaci zahtijevaju stvarne radne proizvode, kao što su prodajna predstavljanja, računovodstvene proračunske tablice, rasporedi hitne skrbi, proizvodni dijagrami ili kratki videozapisi. U ChatGPT‑ju, GPT‑5.2 Thinking ima nove alate koje GPT‑5 Thinking nema.

Prilikom pregleda jednog posebno dobrog rezultata, jedan je sudac na evaluaciji GDPval komentirao: „To je uzbudljiv i primjetan skok u kvaliteti rezultata... [čini se] da ga je izradila profesionalna tvrtka s osobljem, a ima iznenađujuće dobro osmišljen izgled i savjete za oba isporučena materijala, iako s jednim još uvijek imamo neke manje pogreške koje treba ispraviti.“

Osim toga, na našem internom referentnom testu zadataka modeliranja proračunskih tablica za mlađe analitičare investicijskog bankarstva – poput sastavljanja trodijelnog modela za tvrtku iz Fortune 500 s ispravnim formatiranjem i navođenjem izvora ili izrade modela otkupa uz zaduženje za povlačenje tvrtke s burze – prosječna ocjena po zadatku za GPT‑5.2 Thinking je 9,3 % viša nego za GPT‑5.1, povećanje s 59,1 % na 68,4 %.

Usporedbe jedan na jedan pokazuju poboljšanu sofisticiranost i formatiranje u proračunskim tablicama i slajdovima smišljenim od strane modela GPT‑5.2 Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Odzivnik: Izradite model planiranja radne snage: broj zaposlenika, plan zapošljavanja, fluktuacija i utjecaj na proračun. Uključite inženjerski, marketinški, pravni i prodajni odjel.

Kako biste koristili nove mogućnosti proračunskih tablica i predstavljanja u ChatGPT‑ju, morate biti na plaćenom planu i odabrati ili GPT‑5.2 Thinking ili Pro. Izrada složenih generacija može potrajati nekoliko minuta.

Kodiranje

GPT‑5.2 Thinking postavlja novu vrhunsku razinu od 55,6 % na SWE-bench Pro, rigoroznoj evaluaciji stvarnog softverskog inženjerstva. Za razliku od SWE-bench provjere valjanosti, koja testira samo Python, provjera SWE-bench Pro testira četiri jezika i nastoji biti otpornija na kontaminaciju, izazovnija, raznolikija i industrijski relevantnija.

U SWE-bench Pro(otvara se u novom prozoru) modelu se daje repozitorij koda i mora smisliti zakrpu za rješavanje realističnog softverskog inženjerskog zadatka.

Na SWE-bench Verified (nije prikazano na grafikonu), GPT‑5.2 Thinking postiže naš novi rekord od 80 %.

Za svakodnevnu profesionalnu upotrebu ovo se prevodi u model koji može pouzdanije ispravljati pogreške u produkcijskom kodu, implementirati zahtjeve za značajkama, refaktorirati velike baze koda i isporučivati ispravke od početka do kraja uz manje ručne intervencije.

GPT‑5.2 Thinking također je bolji u front-end softverskom inženjeringu nego GPT‑5.1 Thinking. Rani testeri otkrili su da je značajno jači u front-end razvoju i složenom ili nekonvencionalnom radu s korisničkim sučeljem, posebno kada su u pitanju  3D elementi, čime postaje moćan svakodnevni partner za inženjere u cijelom nizu. Pogledajte nekoliko primjera onoga što se može producirati iz jednog odzivnika:

Odzivnik: Stvorite jednostraničnu aplikaciju u jednoj HTML datoteci sa sljedećim zahtjevima:
- Naziv: Simulacija oceanskih valova
- Cilj: Prikazati realistične animirane valove.
- Značajke: Promjena brzine vjetra, visine valova, osvjetljenja.
- Korisničko sučelje treba biti umirujuće i realistično.

Rani ispitivači podijelili su svoje povratne informacije o sposobnostima kodiranja modela GPT‑5.2:

„GPT-5.2 predstavlja najveći iskorak za GPT modele u agentnom kodiranju od modela GPT-5 i vrhunski je model kodiranja u svom cjenovnom rangu. Povećanje verzije podcjenjuje napredak u inteligenciji. Uzbuđeni smo što ćemo ovu verziju postaviti kao zadanu u Windsurfu i nekoliko osnovnih Devin radnih opterećenja."
Jeff Wang, glavni izvršni direktor, Windsurf

Činjeničnost

GPT‑5.2 Thinking halucinira manje nego GPT‑5.1 Thinking. Na skupu deidentificiranih upita iz ChatGPT‑ja, odgovori s pogreškama bili su 38 %rel manje učestali. Za profesionalce to znači manje pogrešaka pri korištenju modela za istraživanje, pisanje, analizu i podršku u donošenju odluka, što model čini pouzdanijim za svakodnevni rad sa znanjem.

Napor u prosuđivanju postavljen je na maksimalno dostupni i omogućen je alat za pretraživanje. Pogreške su otkrili drugi modeli, koji sami mogu činiti pogreške. Stope pogrešaka na razini tvrdnji su znatno niže od stopa pogrešaka na razini odgovora, jer većina odgovora sadržava mnogo tvrdnji.

Kao i svi modeli, GPT‑5.2 Thinking nije savršen. Za sve što je ključno, dvaput provjerite njegove odgovore.

Dugi kontekst

GPT‑5.2 Thinking postavlja novi standard u vrhunskom prosuđivanju s dugim kontekstom, postižući vodeće performanse na evaluaciji OpenAI MRCRv2 koja testira sposobnost modela da integrira informacije raspoređene po dugim dokumentima. Na zadacima iz stvarnog svijeta, poput dubinske analize dokumenata koja zahtijeva povezane informacije kroz stotine tisuća tokena, GPT‑5.2 Thinking znatno je precizniji od GPT‑5.1 Thinking. Posebno je zanimljivo da je to prvi model koji smo vidjeli koji postiže gotovo 100 % preciznosti na varijanti MRCR s 4 igle (do 256 tisuća tokena).

U praktičnom smislu to omogućuje profesionalcima da koriste GPT‑5.2 za rad s dugim dokumentima, kao što su izvješća, ugovori, istraživački radovi, transkripti i projekti s više datoteka, dok se održava koherentnost i preciznost u stotinama tisuća tokena. To GPT‑5.2 čini posebno prikladnim za dubinsku analizu, sintezu i složene radne tijekove s više izvora.

U OpenAI-MRCR⁠(otvara se u novom prozoru) v2 (višerundno koreferentno rješavanje), više identičnih korisničkih zahtjeva tipa „igla” ubacuje se u duge „stogove sijena” sličnih zahtjeva i odgovora, a od modela se traži da reproducira odgovor na n-tu iglu. Verzija 2 evaluacije ispravlja ~5 % zadataka koji su imali netočne vrijednosti temeljne istine. Prosječni omjer podudaranja mjeri prosječnu vrijednost podudaranja niza između odgovora modela i točnog odgovora. Točke na maksimalno 256k tokena za upis predstavljaju prosjeke preko 128k do 256k tokena za upis i tako dalje. Ovdje 256k predstavlja 256 * 1.024 = 262.114 tokena za upis. Napor u prosuđivanju postavljen je na maksimalno dostupni.

Na zadacima koji imaju koristi od razmišljanja izvan maksimalnog kontekstnog prozora, GPT‑5.2 Thinking je kompatibilan s našom novom krajnjom točkom Responses /compact, koja proširuje djelotvorni kontekstni prozor modela. Ovo modelu GPT‑5.2 Thinking omogućuje rješavanje radnih tijekova koji su više orijentirani na alate i dugotrajni, a koji bi inače bili ograničeni duljinom konteksta. Pročitajte više u našoj API dokumentaciji(otvara se u novom prozoru).

Vizija

GPT‑5.2 Thinking je naš dosad najjači vizualni model koji smanjuje stope pogrešaka otprilike na pola u prosuđivanju na temelju grafikona i razumijevanju softverskog sučelja.

U svakodnevnoj profesionalnoj upotrebi to znači da model može preciznije interpretirati nadzorne ploče, snimke zaslona proizvoda, tehničke dijagrame i vizualna izvješća, podržavajući radne tijekove u financijama, operacijama, inženjeringu, dizajnu i korisničkoj podršci kada je vizualna informacija ključna.

U CharXiv Reasoning(otvara se u novom prozoru) modeli odgovaraju na pitanja o vizualnim dijagramima iz znanstvenih radova. Alat Python omogućen je, a napor prosuđivanja postavljen je na maksimalni.

U ScreenSpot-Pro(otvara se u novom prozoru) modeli moraju prosuditi snimke zaslona visoke rezolucije grafičkih korisničkih sučelja iz raznih profesionalnih okruženja. Alat Python bio je omogućen, a napor u prosuđivanju postavljen je na maksimalni. Bez alata Python rezultati su znatno lošiji. Preporučujemo omogućavanje alata Python na vizualnim zadacima poput ovih.

U usporedbi s prethodnim modelima, GPT‑5.2 Thinking ima snažnije razumijevanje kako su elementi pozicionirani unutar slike, što pomaže u zadacima gdje relativni raspored igra ključnu ulogu u rješavanju problema. U primjeru ispod, tražimo od modela da identificira komponente u upisu slike (u ovom slučaju, matična ploča) i vrati oznake s približnim okvirima. Čak i na slici niske kvalitete, GPT‑5.2 identificira glavne regije i postavlja okvire koji otprilike odgovaraju stvarnim lokacijama svakog dijela, dok GPT‑5.1 označava samo nekoliko dijelova i pokazuje mnogo slabije razumijevanje njihovog prostornog rasporeda.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

Pozivanje alata

GPT‑5.2 Thinking postiže novi vrhunski standard s 98,7 % na testu Tau2-bench Telecom, pokazujući svoju sposobnost pouzdanog korištenja alata kroz duge, višekratne zadatke.

Za slučajeve upotrebe osjetljive na kašnjenje, GPT‑5.2 Thinking također postiže mnogo bolje rezultate na reasoning.effort=’none’, znatno nadmašujući GPT‑5.1 i GPT‑4.1.

U τ2-bench⁠(otvara se u novom prozoru) modeli koriste alate za izvršavanje zadataka korisničke podrške u višekratnoj interakciji sa simuliranim korisnikom. Za telekomunikacijsku domenu uključili smo kratke, općenito korisne upute u odzivnik sustava kako bismo poboljšali performanse. Isključujemo zrakoplovni podskup zbog niže kvalitete ocjenjivanja temeljne istine.

Za profesionalce ovo se prevodi u snažnije cjelovite radne tijekove, kao što su rješavanje slučajeva korisničke podrške, povlačenje podataka iz više sustava, pokretanje analiza i smišljanje konačnih izlaza s manje prekida između koraka.

Na primjer, kada postavljate složeno pitanje korisničke službe koje zahtijeva višekoračno rješenje, model može učinkovitije koordinirati cijeli radni tijek između više agenata. U donjem slučaju, putnik prijavljuje kašnjenje leta, propuštenu vezu, noćenje u New Yorku i potrebu za medicinskim sjedalom. GPT‑5.2 upravlja cijelim lancem zadataka, ponovnim rezervacijama, sjedalima za posebnu pomoć i naknadama, pružajući potpuniji ishod nego model GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

Znanost i matematika

Jedna od naših nada za umjetnu inteligenciju jest da će ubrzati znanstvena istraživanja na korist svima. U tom smislu, surađujemo i slušamo znanstvenike da bismo vidjeli kako umjetna inteligencija može ubrzati njihov rad, a prošlog mjeseca ovdje smo podijelili neke rane zajedničke eksperimente.

Vjerujemo da su GPT‑5.2 Pro i GPT‑5.2 Thinking najbolji modeli na svijetu za pomoć i ubrzavanje rada znanstvenika. Na GPQA Diamond, referentnom testu za pitanja i odgovore na razini diplomskog studija, koji je otporan na Google pretrage, GPT‑5.2 Pro postiže 93,2 %, a slijedi ga GPT‑5.2 Thinking s 92,4 %.

U GPQA Diamond(otvara se u novom prozoru) modeli odgovaraju na pitanja s višestrukim izborom iz fizike, kemije i biologije. Alati nisu bili omogućeni, a napor u prosuđivanju bio je postavljen na maksimalni.

Na evaluaciji FrontierMath (razina 1 do 3) za stručnu razinu matematike, GPT‑5.2 Thinking je postavio novi standard, riješivši 40,3 % problema.

U FrontierMath(otvara se u novom prozoru) modeli rješavaju matematičke probleme na stručnoj razini. Alat Python omogućen je, a napor u prosuđivanju postavljen je na maksimalni.

Počinjemo primjećivati kako modeli umjetne inteligencije značajno ubrzavaju napredak u matematici i znanosti na opipljive načine. Na primjer, u nedavnom radu s modelom GPT‑5.2 Pro, istraživači su istražili otvoreno pitanje u teoriji statističkog učenja. U uskom, dobro specificiranom okruženju, model je predložio dokaz koji su autori naknadno provjerili i pregledali s vanjskim stručnjacima, ilustrirajući kako napredni modeli mogu pomoći matematičkom istraživanju pod bliskim ljudskim nadzorom.

ARC-AGI 2

Na ARC-AGI-1 (verificiran), referentnom testu dizajniranom za mjerenje opće sposobnosti rasuđivanja, GPT‑5.2 je prvi model koji je prešao prag od 90 %, poboljšavši se s 87 % koje je postigao o3‑preview prošle godine, dok je smanjio trošak postizanja te izvedbe za otprilike 390 puta.

Na ARC-AGI-2 (verificiran), koji povećava težinu i bolje izolira fluidno razmišljanje, GPT‑5.2 Thinking postigao je novi vrhunski standard za modele lanca zaključivanja, postigavši 52,9 %. GPT‑5.2 Pro postiže još bolje rezultate, dosežući 54,2 %, dodatno proširujući sposobnost modela da prosuđuje kroz nove, apstraktne probleme.

Poboljšanja u ovim procjenama odražavaju napredak modela GPT‑5.2 u smislu snažnijeg zaključivanje u više koraka, veće količinske točnosti i pouzdanijeg rješavanja problema na složenim tehničkim zadacima.

Evo što naši rani ispitivači kažu o modelu GPT‑5.2:

„GPT-5.2 nam je omogućio potpunu promjenu arhitekture. Smanjili smo krhki, višestruki agentni sustav u jednog mega-agenta s više od 20 alata. Najbolji dio je što jednostavno radi. Mega-agent je brži, pametniji i 100x lakši za održavanje. Primjećujemo dramatično manje kašnjenje, mnogo snažnije pozivanje alata i više nam nisu potrebni opsežni sistemski odzivnici jer će verzija 5.2 izvršavati s jednostavnim, jednolinijskim odzivnikom. Čini se kao čista magija."
AJ Orbach, izvršni direktor, Triple Whale

GPT‑5.2 u ChatGPT‑ju

U ChatGPT‑ju, korisnici bi trebali primijetiti da GPT‑5.2 djeluje bolje za svakodnevnu upotrebu – strukturiranije, pouzdanije i još uvijek ugodno za razgovor.

GPT‑5.2 Instant je brz i sposoban alat za svakodnevni rad i učenje, s jasnim poboljšanjima u pitanjima traženja informacija, uputama i vodičima, tehničkom pisanju i prevođenju, nadovezujući se na topliji razgovorni ton uveden u modelu GPT‑5.1 Instant. Rani ispitivači posebno su primijetili jasnija objašnjenja koja ističu ključne informacije na početku.

GPT‑5.2 Thinking je osmišljen za dublji rad, pomažući korisnicima da se nose sa složenijim zadacima s većom preciznošću – posebno za kodiranje, sažimanje dugih dokumenata, odgovaranje na pitanja o učitanim datotekama, korak-po-korak rješavanje matematičkih i logičkih problema te podršku u planiranju i donošenju odluka s jasnijom strukturom i korisnijim detaljima.

GPT‑5.2 Pro je naša najpametnija i najpouzdanija opcija za teška pitanja kada je odgovor visoke kvalitete vrijedan čekanja, a rana testiranja pokazuju manje velikih pogrešaka i bolju izvedbu u složenim domenama poput programiranja.

Sigurnost

GPT‑5.2 nadovezuje se na istraživanje sigurnog dovršavanja koje smo uveli s modelom GPT‑5, koje uči model da pruži najkorisniji odgovor dok ostaje unutar sigurnosnih granica.

S ovim izdanjem nastavili smo rad na jačanju odgovora naših modela u osjetljivim razgovorima, uz značajna poboljšanja u načinu na koji odgovaraju na upite koji ukazuju na znakove samoubojstva ili samoozljeđivanja, mentalnih zdravstvenih tegoba ili emocionalne oslonjenosti na model. Ove ciljane intervencije rezultirale su manjim brojem nepoželjnih odgovora modela GPT‑5.2 Instant i modela GPT‑5.2 Thinking u usporedbi s modelima GPT‑5.1, GPT‑5 Instant i Thinking. Dodatne pojedinosti dostupne su u sistemskoj kartici.

Nalazimo se u ranoj fazi uvođenja našeg modela predviđanja dobi kako bismo automatski mogli primijeniti zaštitu sadržaja za korisnike mlađe od 18 godina i ograničili pristup osjetljivom sadržaju. Ovo se nadovezuje na naš postojeći pristup korisnicima za koje znamo da su mlađi od 18 godina i na naš roditeljski nadzor.

GPT‑5.2 je korak u kontinuiranom nizu poboljšanja i daleko smo od toga da smo gotovi. Iako ovo izdanje donosi značajna poboljšanja u inteligenciji i produktivnosti, svjesni smo da postoje područja u kojima ljudi žele više. U ChatGPT‑ju radimo na poznatim problemima poput pretjeranog odbijanja, dok nastavljamo podizati ljestvicu sigurnosti i pouzdanosti u cjelini. Ove promjene su složene, i usredotočeni smo na to da ih pravilno provedemo.

Procjene mentalnog zdravlja


GPT‑5.2
Instant

GPT‑5.1
Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

Mentalno zdravlje

0,995

0,883

0,915

0,684

Emocionalna oslonjenost

0,938

0,945

0,955

0,785

Samoozljeđivanje

0,938

0,925

0,963

0,937

Dostupnost i određivanje cijene

U ChatGPT‑ju danas ćemo započeti s uvođenjem modela GPT‑5.2 (Instant, Thinking i Pro), počevši s plaćenim planovima (Plus, Pro, Go, Business, Enterprise). Postupno uvodimo GPT‑5.2 kako bismo aplikaciju ChatGPT održali što protočnijom i pouzdanijom; ako ga ne vidite odmah, pokušajte ponovno kasnije. U ChatGPT‑ju model GPT‑5.1 i dalje će biti dostupan korisnicima s plaćanjem tri mjeseca u okviru starih modela, nakon čega ćemo ukinuti GPT‑5.1.

Imenovanje modela u ChatGPT‑ju i API-ju

ChatGPT

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

Na našoj API platformi, GPT‑5.2 Thinking je danas dostupan u Responses API-ju i Chat Completions API-ju kao gpt-5.2, a GPT‑5.2 Instant kao gpt-5.2-chat-latest. GPT‑5.2 Pro dostupan je u Responses API-ju kao gpt-5.2-pro. Razvojni inženjeri sada mogu postaviti parametar zaključivanja u modelima GPT‑5.2 Pro, GPT‑5.2 Pro i GPT‑5.2 Thinking, koji sada podržavaju novi peti napor prosuđivanja xhigh, za zadatke gdje je kvaliteta najvažnija.

GPT‑5.2 je procijenjen na 1,75 USD/1M tokena za upis i 14 USD/1M izlaznih tokena, uz 90 % popusta na predmemorirane upise. Na više agentnih evaluacija, otkrili smo da unatoč većem trošku po tokenu modela GPT‑5.2, trošak postizanja određene razine kvalitete ispao je manji zbog veće učinkovitosti tokena modela GPT‑5.2.

Iako određivanje cijene pretplate za ChatGPT ostaje isto, u API-ju je GPT‑5.2 skuplji po tokenu od GPT‑5.1 jer je riječ o sposobnijem modelu. Još uvijek je cijenom ispod ostalih naprednih modela, tako da ga ljudi mogu nastaviti koristiti intenzivno u svojem svakodnevnom radu i osnovnim aplikacijama.

Cijena po milijun tokena

Model

Upis

Predmemorirani upis

Izlaz

gpt-5.2 /
gpt-5.2-chat-latest

1,75 USD

0,175 USD

14 USD

gpt-5.2-pro

21 USD

-

168 USD

gpt-5.1 /
gpt-5.1-chat-latest

1,25 USD

0,125 USD

10 USD

gpt-5-pro

15 USD

-

$120

Trenutačno nemamo planove za povlačenje modela GPT‑5.1, GPT‑5 ili GPT‑4.1 u API-ju i poslat ćemo obavijest o svim planovima za povlačenje dovoljno unaprijed razvojnim inženjerima. Iako će GPT‑5.2 dobro raditi odmah po instalaciji u Codexu, očekujemo da ćemo u nadolazećim tjednima objaviti verziju GPT‑5.2 optimiziranu za Codex.

Naši partneri

GPT‑5.2 je razvijen u suradnji s našim dugogodišnjim partnerima NVIDIA i Microsoft. Podatkovni centri Azure i NVIDIA GPU-ovi, uključujući H100, H200 i GB200-NVL72, čine temelj OpenAI-jeve infrastrukture za obuku velikih razmjera, omogućujući značajna poboljšanja u inteligenciji modela. Ova zajednička suradnja omogućuje nam skaliranje računalnih resursa s povjerenjem i brže dovođenje novih modela na tržište.

Dodatak

Detaljne referentne vrijednosti

U nastavku navodimo sveobuhvatne rezultate mjerila za GPT‑5.2 Thinking, zajedno s podskupom za GPT‑5.2 Pro.

Profesionalno
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
Kodiranje
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
Činjeničnost
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
Dugi kontekst
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
Vizija
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
alat: upotreba
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
Akademski
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
Apstraktno prosuđivanje
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

Modeli su pokrenuti s maksimalnim dostupnim naporom u prosuđivanju u našem API-ju (xhigh za GPT‑5.2 Thinking i Pro te high za GPT‑5.1 Thinking), osim za profesionalne evaluacije, gdje je GPT‑5.2 Thinking pokrenut s visokim stupnjem napora u prosuđivanju, maksimalno dostupnim u modelu ChatGPT Pro. Mjerenja su provedena u istraživačkom okruženju, što može rezultirati neznatno drugačijim izlazom u odnosu na produkcijski ChatGPT u nekim slučajevima.

* Za SWE-Lancer, izostavljamo 40/237 problema koji se nisu pokrenuli na našoj infrastrukturi.

Autor

OpenAI