Predstavljamo GPT‑5.2
Najnapredniji napredni model za profesionalni rad i dugotrajne agente.
Predstavljamo GPT‑5.2, najnapredniju seriju modela do sada za profesionalni rad sa znanjem.
Već prosječni korisnik ChatGPT Enterprise kaže da im AI sačuva 40–60 minuta dnevno, a intenzivni korisnici kažu da im AI sačuva više od 10 sati sedmično. Dizajnirali smo GPT‑5.2 kako bismo otključali još veću ekonomsku vrijednost za ljude; bolji je u kreiranju proračunskih tabela, izradi prezentacija, pisanju koda, prepoznavanju slika, razumijevanju dugih konteksta, korištenju alata i upravljanju složenim, višestepenim projekatima.
GPT‑5.2 postavlja novi standard u mnogim referentnim kriterijima, uključujući GDPval, gdje nadmašuje industrijske profesionalce u dobro specificiranim zadacima znanja koji obuhvataju 44 zanimanja.
GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
GDPval (pobjede ili neriješeno) | 70,9% | 38,8% (GPT‑5) |
SWE-Bench Pro (public) | 55,6% | 50,8% |
SWE-bench Potvrđeno | 80,0% | 76,3% |
GPQA Diamond (bez alata) | 92,4% | 88,1% |
CharXiv rezonovanje (s Pythonom) | 88,7% | 80,3% |
HMMT (Feb 2025) | 99,4% | 96,3% |
FrontierMath (Nivo 1–3) | 40,3% | 31,0% |
ARC-AGI-1 (Potvrđeno) | 86,2% | 72,8% |
ARC-AGI-2 (Potvrđeno) | 52.9% | 17,6% |
Notion(otvara se u novom prozoru), Box(otvara se u novom prozoru), Shopify(otvara se u novom prozoru), Harvey(otvara se u novom prozoru) i Zoom(otvara se u novom prozoru) su primijetili da GPT‑5.2 pokazuje najsavremenije dugoročno rezonovanje i performanse u pozivanju alata. Databricks(otvara se u novom prozoru), Hex(otvara se u novom prozoru) i Triple Whale(otvara se u novom prozoru) su otkrili da je GPT‑5.2 izuzetan u agentičkim zadacima nauke o podacima i analizi dokumenata. Cognition(otvara se u novom prozoru), Warp(otvara se u novom prozoru), Charlie Labs(otvara se u novom prozoru), JetBrains(otvara se u novom prozoru) i Augment Code(otvara se u novom prozoru) kažu da GPT‑5.2 pruža najsavremenije performanse u agentnom kodiranju, s mjerljivim poboljšanjima u područjima kao što su interaktivno kodiranje, pregledi koda i pronalaženje grešaka.
U ChatGPT‑u, GPT‑5.2 Instant, Thinking i Pro će se početi uvoditi danas, počevši s plaćenim planovima. U API-ju su sada dostupni svim programerima.
Sveukupno, GPT‑5.2 donosi značajna poboljšanja u općoj inteligenciji, razumijevanju dugog konteksta, agentnom pozivanju alata i viziji—što ga čini boljim u izvršavanju složenih, stvarnih zadataka od početka do kraja nego bilo koji prethodni model.
GPT‑5.2 Thinking je najbolji model do sada za stvarnu, profesionalnu upotrebu. Na GDPval, evaluaciji koja mjeri dobro specificirane zadatke u radu sa znanjem kroz 44 zanimanja, GPT‑5.2 Thinking postavlja novi standard u postignućima i naš je prvi model koji radi na ili iznad nivoa ljudskog stručnjaka. Konkretno, GPT‑5.2 Thinking nadmašuje ili izjednačava vrhunske industrijske profesionalce u 70,9% poređenja na GDPval zadacima temeljenim na znanju, prema ocjenama stručnih ljudskih sudija. Ovi zadaci uključuju izradu prezentacija, proračunskih tabela i drugih artefakata. GPT‑5.2 Thinking je proizveo rezultate za zadatke u GDPval-u brzinom većom od 11 puta i uz manje od 1% troška u poređenju s vrhunskim stručnjacima, što sugerira da, kada se upari s ljudskim nadzorom, GPT‑5.2 može pomoći u profesionalnom radu. Procjene brzine i troškova temelje se na historijskim metrima; brzina u ChatGPT‑u može varirati.
U GDPval-u, modeli pokušavaju dobro specificiran rad sa znanjem koji obuhvata 44 zanimanja iz 9 vodećih industrija koje doprinose BDP-u SAD-a. Zadaci zahtijevaju stvarne radne proizvode, kao što su prodajne prezentacije, računovodstvene tabele, rasporedi hitne njege, proizvodni dijagrami ili kratki videozapisi. U ChatGPT‑u, GPT‑5.2 Thinking ima nove alate koje GPT‑5 Thinking nema.
Kada je pregledao jedan posebno dobar rezultat, jedan sudija GDPval je komentarisao: „To je uzbudljiv i primjetan skok u kvalitetu rezultata... [čini se] da je urađen od strane profesionalne kompanije sa osobljem, i ima iznenađujuće dobro dizajniran izgled i savjete za oba isporučiva, iako kod jednog još uvijek imamo neke manje greške za ispraviti.“
Dodatno, na našem internom referentnom testu zadataka modeliranja analitičara investicijskog bankarstva za juniore—kao što je sastavljanje modela sa tri finansijska izvještaja za Fortune 500 kompaniju s odgovarajućim formatiranjem i citatima, ili izrada modela otkupa s polugom za privatizaciju—prosečna ocjena po zadatku za GPT‑5.2 Thinking je 9,3% viša nego za GPT‑5.1., porast sa 59,1% na 68,4%.
Paralelna poređenja pokazuju poboljšanu sofisticiranost i formatiranje u proračunskim tabelama i slajdovima generiranim od strane GPT‑5.2 Thinking:

Upit: Kreiraj model planiranja radne snage: broj zaposlenih, plan zapošljavanja, fluktuacija i uticaj na budžet. Uključi odjele za inženjering, marketing, pravne poslove i prodaju.
Da biste koristili nove mogućnosti proračunskih tabela i prezentacija u ChatGPT‑u, morate biti na plaćenom planu i odabrati ili GPT‑5.2 Thinking ili Pro. Složene generacije mogu potrajati mnogo minuta da se proizvedu.
GPT‑5.2 Thinking postavlja novi standard od 55,6% na SWE-bench Pro, rigoroznoj evaluaciji stvarnog softverskog inženjeringa. Za razliku od SWE-bench Potvrđeni, koji testira samo Python, SWE-bench Pro testira četiri jezika i ima za cilj biti otporniji na kontaminaciju, izazovniji, raznovrsniji i industrijski relevantniji.
U SWE-bench Pro(otvara se u novom prozoru), modelu se daje repozitorij koda i mora generirati zakrpu za rješavanje realističnog zadatka iz softverskog inženjeringa.
Na SWE-bench potvrđeno (nije prikazano), GPT‑5.2 Thinking je postiglo naš novi rekord od 80%.
Za svakodnevnu profesionalnu upotrebu, ovo se prevodi u model koji može pouzdanije otkloniti neispravnosti u produkcijskom kodu, implementirati zahtjeve za funkcionalnostima, refaktorisati velike kodne baze i isporučiti popravke od početka do kraja uz manje ručne intervencije.
GPT‑5.2 Thinking je također bolje u front-end softverskom inženjeringu nego GPT‑5.1 Thinking. Rani testeri su otkrili da je značajno jači u razvoju front-enda i složenom ili nekonvencionalnom radu na korisničkom interfejsu—posebno kada su u pitanju 3D elementi—čime postaje moćan svakodnevni partner za inženjere kroz cijeli stack. Pogledajte nekoliko primjera onoga što se može proizvesti iz jednog upita:
Upit: Kreiraj jednostraničnu aplikaciju u jednoj HTML datoteci sa sljedećim zahtjevima:
- Naziv: Simulacija morskih valova
- Cilj: Prikazati realistične animirane valove.
- Karakteristike: Promjena brzine vjetra, visine valova, osvjetljenja.
- Korisničko sučelje treba biti umirujuće i realistično.
Rani testeri su podijelili svoj povratni odgovor o GPT‑5.2 sposobnosti programiranja:
„GPT-5.2 predstavlja najveći skok za GPT modele u agentnom kodiranju od GPT-5 i je najsavremeniji model za kodiranje u svom cjenovnom rangu. Povećanje verzije podcjenjuje skok u inteligenciji. Uzbuđeni smo što ćemo to postaviti kao predodređeno u Windsurfu i nekoliko osnovnih Devin radnih opterećenja.“
GPT‑5.2 Thinking halucinira manje nego GPT‑5.1 razmišljanje. Na skupu deidentifikovanih upita iz ChatGPT‑a, odgovori sa greškama su bili 38%rel manje učestali. Za profesionalce, ovo znači manje grešaka prilikom korištenja modela za istraživanje, pisanje, analizu i podršku u donošenju odluka—čime model postaje pouzdaniji za svakodnevni rad s informacijama.
Napor rezonovanja je postavljen na maksimalno dostupni nivo i alat za pretragu je omogućen. Greške su otkrivene od strane drugih modela, koji sami mogu praviti greške. Stope grešaka na nivou tvrdnji su znatno niže od stopa grešaka na nivou odgovora, jer većina odgovora sadrži mnogo tvrdnji.
Kao i svi modeli, GPT‑5.2 Thinking nije savršen. Za sve što je kritično, dvaput provjerite njegove odgovore.
GPT‑5.2 Thinking postavlja novi standard u dugokontekstualnom rezonovanju, postižući vodeće performanse na OpenAI MRCRv2—evaluaciji koja testira sposobnost modela da integriše informacije raspoređene kroz duge dokumente. Na zadacima iz stvarnog svijeta, kao što je dubinska analiza dokumenata koja zahtijeva povezane informacije kroz stotine hiljada tokena, GPT‑5.2 Thinking je znatno preciznije od GPT‑5.1 Thinking. Posebno, ovo je prvi model koji smo vidjeli da postiže gotovo 100% tačnost na 4-iglenoj MRCR varijanti (do 256k tokena).
U praktičnom smislu, ovo omogućava profesionalcima da koriste GPT‑5.2 za rad s dugim dokumentima—kao što su izvještaji, ugovori, istraživački radovi, transkripti i projekti s više datoteka—dok održavaju koherentnost i tačnost kroz stotine hiljada tokena. To čini GPT‑5.2 posebno pogodnim za dubinsku analizu, sintezu i složene radne tokove iz više izvora.
U OpenAI-MRCR(otvara se u novom prozoru) v2 (višekružno ko-referentno rješavanje), više identičnih korisničkih zahtjeva tipa „igla“ ubacuje se u dugačke „plastove sijena“ sličnih zahtjeva i odgovora, a od modela se traži da reproducira odgovor na n-tu iglu. Verzija 2 evaluacije ispravlja ~5% zadataka koji su imali netačne vrijednosti istine. Prosječni omjer podudaranja mjeri prosječni omjer podudaranja nizova između odgovora modela i tačnog odgovora. Tačke na maksimalno 256k ulaznih tokena predstavljaju prosjeke za 128k–256k ulazne tokene, i tako dalje. Ovdje, 256k predstavlja 256 * 1.024 = 262.144 tokena. Napor u rezonovanju je postavljen na maksimalno dostupno.
Za zadatke koji imaju koristi od razmišljanja izvan maksimalnog kontekstnog prozora, GPT‑5.2 Thinking je kompatibilno s našom novom krajnjom tačkom Responses /compact, koja proširuje efektivni kontekst modela. Ovo omogućava GPT‑5.2 Thinking rješavanju radnih tokova koji su više orijentisani na alate i dugotrajni, a koji bi inače bili ograničeni dužinom konteksta. Pročitajte više u našoj API dokumentaciji(otvara se u novom prozoru).
GPT‑5.2 Thinking je naš najjači model za viziju do sada, smanjujući stope grešaka otprilike na pola u rezonovanju grafikona i razumijevanju softverskog interfejsa.
Za svakodnevnu profesionalnu upotrebu, to znači da model može preciznije interpretirati kontrolne table, snimke ekrana proizvoda, tehničke dijagrame i vizualne izvještaje—podržavajući radne tokove u financijama, operacijama, inženjeringu, dizajnu i korisničkoj podršci gdje je vizualna informacija centralna.
U CharXiv Reasoning(otvara se u novom prozoru), modeli odgovaraju na pitanja o vizualnim grafikonima iz naučnih radova. Python alat je bio omogućen i napor rezonovanja je postavljen na maksimum.
U ScreenSpot-Pro(otvara se u novom prozoru), modeli moraju rezonovati o visokorezolucijskim snimcima ekrana grafičkih korisničkih sučelja iz različitih profesionalnih okruženja. Python alat je bio omogućen i napor rezonovanja je postavljen na maksimum. Bez Python alata, rezultati su znatno niži. Preporučujemo omogućavanje Python alata za vizualne zadatke poput ovih.
U poređenju s prethodnim modelima, GPT‑5.2 Razmišljanje ima snažnije razumijevanje pozicioniranja elemenata unutar slike, što pomaže u zadacima gdje relativni raspored igra ključnu ulogu u rješavanju problema. U primjeru ispod, molimo model da identificira komponente u unosu slike (u ovom slučaju, matična ploča) i vrati oznake s približnim okvirima. Čak i na slici niske kvalitete, GPT‑5.2 identificira glavne regije i postavlja okvire koji otprilike odgovaraju stvarnim lokacijama svake komponente, dok GPT‑5.1 označava samo nekoliko dijelova i pokazuje mnogo slabije razumijevanje njihovog prostornog rasporeda.
GPT‑5.1

GPT‑5.2

GPT‑5.2 Thinking postiže novi vrhunski rezultat od 98,7% na Tau2-bench Telecom, pokazujući svoju sposobnost pouzdanog korištenja alata kroz duge, višekratne zadatke.
Za slučajeve upotrebe osjetljive na latentnost, GPT‑5.2 Thinking također mnogo bolje obavlja rezonovanje. napor='nema', znatno nadmašujući GPT‑5.1 i GPT‑4.1.
U τ2-bench(otvara se u novom prozoru), modeli koriste alate za izvršavanje zadataka korisničke podrške u višestrukoj interakciji sa simuliranim korisnikom. Za telekomunikacijsku domenu, uključili smo kratku, općenito korisnu instrukciju u sistemskom upitu kako bismo poboljšali performanse. Isključili smo podskup avio-kompanija zbog niže kvalitete ocjenjivanja osnovne istine.
Za profesionalce, ovo se prevodi u snažnije end-to-end tokove rada—kao što su rješavanje slučajeva korisničke podrške, povlačenje podataka iz više sistema, izvođenje analiza i generiranje konačnih rezultata s manje prekida između koraka.
Na primjer, kada postavite složeno pitanje korisničke službe koje zahtijeva višestepeno rješenje, model može efikasnije koordinirati cijeli radni tok među više agenata. U slučaju ispod, putnik prijavljuje kašnjenje leta, propuštenu vezu, noćenje u New Yorku i potrebu za medicinskim sjedištem. GPT‑5.2 upravlja cijelim lancem zadataka—ponovnim rezervacijama, sjedištima za posebnu pomoć i kompenzacijom—pružajući potpuniji ishod nego GPT‑5.1.
GPT‑5.1

GPT‑5.2

Jedna od naših nada za umjetnu inteligenciju je da će ubrzati naučno istraživanje na korist svima. U tom smislu, radili smo s naučnicima i slušali ih kako bismo vidjeli kako AI može ubrzati njihov rad, a prošlog mjeseca smo podijelili neke rane kolaborativne eksperimente ovdje.
Vjerujemo da je GPT‑5.2 Pro i GPT‑5.2 Thinking modeli su najbolji svjetski modeli za pomoć i ubrzavanje rada naučnika. Na GPQA Diamond, mjerilu za pitanja i odgovore na nivou postdiplomskih studija koje je otporno na Google pretragu, GPT‑5.2 Pro postiže 93,2%, a slijedi ga GPT‑5.2 Thinking na 92,4%.
U GPQA Diamond(otvara se u novom prozoru), modeli odgovaraju na pitanja s višestrukim izborom iz fizike, hemije i biologije. Nijedan alat nije bio omogućen, a napor rezonovanja je postavljen na maksimum.
Na FrontierMath (Nivo 1–3), evaluacija matematike na ekspertskom nivou, GPT‑5.2 Thinking je postavio novi standard u umjetnosti, rješavajući 40,3% problema.
U FrontierMath(otvara se u novom prozoru), modeli rješavaju matematičke probleme na ekspertskom nivou. Python alat je omogućen i napor rezonovanja je postavljen na maksimum.
Počinjemo primjećivati kako AI modeli značajno ubrzavaju napredak u matematici i nauci na opipljive načine. Na primjer, u nedavnom radu s GPT‑5.2 Pro, istraživači su istražili otvoreno pitanje u teoriji statističkog učenja. U uskom, dobro definisanom okruženju, model je predložio dokaz koji su autori naknadno potvrdili i pregledali s vanjskim stručnjacima, ilustrujući kako napredni modeli mogu pomoći matematičkom istraživanju pod bliskim ljudskim nadzorom.
Na ARC-AGI-1 (Potvrđeno), referentnom testu dizajniranom za mjerenje opće sposobnosti rezonovanja, GPT‑5.2 je prvi model koji je prešao prag od 90%, poboljšavši se sa 87% od strane o3‑pregleda prošle godine, dok je smanjio troškove postizanja te performanse za otprilike 390 puta.
Na ARC-AGI-2 (potvrđeno), što povećava težinu i bolje izolira fluidno rezonovanje, GPT‑5.2 Thinking postiže novi standard za modele lanca misli, postigavši rezultat od 52,9%. GPT‑5.2 Pro postiže još bolje rezultate, dosežući 54,2%, dodatno proširujući sposobnost modela da rezonuje kroz nove, apstraktne probleme.
Poboljšanja u ovim evaluacijama odražavaju napredak GPT‑5.2 snažnije višekoračno rezonovanje, veća kvantitativna tačnost i pouzdanije rješavanje problema na složenim tehničkim zadacima.
Evo što naši rani testeri kažu o GPT‑5.2:
„GPT-5.2 otključalo je potpunu promjenu arhitekture za nas. Srušili smo krhki, višeagentski sistem u jednog mega-agenta s više od 20 alata. Najbolji dio je, jednostavno funkcioniše. Mega-agent je brži, pametniji i 100 puta lakši za održavanje. Primjećujemo dramatično nižu latentnost, mnogo jače pozivanje alata, i više nam nisu potrebni opsežni sistemski upiti jer će 5.2 izvršavati čisto s jednostavnim, jednolinijskim upitom. Osjeća se kao čista magija.
U ChatGPT‑u, korisnici bi trebali primijetiti da je GPT‑5.2 bolji za svakodnevnu upotrebu—više strukturiran, pouzdaniji i još uvijek ugodan za razgovor.
GPT‑5.2 Instant je brz, sposoban alat za svakodnevni rad i učenje, s jasnim poboljšanjima u pitanjima za traženje informacija, uputstvima i vodičima, tehničkom pisanju i prevođenju, nadovezujući se na topliji razgovorni ton uveden u GPT‑5.1 Instant. Rani testeri su posebno primijetili jasnija objašnjenja koja ističu ključne informacije na početku.
GPT‑5.2 Thinking je osmišljen za dublji rad, pomažući korisnicima da se nose s kompleksnijim zadacima s većom preciznošću—posebno za kodiranje, sažimanje dugih dokumenata, odgovaranje na pitanja o otpremljenim datotekama, rješavanje matematike i logike korak po korak, te podršku u planiranju i donošenju odluka s jasnijom strukturom i korisnijim detaljima.
GPT‑5.2 Pro je naša najpametnija i najpouzdanija opcija za teška pitanja gdje je odgovor visoke kvalitete vrijedan čekanja, a rana testiranja pokazuju manje značajnih grešaka i bolje performanse u složenim domenama kao što je programiranje.
GPT‑5.2 se nadovezuje na istraživanje sigurnog završetka koje smo predstavili s GPT‑5, koje podučava model da pruži najkorisniji odgovor, a da pritom ostane unutar sigurnosnih granica.
S ovim izdanjem, nastavili smo raditi na jačanju odgovora naših modela u osjetljivim razgovorima, uz značajna poboljšanja u načinu na koji odgovaraju na upite koji ukazuju na znakove samoubistva ili samopovređivanja, mentalnog zdravlja ili emocionalne oslonjenosti na model. Ove ciljane intervencije rezultirale su manjim brojem nepoželjnih odgovora u GPT‑5.2 Instant i GPT‑5.2 Thinking u poređenju s modelima GPT‑5.1, GPT‑5 Instant i Thinking modelima. Daljnji detalji mogu se pronaći u sistemskoj kartici.
Nalazimo se u ranim fazama uvođenja našeg modela za predviđanje starosti kako bismo automatski primijenili zaštitu sadržaja za korisnike mlađe od 18 godina, s ciljem ograničavanja pristupa osjetljivom sadržaju. Ovo se nadovezuje na naš postojeći pristup korisnicima za koje znamo da su mlađi od 18 godina i na naš roditeljski nadzor.
GPT‑5.2 je jedan korak u kontinuiranom nizu poboljšanja, i daleko smo od završetka. Iako ovo izdanje donosi značajna poboljšanja u inteligenciji i produktivnosti, znamo da postoje područja u kojima ljudi žele više. U ChatGPT‑u, radimo na poznatim problemima kao što su pretjerana odbijanja, dok nastavimo podizati ljestvicu sigurnosti i pouzdanosti u cjelini. Ove promjene su složene, i usmjereni smo na to da ih ispravno izvedemo.
GPT‑5.2 Instant | GPT‑5.1 Instant | GPT‑5.2 | GPT‑5.1 | |
Mentalno zdravlje | 0,995 | 0,883 | 0,915 | 0,684 |
Emocionalna oslonjenost | 0,938 | 0,945 | 0,955 | 0,785 |
Samopovređivanje | 0,938 | 0,925 | 0,963 | 0,937 |
U ChatGPT‑u, danas ćemo početi s uvođenjem GPT‑5.2 (Instant, Thinking i Pro), počevši s plaćenim planovima (Plus, Pro, Go, Business, Enterprise). Postepeno uvodimo GPT‑5.2 kako bismo održali ChatGPT što glatkijim i pouzdanijim; ako ga ne vidite odmah, molimo vas da pokušate ponovo kasnije. U ChatGPT‑u, GPT‑5.1 će i dalje biti dostupan plaćenim korisnicima tri mjeseca pod starim modelima, nakon čega ćemo ukinuti GPT‑5.1.
ChatGPT | API |
ChatGPT‑5.2 Instant | GPT‑5.2‑chat‑latest |
ChatGPT‑5.2 Thinking | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
Na našoj API platformi, GPT‑5.2 Thinking je danas dostupan u Responses API-ju i Chat Completions API-ju kao gpt-5.2, i GPT‑5.2 Instant kao gpt-5.2-chat-latest. GPT‑5.2 Pro je dostupan u API-ju za odgovore kao gpt-5.2-pro. Programeri sada mogu postaviti parametar rezoniranja u GPT‑5.2 Pro, i oba GPT‑5.2 Pro i GPT‑5.2 Sada podržava novi peti napor rezonovanja xhigh, za zadatke gdje je kvalitet najvažniji.
GPT‑5.2 je cijenjen na 1,75 USD/1M ulaznih tokena i 14 USD/1M izlaznih tokena, uz 90% popusta na keširane ulaze. Na više agentičkih evaluacija, otkrili smo da uprkos GPT‑5.2‑ovim veći trošak po tokenu, ali trošak postizanja određenog nivoa kvaliteta na kraju je bio manji zbog veće efikasnosti tokena GPT‑5.2.
Iako cijene pretplate na ChatGPT ostaju iste, u API-ju je GPT‑5.2 skuplji po tokenu od GPT‑5.1 jer je to sposobniji model. Još uvijek je cijenom ispod drugih frontier modela, tako da ljudi mogu nastaviti ga koristiti intenzivno u svom svakodnevnom radu i osnovnim aplikacijama.
Model | Unos | Keširani ulaz | Izlazne informacije |
gpt-5.2 / gpt-5.2-chat-latest | 1,75 USD | 0,175 USD | 14 USD |
gpt-5.2-pro | 21 USD | - | 168 USD |
gpt-5.1 / gpt-5.1-chat-latest | 1.25 USD | 0,125 USD | 10 USD |
gpt-5-pro | 15 USD | - | 120 USD |
Trenutno nemamo planove da ukinemo GPT‑5.1 GPT‑5, ili GPT‑4.1 u API-ju, i obavijestit ćemo vas o svim planovima za ukidanje s dovoljno unaprijed obavijesti za programeri. Iako će GPT‑5.2 raditi dobro odmah po instalaciji u Codexu, očekujemo da ćemo objaviti verziju GPT‑5.2 optimiziranu za Codex u narednim sedmicama.
GPT‑5.2 je izgrađen u saradnji s našim dugogodišnjim partnerima NVIDIA i Microsoft. Azure podatkovni centri i NVIDIA GPU-ovi, uključujući H100, H200 i GB200-NVL72, čine osnovu OpenAI-evog infrastrukturnog sistema za obuku u velikom obimu, omogućavajući značajna poboljšanja u inteligenciji modela. Zajedno, ova saradnja nam omogućava da s povjerenjem skaliramo računalne resurse i brže uvedemo nove modele na tržište.
U nastavku izvještavamo o sveobuhvatnim rezultatima mjerila za GPT‑5.2 Thinking, zajedno s podskupom za GPT‑5.2 Pro.
Profesionalno
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
Kodiranje
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
Faktualnost
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
Dugi kontekst
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
Vizija
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
Upotreba alata
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
Akademski
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
Apstraktno rezonovanje
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
Modeli su pokrenuti s maksimalnim dostupnim naporom u rezonovanju u našem API-ju (xhigh za GPT‑5.2 Thinking & Pro, i visoko za GPT‑5.1 Thinking), osim za profesionalne evaluacije, gdje je GPT‑5.2 Razmišljanje je pokrenuto s velikim naporom rezonovanja, maksimalno dostupnim u ChatGPT Pro. Benchmark testovi su provedeni u istraživačkom okruženju, što u nekim slučajevima može dati nešto drugačiji rezultat od produkcijskog ChatGPT‑a.
* Za SWE-Lancer, izostavljamo 40/237 problema koji se nisu pokrenuli na našoj infrastrukturi.


