Preskočite na glavno vsebino
OpenAI

11. december 2025

IzdelekIzdaja

Predstavljamo GPT‑5.2

Najnaprednejši mejni model za strokovno delo in dolgotrajno delovanje agentov.

Nalaganje …

Predstavljamo GPT‑5.2, najzmogljivejšo serijo modelov doslej za strokovno delo z znanjem.

Povprečni uporabnik storitve ChatGPT Enterprise že zdaj pravi, da mu UI prihrani 40–60 minut na dan, medtem ko zahtevnejši uporabniki pravijo, da jim prihrani več kot 10 ur na teden. GPT‑5.2 smo zasnovali z namenom, da ljudem prinese še višjo ekonomsko vrednost; bolje od človeka se odreže pri ustvarjanju preglednic, pripravi predstavitev, pisanju kode, prepoznavanju vsebine slik, razumevanju daljših kontekstov, uporabi orodij in obvladovanju zahtevnih, večstopenjskih projektov.

GPT‑5.2 postavlja nov mejnik pri številnih primerjalnih analizah, vključno z GDPval, kjer prekosi panožne strokovnjake pri jasno opredeljenih nalogah, ki temeljijo na znanju in zajemajo 44 poklicev.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (zmage ali izenačenja)
Naloge z znanjem

70,9 %

38,8 % (GPT‑5)

SWE-Bench Pro (javno)
Programski inženiring

55,6 %

50,8 %

SWE-bench Verified
Programski inženiring

80,0 %

76,3%

GPQA Diamond (brez orodij)
Znanstvena vprašanja

92,4 %

88,1 %

CharXiv Reasoning (s Python)
Vprašanja o znanstvenih slikah

88,7 %

80,3 %

HMMT (Feb 2025)
Matematično tekmovanje

99,4 %

96,3 %

FrontierMath (Stopnja 1–3)
Napredna matematika

40,3 %

31,0 %

ARC-AGI-1 (preverjeno)
Abstraktno razmišljanje

86,2 %

72,8 %

ARC-AGI-2 (preverjeno)
Abstraktno razmišljanje

52,9 %

17,6 %

V podjetjih Notion(odpre se v novem oknu), Box(odpre se v novem oknu), Shopify(odpre se v novem oknu), Harvey(odpre se v novem oknu) in Zoom(odpre se v novem oknu) so opazili, da model GPT‑5.2 izkazuje najsodobnejše daljnosežno razmišljanje in zmogljivost priklica orodij. Pri podjetjih Databricks(odpre se v novem oknu), Hex(odpre se v novem oknu) in Triple Whale(odpre se v novem oknu) so ugotovili, da se model GPT‑5.2 izjemno dobro odreže pri agentskih nalogah na področjih podatkovne znanosti in analiziranja dokumentov. Pri podjetjih Cognition(odpre se v novem oknu), Warp(odpre se v novem oknu), Charlie Labs(odpre se v novem oknu), JetBrains(odpre se v novem oknu) in Augment Code(odpre se v novem oknu) pravijo, da GPT‑5.2 zagotavlja najsodobnejšo agentsko zmogljivost programiranja, z merljivimi izboljšavami na področjih, kot so interaktivno programiranje, pregledovanje kode in iskanje programskih napak.

V ChatGPT‑ju se bodo različice GPT‑5.2 Instant, Thinking in Pro začele uvajati danes, najprej za plačljive naročnine. V API-ju so že na voljo vsem razvijalcem.

GPT‑5.2 v glavnem prinaša pomembne izboljšave v splošni inteligenci, razumevanju dolgih kontekstov, agentnem priklicu orodij in vidnih zmožnostih, zato je pri izvajanju zahtevnih, resničnih nalog od začetka do konca učinkovitejši kot kateri koli predhodni model.

Zmogljivost modela

Ekonomsko pomembne naloge

GPT‑5.2 Thinking je najboljši model doslej za profesionalno uporabo v resničnem svetu. Pri vrednotenju GDPval, ki meri izvajanje jasno opredeljenih nalog s strokovnim znanjem v 44 poklicih, je model GPT‑5.2 Thinking postavil nov mejnik in je naš prvi model, ki dosega ali presega raven človeškega strokovnjaka. Natančneje, model GPT‑5.2 Thinking na podlagi ocen strokovnih človeških ocenjevalcev premaga ali doseže rezultate najboljših panožnih strokovnjakov pri 70,9 % primerjav pri nalogah s strokovnim znanjem v sklopu vrednotenja GDPval. Te naloge vključujejo pripravo predstavitev, preglednic in drugih izdelkov. Model GPT‑5.2 Thinking je za naloge GDPval ustvaril rezultate z več kot 11-kratno hitrostjo in za manj kot 1 % stroškov strokovnjakov, kar nakazuje, da lahko GPT‑5.2 v kombinaciji s človeškim nadzorom pomaga pri strokovnem delu. Ocene hitrosti in stroškov temeljijo na zgodovinskih metrikah; hitrosti v storitvi ChatGPT so lahko različne.

Pri vrednotenju GDPval modeli opravljajo jasno opredeljene naloge s strokovnim znanjem, ki zajemajo 44 poklicev iz devetih panog z največjim prispevkom k BDP-ju ZDA. Naloge zahtevajo resnične delovne izdelke, kot so prodajne predstavitve, računovodske preglednice, urniki nujne medicinske oskrbe, proizvodni diagrami ali kratki videoposnetki. V ChatGPT‑ju ima GPT‑5.2 Thinking nova orodja, ki jih GPT‑5 Thinking nima.

Ob pregledu posebej kakovostnega rezultata je eden od ocenjevalcev GDPval zapisal: »Gre za vznemirljiv in občutno velik preskok v kakovosti rezultatov … videti je, kot da je delo opravilo strokovno podjetje z zaposlenimi, postavitev in priporočila pri obeh izdelkih so presenetljivo dobro zasnovani, čeprav moramo pri enem izdelku še popraviti nekaj manjših napak.«

Poleg tega je pri naši interni primerjalni analizi z nalogami finančnega modeliranja, ki jih običajno opravljajo mlajši analitiki investicijskega bančništva, kot je priprava modela treh izkazov za podjetje s seznama Fortune 500 s pravilnim oblikovanjem in navedki ali izdelava modela odkupa s finančnim vzvodom za prevzem podjetja z umikom z borze, model GPT‑5.2 Thinking pri posamezni nalogi dosegel povprečno oceno, ki je za 9,3 % višja kot pri modelu GPT‑5.1., kar predstavlja povišanje z 59,1 % na 68,4 %.

V vzporednih primerjavah sta razvidna izboljšana prefinjenost in oblikovanje v preglednicah in diapozitivih, ki jih ustvari model GPT‑5.2. Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Poziv: Ustvari model za načrtovanje kadrov: število zaposlenih, načrt zaposlovanja, fluktuacija in vpliv na proračun. Vključi oddelke za inženirstvo, trženje, pravne zadeve in prodajo.

Za uporabo novih zmogljivosti preglednic in predstavitev v storitvi ChatGPT morate imeti plačljiv paket in izbrati GPT‑5.2 Thinking ali Pro. Generiranje zahtevnejših izdelkov lahko traja večje število minut.

Programiranje

Model GPT‑5.2 Thinking postavlja nov mejnik pri 55,6 % pri primerjalni analizi SWE-bench Pro, ki predstavlja strogo ocenjevanje resničnega inženiringa programske opreme. Za razliko od SWE-bench Verified, ki testira samo Python, SWE-bench Pro testira štiri jezike in je zasnovan tako, da je bolj odporen na kontaminacijo, bolj zahteven, raznolik in industrijsko relevanten.

Pri SWE-bench Pro(odpre se v novem oknu) model dobi repozitorij kode in mora ustvariti popravek (patch), s katerim reši realistično nalogo programskega inženiringa.

Na merilu SWE-bench Verified (ni prikazano na grafu) GPT‑5.2 Thinking doseže novo najvišjo vrednost 80 %.

Pri vsakodnevni strokovni rabi to pomeni model, ki zanesljiveje razhrošča produkcijsko kodo, izvaja zahteve za nove funkcionalnosti, preoblikuje obsežne zbirke kode in od začetka do konca lansira popravke z manj ročnega poseganja.

GPT‑5.2 Thinking je tudi boljši pri front-end programskem inženiringu kot GPT‑5.1 Thinking. Zgodnji preizkuševalci so ugotovili, da je občutno zmogljivejši pri front-end razvoju in zahtevnem ali nekonvencionalnem delu z uporabniškimi vmesniki, zlasti kadar vključujejo 3D elemente, zato predstavlja zmogljivega vsakodnevnega partnerja inženirjem v celotnem tehnološkem sklopu. Spodaj je nekaj primerov, kaj lahko ustvari zgolj iz enega poziva:

Poziv: Ustvari spletno aplikacijo v eni sami datoteki HTML z naslednjimi zahtevami:
- Ime: Simulacija morskih valov
- Cilj: Prikaz realističnih animiranih valov.
- Funkcije: Spreminjanje hitrosti vetra, višine valov, osvetlitve.
- Uporabniški vmesnik naj bo pomirjujoč in realističen.

Zgodnji preizkuševalci so podali povratne informacije o zmožnostih kodiranja modela GPT‑5.2.:

»GPT-5.2 predstavlja največji preskok pri modelih GPT za agentsko programiranje od različice GPT-5 in je najsodobnejši model za programiranje v svojem cenovnem razredu. Majhna sprememba v številki različice ni pravšnji odraz ogromnega preskoka v inteligenci. Z veseljem sporočamo, da bo to privzeta rešitev v podjetju Windsurf in v več ključnih delovnih obremenitvah v okolju Devin.«
Jeff Wang, izvršni direktor, Windsurf

Dejanskost

GPT‑5.2 Thinking redkeje halucinira kot GPT‑5.1 Thinking. Pri deidentificiranem naboru poizvedb iz ChatGPT‑ja so bili odgovori z napakami za 38 %rel manj pogosti. Za strokovnjake to pomeni manj napak pri raziskovanju, pisanju, analizi in podpori odločanju, zato je model zanesljivejši za vsakdanje delo, ki temelji na strokovnem znanju.

Intenzivnost sklepanja je bila nastavljena na največjo možno vrednost, omogočeno pa je bilo orodje za iskanje. Napake so odkrivali drugi modeli, ki lahko tudi sami delajo napake. Stopnje napak na ravni posameznih navedb so bistveno nižje kot stopnje napak na ravni celotnega odgovora, saj večina odgovorov vsebuje veliko navedb.

Tako kot vsi modeli je tudi GPT‑5.2 Thinking nepopoln. Če gre za nekaj pomembnega je treba njegove odgovore ponovno preveriti.

Dolg kontekst

GPT‑5.2 Thinking postavlja nov standard na področju sklepanja v dolgem kontekstu, saj dosega vodilno učinkovitost na merilu OpenAI MRCRv2, ki testira zmožnost modela, da povezuje informacije, razpršene po dolgih dokumentih. Pri resničnih nalogah, denimo pri poglobljeni analizi dokumentov, ki zahtevajo povezovanje informacij v obsegu več sto tisoč tokenov, je GPT‑5.2 Thinking izrazito natančnejši od GPT‑5.1 Thinking. Posebej izstopa kot prvi model, ki dosega skoraj 100-odstotno natančnost na različici MRCR s štirimi »needli« (do 256 tisoč tokenov).

V praksi to strokovnjakom omogoča, da GPT‑5.2 uporabljajo za delo z dolgimi dokumenti, kot so poročila, pogodbe, znanstveni članki, prepisi in projekti z več datotekami, pri tem pa ohranjajo povezanost in natančnost v obsegu stotin tisoč tokenov. GPT‑5.2 je zato še posebej primeren za poglobljeno analizo, sintezo in zapletene delovne tokove z več viri.

V OpenAI-MRCR⁠(odpre se v novem oknu) v2 (večkrožna soreferenčna ločljivost), se več enakih uporabniških zahtev tipa »igla« vstavi v dolge »kopice sena« podobnih zahtev in odgovorov, model pa se pozove, da reproducira odgovor na n-to iglo. Različica 2 evalvacije popravlja ~5 % nalog, ki so imele napačne vrednosti resnice na terenu. Povprečno razmerje ujemanja meri povprečno razmerje ujemanja med odzivom modela in pravilnim odgovorom. Točke pri največ 256k vnosnih žetonih predstavljajo povprečja nad 128k–256k vnosnimi žetoni in tako naprej. Tukaj 256k predstavlja 256 * 1.024 = 262.144 vnosnih žetonov. Prizadevanje za sklepanje je bilo nastavljeno na največjo razpoložljivo vrednost.

Pri nalogah, ki zahtevajo razmišljanje onkraj največjega kontekstnega okna, je GPT‑5.2 Thinking združljiv z našo novo končno točko Responses /compact, ki razširja učinkovito kontekstno okno modela. Tako bo GPT‑5.2 Thinking lahko izvajal zahtevnejše delovne tokove z intenzivno uporabo orodij in daljšim trajanjem, ki bi jih sicer omejevala dolžina konteksta. Preberite več v naši dokumentaciji za API-je(odpre se v novem oknu).

Vizija

GPT‑5.2 Thinking je naš najzmogljivejši vidni model doslej, saj približno prepolovi stopnjo napak pri sklepanju na podlagi grafikonov in razumevanju programskih vmesnikov.

Pri vsakodnevni strokovni rabi to pomeni, da model natančneje interpretira nadzorne plošče, posnetke zaslona produktov, tehnične diagrame in vizualna poročila, kar podpira delovne tokove v financah, operativnem delu, inženiringu, oblikovanju in podpori strankam, kjer je vizualna informacija ključna.

V primeru CharXiv Reasoning(odpre se v novem oknu) modeli odgovarjajo na vprašanja o vizualnih grafikonih iz znanstvenih člankov. Orodje Python je bilo omogočeno, intenzivnost sklepanja pa nastavljena na najvišjo raven.

V primeru ScreenSpot-Pro(odpre se v novem oknu) morajo modeli sklepati na podlagi visokoločljivostnih posnetkov zaslona grafičnih uporabniških vmesnikov iz različnih strokovnih okolij. Orodje Python je bilo omogočeno, intenzivnost sklepanja pa nastavljena na najvišjo raven. Brez orodja Python bi bili rezultati bistveno nižji. Priporočamo uporabo orodja Python pri nalogah, ki vključujejo vid.

V primerjavi s prejšnjimi modeli ima GPT‑5.2 Thinking močnejše razumevanje tega, kako so elementi umeščeni na sliki, kar pomaga pri nalogah, kjer relativna umestitev igra ključno vlogo pri reševanju problema. V spodnjem primeru smo modelu naročili, naj prepozna komponente na slikovnem vnosu (v tem primeru na sliki matične plošče) in vrne oznake s približnimi obrobami. Tudi na sliki nizke kakovosti je model GPT‑5.2 prepoznal glavna območja in postavil obrobe, ki približno ustrezajo dejanskim lokacijam posamezne komponente, medtem ko model GPT‑5.1 označi le nekaj delov in pokaže precej šibkejše razumevanje njihove prostorske razporeditve.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

Priklic orodja

GPT‑5.2 Thinking doseže nov standard 98,7 % na merilu Tau2-bench Telecom, kar dokazuje, da zanesljivo uporablja orodja pri dolgih, večkratnih pogovorih.

Pri primerih uporabe, občutljivih na zakasnitev, GPT‑5.2 Thinking občutno bolje deluje v načinu reasoning.effort=’none’, saj bistveno prekaša modela GPT‑5.1 in GPT‑4.1.

V primeru τ2-bench⁠(odpre se v novem oknu) modeli uporabljajo orodja za reševanje nalog podpore strankam v večkratnem pogovoru s simuliranim uporabnikom. Za področje telekomunikacij smo v sistemski poziv vključili kratko, splošno koristno navodilo za izboljšanje učinkovitosti. Podskupine Airline nismo vključili zaradi slabše kakovosti referenčnega vrednotenja.

Za strokovnjake to pomeni močnejše delovne tokove od začetka do konca, denimo reševanje primerov podpore strankam, pridobivanje podatkov iz več sistemov, izvajanje analiz in ustvarjanje končnih rezultatov z manj prekinitvami med posameznimi koraki.

Na primer, pri zapletenem vprašanju podpore strankam, ki zahteva večkorakovno rešitev, lahko model učinkoviteje uskladi celoten delovni tok med več agenti. V spodnjem primeru potnik poroča o zamudi leta, izgubljeni povezavi, nočitvi v New Yorku in zdravstveni potrebi po posebnem sedežu. GPT‑5.2 uskladi celotno zaporedje nalog, vključno s ponovno rezervacijo, posebnim sedežem in odškodnino, ter doseže celovitejši rezultat kot GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

Znanost in matematika

Ena od naših želja je, da bi UI pospešila znanstvene raziskave v korist vseh. V ta namen že dalj časa sodelujemo z znanstveniki in jim prisluhnemo, kaj imajo za povedati o tem, kako lahko UI pospeši njihovo delo, in prejšnji mesec smo tukaj delili nekaj zgodnjih skupnih poskusov.

Menimo, da sta GPT‑5.2 Pro in GPT‑5.2 Thinking najboljša modela na svetu za podporo in pospeševanje dela znanstvenikov. Na merilu GPQA Diamond, ki predstavlja magistrsko raven in je odporen proti iskanju odgovorov v Googlu, GPT‑5.2 Pro doseže 93,2 %, tesno za njim pa je GPT‑5.2 Thinking z 92,4 %.

V primeru GPQA Diamond(odpre se v novem oknu) modeli odgovarjajo na vprašanja iz fizike, kemije in biologije v obliki vprašanj izbirnega tipa. Orodja niso bila omogočena, intenzivnost sklepanja pa je bila nastavljena na najvišjo raven.

Pri primerjalni analizi FrontierMath (stebri 1–3), kjer se izvaja vrednotenje matematičnih sposobnosti na najvišji ravni, je model GPT‑5.2 Thinking postavil nov mejnik, saj je rešil 40,3 % problemov.

V primeru FrontierMath(odpre se v novem oknu) modeli rešujejo matematične naloge za najvišji ravni. Orodje Python je bilo omogočeno, intenzivnost sklepanja pa nastavljena na najvišjo raven.

Začenjamo opažati, da modeli UI na otipljive načine pospešujejo napredek v matematiki in znanosti. Primer: Pri nedavnem delu z modelom GPT‑5.2 Pro so se raziskovalci lotili odprtega vprašanja v teoriji statističnega učenja. V ozkem, jasno opredeljenem okolju je model predlagal dokaz, ki so ga avtorji nato preverili in pregledali z zunanjimi strokovnjaki, kar ponazarja, kako lahko najnaprednejši modeli pomagajo pri matematičnih raziskavah pod strogim človeškim nadzorom.

ARC-AGI 2

Pri primerjalni analizi ARC-AGI-1 (preverjeno), zasnovani za merjenje splošne sposobnosti sklepanja, je bil GPT‑5.2 prvi model, ki je presegel prag 90 %; izboljšal je rezultat 87 %, ki ga je dosegel na o3‑predogledu prejšnje leto, hkrati pa za približno 390-krat zmanjšal stroške doseganja te zmogljivosti.

Pri primerjalni analizi ARC-AGI-2 (preverjeno), kjer sta višja stopnja težavnosti in bolje izpostavljeno tekoče razmišljanje, je model GPT‑5.2 Thinking z rezultatom 52,9 % dosegel nov mejnik za modele z miselnim tokom. Model GPT‑5.2 Pro se izkaže še bolje, z rezultatom 54,2 %, kar še dodatno razširja sposobnost modela, da se s sklepanjem loti novih, abstraktnih problemov.

Izboljšave pri teh vrednotenjih odražajo napredek modela GPT‑5.2 z vidika močnejšega večstopenjskega sklepanja, večje kvantitativne natančnosti in zanesljivejšega reševanja problemov pri kompleksnih tehničnih nalogah.

Naši zgodnji preizkuševalci so to povedali o modelu GPT‑5.2:

»GPT-5.2 nam je omogočil popoln arhitekturni preskok. Krhek, večagentski sistem smo združili v enega samega mega-agenta z več kot 20 orodji. Najboljše pri tem je, da preprosto deluje. Mega-agent je hitrejši, pametnejši in 100-krat lažji za vzdrževanje. Opažamo drastično nižjo zakasnitev, veliko močnejše klicanje orodij in ne potrebujemo več obsežnih sistemskih pozivov, saj različica 5.2 deluje brezhibno s preprostim, enovrstičnim pozivom. Občutek je kot čista čarovnija.«
AJ Orbach, izvršni direktor, Triple Whale

Model GPT‑5.2 v storitvi ChatGPT

V storitvi ChatGPT bi uporabniki morali opaziti, da je model GPT‑5.2 boljši za vsakodnevno uporabo – je bolj strukturiran, zanesljivejši in še vedno prijeten za pogovor.

GPT‑5.2 Instant je hiter in zmogljiv delovni konj za vsakodnevno delo in učenje, z jasnimi izboljšavami pri iskanju informacij, navodilih in postopkih, tehničnem pisanju in prevajanju, pri čemer uporablja toplejši pogovorni ton, ki je bil uveden v modelu GPT‑5.1 Instant. Zgodnji preizkuševalci so še posebej opazili jasnejše razlage, ki že na začetku izpostavljajo ključne informacije.

GPT‑5.2 Thinking je zasnovan za bolj poglobljeno delo, saj uporabnikom pomaga pri reševanju bolj zapletenih nalog z večjo dodelanostjo – še posebej pri programiranju, povzemanju dolgih dokumentov, odgovarjanju na vprašanja o naloženih datotekah, reševanju matematičnih in logičnih problemov po korakih ter podpori pri načrtovanju in odločanju z jasnejšo strukturo in uporabnejšimi podrobnostmi.

GPT‑5.2 Pro je naša najpametnejša in najzanesljivejša možnost za zahtevna vprašanja, kjer je kakovostnejši odgovor vreden čakanja. Zgodnje testiranje kaže manj večjih napak in boljšo učinkovitost na zapletenih področjih, kot je programiranje.

Varnost

GPT‑5.2 gradi na raziskavah varne izpolnitve, ki smo jih uvedli z modelom GPT‑5, kar model uči, da poda najkoristnejši odgovor in hkrati ostane znotraj varnostnih omejitev.

S to izdajo smo nadaljevali naše delo za krepitev odzivov naših modelov v občutljivih pogovorih, z bistvenimi izboljšavami v načinu, kako se odzivajo na pozive, ki nakazujejo znake samomora ali samopoškodovanja, duševne stiske ali čustvene odvisnosti od modela. Te ciljno usmerjene izboljšave so povzročile manj nezaželenih odgovorov v modelih GPT‑5.2 Instant in GPT‑5.2 Thinking v primerjavi z GPT‑5.1 ter GPT‑5 Instant in Thinking. Dodatne podrobnosti lahko najdete na sistemski kartici.

Smo v zgodnjih fazah uvajanja našega modela za napovedovanje starosti, da bomo lahko samodejno uporabili vsebinske zaščite za uporabnike, ki so mlajši od 18 let, in tako omejili dostop do občutljivih vsebin. To nadgrajuje naš obstoječi pristop za uporabnike, za katere vemo, da so mlajši od 18 let, in naš starševski nadzor.

GPT‑5.2 je le eden od korakov v nizu stalnih izboljšav, in od njih smo še daleč. Čeprav ta izdaja prinaša pomemben napredek v inteligenci in produktivnosti, se zavedamo, da si ljudje želijo še več. V ChatGPT‑ju delamo na znanih težavah, kot so pretirano zavračanje odgovorov, hkrati pa še naprej dvigujemo standarde varnosti in zanesljivosti. Te spremembe so kompleksne in osredotočeni smo na to, da jih izvedemo pravilno.

Ocenjevanje duševnega zdravja


GPT‑5.2
Instant

GPT‑5.1
Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

Duševno zdravje

0,995

0,883

0,915

0,684

Čustvena odvisnost

0,938

0,945

0,955

0,785

Samopoškodovanje

0,938

0,925

0,963

0,937

Razpoložljivost in cenik

V ChatGPT‑ju bomo danes začeli uvajati GPT‑5.2 (Instant, Thinking in Pro), najprej za plačljive pakete (Plus, Pro, Go, Business, Enterprise). GPT‑5.2 uvajamo postopno, da bo uporaba ChatGPT‑ja čim bolj gladka in zanesljiva; če modela sprva ne vidite, poskusite znova pozneje. GPT‑5.1 bo v ChatGPT‑ju za plačljive uporabnike na voljo še tri mesece v naboru starejših modelov, nato pa ga bomo postopoma umaknili.

Poimenovanje modelov v ChatGPT‑ju in API-ju

ChatGPT

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

Na naši platformi z API-ji je GPT‑5.2 Thinking danes na voljo v Responses API-ju in Chat Completions API-ju kot gpt-5.2 in GPT‑5.2 Instant kot gpt-5.2-chat-latest. GPT‑5.2 Pro je na voljo v Responses API-ju kot gpt-5.2-pro. Razvijalci lahko zdaj nastavijo parameter sklepanja v GPT‑5.2 Pro in oba, tako GPT‑5.2 Pro kot GPT‑5.2 Thinking, zdaj podpirata novo, peto stopnjo intenzivnosti razmišljanja »xhigh« pri nalogah, kjer je najpomembnejša kakovost.

GPT‑5.2 je ovrednoten na 1,75 USD za 1 mio vhodnih tokenov in 14 USD za 1 mio izhodnih tokenov, s 90-odstotnim popustom za predpomnjene vnose. Pri več agentskih ocenjevanjih smo ugotovili, da čeprav je bil strošek na token pri modelu GPT‑5.2 sicer večji, je bil strošek doseganja določene ravni kakovosti zaradi večje učinkovitosti tokenov modela GPT‑5.2 na koncu manjši.

Medtem ko cenik naročnin za ChatGPT ostaja enak, je GPT‑5.2 v API-ju dražji na token kot GPT‑5.1, ker je zmogljivejši model. Še vedno je cenovno ugodnejši od drugih naprednih modelov, zato ga lahko ljudje nadaljujejo poglobljeno uporabljati v svojem vsakdanjem delu in osnovnih aplikacijah.

Cena na milijon tokenov

Model

Vnos

Predpomnjeni vnos

Izhod

gpt-5.2 /
gpt-5.2-chat-latest

1,75 USD

0,175 USD

14 USD

gpt-5.2-pro

21 USD

-

168 USD

gpt-5.1 /
gpt-5.1-chat-latest

1,25 USD

0,125 USD

10 USD

gpt-5-pro

15 USD

-

120 USD

Za zdaj nimamo načrtov, da bi v API-ju ukinili GPT‑5.1, GPT‑5 ali GPT‑4.1, in vse načrte o ukinitvah bomo razvijalcem sporočili z dovolj zgodnjim obvestilom. GPT‑5.2 bo že privzeto dobro deloval v Codexu, vendar pričakujemo, da bomo v prihodnjih tednih izdali tudi različico GPT‑5.2, optimizirano za Codex.

Naši partnerji

GPT‑5.2 je bil razvit v sodelovanju z našima dolgoletnima partnerjema, družbama NVIDIA in Microsoft. Podatkovni centri Azure in grafični procesorji NVIDIA, med njimi H100, H200 in GB200-NVL72, so temelj OpenAI-jeve obsežne učne infrastrukture, ki omogoča pomembne pridobitve v inteligenci modelov. To sodelovanje nam omogoča zanesljivo povečevanje računskih zmogljivosti in hitrejše lansiranje novih modelov na trg.

Priloga

Podrobna merila uspešnosti

Spodaj celovito poročamo o primerjalnih rezultatih za model GPT‑5.2 Thinking, skupaj s podmnožico za GPT‑5.2 Pro.

Profesionalno
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
Programiranje
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
Dejanskost
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
Dolg kontekst
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
Vizija
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
Uporaba orodja
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
Akademsko
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
Abstraktno razmišljanje
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

Modeli so delovali z največjo razpoložljivo intenzivnostjo razmišljanja v našem API-ju (»xhigh« pri GPT‑5.2 Thinking in Pro ter »high« pri GPT‑5.1 Thinking), razen pri profesionalnih ocenjevanjih, kjer je GPT‑5.2 Thinking deloval z intenzivnostjo razmišljanja »heavy«, kar je najvišja možna vrednost v ChatGPT Pro. Meritve so bile izvedene v raziskovalnem okolju, kar lahko v nekaterih primerih prinese nekoliko drugačne rezultate kot v produkcijskem ChatGPT‑ju.

* Za SWE-Lancer izpustimo 40/237 problemov, ki se niso izvajali na naši infrastrukturi.

Avtor

OpenAI