Preskočiť na hlavný obsah
OpenAI

11. decembra 2025

ProduktVydanie

Predstavujeme GPT‑5.2

Najpokročilejší špičkový model na profesionálnu prácu a pre dlhodobých agentov.

Načítava sa…

Predstavujeme GPT‑5.2, najvýkonnejšiu sériu modelov pre profesionálnu prácu so znalosťami.

Už teraz priemerný používateľ ChatGPT Enterprise uvádza, mu umelá inteligencia ušetrí 40 až 60 minút denne, a intenzívni používatelia uvádzajú, že im ušetrí viac ako 10 hodín týždenne. Navrhli sme GPT‑5.2 tak, aby priniesol ešte väčšiu ekonomickú hodnotu pre ľudí – je lepší pri vytváraní tabuliek, tvorbe prezentácií, písaní kódu, rozpoznávaní obrázkov, chápaní dlhých kontextov, používaní nástrojov a zvládaní zložitých, viacstupňových projektov.

GPT‑5.2 nastavuje nový štandard v mnohých benchmarkoch, vrátane GDPval, kde prekonáva odborníkov z odvetvia v dobre definovaných úlohách znalostnej práce, ktoré zahŕňajú 44 povolaní.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (víťazstvá alebo remízy)
Úlohy znalostnej práce

70,9 %

38,8 % (GPT‑5)

SWE-Bench Pro (public)
Softvérové inžinierstvo

55,6 %

50,8 %

SWE-bench Overené
Softvérové inžinierstvo

80,0 %

76,3 %

GPQA Diamond (bez nástrojov)
Vedecké otázky

92,4 %

88,1 %

CharXiv Reasoning (s Pythonom)
Otázky týkajúce sa vedeckých obrázkov

88,7 %

80,3 %

HMMT (Feb 2025)
Matematická súťaž

99,4 %

96,3 %

FrontierMath (Úroveň 1–3)
Pokročilá matematika

40,3 %

31,0 %

ARC-AGI-1 (Overené)
Abstraktné uvažovanie

86,2 %

72,8 %

ARC-AGI-2 (Overené)
Abstraktné uvažovanie

52,9 %

17,6 %

Notion(otvorí sa v novom okne), Box(otvorí sa v novom okne), Shopify(otvorí sa v novom okne), Harvey(otvorí sa v novom okne) a Zoom(otvorí sa v novom okne) pozorovali, že GPT‑5.2 demonštruje špičkový výkon v dlhodobom uvažovaní a používaní nástrojov. Databricks(otvorí sa v novom okne), Hex(otvorí sa v novom okne) a Triple Whale(otvorí sa v novom okne) zistili, že GPT‑5.2 je výnimočný v agentických úlohách dátovej vedy a analýze dokumentov. Cognition(otvorí sa v novom okne), Warp(otvorí sa v novom okne), Charlie Labs(otvorí sa v novom okne), JetBrains(otvorí sa v novom okne) a Augment Code(otvorí sa v novom okne) tvrdia, tvrdia, že GPT‑5.2 poskytuje špičkový agentický výkon pri kódovaní s merateľnými zlepšeniami v oblastiach, ako sú interaktívne kódovanie, kontrola kódu a vyhľadávanie chýb.

V ChatGPT, GPT‑5.2 Instant, Thinking a Pro sa začnú zavádzať dnes, počnúc platenými tarifami. V rozhraní API sú teraz k dispozícii všetkým vývojárom

GPT‑5.2 celkovo prináša významné zlepšenia v oblasti všeobecnej inteligencie, porozumenia dlhému kontextu, volania nástrojov agentom a videnia, čo ho robí lepším od akéhokoľvek predchádzajúceho modelu pri vykonávaní zložitých reálnych úloh typu end-to-emd.

Výkon modelu

Ekonomicky hodnotné úlohy

GPT‑5.2 Thinking je zatiaľ najlepší model na reálne, profesionálne použitie. Na GDPval – hodnotení, ktoré meria dobre špecifikované úlohy znalostnej práce naprieč 44 povolaniami, GPT‑5.2 Thinking nastavuje nový špičkový výsledok a je naším prvým modelom, ktorý dosahuje výkon na úrovni alebo nad úrovňou ľudského odborníka. Konkrétne GPT‑5.2 Thinking sa podľa odborných ľudských hodnotiteľov na GDPval v 70,9 % poráža alebo sa vyrovnáva špičkovým odborníkom v odvetviach. Tieto úlohy zahŕňajú vytváranie prezentácií, tabuliek a iných artefaktov. GPT‑5.2 Thinking produkoval výstupy pre úlohy GDPval viac ako 11-násobnou rýchlosťou a za menej ako 1 % nákladov odborných profesionálov, čo naznačuje, že v kombinácii s ľudským dohľadom môže GPT‑5.2 pomôcť s profesionálnou prácou. Odhady rýchlosti a nákladov sú založené na historických metrikách a rýchlosť v ChatGPT sa môže líšiť.

V GDPval sa modely pokúšajú o dobre špecifikovanú znalostnú prácu, ktorá zahŕňa 44 povolaní z 9 hlavných odvetví prispievajúcich k HDP Spojených štátov amerických. Úlohy vyžadujú skutočné pracovné produkty, ako sú predajné prezentácie, účtovné tabuľky, rozvrhy urgentnej starostlivosti, výrobné diagramy alebo krátke videá. V ChatGPT, GPT‑5.2 Thinking má nové nástroje, ktoré model GPT‑5 Thinking nemá.

Pri hodnotení jedného obzvlášť dobrého výstupu jeden z porotcov GDPval poznamenal: „Je to vzrušujúci a viditeľný skok v kvalite výstupu... [zdá sa], že to urobila profesionálna spoločnosť so zamestnancami, a má prekvapivo dobre navrhnuté rozloženie a rady pre obe dodávky, aj keď pri jednej z nich máme ešte niekoľko drobných chýb na opravu.“

Navyše, na našom internom benchmarku úloh modelovania junior analytikov investičného bankovníctva v tabuľkových procesoroch – ako je napr. zostavenie trojvýkazového modelu pre spoločnosť z rebríčka Fortune 500 so správnym formátovaním a citáciami, alebo vytvorenie modelu pákového odkúpenia pre stiahnutie z burzy – je priemerné skóre GPT‑5.2 Thinking na úlohu o 9,3 % vyššie ako u GPT‑5.1, čo prestavuje nárast z 59,1 % na 68,4 %.

Porovnania vedľa seba ukazujú zlepšenú sofistikovanosť a formátovanie v tabuľkách a snímkach generovaných GPT‑5.2. Premýšľanie:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Príkaz: Vytvor model plánovania pracovnej sily: počet zamestnancov, plán náboru, fluktuácia a dopad na rozpočet. Zahrnúť oddelenie inžinierstva, marketingu, právne oddelenie a obchodné oddelenie.

Na používanie nových funkciá tabuľkového procesora a prezentácie v ChatGPT, musíš byť na platenej tarife a vybrať si buď GPT‑5.2 Thinking alebo Pro. Vypracovanie zložitých generácií môže trvať mnoho minút.

Programovanie

GPT‑5.2 dosahuje nový špičkový stav umenia s 55,6 % na SWE-bench Pro, čo je prísne hodnotenie reálneho softvérového inžinierstva. Na rozdiel od SWE-bench Verified, ktorý testuje iba Python, SWE-bench Pro testuje štyri jazyky a snaží sa byť odolnejší voči kontaminácii, náročnejší, rozmanitejší a priemyselne relevantný.

V SWE-bench Pro(otvorí sa v novom okne), modelu je pridelený repozitár kódu a musí vygenerovať patch na vyriešenie realistickej softvérovej inžinierskej úlohy.

Overené na SWE-bench (nezobrazené), GPT‑5.2 Thinking dosiahol našu novú rekordnú hodnotu 80 %.

Na každodenné profesionálne použitie to znamená model, ktorý dokáže spoľahlivejšie ladiť produkčný kód, implementovať požiadavky na funkcie, refaktorovať veľké kódové základne a dodávať opravy od začiatku do konca s menším manuálnym zásahom.

GPT‑5.2 Thinking je tiež lepšie v oblasti front-end softvérového inžinierstva ako GPT‑5.1 Thinking. Prví testeri zistili, že je výrazne silnejší pri vývoji frontendu a pri práci s komplexnými alebo nekonvenčnými používateľskými rozhraniami, najmä pri práci s 3D prvkami, čo ho robí silného každodenného partnera pre inžinierov naprieč celým technologickým portfóliom. Pozrite sa na niekoľko príkladov toho, čo môže vytvoriť z jediného príkazu:

Príkaz: Vytvor jednostránkovú aplikáciu v jedinom HTML súbore s nasledujúcimi požiadavkami:
- Názov: Ocean Wave Simulation
- Cieľ: Zobraziť realistické animované vlny.
- Funkcie: Zmena rýchlosti vetra, výšky vĺn, osvetlenia.
- Používateľské rozhranie by malo byť upokojujúce a realistické.

Skorí testeri sa podelili o svoje pripomienky k  schopnosti kódovania systému GPT‑5.2:

„GPT-5.2 predstavuje najväčší pokrok pre modely GPT v agentnom kódovaní od GPT-5 a je špičkovým kódovacím modelom vo svojej cenovej kategórii. Zvýšenie verzie podceňuje nárast inteligencie. Sme nadšení, že to bude predvolené v rámci Windsurf a niekoľkých hlavných pracovných záťaží systému Devin.“
Jeff Wang, výkonný riaditeľ, Windsurf

Faktickosť

GPT‑5.2 Thinking halucinuje menej ako GPT‑5.1 Thinking. Na súbore odidentifikovaných dotazov z ChatGPT boli odpovede s chybami zriedkavejšie o 38 %rel. Pre profesionálov to znamená menej chýb pri používaní modelu na výskum, písanie, analýzu a podporu rozhodovania, čo  robí model spoľahlivejším pre každodennú prácu so znalosťami.

Úroveň náročnosti myslenia bola nastavená na maximálnu dostupnú hodnotu a bol povolený vyhľadávací nástroj. Chyby boli z zistené inými modelmi, ktoré môžu samy robiť chyby. Miera chybovosti na úrovni tvrdení je oveľa nižšia ako miera chybovosti na úrovni odpovedí, pretože väčšina odpovedí obsahuje mnoho tvrdení

Ako pri všetkých modeloch, GPT‑5.2, premýšľanie nie je dokonalé. Pri čomkoľvek kriticky dôležitom starostlivo skontrolujte odpovede.

Dlhý kontext

GPT‑5.2 Thinking nastavuje nový štandard v oblasti dlhodobého kontextového uvažovania, dosahujúc vedúci výkon na OpenAI MRCRv2—hodnotenie, ktoré testuje schopnosť modelu integrovať informácie rozptýlené v dlhých dokumentoch. Pri reálnych úlohách, ako je hlboká analýza dokumentov, ktoré vyžadujú súvisiace informácie naprieč stovkami tisíc tokenov, GPT‑5.2 Thinking je podstatne presnejší ako GPT‑5.1 Thinking. Najmä je to prvý model, ktorý sme videli, že dosahuje takmer 100 % presnosť na variante 4-ihlového MRCR (až do 256 tisíc tokenov).

V praktickom zmysle to povoľuje profesionálom používať GPT‑5.2 na prácu s dlhými dokumentmi, ako sú správy, zmluvy, výskumné práce, prepisy a projekty s viacerými súbormi pri zachovaní koherencie a presnosti naprieč stovkami tisíc tokenov. Vďaka tomu je GPT‑5.2 obzvlášť vhodný na hlbokú analýzu, syntézu a zložité pracovné postupy z viacerých zdrojov.

V OpenAI-MRCR⁠(otvorí sa v novom okne) v2 (viackolové koreferenčné rozlíšenie), sa viacero identických používateľských požiadaviek typu ihla vloží do dlhých kôp sena podobných požiadaviek a odpovedí, a model je požiadaný, aby reprodukoval odpoveď na n-tú ihlu. Verzia 2 hodnotenia opravuje približne 5 % úloh, ktoré mali nesprávne hodnoty pravdy. Priemerný pomer zhody meria priemerný pomer zhody reťazcov medzi odpoveďou modelu a správnou odpoveďou. Body pri maximálnom počte vstupných tokenov 256 tisíc predstavujú priemery pre 128 tisíc – 256 tisíc vstupných tokenov atď. Tu 256 tisíc predstavuje 256 * 1 024 = 262 144 tokenov. Úsilie pri myslení bolo nastavené na maximálnu dostupnú úroveň.

Pre úlohy, ktoré profitujú z myslenia nad rámec maximálneho kontextového okna, GPT‑5.2 Thinking je kompatibilný s naším novým koncovým bodom Responses /compact, ktorý rozširuje efektívne kontextové okno modelu. To umožňuje GPT‑5.2 Thinking  poradiť s náročnejšími, nástrojovo intenzívnymi a dlhodobými pracovnými postupmi, ktoré by inak boli obmedzené dĺžkou kontextu. Prečítaj si viac v našej dokumentácii API(otvorí sa v novom okne).

Vízia

GPT‑5.2 Thinking je náš doteraz najsilnejší model pre videnie, ktorý znižuje mieru chybovosti približne na polovicu pri uvažovaní nad grafmi a porozumení softvérových rozhraní.

Na každodenné profesionálne použitie to znamená, že model dokáže presnejšie interpretovať hlavné panely, snímky obrazovky produktov, technické diagramy a vizuálne správy, podporujúc pracovné postupy vo financoch, prevádzke, inžinierstve, dizajne a zákazníckej podpore, kde je vizuálna informácia kľúčová.

V CharXiv Reasoning(otvorí sa v novom okne) modely odpovedajú na otázky týkajúce sa vizuálnych grafov zo vedeckých článkov. Bol povolený nástroj v jazyku Python a úsilie na uvažovanie bolo nastavené na maximum.

V ScreenSpot-Pro(otvorí sa v novom okne) musia modely uvažovať o vysokorozlíšených snímkach obrazoviek grafických používateľských rozhraní z rôznych profesionálnych prostredí. Bol povolený nástroj Python a úsilie na uvažovanie bolo nastavené na maximum. Bez nástroja Python sú skóre oveľa nižšie. Odporúčame povoliť nástroj Python pri úlohách videnia, ako sú tieto.

V porovnaní s predchádzajúcimi modelmi, GPT‑5.2 Thinking má lepšie pochopenie toho, ako sú prvky umiestnené v obrázku, čo pomáha pri úlohách, kde relatívna rola zohráva kľúčovú úlohu pri riešení problému. V nasledujúcom príklade žiadame model, aby identifikoval komponenty vo vstupe obrázku (v tomto prípade základnej dosky) a vrátil štítky s približnými ohraničujúcimi rámčekmi. Aj na nekvalitnom obrázku GPT‑5.2 identifikuje hlavné oblasti a umiestňuje boxy, ktoré približne zodpovedajú skutočným umiestneniam jednotlivých komponentov, zatiaľ čo GPT‑5.1 označuje iba niekoľko častí a vykazuje oveľa slabšie pochopenie ich priestorového usporiadania.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

Získavanie nástrojov

GPT‑5.2 Thinking dosahuje novú špičkovú úroveň s 98,7 % na Tau2-bench Telecom, čo demonštruje jeho schopnosť spoľahlivo používať nástroje pri dlhých viacnásobných úlohách.

Pre prípady použitia citlivé na latenciu, GPT‑5.2 Premýšľanie tiež vykonáva oveľa lepšie pri uvažovaní.effort=’none’, a podstatne prekonáva GPT‑5.1 a GPT‑4.1.

V τ2-bench⁠(otvorí sa v novom okne) modely používajú nástroje na dokončenie úloh zákazníckej podpory v interakcii na viaceré kolá so simulovaným používateľom. Pre telekomunikačnú doménu sme do systémového príkazu zahrnuli stručné, všeobecne užitočné pokyny na zvýšenie výkonu. Podmnožinu leteckých spoločností vylučujeme kvôli nižšej kvalite hodnotenia pravdivých údajov.

Pre profesionálov to znamená silnejšie komplexné pracovné postupy, ako napríklad riešenie prípadov zákazníckej podpory, získavanie údajov z viacerých systémov, vykonávanie analýz a generovanie konečných výstupov s menším počtom prerušení medzi krokmi.

Napríklad pri kladení zložitej otázky týkajúcej sa zákazníckeho servisu, ktorá vyžaduje viackrokové riešenie, môže model efektívnejšie koordinovať celý pracovný postup medzi viacerými agentmi. V nasledujúcom prípade cestujúci nahlasuje meškanie letu, zmeškané spojenie, prenocovanie v New Yorku a požiadavku na špeciálne sedenie z dôvodu zdravotného stavu. GPT‑5.2 riadi celý reťazec úloh, zmeny termínov, sedenie so špeciálnou asistenciou a kompenzáciu, a poskytuje úplnejší výsledok ako GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

Veda a matematika

Jednou z našich nádejí pre umelú inteligenciu je, že urýchli vedecký výskum na prospech všetkých Na tento účel sme spolupracovali a počúvali vedcov, aby sme zistili, ako môže AI urýchliť ich prácu, a minulý mesiac sme  tu zdieľali niektoré skoré spolupráce na experimentoch.

Veríme GPT‑5.2 Pro a GPT‑5.2 Modely myslenia sú najlepšími na svete na pomoc a urýchlenie práce vedcov. Na GPQA Diamond, benchmarku na úrovni absolventov, ktorý je odolný voči vyhľadávaniu na Google, GPT‑5.2 Pro dosahuje 93,2 %, tesne za ním nasleduje GPT‑5.2. Premýšľanie na 92,4 %.

V GPQA Diamond(otvorí sa v novom okne) modely odpovedajú na otázky s výberom z viacerých možností z oblasti fyziky, chémie a biológie. Žiadne nástroje neboli povolené a úsilie na uvažovanie bolo nastavené na maximum.

Na FrontierMath (úroveň 1–3), hodnotenie matematiky na úrovni expertov, GPT‑5.2 Thinking dosiahol nový špičkový stav – rieši 40,3 % problémov.

V FrontierMath(otvorí sa v novom okne) modely riešia matematické problémy na úrovni odborníkov. Bol povolený nástroj Python a úsilie pri uvažovaní bolo nastavené na maximum.

Začíname pozorovať, ako modely umelej inteligencie významne urýchľujú pokrok v matematike a vede konkrétnymi spôsobmi. Napríklad v nedávnej práci s GPT‑5.2 Pro, výskumníci skúmali otvorenú otázku v teórii štatistického učenia. V úzkom, dobre špecifikovanom prostredí model navrhol dôkaz, ktorý bol následne overený autormi a preskúmaný externými odborníkmi, čo ilustruje, ako môžu pokročilé modely pomáhať matematickému výskumu pod dôkladným ľudským dohľadom.

ARC-AGI 2

Na ARC-AGI-1 (Overené), benchmarku určenom na meranie všeobecnej schopnosti uvažovania, je GPT‑5.2 prvým modelom, ktorý prekročil hranicu 90 %, zlepšujúc sa z 87 % dosiahnutých o3‑preview minulý rok, pričom znížil náklady na dosiahnutie tohto výkonu približne  390-násobne.

Na ARC-AGI-2 (Overené), čo zvyšuje náročnosť a lepšie izoluje plynulé uvažovanie, GPT‑5.2 Thinking dosahuje nový špičkový stav pre modely reťazenia myšlienok, s hodnotením 52,9 %. GPT‑5.2 Pro dosahuje ešte vyšší výkon, dosahujúc 54,2 %, čím ďalej rozširuje schopnosť modelu myslieť nad novými abstraktnými problémami.

Zlepšenia v rámci týchto hodnotení odrážajú schopnosti GPT‑5.2 silnejšie viackrokové uvažovanie, väčšia kvantitatívna presnosť a spoľahlivejšie riešenie problémov pri zložitých technických úlohách.

Tu je to, čo hovoria naši skorí testeri o GPT‑5.2:

„GPT-5.2 nám umožnil kompletnú zmenu architektúry. Zredukovali sme krehký multi-agentový systém na jediného mega-agenta s viac ako 20 nástrojmi. Najlepšie na tom je, že to jednoducho funguje. Mega-agent je rýchlejší, inteligentnejší a 100-krát ľahšie udržiavateľný. Pozorujeme dramaticky nižšiu latenciu, oveľa silnejšie volanie nástrojov a už nepotrebujeme rozsiahle systémové príkazy, pretože verzia 5.2 sa vykoná čisto z jednoduchého, jednoradového príkazu. Pôsobí to ako čisté kúzlo.“
AJ Orbach, Výkonný riaditeľ spoločnosti Triple Whale

GPT‑5.2 v ChatGPT

V ChatGPT by si mali používatelia všimnúť, že GPT‑5.2 je lepšie na každodenné používanie – je viac štruktúrované, spoľahlivejšie a stále príjemné na rozhovor.

GPT‑5.2 Instant je rýchly a schopný pracant pre každodennú prácu a učenie, s jasnými vylepšeniami v otázkach zameraných na vyhľadávanie informácií, návodov a postupoch, technickom písaní a prekladoch, pričom je založený na vrúcnejšom konverzačnom tóne predstavenom v GPT‑5.1 Instant. Prví testeri si obzvlášť všimli jasnejšie vysvetlenia, ktoré poskytujú kľúčové informácie hneď na začiatku.

GPT‑5.2 Thinking je navrhnutý na hlbšiu prácu a pomáha používateľom riešiť zložitejšie úlohy s väčšou precíznosťou – najmä pri kódovaní, sumarizovaní dlhých dokumentov, odpovedaní na otázky o nahratých súboroch, riešení matematiky a logiky krok za krokom a podpore plánovania a rozhodovania s jasnejšou štruktúrou a užitočnejšími detailmi.

GPT‑5.2 Pro je naša najinteligentnejšia a najdôveryhodnejšia možnosť pre náročné otázky, pri ktorých sa oplatí počkať na kvalitnejšiu odpoveď, pričom počiatočné testovanie ukazuje menej závažných chýb a robustnejší výkon v zložitých doménach, ako je programovanie.

Bezpečnosť

GPT‑5.2 stavia na výskume bezpečného dokončenia, ktorý sme predstavili s GPT‑5, ktorý učí model poskytovať najužitočnejšiu odpoveď, pričom stále zostáva v rámci bezpečnostných hraníc.

S týmto vydaním sme pokračovali v práci na posilňovaní reakcií našich modelov v citlivých konverzáciách s významnými vylepšeniami v tom, ako reagujú na príkazy obsahujú znaky naznačujúce samovraždu či sebapoškodzovanie, duševnú tieseň alebo emocionálnu závislosť na modeli. Tieto cielené zásahy viedli k zníženiu nežiaducich odpovedí v oboch systémoch GPT‑5.2. Instant a GPT‑5.2 Myslenie v porovnaní s modelmi GPT‑5.1, GPT‑5 Instant a Thinking. Ďalšie podrobnosti nájdeš v karte o systéme.

Nachádzame sa v počiatočných fázach zavádzania nášho modelu predikcie veku, aby sme mohli automaticky aplikovať ochranu obsahu pre používateľov, ktorí sú mladší ako 18 rokov, s cieľom obmedziť prístup k citlivému obsahu. To nadväzuje na náš existujúci prístup k používateľom, o ktorých vieme, že sú mladší ako 18 rokov, a na naše rodičovské kontroly

GPT‑5.2 je jedným krokom v prebiehajúcej sérii vylepšení a ešte z ďaleka nie sme hotoví. Aj keď táto verzia prináša významné zlepšenia v oblasti inteligencie a produktivity, vieme, že existujú oblasti, kde ľudia očakávajú viac. V ChatGPT pracujeme na známych problémoch, ako sú nadmerné odmietania, pričom pokračujeme v zvyšovaní latky v oblasti bezpečnosti a celkovej spoľahlivosti. Tieto zmeny sú z ložité a sústreďujeme sa na to, aby sme ich správne zvládli

Hodnotenia duševného zdravia


GPT‑5.2
Instant

GPT‑5.1
Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

Duševné zdravie

0,995

0,883

0,915

0,684

Emocionálna závislosť

0,938

0,945

0,955

0,785

sebapoškodzovanie

0,938

0,925

0,963

0,937

Dostupnosť a ceny

V ChatGPT dnes začneme zavádzať GPT‑5.2 (Instant, Thinking a Pro), počnúc platenými tarifami (Plus, Pro, Go, Business, Enterprise). Postupne zavádzame GPT‑5.2, aby sme udržali ChatGPT čo najplynulejší a najspoľahlivejší – ak ho nevidíš hneď, skús to neskôr znova. V ChatGPT bude GPT‑5.1 stále k dispozícii plateným používateľom na tri mesiace v rámci starších modelov, po ktorých ukončíme podporu pre GPT‑5.1.

Názvy modelov naprieč ChatGPT a API

ChatGPT

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

Na našej platforme API, je dnes GPT‑5.2 Thinking k dispozícii v API Responses a API pre dokončenia četu, ako sú gpt-5.2, a GPT‑5.2 Instant ako gpt-5.2-chat-latest. GPT‑5.2 Pro je dostupný v&nbspAPI Responses ako gpt-5.2-pro. Vývojári môžu teraz nastaviť parameter uvažovania v GPT‑5.2 Pro. V GPT‑5.2 Pro aj v GPT‑5.2 Thinking je teraz podporované nové úsilie o myslenie piatej generácie pre úlohy, v ktorých je kvalita najdôležitejšia.

GPT‑5.2 stojí 1,75 USD za 1 milión vstupných tokenov a 14 USD za 1 milión výstupných tokenov, s 90 % zľavou na uložené vstupy. Na viacerých agentických hodnoteniach sme zistili, že napriek schopnostiam GPT‑5.2 vyššia cena za token, náklady na dosiahnutie určitej úrovne kvality sa ukázali byť nižšie vďaka väčšej efektivite tokenov GPT‑5.2.

Zatiaľ čo ceny predplatného ChatGPT zostávajú rovnaké, v API je GPT‑5.2 drahší za token ako GPT‑5.1, pretože je to schopnejší model. Stále je cenovo nižší ako iné pokročilé modely, takže ľudia môžu pokračovať v jeho hlbokom využívaní pri svojej každodennej práci a základných aplikáciách

Cena za milión tokenov

Model

Vstup

Vstup uložený do vyrovnávacej pamäte

Výstup

gpt-5.2 / gpt-5.2-chat-latest

1,75 USD

0,175 USD

$14

gpt-5.2-pro

21 USD

-

$168

gpt-5.1 / gpt-5.1-chat-latest

$1,25

0,125 USD

10 USD

gpt-5-pro

15 USD

-

$120

Momentálne neplánujeme ukončenie podpory GPT‑5.1, GPT‑5, alebo GPT‑4.1 v API a oznámime akékoľvek tarify na ukončenie podpory s dostatočným predstihom pre vývojárov. Hoci GPT‑5.2 bude dobre fungovať hneď po vybalení v Codexe, očakávame, že v najbližších týždňoch vydáme verziu GPT‑5.2 optimalizovanú pre Codex.

Naši partneri

GPT‑5.2 bol vytvorený v spolupráci s našimi dlhodobými partnermi NVIDIA a Microsoft. Dátové centrá Azure a grafické procesory NVIDIA, vrátane H100, H200 a GB200-NVL72, sú základom rozsiahlej tréningovej infraštruktúry OpenAI, čo vedie k významným zlepšeniam v inteligencii modelu. Spoločne nám táto spolupráca umožňuje s istotou škálovať výpočtový výkon a rýchlejšie uvádzať nové modely na trh.

Príloha

Podrobné benchmarky

Nižšie uvádzame komplexné výsledky benchmarkových testov pre GPT‑5.2 Thinking, spolu s podmnožinou pre GPT‑5.2 Pro.

Professional
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
Programovanie
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
Faktickosť
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
Dlhý kontext
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
Vízia
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
Používanie nástroja
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
Akademický
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
Abstraktné myslenie
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

Modely boli spustené s maximálnym dostupným úsilím na uvažovanie v našom API (xhigh pre GPT‑5.2). Thinking a Pro a vysoké pre GPT‑5.1 Thinking), okrem profesionálnych hodnotení, kde GPT‑5.2 Thinking bolo spustené s vysokou úrovňou náročnosti uvažovania, maximálnou dostupnou v ChatGPT Pro. Benchmarky boli vykonané vo výskumnom prostredí, čo môže v niektorých prípadoch poskytnúť mierne odlišný výstup od produkčného ChatGPT.

* Pre SWE-Lancer vynechávame 40/237 problémov, ktoré nebolo možné spustiť na našej infraštruktúre.

Autor

OpenAI