Přeskoč na hlavní obsah
OpenAI

11. prosince 2025

ProduktVydání

Představujeme GPT‑5.2

Náš nejpokročilejší model pro profesionální práci a dlouhodobé agenty.

Načítání…

Představujeme GPT‑5.2, dosud nejschopnější modelovou sérii pro profesionální znalostní práci.

Průměrný uživatel ChatGPT Enterprise již nyní uvádí, že mu AI ušetří 40–60 minut denně, a uživatelé užívající AI intenzivně uvádí, že jim ušetří více než 10 hodin týdně. Model GPT‑5.2 jsme navrhli, aby měl pro lidi ještě větší ekonomický přínos. Je lepší při vytváření tabulek, tvorbě prezentací, psaní kódu, rozpoznávání obrázků, porozumění dlouhým kontextům, používání nástrojů a zvládání složitých, vícestupňových projektů.

GPT‑5.2 stanovuje nový stav v mnoha srovnávacích testech, včetně GDPval, kde překonává profesionály z praxe v dobře specifikovaných znalostních pracovních úkolech zahrnujících 44 profesí.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (výhry nebo remízy)
Znalostní pracovní úkoly

70,9 %

38,8 % (GPT‑5)

SWE-Bench Pro (veřejné)
Softwarové inženýrství

55,6 %

50,8 %

SWE-bench Verified
Softwarové inženýrství

80,0 %

76,3 %

GPQA Diamond (bez nástrojů)
Vědecké otázky

92,4 %

88,1 %

CharXiv Reasoning (s Pythonem)
Otázky k vědeckým obrázkům

88,7 %

80,3 %

HMMT (únor 2025)
Matematická soutěž

99,4 %

96,3 %

FrontierMath (úroveň 1–3)
Pokročilá matematika

40,3 %

31,0 %

ARC-AGI-1 (ověřeno)
Abstraktní uvažování

86,2 %

72,8 %

ARC-AGI-2 (ověřeno)
Abstraktní myšlení

52,9 %

17,6 %

Společnosti Notion(otevře se v novém okně), Box(otevře se v novém okně), Shopify(otevře se v novém okně), Harvey(otevře se v novém okně) a Zoom(otevře se v novém okně) zjistily, že GPT‑5.2 nabízí špičkový výkon v dlouhodobém uvažování a volání nástrojů. Společnosti Databricks(otevře se v novém okně), Hex(otevře se v novém okně) a Triple Whale(otevře se v novém okně) zjistily, že GPT‑5.2 je výjimečný v úkolech datové vědy a při analýze dokumentů s využitím agentů. Společnosti Cognition(otevře se v novém okně), Warp(otevře se v novém okně), Charlie Labs(otevře se v novém okně), JetBrains(otevře se v novém okně) a Augment Code(otevře se v novém okně) uvádí, že GPT‑5.2 poskytuje špičkový výkon agenta v oblasti programování, s měřitelnými zlepšeními v oblastech, jako je interaktivní programování, kontrola kódu a hledání chyb.

V ChatGPT, GPT‑5.2 Verze Instant, Thinking a Pro se začnou zavádět dnes, počínaje placenými plány. V rozhraní API jsou nyní k dispozici všem vývojářům.

Celkově GPT‑5.2 přináší významná vylepšení v oblasti obecné inteligence, porozumění dlouhému kontextu, agentního volání nástrojů a vizuálního vnímání, což z něj činí lepší model pro provádění složitých, reálných úkolů od začátku do konce než jakýkoli předchozí model.

Výkon modelu

Ekonomicky hodnotné úkoly

GPT‑5.2 Thinking je dosud nejlepší model pro reálné profesionální použití. V rámci hodnocení GDPval, které měří dobře specifikované úkoly znalostní práce napříč 44 povoláními, zaznamenal model GPT‑5.2. Thinking nový špičkový výsledek a je naším prvním modelem, který dosahuje nebo překonává úroveň lidského odborníka. Model GPT‑5.2 Thinking podle odborných lidských hodnotitelů konkrétně překonává nebo se vyrovná špičkovým profesionálům v oboru v 70,9 % srovnání u úloh znalostní práce podle benchmarku GDPval. Tyto úkoly zahrnují vytváření prezentací, tabulek a dalších artefaktů. Model GPT‑5.2 Thinking produkoval výstupy pro úkoly GDPval s více než 11násobnou rychlostí a za méně než 1 % nákladů na odborníky. To naznačuje, že ve spojení s lidským dohledem může GPT‑5.2 pomoci s odbornou prací. Odhady rychlosti a nákladů jsou založeny na historických metrikách; rychlost v ChatGPT se může lišit.

V GDPval se modely snaží o dobře specifikovanou práci se znalostmi, která pokrývá 44 povolání z 9 hlavních odvětví přispívajících k HDP USA. Úkoly vyžadují skutečné pracovní produkty, jako jsou prodejní prezentace, účetní tabulky, rozvrhy urgentní péče, výrobní diagramy nebo krátká videa. V ChatGPT, GPT‑5.2 Thinking nové nástroje, které GPT‑5 Thinking nemá.

Při hodnocení jednoho obzvláště dobrého výstupu jeden hodnotitel GDPval poznamenal: „Je to vzrušující a znatelný skok v kvalitě výstupu... [zdá se], že to bylo provedeno profesionální společností se zaměstnanci a má to překvapivě dobře navržené rozvržení a rady pro obě dodávky, i když u jedné z nich máme stále nějaké drobné chyby k opravě.“

Navíc, v našem interním srovnávacím testu úkolů modelování tabulek pro juniorní analytiky investičního bankovnictví – jako je sestavení třívýkazového modelu pro společnost Fortune 500 se správným formátováním a citacemi, nebo vytvoření modelu pákového odkupu pro privatizaci – je průměrné skóre GPT 5.2 Thinking na úkol o 9,3 % vyšší než u GPT‑5.1 a zvýšilo se z 59,1 % na 68,4 %.

Přímé srovnání vykazují vyšší úroveň propracovanosti a formátování v tabulkách a prezentacích vytvořených GPT‑5.2 Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Výzva: Vytvořte model plánování pracovních sil: počet zaměstnanců, plán náboru, úbytek a dopad na rozpočet. Zahrň technické, marketingové, právní a obchodní oddělení.

Pokud chceš používat nové funkce tabulek a prezentací v ChatGPT, musíš mít placený plán a zvolit buď GPT‑5.2 Thinking nebo Pro. Složité generování může trvat mnoho minut.

Programování

GPT‑5.2 Thinking dosahuje nové špičkové úrovně 55,6 % v testu SWE-Bench Pro, což je přísné hodnocení reálného softwarového inženýrství. Na rozdíl od SWE-bench Verified, který testuje pouze Python, testuje SWE-Bench Pro čtyři jazyky a snaží se být odolnější vůči kontaminaci, náročnější, rozmanitější a průmyslově relevantnější.

V SWE-bench Pro(otevře se v novém okně), model dostane repozitář kódu a musí vytvořit patch k vyřešení realistického úkolu softwarového inženýrství.

V testu SWE-bench Verified (není zobrazeno), GPT‑5.2 Thinking dosahuje našeho nového rekordu 80 %.

Pro každodenní profesionální použití to znamená model, který dokáže spolehlivěji ladit produkční kód, implementovat požadavky na funkce, refaktorovat rozsáhlé kódové základny a doručovat opravy od začátku do konce s menším množstvím ručního zásahu.

GPT‑5.2 Thinking je také lepší ve front-end softwarovém inženýrství než GPT‑5.1 Thinking. Raní testeři zjistili, že je výrazně silnější ve front-endovém vývoji a složité nebo nekonvenční práci s uživatelským rozhraním – zejména při práci s 3D prvky – což z něj činí výkonného každodenního partnera pro inženýry napříč celým stackem. Podívejte se na několik příkladů toho, co dokáže vytvořit na základě jediného promptu:

Prompt: Vytvoř jednostránkovou aplikaci v jediném souboru HTML s následujícími požadavky:
- Název: Simulace mořských vln
- Cíl: Zobrazit realistické animované vlny.
- Funkce: Změna rychlosti větru, výšky vln, osvětlení.
- Uživatelské rozhraní by mělo být uklidňující a realistické.

První testeři se podělili o zpětnou vazbu ohledně programovacích schopností GPT‑5.2:

„GPT-5.2 představuje největší skok pro modely GPT v kódování agentů od GPT-5 a je špičkovým kódovacím modelem ve své cenové kategorii. Posun verze vůbec nevystihuje, jaký skok v inteligenci to představuje. Jsme nadšení, že model nastavíme jako výchozí pro Windsurf a několik klíčových pracovních procesů Devin.“
Jeff Wang, generální ředitel, Windsurf

Věcná správnost

GPT‑5.2 Thinking halucinuje méně než GPT‑5.1 Thinking. Na souboru de-identifikovaných dotazů z ChatGPT byly odpovědi s chybami o 38 %rel méně časté. Pro profesionály to znamená méně chyb při používání modelu pro výzkum, psaní, analýzu a podporu rozhodování, což činí model spolehlivějším pro každodenní práci se znalostmi.

Úroveň uvažování byla nastavena na maximální dostupný stupeň a nástroj pro vyhledávání byl povolen. Chyby byly zjištěny jinými modely, které samy mohou dělat chyby. Míry chyb na úrovni tvrzení jsou mnohem nižší než míry chyb na úrovni odpovědí, protože většina odpovědí obsahuje mnoho tvrzení.

Jako všechny modely, GPT‑5.2 Thinking není dokonalý. U čehokoli kritického dvakrát zkontrolujte jeho odpovědi.

Dlouhý kontext

GPT‑5.2 Thinking nastavuje nový stav vývoje techniky v oblasti uvažování s dlouhým kontextem, dosahuje špičkového výkonu v hodnocení OpenAI MRCRv2, které testuje schopnost modelu integrovat informace rozptýlené v dlouhých dokumentech. V reálných úlohách, jako je hluboká analýza dokumentů, které vyžadují související informace o stovkách tisíc tokenů, je GPT‑5.2 Thinking podstatně přesnější než GPT‑5.1 Thinking. Zejména je to první model, u něhož jsme zaznamenali téměř 100% přesnost u varianty 4-jehlového MRCR (až do 256 tisíc tokenů).

V praxi to umožňuje profesionálům používat GPT‑5.2 k práci s dlouhými dokumenty, jako jsou zprávy, smlouvy, výzkumné práce, přepisy a projekty s více soubory, a přitom zachovat soudržnost a přesnost ve stovkách tisíc tokenů. Díky tomu je GPT‑5.2 obzvláště vhodný pro hloubkovou analýzu, syntézu a složité pracovní postupy s více zdroji.

Ve OpenAI-MRCR⁠(otevře se v novém okně) v2 (vícekolové rozlišení koreferencí) se více identických uživatelských požadavků typu „jehla“ vkládá do dlouhých „kupek sena“ podobných požadavků a odpovědí a model je požádán, aby reprodukoval odpověď na n-tou jehlu. Verze 2 hodnocení opravuje ~5 % úkolů, které měly nesprávné hodnoty pravdy. Průměrný poměr shody měří průměrnou shodu řetězců mezi odpovědí modelu a správnou odpovědí. Body při maximálně 256k vstupních tokenech představují průměry přes 128k–256k vstupních tokenů a tak dále. Zde 256k představuje 256 * 1 024 = 262 144 tokenů. Úroveň uvažování byla nastavena na maximální dostupný stupeň.

Pro úlohy, u nichž je výhodné uvažovat nad rámec maximálního kontextového okna, je GPT‑5.2 Thinking kompatibilní s naším novým koncovým bodem Responses /compact, který rozšiřuje efektivní kontextové okno modelu. To umožňuje modelu GPT‑5.2 Thinking řešit pracovní postupy, které jsou více nástrojově náročné a dlouhotrvající, a které by jinak byly omezeny délkou kontextu. Přečti si více v naší dokumentaci k API(otevře se v novém okně).

Vize

GPT‑5.2 Thinking je náš dosud nejsilnější model pro vizuální zpracování, který zhruba na polovinu snižuje chybovost při uvažování nad grafy a porozumění softwarovým rozhraním.

Pro každodenní profesionální použití to znamená, že model může přesněji interpretovat řídicí panely, snímky produktů, technické diagramy a vizuální zprávy, což podporuje pracovní postupy ve financích, provozu, inženýrství, designu a zákaznické podpoře, kde jsou vizuální informace klíčové.

V CharXiv Reasoning(otevře se v novém okně) modely odpovídají na otázky týkající se vizuálních grafů z vědeckých článků. Byl povolen nástroj Python a úroveň uvažování byla nastavena na maximum.

V ScreenSpot-Pro(otevře se v novém okně) musí modely uvažovat na základě snímků obrazovky s vysokým rozlišením z grafických uživatelských rozhraní z různých profesionálních prostředí. Byl povolen nástroj Python a úroveň uvažování byla nastaveno na maximum. Bez nástroje Python jsou výsledky mnohem nižší. Doporučujeme povolit nástroj Python u vizuálních úkolů, jako jsou tyto.

Ve srovnání s předchozími modely dokáže GPT‑5.2 Thinking lépe pochopit, jak jsou prvky umístěny v obrázku, což pomáhá při úkolech, kde při řešení problému hraje klíčovou roli relativní rozložení. V níže uvedeném příkladu požádáme model, aby identifikoval komponenty na vstupním obrázku (v tomto případě základní desku) a vrátil štítky s přibližnými ohraničujícími rámečky. Dokonce i na snímku nízké kvality rozpozná GPT‑5.2 hlavní oblasti a umístí rámečky, které zhruba odpovídají skutečnému umístění jednotlivých součástí, zatímco GPT‑5.1 označí pouze několik částí a vykazuje mnohem slabší porozumění jejich prostorovému uspořádání.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

Volání nástroje

GPT‑5.2 Thinking dosahuje nové špičkové úrovně 98,7 % v testu Tau2-bench Telecom, což dokazuje jeho schopnost spolehlivě používat nástroje v dlouhých, vícekrokových úkolech.

V případech použití citlivých na latenci podává GPT‑5.2 Thinking mnohem lepší výkon v odůvodňování. effort='none' a výrazně překonává GPT‑5.1 a GPT‑4.1.

V τ2-bench⁠(otevře se v novém okně) modely používají nástroje k dokončení úkolů zákaznické podpory v interakci na více tahů se simulovaným uživatelem. Pro telekomunikační doménu jsme do systémového promptu zahrnuli stručný, obecně užitečný pokyn ke zvýšení výkonu. Podmnožinu leteckých společností vylučujeme kvůli nižší kvalitě hodnocení pravdivosti.

Pro profesionály to znamená silnější end-to-end pracovní postupy – jako je řešení případů zákaznické podpory, získávání dat z více systémů, provádění analýz a vytváření konečných výstupů s menším počtem přerušení mezi jednotlivými kroky.

Například když položíte složitou otázku zákaznického servisu, která vyžaduje vícestupňové řešení, model může efektivněji koordinovat celý pracovní postup napříč více agenty. V níže uvedeném případě cestující hlásí zpožděný let, zmeškaný spoj, přenocování v New Yorku a požadavek na místo k sezení pro hendikepované. GPT‑5.2 spravuje celý řetězec úkolů – přeobjednání letu, místo se speciální asistencí a kompenzace – a poskytuje úplnější výsledek než GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

Věda a matematika

Jednou z našich nadějí pro umělou inteligenci je, že urychlí vědecký výzkum ve prospěch všech. Za tímto účelem jsme spolupracovali s vědci a naslouchali jim, abychom zjistili, jak může AI urychlit jejich práci, a minulý měsíc jsme zde sdíleli některé rané experimenty z této spolupráce.

Věříme, že GPT‑5.2 Pro a GPT‑5.2 Thinking jsou nejlepšími modely na světě pro asistenci a urychlení práce vědců. V benchmarku GPQA Diamond, který obsahuje otázky na úrovni postgraduálního studia, na něž není možné snadno vyhledat odpovědi na Googlu, GPT‑5.2 Pro dosahuje 93,2 %, těsně následován GPT‑5.2 Thinking s 92,4 %.

V GPQA Diamond(otevře se v novém okně) modely odpovídají na otázky s výběrem z více možností z fyziky, chemie a biologie. Žádné nástroje nebyly povoleny a úroveň uvažování byla nastavena na maximum.

Na FrontierMath (úroveň 1–3), hodnocení matematiky na úrovni experta, stanovil model GPT‑5.2 Thinking nový standard, když vyřešil 40,3 % problémů.

Ve FrontierMath(otevře se v novém okně) modely řeší matematické problémy na úrovni expertů. Nástroj Python byl povolen a úroveň uvažování byla nastavena na maximum.

Začínáme pozorovat, jak modely umělé inteligence konkrétními způsoby významně urychlují pokrok v matematice a vědě. Například v nedávné práci s GPT‑5.2 Pro, výzkumníci prozkoumali otevřenou otázku v rámci statistické teorie učení. V úzce vymezeném, dobře specifikovaném prostředí navrhl model důkaz, který byl následně ověřen autory a přezkoumán externími odborníky, a ukázal, jak mohou špičkové modely pod pečlivým lidským dohledem pomáhat matematickému výzkumu.

ARC-AGI 2

V benchmarku ARC-AGI-1 (Verified), který je určen k měření obecných schopností uvažování, je GPT‑5.2 prvním modelem, který překročil hranici 90 % a zlepšil se z loňských 87 % dosažených modelem o3‑preview. Náklady na dosažení tohoto výkonu se přitom snížily zhruba 390×.

V testu ARC-AGI-2 (Verified), který zvyšuje obtížnost a lépe izoluje plynulé uvažování, dosahuje GPT‑5.2 Thinking standardu pro modely s řetězci myšlenek, s výsledkem 52,9 %. Model GPT‑5.2 Pro dosahuje ještě vyšších výsledků, a to 54,2%, což dále rozšiřuje schopnost modelu uvažovat o nových, abstraktních problémech.

Zlepšení napříč těmito hodnoceními odrážejí silnější vícekrokové uvažování, větší kvantitativní přesnost a spolehlivější řešení problémů modelu GPT‑5.2 při složitých technických úkolech.

Tady je vyjádření našich prvních testerů k modelu GPT‑5.2:

„GPT-5.2 nám otevřelo kompletní změnu architektury. Zredukovali jsme křehký systém založený na více agentech na jednoho mega-agenta s více než 20 nástroji. Nejlepší na tom je, že to prostě funguje. Tento mega-agent je rychlejší, chytřejší a 100x snazší na údržbu. Vidíme dramaticky nižší latenci, mnohem silnější volání nástrojů a již nepotřebujeme rozsáhlé systémové prompty, protože model 5.2 se provede čistě z jednoduchého jednořádkového promptu. Působí to jako čisté kouzlo.“
AJ Orbach, generální ředitel, Triple Whale

GPT‑5.2 v ChatGPT

V ChatGPT by si uživatelé měli všimnout, že GPT‑5.2 je lepší při každodenním použití. Je strukturovanější, spolehlivější, a i tak se s ní příjemně mluví.

GPT‑5.2 Instant je rychlý a schopný nástroj pro každodenní práci a učení, s jasnými vylepšeními v otázkách zaměřených na vyhledávání informací, návodů a průvodců, technickém psaní a překladu, přičemž staví na vřelejším konverzačním tónu, který byl představen ve verzi GPT‑5.1 Instant. První testeři si všimli zejména jasnějších vysvětlení, která uvádí klíčové informace hned na začátku.

GPT‑5.2 Thinking je navržen pro hlubší práci, pomáhá uživatelům zvládat složitější úkoly s větší precizností – zejména při programování, shrnování dlouhých dokumentů, odpovídání na otázky o nahraných souborech, procházení matematických a logických úkolů krok za krokem a podpoře plánování a rozhodování s jasnější strukturou a užitečnějšími detaily.

GPT‑5.2 Pro je naše nejchytřejší a nejdůvěryhodnější volba pro obtížné otázky, kde se vyplatí počkat na kvalitnější odpověď, přičemž první testy ukazují méně závažných chyb a silnější výkon ve složitých oblastech, jako je programování.

Bezpečnost

GPT‑5.2 staví na výzkumu bezpečného dokončení, který jsme představili v GPT‑5, a učí model poskytovat co nejužitečnější odpověď, přičemž zůstává v bezpečných hranicích.

S touto verzí jsme pokračovali v práci na posílení reakcí našich modelů v citlivých konverzacích, s významnými vylepšeními v tom, jak reagují na prompty naznačující známky sebevraždy nebo sebepoškozování, duševní tísně nebo emocionální závislosti na modelu. Tyto cílené intervence vedly k menšímu počtu nežádoucích reakcí v verzí GPT‑5.2 Instant i GPT‑5.2 Thinking ve srovnání s modely GPT‑5.1 a GPT‑5 Instant a Thinking. Další informace najdeš na systémové kartě.

Jsme v raných fázích zavádění našeho modelu predikce věku, abychom mohli automaticky aplikovat ochranu obsahu pro uživatele mladší 18 let a omezili přístup k citlivému obsahu. Toto navazuje na náš stávající přístup k uživatelům, o kterých víme, že jsou mladší 18 let, a na naše rodičovské kontroly.

GPT‑5.2 je dalším krokem v probíhající sérii vylepšení a zdaleka nejsme u konce. Ačkoli toto vydání přináší významné pokroky v inteligenci a produktivitě, víme, že jsou oblasti, kde lidé chtějí víc. V ChatGPT pracujeme na známých problémech, jako je přehnané odmítání, a zároveň pokračujeme ve zvyšování laťky v oblasti bezpečnosti a spolehlivosti. Tyto změny jsou složité a soustředíme se na to, abychom je udělali správně.

Hodnocení duševního zdraví


GPT‑5.2
Instant

GPT‑5.1
Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

Duševní zdraví

0,995

0,883

0,915

0,684

Emocionální závislost

0.938

0,945

0,955

0,785

Sebepoškozování

0.938

0,925

0,963

0,937

Dostupnost a stanovení cen

V ChatGPT dnes začneme zavádět GPT‑5.2 (Instant, Thinking a Pro), počínaje placenými plány (Plus, Pro, Go, Business, Enterprise). Postupně nasazujeme GPT‑5.2, abychom udrželi ChatGPT co nejplynulejší a nejspolehlivější; pokud se vám nezobrazí hned, zkuste to prosím později. V ChatGPT bude model GPT‑5.1 stále k dispozici placeným uživatelům po dobu tří měsíců v rámci starších modelů, po kterých GPT‑5.1 ukončíme.

Názvy modelů napříč ChatGPT a rozhraním API

ChatGPT

ROZHRANÍ API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

Na naší platformě API je dnes GPT‑5.2 Thinking dostupný v rozhraní API Responses a v rozhraní API Chat Completions jako gpt-5.2 a GPT‑5.2 Instant jako gpt-5.2-chat-latest. Model GPT‑5.2 Pro je dostupný v rozhraní Responses API jako gpt-5.2-pro. Vývojáři nyní mohou nastavit parametr odůvodnění v GPT‑5.2 Pro a jak GPT‑5.2 Pro, tak GPT‑5.2 Thinking nyní podporují novou pátou generaci uvažování xhigh pro úkoly, kde jde především o kvalitu.

Cena GPT‑5.2 je stanovena na 1,75 USD/1M vstupních tokenů a 14 USD/1M výstupních tokenů, s 90% slevou na ukládané vstupy. Při několika hodnoceních agentů jsme zjistili, že navzdory vyšším nákladům na token u GPT‑5.2 se náklady na dosažení určité úrovně kvality ukázaly být díky větší efektivitě tokenů GPT‑5.2 jako nižší.

Zatímco stanovení cen předplatného ChatGPT zůstává stejné, v API je stanovení cen GPT‑5.2 vyšší za token než u GPT‑5.1, protože je to schopnější model. Stále je cenově pod úrovní jiných špičkových modelů, takže lidé ho mohou dál intenzivně využívat ve své každodenní práci a klíčových aplikacích.

Cena za milion tokenů

Model

Vstup

Vstup uložený do mezipaměti

Výstup

gpt-5.2 / gpt-5.2-chat-latest

1,75 USD

0,175 USD

14 USD

gpt-5.2-pro

21 USD

-

168 USD

gpt-5.1 / gpt-5.1-chat-latest

1,25 USD

0,125 USD

10 USD

gpt-5-pro

15 USD

-

120 USD

Momentálně nemáme žádné plány na vyřazení GPT‑5.1, GPT‑5, nebo GPT‑4.1 v API, a jakékoliv plány na vyřazení budou vývojářům oznámeny s dostatečným předstihem. I když GPT‑5.2 bude dobře fungovat v Codexu hned po nasazení, očekáváme, že v nadcházejících týdnech vydáme verzi GPT‑5.2 optimalizovanou pro Codex.

Naši partneři

GPT‑5.2 byl vytvořen ve spolupráci s našimi dlouhodobými partnery společnostmi NVIDIA a Microsoft. Datová centra Azure a GPU NVIDIA, včetně H100, H200 a GB200-NVL72, tvoří základ rozsáhlé školicí infrastruktury OpenAI, což vede k významným posunům v inteligenci modelů. Společně nám tato spolupráce umožňuje s jistotou škálovat výpočetní kapacity a rychleji uvádět nové modely na trh.

Příloha

Podrobné benchmarky

Níže uvádíme komplexní výsledky srovnání pro GPT‑5.2 Thinking, spolu s dílčí sadou pro GPT‑5.2 Pro.

Profesionální
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
Programování
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
Věcná správnost
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
Dlouhý kontext
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
Vize
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
Použití nástroje
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
Akademický
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
Abstraktní uvažování
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

Modely v našem rozhraní API byly spuštěny s maximální dostupnou hloubkou uvažování (velmi vysoké pro GPT‑5.2 Thinking & Pro a vysoké pro GPT‑5.1 Thinking), kromě profesionálních hodnocení, kde byl model GPT‑5.2 spuštěn s hloubkou uvažování náročné, což je maximum dostupné v ChatGPT Pro. Srovnávací testy byly provedeny ve výzkumném prostředí, které může v některých případech poskytovat mírně odlišné výstupy než ChatGPT v produkčním prostředí.

* V případě testů SWE-Lanceru vynecháváme 40/237 problémů, které nebyly spuštěny na naší infrastruktuře.

Autor

OpenAI