Představujeme GPT‑5.3‑Codex
Rozšiřujeme Codex napříč celým spektrem profesionální práce na počítači.
Představujeme nový model, který zpřístupňuje ještě více z toho, co Codex dokáže: GPT‑5.3‑Codex, dosud nejschopnější model agentského kódování. Model dosahuje jak výkonnosti hraničního kódování GPT‑5.2‑Codex, tak schopnosti uvažování a odborných znalostí GPT‑5.2, a to společně v jednom modelu, který je navíc o 25 % rychlejší. To mu umožňuje převzít dlouhodobé úkoly, které zahrnují výzkum, používání nástrojů a složité spouštění. Podobně jako kolegu můžeš GPT‑5.3‑Codex řídit a komunikovat s ním během práce bez ztráty kontextu.
GPT‑5.3‑Codex je náš první model, který hrál klíčovou roli na svém vlastním vzniku. Tým Codex používal první verze k ladění vlastního trénování, správě vlastního nasazení a diagnostice výsledků testů a hodnocení – náš tým byl ohromen tím, jak moc dokázal Codex urychlit svůj vlastní vývoj.
V podobě GPT‑5.3‑Codex se Codex mění z agenta, který umí psát a kontrolovat kód, na agenta, který dokáže na počítači dělat téměř cokoli, co umí vývojáři a profesionálové.
GPT‑5.3‑Codex dosáhl nového oborového maxima v testech SWE-Bench Pro a Terminal-Bench a vykazuje vysoký výkon v testech OSWorld a GDPval, což jsou čtyři benchmarky, které používáme k měření kódovacích, agentských a reálných schopností.
GPT‑5.3‑Codex dosahuje špičkového výkonu v testu SWE-Bench Pro, který je přísným hodnocením reálného softwarového vývoje. Na rozdíl od SWE‑bench Verified, který testuje pouze Python, SWE‑Bench Pro zahrnuje čtyři jazyky a je odolnější vůči kontaminaci, náročnější, rozmanitější a relevantnější pro obor. Také výrazně překonává předchozí špičkový výkon v testu Terminal-Bench 2.0, který měří dovednosti s terminálem, které kódovací agent, jako je Codex, potřebuje. GPT‑5.3‑Codex to navíc zvládá s menším počtem tokenů než jakýkoli předchozí model, což uživatelům umožňuje vytvářet více.
Kombinací hraničních kódovacích schopností, vylepšením estetiky a kompakcí vznikl model, který dokáže odvést pozoruhodnou práci a během několika dní vytvořit vysoce funkční komplexní hry a aplikace od nuly. Abychom otestovali schopnosti modelu pro vývoj webových stránek a dlouhodobé agentské schopnosti, požádali jsme GPT‑5.3‑Codex, aby nám vytvořil dvě hry: druhou verzi závodní hry z uvedení aplikace Codex a hru o potápění. Pomocí dovednosti vyvíjet webovou hru a předem vybraných obecných následných promptů, jako je „oprav chybu“ nebo „vylepši hru“, GPT‑5.3‑Codex iteroval na hrách autonomně přes miliony tokenů. Podívej se na trailery a zahraj si hry, a přesvědč se tak, co Codex dokáže.
Závodní hra s různými závodníky, osmi mapami, a dokonce i předměty, které můžeš používat pomocí mezerníku. Tady si ji můžeš vyzkoušet zahrát(otevře se v novém okně)!
Potápěčská hra, ve které prozkoumáváš různé útesy, sbíráte je všechny a doplňuješ svůj rybí kodex, a přitom si dáváš pozor na kyslík, tlak a nebezpečí. Tady si ji můžeš vyzkoušet zahrát(otevře se v novém okně)!
GPT‑5.3‑Codex také ve srovnání s GPT‑5.2‑Codex lépe rozumí tvému záměru, když ho požádáš o vytvoření každodenních webů. Jednoduché nebo nedostatečně specifikované prompty teď jako výchozí vytvoří weby s více funkcemi a rozumným výchozím nastavením, což ti dává silnější výchozí stav pro realizaci nápadů.
Například jsme GPT‑5.3‑Codex a GPT‑5.2‑Codex požádali, aby vytvořily dvě níže uvedené vstupní stránky. GPT‑5.3‑Codex automaticky zobrazoval roční plán jako zvýhodněnou měsíční cenu, takže sleva byla jasná a záměrná, místo aby se násobila celková roční cena. Vytvořil také automaticky přecházející karusel referencí se citacemi tří různých uživatelů namísto jednoho, což vedlo k tomu, že stránka působí ve výchozím nastavení uceleněji a připraveněji do produkce.
Prompt: Vytvoř vstupní stránku pro Quiet KPI, týdenní přehled metrik, který je vhodný pro zakladatele. Estetika je jemná SaaS, lesklé karty, přechod od levandulové k modré, jemné rozostření. Sekce, hlavní obrázek se zachycením e-mailu, tabulka s ukázkovými přehledy, řádek integrací, karusel s referencemi, přepínání mezi měsíčními a ročními cenami, časté otázky, patička.
– Písmo Satoshi nebo podobné geometrické bezpatkové písmo.
– Tlačítka s jemně zaoblenými rohy, poloměr 14px, výrazné stavy zaostření.
– Přidej jedno vkusné odhalení při posouvání.
Softwaroví vývojáři, návrháři, produktoví manažeři a datoví vědci dokážou mnohem víc než jen generování kódu. Model GPT‑5.3‑Codex je vytvořen tak, aby podporoval všechny práce v životním cyklu softwaru – ladění, nasazení, monitorování, psaní PRD, úpravy kopií, průzkum uživatelů, testy, metriky a další. Její agentské schopnosti přesahují rámec softwaru a pomohou ti vytvořit cokoli, co chceš – ať už jde o prezentace nebo analýzu dat v tabulkách.
Díky vlastním dovednostem podobným těm, které jsme použili v předchozích výsledcích GDPval, vykazuje GPT‑5.3‑Codex také vysoký výkon v oblasti odborných znalostí měřených pomocí GDPval, ve kterém se vyrovná GPT‑5.2. GDPval je hodnocení OpenAI uvedené v roce 2025, které měří výkonnost modelu v přesně specifikovaných znalostních úlohách ve 44 profesích. Tyto úkoly zahrnují například vytváření prezentací, tabulek a dalších pracovních výstupů.
Níže je uvedeno několik příkladů práce, kterou agent vytvořil.
prompt + kontext úkolu
GPT-5.3-Codex output

OSWorld je agentský benchmark používání počítače, kde agent musí vykonat produktivní úkoly ve vizuálním desktopovém prostředí. GPT‑5.3‑Codex vykazuje mnohem lepší schopnosti používání počítače než předchozí modely GPT.
V OSWorld-Verified používají modely k plnění různých počítačových úloh zrak. Lidé dosahují skóre ~72 %.
Tyto výsledky napříč kódováním, frontendem a používáním počítače a reálnými úlohami společně ukazují, že GPT‑5.3‑Codex není lepší jen v jednotlivých úkolech, ale představuje krok směrem k jedinému univerzálnímu agentovi, který dokáže uvažovat, vytvářet a provádět celou škálu reálných technických činností.
S rostoucími dovednostmi modelů se rozdíl přesouvá od toho, co jsou agenti schopni dělat, k tomu, jak snadno může člověk komunikovat s mnoha z nich, řídit je a dohlížet na ně, když pracují paralelně. Aplikace Codex výrazně usnadňuje správu a řízení agentů a s GPT‑5.3‑Codex je teď interaktivnější. Díky novému modelu poskytuje Codex časté aktualizace, takže budeš mít přehled o klíčových rozhodnutích a pokroku v průběhu práce. Místo čekání na konečný výstup můžeš komunikovat v reálném čase – klást otázky, diskutovat o přístupech a směrovat k řešení. GPT‑5.3‑Codex vysvětluje, co dělá, reaguje na zpětnou vazbu a udržuje tě v obraze od začátku do konce.
Povol řízení, zatímco model pracuje v aplikaci v Nastavení > Obecné > Chování při následných krocích.
Nedávná rychlá vylepšení modelu Codex vycházejí z výsledků výzkumných projektů, které probíhaly několik měsíců nebo let v rámci celého systému OpenAI. Codex tyto výzkumné projekty urychluje a mnozí výzkumníci a technici v OpenAI popisují, že jejich práce se dnes zásadně liší od té, kterou vykonávali před pouhými dvěma měsíci. Dokonce i rané verze modelu GPT‑5.3‑Codex prokázaly výjimečné schopnosti, což našemu týmu umožnilo pracovat s těmito staršími verzemi, zlepšit trénování a podpořit nasazení novějších verzí.
Codex je užitečný pro velmi širokou škálu úkolů, takže je těžké vyjmenovat způsoby, jakými našim týmům pomáhá. Jako příklad lze uvést, že výzkumný tým použil Codex ke sledování a ladění běhu trénování pro tuto verzi. Urychlil výzkum nad rámec ladění problémů s infrastrukturou: pomohl sledovat vzory v průběhu trénování, poskytl hloubkovou analýzu kvality interakce, navrhl opravy a vytvořil bohaté aplikace pro lidské výzkumníky, aby přesně pochopili, jak se chování modelu liší ve srovnání s předchozími modely.
Tým vývojářů použil Codex k optimalizaci a úpravě mantinelů pro GPT‑5.3‑Codex. Když jsme začali pozorovat podivné okrajové případy, které ovlivňovaly uživatele, členové týmu použili Codex k identifikaci chyb vykreslování kontextu a příčin nízké míry zásahů do mezipaměti. GPT‑5.3‑Codex pomáhá týmu po celou dobu uvedení dynamickým škálováním clusterů GPU, aby se přizpůsobil nárazovému provozu a udržel stabilní latenci.
Během alfa testování chtěl jeden výzkumník zjistit, kolik dodatečné práce GPT‑5.3‑Codex zvládne najednou a k jakému rozdílu v produktivitě to vede. GPT‑5.3‑Codex vymyslel několik jednoduchých klasifikátorů v regulárních výrazech pro odhad četnosti objasnění, pozitivních a negativních reakcí uživatelů, postupu při řešení úkolu a poté je škálovatelně spustil nad všemi protokoly relací a vytvořil zprávu se závěry. Lidé, kteří tvořili s modelem Codex, byli spokojenější, protože agent lépe chápal jejich záměry a dosáhli většího pokroku najednou, s menším počtem vyjasňujících otázek.
Protože GPT‑5.3‑Codex se výrazně lišil od svých předchůdců, data z alfa testování vykazovala mnoho neobvyklých a protiintuitivních výsledků. Datový vědec v týmu pracoval s modelem GPT‑5.3‑Codex, aby vytvořil nové datové kanály a vizualizoval výsledky mnohem bohatěji, než umožňovaly naše standardní nástroje řídicích panelů. Výsledky byly společně analyzovány pomocí softwaru Codex, který stručně shrnul klíčové poznatky o tisících datových bodů za méně než tři minuty.
Všechny tyto úlohy jsou samy o sobě zajímavými příklady toho, jak může Codex pomoci výzkumníkům a tvůrcům produktů. Když to dáme dohromady, zjistili jsme, že tyto nové schopnosti vedly k výraznému zrychlení práce našich výzkumných, vývojářských a produktových týmů.
V posledních měsících jsme zaznamenali výrazné zvýšení výkonu modelů při řešení úloh kybernetické bezpečnosti, z čehož těží vývojáři i odborníci na zabezpečení. Současně připravujeme posílení kybernetických bezpečnostních opatření na podporu obranného využití a širší odolnosti ekosystému.
GPT‑5.3‑Codex je první model, který v rámci svého Rámce připravenosti klasifikujeme jako vysoce schopný pro úkoly související s kybernetickou bezpečností, a první, který jsme přímo trénovali k identifikaci softwarových zranitelností. I když nemáme jednoznačné důkazy, že dokáže automatizovat kybernetické útoky od začátku do konce, přistupujeme k tomu preventivně a nasazujeme naši dosud nejkomplexnější bezpečnostní sadu kybernetické bezpečnosti. Naše opatření na zmírnění dopadů zahrnují bezpečnostní školení, automatizované monitorování, důvěryhodný přístup k pokročilým funkcím a postupy vynucování včetně zpravodajských informací o hrozbách.
Protože kybernetická bezpečnost je ze své podstaty dvojího druhu, uplatňujeme opakující se přístup založený na důkazech, který urychluje schopnost obránců najít a opravit zranitelnosti a zároveň zpomaluje zneužití. V rámci toho spouštíme Důvěryhodný přístup pro kybernetickou obranu, pilotní program, který má za cíl urychlit výzkum kybernetické obrany.
Investujeme do ochranných opatření ekosystému, jako je rozšíření soukromé beta verze našeho bezpečnostního výzkumného agenta Aardvark, který je první nabídka v naší sadě produktů a nástrojů zabezpečení Codex, a spolupracujeme s vývojáři spravujícími open source projekty s cílem poskytnout bezplatné skenování kódové základny pro široce používané projekty, jako je Next.js – kde bezpečnostní výzkumník použil Codex k nalezení zranitelností, jak bylo informováno(otevře se v novém okně) minulý týden.
V návaznosti na grantový program kybernetické bezpečnosti ve výši 1 milionu dolarů, který jsme představili v roce 2023, vyčleňujeme také 10 milionů dolarů v kreditech na rozhraní API na urychlení kybernetické obrany pomocí našich nejschopnějších modelů, zejména pro software s otevřeným zdrojovým kódem a systémy kritické infrastruktury. Organizace, které se v dobré víře zabývají výzkumem zabezpečením, mohou požádat o kredity rozhraní API a podporu prostřednictvím našeho Grantového programu kybernetické bezpečnosti.
GPT‑5.3‑Codex je k dispozici s placenými plány ChatGPT, všude, kde můžeš používat Codex: v aplikaci, rozhraní příkazového řádku, rozšíření IDE a na webu. Pracujeme na tom, abychom brzy bezpečně zpřístupnili rozhraní API.
V rámci této aktualizace díky vylepšení naší infrastruktury a inferenčního zásobníku teď také GPT‑5.3‑Codex běží pro uživatele nástroje Codex o 25 % rychleji, což vede k rychlejší interakci a rychlejším výsledkům.
GPT‑5.3‑Codex byl navržen pro systémy NVIDIA GB200 NVL72, byl s nimi trénován a pracoval na nich. Za partnerství jsme společnosti NVIDIA vděční.
V podobě GPT‑5.3‑Codex se Codex posouvá od psaní kódu k použití jako nástroje pro ovládání počítače a provádění úkolů od začátku do konce. Tím, že posouváme hranice toho, co může kódovací agent dělat, také zpřístupňujeme širší třídu znalostní práce – od vytváření a nasazování softwaru až po výzkum, analýzu a provádění složitých úkolů. To, co začalo jako zaměření na nejlepšího kódovacího agenta, se stalo základem pro obecnější spolupráci na počítači, která rozšiřuje jak možnosti, kdo může tvořit, tak možnosti nástroje Codex.
GPT‑5.3‑Codex (xhigh) | GPT‑5.2‑Codex (xhigh) | GPT‑5.2 (xhigh) | |
SWE-Bench Pro (veřejná verze) | 56,8 % | 56,4 % | 55,6 % |
Terminal-Bench 2.0 | 77,3 % | 64,0 % | 62,2 % |
OSWorld-Verified | 64,7 % | 38,2 % | 37,9 % |
GDPval (výhry nebo remízy) | 70,9 % | - | 70,9 % (high) |
Hry boje o vlajku kybernetické bezpečnosti | 77,6 % | 67,4 % | 67,7 % |
SWE-lancer IC Diamond | 81,4 % | 76,0 % | 74,6 % |


