Přeskoč na hlavní obsah
OpenAI

19. listopadu 2025

ProduktVydání

Větší možnosti s GPT‑5.1‑Codex‑Max

Načítání…

Úvod

Představujeme GPT‑5.1‑Codex‑Max, náš nový hraniční agentní model kódování, který je dnes k dispozici v Codexu.  GPT‑5.1‑Codex‑Max je postaven na aktualizaci našeho základního modelu odůvodňování, který je trénován na agentních úkolech napříč softwarovým inženýrstvím, matematikou, výzkumem a dalšími oblastmi. GPT‑5.1‑Codex‑Max je rychlejší, inteligentnější a efektivnější v počtu tokenů v každé fázi vývojového cyklu – a je to nový krok k tomu, aby se stal spolehlivým partnerem pro kódování.

GPT‑5.1‑Codex‑Max je navržen pro dlouhodobou a podrobnou práci. Je to náš první model nativně vytrénovaný k provozu napříč více kontextovými okny prostřednictvím procesu zvaného kompakce, který koherentně zpracovává miliony tokenů v rámci jediné úlohy. To odemyká refaktoringy na úrovni projektu, hluboké ladicí relace a vícehodinové smyčky agentů.

GPT‑5.1‑Codex‑Max je dnes dostupný v Codexu pro použití v CLI, rozšíření IDE, cloudu a kontrole kódu, a brzy bude dostupný přístup k API.

Schopnosti kódování hranic

GPT‑5.1‑Codex‑Max byl trénován na reálných úkolech softwarového inženýrství, jako je tvorba PR, kontrola kódu, frontendové kódování a otázky a odpovědi, a v mnoha hodnoceních pokročilého kódování překonává naše předchozí modely. Zlepšení modelu v benchmarkových testech jsou doprovázeny také vylepšeními v reálném použití: GPT‑5.1‑Codex‑Max je první model, který jsme vytrénovali pro provoz v prostředí Windows, a jeho trénink nyní zahrnuje úkoly, které mají za cíl zlepšit jeho spolupráci v Codex CLI.

* Všechna hodnocení byla provedena s povolenou kompakcí při extra vysokém úsilí při odůvodňování
* Terminal-Bench2.0 běžel s Codex CLI v rámci
Laude Institute Harbor harness(otevře se v novém okně)

Rychlost a cena

GPT‑5.1‑Codex‑Max vykazuje významné zlepšení efektivity tokenů díky efektivnějšímu odůvodňování. Na SWE-bench Verified, GPT‑5.1‑Codex‑Max s „průměrným“ úsilím při odůvodňování dosahuje lepšího výkonu než GPT‑5.1‑Codex se stejným úsilím při odůvodňování, při použití o 30 % méně myšlenkových tokenů. Pro úkoly necitlivé na latenci také zavádíme nový režim odůvodňování Extra High („xhigh“), který odůvodňuje ještě delší dobu pro lepší odpověď. Stále doporučujeme střední úroveň jako každodenní volbu pro většinu úkolů.

Očekáváme, že zlepšení efektivity tokenů se promítnou do reálných úspor pro vývojáře.

Například GPT‑5.1‑Codex‑Max dokáže vytvořit vysoce kvalitní návrhy frontendů s podobnou funkčností a estetikou, ale za mnohem nižší cenu než GPT‑5.1‑Codex.

Prompt: Vygeneruj jednu samostatnou aplikaci prohlížeče, která vykresluje interaktivní sandbox CartPole RL s grafikou na canvasu, malým ovladačem gradientu politik, metrikami a vizualizérem sítě SVG.

Funkce

  • Musí být schopen skutečně trénovat politiku, aby se model zlepšil v úloze CartPole
  • Vizualizér pro aktivace/váhy, když je model ve fázi trénování nebo inferenci
  • Kroky v epizodě, odměny v této epizodě
  • Poslední doba přežití a nejlepší doba přežití v krocích

Uložit do index.html

Dlouhotrvající úkoly

Kompakce povoluje GPT‑5.1‑Codex‑Max dokončit úkoly, které by dříve selhaly kvůli omezením kontextového okna, jako jsou složité refaktoringy a dlouhotrvající agentní smyčky, tím, že ořezává svou historii a zároveň zachovává nejdůležitější kontext na dlouhé časové úseky. V aplikacích Codex, GPT‑5.1‑Codex‑Max automaticky zkompaktní svou relaci, když se blíží k limitu kontextového okna, čímž mu poskytne nové kontextové okno. Opakuje tento proces, dokud není úkol dokončen.

Schopnost udržet soudržnou práci po dlouhou dobu je základní schopností na cestě k obecnějším a spolehlivějším systémům AI. GPT‑5.1‑Codex‑Max dokáže pracovat samostatně celé hodiny v kuse. V našich interních hodnoceních jsme pozorovali GPT‑5.1‑Codex‑Max pracuj na úkolech déle než 24 hodin. Bude neustále iterovat na své implementaci, opravovat selhání testů a nakonec doručí úspěšný výsledek.

V tomto příkladu GPT‑5.1‑Codex‑Max nezávisle refaktoruje open source repozitář Codex CLI.

Jak se délka relace blíží kontextovému oknu modelu, automaticky se zkompaktní, aby se uvolnilo místo pro pokračování v úkolu bez ztráty postupu.

Video bylo pro lepší srozumitelnost oříznuto a zrychleno.

Vytváření bezpečných a důvěryhodných AI agentů

GPT‑5.1‑Codex‑Max dosahuje výrazně lepších výsledků v hodnoceních, která vyžadují trvalé, dlouhodobé odůvodňování. Protože model může koherentně pracovat napříč více kontextovými okny pomocí kompakce, přináší lepší výsledky při řešení výzev v oblastech, jako je dlouhodobé kódování a kybernetická bezpečnost. Analyzovali jsme výsledky výkonu tohoto modelu na základě hodnocení první a třetí strany v GPT‑5.1‑Codex‑Max systémová karta.

GPT‑5.1‑Codex‑Max nedosahuje vysoké úrovně schopností v oblasti kybernetické bezpečnosti podle našeho rámce připravenosti, ale je to dosud nejschopnější model kybernetické bezpečnosti, který jsme nasadili, a agentické kybernetické schopnosti se rychle vyvíjejí. V důsledku toho podnikáme kroky k přípravě na vysokou úroveň schopností v oblasti kybernetické bezpečnosti, zlepšujeme naše ochranná opatření v kybernetické doméně a pracujeme na tom, abychom zajistili, že obránci mohou těžit z těchto vylepšených schopností prostřednictvím programů, jako je Aardvark.

Když jsme spustili GPT‑5‑Codex, zavedli jsme specializovaný monitoring zaměřený na kybernetickou bezpečnost, abychom odhalili a narušili škodlivou činnost. I když jsme nezaznamenali významný nárůst zneužívání ve velkém měřítku, připravujeme další zmírňující opatření pro pokročilé schopnosti. Naše týmy již narušily kybernetické operace, které se pokoušely zneužít naše modely, a podezřelá aktivita je směrována ke kontrole prostřednictvím našich systémů pro monitorování zásad.

Codex je ve výchozím nastavení navržen tak, aby běžel v zabezpečeném sandboxu: zápisy souborů jsou omezeny na jeho pracovní prostor a přístup k síti je vypnutý, pokud ho vývojář nezapne. Doporučujeme ponechat Codex v tomto režimu omezeného přístupu, protože povolení internetového nebo webového vyhledávání může přinést rizika injektáže promptu z nedůvěryhodného obsahu.

Jak se Codex stává schopnějším pro dlouhodobé úkoly, je stále důležitější, aby vývojáři před úpravami nebo nasazením do produkce zkontrolovali práci agenta. Aby s tím Codex pomohl, vytváří protokoly terminálu a uvádí volání nástrojů a výsledky testů. Ačkoli kontroly kódu snižují riziko nasazení chyb modelu a chyb způsobených člověkem do produkce, Codex by měl být považován za dalšího recenzenta, nikoli za náhradu lidských kontrol.

Kybernetické bezpečnostní schopnosti lze využít jak pro obranu, tak pro útok, proto přistupujeme k iterativnímu nasazení: učíme se z reálného použití, aktualizujeme bezpečnostní opatření a uchováváme důležité obranné nástroje, jako je automatizované skenování zranitelností a pomoc při nápravě.

Dostupnost

GPT‑5.1‑Codex‑Max je dostupný v Codexu s plány ChatGPT Plus, Pro, Business, Edu a Enterprise. Podrobnosti o tom, jak fungují limity používání pro tvůj plán, nalezneš v naší dokumentaci(otevře se v novém okně).

Pro vývojáře používající Codex CLI přes API klíč plánujeme brzy zpřístupnit GPT‑5.1‑Codex‑Max v API.

Od dnešního dne nahradí GPT‑5.1‑Codex‑Max model GPT‑5.1‑Codex jako výchozí model v rozhraní Codex. Na rozdíl od GPT‑5.1, který je univerzální model, doporučujeme používat GPT‑5.1‑Codex‑Max a rodina modelů Codex pouze pro úkoly agentického kódování v prostředích Codex nebo podobných Codexu.

Závěr

GPT‑5.1‑Codex‑Max ukazuje, jak daleko se modely dostaly v udržování dlouhodobých kódovacích úkolů, správě složitých pracovních postupů a produkci vysoce kvalitních implementací s mnohem menším počtem tokenů. Zjistili jsme, že kombinace tohoto modelu s pravidelnými aktualizacemi našeho CLI, rozšíření IDE, integrace cloudu a nástrojů pro kontrolu kódu vede k výrazně vyšší produktivitě inženýrů: interně používá Codex každý týden 95 % inženýrů OpenAI a od zavedení Codexu tito inženýři odesílají přibližně o 70 % více žádostí o změny. Jak posouváme hranice toho, co agenti dokážou, těšíme se, co s nimi vytvoříš.

Dodatek: Hodnocení modelů

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Ověřeno (n=500)

73,7 %

77,9 %

SWE-Lancer IC SWE

66,3 %

79,9%

Terminal-Bench 2.0

52,8 %

58,1 %

Autor

OpenAI