Predstavujeme GPT‑5.1‑Codex‑Max, náš nový špičkový agentský model kódovania, ktorý je dnes k dispozícii v softvéri Codex. GPT‑5.1‑Codex‑Max je založený na aktualizácii nášho základného modelu myslenia, ktorý je trénovaný na agentských úlohách v oblasti softvérového inžinierstva, matematiky, výskumu a ďalších. GPT‑5.1‑Codex‑Max je rýchlejší, inteligentnejší a efektívnejší v práci s tokenmi v každom štádiu vývojového cyklu – a predstavuje nový krok k tomu, aby sa stal spoľahlivým partnerom pri programovaní.
GPT‑5.1‑Codex‑Max je navrhnutý pre dlhodobú a detailnú prácu. Je to náš prvý model natívne natrénovaný na prevádzku vo viacerých kontextových oknách prostredníctvom procesu nazývaného kompakcia, ktorý koherentne spracováva milióny tokenov v rámci jednej úlohy. Toto odomyká refaktory na úrovni projektu, hlboké relácie ladenia a viachodinové cykly agentov.
GPT‑5.1‑Codex‑Max je dnes dostupný v softvéri Codex na použitie v CLI, rozšírení IDE, na cloude a pri kontrole kódu, pričom čoskoro bude k dispozícii prístup k rozhraniu API.
GPT‑5.1‑Codex‑Max bol trénovaný na reálnych úlohách v oblasti softvérového inžinierstva, ako je tvorba PR, kontrola kódu, frontendové kódovanie a často kladené otázky, a prekonáva naše predchádzajúce modely v mnohých hodnoteniach špičkového kódovania. Zisky modelu na referenčných hodnotách sprevádzajú aj zlepšenia reálneho používania: GPT‑5.1‑Codex‑Max je prvý model, ktorý sme vytrénovali na prácu v prostrediach Windows, pričom tréning modelu teraz zahŕňa úlohy navrhnuté na zlepšenie spolupráce v softvéri Codex CLI.
*Všetky hodnotenia boli vykonané s povolenou kompakciou a extra vysokým úsilím pri myslení.
* Terminal-Bench2.0 bol spustený so softvérom Codex CLI v testovacom rámci Laude Institute Harbor(otvorí sa v novom okne)
GPT‑5.1‑Codex‑Max vykazuje výrazné zlepšenia v oblasti efektivity tokenov vďaka efektívnejšiemu mysleniu. V prípade overenia pre SWE-bench dosahuje GPT‑5.1‑Codex‑Max so „stredným“ myslením lepší výkon než GPT‑5.1‑Codex s rovnakým úsilím pri myslení, pričom sa spotrebuje o 30 % menej myšlienkových tokenov. Pre úlohy necitlivé na latenciu tiež zavádzame nové úsilie pri myslení Extra High ('xhigh'), pri ktorom premýšľanie trvá ešte dlhšie, aby nástroj poskytol lepšiu odpoveď. Pre väčšinu úloh stále odporúčame strednú úroveň ako denný režim.
Očakávame, že zlepšenia efektivity tokenov sa premietnu do reálnych úspor pre vývojárov.
Napríklad GPT‑5.1‑Codex‑Max dokáže produkovať vysokokvalitné frontendové dizajny s podobnou funkčnosťou a estetikou, ale za oveľa nižšie náklady ako GPT‑5.1‑Codex.
Príkaz: Vygenerujte jedinú samostatnú aplikáciu prehliadača, ktorá vykresľuje interaktívny sandbox CartPole RL s grafikou na plátne, malý ovládač s gradientom zásad, metriky a vizualizér siete SVG.
Funkcie
Musí byť schopný skutočne vytrénovať zásady, aby sa model zlepšil v riešení problému vozíka s obráteným kyvadlomVizualizér pre aktivácie/váhy, keď model absolvuje tréning alebo inferenciuKroky v epizóde, odmeny v tejto epizódePosledný čas do poruchy a najlepší čas do poruchy v krokoch
Uložiť do index.html
Kompakcia povoľuje GPT‑5.1‑Codex‑Max dokončiť úlohy, ktoré by predtým zlyhali kvôli limitom kontextových okien, ako sú komplexné refaktory a dlhotrvajúce agentské cykly, a to tak, že orezáva svoju históriu a zároveň zachováva najdôležitejší kontext počas dlhých časových období. V aplikáciách Codex model GPT‑5.1‑Codex‑Max automaticky stlačí svoju reláciu, keď sa priblíži k limitu kontextového okna, čím jej poskytne nové kontextové okno. Tento proces opakuje, kým sa úloha nedokončí.
Schopnosť udržať súvislú prácu počas dlhých období je základnou schopnosťou na ceste k všeobecnejším a spoľahlivejším systémom umelej inteligencie. GPT‑5.1‑Codex‑Max dokáže pracovať samostatne celé hodiny bez prestávky. V našich interných hodnoteniach sme pozorovali, ako GPT‑5.1‑Codex‑Max pracoval na úlohách viac ako 24 hodín. Bude neustále iterovať svoju implementáciu, opravovať zlyhania testov a nakoniec dosiahne úspešný výsledok.
V rámci tohto príkladu GPT‑5.1‑Codex‑Max nezávisle refaktoruje repozitár Codex CLI s otvoreným zdrojovým kódom.
Keď sa dĺžka relácie blíži ku kontextovému oknu modelu, relácia sa automaticky stlačí, aby sa uvoľnilo miesto na pokračovanie úlohy bez straty progresu.
Video bolo zostrihané a zrýchlené v záujme zlepšenia prehľadnosti.
GPT‑5.1‑Codex‑Max dosahuje výrazne lepšie výsledky pri hodnoteniach, ktoré vyžadujú trvalé a dlhodobé myslenie. Keďže dokáže súvisle pracovať vo viacerých kontextových oknách pomocou kompakcie, poskytuje lepšie výsledky pri zvládaní výziev v oblastiach, ako je dlhodobé kódovanie a kybernetická bezpečnosť. Analyzovali sme výsledky výkonnosti tohto modelu na hodnoteniach prvej a tretej strany v GPT‑5.1‑Codex‑Max systémovej karte.
GPT‑5.1‑Codex‑Max nedosahuje vysokú schopnosť v oblasti kybernetickej bezpečnosti podľa nášho rámca pripravenosti , ale ide o najschopnejší model kybernetickej bezpečnosti, ktorý sme doteraz nasadili, a schopnosti agentskej kybernetickej bezpečnosti sa rýchlo vyvíjajú. V dôsledku toho sa pripravujeme dosiahnuť vysokú úroveň schopnosti v oblasti kybernetickej bezpečnosti, posilňujeme naše opatrenia v kybernetickej sfére a pracujeme na tom, aby obrancovia mohli využívať tieto vylepšené schopnosti prostredníctvom programov, ako je Aardvark.
Keď sme spustili GPT‑5‑Codex, implementovali sme špecializované monitorovanie zamerané na kybernetickú bezpečnosť, aby sme odhalili a narušili škodlivú aktivitu. Hoci sme nezaznamenali významný nárast rozsiahleho zneužívania, pripravujeme ďalšie opatrenia na zmiernenie pre pokročilé schopnosti. Naše tímy už narušili kybernetické operácie, ktoré sa pokúšali zneužiť naše modely, a podozrivá aktivita je presmerovaná na kontrolu prostredníctvom našich systémov monitorovania v súlade so zásadami.
Codex je navrhnutý tak, aby predvolene bežal v zabezpečenom sandboxe: zápisy súborov sú obmedzené na jeho pracovný priestor a prístup k sieti je zakázaný, pokiaľ ho vývojár nezapne. Odporúčame ponechať Codex v tomto režime obmedzeného prístupu, pretože povolenie vyhľadávania na internete alebo webe môže priniesť riziká útoku prompt injection z nedôveryhodného obsahu.
S tým, ako je Codex čoraz schopnejší vykonávať dlhodobé úlohy, je stále dôležitejšie, aby vývojári pred vykonaním zmien alebo nasadením do produkcie skontrolovali prácu agenta. Na pomoc s týmto problémom Codex vytvára protokoly terminálu a uvádza získavanie nástrojov a výsledky testov. Hoci kontroly kódu znižujú riziko nasadenia chýb vytvorených modelom alebo človekom do produkčného prostredia, Codex by sa mal považovať za dodatočného kontrolóra, nie za náhradu ľudských kontrol.
Kybernetické bezpečnostné schopnosti sa môžu využiť na obranu aj útok, preto pristupujeme k nasadzovaniu iteratívne: učíme sa z reálnych prípadov používania, aktualizujeme bezpečnostné opatrenia a uchovávame dôležité obranné nástroje, ako je automatizované skenovanie zraniteľností a asistencia pri náprave.
GPT‑5.1‑Codex‑Max je k dispozícii v softvéri Codex s tarifami ChatGPT Plus, Pro, Business, Edu a Enterprise. Podrobnosti o tom, ako fungujú limity používania pre vašu tarifu, nájdete v našej dokumentácii(otvorí sa v novom okne).
Pre vývojárov používajúcich Codex CLI cez kľúč rozhrania API plánujeme sprístupniť GPT‑5.1‑Codex‑Max už čoskoro v rozhraní API.
Od dnešného dňa bude GPT‑5.1‑Codex‑Max nahrádzať model GPT‑5.1‑Codex ako predvolený model v rozhraniach Codex. Na rozdiel od modelu GPT‑5.1, ktorý je univerzálnym modelom, odporúčame používať GPT‑5.1‑Codex‑Max a rodinu modelov Codex iba pre úlohy agentského kódovania v prostrediach Codex alebo podobných ako Codex.
GPT‑5.1‑Codex‑Max ukazuje, ako ďaleko sa modely posunuli, pokiaľ ide o udržiavanie dlhodobých kódovacích úloh, riadenie zložitých pracovných postupov a vytváranie vysokokvalitných implementácií s oveľa menším počtom tokenov. Videli sme, že model v kombinácii s neustálymi upgradmi nášho CLI, rozšírenia IDE, cloudovej integrácie a nástrojov na kontrolu kódu vedie k mimoriadne zvýšenej produktivite inžinierstva: interne používa Codex týždenne 95 % inžinierov OpenAI a títo inžinieri odosielajú približne o 70 % viac žiadostí o zlúčenie od osvojenia softvéru Codex. Keďže posúvame hranice toho, čo agenti dokážu, už sa nevieme dočkať toho, čo s nimi vytvoríte.
GPT‑5.1‑Codex (high) | GPT‑5.1‑Codex‑Max (xhigh) | |
Overené pre SWE-bench (n=500) | 73,7 % | 77,9 % |
SWE-Lancer IC SWE | 66,3 % | 79,9 % |
Terminal-Bench 2.0 | 52,8 % | 58,1 % |


