Lumaktaw sa pangunahing content
OpenAI

Nobyembre 19, 2025

ProduktoPaglabas

Pagbuo pa gamit ang GPT‑5.1‑Codex‑Max

Naglo-load…

Panimula

Ipinapakilala namin ang GPT‑5.1‑Codex‑Max, ang aming bagong modelo ng agentic coding na frontier, magagamit sa Codex ngayon.  Ang GPT‑5.1‑Codex‑Max ay binuo batay sa pag-update sa aming modelo ng pundamental na pangangatwiran na sinanay sa mga agentic na gawain sa software engineering, matematika, pananaliksik, at iba pang larangan. Ang GPT‑5.1‑Codex‑Max ay mas mabilis, mas matalino, at mas mahusay sa paggamit ng token sa bawat yugto ng cycle ng pag-unlad—at isang bagong hakbang patungo sa pagiging maaasahang partner sa pag-code.

Ang GPT‑5.1‑Codex‑Max ay ginawa para sa pangmatagalan at detalyadong gawain. Ito ang aming unang modelo na likas na sinanay para gumana sa maraming konteksto sa pamamagitan ng prosesong tinatawag na compaction, na magkakaugnay na gumagana sa milyun-milyong token sa isang gawain. Binubuksan nito ang mga project-scale refactor, malalalimang session ng pag-debug, at mga agent loop na tumatagal nang maraming oras.

Available ang GPT‑5.1‑Codex‑Max sa Codex ngayon para gamitin sa CLI, IDE extension, cloud, at pagsusuri ng code, at malapit na ang pag-access sa API.

Mga kakayahan sa pag-code ng frontier

Sinanay ang GPT‑5.1‑Codex‑Max sa mga totoong gawain sa software engineering, tulad ng paglikha ng PR, pagsusuri ng code, frontend coding, at Q&A at nalampasan ang aming mga nakaraang modelo sa maraming mga pagsusuri sa pag-code ng frontier. Kasabay ng pagtaas ng performance nito sa mga benchmark, may mga pag-unlad din sa aktuwal na paggamit: ang GPT‑5.1‑Codex‑Max ang una naming modelong sinanay para gumana sa mga Windows environment, at kasama na ngayon sa pagsasanay nito ang mga gawaing idinisenyo para maging mas mahusay itong katuwang sa Codex CLI.

* Ang lahat ng eval ay pinatakbo gamit ang naka-enable ang compaction sa Extra High na pagsisikap sa pangangatwiran
* Tumakbo ang Terminal-Bench2.0 kasama ang Codex CLI sa
Laude Institute Harbor harness(magbubukas sa bagong window)

Bilis at gastos

Nagpakita ang GPT‑5.1‑Codex‑Max ng malaking pag-unlad sa kahusayan sa token dahil sa mas epektibong reasoning. Sa SWE-bench Verified, ang GPT‑5.1‑Codex‑Max na may 'katamtaman' na pagsisikap sa pangangatwiran ay nakakamit ng mas mahusay na pagganap kaysa sa GPT‑5.1‑Codex na may parehong pagsisikap sa pangangatwiran, habang gumagamit ng 30% na mas kaunting mga token sa pag-iisip. Para sa mga gawaing hindi sensitibo sa latency, ipinapakilala rin namin ang bagong Extra High ('xhigh') na pagsisikap sa pangangatwiran, na mag-iisip nang mas matagal para sa mas mahusay na sagot. Inirerekomenda pa rin namin ang katamtaman bilang pang-araw-araw na gamit para sa karamihan ng mga gawain.

Inaasahan naming magdulot ng tunay na pagtitipid para sa mga developer ang mga pagbuti sa kahusayan ng token.

Halimbawa, kayang gumawa ng mataas na kalidad na mga frontend design ang GPT‑5.1‑Codex‑Max na may kaparehong functionality at aesthetics, pero mas mababa ang gastos kumpara sa GPT‑5.1‑Codex.

Prompt: Bumuo ng solong self-contained na app ng browser na nagre-render ng interactive na CartPole RL sandbox na may canvas graphics, maliit na policy-gradient controller, metrics, at SVG network visualizer.

Mga Feature

  • Dapat na aktwal na sanayin ang patakaran para gawing mas mahusay ang modelo sa cart pole
  • Visualizer para sa mga activation/weight kapag ang modelo ay nagsasanay o nasa inference
  • Mga hakbang sa episode, gantimpalaan ang episode na ito
  • Huling oras ng pag-survive at pinakamahusay na oras ng pag-survive sa hakbang

I-save sa index.html

Mga gawain na tumatagal ng mahabang panahon

Pinahihintulutan ng compaction ang GPT‑5.1‑Codex‑Max na matapos ang mga gawaing dati ay nabibigo dahil sa limitasyon ng context window—tulad ng mga kumplikadong refactor at mahahabang agent loop—sa pamamagitan ng pag-prune ng history habang pinananatili ang pinakamahalagang konteksto sa mahabang proseso. Sa mga application ng Codex, ang GPT‑5.1‑Codex‑Max ay awtomatikong nagco-compact ng session kapag malapit na itong maabot ang limit ng context window, na nagreresulta sa bagong context window. Inuulit niya ang prosesong ito hanggang sa matapos ang gawain.

Ang kakayahang mapanatili ang magkakaugnay na gawain sa mahabang panahon ay isang pundamental na kakayahan sa landas patungo sa mas pangkalahatan at maaasahang mga AI system. GPT‑5.1‑Codex‑Max puwede kang magtrabaho nang mag-isa nang ilang oras sa isang pagkakataon. Sa aming mga panloob na pagsusuri, naobserbahan namin ang GPT‑5.1‑Codex‑Max magtrabaho sa mga gawain nang higit sa 24 na oras. Patuloy itong mag-i-iterate sa pagpapatupad nito, aayusin ang mga pagkabigo sa pagsubok, at sa huli ay maghahatid ng matagumpay na resulta.

Sa halimbawang ito, ang GPT‑5.1‑Codex‑Max ay nagre-refactor ng Codex CLI open source repository nang mag-isa.

Kapag malapit na sa limit ng context-window ng modelo ang haba ng session, awtomatikong kino-compact nito ang session para magbigay ng espasyo para magpatuloy ang gawain nang hindi nawawala ang progreso.

Pinabilis at pinaganda ang video para mas malinaw.

Pagbuo ng mga ligtas at mapagkakatiwalaang mga AI agent

Ang GPT‑5.1‑Codex‑Max ay mas mahusay sa mga pagsusuri na nangangailangan ng tuloy-tuloy at pangmatagalang pangangatwiran. Dahil kayang magtrabaho nang maayos sa maraming context window gamit ang compaction, nakapagbibigay ang model ng mas mahusay na resulta sa mga hamon sa larangan ng long-horizon coding at cybersecurity. Sinuri namin ang mga resulta ng performance ng modelong ito sa first- at third-party na mga pagsusuri sa GPT‑5.1‑Codex‑Max system card.

Hindi umaabot ang GPT‑5.1‑Codex‑Max sa Mataas na kakayahan sa Cybersecurity sa ilalim ng aming Preparedness Framework pero ito ang pinaka-may kakayahang modelo ng cybersecurity na aming naipatupad hanggang sa kasalukuyan at ang mga kakayahan ng agentic na cybersecurity ay mabilis na umuunlad. Bilang resulta, gumagawa kami ng mga hakbang para maghanda para sa mataas na kakayahan sa cybersecurity at pinahuhusay ang aming mga pag-iingat sa cyber domain at nagtatrabaho para matiyak na ang mga defender ay puwedeng makinabang mula sa mga pinahusay na kakayahan sa pamamagitan ng mga programa tulad ng Aardvark.

Nang ilunsad namin ang GPT‑5‑Codex, nagpatupad kami ng dedikadong pagsubaybay na partikular sa cybersecurity para matukoy at maharang ang malisyosong aktibidad. Bagama't wala kaming naobserbahang makabuluhang pagtaas sa malawakang pang-aabuso, naghahanda kami ng mga karagdagang pagpapagaan para sa mga advanced na kakayahan. Nakapagsagawa na ang aming mga team ng pag-antala sa mga cyber operation na nagtatangkang maling gamitin ang aming mga modelo, at ang kahina-hinalang aktibidad ay ipinapasa para sa pagsusuri sa pamamagitan ng aming mga sistema ng pagsubaybay sa patakaran.

Idinisenyo ang Codex na tumakbo sa secure na sandbox bilang default: limitado ang pagsusulat ng file sa workspace nito, at naka-disable ang access sa network maliban kung i-on ito ng developer. Inirerekomenda naming panatilihin ang Codex sa mode na ito na may limitadong pag-access, dahil ang pag-enable ng paghahanap sa internet o web ay maaaring magdulot ng mga panganib ng prompt-injection mula sa hindi mapagkakatiwalaang content.

Habang nagiging mas may kakayahan ang Codex sa mga pangmatagalang gawain, nagiging mas mahalaga para sa mga developer na suriin ang trabaho ng agent bago gumawa ng mga pagbabago o mag-deploy sa produksyon. Para makatulong dito, gumagawa ang Codex ng mga log ng terminal at binabanggit ang mga tawag sa tool at resulta ng pagsubok nito. Habang binabawasan ng mga pagsusuri ng code nito ang panganib ng pag-deploy ng mga bug na ginawa ng modelo o ng tao sa produksyon, ang Codex ay dapat ituring bilang isang karagdagang tagasuri at hindi isang kapalit para sa mga pagsusuri ng tao.

Maaaring gamitin ang mga kakayahan sa cybersecurity para sa parehong depensa at opensa, kaya gumagamit kami ng paulit-ulit na pamamaraan ng deployment: natututo mula sa aktuwal na paggamit, ina-update ang mga safeguard, at pinananatili ang mahahalagang mga defensive tool tulad ng awtomatikong pag-scan ng kahinaan at tulong sa remediasyon.

Pagiging available

Ang GPT‑5.1‑Codex‑Max ay makukuha sa Codex na may mga plan na ChatGPT Plus, Pro, Business, Edu, at Enterprise. Para sa mga detalye kung paano gumagana ang mga limitasyon sa paggamit para sa iyong plano, pakitingnan ang aming mga dokumento(magbubukas sa bagong window).

Para sa mga developer na gumagamit ng Codex CLI sa pamamagitan ng API Key, plano naming gawing available ang GPT‑5.1‑Codex‑Max malapit nang maging available sa API.

Simula ngayon, papalitan ng GPT‑5.1‑Codex‑Max ang GPT‑5.1‑Codex bilang default na modelo sa mga interface ng Codex. Hindi tulad ng GPT‑5.1, na isang pangkalahatang-layunin na modelo, inirerekomenda namin ang paggamit ng GPT‑5.1‑Codex‑Max at ang pamilya ng mga modelo ng Codex ay para lang sa mga gawain na agentic na pag-code sa Codex o tulad Codex na mga kapaligiran.

Konklusyon

Ipinapakita ng GPT‑5.1‑Codex‑Max kung gaano kalayo ang narating ng mga modelo sa pagpapanatili ng mga pangmatagalang gawain sa pagko-code, pamamahala ng mga kumplikadong daloy ng trabaho, at paggawa ng mga de-kalidad na implementasyon na may mas kaunting mga token. Nakita namin ang modelo na sinamahan ng tuloy-tuloy na pag-upgrade sa aming CLI, IDE extension, cloud integration, at mga tool sa pagsusuri ng code na nagreresulta sa napakabilis na pagiging produktibo ng engineering: sa loob, 95% ng mga engineer ng OpenAI ay gumagamit ng Codex linggu-linggo, at ang mga engineer na ito ay nagpapadala ng humigit-kumulang 70% na mas maraming pull request mula nang gamitin ang Codex. Habang isinusulong namin ang hangganan ng kung ano ang kayang gawin ng mga agent, nasasabik kaming makita kung ano ang iyong mabubuo kasama nila.

Apendise: Mga pagsusuri sa modelo

GPT‑5.1‑Codex (mataas)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Verified (n=500)

73.7%

77.9%

SWE-Lancer IC SWE

66.3%

79.9%

Terminal-Bench 2.0

52.8%

58.1%

May-akda

OpenAI