Preskočite na glavno vsebino
OpenAI

19. november 2025

IzdelekIzdaja

Zgradite več z GPT‑5.1‑Codex‑Max

Nalaganje …

Uvod

Predstavljamo GPT‑5.1‑Codex‑Max, naš novi najnaprednejši model agentnega kodiranja, ki je danes na voljo v storitvi Codex.  GPT‑5.1‑Codex‑Max temelji na posodobitvi našega osnovnega modela sklepanja, ki je usposobljen za agentne naloge na področju programskega inženirstva, matematike, raziskav in drugih področij. GPT‑5.1‑Codex‑Max je hitrejši, inteligentnejši in bolj učinkovit pri uporabi žetonov na vseh stopnjah razvojnega cikla ter predstavlja nov korak k temu, da postane zanesljiv partner za kodiranje.

GPT‑5.1‑Codex‑Max je zasnovan za dolgotrajno in podrobno delo. To je naš prvi model, ki je izvorno usposobljen za delovanje v več oknih konteksta skozi postopek, imenovan zbijanje, koherentno obdeluje milijone žetonov v eni sami nalogi. To omogoča refaktoriranje na ravni projekta, poglobljene seje odpravljanja napak in večurne agentne zanke.

GPT‑5.1‑Codex‑Max je danes na voljo v storitvi Codex za uporabo v CLI, razširitvi IDE, oblaku in pregledu kode, dostop do API-ja pa bo kmalu na voljo.

Najnaprednejše zmogljivosti kodiranja

GPT‑5.1‑Codex‑Max je bil usposobljen za resnične naloge programskega inženiringa, kot so ustvarjanje PR, pregled kode, kodiranje ospredja ter vprašanja in odgovore, ter presega naše prejšnje modele pri številnih naprednih programerskih vrednotenjih. Pribitki modela na meritvah prinašajo tudi izboljšave uporabe v resničnem svetu: GPT‑5.1‑Codex‑Max je prvi model, ki smo ga usposobili za delovanje v okoljih Windows, usposabljanje modela pa zdaj vključuje naloge, ki so zasnovane tako, da postane boljši sodelavec v Codex CLI.

* Vse ocene so bile izvedene z omogočenim zbijanjem pri izjemno visokem naporu sklepanja
* Terminal-Bench2.0 je deloval s Codex CLI v
Laude Institute Harbor harness(odpre se v novem oknu)

Hitrost in stroški

GPT‑5.1‑Codex‑Max kaže pomembne izboljšave v učinkovitosti žetonov zaradi učinkovitejšega sklepanja. Na SWE-bench Verified, GPT‑5.1‑Codex‑Max s 'srednjim' naporom razmišljanja doseže boljšo zmogljivost kot GPT‑5.1‑Codex z enakim razmišljanjem, medtem ko uporablja 30 % manj žetonov za razmišljanje. Za naloge, ki niso občutljive na zakasnitve, uvajamo tudi novo stopnjo utemeljevanja Extra High ('xhigh'), ki premišlja še dlje časa za boljši odgovor. Za večino nalog še vedno priporočamo srednjo nastavitev.

Pričakujemo, da se bodo izboljšave učinkovitosti žetonov odrazile v dejanskih prihrankih za razvijalce.

Na primer, GPT‑5.1‑Codex‑Max je sposoben ustvariti visokokakovostne zasnove sprednjega dela s podobno funkcionalnostjo in estetiko, vendar po precej nižjih stroških kot GPT‑5.1‑Codex.

Poziv: Ustvarite eno samo samostojno aplikacijo za brskalnik, ki prikazuje interaktivni peskovnik CartPole RL z grafiko canvas, majhnim krmilnikom z gradientnim pravilnikom, metriko in vizualizatorjem omrežja SVG.

Funkcije

  • Mora biti sposoben dejansko usposobiti pravilnik, da bo model boljši pri nalogi cart pole
  • Vizualizator aktivacij/uteži, ko se model usposablja ali izvaja sklepanja
  • Koraki v epizodi, nagrade v tej epizodi
  • Zadnji čas preživetja in najboljši čas preživetja v korakih

Shrani v index.html

Dolgotrajne naloge

Zbijanje GPT‑5.1‑Codex‑Max omogoča, da opravi naloge, ki bi prej odpovedale zaradi omejitev oken konteksta, kot so kompleksni refaktorji in dolgotrajne agentne zanke, tako da obreže zgodovino in ohrani najpomembnejši kontekst prek dolgih razponov. V aplikacijah Codex, GPT‑5.1‑Codex‑Max samodejno zbije svojo sejo, ko se približa omejitvi okna konteksta, kar omogoča novo okno konteksta. Postopek se ponavlja, dokler naloga ni dokončana.

Zmožnost vzdrževanja koherentnega dela prek dolgih razponov je temeljna sposobnost na poti do bolj splošnih in zanesljivih sistemov umetne inteligence. GPT‑5.1‑Codex‑Max lahko deluje samostojno po več ur. V naših internih ocenah smo opazili GPT‑5.1‑Codex‑Max delati na nalogah več kot 24 ur. Vztrajno bo iteriral svojo implementacijo, odpravljal napake pri testiranju in na koncu dostavil uspešen rezultat.

V tem primeru GPT‑5.1‑Codex‑Max neodvisno preoblikuje odprtokodni repozitorij Codex CLI.

Ko se dolžina seje približa kontekstnemu oknu modela, se seja samodejno zbije, da se sprosti prostor za nadaljevanje naloge brez izgube napredka.

Video je bil zaradi jasnosti obrezan in pospešen.

Gradnja varnih in zaupanja vrednih agentov umetne inteligence

GPT‑5.1‑Codex‑Max se bistveno bolje obnese pri vrednotenjih, ki zahtevajo trajno, dolgoročno razmišljanje. Ker lahko model koherentno deluje v več oknih konteksta s pomočjo zbijanja, zagotavlja izboljšane rezultate pri izzivih na področjih, kot sta dolgoročno kodiranje in kibernetska varnost. Analizirali smo rezultate delovanja tega modela na podlagi vrednotenj prve in tretjih oseb v GPT‑5.1‑Codex‑Max sistemski kartici.

GPT‑5.1‑Codex‑Max ne dosega visokih zmogljivosti na področju kibernetske varnosti v okviru našega Okvira pripravljenosti, vendar je to najbolj zmogljiv model kibernetske varnosti, ki smo ga uvedli doslej, in agentne zmogljivosti kibernetske varnosti se hitro razvijajo. Zato sprejemamo ukrepe za pripravo na visoko zmogljivost na področju kibernetske varnosti in izboljšujemo naše zaščitne ukrepe v kibernetski domeni ter si prizadevamo zagotoviti, da lahko zagovorniki izkoristijo te izboljšane zmogljivosti prek programov, kot je Aardvark.

Ko smo splovili GPT‑5‑Codex, smo uvedli namensko spremljanje, specifično za kibernetsko varnost, za zaznavanje in preprečevanje zlonamernih dejavnosti. Čeprav nismo opazili znatnega povečanja obsežnih zlorab, pripravljamo dodatne ukrepe za napredne zmogljivosti. Naše ekipe so že zmotile kibernetske operacije, ki so poskušale zlorabiti naše modele, sumljive dejavnosti pa so bile posredovane v pregled prek naših sistemov za spremljanje pravilnikov.

Codex je privzeto zasnovan za delovanje v varnem peskovniku: pisanje v datoteke je omejeno na njegov delovni prostor, dostop do omrežja pa je onemogočen, razen če ga razvijalec omogoči. Priporočamo, da Codex ostane v tem načinu omejenega dostopa, saj lahko omogočanje internetnega ali spletnega iskanja uvede tveganje vstavljanja poziva iz vsebin, ki niso vredne zaupanja.

Ker Codex postaja bolj sposoben za dolgotrajne naloge, je za razvijalce vse pomembneje, da pregledajo delo agenta, preden izvedejo spremembe ali ga uvedejo v produkcijo. Za pomoč pri tem Codex ustvarja dnevnike terminala in navaja klice orodij ter rezultate testov. Čeprav pregledi kode zmanjšujejo tveganje za uvajanje napak, ki jih je ustvaril model ali človek, v produkcijo, je treba Codex obravnavati kot dodatnega pregledovalca in ne kot nadomestek za človeške preglede.

Kibernetske varnostne zmogljivosti se lahko uporabljajo tako za obrambo kot za napad, zato uporabljamo iterativni pristop uvajanja: učenje iz resnične uporabe, posodabljanje varnostnih ukrepov in ohranjanje pomembnih obrambnih orodij, kot sta avtomatizirano pregledovanje ranljivosti in pomoč pri odpravljanju ranljivosti.

Razpoložljivost

GPT‑5.1‑Codex‑Max je na voljo v Codexu z načrti ChatGPT Plus, Pro, Business, Edu in Enterprise. Za podrobnosti o omejitvah uporabe za vaš načrt, vas prosimo, da si ogledate našo dokumentacijo(odpre se v novem oknu).

Za razvijalce, ki uporabljajo Codex CLI prek ključa API, načrtujemo, da bo GPT‑5.1‑Codex‑Max kmalu na voljo v API-ju.

Od danes naprej bo GPT‑5.1‑Codex‑Max nadomestil GPT‑5.1‑Codex kot privzeti model na površinah Codex. Za razliko od GPT‑5.1, ki je splošnonamenski model, priporočamo uporabo GPT‑5.1‑Codex‑Max in družino modelov Codex samo za naloge agentnega kodiranja v Codexu ali okoljih, podobnih Codexu.

Zaključek

GPT‑5.1‑Codex‑Max prikazuje, kako daleč so modeli napredovali pri vzdrževanju dolgoročnih nalog kodiranja, upravljanju kompleksnih delovnih procesov in ustvarjanju visokokakovostnih implementacij z veliko manj žetoni. Opazili smo, da model v kombinaciji s stalnimi nadgradnjami našega CLI, razširitve IDE, integracije z oblakom in orodij za pregled kode prinaša izjemno povečano inženirsko produktivnost: interno 95 % inženirjev OpenAI tedensko uporablja Codex, ti inženirji pa od uvedbe Codexa pošljejo približno 70 % več zahtev za pridobivanje. Ko premikamo meje tega, kar agenti zmorejo, navdušeno pričakujemo, da vidimo, kaj boste z njimi ustvarili.

Dodatek: Ocena modelov

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Verified (n=500)

73,7 %

77,9%

SWE-Lancer IC SWE

66,3 %

79,9 %

Terminal-Bench 2.0

52,8 %

58,1 %

Avtor

OpenAI