Preskočite na glavni sadržaj
OpenAI

19. studenoga 2025.

ProizvodIzdanje

Izgradite više uz GPT‑5.1‑Codex‑Max

Učitavanje…

Uvod

Predstavljamo GPT‑5.1‑Codex‑Max, naš novi napredni model agentskog kodiranja, dostupan u Codexu već danas.  GPT‑5.1‑Codex‑Max temelji se na ažuriranju našeg osnovnog modela zaključivanja, koji je obučen za agentske zadatke u softverskom inženjerstvu, matematici, istraživanju i ostalom. GPT‑5.1‑Codex‑Max je brži, inteligentniji i učinkovitiji u korištenju tokena u svakoj fazi razvojnog ciklusa – i novi korak prema tome da postane pouzdan partner za kodiranje.

GPT‑5.1‑Codex‑Max je izrađen za dugotrajne i detaljne zadatke. To je naš prvi model izvorno obučen za rad u više kontekstnih prozora putem procesa koji se naziva kompaktiranje, koherentno obrađujući milijune tokena u jednom zadatku. Ovo omogućuje refaktore na razini projekta, duboke sesije otklanjanja grešaka i višesatne petlje agenata.

GPT‑5.1‑Codex‑Max danas je dostupan u Codexu za korištenje u CLI, IDE proširenju, oblaku i pregledu koda, a pristup API-ju uskoro dolazi.

Pionirske mogućnosti kodiranja

GPT‑5.1‑Codex‑Max je treniran na stvarnim zadacima softverskog inženjerstva, kao što su izrada PR-a, pregled koda, frontend kodiranje i pitanja i odgovori te nadmašuje naše prethodne modele u mnogim evaluacijama naprednog kodiranja. Dobici modela na referentnim testovima također dolaze s poboljšanjima u stvarnoj upotrebi: GPT‑5.1‑Codex‑Max prvi je model koji smo obučili za rad u Windows okruženjima, a obuka modela sada uključuje zadatke osmišljene kako bi ga učinili boljim suradnikom u Codex CLI.

* Sve evaluacije su provedene s omogućenim zbijanjem pri izuzetno visokom naporu zaključivanja
* Terminal-Bench2.0 je pokrenut s Codex CLI-jem u
Laude Institute Harbor harnessu(otvara se u novom prozoru)

Brzina i cijena

GPT‑5.1‑Codex‑Max pokazuje značajna poboljšanja u učinkovitosti tokena zahvaljujući učinkovitijem zaključivanju. Na SWE-bench provjeri valjanosti, GPT‑5.1‑Codex‑Max sa "srednjim" naporom u razmišljanju postiže bolje performanse od modela GPT‑5.1‑Codex s istim naporom zaključivanja, uz korištenje 30 % manje tokena za razmišljanje. Za zadatke koji nisu osjetljivi na kašnjenje, također uvodimo novi napor zaključivanja s ekstra visokim ("xhigh") intenzitetom, koji razmišlja još dulje kako bi pružio bolji odgovor. I dalje preporučujemo srednju razinu kao svakodnevni alat za većinu zadataka.

Očekujemo da će poboljšanja učinkovitosti tokena dovesti do stvarnih ušteda za razvojne inženjere.

Na primjer, GPT‑5.1‑Codex‑Max može proizvesti visokokvalitetne dizajne frontenda sa sličnom funkcionalnošću i estetikom, ali po znatno nižoj cijeni od GPT‑5.1‑Codexa.

Upit: Generiranje jedne samostalne aplikacije preglednika koja prikazuje interaktivni CartPole RL sandbox s canvas grafikom, malim kontrolerom gradijenta politike, mjernim podacima i SVG mrežnim vizualizatorom.

Značajke

  • Mora biti sposoban zapravo obučiti politiku kako bi model bio bolji u zadatku balansiranja šipke na kolicima
  • Vizualizator za aktivacije/parametre kada je model u fazi obuke ili inferencije
  • Koraci u epizodi, nagrade za ovu epizodu
  • Zadnje vrijeme preživljavanja i najbolje vrijeme preživljavanja u koracima

Spremite na index.html

Dugotrajni zadaci

Kompakcija omogućuje GPT‑5.1‑Codex‑Maxu izvršavanje zadataka koji bi prije propali zbog ograničenja kontekstnog prozora, kao što su složeni refaktori i dugotrajne petlje agenata, obrezivanjem povijesti uz očuvanje najvažnijeg konteksta tijekom dugih vremenskih razdoblja. U Codex aplikacijama, GPT‑5.1‑Codex‑Max automatski sažima svoju sesiju kada se približi granici kontekstnog prozora, dajući joj novi kontekstni prozor. Ponavlja ovaj postupak sve dok zadatak nije dovršen.

Sposobnost održavanja koherentnog rada tijekom dugih vremenskih razdoblja temeljna je sposobnost na putu prema općenitijim, pouzdanijim sustavima umjetne inteligencije. GPT‑5.1‑Codex‑Max može raditi samostalno satima. U našim internim evaluacijama primijetili smo da je GPT‑5.1‑Codex‑Max radio na zadacima dulje od 24 sata. Uporno će iterirati na svojoj implementaciji, ispravljati pogreške testiranja i na kraju isporučiti uspješan rezultat.

U ovom primjeru, GPT‑5.1‑Codex‑Max neovisno refaktorira Codex CLI repozitorij otvorenog koda.

Kako se duljina sesije približava kontekstnom prozoru modela, automatski se sažima sesija kako bi se oslobodio prostor za nastavak zadatka bez gubitka napretka.

Videozapis je skraćen i ubrzan radi jasnoće.

Izgradnja sigurnih i pouzdanih AI agenata

GPT‑5.1‑Codex‑Max postiže znatno bolje rezultate u evaluacijama koje zahtijevaju kontinuirano, dugoročno razmišljanje. Zbog sposobnosti koherentnog rada u više kontekstualnih prozora uz korištenje zbijanja, model donosi poboljšane rezultate u izazovima u područjima kao što su dugoročno kodiranje i kibernetička sigurnost. Analizirali smo rezultate izvedbe ovog modela na procjenama prve i treće strane za GPT‑5.1‑Codex‑Max. kartica sustava.

GPT‑5.1‑Codex‑Max ne doseže visoku razinu sposobnosti u području kibernetičke sigurnosti prema našem Okviru za pripravnost , ali je najsposobniji model kibernetičke sigurnosti koji smo do sada implementirali, a agentske sposobnosti kibernetičke sigurnosti brzo se razvijaju. Kao rezultat toga, poduzimamo korake za pripremu za visoke sposobnosti u području kibernetičke sigurnosti, poboljšavamo naše zaštitne mjere u kibernetičkoj domeni i radimo na tome da branitelji mogu imati koristi od tih poboljšanih sposobnosti putem programa poput Aardvark.

Kada smo pokrenuli GPT‑5‑Codex, implementirali smo namjenski nadzor specifičan za kibernetičku sigurnost kako bismo otkrili i prekinuli zlonamjerne aktivnosti. Iako nismo primijetili značajan porast zlouporabe u većem obimu, pripremamo dodatne mjere ublažavanja za napredne mogućnosti. Naši su timovi već poremetili kibernetičke operacije koje su pokušavale zloupotrijebiti naše modele, a sumnjive aktivnosti usmjerene su na pregled putem naših sustava za praćenje pravila.

Codex je dizajniran da se zadano pokreće u sigurnom sandboxu: zapisivanje datoteka ograničeno je na njegov radni prostor, a pristup mreži je onemogućen osim ako ga razvojni inženjer ne uključi. Preporučujemo da Codex ostane u ovom načinu rada s ograničenim pristupom jer omogućavanje internetskog ili mrežnog pretraživanja može uvesti rizike od unosa-upita iz nepouzdanog sadržaja.

Kako Codex postaje sposobniji za dugotrajne zadatke, sve je važnije da razvojni inženjeri pregledaju rad agenta prije nego što naprave promjene ili ga implementiraju u proizvodnju. Kako bi pomogao u tome, Codex proizvodi terminalne dnevnike i navodi pozive svojih alata i rezultate testiranja. Iako pregledi koda smanjuju rizik od implementacije grešaka koje su proizveli modeli ili ljudi u produkciju, Codex treba tretirati kao dodatnog recenzenta, a ne kao zamjenu za ljudske recenzije.

Mogućnosti kibernetičke sigurnosti mogu se koristiti i za obranu i za napad, stoga primjenjujemo iterativni pristup implementacije: učenje iz stvarne upotrebe, ažuriranje zaštitnih mjera i očuvanje važnih obrambenih alata kao što su automatizirano skeniranje ranjivosti i pomoć u sanaciji.

Dostupnost

GPT‑5.1‑Codex‑Max dostupan je u Codexu s planovima ChatGPT Plus, Pro, Business, Edu i Enterprise. Za detalje o tome kako ograničenja upotrebe funkcioniraju za vaš plan pogledajte našu dokumentaciju(otvara se u novom prozoru).

Za razvojne inženjere koji koriste Codex CLI putem ključa za API, planiramo omogućiti GPT‑5.1‑Codex‑Max uskoro dostupan u API-ju.

Počevši od danas, GPT‑5.1‑Codex‑Max će zamijeniti GPT‑5.1‑Codex kao zadani model na Codex platformama. Za razliku od GPT‑5.1, koji je model opće namjene, preporučujemo korištenje GPT‑5.1‑Codex‑Max i obitelj modela Codex samo za zadatke agentskog kodiranja u Codexu ili okruženjima sličnim Codexu.

Zaključak

GPT‑5.1‑Codex‑Max pokazuje koliko su modeli napredovali u održavanju dugoročnih zadataka kodiranja, upravljanju složenim tijekovima rada i stvaranju visokokvalitetnih implementacija s mnogo manje tokena. Vidjeli smo da model u kombinaciji sa stalnim nadogradnjama našeg CLI-ja, IDE proširenja, integracije s oblakom i alata za pregled koda rezultira izuzetno visokom produktivnošću inženjerstva: interno, 95 % OpenAI inženjera tjedno koristi Codex, a ti inženjeri šalju otprilike 70 % više zahtjeva za povlačenjem otkako su usvojili Codex. Dok pomičemo granice onoga što agenti mogu učiniti, uzbuđeni smo vidjeti što ćete s njima stvoriti.

Dodatak: Evaluacije modela

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench provjera (n=500)

73,7 %

77,9 %

SWE-Lancer IC SWE

66,3 %

79,9 %

Terminal-Bench 2.0

52,8 %

58,1 %

Autor

OpenAI