Preskočite na glavni sadržaj
OpenAI

19. novembar 2025.

ProductObjavljivanje

Razvijamo više uz GPT‑5.1‑Codex‑Max

Učitavanje…

Uvod

Predstavljamo GPT‑5.1‑Codex‑Max, naš novi model agentnog kodiranja na granici, dostupan u Codexu danas.  GPT‑5.1‑Codex‑Max je izgrađen na ažuriranju našeg osnovnog modela rezonovanja, koji je obučen za zadatke vezane za agente u softverskom inženjerstvu, matematici, istraživanju i drugim oblastima. GPT‑5.1‑Codex‑Max je brži, inteligentniji i efikasniji u pogledu tokena u svakoj fazi razvojnog ciklusa – i novi korak ka tome da postane pouzdan partner za kodiranje.

GPT‑5.1‑Codex‑Max je dizajniran za dugotrajan i detaljan rad. Ovo je naš prvi model izvorno obučen za rad kroz više kontekstualnih prozora putem procesa koji se naziva kompaktiranje, koherentno obrađujući milione tokena u jednom zadatku. Ovo omogućava refaktorisanje na nivou projekta, dubinske sesije otklanjanja grešaka i višesatne petlje agenata.

GPT‑5.1‑Codex‑Max je danas dostupan u Codexu za korištenje u CLI, IDE ekstenziji, oblaku i pregledu koda, a pristup API-ju uskoro dolazi.

Napredne programerske mogućnosti

GPT‑5.1‑Codex‑Max je obučen za stvarne zadatke softverskog inženjeringa, kao što su kreiranje PR-a, pregled koda, frontend kodiranje i pitanja i odgovori, te nadmašuje naše prethodne modele u mnogim evaluacijama naprednog kodiranja. Dobici modela na referentnim vrijednostima također dolaze s poboljšanjima upotrebe u stvarnom svijetu: GPT‑5.1‑Codex‑Max je prvi model koji smo obučili za rad u Windows okruženjima, a obuka modela sada uključuje zadatke osmišljene da ga učine boljim saradnikom u Codex CLI.

* Sve evaluacije su izvršene sa omogućenim zbijanjem na izuzetno visokom naporu rezonovanja
* Terminal-Bench2.0 je radio sa Codex CLI-jem u
Laude Institute Harbor harnessu(otvara se u novom prozoru)

Brzina i trošak

GPT‑5.1‑Codex‑Max pokazuje značajna poboljšanja u efikasnosti tokena zahvaljujući efikasnijem rezonovanju. Na SWE-bench Verified, GPT‑5.1‑Codex‑Max sa „srednjim“ naporom rezonovanja postiže bolje performanse od GPT‑5.1‑Codex uz isti napor rezonovanja, dok koristi 30% manje tokena razmišljanja. Za zadatke koji nisu osjetljivi na latentnost, također uvodimo novu opciju Extra High („xhigh“) za napor rezonovanja, koji razmišlja još duže vrijeme za bolji odgovor. Još uvijek preporučujemo srednji kao dnevni pokretač za većinu zadataka.

Očekujemo da će poboljšanja efikasnosti tokena rezultirati stvarnim uštedama za programere.

Na primjer, GPT‑5.1‑Codex‑Max može proizvesti visokokvalitetne dizajne frontenda sa sličnom funkcionalnošću i estetikom, ali po mnogo nižoj cijeni od GPT‑5.1‑Codex.

Upit: Generiši jednu samostalnu web aplikaciju koja prikazuje interaktivni CartPole RL sandbox sa canvas grafikom, malim policy-gradient kontrolerom, metrike i SVG vizualizaciju mreže.

Funkcije

  • Mora biti moguće zapravo obučavati politiku kako bi model bolje balansirao CartPole
  • Vizualizator za aktivacije/težine kada je model u fazi obuke ili zaključivanja
  • Koraci u epizodi, nagrade u ovoj epizodi
  • Posljednje vrijeme opstanka i najbolje vrijeme opstanka u koracima

Sačuvati u index.html

Dugotrajni zadaci

Kompaktiranje omogućava GPT‑5.1‑Codex‑Max‑u da završi zadatke koji bi ranije propali zbog ograničenja kontekstnog prozora, kao što su složeni refaktori i dugotrajne petlje agenata, tako što skraćuje svoju historiju uz očuvanje najvažnijeg konteksta tokom dugih vremenskih perioda. U Codex aplikacijama, GPT‑5.1‑Codex‑Max automatski sažima svoju sesiju kada se približi ograničenju kontekstnog prozora, dajući joj novi kontekstni prozor. Ovaj proces ponavlja sve dok zadatak nije završen.

Sposobnost održavanja koherentnog rada na duge vremenske horizonte je temeljna sposobnost na putu ka općenitijim, pouzdanijim sistemima umjetne inteligencije. GPT‑5.1‑Codex‑Max može raditi samostalno satima u kontinuitetu. U našim internim evaluacijama, primijetili smo da GPT‑5.1‑Codex‑Max radi na zadacima duže od 24 sata. Uporno će iterirati na svojoj implementaciji, ispravljati greške na testovima i na kraju isporučiti uspješan rezultat.

U ovom primjeru, GPT‑5.1‑Codex‑Max samostalno refaktorira Codex CLI repozitorij otvorenog koda.

Kako se dužina sesije približava kontekstnom prozoru modela, sesija se automatski sažima kako bi se oslobodio prostor za nastavak zadatka bez gubitka napretka.

Video je skraćen i ubrzan radi jasnoće.

Izgradnja sigurnih i pouzdanih AI agenata

GPT‑5.1‑Codex‑Max postiže značajno bolje rezultate na evaluacijama koje zahtijevaju kontinuirano, dugoročno rezonovanje. Zahvaljujući sposobnosti koherentnog rada kroz više kontekst prozora uz korištenje sažimanja, model donosi poboljšane rezultate u izazovima u područjima kao što su dugoročno kodiranje i kibernetička sigurnost. Analizirali smo rezultate performansi ovog modela na evaluacijama prve i treće strane u GPT‑5.1‑Codex‑Max sistemskoj kartici.

GPT‑5.1‑Codex‑Max ne dostiže visok nivo sposobnosti u oblasti kibernetičke sigurnosti prema našem Frameworku za spremnost , ali je to najsposobniji model kibernetičke sigurnosti koji smo do sada implementirali, a agentske sposobnosti kibernetičke sigurnosti se brzo razvijaju. Kao rezultat toga, poduzimamo korake kako bismo se pripremili za visoke sposobnosti u oblasti kibernetičke sigurnosti i poboljšavamo naše zaštitne mjere u kibernetičkom domenu te radimo na tome da osiguramo da branitelji mogu imati koristi od ovih poboljšanih mogućnosti putem programa poput Aardvark.

Kada smo pokrenuli GPT‑5‑Codex, implementirali smo namjenski nadzor specifičan za kibernetičku sigurnost kako bismo otkrili i prekinuli zlonamjerne aktivnosti. Iako nismo primijetili značajan porast zloupotrebe u većem obimu, pripremamo dodatne mjere ublažavanja za napredne mogućnosti. Naši timovi su već poremetili sajber operacije koje su pokušavale zloupotrijebiti naše modele, a sumnjive aktivnosti se usmjeravaju na pregled putem naših sistema za praćenje politika.

Codex je dizajniran da predodređeno radi u sigurnom sandboxu: pisanje datoteka je ograničeno na njegov radni prostor, a pristup mreži je onemogućen osim ako ga programer ne omogući. Preporučujemo da Codex ostane u ovom režimu ograničenog pristupa, jer omogućavanje interneta ili web pretrage može uvesti rizike upit-injekcije iz nepouzdanog sadržaja.

Kako Codex postaje sposobniji za dugotrajne zadatke, sve je važnije da programeri pregledaju rad agenta prije nego što naprave promjene ili ga implementiraju u produkciju. Da bi pomogao u tome, Codex izrađuje logove terminala i navodi pozive svojih alata i rezultate testova. Iako pregledi koda smanjuju rizik od implementacije grešaka koje su proizveli modeli ili ljudi u produkciju, Codex treba tretirati kao dodatnog recenzenta, a ne kao zamjenu za ljudske recenzije.

Sposobnosti kibernetičke sigurnosti mogu se koristiti i za odbranu i za napad, pa primjenjujemo iterativni pristup implementaciji: učenje iz stvarne upotrebe, ažuriranje zaštitnih mjera i očuvanje važnih odbrambenih alata kao što su automatizirano skeniranje ranjivosti i pomoć u sanaciji.

Dostupnost

GPT‑5.1‑Codex‑Max je dostupan u Codexu uz planove ChatGPT Plus, Pro, Business, Edu i Enterprise. Za detalje o tome kako ograničenja korištenja funkcionišu za vaš plan, molimo vas da pogledate našu dokumentaciju(otvara se u novom prozoru).

Za programere koji koriste Codex CLI putem API ključa, planiramo uskoro učiniti GPT‑5.1‑Codex‑Max dostupnim u API-ju.

Počevši od danas, GPT‑5.1‑Codex‑Max će zamijeniti GPT‑5.1‑Codex kao predodređeni model u Codex sučeljima. Za razliku od GPT‑5.1, koji je model opće namjene, preporučujemo da koristite GPT‑5.1‑Codex‑Max i porodicu modela Codex samo za zadatke agentnog kodiranja u Codexu ili okruženjima sličnim Codexu.

Zaključak

GPT‑5.1‑Codex‑Max pokazuje koliko su modeli napredovali u održavanju dugoročnih zadataka kodiranja, upravljanju složenim radnim procesima i stvaranju visokokvalitetnih implementacija s daleko manjim brojem tokena. Vidjeli smo da model u kombinaciji sa stalnim nadogradnjama našeg CLI-ja, IDE ekstenzije, integracije s oblakom i alata za pregled koda rezultira izuzetno povećanom produktivnošću inženjeringa: interno, 95% OpenAI inženjera koristi Codex sedmično, a ovi inženjeri šalju otprilike 70% više pull requestova otkako su usvojili Codex. Dok pomičemo granice onoga što agenti mogu uraditi, uzbuđeni smo vidjeti što ćete s njima izgraditi.

Dodatak: Evaluacije modela

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Verified (n=500)

73,7%

77,9%

SWE-Lancer IC SWE

66,3%

79,9%

Terminal-Bench 2.0

52,8%

58,1%

Autor

OpenAI