Pāriet uz galveno saturu
OpenAI

2025. gada 19. novembris

ProduktsIzlaidums

Veidot vairāk ar GPT‑5.1‑Codex‑Max

Notiek ielāde…

Ievads

Mēs ieviešam GPT‑5.1‑Codex‑Max, mūsu jauno robežšķērsošanas aģentisko kodēšanas modeli, kas pašlaik pieejams Codex.  GPT‑5.1‑Codex‑Max ir veidots, pamatojoties uz mūsu pamata argumentācijas modeļa atjauninājumu, kas ir apmācīts aģentisko uzdevumu veikšanai programmatūras inženierijā, matemātikā, pētniecībā un citur. GPT‑5.1‑Codex‑Max ir ātrāks, gudrāks un efektīvāks marķieru izmantošanā katrā izstrādes cikla posmā, un tas ir jauns solis ceļā uz kļūšanu par uzticamu kodēšanas partneri.

GPT‑5.1‑Codex‑Max ir veidots ilgstošam, detalizētam darbam. Tas ir mūsu pirmais modelis, kas ir dabiski apmācīts darboties vairākos konteksta logos, izmantojot procesu, ko sauc par saspiešanu, saskaņoti strādājot ar miljoniem marķieru viena uzdevuma ietvaros. Tas paver iespējas veikt projekta mēroga pārveidojumus, dziļas atkļūdošanas sesijas un vairāku stundu aģentu cilpas.

GPT‑5.1‑Codex‑Max pašlaik ir pieejams Codex izmantošanai CLI, IDE paplašinājumā, mākonī un koda pārskatīšanā, un drīzumā būs pieejama API piekļuve.

Robežkodēšanas iespējas

GPT‑5.1‑Codex‑Max tika apmācīts reāliem programmatūras inženierijas uzdevumiem, piemēram, PR izveidei, koda pārskatīšanai, frontend kodēšanai un jautājumu un atbilžu sniegšanai, un pārspēj mūsu iepriekšējos modeļus daudzos robežkodēšanas novērtējumos. Modeļa ieguvumi etalonos nāk arī ar uzlabojumiem reālajā pasaulē: GPT‑5.1‑Codex‑Max ir pirmais modelis, ko esam mācījuši darboties Windows vidē, un modeļa mācības tagad ietver uzdevumus, kas paredzēti, lai padarītu to par labāku sadarbības partneri Codex CLI.

* Visi novērtējumi tika veikti ar iespējotu saspiešanu un īpaši augstu spriešanas piepūli.
* Terminal-Bench2.0 darbojās ar Codex CLI
Laude Institute Harbor instalācijā(atveras jaunā logā)

Ātrums un izmaksas

GPT‑5.1‑Codex‑Max uzrāda ievērojamus uzlabojumus tokenu efektivitātē, pateicoties efektīvākai loģiskai domāšanai. SWE-bench verificētā GPT‑5.1‑Codex‑Max ar "vidēju" argumentācijas piepūli sasniedz labāku veiktspēju nekā GPT‑5.1‑Codex. ar tādu pašu argumentācijas sniegumu, vienlaikus izmantojot par 30 % mazāk domāšanas marķieru. Uzdevumiem, kas nav jutīgi pret latentumu, mēs ieviešam arī jaunu Extra High (xhigh) apsvērumu līmeni, kas domā vēl ilgāku laika periodu, lai sniegtu labāku atbildi. Lielākajai daļai uzdevumu mēs joprojām iesakām vidējo draiveri.

Mēs sagaidām, ka marķieru efektivitātes uzlabojumi izstrādātājiem radīs reālus ietaupījumus.

Piemēram, GPT‑5.1‑Codex‑Max spēj izveidot augstas kvalitātes frontend dizainus ar līdzīgu funkcionalitāti un estētiku, bet par daudz zemākām izmaksām nekā GPT‑5.1‑Codex.

Uzvedne: Ģenerē vienu pašpietiekamu pārlūka lietotni, kas attēlo interaktīvu CartPole RL smilškasti ar canvas grafiku, nelielu politikas gradienta kontrolieri, metriku un SVG tīkla vizualizatoru.

Funkcijas

  • Jābūt iespējai faktiski apmācīt politiku, lai modelis būtu labāks pie cart pole
  • Vizualizators aktivizācijai/svariem, kad modelis mācās vai izdara secinājumus
  • Soļi epizodē, atlīdzības šajā epizodē
  • Pēdējais izdzīvošanas laiks un labākais izdzīvošanas laiks soļos

Saglabāt kā index.html

Ilgstoši veicamie uzdevumi

Saspiešana ļauj GPT‑5.1‑Codex‑Max pabeigt uzdevumus, kas iepriekš neizdevās konteksta loga ierobežojumu dēļ, piemēram, sarežģītu refaktoru un ilgstošu aģentu cilpu, apgriežot tā vēsturi, vienlaikus saglabājot vissvarīgāko kontekstu ilgtermiņā. Codex lietojumprogrammās GPT‑5.1‑Codex‑Max Automātiski saspiež sesiju, kad tā tuvojas konteksta loga ierobežojumam, piešķirot tai jaunu konteksta logu. Tas atkārto šo procesu, līdz uzdevums ir pabeigts.

Spēja uzturēt saskaņotu darbu ilgtermiņā ir pamata prasme ceļā uz vispārīgākām un uzticamākām mākslīgā intelekta sistēmām. GPT‑5.1‑Codex‑Max var strādāt neatkarīgi vairākas stundas vienā reizē. Mūsu iekšējos novērtējumos esam novērojuši GPT‑5.1‑Codex‑Max strādājot pie uzdevumiem ilgāk par 24 stundām. Tas pastāvīgi atkārtos savu ieviešanu, novērsīs testu kļūmes un galu galā nodrošinās veiksmīgu rezultātu.

Šajā piemērā GPT‑5.1‑Codex‑Max neatkarīgi refaktorē Codex CLI atvērtā pirmkoda repozitoriju.

Kad sesijas ilgums tuvojas modeļa konteksta logam, tas automātiski saspiež sesiju, lai atbrīvotu vietu un turpinātu uzdevumu, nezaudējot progresu.

Video ir apgriezts un paātrināts, lai būtu skaidrāks.

Drošu un uzticamu mākslīgā intelekta aģentu izveide

GPT‑5.1‑Codex‑Max ievērojami labāk darbojas novērtējumos, kuriem nepieciešama ilgstoša, tālejoša argumentācija. Tā kā modelis var saskaņoti darboties vairākos konteksta logos, izmantojot saspiešanu, tas sniedz uzlabotus rezultātus tādu izaicinājumu risināšanā kā ilgtermiņa kodēšana un kiberdrošība. Mēs analizējām šī modeļa veiktspējas rezultātus pirmās un trešās puses novērtējumos GPT‑5.1‑Codex‑Max sistēmas kartē.

GPT‑5.1‑Codex‑Max nesasniedz augstu kiberdrošības spēju līmeni saskaņā ar mūsu gatavības sistēmu , taču tas ir visspējīgākais kiberdrošības modelis, ko esam līdz šim izvietojuši, un aģentiskās kiberdrošības spējas strauji attīstās. Tā rezultātā mēs veicam pasākumus, lai sagatavotos augstām kiberdrošības spējām un uzlabojam mūsu aizsardzības pasākumus kiberdrošības domēnā, strādājot, lai nodrošinātu, ka aizstāvji var gūt labumu no šīm uzlabotajām spējām, izmantojot tādas programmas kā Aardvark.

Kad mēs palaidām GPT‑5‑Codex, mēs ieviesām īpašu kiberdrošības uzraudzību, lai atklātu un pārtrauktu ļaunprātīgas darbības. Lai gan mēs neesam novērojuši būtisku mērogotās ļaunprātīgas izmantošanas pieaugumu, mēs gatavojam papildu mazināšanas pasākumus uzlabotām iespējām. Mūsu komandas jau ir izjaukušas kiberoperācijas, kas mēģinājušas ļaunprātīgi izmantot mūsu modeļus, un aizdomīgas darbības tiek novirzītas pārskatīšanai caur mūsu politikas uzraudzības sistēmām.

Codex pēc noklusējuma ir paredzēts darbam drošā izmēģināšanas vidē: failu rakstīšana ir ierobežota līdz tā darba kopijai, un piekļuve tīklam ir atspējota, ja vien izstrādātājs to neieslēdz. Mēs iesakām saglabāt Codex ierobežotas piekļuves režīmā, jo meklēšanas internetā vai tīmeklī iespējošana var radīt uzvednes injekcijas riskus no neuzticama satura.

Tā kā Codex kļūst arvien spējīgāks ilgstošu uzdevumu veikšanā, izstrādātājiem ir arvien svarīgāk pārskatīt aģenta darbu pirms izmaiņu veikšanas vai nodošanas ražošanā. Lai to atvieglotu, Codex ģenerē termināļa žurnālus un norāda savus rīku izsaukumus un testu rezultātus. Lai gan Codex koda pārskatīšana samazina modeļa vai cilvēku radītu kļūdu ieviešanas risku ražošanas vidē, Codex būtu jāuzskata par papildu recenzentu, nevis par cilvēku veiktas pārskatīšanas aizstājēju.

Kiberdrošības iespējas var izmantot gan aizsardzībai, gan uzbrukumam, tāpēc mēs izmantojam iteratīvu izvietošanas pieeju: mācoties no reālās pasaules izmantošanas, atjauninot aizsardzības pasākumus un saglabājot svarīgus aizsardzības rīkus, piemēram, automatizētu ievainojamības skenēšanu un novēršanas palīdzību.

Pieejamība

GPT‑5.1‑Codex‑Max ir pieejams Codex ar ChatGPT Plus, Pro, Business, Edu un Enterprise plāniem. Lai iegūtu sīkāku informāciju par to, kā darbojas lietošanas ierobežojumi jūsu plānam, lūdzu, skatiet mūsu dokumentāciju(atveras jaunā logā).

Izstrādātājiem, kas izmanto Codex CLI ar API atslēgu, mēs plānojam padarīt pieejamu GPT‑5.1‑Codex‑Max, kas drīzumā būs pieejams API.

Sākot ar šodienu, GPT‑5.1‑Codex‑Max aizstās GPT‑5.1‑Codex kā noklusējuma modelis Codex virsmās. Atšķirībā no GPT‑5.1, kas ir vispārējas nozīmes modelis, mēs iesakām izmantot GPT‑5.1‑Codex‑Max un Codex modeļu saimi tikai aģentiskajiem kodēšanas uzdevumiem Codex vai Codex līdzīgās vidēs.

Secinājums

GPT‑5.1‑Codex‑Max demonstrē, cik tālu modeļi ir attīstījušies ilgtermiņa kodēšanas uzdevumu uzturēšanā, sarežģītu darbplūsmu pārvaldībā un augstas kvalitātes ieviešanu radīšanā ar daudz mazāk tokeniem. Esam novērojuši, ka modelis, apvienojumā ar pastāvīgiem uzlabojumiem mūsu CLI, IDE paplašinājumā, mākoņa integrācijā un koda pārskatīšanas rīkos, ir ievērojami paaugstinājis inženiertehnisko produktivitāti: iekšēji 95 % OpenAI inženieru katru nedēļu izmanto Codex, un kopš Codex ieviešanas šie inženieri veic aptuveni par 70 % vairāk izvilkšanas pieprasījumu. Mēs paplašinām aģentu spēju robežas un ar nepacietību gaidām, ko tu ar tiem radīsi.

Pielikums: modeļu novērtējumi

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench verificēts (n=500)

73,7 %

77,9%

SWE-Lancer IC SWE

66,3 %

79,9 %

Terminal-Bench 2.0

52,8 %

58,1 %

Autors

OpenAI