Пређите на главни садржај
OpenAI

19. новембар 2025.

ПроизводИздање

Градите више уз GPT‑5.1‑Codex‑Max

Учитавање…

Увод

Представљамо GPT‑5.1‑Codex‑Max, наш нови гранични агентски модел за кодирање, који је од данас доступан у Codex-у. GPT‑5.1‑Codex‑Max је заснован на ажурирању нашег основног модела резоновања, који је обучен на агентским задацима у софтверском инжењерству, математици, истраживању и још много тога. GPT‑5.1‑Codex‑Max је бржи, интелигентнији и ефикаснији по питању токена у свакој фази развојног циклуса — и представља нови корак ка томе да постане поуздан партнер за кодирање.

GPT‑5.1‑Codex‑Max је направљен за дуготрајан, детаљан рад. То је наш први модел који је изворно обучен да ради кроз више контекстних прозора помоћу процеса који зовемо сажимање, кохерентно радећи са милионима токена у оквиру једног задатка. То омогућава рефакторисања на нивоу пројекта, дубоке сесије отклањања грешака и вишечасовне петље агента.

GPT‑5.1‑Codex‑Max је већ данас доступан у Codex-у за коришћење у CLI-ју, IDE екстензији, cloud-у и прегледу кода, а API приступ ускоро стиже.

Граничне могућности кодирања

GPT‑5.1‑Codex‑Max је обучен на стварним задацима софтверског инжењерства, као што су креирање PR-ова, преглед кода, frontend кодирање и питања и одговори, и надмашује наше претходне моделе на многим граничним евалуацијама кодирања. Напредак модела на бенчмарковима прати и побољшања у стварној употреби: GPT‑5.1‑Codex‑Max је први модел који смо обучили да ради у Windows окружењима, а обука модела сада укључује и задатке осмишљене да га учине бољим сарадником у Codex CLI-ју.

* Све евалуације су покренуте са укљученим сажимањем на Extra High нивоу напора резоновања
* Terminal-Bench2.0 је покренут са Codex CLI-јем у
Laude Institute Harbor harness-у(отвара се у новом прозору)

Брзина и цена

GPT‑5.1‑Codex‑Max показује значајна побољшања у ефикасности токена захваљујући делотворнијем резоновању. На SWE-bench Verified, GPT‑5.1‑Codex‑Max са „medium“ нивоом напора резоновања постиже боље резултате него GPT‑5.1‑Codex са истим нивоом напора резоновања, док користи 30% мање токена за размишљање. За задатке који нису осетљиви на кашњење, такође уводимо нови Extra High („xhigh“) ниво напора резоновања, који размишља још дуже ради бољег одговора. И даље препоручујемо medium као подразумевани избор за већину свакодневних задатака.

Очекујемо да ће се побољшања у ефикасности токена преточити у стварне уштеде за програмере.

На пример, GPT‑5.1‑Codex‑Max може да произведе квалитетне frontend дизајне са сличном функционалношћу и естетиком, али по много нижој цени од GPT‑5.1‑Codex‑а.

Инструкција: Генериши једну самосталну апликацију за прегледач која приказује интерактивни CartPole RL sandbox са canvas графиком, малим контролером policy-gradient, метрикама и SVG визуализатором мреже.

Функционалности

  • Мора заиста да може да обучи политику како би модел био бољи у cart pole-у
  • Визуализатор активација/тежина када се модел обучава или током инференције
  • Кораци у епизоди, награде у овој епизоди
  • Последње време преживљавања и најбоље време преживљавања у корацима

Сачувај у index.html

Дуготрајни задаци

Сажимање омогућава GPT‑5.1‑Codex‑Max‑у да доврши задатке који би раније отказали због ограничења контекстног прозора, као што су сложена рефакторисања и дуготрајне петље агента, тако што скраћује своју историју уз очување најважнијег контекста током дугих временских хоризоната. У Codex апликацијама, GPT‑5.1‑Codex‑Max аутоматски сажима своју сесију када се приближи ограничењу контекстног прозора, дајући себи свеж контекстни прозор. Понавља овај процес све док задатак не буде завршен.

Способност одржавања кохерентног рада током дугих временских хоризоната је темељна способност на путу ка општијим и поузданијим AI системима. GPT‑5.1‑Codex‑Max може самостално да ради сатима. У нашим интерним евалуацијама, посматрали смо како GPT‑5.1‑Codex‑Max ради на задацима дуже од 24 часа. Упорно ће понављати итерације над имплементацијом, исправљати падове тестова и на крају испоручити успешан резултат.

У овом примеру, GPT‑5.1‑Codex‑Max самостално рефакторише open source депо Codex CLI.

Како се дужина сесије приближава контекстном прозору модела, он аутоматски сажима сесију да ослободи простор и настави задатак без губитка напретка.

Видео је скраћен и убрзан ради прегледности.

Изградња безбедних и поузданих AI агената

GPT‑5.1‑Codex‑Max остварује знатно боље резултате на евалуацијама које захтевају дуготрајно резоновање на великим временским хоризонтима. Пошто може кохерентно да ради кроз више контекстних прозора користећи сажимање, модел даје боље резултате на изазовима у областима као што су дуготрајно кодирање и сајбер-безбедност. Анализирали смо резултате перформанси овог модела на евалуацијама прве и треће стране у GPT‑5.1‑Codex‑Max системској картици.

GPT‑5.1‑Codex‑Max не достиже High capability у сајбер-безбедности према нашем Оквиру спремности али је то најспособнији модел за сајбер-безбедност који смо до сада применили, а агентске способности у сајбер-безбедности брзо се развијају. Због тога предузимамо кораке да се припремимо за High capability у сајбер-безбедности, унапређујемо наше заштитне мере у сајбер домену и радимо на томе да браниоци могу имати користи од ових побољшаних способности кроз програме као што је Aardvark.

Када смо представили GPT‑5‑Codex, увели смо наменски надзор специфичан за сајбер-безбедност како бисмо открили и прекинули злонамерне активности. Иако нисмо уочили значајно повећање злоупотребе у већем обиму, припремамо додатне мере ублажавања за напредне способности. Наши тимови су већ омели сајбер операције које су покушавале да злоупотребе наше моделе, а сумњиве активности се прослеђују на преглед кроз наше системе надзора политика.

Codex је подразумевано осмишљен да ради у безбедном sandbox-у: уписивање датотека је ограничено на његов радни простор, а приступ мрежи је онемогућен осим ако га програмер не укључи. Препоручујемо да Codex остане у овом режиму ограниченог приступа, јер омогућавање интернета или веб претраге може увести ризике од инјекције инструкција из непоузданог садржаја.

Како Codex постаје способнији за дуготрајне задатке, све је важније да програмери прегледају рад агента пре измена или пуштања у продукцију. Да би у томе помогао, Codex производи терминалске логове и наводи своје позиве алата и резултате тестова. Иако његови прегледи кода смањују ризик од пуштања у продукцију багова које је произвео модел или човек, Codex треба третирати као додатног рецензента, а не као замену за људске прегледе.

Способности у сајбер-безбедности могу се користити и за одбрану и за напад, па зато примењујемо итеративни приступ пуштању: учимо из стварне употребе, ажурирамо заштитне мере и чувамо важне одбрамбене алате као што су аутоматизовано скенирање рањивости и помоћ у отклањању проблема.

Доступност

GPT‑5.1‑Codex‑Max је доступан у Codex-у уз ChatGPT Plus, Pro, Business, Edu и Enterprise планове. За детаље о томе како ограничења употребе функционишу за ваш план, погледајте нашу документацију(отвара се у новом прозору).

За програмере који користе Codex CLI преко API кључа, планирамо да GPT‑5.1‑Codex‑Max ускоро учинимо доступним у API-ју.

Почев од данас, GPT‑5.1‑Codex‑Max ће заменити GPT‑5.1‑Codex као подразумевани модел на Codex површинама. За разлику од GPT‑5.1, који је модел опште намене, препоручујемо коришћење GPT‑5.1‑Codex‑Max‑а и породице модела Codex само за агентске задатке кодирања у Codex-у или окружењима сличним Codex-у.

Закључак

GPT‑5.1‑Codex‑Max показује колико су модели напредовали у одржавању дуготрајних задатака кодирања, управљању сложеним токовима рада и производњи висококвалитетних имплементација са далеко мање токена. Видели смо да модел, у комбинацији са сталним унапређењима нашег CLI-ја, IDE екстензије, cloud интеграције и алата за преглед кода, доводи до драматично повећане инжењерске продуктивности: интерно, 95% OpenAI инжењера користи Codex сваке недеље, а ти инжењери испоручују око 70% више захтева за преглед измена откако су усвојили Codex. Док померамо границе онога што агенти могу да ураде, узбуђени смо да видимо шта ћете изградити с њима.

Додатак: Евалуације модела

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Verified (n=500)

73.7%

77.9%

SWE-Lancer IC SWE

66.3%

79.9%

Terminal-Bench 2.0

52.8%

58.1%

Аутор

OpenAI