Прескокни до главната содржина
OpenAI

19 ноември 2025 г.

ПроизводИздание

Градење повеќе со GPT‑5.1‑Codex‑Max

Се вчитува...

Вовед

Го претставуваме GPT‑5.1‑Codex‑Max, нашиот нов најсовремен модел на агентско кодирање, достапен во Codex денес.  GPT‑5.1‑Codex‑Max е изграден врз основа на ажурирање на нашиот основен модел на расудување, кој е обучен за агентски задачи во софтверско инженерство, математика, истражување и многу повеќе. GPT‑5.1‑Codex‑Max е побрз, поинтелигентен и ефикасен со повеќе токени во секоја фаза од развојниот циклус – и нов чекор кон станување сигурен партнер за кодирање.

GPT‑5.1‑Codex‑Max е изграден за долготрајна, детална работа. Тоа е нашиот прв модел кој од почеток е обучен да работи низ повеќе прозорци за контекст низ процес наречен компакција, кој работи усогласено низ милиони токени во една задача. Ова овозможува реструктурирање на ниво на проект, длабински сесии за отстранување грешки од кодови и мулти-часовни циклуси на агенти.

Денес GPT‑5.1‑Codex‑Max е достапен во Codex за употреба во CLI, IDE екстензија, облак и преглед на код, а наскоро ќе има и пристап до API.

Можности за најсовремено кодирање

GPT‑5.1‑Codex‑Max е обучен на реални задачи во софтверското инженерство, како што се креирање PR, преглед на код, кодирање на фронтенд и прашања и одговори, и ги надминува нашите поранешните модели на многу современи проценки за кодирање. Придобивките на моделот за референтни тестови доаѓаат и со подобрувања во реалната употреба: GPT‑5.1‑Codex‑Max е првиот модел што го обучивме да работи во Windows средини, а обуката на моделот сега вклучува задачи што се наменети да го направат подобар соработник во Codex CLI.

* Сите евалуации се извршени со овозможено компактирање при екстра висок напор за расудување
* Terminal-Bench2.0 работеше со Codex CLI во
Laude Institute Harbor harness(се отвора во нов прозорец)

Брзина и цена

GPT‑5.1‑Codex‑Max покажува значителни подобрувања во ефикасноста на токените поради поефикасното расудување. На SWE-bench Verified, GPT‑5.1‑Codex‑Max со „среден“ напор за расудување постигнува подобри перформанси од GPT‑5.1‑Codex со ист напор за расудување, додека користи 30% помалку токени за размислување. За задачи кои не се чувствителни на латентност, воведуваме и ново екстра високо („xhigh“) ниво на расудување, кое размислува дури и подолго за да обезбеди подобар одговор. Сепак, за повеќето задачи во секојдневното работење препорачуваме средно ниво на расудување.

Очекуваме подобрувањата на ефикасноста на токени да се претворат во реални заштеди за развивачите на софтвер.

На пример, GPT‑5.1‑Codex‑Max може да произведе висококвалитетни современи дизајни со слична функционалност и естетика, но по многу пониска цена од GPT‑5.1‑Codex.

Промпт: Генерирај самостојна апликација за прелистување што прикажува интерактивна контролирана средина CartPole RL со canvas-графика, регулатор на стратегија за прелевање, метрика и визуализатор на SVG-мрежа.

Функции

  • Мора да знае да се обучи за стратегија за да го усоврши моделот во столбот ао количка
  • Визуализатор за активирањата/тежините кога моделот е во обука или е на инференција
  • Чекори во епизодата, награди во оваа епизода
  • Време на опстанување и најдобро време на опстанување во чекори

Зачувај во index.html

Долготрајни задачи

Компакцијата му овозможува на GPT‑5.1‑Codex‑Max да заврши задачи кои претходно не би биле успешни поради ограничувања на прозорецот за контекст, како што се сложени реструктурирања и долготрајни агентски циклуси, преку губење на историјата, но зачувување на најважниот контекст од долги временски периоди. Во Codex апликации, GPT‑5.1‑Codex‑Max автоматски ја компактира својата сесија кога ќе се приближи до ограничувањењто на прозорецот за контекст, со што овозможува нов прозорец за контекст. Ова го повторува додека не ја заврши задачата.

Способноста за одржување усогласено работење на долги временски периоди е основна способност на патот кон поопшти, посигурни системи со вештачка интелигенција. GPT‑5.1‑Codex‑Max може самостојно да работи со часови. Во нашите интерни проценки, следевме како GPT‑5.1‑Codex‑Max работи на задачи повеќе од 24 часа. Постојано ја итерира својата имплементација, ги поправа неуспешните тестови и на крај испорачува успешен резултат.

Во овој пример, GPT‑5.1‑Codex‑Max независно го реструктурира складиштето на отворениот код Codex CLI.

Како што должината на сесијата се приближува до прозорецот за контекст на моделот, сесијата автоматски се компактира за да се ослободи простор и задачата да продолжи без губење на напредокот.

Видеото е скратено и забрзано за да биде појасно.

Изградба на безбедни и доверливи агенти за вештачка интелигенција

GPT‑5.1‑Codex‑Max функционира значително подобро на проценки кои бараат одржливо, долгорочно расудување. Бидејќи може кохерентно да работи низ повеќе прозорци за контекст со помош на компактирање, моделот дава подобрени резултати за предизвиците во области како кодирање подолг временски период и сајбер-безбедност. Ги анализиравме резултатите од перформансите на овој модел на проценки извршени од прво и трето лице во системска картичка на GPT‑5.1‑Codex‑Max.

GPT‑5.1‑Codex‑Max не достигнува висок капацитет за сајбер-безбедност според нашата Рамка за подготвеност , но тоа е најспособниот модел за сајбер-безбедност што сме го распоредиле досега, а агентските способности за сајбер-безбедност бргу се развиваат. Затоа, преземаме чекори за да се подготвиме за висока способност за сајбер-безбедност и ги подобруваме заштитните мерки во сајбер-доменот и работиме на тоа да се осигураме дека бранителите можат да имаат корист од овие подобрени способности преку програми како Aardvark.

Кога го лансиравме GPT‑5‑Codex, имплементиравме наменско следење за сајбер-безбедност за откривање и спречување на злонамерни активности. Иако не забележавме значително зголемување на злоупотребата во голем обем, подготвуваме дополнителни мерки за ублажување за напредните можности. Нашите тимови веќе ги прекинаа сајбер-операциите кои се обидуваа да ги злоупотребат нашите модели, а сомнителните активности се насочуваат на преглед преку нашите системи за следење на политики.

Codex е дизајниран стандардно да работи во безбедна, контролирана средина: запишувањето на датотеки е ограничено на неговиот работен простор, а пристапот до мрежата е оневозможен освен ако развивачот на софтвер не го вклучи. Препорачуваме да го задржите Codex во овој режим со ограничен пристап, бидејќи овозможувањето на интернет или пребарување на интернет може да доведе до опасности како што е инјектирање на промпти од недоверлива содржина.

Како што Codex станува поспособен за долгорочни задачи, сè поважно е развивачите на софтвер да ја прегледаат работата на агентот пред да направат промени или да ги имплементираат во продукција. За да помогне со ова, Codex произведува терминални евиденции и ги наведува повиците на алатки и резултатите од тестовите. Иако прегледите на кодот го намалуваат ризикот од распоредување на грешки произведени од модел или луѓе во продукција, Codex треба да се третира како дополнителен прегледувач, а не како замена за човечки прегледи.

Способностите за сајбер-безбедност можат да се користат и за одбрана и за напад, па затоа применуваме итеративен пристап на распоредување: учење од реалната употреба, ажурирање на заштитните мерки и зачувување на важни одбранбени алатки како што се автоматско скенирање на ранливости и помош при отстранување.

Достапност

GPT‑5.1‑Codex‑Max е достапен во Codex со плановите ChatGPT Plus, Pro, Business, Edu и Enterprise. За детали за тоа како функционираат ограничувањата за употреба за твојот план, погледни ја нашата документација(се отвора во нов прозорец).

За развивачите на софтвер кои го користат Codex CLI преку API-клуч, планираме наскоро да го направиме GPT‑5.1‑Codex‑Max достапен во API.

Почнувајќи од денес, GPT‑5.1‑Codex‑Max ќе го замени GPT‑5.1‑Codex како стандарден модел на Codex површините. За разлика од GPT‑5.1, кој е модел за општа намена, препорачуваме употреба на GPT‑5.1‑Codex‑Max и семејството на модели Codex само за задачи за агентско кодирање во Codex или средини слични на Codex.

Заклучок

GPT‑5.1‑Codex‑Max покажува колку далеку стигнале моделите во одржување на задачи за кодирање на подолги временски периоди, управување со сложени работни текови и производство на висококвалитетни имплементации со многу помалку токени. Го видовме моделот во комбинација со постојани надградби на нашиот CLI, IDE екстензија, интеграција во облак и алатки за преглед на код, што резултира со суперзасилена инженерска продуктивност: интерно, 95% од инженерите на OpenAIpenAI го користат Codex секоја недела и овие инженери испраќаат околу 70% повеќе барања за интеграција откако го прифатија Codex. Додека ја поместуваме границата на она што агентите се способни да го направат, возбудени сме да видиме што ќе изградиш со нив.

Додаток: проценки на моделот

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Verified (n=500)

73,7%

77,9%

SWE-Lancer IC SWE

66,3%

79,9%

Terminal-Bench 2.0

52,8%

58,1%

Автор

OpenAI