Преминаване към основното съдържание
OpenAI

19 ноември 2025 г.

ПродуктПускане

Изграждане на повече с GPT‑5.1‑Codex‑Max

$ npm i -g @openai/codex
Зареждане…

Въведение

Представяме ви GPT‑5.1‑Codex‑Max, нашият нов модел от най-висок клас за агентно кодиране, достъпен в Codex днес.  GPT‑5.1‑Codex‑Max е изграден върху актуализация на нашия основен модел на разсъждение, който е обучен за агентни задачи в софтуерното инженерство, математиката, научните изследвания и други. GPT‑5.1‑Codex‑Max е по-бърз, по-интелигентен и по-ефективен по отношение на токените на всеки етап от цикъла на разработка – и нова стъпка към това да стане надежден партньор за програмиране.

GPT‑5.1‑Codex‑Max е създаден за продължителна, детайлна работа. Това е първият ни модел, който е обучен да работи в множество контекстни прозорци чрез процес, наречен уплътняване, като последователно работи с милиони токени в рамките на една задача. Това отключва рефактори на проектен мащаб, дълбоки сесии за отстраняване на грешки и многочасови цикли на агентите.

GPT‑5.1‑Codex‑Max е наличен в Codex днес за използване в CLI, разширението на IDE, облака и прегледа на кода, а достъпът до API предстои скоро.

Възможности за кодиране от най-висок клас

GPT‑5.1‑Codex‑Max е обучен на реални задачи за софтуерно инженерство, като създаване на PR, преглед на кода, фронтенд кодиране и Q&A, и превъзхожда предишните ни модели при много оценки на кодиране от най-висок клас. Постиженията на модела в еталоните също така водят до подобрения в реалната употреба: GPT‑5.1‑Codex‑Max е първият модел, който сме обучили да работи в Windows среди, а обучението на модела вече включва задачи, предназначени да го направят по-добър сътрудник в Codex CLI.

* Всички оценки бяха изпълнени с активирано уплътняване при екстра високо ниво на разсъждаване
* Terminal-Bench2.0 работеше с Codex CLI в
Laude Institute Harbor harness(отваря се в нов прозорец)

Скорост и цена

GPT‑5.1‑Codex‑Max показва значителни подобрения в ефективността на токените благодарение на по-ефективното разсъждаване. При SWE-bench Verified, GPT‑5.1‑Codex‑Max със „средно“ усилие на разсъждаване постига по-добра производителност от GPT‑5.1‑Codex със същото усилие на разсъждаване, като същевременно се използват 30% по-малко токени за мислене. За задачи, които не са чувствителни към забавяне, въвеждаме и ново ниво на разсъждаване екстра високо („xвисоко“), което мисли за още по-дълъг период от време, за да намери по-добър отговор. Все още препоръчваме средния вариант като основен избор за повечето задачи.

Очакваме подобренията в ефективността на токените да доведат до реални икономии за разработчиците.

Например GPT‑5.1‑Codex‑Max може да създава висококачествени дизайни на фронтенд с подобна функционалност и естетика, но на много по-ниска цена от GPT‑5.1‑Codex.

Подкана: Генерирайте едно самостоятелно приложение за браузър, което визуализира интерактивен пясъчник на CartPole RL с canvas графики, малък контролер за градиентите на политиката, метрики и SVG мрежов визуализатор.

Функции

  • Трябва да можете да обучавате политика, за да направите модела по-добър в количката
  • Визуализатор за активациите/теглата, когато моделът се обучава или при извод
  • Стъпки в епизода, награди в този епизод
  • Последно време за оцеляване и най-добро време за оцеляване в стъпки

Записване в index.html

Дълготрайни задачи

Уплътняването позволява на GPT‑5.1‑Codex‑Max да изпълнява задачи, които преди това не биха били успешни поради ограниченията на контекстния прозорец, като например сложни рефактори и дълготрайни цикли на агента, като съкращава историята си, запазвайки най-важния контекст в дълъг хоризонт. В приложения на Codex, GPT‑5.1‑Codex‑Max автоматично уплътнява сесията си, когато наближи лимита на контекстния прозорец, като му предоставя нов контекстен прозорец. Този процес се повтаря, докато задачата бъде завършена.

Способността да се поддържа съгласувана работа в дългосрочна перспектива е основна способност по пътя към по-общи и надеждни системи с ИИ. GPT‑5.1‑Codex‑Max може да работи самостоятелно в продължение на часове. В нашите вътрешни оценки наблюдавахме GPT‑5.1‑Codex‑Max да работи по задачи за повече от 24 часа. Той постоянно ще повтаря имплементацията си, ще отстранява неуспехите при тестовете и в крайна сметка ще постигне успешен резултат.

В този пример GPT‑5.1‑Codex‑Max самостоятелно извършва рефакториране на хранилището с отворен код Codex CLI.

Когато продължителността на сесията се приближи до контекстното прозорче на модела, тя автоматично се свива, за да освободи място за продължаване на задачата, без да се губи напредък.

Видеото е изрязано и ускорено за яснота.

Изграждане на безопасни и надеждни агенти с ИИ

GPT‑5.1‑Codex‑Max се представя значително по-добре на оценки, които изискват продължителни разсъждения с дългосрочна перспектива. Тъй като може да работи последователно в множество контекстни прозорци, използвайки уплътняване, моделът осигурява подобрени резултати при предизвикателства в области като кодиране с дългосрочна перспектива и киберсигурност. Анализирахме резултатите от представянето на този модел при оценки от първа и трета страна в GPT‑5.1‑Codex‑Max карта на системата.

GPT‑5.1‑Codex‑Max не постига висока степен на киберсигурност съгласно нашата рамка за готовност , но е най-способният модел за киберсигурност, който сме внедрявали до момента, а агентните способности за киберсигурност бързо се развиват. В резултат на това предприемаме стъпки за подготовка за високите способности в областта на киберсигурността, подобряваме защитните си мерки в киберпространството и работим, за да гарантираме, че защитниците могат да се възползват от тези подобрени способности чрез програми като Aardvark.

Когато стартирахме GPT‑5‑Codex, въведохме специален мониторинг, свързан с киберсигурността, за откриване и прекъсване на злонамерена дейност. Въпреки че не наблюдаваме значимо увеличение на мащаба на злоупотребите, подготвяме допълнителни мерки за намаляване на риска за разширени възможности. Екипите ни вече са прекъснали кибероперации, опитващи се да злоупотребят с нашите модели, а подозрителната дейност се насочва за преглед чрез нашите системи за мониторинг на политики.

По подразбиране Codex е проектиран да работи в защитен пясъчник: записите на файлове са ограничени до работното пространство, а достъпът до мрежата е деактивиран, освен ако разработчикът не го включи. Препоръчваме да поддържате Codex в този режим на ограничен достъп, тъй като включването на интернет или уеб търсене може да доведе до рискове от инжектиране на подкана от ненадеждно съдържание.

Тъй като Codex става все по-способен за изпълнение на дългосрочни задачи, за разработчиците е все по-важно да преглеждат работата на агента, преди да правят промени или да го внедряват в производството. За да подпомогне това, Codex създава терминални регистри и цитира своите извиквания на инструменти и резултати от тестове. Въпреки че прегледите на кода намаляват риска от внедряване в производството на грешки, създадени от модели или хора, Codex трябва да се третира като допълнителен преглед, а не като заместител на човешките прегледи.

Възможностите за киберсигурност могат да се използват както за защита, така и за нападение, затова прилагаме подход на повтарящо се внедряване: учим се от реалната употреба, актуализираме защитните мерки и запазваме важни защитни инструменти, като например автоматизирано сканиране на уязвимости и помощ за отстраняване на грешки.

Наличност

GPT‑5.1‑Codex‑Max е наличен в Codex с плановете ChatGPT Plus, Pro, Business, Edu и Enterprise. За подробна информация относно работата на лимитите за използване във вашия план, вижте нашите документи(отваря се в нов прозорец).

За разработчиците, които използват Codex CLI чрез API ключ, планираме скоро да направим GPT‑5.1‑Codex‑Max достъпен в API.

От днес GPT‑5.1‑Codex‑Max ще замени GPT‑5.1‑Codex като модел по подразбиране в повърхностите Codex. За разлика от GPT–5.1, който е модел с общо предназначение, препоръчваме да използвате GPT‑5.1‑Codex‑Max и семейството модели Codex само за задачи по кодиране на агенти в Codex или подобни на Codex среди.

Заключение

GPT‑5.1‑Codex‑Max показва колко далеч са стигнали моделите в поддържането на задачи за кодиране с дълга перспектива, управлението на сложни работни процеси и създаването на висококачествени реализации с много по-малко токени. Видяхме, че моделът, съчетан с постоянни подобрения на нашия CLI, разширението на IDE, интеграцията в облака и инструментите за преглед на кода, води до повишаване на производителността на инженерите: вътрешно 95% от инженерите на OpenAI използват Codex всяка седмица и тези инженери изпращат около 70% повече заявки за изтегляне след приемането на Codex. Тъй като разширяваме границите на възможностите на агентите, с нетърпение очакваме да видим какво ще изградите с тях.

Приложение: Оценки на модели

GPT‑5.1‑Codex (високо)

GPT‑5.1‑Codex‑Max (xвисоко)

SWE-bench Verified (n=500)

73,7%

77.9%

SWE-Lancer IC SWE

66,3%

79,9%

Terminal-Bench 2.0

52,8%

58,1%

Автор

OpenAI