Перейти до основного вмісту
OpenAI

19 листопада 2025 р.

ПродуктВипуск

Створюйте більше з GPT‑5.1‑Codex‑Max

Завантаження…

Вступна частина

Ми представляємо GPT‑5.1‑Codex‑Max, нашу нову передову модель агентного кодування frontier, доступну відсьогодні в Codex.  GPT‑5.1‑Codex‑Max побудовано на оновленні нашої базової моделі міркувань, яка тренується на агентних завданнях у сферах програмної інженерії, математики, досліджень тощо. GPT‑5.1‑Codex‑Max швидший, розумніший і ефективніший у використанні токенів на кожному етапі циклу розробки — і є новим кроком до того, щоб стати надійним партнером для програмування.

GPT‑5.1‑Codex‑Max призначений для тривалої та детальної роботи. Це наша перша модель, нативно навчена працювати з декількома контекстними вікнами за допомогою процесу, що має назву «ущільнення», узгоджено опрацьовуючи мільйони токенів в одному завданні. Це відкриває можливості для рефакторингу на рівні проєкту, глибоких сеансів налагодження та багатогодинних циклів роботи агентів.

GPT‑5.1‑Codex‑Max доступний у Codex відсьогодні для використання в CLI, розширенні IDE, хмарі та для перегляду коду; доступ до API з'явиться незабаром.

Передові можливості кодування

GPT‑5.1‑Codex‑Max був навчений на реальних завданнях з інженерії програмного забезпечення, таких як створення PR, рецензування коду, фронтенд-розробка та Q&A, і перевершує наші попередні моделі в багатьох передових оцінках кодування. Покращення моделі в тестах також супроводжуються покращенням реального використання: GPT‑5.1‑Codex‑Max — це перша модель, яку ми навчили працювати в середовищах Windows, а навчання моделі тепер включає завдання для кращої співпраці з CLI Codex.

* Усі оцінки проводилися з увімкненим ущільненням на рівні зусиль Extra High
* Terminal-Bench2.0 працював із CLI Codex у
Laude Institute Harbor harness(відкривається у новому вікні)

Швидкість та вартість

GPT‑5.1‑Codex‑Max демонструє значне покращення ефективності токенів завдяки більш ефективному міркуванню. На платформі SWE-bench Verified GPT‑5.1‑Codex‑Max із «середнім» рівнем міркування досягає кращої продуктивності, ніж GPT‑5.1‑Codex з тими ж зусиллями на міркування, використовуючи при цьому на 30% менше токенів. Для завдань, не чутливих до затримки, ми також впроваджуємо новий рівень зусиль міркування Extra High («xhigh»), який думає ще довше для покращення відповіді. Ми все ще рекомендуємо середній варіант як основний засіб для виконання більшості завдань.

Ми очікуємо, що покращення ефективності токенів призведуть до реальної економії для розробників.

Наприклад, GPT‑5.1‑Codex‑Max здатний створювати високоякісні фронтенд-розробки з подібною функціональністю та естетикою, але за значно нижчою вартістю, ніж GPT‑5.1‑Codex.

Запит: Створи єдиний автономний браузерний додаток, який відтворює інтерактивну пісочницю CartPole RL з графікою на полотні, крихітним контролером градієнта політик, метриками та візуалізатором мережі SVG.

Функції

  • Має вміти фактично навчати політику, щоб покращити роботу моделі в CartPole
  • Потрібен візуалізатор для активацій/вагів під час навчання моделі або під час отримання висновків
  • Етапи в епізоді, винагороди за цей епізод
  • Остання тривалість роботи без відмови та найкраща тривалість у етапах

Зберегти у файл index.html

Тривалі завдання

Ущільнення дозволяє GPT‑5.1‑Codex‑Max виконувати завдання, які раніше не могли бути виконані через обмеження контекстного вікна, такі як складні рефакторинги та довготривалі цикли агентів, шляхом скорочення історії, зберігаючи при цьому найважливіший контекст на тривалі горизонти. У програмах Codex GPT‑5.1‑Codex‑Max автоматично ущільнює свій сеанс, коли наближається до межі контекстного вікна, надаючи нове контекстне вікно. Цей процес повторюється, доки завдання не буде виконано.

Здатність підтримувати узгоджену роботу протягом тривалого часу є основною здатністю на шляху до більш загальних, надійних систем штучного інтелекту. GPT‑5.1‑Codex‑Max може працювати самостійно годинами. У наших внутрішніх оцінках ми спостерігали, як GPT‑5.1‑Codex‑Max працював над завданнями більше 24 годин. Він постійно вдосконалюватиме свою реалізацію, виправлятиме помилки тестування і врешті-решт досягне успішного результату.

У цьому прикладі GPT‑5.1‑Codex‑Max самостійно рефакторизує відкритий репозиторій Codex CLI.

Коли довжина сеансу наближається до контекстного вікна моделі, вона автоматично ущільнює сеанс, щоб звільнити простір і продовжити завдання без втрати прогресу.

Відео обрізано та прискорено для чіткості.

Створення безпечних і надійних ШІ-агентів

GPT‑5.1‑Codex‑Max значно краще показує себе в тестуваннях, які вимагають тривалого, довгострокового міркування. Оскільки модель може узгоджено працювати в кількох контекстних вікнах за рахунок ущільнення, вона забезпечує покращені результати у вирішенні завдань у таких сферах, як довгострокове кодування та кібербезпека. Ми проаналізували результати продуктивності цієї моделі на основі оцінок перших та третіх сторін у системній картці GPT‑5.1‑Codex‑Max.

GPT‑5.1‑Codex‑Max не досягає високого рівня можливостей у сфері кібербезпеки за нашою програмою готовності , але це найпотужніша модель кібербезпеки, яку ми впровадили на сьогодні, і можливості агентної кібербезпеки швидко розвиваються. Як наслідок, ми вживаємо заходів для підготовки до високих можливостей у сфері кібербезпеки, посилюємо наші захисні механізми в цій сфері та працюємо над тим, щоб захисники могли скористатися цими покращеними можливостями через такі програми, як Aardvark.

При запуску GPT‑5‑Codex ми впровадили спеціалізований моніторинг кібербезпеки для виявлення та припинення шкідливої діяльності. Хоча ми не спостерігали значного збільшення масштабного зловживання, ми готуємо додаткові заходи для пом'якшення ризиків, пов'язаних із розширенням можливостей. Наші команди вже зірвали кібероперації, що намагалися зловживати нашими моделями; підозріла активність перенаправляється на перевірку через наші системи моніторингу політик.

Codex за замовчуванням розроблений для роботи в безпечній «пісочниці»: запис файлів обмежений його робочою областю, а мережевий доступ вимкнений, якщо розробник його не увімкне. Рекомендуємо тримати Codex у режимі обмеженого доступу, оскільки ввімкнення інтернету або веб-пошуку може створювати ризики ін'єкції запитів з недовіреного контенту.

Codex стає більш здатним виконувати тривалі завдання, тож розробникам дедалі важливіше перевіряти роботу агента перед внесенням змін або відправкою в продакшн. Для допомоги в цьому Codex створює термінальні журнали та наводить свої виклики інструментів і результати тестів. Хоча огляди коду зменшують ризик розгортання модельних або людських помилок у продакшн, Codex слід розглядати як додаткового рецензента, а не як заміну людських рецензій.

Можливості кібербезпеки можуть використовуватися як для захисту, так і для наступу, тому ми застосовуємо ітеративний підхід до розгортання: навчаємося на реальному досвіді, оновлюємо засоби захисту та зберігаємо важливі оборонні інструменти, такі як автоматизоване сканування вразливостей і допомога в їх усуненні.

Доступність

GPT‑5.1‑Codex‑Max доступний у Codex із планами ChatGPT Plus, Pro, Business, Edu та Enterprise. Щоб дізнатися детальніше про те, як працюють обмеження використання для вашого плану, ознайомтеся з нашою документацією(відкривається у новому вікні).

Для розробників, які використовують CLI Codex через ключ API, ми плануємо зробити GPT‑5.1‑Codex‑Max доступним незабаром у API.

Відсьогодні GPT‑5.1‑Codex‑Max замінить GPT‑5.1‑Codex як модель за замовчуванням у середовищах Codex. На відміну від GPT‑5.1, яка є універсальною моделлю, ми рекомендуємо використовувати GPT‑5.1‑Codex‑Max та сімейство моделей Codex лише для агентних завдань кодування в середовищах Codex або подібних до Codex.

Висновок

GPT‑5.1‑Codex‑Max демонструє, наскільки далеко просунулися моделі в підтримці довготривалих завдань кодування, управлінні складними робочими процесами та створенні високоякісних реалізацій з набагато меншою кількістю токенів. Ми спостерігали, як модель у поєднанні з постійними оновленнями нашого CLI, розширення IDE, хмарної інтеграції та інструментів для перевірки коду призводить до значного підвищення продуктивності інженерів: 95% інженерів OpenAI використовують Codex щотижня, і ці інженери надсилають приблизно на 70% більше запитів на злиття з моменту впровадження Codex. Межі можливостей агентів розширюються, і нам уже кортить побачити, що разом із ними створите ви.

Додаток: Оцінювання моделей

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Verified (n=500)

73,7%

77,9 %

SWE-Lancer IC SWE

66,3%

79,9%

Terminal-Bench 2.0

52,8%

58,1%

Автор

OpenAI