Переход к основному контенту
OpenAI

19 ноября 2025 г.

ТоварРелиз

Создавайте больше с GPT‑5.1‑Codex‑Max

Загрузка…

Введение

Мы представляем GPT‑5.1‑Codex‑Max, нашу новую передовую модель агентного кодирования, доступную уже сегодня в Codex.  GPT‑5.1‑Codex‑Max основан на обновленной базовой модели рассуждений, обученной агентным задачам в области разработки ПО, математики, исследований и других направлений. GPT‑5.1‑Codex‑Max быстрее, умнее и экономичнее в использовании токенов на каждом этапе цикла разработки — ещё один шаг к тому, чтобы стать надёжным партнёром в программировании.

GPT‑5.1‑Codex‑Max предназначен для продолжительной и детальной работы. Это наша первая модель, изначально обученная работать в нескольких контекстных окнах благодаря процессу, называемому сжатием, который позволяет согласованно обрабатывать миллионы токенов в рамках одной задачи. Это открывает возможности рефакторинга в масштабе проекта, глубокие сеансы отладки и многочасовые циклы агентов.

GPT‑5.1‑Codex‑Max доступен уже сегодня в Codex для использования в CLI, расширении IDE, облаке и обзоре кода, а доступ к API будет доступен в ближайшее время.

Передовые возможности кодирования

GPT‑5.1‑Codex‑Max обучен на реальных задачах разработки ПО — создании PR, обзоре кода, фронтенд-кодировании и Q&A — и превосходит наши предыдущие модели во многих передовых оценках по кодированию. Достижения модели в бенчмарках также сопровождаются улучшениями в реальном использовании: GPT‑5.1‑Codex‑Max — первая модель, которую мы обучили работать в средах Windows, обучение модели теперь включает задачи, направленные на то, чтобы сделать её более эффективным партнёром в Codex CLI.

* Все оценки проводились с включённым сжатием при уровне рассуждения Extra High.
* TTerminal-Bench2.0 выполнялся с Codex CLI в тестовом стенде
Laude Institute Harbor harness(открывается в новом окне)

Скорость и стоимость

GPT‑5.1‑Codex‑Max демонстрирует заметный рост эффективности использования токенов благодаря более результативному рассуждению. На SWE-bench проверенный, GPT‑5.1‑Codex‑Max с «средними» усилиями рассуждения достигает лучших результатов, чем GPT‑5.1‑Codex при тех же усилиях по рассуждению, используя на 30% меньше токенов. Для задач, не чувствительных к задержке, мы также вводим новый уровень рассуждения Extra High («xhigh»), который размышляет ещё дольше для получения более точного ответа. Мы по-прежнему рекомендуем средний уровень в качестве основного варианта для выполнения большинства задач.

Мы ожидаем, что повышение эффективности использования токенов приведёт к реальной экономии для разработчиков.

Например, GPT‑5.1‑Codex‑Max может создавать высококачественные фронтенд-дизайны с аналогичной функциональностью и эстетикой, но по значительно более низкой цене, чем GPT‑5.1‑Codex.

Промпт: Создай единое автономное браузерное приложение, которое отображает интерактивную RL-песочницу CartPole с графикой на canvas, небольшим контроллером на policy gradient, метриками и SVG-визуализатором сети.

Функции

  • Должен уметь действительно обучать политику, чтобы улучшать модель на задаче CartPole.
  • Визуализатор активаций и весов во время обучения модели или при выполнении вывода.
  • Шаги в эпизоде, награды в этом эпизоде
  • Последнее время выживания и лучшее время выживания в шагах

Сохранить в index.html

Длительные задачи

Сжатие позволяет GPT‑5.1‑Codex‑Max выполнять задачи, которые раньше не удавались из-за ограничений контекстного окна — например, сложные рефакторинги и длительные циклы агента, сокращая историю сеанса, и сохраняя при этом наиболее важный контекст на длинных горизонтах. В приложениях Codex используется GPT‑5.1‑Codex‑Max автоматически сжимает сеанс, когда он приближается к пределу контекстного окна, предоставляя новое окно контекста. Этот процесс повторяется до завершения задачи.

Способность поддерживать согласованную работу на протяжении длительных периодов времени является основополагающей возможностью на пути к созданию более универсальных и надежных систем ИИ. GPT‑5.1‑Codex‑Max может работать самостоятельно в течение нескольких часов подряд. В наших внутренних оценках мы наблюдали, что GPT‑5.1‑Codex‑Max работает над задачами более 24 часов. Модель настойчиво улучшает реализацию, исправляет ошибки тестирования и в итоге выдаёт успешный результат.

В этом примере GPT‑5.1‑Codex‑Max самостоятельно проводит рефакторинг открытого репозитория Codex CLI.

По мере приближения длины сеанса к контекстному окну модели, она автоматически сжимает сеанс, чтобы освободить место и продолжить задачу без потери прогресса.

Видео было обрезано и ускорено для наглядности.

Создание безопасных и надёжных ИИ-агентов

GPT‑5.1‑Codex‑Max значительно лучше справляется с оценками, требующими длительного, долгосрочного рассуждения. Поскольку модель может согласованно работать в нескольких контекстных окнах благодаря сжатию, она показывает лучшие результаты в задачах, связанных с программированием на длинных горизонтах и кибербезопасностью. Мы проанализировали результаты производительности этой модели на собственных и сторонних оценках в GPT‑5.1‑Codex‑Max карточке системы.

GPT‑5.1‑Codex‑Max не достигает высокого уровня возможностей в области кибербезопасности в рамках нашей Программы готовности , но это самая мощная модель кибербезопасности, которую мы развернули на сегодняшний день, и её агентные возможности в этой области быстро развиваются. Поэтому мы предпринимаем шаги, чтобы подготовиться к уровню High в области кибербезопасности, и усиливаем наши меры защиты в кибердомене и работаем над тем, чтобы защитники могли получить выгоду от этих улучшенных возможностей через такие программы, как Aardvark.

Когда мы запустили GPT‑5‑Codex, мы внедрили специализированный мониторинг кибербезопасности для обнаружения и пресечения вредоносной активности. Хотя мы не наблюдали значительного роста масштабных злоупотреблений, мы готовим дополнительные меры защиты для расширенных возможностей. Наши команды уже пресекли кибероперации, пытавшиеся неправомерно использовать наши модели, а подозрительная активность направляется на проверку через наши системы мониторинга политик.

Codex по умолчанию работает в защищённой песочнице: запись файлов ограничена его рабочей областью, а сетевой доступ отключен, если разработчик не включит его. Мы рекомендуем оставить Codex в этом режиме ограниченного доступа, поскольку включение интернет-поиска или веб-поиска может привести к рискам внедрения промпта из ненадежного контента.

По мере того как Codex становится более способным выполнять длительные задачи, разработчикам становится всё важнее проверять работу агента перед внесением изменений или развертыванием в рабочую среду. Чтобы помочь в этом, Codex создает журналы терминала и приводит вызовы своих инструментов и результаты тестов. Хотя проверки кода, проводимые Codex, снижают риск развёртывания в продакшен ошибок, созданных моделью или человеком, Codex следует рассматривать как дополнительного рецензента, а не как замену человеческим проверкам.

Возможности кибербезопасности можно использовать как для защиты, так и для нападения, поэтому мы применяем итеративный подход к развертыванию: изучаем реальный опыт использования, обновляем средства защиты и сохраняем важные защитные инструменты, такие как автоматизированное сканирование уязвимостей и помощь в устранении уязвимостей.

Доступность

GPT‑5.1‑Codex‑Max доступен в Codex с планами ChatGPT Plus, Pro, Business, Edu и Enterprise. Подробную информацию о том, как действуют лимиты использования для вашего плана, см. в наших документах(открывается в новом окне).

Для разработчиков, использующих Codex CLI через API-ключ, мы планируем сделать GPT‑5.1‑Codex‑Max доступным в API совсем скоро.

С сегодняшнего дня GPT‑5.1‑Codex‑Max заменит GPT‑5.1‑Codex в качестве модели по умолчанию в интерфейсах Codex. В отличие от GPT‑5.1, которая является моделью общего назначения, мы рекомендуем использовать GPT‑5.1‑Codex‑Max и семейство моделей Codex только для агентных задач кодирования в средах Codex или подобных Codex.

Заключение

GPT‑5.1‑Codex‑Max демонстрирует, насколько далеко продвинулись модели в выполнении долгосрочных задач программирования, управлении сложными рабочими процессами и создании высококачественных реализаций с гораздо меньшим количеством токенов. Мы наблюдали, как модель в сочетании с постоянными обновлениями нашего CLI, расширения IDE, облачной интеграции и инструментов для проверки кода привела к значительному увеличению производительности инженерной работы: внутри компании 95 % инженеров OpenAI используют Codex еженедельно, и эти инженеры отправляют примерно на 70 % больше pull-запросов с момента внедрения Codex. Продолжая расширять возможности агентов, мы с нетерпением ждём, что вы сможете создать с их помощью.

Приложение: Оценка моделей

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Verified (n=500)

73,7 %

77,9 %

SWE-Lancer IC SWE

66,3 %

79,9 %

Terminal-Bench 2.0

52,8 %

58,1 %

Автор

OpenAI