Мы представляем GPT‑5.1‑Codex‑Max, нашу новую передовую модель агентного кодирования, доступную уже сегодня в Codex. GPT‑5.1‑Codex‑Max основан на обновленной базовой модели рассуждений, обученной агентным задачам в области разработки ПО, математики, исследований и других направлений. GPT‑5.1‑Codex‑Max быстрее, умнее и экономичнее в использовании токенов на каждом этапе цикла разработки — ещё один шаг к тому, чтобы стать надёжным партнёром в программировании.
GPT‑5.1‑Codex‑Max предназначен для продолжительной и детальной работы. Это наша первая модель, изначально обученная работать в нескольких контекстных окнах благодаря процессу, называемому сжатием, который позволяет согласованно обрабатывать миллионы токенов в рамках одной задачи. Это открывает возможности рефакторинга в масштабе проекта, глубокие сеансы отладки и многочасовые циклы агентов.
GPT‑5.1‑Codex‑Max доступен уже сегодня в Codex для использования в CLI, расширении IDE, облаке и обзоре кода, а доступ к API будет доступен в ближайшее время.
GPT‑5.1‑Codex‑Max обучен на реальных задачах разработки ПО — создании PR, обзоре кода, фронтенд-кодировании и Q&A — и превосходит наши предыдущие модели во многих передовых оценках по кодированию. Достижения модели в бенчмарках также сопровождаются улучшениями в реальном использовании: GPT‑5.1‑Codex‑Max — первая модель, которую мы обучили работать в средах Windows, обучение модели теперь включает задачи, направленные на то, чтобы сделать её более эффективным партнёром в Codex CLI.
* Все оценки проводились с включённым сжатием при уровне рассуждения Extra High.
* TTerminal-Bench2.0 выполнялся с Codex CLI в тестовом стенде Laude Institute Harbor harness(открывается в новом окне)
GPT‑5.1‑Codex‑Max демонстрирует заметный рост эффективности использования токенов благодаря более результативному рассуждению. На SWE-bench проверенный, GPT‑5.1‑Codex‑Max с «средними» усилиями рассуждения достигает лучших результатов, чем GPT‑5.1‑Codex при тех же усилиях по рассуждению, используя на 30% меньше токенов. Для задач, не чувствительных к задержке, мы также вводим новый уровень рассуждения Extra High («xhigh»), который размышляет ещё дольше для получения более точного ответа. Мы по-прежнему рекомендуем средний уровень в качестве основного варианта для выполнения большинства задач.
Мы ожидаем, что повышение эффективности использования токенов приведёт к реальной экономии для разработчиков.
Например, GPT‑5.1‑Codex‑Max может создавать высококачественные фронтенд-дизайны с аналогичной функциональностью и эстетикой, но по значительно более низкой цене, чем GPT‑5.1‑Codex.
Промпт: Создай единое автономное браузерное приложение, которое отображает интерактивную RL-песочницу CartPole с графикой на canvas, небольшим контроллером на policy gradient, метриками и SVG-визуализатором сети.
Функции
Должен уметь действительно обучать политику, чтобы улучшать модель на задаче CartPole.Визуализатор активаций и весов во время обучения модели или при выполнении вывода.Шаги в эпизоде, награды в этом эпизодеПоследнее время выживания и лучшее время выживания в шагах
Сохранить в index.html
Сжатие позволяет GPT‑5.1‑Codex‑Max выполнять задачи, которые раньше не удавались из-за ограничений контекстного окна — например, сложные рефакторинги и длительные циклы агента, сокращая историю сеанса, и сохраняя при этом наиболее важный контекст на длинных горизонтах. В приложениях Codex используется GPT‑5.1‑Codex‑Max автоматически сжимает сеанс, когда он приближается к пределу контекстного окна, предоставляя новое окно контекста. Этот процесс повторяется до завершения задачи.
Способность поддерживать согласованную работу на протяжении длительных периодов времени является основополагающей возможностью на пути к созданию более универсальных и надежных систем ИИ. GPT‑5.1‑Codex‑Max может работать самостоятельно в течение нескольких часов подряд. В наших внутренних оценках мы наблюдали, что GPT‑5.1‑Codex‑Max работает над задачами более 24 часов. Модель настойчиво улучшает реализацию, исправляет ошибки тестирования и в итоге выдаёт успешный результат.
В этом примере GPT‑5.1‑Codex‑Max самостоятельно проводит рефакторинг открытого репозитория Codex CLI.
По мере приближения длины сеанса к контекстному окну модели, она автоматически сжимает сеанс, чтобы освободить место и продолжить задачу без потери прогресса.
Видео было обрезано и ускорено для наглядности.
GPT‑5.1‑Codex‑Max значительно лучше справляется с оценками, требующими длительного, долгосрочного рассуждения. Поскольку модель может согласованно работать в нескольких контекстных окнах благодаря сжатию, она показывает лучшие результаты в задачах, связанных с программированием на длинных горизонтах и кибербезопасностью. Мы проанализировали результаты производительности этой модели на собственных и сторонних оценках в GPT‑5.1‑Codex‑Max карточке системы.
GPT‑5.1‑Codex‑Max не достигает высокого уровня возможностей в области кибербезопасности в рамках нашей Программы готовности , но это самая мощная модель кибербезопасности, которую мы развернули на сегодняшний день, и её агентные возможности в этой области быстро развиваются. Поэтому мы предпринимаем шаги, чтобы подготовиться к уровню High в области кибербезопасности, и усиливаем наши меры защиты в кибердомене и работаем над тем, чтобы защитники могли получить выгоду от этих улучшенных возможностей через такие программы, как Aardvark.
Когда мы запустили GPT‑5‑Codex, мы внедрили специализированный мониторинг кибербезопасности для обнаружения и пресечения вредоносной активности. Хотя мы не наблюдали значительного роста масштабных злоупотреблений, мы готовим дополнительные меры защиты для расширенных возможностей. Наши команды уже пресекли кибероперации, пытавшиеся неправомерно использовать наши модели, а подозрительная активность направляется на проверку через наши системы мониторинга политик.
Codex по умолчанию работает в защищённой песочнице: запись файлов ограничена его рабочей областью, а сетевой доступ отключен, если разработчик не включит его. Мы рекомендуем оставить Codex в этом режиме ограниченного доступа, поскольку включение интернет-поиска или веб-поиска может привести к рискам внедрения промпта из ненадежного контента.
По мере того как Codex становится более способным выполнять длительные задачи, разработчикам становится всё важнее проверять работу агента перед внесением изменений или развертыванием в рабочую среду. Чтобы помочь в этом, Codex создает журналы терминала и приводит вызовы своих инструментов и результаты тестов. Хотя проверки кода, проводимые Codex, снижают риск развёртывания в продакшен ошибок, созданных моделью или человеком, Codex следует рассматривать как дополнительного рецензента, а не как замену человеческим проверкам.
Возможности кибербезопасности можно использовать как для защиты, так и для нападения, поэтому мы применяем итеративный подход к развертыванию: изучаем реальный опыт использования, обновляем средства защиты и сохраняем важные защитные инструменты, такие как автоматизированное сканирование уязвимостей и помощь в устранении уязвимостей.
GPT‑5.1‑Codex‑Max доступен в Codex с планами ChatGPT Plus, Pro, Business, Edu и Enterprise. Подробную информацию о том, как действуют лимиты использования для вашего плана, см. в наших документах(открывается в новом окне).
Для разработчиков, использующих Codex CLI через API-ключ, мы планируем сделать GPT‑5.1‑Codex‑Max доступным в API совсем скоро.
С сегодняшнего дня GPT‑5.1‑Codex‑Max заменит GPT‑5.1‑Codex в качестве модели по умолчанию в интерфейсах Codex. В отличие от GPT‑5.1, которая является моделью общего назначения, мы рекомендуем использовать GPT‑5.1‑Codex‑Max и семейство моделей Codex только для агентных задач кодирования в средах Codex или подобных Codex.
GPT‑5.1‑Codex‑Max демонстрирует, насколько далеко продвинулись модели в выполнении долгосрочных задач программирования, управлении сложными рабочими процессами и создании высококачественных реализаций с гораздо меньшим количеством токенов. Мы наблюдали, как модель в сочетании с постоянными обновлениями нашего CLI, расширения IDE, облачной интеграции и инструментов для проверки кода привела к значительному увеличению производительности инженерной работы: внутри компании 95 % инженеров OpenAI используют Codex еженедельно, и эти инженеры отправляют примерно на 70 % больше pull-запросов с момента внедрения Codex. Продолжая расширять возможности агентов, мы с нетерпением ждём, что вы сможете создать с их помощью.
GPT‑5.1‑Codex (high) | GPT‑5.1‑Codex‑Max (xhigh) | |
SWE-bench Verified (n=500) | 73,7 % | 77,9 % |
SWE-Lancer IC SWE | 66,3 % | 79,9 % |
Terminal-Bench 2.0 | 52,8 % | 58,1 % |


