Сегодня мы открываем исследовательский предварительный доступ к GPT‑5.3‑Codex‑Spark — уменьшенной версии GPT‑5.3‑Codex и нашей первой модели для программирования в реальном времени. Codex-Spark знаменует первую веху в нашем партнерстве с Cerebras, о котором мы объявили в январе. Codex-Spark оптимизирован для мгновенной реакции на оборудовании с ультранизкой задержкой, обеспечивая более 1 000 токенов в секунду и оставаясь высокоэффективным для реальных задач программирования.
Мы предоставляем Codex-Spark на Cerebras в качестве исследовательского предварительного доступа пользователям ChatGPT Pro, чтобы разработчики могли начать эксперименты на раннем этапе, пока мы работаем с Cerebras над увеличением мощностей дата-центров, повышением надежности всего пользовательского опыта и развертыванием наших более крупных передовых моделей.
Наши новейшие передовые модели продемонстрировали особые сильные стороны в своей способности выполнять длительные задачи, работая автономно часами, днями или неделями без вмешательства. Codex-Spark — наша первая модель, разработанная специально для работы с Codex в реальном времени, позволяющая вносить точечные правки, перестраивать логику или дорабатывать интерфейсы и сразу видеть результаты. С этой моделью Codex теперь поддерживает как длительные, амбициозные задачи, так и выполнение работы непосредственно в данный момент. Мы надеемся узнать, как разработчики используют её, и учитывать их обратную связь по мере того, как мы продолжим расширять доступ.
При запуске Codex-Spark поддерживает только текстовый режим с контекстным окном 128 тыс. токенов. Во время исследовательского предварительного доступа у Codex-Spark будут собственные лимиты по скорости, и использование модели не будет учитываться в стандартных лимитах. Однако, когда спрос будет высок, вы можете столкнуться с ограниченным доступом или временной очередью, поскольку мы поддерживаем надёжность для всех пользователей.
Codex-Spark оптимизирован для интерактивной работы, где задержка имеет такое же значение, как и интеллектуальные возможности. Вы можете взаимодействовать с моделью в режиме реального времени, прерывая или перенаправляя её в процессе работы, и быстро вносить изменения, получая почти мгновенные ответы. Поскольку модель настроена на скорость, Codex-Spark по умолчанию придерживается облегчённого рабочего стиля: вносит минимальные точечные правки и не запускает тесты автоматически, если вы об этом не попросите.
Codex-Spark — это небольшая высокопроизводительная модель, оптимизированная для быстрого вывода. На SWE-Bench Pro и Terminal-Bench 2.0, двух бенчмарках, оценивающих возможности в агентной инженерии программного обеспечения, GPT‑5.3‑Codex‑Spark демонстрирует высокую производительность, выполняя задачи за гораздо меньшее время времени по сравнению с GPT‑5.3‑Codex.
Длительность оценивается как сумма (1) времени генерации ответа (токены вывода ÷ скорость выборки), (2) времени предварительной обработки (токены предварительной обработки ÷ скорость предварительной обработки), (3) общего времени выполнения инструмента и (4) общих сетевых накладных расходов.
По мере того как мы обучали Codex-Spark, стало очевидно, что скорость модели — лишь часть уравнения для совместной работы в реальном времени; нам также нужно было снизить задержку по всему конвейеру запрос-ответ. Мы внедрили сквозные оптимизации задержки в нашем тестовом контуре, которые принесут пользу всем моделям. Под капотом мы оптимизировали поток передачи ответов от клиента к серверу и обратно, переписали ключевые части нашего стека вывода и переработали процесс инициализации сессий чтобы первый видимый токен появлялся быстрее, а Codex оставался отзывчивым в процессе итераций. Благодаря внедрению постоянного WebSocket-соединения и целевым оптимизациям в Responses API мы сократили накладные расходы на один клиент-серверный обмен на 80%, накладные расходы на токен — на 30%, а время до первого токена — на 50%. Путь WebSocket включён для Codex-Spark по умолчанию и вскоре станет стандартным для всех моделей.
Codex-Spark работает на Cerebras’ Wafer Scale Engine 3(открывается в новом окне)—специализированном ИИ-ускорителе для высокоскоростного вывода, обеспечивающем Codex уровень обслуживания с приоритетом на минимизацию задержки. Мы заключили партнерство с Cerebras, чтобы добавить этот путь с низкой задержкой в ту же производственную инфраструктуру обслуживания, что и остальная часть нашего парка, чтобы он бесшовно работал в Codex и подготовил нас к поддержке будущих моделей.
«Больше всего в GPT-5.3-Codex-Spark нас вдохновляет — это партнерство с OpenAI и сообществом разработчиков, чтобы вместе понять, что становится возможным благодаря быстрому выводу: новые форматы взаимодействия, новые сценарии использования и принципиально иной опыт взаимодействия с моделью. Этот предварительный доступ — лишь начало».
GPU остаются основой наших конвейеров обучения и вывода и обеспечивают наиболее экономически эффективные токены для широкого использования. Cerebras дополняет эту основу, превосходно справляясь с рабочими процессами, требующими крайне низкой задержки, сокращая цикл взаимодействия, чтобы Codex казался более отзывчивым по мере итераций. Графические процессоры и Cerebras можно комбинировать для единичных рабочих нагрузок, чтобы достичь наилучшей производительности.
Codex-Spark запускается сегодня в качестве исследовательской предварительной версии для пользователей ChatGPT Pro в последних версиях приложения Codex, интерфейса командной строки (CLI) и расширения VS Code. Поскольку модель работает на специализированном оборудовании с низкой задержкой, использование регулируется отдельным лимитом, который может корректироваться в зависимости от спроса во время предварительного доступа. Кроме того, мы предоставляем доступ к Codex-Spark в API для ограниченного круга партнеров по разработке, чтобы выяснить, как разработчики хотят интегрировать Codex-Spark в свои продукты. В ближайшие недели мы будем расширять доступ, продолжая настраивать нашу интеграцию в условиях реальных нагрузок.
Codex-Spark в настоящее время поддерживает только текстовый режим с контекстным окном 128 тыс. и является первой моделью в семействе сверхбыстрых моделей. По мере того как мы вместе с сообществом разработчиков узнаем больше о том, где быстрые модели особенно хороши для программирования, мы представим еще больше возможностей, включая более крупные модели, более длинные контексты и мультимодальный ввод.
Codex-Spark включает такое же обучение по безопасности, как и наши основные модели, включая обучение, связанное с кибербезопасностью. Мы оценили Codex-Spark в рамках нашего стандартного процесса развертывания, который включает базовые оценки в области кибербезопасности и других возможностей, и пришли к выводу, что модель не имеет правдоподобной вероятности достижения порогового значения нашей Программы готовности (Preparedness Framework) для высокого уровня возможностей в кибербезопасности или в биобезопасности.
Codex-Spark — это первый шаг на пути к Codex с двумя взаимодополняющими режимами: долгосрочные рассуждения и выполнение, а также совместная работа в реальном времени для быстрой итерации. Со временем границы между режимами сотрутся: Codex сможет держать вас в плотном интерактивном цикле, одновременно делегируя более длительные задачи субагентам в фоновом режиме или распределяя задачи между многими моделями параллельно, когда нужны охват и скорость, так что вам не придется заранее выбирать один-единственный режим.
По мере того как модели становятся более способными, скорость взаимодействия становится явным узким местом. Сверхбыстрый вывод замыкает этот цикл, делая Codex более естественным в использовании и расширяя возможности для всех, кто превращает идею в работающее программное обеспечение.


