Сегодня мы выпускаем GPT‑5.4 mini и nano — наши самые мощные малые модели на сегодняшний день. Они сочетают в себе многие преимущества GPT‑5.4 с архитектурой более быстрых и эффективных моделей, созданных для работы с высокими нагрузками.
GPT‑5.4 mini значительно превосходит GPT‑5 mini в написании кода, логических рассуждениях, мультимодальном анализе и работе с инструментами, работая при этом более чем в 2 раза быстрее. В ряде тестов, включая SWE-Bench Pro и OSWorld-Verified, он приближается к показателям производительности полноразмерной модели GPT‑5.4.
GPT‑5.4 nano — самая компактная и доступная версия GPT‑5.4 для задач, где скорость и стоимость имеют решающее значение. Она также представляет собой значительное обновление по сравнению с GPT‑5 nano. Мы рекомендуем эту модель для классификации, извлечения данных, ранжирования и субагентов, выполняющих более простые вспомогательные задачи.
Эти модели созданы для задач, где скорость отклика напрямую определяет качество продукта: для ИИ-помощников в написании кода, работающих без задержек, субагентов, быстро выполняющих вспомогательные функции, систем управления интерфейсом, которые захватывают и интерпретируют скриншоты, а также для мультимодальных приложений, способных анализировать изображения в реальном времени. В таких сценариях лучшая модель — не обязательно самая мощная. Это модель, которая мгновенно дает ответ, надежно работает с инструментами и при этом успешно справляется со сложными профессиональными задачами.
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 Наивысшее доступное значение интенсивности рассуждений (reasoning_effort) для GPT‑5 mini — high.
Вот что говорят наши клиенты, протестировавшие GPT‑5.4 mini и nano в своих рабочих процессах:
«GPT-5.4 mini демонстрирует высокие показатели сквозной (end-to-end) производительности для моделей своего класса. В ходе наших испытаний она соответствовала или превосходила конкурирующие модели в ряде задач по генерации контента и точности цитирования при гораздо меньшей стоимости. Кроме того, модель показала более высокий уровень выполнения задач и более точное указание источников, чем полноразмерная модель GPT-5.4».
GPT‑5.4 mini и nano особенно эффективны в процессах разработки, где важна высокая скорость итераций. Модели с минимальной задержкой справляются с точечным редактированием, навигацией по кодовой базе, генерацией фронтенда и циклами отладки, что делает их отличным выбором для задач программирования, требующих высокой скорости и низких затрат.
В бенчмарках GPT‑5.4 mini стабильно превосходит GPT‑5 mini при сопоставимой скорости отклика и приближается к показателям выполнения задач (pass rates) уровня флагманской GPT‑5.4. При этом она работает значительно быстрее, обеспечивая одно из лучших на рынке соотношений производительности и задержки для процессов разработки.
Мы оцениваем задержку, анализируя поведение моделей в рабочей среде и симулируя его в автономном режиме. При расчете задержки учитываются длительность вызовов инструментов (время выполнения кода), количество выбранных токенов (sampled tokens) и входных токенов. Реальная задержка может существенно отличаться и зависит от множества факторов, не учтенных в нашей симуляции. Аналогично, стоимость оценивается на основе цен на API для этих моделей на момент написания. Стоимость может измениться в будущем. Параметры интенсивности рассуждений варьировались в диапазоне от low до xhigh.
GPT‑5.4 mini также отлично подходит для систем, сочетающих модели разных размеров. Например, в Codex более мощная модель, такая как GPT‑5.4, может отвечать за планирование, координацию и финальную оценку, делегируя выполнение узких подзадач параллельным субагентам на базе GPT‑5.4 mini, которые могут одновременно выполнять поиск по кодовой базе, проводить обзор объемных файлов или обрабатывать вспомогательную документацию. Узнайте больше о работе субагентов в Codex в документации(открывается в новом окне).
Эта стратегия становится всё более эффективной по мере того, как компактные модели становятся быстрее и мощнее. Вместо использования одной модели для всех задач, разработчики могут проектировать системы, где крупные модели принимают решения, а компактные — мгновенно выполняют их в промышленных масштабах. GPT‑5.4 mini — наша самая мощная модель серии mini для подобных сценариев работы.
GPT‑5.4 mini также демонстрирует отличные результаты в мультимодальных задачах, особенно связанных с управлением интерфейсом (computer use). Модель способна мгновенно интерпретировать скриншоты перегруженных пользовательских интерфейсов для быстрого выполнения действий на компьютере В тесте OSWorld-Verified показатели GPT‑5.4 mini приближаются к уровню флагманской GPT‑5.4, при этом она существенно превосходит GPT‑5 mini.
GPT‑5.4 mini уже доступен в API, Codex и ChatGPT.
В API модель GPT‑5.4 mini поддерживает работу с текстом и изображениями, использование инструментов, вызов функций, поиск в сети, поиск по файлам, управление интерфейсом и навыки. Модель поддерживает контекстное окно размером 400 тыс. токенов и стоит 0,75 долларов США за 1 млн входных токенов и 4,50 долларов США за 1 млн выходных токенов.
В Codex модель GPT‑5.4 mini доступна в приложении, интерфейсе командной строки (CLI), расширении для IDE и веб-версии. Она расходует лишь 30% квоты основной модели GPT‑5.4, позволяя разработчикам быстро решать более простые задачи по написанию кода в Codex примерно в три раза дешевле. Codex также может делегировать задачи субагентам GPT‑5.4 mini, чтобы задачи, требующие меньшего объема рассуждений, выполнялись на более экономичной модели.
В ChatGPT модель GPT‑5.4 mini доступна пользователям планов Free и Go через режим Thinking (в меню «+»). Для всех остальных пользователей GPT‑5.4 mini используется в качестве резервной модели при достижении лимитов запросов для GPT‑5.4 Thinking.
Модель GPT‑5.4 nano доступна только через API. Её стоимость составляет 0,20 доллара США за 1 млн входных токенов и 1,25 доллара США за 1 млн выходных токенов.
Чтобы получить дополнительную информацию о мерах защиты моделей, ознакомьтесь с приложением к системной карточке в нашем «Центре безопасности развертывания»(открывается в новом окне).
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 Наивысшее доступное значение интенсивности рассуждений (reasoning_effort) для GPT‑5 mini — high.
2 Общее расстояние редактирования. Тестирование OmniDocBench проводилось с параметром reasoning_effort, установленным на значение none, чтобы продемонстрировать низкую стоимость и минимальную задержку.


