本日、これまでで最も高性能な小型モデルである GPT‑5.4 mini と nano を公開します。これらのモデルは、GPT‑5.4 の強みの多くを受け継ぎながら、高い処理量に対応する高速かつ効率的なモデルとして設計されています。
GPT‑5.4 mini は、コーディング、推論、マルチモーダル理解、ツール利用の各分野で GPT‑5 mini から大きく性能を向上させており、動作速度も2倍以上高速です。また、SWE-Bench Pro や OSWorld-Verified を含むいくつかの評価において、より大規模な GPT‑5.4 モデルに匹敵するパフォーマンスも示しています。
GPT‑5.4 nano は、速度とコストが最も重視されるタスク向けに設計された、GPT‑5.4 の最小かつ最も低コストなバージョンです。また、GPT‑5 nano から大きく性能が向上しています。分類、データ抽出、ランキング、またより単純な補助タスクを処理するコーディング向けのサブエージェントに適しています。
これらのモデルは、レイテンシが製品体験を直接左右するワークロード向けに設計されています。たとえば、応答性が求められるコーディングアシスタント、補助的なタスクをすばやく完了するサブエージェント、スクリーンショットをキャプチャして解釈するコンピュータ操作システム、そして画像をリアルタイムで推論できるマルチモーダルアプリケーションが含まれます。このような環境では、最大のモデルが必ずしも最適とは限りません。重要なのは、迅速に応答でき、ツールを確実に使い、複雑な専門的タスクでも高い性能を発揮できるモデルです。
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 GPT‑5 mini で利用可能な reasoning_effort の最大値は「high」です。
GPT‑5.4 mini と nano をワークフローでテストしたお客様の声をご紹介します。
「GPT-5.4 mini は、このクラスのモデルとして、エンドツーエンドで高いパフォーマンスを発揮します。当社の評価では、いくつかの出力タスクおよび引用の再現において、はるかに低いコストで競合モデルと同等またはそれ以上の結果を示しました。また、より大規模な GPT-5.4 モデルよりも、エンドツーエンドの合格率が高く、出典の特定能力も優れていました。」
GPT‑5.4 mini と nano は、迅速な反復が求められるコーディングワークフローで特に効果を発揮します。これらのモデルは、特定箇所の編集、コードベースのナビゲーション、フロントエンド生成、デバッグの反復を低レイテンシで処理できるため、より高速かつ低コストで完了する必要があるコーディングタスクに適しています。
ベンチマークでは、GPT‑5.4 mini は同程度のレイテンシで一貫して GPT‑5 mini を上回り、はるかに高速に動作しながら、GPT‑5.4 に近い合格率を示しています。これにより、コーディングのワークフローにおいて性能とレイテンシのバランスに優れたモデルの一つとなっています。
当社では、モデルの本番環境での挙動をもとに、オフラインでシミュレーションを行い、レイテンシを推定しています。レイテンシの推定では、ツール呼び出しの所要時間(コード実行時間)、サンプリングされたトークン数、入力トークン数を考慮しています。実際のレイテンシは大きく変動する可能性があり、当社のシミュレーションでは捉えきれない多くの要因の影響を受けます。同様に、コストは本稿執筆時点におけるこれらのモデルの API 料金に基づいて算出されています。料金は今後変更される場合があります。推論負荷は「low」から「xhigh」までの範囲で評価しました。
GPT‑5.4 mini は、異なるサイズのモデルを組み合わせて使うシステムにも適しています。Codex では、たとえば GPT‑5.4 のようなより大規模なモデルが計画、調整、最終判断を担い、コードベースの検索、大きなファイルのレビュー、補足資料の処理といったより限定的なタスクを、GPT‑5.4 mini のサブエージェントが並列で処理します。Codex のサブエージェントの仕組みについては、ドキュメント(新しいウィンドウで開く)をご覧ください。
この構成は、小型モデルの高速化と高性能化が進むほど、より効果を発揮します。すべてを1つのモデルで処理するのではなく、より大規模なモデルが何をすべきかを判断し、小規模なモデルがそれを高速かつ大規模に実行するようなシステムを構成できます。GPT‑5.4 mini は、このようなワークフローに適した、これまでで最も高性能な mini モデルです。
GPT‑5.4 mini はマルチモーダルタスクにも強く、特にコンピュータ操作に関連するタスクで優れています。このモデルは、情報量の多いユーザーインターフェースのスクリーンショットを迅速に解釈し、コンピュータ操作タスクを素早く完了できます。OSWorld-Verified では、GPT‑5.4 mini は GPT‑5.4 に迫る性能を示しつつ、GPT‑5 mini を大幅に上回ります。
GPT‑5.4 mini は本日より、API、Codex、ChatGPT で利用可能です。
API では、GPT‑5.4 mini はテキスト入力と画像入力、ツール利用、関数呼び出し、ウェブ検索、ファイル検索、コンピュータ操作、スキルに対応しています。コンテキストウィンドウは 400k で、料金は 1M 入力トークンあたり $0.75、1M 出力トークンあたり $4.50です。
Codex では、GPT‑5.4 mini を Codex アプリ、CLI、IDE 拡張機能、ウェブで利用できます。GPT‑5.4 の割り当て量の30%で済むため、開発者は比較的シンプルなコーディングタスクを迅速に処理でき、コストもおよそ3分の1に抑えられます。Codex では、推論負荷が比較的低い作業をより低コストなモデルで実行できるよう、GPT‑5.4 mini のサブエージェントに委任することもできます。
ChatGPT では、無料版および Go ユーザーは「+」メニューの「Thinking」機能から GPT‑5.4 mini を利用できます。無料版と Go 以外のユーザーでは、GPT‑5.4 Thinking がレート制限に達した場合、GPT‑5.4 mini がフォールバックとして使用されます。
GPT‑5.4 nano は API でのみ利用可能で、料金は 1M 入力トークンあたり $0.20、1M 出力トークンあたり $1.25 です。
モデルの安全対策の詳細については、Deployment Safety Hub(新しいウィンドウで開く) の System Card に関する補足事項をご覧ください。
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 GPT‑5 mini で利用可能な reasoning_effort の最大値は「high」です。
2 全体編集距離。OmniDocBench は、低コスト・低レイテンシでの性能を反映するため、reasoning_effort を「none」に設定して実行しました。


