2026年3月17日

GPT‑5.4 mini と nano が登場

コーディングとサブエージェント向けに最適化された高速かつ効率的なモデル

読み込んでいます...

本日、これまでで最も高性能な小型モデルである GPT‑5.4 mini と nano を公開します。これらのモデルは、GPT‑5.4 の強みの多くを受け継ぎながら、高い処理量に対応する高速かつ効率的なモデルとして設計されています。

GPT‑5.4 mini は、コーディング、推論、マルチモーダル理解、ツール利用の各分野で GPT‑5 mini から大きく性能を向上させており、動作速度も2倍以上高速です。また、SWE-Bench Pro や OSWorld-Verified を含むいくつかの評価において、より大規模な GPT‑5.4 モデルに匹敵するパフォーマンスも示しています。

GPT‑5.4 nano は、速度とコストが最も重視されるタスク向けに設計された、GPT‑5.4 の最小かつ最も低コストなバージョンです。また、GPT‑5 nano から大きく性能が向上しています。分類、データ抽出、ランキング、またより単純な補助タスクを処理するコーディング向けのサブエージェントに適しています。

これらのモデルは、レイテンシが製品体験を直接左右するワークロード向けに設計されています。たとえば、応答性が求められるコーディングアシスタント、補助的なタスクをすばやく完了するサブエージェント、スクリーンショットをキャプチャして解釈するコンピュータ操作システム、そして画像をリアルタイムで推論できるマルチモーダルアプリケーションが含まれます。このような環境では、最大のモデルが必ずしも最適とは限りません。重要なのは、迅速に応答でき、ツールを確実に使い、複雑な専門的タスクでも高い性能を発揮できるモデルです。

	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
SWE-Bench Pro (Public)	57.7%	54.4%	52.4%	45.7%
Terminal-Bench 2.0	75.1%	60.0%	46.3%	38.2%
Toolathlon	54.6%	42.9%	35.5%	26.9%
GPQA Diamond	93.0%	88.0%	82.8%	81.6%
OSWorld-Verified	75.0%	72.1%	39.0%	42.0%

^{1 GPT‑5 mini で利用可能な reasoning_effort の最大値は「high」です。}

GPT‑5.4 mini と nano をワークフローでテストしたお客様の声をご紹介します。

「GPT-5.4 mini は、このクラスのモデルとして、エンドツーエンドで高いパフォーマンスを発揮します。当社の評価では、いくつかの出力タスクおよび引用の再現において、はるかに低いコストで競合モデルと同等またはそれ以上の結果を示しました。また、より大規模な GPT-5.4 モデルよりも、エンドツーエンドの合格率が高く、出典の特定能力も優れていました。」

— Hebbia CTO、Aabhas Sharma 氏

コーディング

GPT‑5.4 mini と nano は、迅速な反復が求められるコーディングワークフローで特に効果を発揮します。これらのモデルは、特定箇所の編集、コードベースのナビゲーション、フロントエンド生成、デバッグの反復を低レイテンシで処理できるため、より高速かつ低コストで完了する必要があるコーディングタスクに適しています。

ベンチマークでは、GPT‑5.4 mini は同程度のレイテンシで一貫して GPT‑5 mini を上回り、はるかに高速に動作しながら、GPT‑5.4 に近い合格率を示しています。これにより、コーディングのワークフローにおいて性能とレイテンシのバランスに優れたモデルの一つとなっています。

当社では、モデルの本番環境での挙動をもとに、オフラインでシミュレーションを行い、レイテンシを推定しています。レイテンシの推定では、ツール呼び出しの所要時間（コード実行時間）、サンプリングされたトークン数、入力トークン数を考慮しています。実際のレイテンシは大きく変動する可能性があり、当社のシミュレーションでは捉えきれない多くの要因の影響を受けます。同様に、コストは本稿執筆時点におけるこれらのモデルの API 料金に基づいて算出されています。料金は今後変更される場合があります。推論負荷は「low」から「xhigh」までの範囲で評価しました。

サブエージェント

GPT‑5.4 mini は、異なるサイズのモデルを組み合わせて使うシステムにも適しています。Codex では、たとえば GPT‑5.4 のようなより大規模なモデルが計画、調整、最終判断を担い、コードベースの検索、大きなファイルのレビュー、補足資料の処理といったより限定的なタスクを、GPT‑5.4 mini のサブエージェントが並列で処理します。Codex のサブエージェントの仕組みについては、ドキュメント⁠（新しいウィンドウで開く）をご覧ください。

この構成は、小型モデルの高速化と高性能化が進むほど、より効果を発揮します。すべてを1つのモデルで処理するのではなく、より大規模なモデルが何をすべきかを判断し、小規模なモデルがそれを高速かつ大規模に実行するようなシステムを構成できます。GPT‑5.4 mini は、このようなワークフローに適した、これまでで最も高性能な mini モデルです。

コンピューターの使用

GPT‑5.4 mini はマルチモーダルタスクにも強く、特にコンピュータ操作に関連するタスクで優れています。このモデルは、情報量の多いユーザーインターフェースのスクリーンショットを迅速に解釈し、コンピュータ操作タスクを素早く完了できます。OSWorld-Verified では、GPT‑5.4 mini は GPT‑5.4 に迫る性能を示しつつ、GPT‑5 mini を大幅に上回ります。

提供状況と価格

GPT‑5.4 mini は本日より、API、Codex、ChatGPT で利用可能です。

API では、GPT‑5.4 mini はテキスト入力と画像入力、ツール利用、関数呼び出し、ウェブ検索、ファイル検索、コンピュータ操作、スキルに対応しています。コンテキストウィンドウは 400k で、料金は 1M 入力トークンあたり $0.75、1M 出力トークンあたり $4.50です。

Codex では、GPT‑5.4 mini を Codex アプリ、CLI、IDE 拡張機能、ウェブで利用できます。GPT‑5.4 の割り当て量の30%で済むため、開発者は比較的シンプルなコーディングタスクを迅速に処理でき、コストもおよそ3分の1に抑えられます。Codex では、推論負荷が比較的低い作業をより低コストなモデルで実行できるよう、GPT‑5.4 mini のサブエージェントに委任することもできます。

ChatGPT では、無料版および Go ユーザーは「+」メニューの「Thinking」機能から GPT‑5.4 mini を利用できます。無料版と Go 以外のユーザーでは、GPT‑5.4 Thinking がレート制限に達した場合、GPT‑5.4 mini がフォールバックとして使用されます。

GPT‑5.4 nano は API でのみ利用可能で、料金は 1M 入力トークンあたり $0.20、1M 出力トークンあたり $1.25 です。

モデルの安全対策の詳細については、Deployment Safety Hub⁠（新しいウィンドウで開く）の System Card に関する補足事項をご覧ください。

Coding

	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
SWE-bench Pro (Public)	57.7%	54.4%	52.4%	45.7%
Terminal-Bench 2.0	75.1%	60.0%	46.3%	38.2%

Tool-calling

	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
MCP Atlas	67.2%	57.7%	56.1%	47.6%
Toolathlon	54.6%	42.9%	35.5%	26.9%
τ2-bench (telecom)	98.9%	93.4%	92.5%	74.1%

Intelligence

	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
GPQA Diamond	93.0%	88.0%	82.8%	81.6%
HLE w/ tool	52.1%	41.5%	37.7%	31.6%
HLE w/o tools	39.8%	28.2%	24.3%	18.3%

MM / Vision / CUA

	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
OSWorld-Verified	75.0%	72.1%	39.0%	42.0%
MMMUPro w/ Python	81.5%	78.0%	69.5%	74.1%
MMMUPro	81.2%	76.6%	66.1%	67.5%
OmniDocBench 1.5 (no tools)² — lower is better	0.109	0.1263	0.2419	0.1791

Long context

	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
OpenAI MRCR v2 8-needle 64K–128K	86.0%	47.7%	44.2%	35.1%
OpenAI MRCR v2 8-needle 128K–256K	79.3%	33.6%	33.1%	19.4%
Graphwalks BFS 0K–128K	93.1%	76.3%	73.4%	73.4%
Graphwalks parents 0–128K (accuracy)	89.8%	71.5%	50.8%	64.3%