今日我們推出 GPT‑5.4 mini 及 GPT‑5.4 nano,這是目前能力最強的小型模型。這兩個模型把 GPT‑5.4 的多項核心能力帶到更快速、更高效率的模型中,並針對高流量工作負載進行優化。
與 GPT‑5 mini 相比,GPT‑5.4 mini 在編碼、推理、多模態理解和工具使用方面均有明顯提升,同時運行速度提升超過 2 倍。在包括 SWE-Bench Pro 和 OSWorld-Verified 等多項評估中,GPT‑5.4 mini 的表現亦接近更大型的 GPT‑5.4 模型。
GPT‑5.4 nano 則是 GPT‑5.4 系列中最小、價格最相宜的版本,適用於對速度和成本要求最高的任務。它同時也是 GPT‑5 nano 的重要升級。我們建議將這個模型用於分類、資料擷取、排序,以及處理較簡單輔助任務的編碼子智能代理等場景。
這些模型專為那些延遲會直接影響產品體驗的工作負載而設計,例如需要即時回應的編碼助理、能快速完成輔助任務的子智能代理、能擷取並解讀螢幕截圖的電腦操作系統,以及能即時對圖片進行推理的多模態應用。在這些場景中,最佳模型未必是最大型的模型,而是能快速回應、可靠使用工具,同時仍能處理複雜專業任務的模型。
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 GPT‑5 mini 可使用的最高 reasoning_effort 為「high」。
以下是客戶在工作流程中測試 GPT‑5.4 mini 和 nano 後的評價:
「對於這個級別的模型而言,GPT-5.4 mini 的端到端表現非常出色強勁。在我們的評估中,模型在多項輸出任務及引用召回方面表現與競爭模型相若或更佳,同時成本大幅降低。而模型的端到端通過率甚至比更大型 GPT-5.4 模型更高,同時來源引用標註表現亦更佳。」
GPT‑5.4 mini 和 nano 特別適合需要快速迭代的編碼工作流程。模型可以在低延遲下完成精準修改、程式碼瀏覽、程式碼庫生成前端程式和進行除錯迴圈,因此非常適合需要以更快速度和更低成本完成的編碼任務。
在基準測試中,GPT‑5.4 mini 在相近延遲下持續比 GPT‑5 mini 有更佳表現,同時在通過率上接近 GPT‑5.4,但運行速度更快,在編碼工作流程中提供優秀的性能與延遲平衡。
我們透過觀察模型在生產環境中的實際運作行為,並在離線環境中進行模擬,以估算延遲。延遲估算會計算工具調用所需時間(程式碼執行時間)、取樣的 token 和輸入 token。實際環境中的延遲可能會有顯著差異,並取決於多種未在模擬中涵蓋的因素。同樣地,相關成本是根據撰寫本文時這些模型的 API 收費方式作出估算,未來可能會有所調整。推理強度已由 low 提升至 xhigh。
GPT‑5.4 mini 亦適合與不同規模模型組合使用的系統。例如在 Codex 中,較大的模型(例如 GPT‑5.4)可以負責規劃、協調和最終判斷,而 GPT‑5.4 mini 子智能代理則可並行處理範圍較窄的子任務,例如搜尋程式碼庫、審視大型檔案或處理輔助文件。你可以參閱文件(在新視窗中開啟),了解 Codex 子智能代理的運作方式。
隨著小型模型變得更快速和更強大,這種架構會變得更加實用。開發人員不再需要用單一模型處理所有任務,而是可以建立由不同模型組成的系統:大型模型負責決策,而小型模型負責在大規模環境中快速執行任務。GPT‑5.4 mini 是目前最適合這類工作流程的小型模型。
GPT‑5.4 mini 在多模態任務上亦表現出色,尤其是在電腦操作相關場景。模型可以快速理解複雜用戶介面的螢幕截圖,從而迅速完成電腦操作任務。而在 OSWorld-Verified 基準中,GPT‑5.4 mini 的表現接近 GPT‑5.4,同時明顯比 GPT‑5 mini 優勝。
GPT‑5.4 mini 今日開始在 API、Codex 和 ChatGPT 中提供。
在 API 中,GPT‑5.4 mini 支援:文字與圖片輸入、工具使用、函數調用、網頁搜尋、檔案搜尋、電腦操作和技能。模型支援 400k 上下文視窗 ,收費為每 100 萬輸入 Token $0.75,以及每 100 萬輸出 Token $4.50。
在 Codex 中,GPT‑5.4 mini 可在 Codex 應用程式、CLI、IDE 擴充功能和網頁版中使用。模型所用的配額僅為 GPT‑5.4 的 30%,讓開發人員能以約三分之一的成本,在 Codex 中快速完成較簡單的編碼任務。Codex 亦可將部分工作分派予 GPT‑5.4 mini 子智能代理,讓對推理要求較低的任務在成本較低的模型上運行。
在 ChatGPT 中,Free 和 Go 用戶可透過「思考」功能(在 + 選單中選取)使用 GPT‑5.4 mini。其他用戶則會在 GPT‑5.4 Thinking 達到速率限制時,自動使用 GPT‑5.4 mini 作為後備模型。
GPT‑5.4 nano 目前只在 API 中提供,收費為每 100 萬輸入 Token $0.20,以及每 100 萬輸出 Token $1.25。
如想了解有關模型安全防護措施的更多資訊,請參閱我們在 部署安全中心(在新視窗中開啟)上的系統說明卡附錄。
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 GPT‑5 mini 可使用的最高 reasoning_effort 為「high」。
2 總體編輯距離。OmniDocBench 的測試以 reasoning_effort 設為「none」進行,以反映低成本、低延遲的表現。


