今天,我們推出 GPT‑5.4 mini 和 nano。這是目前能力最強的小型模型系列。這兩個模型保留 GPT‑5.4 的多項優勢,同時提供更快速度與更高效率,適合處理高流量工作負載。
GPT‑5.4 mini 相較於 GPT‑5 mini 有明顯提升,在寫程式、推理、多模態理解與工具使用方面表現更好,同時運行速度提升超過兩倍。在 SWE-Bench Pro 與 OSWorld-Verified 等多項評測中,GPT‑5.4 mini 的表現也接近更大型的 GPT‑5.4 模型。
GPT‑5.4 nano 是 GPT‑5.4 系列中最輕量、價格最實惠的版本,適合處理對速度與成本要求最高的任務。相較於 GPT‑5 nano,GPT‑5.4 nano 帶來顯著升級。建議將此模型用於分類、資料擷取、排序,以及處理較簡單支援任務的程式碼編寫子智慧體。
這些模型專為延遲會直接影響產品體驗的工作負載而設計,例如需要快速回應的程式碼助理、能迅速完成支援任務的子智慧體、可擷取並解析螢幕截圖的電腦操作系統,以及能即時理解圖像並進行推理的多模態應用程式。在這類情境中,最佳模型往往不是最大的模型,而是能快速回應、穩定使用工具,同時仍能處理複雜專業任務的模型。
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 GPT‑5 mini 可使用的最高 reasoning_effort 為「high」。
以下是客戶在實際工作流程中測試 GPT‑5.4 mini 和 nano 後的回饋:
「以同級模型來看,GPT-5.4 mini 在端到端任務上展現了非常強的整體效能。在我們的評估中,它在多項輸出任務與引用回溯能力方面與競爭模型相當,甚至更勝一籌,而且成本低得多。此外,GPT-5.4 mini 的端到端通過率更高,來源標註能力也優於更大型的 GPT-5.4 模型。」
GPT‑5.4 mini 和 nano 在需要快速迭代的程式開發流程中特別有效。這些模型能在低延遲下處理精準修改、程式碼庫導覽、前端生成,以及反覆偵錯等任務,因此非常適合需要以更快速度、更低成本完成的程式碼編寫工作。
在多項基準測試中,GPT‑5.4 mini 在相近延遲條件下穩定優於 GPT‑5 mini,通過率接近 GPT‑5.4 等級,但運行速度更快,程式碼編寫流程因而可在效能與延遲之間取得更理想的平衡。
我們透過觀察模型在實際運行環境中的表現,並在離線環境進行模擬,藉此估算延遲時間。延遲估算會納入工具呼叫持續時間(程式碼執行時間)、取樣 Token,以及輸入 Token。實際環境中的延遲可能有明顯差異,並取決於許多未納入模擬的因素。同樣地,相關成本是根據撰寫本文時這些模型的 API 收費方式作出估算,未來可能會調整費用。推理強度已從 low 提升為 xhigh。
GPT‑5.4 mini 也很適合用於結合不同規模模型的系統。例如在 Codex 中,像 GPT‑5.4 這樣的大型模型可以負責規劃、協調與最終判斷,並將較小且更專門的任務交給 GPT‑5.4 mini 子智慧體並行處理,例如搜尋程式碼庫、審閱大型檔案或處理輔助文件。如需了解子智慧體在 Codex 中的運作方式,請參閱文件(在新視窗中開啟)。
隨著較小型的模型變得更快且更有能力,這種架構會越來越實用。開發者不必用單一模型來處理所有事情,而是可以組合系統,讓較大型的模型決定要做什麼,並由較小型的模型在大規模環境中快速執行任務。在這類工作流程中,GPT‑5.4 mini 是目前表現最強的小型模型。
GPT‑5.4 mini 在多模態任務上也表現出色,尤其是電腦操作相關場景。模型可以快速解析複雜使用者介面的螢幕截圖,並迅速完成各種電腦操作任務。在 OSWorld-Verified 測試中,GPT‑5.4 mini 的表現接近 GPT‑5.4,且大幅優於 GPT‑5 mini。
GPT‑5.4 mini 現已在 API、Codex 和 ChatGPT 中提供。
在 API 中,GPT‑5.4 mini 支援文字與圖像輸入、工具使用、函式呼叫、網頁搜尋、檔案搜尋、電腦操作和技能。模型支援 400k 上下文視窗。費用為每 100 萬 Token 輸入 0.75 美元,每 100 萬 Token 輸出 4.50 美元。
在 Codex 中,GPT‑5.4 mini 可在 Codex app、CLI、IDE 擴充功能和網頁版使用。模型所消耗的配額僅為 GPT‑5.4 的 30%,因此開發者能在 Codex 中以約三分之一的成本,快速處理較簡單的程式碼編寫任務。Codex 更可將部分工作分派給 GPT‑5.4 mini 子智慧體,讓對推理要求較低的任務在成本較低的模型上運行。
在 ChatGPT 中,免費版和 Go 使用者可透過「+」選單中的「思考」功能使用 GPT‑5.4 mini。其他使用者則會在 GPT‑5.4 Thinking 遇到速率限制時,自動使用 GPT‑5.4 mini 作為後備模型。
GPT‑5.4 nano 目前僅透過 API 提供。費用為每 100 萬 Token 輸入 0.20 美元、每 100 萬 Token 輸出 1.25 美元。
如需進一步了解模型的安全防護機制,請前往我們的部署安全中心(在新視窗中開啟),查看系統說明卡附錄。
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 GPT‑5 mini 可使用的最高 reasoning_effort 為「high」。
2 整體編輯距離。OmniDocBench 以 reasoning_effort 設為「none」進行,反映低成本、低延遲的效能。


