跳到主要內容
OpenAI

2025年11月13日

產品

全新推出:開發者專用 GPT‑5.1

正在載入...

API 平台即日起支援 GPT‑5.1。這款 GPT‑5 系列的新模型兼具智能與速度,適用於各類代理與編碼任務。GPT‑5.1 會依任務複雜度動態調整思考時間,在處理日常的簡單任務時回應更快,更能有效使用 Token。模型也提供「無推理」模式,適用於不需深入思考的任務,可加快回應,同時維持 GPT‑5.1 的高階智能。

為提升 GPT‑5.1 的效率,我們推出延長版提示詞快取,可保留長達 24 小時,加快後續提問的回應速度,同時降低成本。享有優先處理(在新視窗中開啟)的客戶使用 GPT‑5.1 時,也會明顯感受到比 GPT‑5 更快的效能。

在編碼方面,我們與 Cursor、Cognition、Augment Code、Factory 和 Warp 等初創公司密切合作,改進 GPT‑5.1 的編碼風格、可控性與編碼品質。整體而言,GPT‑5.1 在編碼時更直覺,完成任務時,提供給用戶的更新說明也更清楚易懂。

最後,我們在 GPT‑5.1 中推出兩項新工具:協助用戶更放心編碼的 apply_patch 工具,以及可讓模型執行 shell 指令的 shell 工具。

GPT‑5.1 是 GPT‑5 系列的下一步。我們會持續投入更智能、功能更強的模型,協助開發者建立可靠的代理工作流程。

跨任務推理更有效率

自動調整推理力度

為了加快 GPT‑5.1 的速度,我們全面調整其思考訓練方式。在簡易任務中,GPT‑5.1 會使用較少 Token 進行思考,使產品體驗更俐落,也能降低 Token 成本。在需要額外思考的困難任務中,GPT‑5.1 仍會持續探索不同作法並檢查結果,提供更可靠的答案。

Balyasny Asset Management(在新視窗中開啟) 表示,GPT‑5.1「在完整動態評估套件中,表現優於 GPT‑4.1 和 GPT‑5,且執行速度比 GPT‑5 快 2 至 3 倍。」他們也表示,在依賴大量工具的推理任務中,GPT‑5.1「使用的 Token 大概只有主要競爭對手的一半,品質仍能維持相同甚至更好。」AI 保險 BPO Pace(在新視窗中開啟) 也有類似的測試結果,他們表示代理「在 GPT‑5.1 上的運行速度快了 50%,整體準確度也超過 GPT‑5 和其他主流模型。」

GPT‑5.1 比 GPT‑5 更能靈活調整思考時間。於一組具代表性的 ChatGPT 任務中,GPT‑5.1 在簡單任務上的速度明顯更快,即使在高推理力度下亦然。

舉例來說,只要輸入「顯示 npm 指令以列出全域安裝的套件」,GPT‑5.1 會在 2 秒內完成回應,其他模型則可能需時 10 秒。

GPT-5 (Medium) 大約需要 250 個 Token(約 10 秒)

show an npm command to list globally installed packages

npm list -g --depth=0

GPT-5.1 (Medium) 大約需要 50 個 Token(約 2 秒)

show an npm command to list globally installed packages

You can list globally installed npm packages with:

  • Just package names: npm ls -g --depth=0
  • Including their install paths: npm ls -g

The first one is usually what you want.

全新「無推理」模式

開發者現在可以將 reasoning_effort 設定為「none」,以無需推理的方式使用 GPT‑5.1。在需要快速回應的情境下,模型會以無推理模式運作,保留 GPT‑5.1 的高智能,同時維持流暢的工具呼叫效率相較於推理力度為「minimal」的 GPT‑5,無推理的 GPT‑5.1 在平行工具呼叫、編碼、指令遵循與使用搜尋工具方面表現更好,並支援 API 平台中的網頁搜尋(在新視窗中開啟)Sierra(在新視窗中開啟) 表示,在「無推理」模式下,GPT‑5.1 在他們的實際評估中「低延遲工具呼叫速度比 GPT‑5 的 minimal 推理快了 20%」。

reasoning_effort 新增「none」選項後,開發者在速度、成本和智能表現之間能更自由調整。GPT‑5.1 預設為「none」,適合需要快速回應的任務。我們建議在高複雜度任務中使用「low」或「medium」,而在智能與可靠性比速度更重要時選擇「high」。

提示詞快取保留更久

延長版提示詞快取把保留時間從幾分鐘拉長到 24 小時,推理效率因此變得更好。保留時間拉長後,後續要求更容易沿用快取內容,回應更快、成本更低,長時間互動也更順暢,例如多輪對話、編碼工作流程或知識查找等情境都能受惠。

提示詞快取的收費維持不變。使用快取時,輸入 Token 的費用比未使用快取時便宜 90%,寫入和儲存亦不會額外收費。若要在 GPT‑5.1 使用延長版快取,請在 Responses 或 Chat Completions API 中加入參數:prompt_cache_retention='24h'。更多資訊請參考提示詞快取文件(在新視窗中開啟)

編碼

GPT‑5.1 延續 GPT‑5 的編碼能力,編碼風格更可控、減少過度思考、編碼品質更佳,工具呼叫時的用戶端更新更清楚,前端設計也更實用,尤其在推理需求較低時更為明顯。

在較簡單的編碼任務中,例如快速修改程式碼時,GPT‑5.1 回應速度更快,來回調整更輕鬆。GPT‑5.1 處理簡單任務更快,面對困難任務時的表現卻不會下降。在 SWE-bench Verified 測試集中,GPT‑5.1 的運行時間比 GPT‑5 更長,得分達到 76.3%。

SWE-bench Verified 測試集中,模型會取得程式碼儲存庫及問題描述,並需產生修補程式以解決問題。標籤代表推理力度。準確率為所有 500 個問題的平均值。所有模型均在搭配 JSON 型 apply_patch 工具的測試框架中運行。

我們收到多間程式設計公司的初步回饋。以下是他們的使用感想:

「GPT-5.1 不只是一款 LLM,而是真正能自主處理任務的模型,也是我測試過在自主表現上最自然的一款。生成的文字和編碼風格都貼近用戶本身,能理解複雜指令,前端任務的完成度也很高,並能順利融入既有程式碼庫。在 Responses API 中可充分發揮 GPT-5.1 的能力,我們也很期待在 IDE 裡提供相同體驗。」
— Denis Shiryaev,JetBrains AI DevTools 生態系統負責人

GPT‑5.1 提供的新工具

GPT‑5.1 現支援兩項新工具,協助開發者更充分運用 Responses API:自由形式的 apply_patch 工具,編輯程式碼時更可靠,亦無需處理 JSON 轉義;以及 shell 工具,可讓模型在本機執行指令。

Apply_patch 工具

自由形式的 apply_patch 工具登場,GPT‑5.1 現可使用結構化 diff 在程式碼庫中建立、更新或刪除檔案。模型不只提出修改建議,而是直接產生修補操作,交由應用程式套用及回報結果,建立多步驟、可反覆調整的編碼流程。

若要在 Responses API 使用 apply_patch 工具,請在工具陣列加入 "tools": [{"type": "apply_patch"}],並在輸入中提供檔案內容,或提供模型與檔案系統互動的工具。模型會產生 apply_patch_call 項目,用於建立、更新或刪除包含差異內容的檔案。更多整合方式請參閱 開發者說明文件(在新視窗中開啟)

Shell 工具

Shell 工具可讓模型透過受控的命令列介面與本機電腦互動。模型會提出 shell 指令,由開發者的系統負責執行並回傳結果。如此便形成簡單的規劃與執行循環,讓模型能檢查系統、執行工具並收集數據,一步步完成任務。

要在 Responses API 中使用 shell 工具,請在工具陣列加入 "tools": [{"type": "shell"}]。API 會產生 shell_call 項目,內含要執行的 shell 指令。開發者在本機執行指令,並在下一次 API 要求於 shell_call_output 項目回傳執行結果。如需更多資訊,請參閱開發者文件(在新視窗中開啟)

收費及提供情況

GPT‑5.1 和 gpt-5.1-chat-latest 可供所有付費計劃的開發者在 API 中使用。收費和速率限制(在新視窗中開啟) 與 GPT‑5 相同。我們亦會在 API 中推出 gpt-5.1-codexgpt-5.1-codex-mini。雖然 GPT‑5.1 在多數編碼任務中表現出色,但 gpt-5.1-codex 模型更適合在 Codex 或類似環境中處理長時間的自主編碼任務。

開發者可參考 GPT‑5.1 的開發者說明文件(在新視窗中開啟)模型提示詞指南(在新視窗中開啟),開始建置應用。我們目前不打算在 API 中淘汰 GPT‑5,若未來有變動會提前通知開發者。

下一步是什麽

我們會持續更新並推出更強、更可靠的模型,協助處理真正的代理與編碼需求。這些模型思考更有效率、迭代更快,亦能處理複雜任務,開發者工作時更加得心應手。GPT‑5.1 可自動調整推理力度、編碼表現更好、用戶端更新更清楚,再加上 apply_patchshell 兩項新工具,整體建置流程更順利、更省力。我們也會繼續投入大量資源,未來數週及數月將陸續推出更強的代理與編碼模型。

附錄:模型評估

評估

GPT‑5.1 (high)

GPT‑5 (high)

SWE-bench Verified 測試集
(共 500 個問題)

76.3%

72.8%

GPQA Diamond
(無工具)

88.1%

85.7%

AIME 2025
(無工具)

94.0%

94.6%

FrontierMath
(使用 Python 工具)

26.7%

26.3%

MMMU

85.4%

84.2%

Tau2-bench Airline

67.0%

62.6%

Tau2-bench Telecom*

95.6%

96.7%

Tau2-bench Retail

77.9%

81.1%

BrowseComp Long Context 128k

90.0%

90.0%

在 Tau²-bench Telecom 中,我們提供了一個在多數情況下都實用的簡短提示,協助 GPT‑5.1 有更好的表現。

作者

OpenAI