今日我們在 API 平台正式推出 GPT‑5 —— 迄今最強、專為編碼與代理式任務打造的模型。
在多項關鍵編碼基準測試中,GPT‑5 皆達到 SOTA(state-of-the-art) 水準:SWE-bench Verified 得分 74.9%,Aider polyglot(多語編輯)得分 88%/我們將 GPT‑5 訓練成真正的「編碼拍檔」,擅長產出高質素代碼,並能處理修正 bug、編輯代碼、回答複雜代碼庫問題等任務。這個模型既容易「駕馭」,又合作性高 —— 能高度精準地執行詳盡指令,並在工具呼叫前及中途提供清晰的操作解說。 在前端編碼方面表現亦非常突出,在我們的內部測試中,GPT‑5 在前端網頁開發中有 70% 的情況勝過 OpenAI o3。
我們與創業公司及大型企業的早期測試夥伴合作,利用真實世界的編碼任務訓練 GPT‑5。Cursor 表示 GPT‑5 是「用過最聰明的模型」,「聰明得令人難以置信、易於操控,甚至有種其他模型沒有的個性」。Windsurf 分享 GPT‑5 在他們的評測中是 SOTA,並且「工具呼叫錯誤率只有其他前沿模型的一半」。Vercel 認為「它是最強的前端 AI 模型,在美感與代碼質素上均達頂尖水準,自成一格」。
GPT‑5 在長時間運行的代理式任務中同樣出色 —— 在兩個月前才發佈的工具呼叫基準 τ2-bench telecom 中取得 96.7% 的 SOTA 成績。經改進的工具智慧讓它能可靠地串連數十個工具呼叫(無論順序或並行)而不會迷失方向,大幅提升完成複雜真實任務的能力。它在遵守工具指令、處理工具錯誤及長上下文內容檢索方面亦表現優異。Manus 表示 GPT‑5「在我們的內部基準中,是單一模型所達到的最佳表現」。 Notion 認為「在低推理模式下回應極快,使 GPT‑5 成為一次性解決複雜任務的理想模型」。Inditex 則指出「真正令 GPT‑5 脫穎而出的是推理的深度:細膩且多層次的答案,展現出真正的專業理解」。
我們亦在 API 中新增功能,讓開發人員更好地控制模型回應:GPT‑5 新支援的 verbosity 參數(low、medium、high)可控制答案的詳略程度。GPT‑5 的 reasoning_effort 現支援 minimal 值,可更快獲得回覆,而無需先進行大量推理。此外,我們還新增自訂工具(custom tools),允許模型以純文字(plaintext)而非 JSON 呼叫工具,並可使用開發人員提供的上下文無關文法(CFG)限制輸出格式。自訂工具可透過開發方提供的無情境語法,支援約束限制。
GPT‑5 在 API 平台提供三種規格:gpt-5、gpt-5-mini 和 gpt-5-nano,讓開發人員可靈活取捨效能、成本與延遲。雖然 ChatGPT 內的 GPT‑5 由推理模型、非推理模型及路由模型組成,但 API 版的 GPT‑5 是專為效能極大化而設的推理模型,正是驅動 ChatGPT 高性能的核心。值得注意的是,「minimal reasoning」模式的 GPT‑5 與 ChatGPT 的非推理模型並不相同。前者經過專門為開發人員調校,後者則可在 API 中作為 gpt-5-chat-latest 使用。
GPT‑5 是我們推出以來最強的編碼模型,專為軟件開發人員而設。它在多項編碼基準測試及真實應用場景中全面超越 o3,並經過精細調校,在 Cursor、Windsurf、GitHub Copilot 和 Codex CLI 等代理式編碼產品中表現出色。GPT‑5 令我們的 Alpha 測試員印象深刻,在他們多項內部私有評測中刷新紀錄。
真實編碼任務中對 GPT‑5 的早期評價
「GPT-5 是我們用過最聰明的編碼模型。我們團隊發現,GPT-5 不僅聰明得令人驚訝,而且容易操控,甚至帶有其他模型從未展現過的個性。它不但能抓出棘手且深藏的 bug,還可以長時間運行多輪背景代理,將複雜任務從頭到尾完成 —— 這些都是過去會令其他模型卡住的難題。從規劃和制定 PR 範疇,到完成端到端的構建,它已經成為我們日常的主力工具。」
在基於真實軟件工程任務的 SWE-bench Verified 測試中,GPT‑5 取得 74.9% 的成績,高於 o3 的 69.1%。值得一提的是,GPT‑5 在高推理模式下的效率和速度均優於 o3:與 o3 相比,它的輸出 token 減少了 22%,工具呼叫次數則減少了 45%。
SWE-bench Verified 給予模型一個儲存庫和問題描述,然後要求它修補問題。文字標籤代表推理努力。分數省略 500 條問題中 23 條並未在我們的架構上穩定完成的解決方案。GPT‑5 收到簡短的提示詞,注重全面驗證答案;o3 並未得益於同一提示詞並未。
在 Aider polyglot(代碼編輯)測試中,GPT‑5 創下 88% 的新紀錄,錯誤率較 o3 降低三分之一。
在 Aider polygot(在新視窗中開啟) (diff),模型收到來自 Exercism 的編碼練習,要求編寫代碼對比形式的解答。推理模型的推理努力設為「高」。
我們亦發現,GPT‑5 在深入代碼庫、解答各部分運作或互相配合方式的問題方面表現出色。即使是在如 OpenAI 強化學習技術棧般複雜的代碼庫中,GPT‑5 也能協助我們推理並解答與代碼相關的問題,加快日常工作的進行。
在為網頁應用程式產出前端代碼時,GPT‑5 的設計更具美感、構思更大膽、準確度亦更高。與 o3 並排比較時,我們的測試員在 70% 的情況下更偏好 GPT‑5。
以下是一些精心挑選的有趣示例,展示 GPT‑5 在單一提示下的能力:
提示詞:Please generate a beautiful、realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso.The target audience is a bay area middle-aged person who might work in tech and is educated、has disposable income、and is passionate about the art and science of coffee.Optimize for conversion for a 6 month signup.
更多 GPT‑5 的示例可在我們的作品集(在新視窗中開啟)瀏覽。
GPT‑5 是更出色的協作夥伴,特別是在 Cursor、Windsurf、GitHub Copilot 和 Codex CLI 等代理式編碼產品中表現突出。在工作過程中,GPT‑5 能在工具呼叫之間輸出計劃、更新和回顧。與以往的模型相比,GPT‑5 在面對具挑戰性的任務時更積極主動,無需等待你的指令確認,也不會因為高複雜度而卻步。
以下是一個示例,展示 GPT‑5 處理複雜任務的過程(這裡的例子是為餐廳建立網站):
用戶要求製作餐廳網站後,GPT‑5 會提出計劃摘要,建設程式骨架,安裝相依性,創作網站內容,執行組建檢查編譯錯誤,總結其工作,提議下一步。影片以三倍速播放以節省時間,實際創建網站需時約三分鐘。
除了代理式編碼之外,GPT‑5 在整體代理式任務方面亦有更佳表現。在指令遵從的基準測試中(由 o3‑mini 評分的 Scale MultiChallenge),GPT‑5 取得 69.6%;在工具呼叫的基準測試 τ2-bench telecom 中,更以 96.7% 創下新紀錄。改進後的工具智慧令 GPT‑5 能更可靠地串連多個動作,以完成真實世界中的任務。
GPT‑5 代理任務早期反饋
「GPT-5 是一個大進步,在內部基準測試中達到目前為止單一模型最佳的表現。尚未調整任何程式碼或修訂提示詞,GPT-5 便已在各種代理任務表現出色。新的預告訊息和對於工具更正確的控制使我們的智能代理穩定性和可操縱性出現大躍進。
GPT‑5 在遵從指令方面比歷代模型更可靠,在 COLLIE、Scale MultiChallenge 以及我們的內部指令遵從評測中均取得高分。
在 COLLIE(在新視窗中開啟) 中,模型必須編寫符合各項限制的文字。在 Scale MultiChallenge(在新視窗中開啟),模型經歷多輪對話挑戰,需使用過往訊息中的四類資訊回答。我們使用 o3‑mini 進行評分,比GPT‑4o 更準確。在內部 OpenAI API 遵從指示評估中,模型必須遵從源自現實開發者反饋的困難只是。推理模型的推理努力設為「高」。
我們針對開發人員最關注的重點,努力提升了工具呼叫的能力。GPT‑5 在遵守工具指令、處理工具錯誤,以及主動連續或並行進行多次工具呼叫方面,都有更佳表現。在需要時,GPT‑5 亦可在工具呼叫前或中途輸出前置訊息(preamble messages),以便在較長的代理式任務期間,向用戶更新進度。
兩個月前,Sierra.ai 發佈了 τ2-bench telecom,這是一個具挑戰性的工具使用基準測試,突顯了當語言模型與可被用戶改變狀態的環境互動時,性能會顯著下降。在該基準(在新視窗中開啟)發佈時,沒有任何模型的得分高於 49%,而 GPT‑5 則取得了 97% 的成績。
在 τ2-bench(在新視窗中開啟) 中,模型必須使用工具完成客戶服務任務,並可能會有可以溝通並對世界狀態採取行動的用戶。推理模型的推理努力設為「高」。
GPT‑5 在長上下文處理能力方面亦有顯著提升。在 OpenAI-MRCR(長上下文資訊檢索評測)中,GPT‑5 的表現優於 o3 和 GPT‑4.1,且在輸入長度越長時,優勢越明顯。
在 OpenAI-MRCR(在新視窗中開啟)(多回合共同參考解決),多項相同用戶要求「針」被置於大量相似的要求和回覆「稻草堆」中,模型需要重現第 i 項「針」的回覆。平均配對比例測量模型回覆和正確答案之間的平均詞條符合比例。256k 最大輸入 token 的圖表點代表 128k–256k 個輸入 token 中的平均值,如此類推。256k 代表 256 x 1,024 = 262,114 個 token。推理模型的推理努力設為「高」。
我們同時開源了 BrowseComp Long Context(在新視窗中開啟) ,一個用於評估長上下文問答的新基準。在這個基準中,模型會收到用戶查詢、一長串相關搜尋結果,並必須根據搜尋結果回答問題。我們設計 BrowseComp Long Context 時,特別確保其真實性、難度及答案的可靠正確性。在輸入長度為 128K–256K tokens 的測試中,GPT‑5 有 89% 的情況能給出正確答案。
在 API 中,所有 GPT‑5 模型最多可接受 272,000 個輸入 tokens,並可輸出最多 128,000 個推理與結果 tokens,總上下文長度可達 400,000 tokens。
GPT‑5 比我們以往的模型更值得信賴。在 LongFact 和 FactScore 基準測試的提示下,GPT‑5 的事實錯誤率比 o3 減少約 80%。這令它在需要高度正確性的代理式應用場景中(特別是編碼、數據處理及決策制定)更為適合。
分數越高越差。LongFact(在新視窗中開啟) 和 FActScore(在新視窗中開啟) 包括開放式尋求事實問題。我們使用配備瀏覽能力,以 LLM 為基礎的評分系統,以檢查對於來自這些基準測試的提示詞之回覆,測量出現事實錯誤的比例。實施方式和評分詳情請參照系統卡。推理模型的推理努力設為「高」。搜尋並未啟用。
整體而言,GPT‑5 經過訓練後,對自身的限制有更高的自覺性,亦更能應對突發情況。我們亦針對 GPT‑5 在健康相關問題上的準確度進行了強化訓練(詳情可參閱我們的研究網誌)。同樣地,正如使用任何語言模型一樣,當事關重大時,我們建議你對 GPT‑5 的輸出結果作再次驗證。
開發人員可以透過 API 中的 reasoning_effort 參數來控制 GPT‑5 的思考時間。除了原有的 low、medium(預設)和 high 之外,GPT‑5 亦支援 minimal 模式,將推理過程減至最少,以更快速度返回答案。
較高的 reasoning_effort 數值可提升答案質素,而較低的數值則可提升回應速度。並非所有任務都同樣受益於額外的推理,因此我們建議你多作嘗試,找出最適合你應用場景的設定。
例如,在相對簡單的長上下文檢索任務中,將 reasoning effort 設定高於 low 並不會帶來太大幫助;但在 CharXiv Reasoning(在新視窗中開啟) (視覺推理基準測試)中,較高的設定則可提升數個百分點的表現。
GPT‑5 的推理努力在不同的任務會獲得不同的得益。在 CharXiv Reasoning 中,GPT‑5 可以使用 python 工具。
為了讓你更容易控制 GPT‑5 回應的預設長度,我們在 API 中新增了一個參數 verbosity,可設定為 low、medium(預設) 或 high。如果明確的指令與 verbosity 參數衝突,則以明確指令為準。例如,如果你要求 GPT‑5「寫一篇五段的文章」,不論 verbosity 設定為何,模型的回應都應該是五段(但每段的長短可能會因詳略程度而有所不同)。
Verbosity=low
Verbosity=medium
Verbosity=high
在收到相關指令時,GPT‑5 會在工具呼叫前及呼叫之間輸出使用者可見的前置訊息。與隱藏的推理訊息不同,這些可見訊息能讓 GPT‑5 向使用者傳達其計劃與進度,協助最終使用者理解它在進行工具呼叫時的思路與目的。
我們引入了一種新的工具類型,即自訂工具,讓 GPT‑5 可以使用純文字(plaintext)而非 JSON 來呼叫工具。為了限制 GPT‑5 遵循自訂工具的格式,開發人員可以提供 正則表達式(regex),甚至是更完整定義的上下文無關文法(在新視窗中開啟)(context-free grammar)。
以往,開發人員自訂的工具必須透過 JSON 呼叫,這是網絡 API 和開發者常用的格式。然而,輸出有效的 JSON 要求模型完全正確地轉義所有引號、反斜線、換行符,以及其他控制字符。雖然我們的模型已經過良好訓練來輸出 JSON,但在處理長輸入時(例如數百行代碼或一份五頁的報告),出錯的機率仍會上升。有了自訂工具,GPT‑5 可以用純文字編寫工具輸入,而不必轉義所有需要轉義的字符。
在 SWE-bench Verified 測試中,使用自訂工具代替 JSON 工具時,GPT‑5 的得分大致相同。
GPT‑5 在安全性方面達到新高度,並且是一個更穩健、可靠及有用的模型。與我們之前的模型相比,GPT‑5 出現幻覺(hallucination)的機會顯著降低,能更坦誠地向使用者解釋其行動與能力,並在可能的情況下提供最有幫助的答案,同時仍嚴守安全界限。你可以在我們的研究網誌中閱讀更多相關內容。
GPT‑5 現已於 API 平台推出,提供三種規格:gpt-5、gpt-5-mini 和 gpt-5-nano。它可在 Responses API、Chat Completions API 中使用,並且是 Codex CLI 的預設模型。收費為:GPT‑5:US$1.25 / 百萬輸入 token,US$10 / 百萬輸出 token。GPT‑5 mini:US$0.25 / 百萬輸入 token,US$2 / 百萬輸出 token。GPT‑5 nano:US$0.05 / 百萬輸入 token,US$0.40 / 百萬輸出 token。
這些模型支援 reasoning_effort 與 verbosity API 參數,以及 自訂工具(custom tools)。它們亦支援並行工具呼叫、內建工具(網頁搜尋、檔案搜尋、圖片生成等)、核心 API 功能(串流輸出、結構化輸出等),以及節省成本的功能(例如提示快取和批量 API)。
ChatGPT 使用的非推理版本 GPT‑5 亦可在 API 中使用,名稱為 gpt-5-chat-latest,收費同樣為 US$1.25 / 百萬輸入 token 和 US$10 / 百萬輸出 token。
GPT‑5 亦同步在 Microsoft 各平台推出,包括 Microsoft 365 Copilot、Copilot、GitHub Copilot 以及 Azure AI Foundry。
立即查看 文件(在新視窗中開啟)、收費詳情(在新視窗中開啟)和提示指南(在新視窗中開啟),開始使用吧。
智能
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94.6% | 91.1% | 85.2% | 88.9% | 92.7% | 46.4% | 40.2% | - |
| FrontierMath(with python tool only) | 26.3% | 22.1% | 9.6% | 15.8% | 15.4% | - | - | - |
| GPQA diamond(no tools) | 85.7% | 82.3% | 71.2% | 83.3% | 81.4% | 66.3% | 65.0% | 50.3% |
| HLE[1](no tools) | 24.8% | 16.7% | 8.7% | 20.2% | 14.7% | 5.4% | 3.7% | - |
| HMMT 2025(no tools) | 93.3% | 87.8% | 75.6% | 81.7% | 85.0% | 28.9% | 35.0% | - |
[1] 與先前網誌文章記載,基於較舊版本 HLE 的數字有少許出入。
多模態
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84.2% | 81.6% | 75.6% | 82.9% | 81.6% | 74.8% | 72.7% | 55.4% |
| MMMU-Pro(avg across standard and vision sets) | 78.4% | 74.1% | 62.6% | 76.4% | 73.4% | 60.3% | 58.9% | 33.0% |
| CharXiv reasoning(python enabled) | 81.1% | 75.5% | 62.7% | 78.6% | 72.0% | 56.7% | 56.8% | 40.5% |
| VideoMMMU, max frame 256 | 84.6% | 82.5% | 66.8% | 83.3% | 79.4% | 60.9% | 55.1% | 30.2% |
| ERQA | 65.7% | 62.9% | 50.1% | 64.0% | 56.5% | 44.3% | 42.3% | 26.5% |
編程
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | US$112K | US$75K | US$49K | US$86K | US$66K | US$34K | US$31K | US$9K |
| SWE-bench Verified[2] | 74.9% | 71.0% | 54.7% | 69.1% | 68.1% | 54.6% | 23.6% | - |
| Aider polyglot(diff) | 88.0% | 71.6% | 48.4% | 79.6% | 58.2% | 52.9% | 31.6% | 6.2% |
[2] 省略 500 條問題中 23 條未能在我們的架構上執行的問題。省略的 23 項任務為「astropy__astropy-7606」、「astropy__astropy-8707」、「astropy__astropy-8872」、「django__django-10097」、「django__django-7530」、「matplotlib__matplotlib-20488」、「matplotlib__matplotlib-20676」、「matplotlib__matplotlib-20826」、「matplotlib__matplotlib-23299」、「matplotlib__matplotlib-24970」、「matplotlib__matplotlib-25479」、「matplotlib__matplotlib-26342」、「psf__requests-6028」、「pylint-dev__pylint-6528」、「pylint-dev__pylint-7080」、「pylint-dev__pylint-7277」、「pytest-dev__pytest-5262」、「pytest-dev__pytest-7521」、「scikit-learn__scikit-learn-12973」、「sphinx-doc__sphinx-10466」、「sphinx-doc__sphinx-7462」、「sphinx-doc__sphinx-8265」和「sphinx-doc__sphinx-9367」。
遵從指示
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69.6% | 62.3% | 54.9% | 60.4% | 57.5% | 46.2% | 42.2% | 31.1% |
| Internal API instruction following eval(hard) | 64.0% | 65.8% | 56.1% | 47.4% | 44.7% | 49.1% | 45.1% | 31.6% |
| COLLIE | 99.0% | 98.5% | 96.9% | 98.4% | 96.1% | 65.8% | 54.6% | 42.5% |
[3] 註:MultiChallenge(GPT-4o)的預設評分功能往往未能正確評測模型回覆。把評分功能改為使用 o3-mini 等推理模型,在我們檢視的樣本中顯著提升評分準確性。
函數呼叫
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62.6% | 60.0% | 41.0% | 64.8% | 60.2% | 56.0% | 51.0% | 14.0% |
| Tau2-bench retail | 81.1% | 78.3% | 62.3% | 80.2% | 70.5% | 74.0% | 66.0% | 21.5% |
| Tau2-bench telecom | 96.7% | 74.1% | 35.5% | 58.2% | 40.5% | 34.0% | 44.0% | 12.1% |
長上下文
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95.2% | 84.3% | 43.2% | 55.0% | 56.4% | 57.2% | 47.2% | 36.6% |
| OpenAI-MRCR: 2 needle 256k | 86.8% | 58.8% | 34.9% | - | - | 56.2% | 45.5% | 22.6% |
| Graphwalks bfs <128k | 78.3% | 73.4% | 64.0% | 77.3% | 62.3% | 61.7% | 61.7% | 25.0% |
| Graphwalks parents <128k | 73.3% | 64.3% | 43.8% | 72.9% | 51.1% | 58.0% | 60.5% | 9.4% |
| BrowseComp Long Context 128k | 90.0% | 89.4% | 80.4% | 88.3% | 80.0% | 85.9% | 89.0% | 89.4% |
| BrowseComp Long Context 256k | 88.8% | 86.0% | 68.4% | - | - | 75.5% | 81.6% | 19.1% |
| VideoMME(long, with subtitle category) | 86.7% | 78.5% | 65.7% | 84.9% | 79.5% | 78.7% | 68.4% | 55.2% |
幻覺
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1.0% | 0.7% | 1.0% | 5.2% | 3.0% | 0.7% | 1.1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1.2% | 1.3% | 2.8% | 6.8% | 8.9% | 1.1% | 1.8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2.8% | 3.5% | 7.3% | 23.5% | 38.7% | 6.7% | 10.9% | - |


