今日我們正式在 API 平台釋出 GPT‑5,這是目前最適合程式設計及自主任務模型。
GPT‑5 在多項程式設計基準測試中取得頂尖 (SOTA) 表現,在 SWE-bench Verified 中獲得 74.9% 佳績,Aider polyglot 更達到 88%。經過我們的訓練,GPT‑5 成為貨真價實的程式設計協作夥伴,擅長產生優質程式碼和處理各項任務,舉凡修正錯誤、編輯程式碼和回答複雜程式碼庫的相關問題都難不倒它。這款模型具備可控性與協作能力,能精準遵循極詳細的指令,且在執行工具呼叫之前與過程中,能主動說明自身操作步驟。 該模型也精通前端程式設計,在內部測試中,70% 情況下前端網頁開發方面的表現勝過 OpenAI o3。
我們與新創團隊及企業的早期測試人員合作,以實際程式設計任務訓練 GPT‑5。Cursor 表示,GPT‑5 是「他們用過最聰明的模型」,而且「智慧超乎想像,操作直覺自然,甚至還具備其他模型從未見過的擬人風格。」Windsurf 分享,GPT‑5 在他們的評估測試中取得頂尖成績,而且「工具呼叫錯誤率只有其他尖端模型的一半。」Vercel 表示:「這是最強大的前端 AI 模型,無論是美感品味還是程式碼品質,表現皆達顛峰水準,堪稱無可匹敵。」
GPT‑5 在長時間執行的自主代理任務中表現同樣傑出:在兩個月前剛發布的工具呼叫基準測試 τ2-bench telecom 中,取得頂尖成績 (96.7%)。GPT‑5 大幅提升工具智慧,能夠在數十次 API 使用中,無論是依序進行或同時並行,都能保持清晰不出錯,讓它在端到端執行複雜的真實任務時更勝一籌。它遵循指令的精準度更高,處理錯誤能力更強,長篇上下文檢索更是專業。Manus 表示,GPT‑5「在他們的內部基準測試中,達到單一模型從未有過的最佳表現。」 Notion 表示:「這款模型反應迅速,在低強度推理模式下的表現尤其突出,使得 GPT‑5 成為一次解決複雜任務的上上之選。」Inditex 表示:「真正讓 [GPT‑5] 脫穎而出的,是它推理的深度。它能給出細膩、多層次的回答,展現對主題的真正理解。」
我們為 API 導入了更多功能,讓開發者能更靈活掌控模型的回應。GPT‑5 支援全新的 verbosity 參數 (可選值:low、medium、high),可用來控制回答是簡潔扼要,還是詳盡完整。GPT‑5 的 reasoning_effort 參數也能設定 minimal 值,更快速得到答案,不需要額外消耗推理資源。我們還新增了全新的工具類型「自訂工具」,讓 GPT‑5 能以純文字而非 JSON 來呼叫工具。自訂工具支援藉由開發者提供的上下文無關文法來設定限制。
GPT‑5 提供 gpt-5、gpt-5-mini 及 gpt-5-nano 等三種 API 規模 ,可讓開發者靈活平衡效能、成本與延遲。在 ChatGPT 中,GPT‑5 是結合推理、非推理與分流模型的整合系統;而在 API 平台上,GPT‑5 則是驅動 ChatGPT 最高效能的推理模型。值得注意的是,具備最小推理強度的 GPT‑5 與 ChatGPT 中的非推理模型是不一樣的模型,且經過調整,更適合開發者使用。ChatGPT 中使用的非推理模型以 gpt-5-chat-latest 的名稱開放使用。
GPT‑5 是我們迄今發布最強大的程式設計模型,它在程式設計基準測試和實際應用場景中,表現均優於 o3,且經過微調,可搭配各項自主程式設計產品使用,如 Cursor、Windsurf、GitHub Copilot 和 Codex CLI。GPT‑5 在多項不公開內部評估中創下紀錄,讓我們的 alpha 測試人員印象深刻。
GPT‑5 處理真實程式設計任務的早期回饋
「GPT-5 是我們用過最聰明的程式設計模型。我們團隊發現 GPT-5 的智慧超乎想像,操作直覺自然,甚至還具備其他模型從未見過的個性。它不僅能抓出藏得很深的棘手錯誤,還能長時間執行多回合背景智慧體,全程包辦複雜任務,這些都是其它模型難以突破的關卡。從決定範疇、規劃公關活動到完成端對端組建,它已成為我們每天工作的驅動力。
在 SWE-bench Verified (根據實際軟體工程任務的評估) 中,GPT‑5 取得 74.9% 佳績,勝過 o3 的 69.1%。值得注意的是,GPT‑5 以更高的效率和速度達到高分:相較於高推理強度的 o3,GPT‑5 使用的輸出權杖少了 22%,工具呼叫次數少了 45%。
在 SWE-bench 已驗證中,模型會獲得一個程式碼儲存庫和問題描述,並需產出修補程式來解決該問題。文字標籤表示推理強度。我們的得分略去其中 23 題(共 500 題),因為在我們的基礎設施上無法穩定通過這些題目的解決方案。GPT‑5 收到一道強調徹底驗證解答的簡短提示;而相同的提示並未提升 o3 的表現。
在程式碼編輯評測 Aider Polyglot 中,GPT‑5 創下 88% 的新紀錄,錯誤率比 o3 少了三分之一。
在 Aider Polygot(在新視窗中開啟) 測試 (Diff 模式) 中,模型需根據 Exercism 提供的程式設計練習題,撰寫出對應的程式碼差異解法。推理模型以高推理強度執行。
我們也發現 GPT‑5 相當擅長深入探索程式碼庫,能回答各種程式碼片段如何運作或其相互影響的相關問題。我們發現,面對像 OpenAI 強化學習堆疊一樣複雜的程式碼庫,GPT‑5 能協助我們推理和回答程式碼相關問題,讓工作進度加速推進。
產生網頁應用程式的前端程式碼時,GPT‑5 更注重美感、更有野心也更精準。在 o3 與 GPT‑5 的並列比較中,測試者在 70% 的情況下較偏好 GPT‑5 的回應。
以下我們精心挑選、能展縣 GPT‑5 如何透過單一提示完成任務的部分有趣範例:
Prompt:Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso.The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee.Optimize for conversion for a 6 month signup.
歡迎前往這裡(在新視窗中開啟)查看資料庫中的更多 GPT‑5 應用實例。
GPT‑5 的協作能力再升級,在 Cursor、Windsurf、GitHub Copilot 和 Codex CLI 等自主程式設計產品中表現尤其突出。在執行期間,GPT‑5 可以在各次工具呼叫之間輸出計畫、更新與摘要。與我們以往的模型相比,GPT‑5 更積極主動地完成複雜任務,不會為了徵求你的同意而暫停,任務複雜度高時,也不會退縮。
以下實例呈現 GPT‑5 處理複雜任務時的實際表現 (本案例的目標是為一家餐廳設網站):
使用者要求為餐廳架設網站後,GPT‑5 分享一個簡要計畫、規劃應用程式架構、安裝必要元件、製作網站內容、執行組建來檢查編譯錯誤、總結工作內容,最後建議可行的後續步驟。為了節省觀看時間,這支影片約以 3 倍速呈現;以原來速度建立網站的過程大約花了三分鐘。
除了自主程式設計,GPT‑5 在自主任務的整體表現也更加優異。GPT‑5 在指令遵循基準測試中創下新紀錄 (Scale MultiChallenge 得分 69.6%,由 o3‑mini 評分;工具呼叫在τ2-bench telecom 得分 96.7%)。改良後的工具智慧讓 GPT‑5 能更穩定地串連多項操作,順利完成各種實際情境中的任務。
GPT‑5 處理自主代理任務的早期回饋
「GPT-5 是重大進步。它在我們內部基準測試中達到單一模型從未有過的最佳表現。GPT-5 在各種自主任務的表現都相當出色,連在我們調整任何一行程式碼或客製化提示之前就是如此。新的前言功能,以及對工具使用更精準的控制能力,使我們智慧體的穩定性與可控性都有明顯提升。」
比起所有前代模型,GPT‑5 可更穩定遵循指令,且在 COLLIE、Scale MultiChallenge 及我們的內部指令遵循評估中都取得高分。
在 COLLIE(在新視窗中開啟) 中,模型必須撰寫符合多項限制條件的文字。在 Scale MultiChallenge(在新視窗中開啟) 中,模型必須進行多回合對話,妥善使用來自先前訊息的四種資訊類型。我們的分數是使用 o3‑mini 作為評分器所得出,準確率高於 GPT‑4o。在我們的內部 OpenAI API 指令遵循評估中,模型必須遵循從真實開發者回饋中擷取的困難指令。推理模型以高推理強度執行。
我們努力改善開發者真正在意的工具呼叫方式。GPT‑5 更擅長遵循工具指示、更擅長處理工具錯誤,也更擅長主動進行多次工具呼叫 (無論是連續還是並行皆然)。GPT‑5 也能在工具呼叫之前和過程中輸出前言訊息,在較長的自主代理任務執行期間向使用者更新進度。
兩個月前,Sierra.ai 發布 τ2-bench telecom,這是一項具挑戰性的工具使用基準測試,突顯語言模型在與可由使用者改變的環境狀態互動時,效能會大幅下降。根據他們的發布內容(在新視窗中開啟),沒有任何模型的得分超過 49%。GPT‑5 得分 97%。
在 τ2-bench(在新視窗中開啟) 測試中,模型必須運用工具來完成顧客服務任務,並應對具備溝通能力且能對環境狀態採取行動的使用者。推理模型以高推理強度執行。
GPT‑5 在長篇上下文方面的表現也有明顯進步。在衡量長篇上下文資訊檢索能力的 OpenAI-MRCR 測試中,GPT‑5 超越 o3 和 GPT‑4.1,且隨著輸入長度增加,優勢持續擴大。
在 OpenAI-MRCR(在新視窗中開啟) (多輪共指解析) 測試中,系統會將多個相同的「針狀」使用者要求,插入相似的一大堆長篇要求和回應中,並要求模型重現第 i 個針狀要求的回應。平均相符率用於測量模型回應和正確答案之間的平均字串相符率。落在 25.6 萬輸入 token 的點,代表平均超過 12.8 萬至 25.6 萬個輸入 token,以此類推。在本圖中,25.6 萬代表 256 * 1,024 = 262,114 個 token。推理模型以高推理強度執行。
我們也公開了 BrowseComp Long Context(在新視窗中開啟),這是用於評估長篇上下文問答情境的測試。在這項基準測試中,模型會收到使用者查詢和一長串相關搜尋結果清單,然後必須根據這些搜尋結果回答問題。我們設計的 BrowseComp Long Context 實際可行且高難度,能提供可靠正確的真實答案。在 token 數介於 12.8 萬至 25.6 萬的輸出中,GPT‑5 提供正確答案的比率達到 89%。
在 API 中,所有 GPT‑5 模型最多可處理 272,000 個輸入 token 及 128,000 個推理與輸出 token,總上下文長度 400,000 個 token。
GPT‑5 的可信度遠勝以往的模型。在 LongFact 與 FactScore 基準測試的提示中,GPT‑5 的事實性錯誤比 o3 少了約 80%。因此,GPT‑5 更適合處理重視正確性的自主使用實例,特別是在程式設計、資料處理與決策制定等領域。
分數越高,表現越差。LongFact(在新視窗中開啟) 和 FActScore(在新視窗中開啟) 包含開放式事實查詢問題。我們使用具備瀏覽能力的 LLM 評分器,針對模型在基準測試中為提示給出的回應進行事實查證,並計算其中錯誤事實陳述的比例。實作和評分的詳情請參閱系統資訊卡。推理模型使用高推理強度。未啟用搜尋功能。
GPT‑5 在訓練上更強調對自身限制的認知,遇到突發挑戰時反應也更穩健。我們也透過訓練,大幅提高 GPT‑5 在健康領域問題的回應準確度 (詳情請參閱研究部落格)。就跟所有語言模型一樣,建議您在面對重要情況時,對 GPT‑5 的回應內容進行驗證。
開發者可以透過 API 中的 reasoning_effort 參數控制 GPT‑5 的思考時間。除了原本的 low、medium (預設) 及 high 三個值,GPT‑5 現在也支援 minimal,這項設定會將 GPT‑5 的推理強度降到最低以快速提供回應。
若想盡可能提升回應品質,可選擇較高的 reasoning_effort 值;若重視回應速度,則可選擇較低的值。提高推理強度並不會讓所有任務都獲得相同效益,因此建議您依實際需求多方嘗試,找出最適合的設定。
舉例來說,在處理相對簡單的長篇上下文檢索任務時,low 以上的推理強度幾乎沒有幫助;但在 CharXiv Reasoning(在新視窗中開啟) 視覺推理基準測試中,卻能讓表現提升好幾個百分點。
GPT‑5 的推理強度運用在不同任務所產生的效益有所差異。進行 CharXiv Reasoning 測試時,GPT‑5 可使用 Python 工具。
為了協助控制 GPT‑5 回應的預設長度,我們新增了一個 API 參數 verbosity,可設定為 low、medium (預設) 及 high。若明確指令與 verbosity 參數發生衝突,則以明確指令為準。例如,如果要求 GPT‑5「寫一篇五段式文章」,那無論 verbosity 設定為何,模型都會產出分為 5 個段落的回應,只是每段的長短可能會有所不同。
Verbosity=low
Verbosity=medium
Verbosity=high
如果收到指令,GPT‑5 會在工具呼叫之前和過程中輸出使用者可見的前言訊息。與隱藏的推理訊息不同,這些可見的訊息可讓 GPT‑5 向使用者傳達計畫和進度,協助使用者理解相關工具呼叫的做法和意圖。
我們推出了全新的工具類型「自訂工具」,讓 GPT‑5 能以純文字呼叫工具,不再僅限於使用 JSON。為了限制 GPT‑5 遵循自訂工具格式,開發者可以提供規則運算式 (regex),甚至是更完整具體、且與上下文無關的文法(在新視窗中開啟)。
以往,我們為開發者定義工具打造的介面,只能透過 JSON 來呼叫,這是網頁 API 與開發者社群普遍採用的格式。但是,模型必須精確處理所有引號、反斜線、換行符號及其他控制字元,才能輸出有效的 JSON。雖然我們的模型經過良好訓練,有能力輸出 JSON,但在處理數百行冗長程式碼或 5 頁報告這類長篇輸入時,出錯的機率仍會上升。如今透過自訂工具,GPT‑5 可以直接以純文字撰寫工具輸入,無需處理所有需要轉義的字元。
在 SWE-bench Verified 測試中,使用自訂工具而非 JSON 工具的情況下,GPT‑5 得分大致相同。
GPT‑5 突破安全極限,更加穩健、可靠且實用。相較於前代模型,GPT‑5 出現幻覺的機率大幅降低,且能更真誠向使用者傳達本身執行的操作和能力,盡可能提供最實用的答案,同時恪守安全界線。詳情請參閱我們的研究部落格。
GPT‑5 現已在 API 平台上架,提供三種規模:gpt-5、gpt-5-mini 及 gpt-5-nano。可用於回應 API 和聊天完成 API,且是 Codex CLI 的預設模型。GPT‑5 定價為 $1.25/1 百萬個輸入 token 及 $10/1 百萬個輸出 token;GPT‑5 mini 定價為 $0.25/1 百萬個輸入 token 及 $2/1 百萬個輸出 token;GPT‑5 nano 定價為 $0.05/1 百萬個輸入 token 及 $0.40/1 百萬個輸出 token。
這些模型均支援 reasoning_effort 和 verbosity API 參數與自訂工具。此外,它們也支援並行工具呼叫、內建工具 (網頁搜尋、檔案搜尋、圖像產生等)、核心 API 功能 (串流、結構化輸出等),以及多項節省成本的功能 (提示快取和批次 API 等)。
ChatGPT 中使用的 GPT‑5 的非推理版本,在 API 中以 gpt-5-chat-latest 名稱上架,定價為 $1.25/1 百萬個輸入 token 及 $10/1 百萬個輸出 token。
GPT‑5 也在各 Microsoft 平台上推出,包括 Microsoft 365 Copilot、Copilot、GitHub Copilot 及 Azure AI Foundry。
如要開始使用,歡迎參閱 GPT‑5 說明文件(在新視窗中開啟)、定價詳情(在新視窗中開啟)和推廣指南(在新視窗中開啟)。
智慧
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94.6% | 91.1% | 85.2% | 88.9% | 92.7% | 46.4% | 40.2% | - |
| FrontierMath(with python tool only) | 26.3% | 22.1% | 9.6% | 15.8% | 15.4% | - | - | - |
| GPQA diamond(no tools) | 85.7% | 82.3% | 71.2% | 83.3% | 81.4% | 66.3% | 65.0% | 50.3% |
| HLE[1](no tools) | 24.8% | 16.7% | 8.7% | 20.2% | 14.7% | 5.4% | 3.7% | - |
| HMMT 2025(no tools) | 93.3% | 87.8% | 75.6% | 81.7% | 85.0% | 28.9% | 35.0% | - |
[1] 這與先前部落格貼文公布的結果有些微出入,因為之前是用舊版的 HLE 進行測試。
多模態
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84.2% | 81.6% | 75.6% | 82.9% | 81.6% | 74.8% | 72.7% | 55.4% |
| MMMU-Pro(avg across standard and vision sets) | 78.4% | 74.1% | 62.6% | 76.4% | 73.4% | 60.3% | 58.9% | 33.0% |
| CharXiv reasoning(python enabled) | 81.1% | 75.5% | 62.7% | 78.6% | 72.0% | 56.7% | 56.8% | 40.5% |
| VideoMMMU, max frame 256 | 84.6% | 82.5% | 66.8% | 83.3% | 79.4% | 60.9% | 55.1% | 30.2% |
| ERQA | 65.7% | 62.9% | 50.1% | 64.0% | 56.5% | 44.3% | 42.3% | 26.5% |
程式設計
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | US$11萬 | US$7.5萬 | US$4.9萬 | US$8.6萬 | US$6.6萬 | US$3.4萬 | US$3.1萬 | US$9000 |
| SWE-bench Verified[2] | 74.9% | 71.0% | 54.7% | 69.1% | 68.1% | 54.6% | 23.6% | - |
| Aider polyglot(diff) | 88.0% | 71.6% | 48.4% | 79.6% | 58.2% | 52.9% | 31.6% | 6.2% |
[2] 總共 500 道題目,我們省略了其中無法在我們基礎架構上執行的 23 題。以下是省略的 23 項任務完整清單:「astropy__astropy-7606」、「astropy__astropy-8707」、「astropy__astropy-8872」、「django__django-10097」、「django__django-7530」、「matplotlib__matplotlib-20488」、「matplotlib__matplotlib-20676」、「matplotlib__matplotlib-20826」、「matplotlib__matplotlib-23299」、「matplotlib__matplotlib-24970」、「matplotlib__matplotlib-25479」、「matplotlib__matplotlib-26342」、「psf__requests-6028」、「pylint-dev__pylint-6528」、「pylint-dev__pylint-7080」、「pylint-dev__pylint-7277」、「pytest-dev__pytest-5262」、「pytest-dev__pytest-7521」、「scikit-learn__scikit-learn-12973」、「sphinx-doc__sphinx-10466」、「sphinx-doc__sphinx-7462」、「sphinx-doc__sphinx-8265」及「sphinx-doc__sphinx-9367」。
指令遵循
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69.6% | 62.3% | 54.9% | 60.4% | 57.5% | 46.2% | 42.2% | 31.1% |
| Internal API instruction following eval(hard) | 64.0% | 65.8% | 56.1% | 47.4% | 44.7% | 49.1% | 45.1% | 31.6% |
| COLLIE | 99.0% | 98.5% | 96.9% | 98.4% | 96.1% | 65.8% | 54.6% | 42.5% |
[3] 請注意:我們發現,MultiChallenge (GPT-4o) 中的預設評分器經常對模型回應給出錯誤評分。我們發現,將評分器換成 o3-mini 這類推理模型後,針對檢驗過的樣本重新評分,準確度有所提升。
函式呼叫
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62.6% | 60.0% | 41.0% | 64.8% | 60.2% | 56.0% | 51.0% | 14.0% |
| Tau2-bench retail | 81.1% | 78.3% | 62.3% | 80.2% | 70.5% | 74.0% | 66.0% | 21.5% |
| Tau2-bench telecom | 96.7% | 74.1% | 35.5% | 58.2% | 40.5% | 34.0% | 44.0% | 12.1% |
長篇上下文
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95.2% | 84.3% | 43.2% | 55.0% | 56.4% | 57.2% | 47.2% | 36.6% |
| OpenAI-MRCR: 2 needle 256k | 86.8% | 58.8% | 34.9% | - | - | 56.2% | 45.5% | 22.6% |
| Graphwalks bfs <128k | 78.3% | 73.4% | 64.0% | 77.3% | 62.3% | 61.7% | 61.7% | 25.0% |
| Graphwalks parents <128k | 73.3% | 64.3% | 43.8% | 72.9% | 51.1% | 58.0% | 60.5% | 9.4% |
| BrowseComp Long Context 128k | 90.0% | 89.4% | 80.4% | 88.3% | 80.0% | 85.9% | 89.0% | 89.4% |
| BrowseComp Long Context 256k | 88.8% | 86.0% | 68.4% | - | - | 75.5% | 81.6% | 19.1% |
| VideoMME(long, with subtitle category) | 86.7% | 78.5% | 65.7% | 84.9% | 79.5% | 78.7% | 68.4% | 55.2% |
虛構內容
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1.0% | 0.7% | 1.0% | 5.2% | 3.0% | 0.7% | 1.1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1.2% | 1.3% | 2.8% | 6.8% | 8.9% | 1.1% | 1.8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2.8% | 3.5% | 7.3% | 23.5% | 38.7% | 6.7% | 10.9% | - |


