跳至主要內容
OpenAI

2025年8月7日

產品

隆重介紹開發者專用 GPT‑5

最強程式設計與自主任務模型。

載入中…

簡介

今日我們正式在 API 平台釋出 GPT‑5,這是目前最適合程式設計及自主任務模型。

GPT‑5 在多項程式設計基準測試中取得頂尖 (SOTA) 表現,在 SWE-bench Verified 中獲得 74.9% 佳績,Aider polyglot 更達到 88%。經過我們的訓練,GPT‑5 成為貨真價實的程式設計協作夥伴,擅長產生優質程式碼和處理各項任務,舉凡修正錯誤、編輯程式碼和回答複雜程式碼庫的相關問題都難不倒它。這款模型具備可控性與協作能力,能精準遵循極詳細的指令,且在執行工具呼叫之前與過程中,能主動說明自身操作步驟。  該模型也精通前端程式設計,在內部測試中,70% 情況下前端網頁開發方面的表現勝過 OpenAI o3。

我們與新創團隊及企業的早期測試人員合作,以實際程式設計任務訓練 GPT‑5。Cursor 表示,GPT‑5 是「他們用過最聰明的模型」,而且「智慧超乎想像,操作直覺自然,甚至還具備其他模型從未見過的擬人風格。」Windsurf 分享,GPT‑5 在他們的評估測試中取得頂尖成績,而且「工具呼叫錯誤率只有其他尖端模型的一半。」Vercel 表示:「這是最強大的前端 AI 模型,無論是美感品味還是程式碼品質,表現皆達顛峰水準,堪稱無可匹敵。」

GPT‑5 在長時間執行的自主代理任務中表現同樣傑出:在兩個月前剛發布的工具呼叫基準測試 τ2-bench telecom 中,取得頂尖成績 (96.7%)。GPT‑5 大幅提升工具智慧,能夠在數十次 API 使用中,無論是依序進行或同時並行,都能保持清晰不出錯,讓它在端到端執行複雜的真實任務時更勝一籌。它遵循指令的精準度更高,處理錯誤能力更強,長篇上下文檢索更是專業。Manus 表示,GPT‑5「在他們的內部基準測試中,達到單一模型從未有過的最佳表現。」 Notion 表示:「這款模型反應迅速,在低強度推理模式下的表現尤其突出,使得 GPT‑5 成為一次解決複雜任務的上上之選。」Inditex 表示:「真正讓 [GPT‑5] 脫穎而出的,是它推理的深度。它能給出細膩、多層次的回答,展現對主題的真正理解。」

我們為 API 導入了更多功能,讓開發者能更靈活掌控模型的回應。GPT‑5 支援全新的 verbosity 參數 (可選值:lowmediumhigh),可用來控制回答是簡潔扼要,還是詳盡完整。GPT‑5 的 reasoning_effort 參數也能設定 minimal 值,更快速得到答案,不需要額外消耗推理資源。我們還新增了全新的工具類型「自訂工具」,讓 GPT‑5 能以純文字而非 JSON 來呼叫工具。自訂工具支援藉由開發者提供的上下文無關文法來設定限制。

GPT‑5 提供 gpt-5gpt-5-minigpt-5-nano 等三種 API 規模 ,可讓開發者靈活平衡效能、成本與延遲。在 ChatGPT 中,GPT‑5 是結合推理、非推理與分流模型的整合系統;而在 API 平台上,GPT‑5 則是驅動 ChatGPT 最高效能的推理模型。值得注意的是,具備最小推理強度的 GPT‑5 與 ChatGPT 中的非推理模型是不一樣的模型,且經過調整,更適合開發者使用。ChatGPT 中使用的非推理模型以 gpt-5-chat-latest 的名稱開放使用。

如需進一步了解 ChatGPT 中的 GPT‑5 及其他 ChatGPT 改進項目,請參閱我們的研究部落格。如需進一步了解企業如何熱切採用 GPT‑5,請參閱我們的企業部落格

程式設計

GPT‑5 是我們迄今發布最強大的程式設計模型,它在程式設計基準測試和實際應用場景中,表現均優於 o3,且經過微調,可搭配各項自主程式設計產品使用,如 Cursor、Windsurf、GitHub Copilot 和 Codex CLI。GPT‑5 在多項不公開內部評估中創下紀錄,讓我們的 alpha 測試人員印象深刻。 

GPT‑5 處理真實程式設計任務的早期回饋

「GPT-5 是我們用過最聰明的程式設計模型。我們團隊發現 GPT-5 的智慧超乎想像,操作直覺自然,甚至還具備其他模型從未見過的個性。它不僅能抓出藏得很深的棘手錯誤,還能長時間執行多回合背景智慧體,全程包辦複雜任務,這些都是其它模型難以突破的關卡。從決定範疇、規劃公關活動到完成端對端組建,它已成為我們每天工作的驅動力。
Cursor 共同創辦人兼執行長 Michael Truell

在 SWE-bench Verified (根據實際軟體工程任務的評估) 中,GPT‑5 取得 74.9% 佳績,勝過 o3 的 69.1%。值得注意的是,GPT‑5 以更高的效率和速度達到高分:相較於高推理強度的 o3,GPT‑5 使用的輸出權杖少了 22%,工具呼叫次數少了 45%。

SWE-bench 已驗證中,模型會獲得一個程式碼儲存庫和問題描述,並需產出修補程式來解決該問題。文字標籤表示推理強度。我們的得分略去其中 23 題(共 500 題),因為在我們的基礎設施上無法穩定通過這些題目的解決方案。GPT‑5 收到一道強調徹底驗證解答的簡短提示;而相同的提示並未提升 o3 的表現。

在程式碼編輯評測 Aider Polyglot 中,GPT‑5 創下 88% 的新紀錄,錯誤率比 o3 少了三分之一。

Aider Polygot(在新視窗中開啟) 測試 (Diff 模式) 中,模型需根據 Exercism 提供的程式設計練習題,撰寫出對應的程式碼差異解法。推理模型以高推理強度執行。

我們也發現 GPT‑5 相當擅長深入探索程式碼庫,能回答各種程式碼片段如何運作或其相互影響的相關問題。我們發現,面對像 OpenAI 強化學習堆疊一樣複雜的程式碼庫,GPT‑5 能協助我們推理和回答程式碼相關問題,讓工作進度加速推進。 

前端工程

產生網頁應用程式的前端程式碼時,GPT‑5 更注重美感、更有野心也更精準。在 o3 與 GPT‑5 的並列比較中,測試者在 70% 的情況下較偏好 GPT‑5 的回應。

以下我們精心挑選、能展縣 GPT‑5 如何透過單一提示完成任務的部分有趣範例:

Prompt:Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso.The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee.Optimize for conversion for a 6 month signup.

歡迎前往這裡(在新視窗中開啟)查看資料庫中的更多 GPT‑5 應用實例。

程式設計協作

GPT‑5 的協作能力再升級,在 Cursor、Windsurf、GitHub Copilot 和 Codex CLI 等自主程式設計產品中表現尤其突出。在執行期間,GPT‑5 可以在各次工具呼叫之間輸出計畫、更新與摘要。與我們以往的模型相比,GPT‑5 更積極主動地完成複雜任務,不會為了徵求你的同意而暫停,任務複雜度高時,也不會退縮。

以下實例呈現 GPT‑5 處理複雜任務時的實際表現 (本案例的目標是為一家餐廳設網站):

使用者要求為餐廳架設網站後,GPT‑5 分享一個簡要計畫、規劃應用程式架構、安裝必要元件、製作網站內容、執行組建來檢查編譯錯誤、總結工作內容,最後建議可行的後續步驟。為了節省觀看時間,這支影片約以 3 倍速呈現;以原來速度建立網站的過程大約花了三分鐘。

自主任務

除了自主程式設計,GPT‑5 在自主任務的整體表現也更加優異。GPT‑5 在指令遵循基準測試中創下新紀錄 (Scale MultiChallenge 得分 69.6%,由 o3‑mini 評分;工具呼叫在τ2-bench telecom 得分 96.7%)。改良後的工具智慧讓 GPT‑5 能更穩定地串連多項操作,順利完成各種實際情境中的任務。

GPT‑5 處理自主代理任務的早期回饋

「GPT-5 是重大進步。它在我們內部基準測試中達到單一模型從未有過的最佳表現。GPT-5 在各種自主任務的表現都相當出色,連在我們調整任何一行程式碼或客製化提示之前就是如此。新的前言功能,以及對工具使用更精準的控制能力,使我們智慧體的穩定性與可控性都有明顯提升。」
Manus 共同創辦人兼首席科學家 Yichao ‘Peak’ Ji

指令遵循

比起所有前代模型,GPT‑5 可更穩定遵循指令,且在 COLLIE、Scale MultiChallenge 及我們的內部指令遵循評估中都取得高分。

COLLIE(在新視窗中開啟) 中,模型必須撰寫符合多項限制條件的文字。在 Scale MultiChallenge(在新視窗中開啟) 中,模型必須進行多回合對話,妥善使用來自先前訊息的四種資訊類型。我們的分數是使用 o3‑mini 作為評分器所得出,準確率高於 GPT‑4o。在我們的內部 OpenAI API 指令遵循評估中,模型必須遵循從真實開發者回饋中擷取的困難指令。推理模型以高推理強度執行。

工具呼叫

我們努力改善開發者真正在意的工具呼叫方式。GPT‑5 更擅長遵循工具指示、更擅長處理工具錯誤,也更擅長主動進行多次工具呼叫 (無論是連續還是並行皆然)。GPT‑5 也能在工具呼叫之前和過程中輸出前言訊息,在較長的自主代理任務執行期間向使用者更新進度。

兩個月前,Sierra.ai 發布 τ2-bench telecom,這是一項具挑戰性的工具使用基準測試,突顯語言模型在與可由使用者改變的環境狀態互動時,效能會大幅下降。根據他們的發布內容(在新視窗中開啟),沒有任何模型的得分超過 49%。GPT‑5 得分 97%。

τ2-bench(在新視窗中開啟) 測試中,模型必須運用工具來完成顧客服務任務,並應對具備溝通能力且能對環境狀態採取行動的使用者。推理模型以高推理強度執行。

GPT‑5 在長篇上下文方面的表現也有明顯進步。在衡量長篇上下文資訊檢索能力的 OpenAI-MRCR 測試中,GPT‑5 超越 o3 和 GPT‑4.1,且隨著輸入長度增加,優勢持續擴大。

OpenAI-MRCR(在新視窗中開啟) (多輪共指解析) 測試中,系統會將多個相同的「針狀」使用者要求,插入相似的一大堆長篇要求和回應中,並要求模型重現第 i 個針狀要求的回應。平均相符率用於測量模型回應和正確答案之間的平均字串相符率。落在 25.6 萬輸入 token 的點,代表平均超過 12.8 萬至 25.6 萬個輸入 token,以此類推。在本圖中,25.6 萬代表 256 * 1,024 = 262,114 個 token。推理模型以高推理強度執行。

我們也公開了 BrowseComp Long Context(在新視窗中開啟),這是用於評估長篇上下文問答情境的測試。在這項基準測試中,模型會收到使用者查詢和一長串相關搜尋結果清單,然後必須根據這些搜尋結果回答問題。我們設計的 BrowseComp Long Context 實際可行且高難度,能提供可靠正確的真實答案。在 token 數介於 12.8 萬至 25.6 萬的輸出中,GPT‑5 提供正確答案的比率達到 89%。

在 API 中,所有 GPT‑5 模型最多可處理 272,000 個輸入 token 及 128,000 個推理與輸出 token,總上下文長度 400,000 個 token。

事實性

GPT‑5 的可信度遠勝以往的模型。在 LongFact 與 FactScore 基準測試的提示中,GPT‑5 的事實性錯誤比 o3 少了約 80%。因此,GPT‑5 更適合處理重視正確性的自主使用實例,特別是在程式設計、資料處理與決策制定等領域。

分數越高,表現越差。LongFact(在新視窗中開啟)FActScore(在新視窗中開啟) 包含開放式事實查詢問題。我們使用具備瀏覽能力的 LLM 評分器,針對模型在基準測試中為提示給出的回應進行事實查證,並計算其中錯誤事實陳述的比例。實作和評分的詳情請參閱系統資訊卡。推理模型使用高推理強度。未啟用搜尋功能。

GPT‑5 在訓練上更強調對自身限制的認知,遇到突發挑戰時反應也更穩健。我們也透過訓練,大幅提高 GPT‑5 在健康領域問題的回應準確度 (詳情請參閱研究部落格)。就跟所有語言模型一樣,建議您在面對重要情況時,對 GPT‑5 的回應內容進行驗證。

新功能介紹

低推理強度模式

開發者可以透過 API 中的 reasoning_effort 參數控制 GPT‑5 的思考時間。除了原本的 lowmedium (預設) 及 high 三個值,GPT‑5 現在也支援 minimal,這項設定會將 GPT‑5 的推理強度降到最低以快速提供回應。

若想盡可能提升回應品質,可選擇較高的 reasoning_effort 值;若重視回應速度,則可選擇較低的值。提高推理強度並不會讓所有任務都獲得相同效益,因此建議您依實際需求多方嘗試,找出最適合的設定。

舉例來說,在處理相對簡單的長篇上下文檢索任務時,low 以上的推理強度幾乎沒有幫助;但在 CharXiv Reasoning(在新視窗中開啟) 視覺推理基準測試中,卻能讓表現提升好幾個百分點。

GPT‑5 的推理強度運用在不同任務所產生的效益有所差異。進行 CharXiv Reasoning 測試時,GPT‑5 可使用 Python 工具。

Verbosity (回應詳盡度)

為了協助控制 GPT‑5 回應的預設長度,我們新增了一個 API 參數 verbosity,可設定為 lowmedium (預設) 及 high。若明確指令與 verbosity 參數發生衝突,則以明確指令為準。例如,如果要求 GPT‑5「寫一篇五段式文章」,那無論 verbosity 設定為何,模型都會產出分為 5 個段落的回應,只是每段的長短可能會有所不同。

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

工具呼叫前的前言訊息

如果收到指令,GPT‑5 會在工具呼叫之前和過程中輸出使用者可見的前言訊息。與隱藏的推理訊息不同,這些可見的訊息可讓 GPT‑5 向使用者傳達計畫和進度,協助使用者理解相關工具呼叫的做法和意圖。

自訂工具

我們推出了全新的工具類型「自訂工具」,讓 GPT‑5 能以純文字呼叫工具,不再僅限於使用 JSON。為了限制 GPT‑5 遵循自訂工具格式,開發者可以提供規則運算式 (regex),甚至是更完整具體、且與上下文無關的文法(在新視窗中開啟)

以往,我們為開發者定義工具打造的介面,只能透過 JSON 來呼叫,這是網頁 API 與開發者社群普遍採用的格式。但是,模型必須精確處理所有引號、反斜線、換行符號及其他控制字元,才能輸出有效的 JSON。雖然我們的模型經過良好訓練,有能力輸出 JSON,但在處理數百行冗長程式碼或 5 頁報告這類長篇輸入時,出錯的機率仍會上升。如今透過自訂工具,GPT‑5 可以直接以純文字撰寫工具輸入,無需處理所有需要轉義的字元。

在 SWE-bench Verified 測試中,使用自訂工具而非 JSON 工具的情況下,GPT‑5 得分大致相同。

安全性

GPT‑5 突破安全極限,更加穩健、可靠且實用。相較於前代模型,GPT‑5 出現幻覺的機率大幅降低,且能更真誠向使用者傳達本身執行的操作和能力,盡可能提供最實用的答案,同時恪守安全界線。詳情請參閱我們的研究部落格

可用性與定價

GPT‑5 現已在 API 平台上架,提供三種規模:gpt-5gpt-5-minigpt-5-nano。可用於回應 API 和聊天完成 API,且是 Codex CLI 的預設模型。GPT‑5 定價為 $1.25/1 百萬個輸入 token 及 $10/1 百萬個輸出 token;GPT‑5 mini 定價為 $0.25/1 百萬個輸入 token 及 $2/1 百萬個輸出 token;GPT‑5 nano 定價為 $0.05/1 百萬個輸入 token 及 $0.40/1 百萬個輸出 token。

這些模型均支援 reasoning_effortverbosity API 參數與自訂工具。此外,它們也支援並行工具呼叫、內建工具 (網頁搜尋、檔案搜尋、圖像產生等)、核心 API 功能 (串流、結構化輸出等),以及多項節省成本的功能 (提示快取和批次 API 等)。

ChatGPT 中使用的 GPT‑5 的非推理版本,在 API 中以 gpt-5-chat-latest 名稱上架,定價為 $1.25/1 百萬個輸入 token 及 $10/1 百萬個輸出 token。

GPT‑5 也在各 Microsoft 平台上推出,包括 Microsoft 365 Copilot、Copilot、GitHub Copilot 及 Azure AI Foundry。

詳細基準測試

智慧
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94.6%91.1%85.2%88.9%92.7%46.4%40.2%-
FrontierMath(with python tool only)26.3%22.1%9.6%15.8%15.4%---
GPQA diamond(no tools)85.7%82.3%71.2%83.3%81.4%66.3%65.0%50.3%
HLE[1](no tools)24.8%16.7%8.7%20.2%14.7%5.4%3.7%-
HMMT 2025(no tools)93.3%87.8%75.6%81.7%85.0%28.9%35.0%-

[1] 這與先前部落格貼文公布的結果有些微出入,因為之前是用舊版的 HLE 進行測試。

多模態
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84.2%81.6%75.6%82.9%81.6%74.8%72.7%55.4%
MMMU-Pro(avg across standard and vision sets)78.4%74.1%62.6%76.4%73.4%60.3%58.9%33.0%
CharXiv reasoning(python enabled)81.1%75.5%62.7%78.6%72.0%56.7%56.8%40.5%
VideoMMMU, max frame 25684.6%82.5%66.8%83.3%79.4%60.9%55.1%30.2%
ERQA65.7%62.9%50.1%64.0%56.5%44.3%42.3%26.5%
程式設計
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding TasksUS$11萬US$7.5萬US$4.9萬US$8.6萬US$6.6萬US$3.4萬US$3.1萬US$9000
SWE-bench Verified[2]74.9%71.0%54.7%69.1%68.1%54.6%23.6%-
Aider polyglot(diff)88.0%71.6%48.4%79.6%58.2%52.9%31.6%6.2%

[2] 總共 500 道題目,我們省略了其中無法在我們基礎架構上執行的 23 題。以下是省略的 23 項任務完整清單:「astropy__astropy-7606」、「astropy__astropy-8707」、「astropy__astropy-8872」、「django__django-10097」、「django__django-7530」、「matplotlib__matplotlib-20488」、「matplotlib__matplotlib-20676」、「matplotlib__matplotlib-20826」、「matplotlib__matplotlib-23299」、「matplotlib__matplotlib-24970」、「matplotlib__matplotlib-25479」、「matplotlib__matplotlib-26342」、「psf__requests-6028」、「pylint-dev__pylint-6528」、「pylint-dev__pylint-7080」、「pylint-dev__pylint-7277」、「pytest-dev__pytest-5262」、「pytest-dev__pytest-7521」、「scikit-learn__scikit-learn-12973」、「sphinx-doc__sphinx-10466」、「sphinx-doc__sphinx-7462」、「sphinx-doc__sphinx-8265」及「sphinx-doc__sphinx-9367」。

指令遵循
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69.6%62.3%54.9%60.4%57.5%46.2%42.2%31.1%
Internal API instruction following eval(hard)64.0%65.8%56.1%47.4%44.7%49.1%45.1%31.6%
COLLIE99.0%98.5%96.9%98.4%96.1%65.8%54.6%42.5%

[3] 請注意:我們發現,MultiChallenge (GPT-4o) 中的預設評分器經常對模型回應給出錯誤評分。我們發現,將評分器換成 o3-mini 這類推理模型後,針對檢驗過的樣本重新評分,準確度有所提升。

函式呼叫
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62.6%60.0%41.0%64.8%60.2%56.0%51.0%14.0%
Tau2-bench retail81.1%78.3%62.3%80.2%70.5%74.0%66.0%21.5%
Tau2-bench telecom96.7%74.1%35.5%58.2%40.5%34.0%44.0%12.1%
長篇上下文
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95.2%84.3%43.2%55.0%56.4%57.2%47.2%36.6%
OpenAI-MRCR: 2 needle 256k86.8%58.8%34.9%--56.2%45.5%22.6%
Graphwalks bfs <128k78.3%73.4%64.0%77.3%62.3%61.7%61.7%25.0%
Graphwalks parents <128k73.3%64.3%43.8%72.9%51.1%58.0%60.5%9.4%
BrowseComp Long Context 128k90.0%89.4%80.4%88.3%80.0%85.9%89.0%89.4%
BrowseComp Long Context 256k88.8%86.0%68.4%--75.5%81.6%19.1%
VideoMME(long, with subtitle category)86.7%78.5%65.7%84.9%79.5%78.7%68.4%55.2%
虛構內容
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1.0%0.7%1.0%5.2%3.0%0.7%1.1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1.2%1.3%2.8%6.8%8.9%1.1%1.8%-
FActScore hallucination rate(no tools)[lower is better]2.8%3.5%7.3%23.5%38.7%6.7%10.9%-

作者

OpenAI