今天我們在 ChatGPT 中推出 GPT‑5.4(作為 GPT‑5.4Thinking)、API 和 Codex。這是我們最強大且最高效的前沿模型,專為專業工作打造。我們也會在 ChatGPT 和 API 中推出 GPT‑5.4 Pro,提供給希望在複雜任務上獲得最高效能的使用者。
GPT‑5.4 彙集我們近期在推理、程式設計與智慧體工作流程方面的最佳進展,整合為單一前沿模型。此版本結合了業界領先的 GPT‑5.3‑Codex 程式設計能力,同時提升模型在各種工具、軟體環境,以及涉及試算表、簡報與文件的專業任務中的運作表現。該模型能精準又有效率地完成複雜的實際工作,減少需要反覆溝通的狀況,更快交付你所要求的結果。
在 ChatGPT 中,GPT‑5.4 Thinking 現在會先提供思考計畫,讓你在模型生成回應的過程中即時調整方向,無需額外對話來回,就能得到更貼近需求的最終成果。GPT‑5.4 Thinking 也提升了深度網路研究能力,特別是在處理非常具體的查詢時,同時在需要較長推理過程的問題上更能維持脈絡。綜合這些改進,模型能更快產生更高品質的回答,且與目前任務保持切題相關。
在 Codex 和 API 中,GPT‑5.4 是我們推出的第一個通用模型,具備原生、最先進的電腦操作能力,讓智慧體能操作電腦,並跨不同應用程式執行複雜的工作流程。模型最多支援 100 萬 Token 的上下文,讓智慧體能在長時間任務中進行規劃、執行與驗證。GPT‑5.4 也改善模型在龐大工具與連接器生態系中的運作方式。智慧體可透過「工具搜尋」,更有效率地找到並運用合適工具,同時維持模型的智能表現。最後,GPT‑5.4 是我們迄今 Token 使用效率最高的推理模型,與 GPT‑5.2 相比,解決問題時使用的 Token 顯著更少,因此 Token 用量更低,速度也更快。
GPT‑5.4 在通用推理、寫程式與專業知識工作方面的表現全面提升,支援 ChatGPT、API 和 Codex 中的智慧體穩定運作,開發者工作流程更快速,成果品質也更高。
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval(勝出或平局) | 83.0% | 70.9% | 70.9% |
SWE-Bench Pro(公開) | 57.7% | 56.8% | 55.6% |
OSWorld-Verified | 75.0% | 74.0%* | 47.3% |
Toolathlon | 54.6% | 51.9% | 46.3% |
BrowseComp | 82.7% | 77.3% | 65.8% |
*先前的報告數據為 64.7%。GPT‑5.3‑Codex 透過新推出的 API 參數,可保留原始圖像解析度,達到 74.0%。
GPT‑5.4 奠基於 GPT‑5.2 的通用推理能力,在專業人士看重的關鍵真實任務中,展現更一致且更成熟的成果。
在 GDPval 基準測試中(該測試評估智慧體在 44 種職業中,產出定義明確知識工作的能力),GPT‑5.4 取得最新業界領先成績:在 83.0% 的比較項目中,表現與業界專業人士相仿或更佳,而 GPT‑5.2 為 71.0%。
在 GDPval 中,模型嘗試進行定義明確的知識工作,當中涵蓋對美國 GDP 貢獻最大的前九大產業中的 44 個職業。這些任務要求交付真正的工作成果,例如銷售簡報、會計試算表、緊急護理值班表、生產流程圖或短片等。GPT‑5.4 的推理強度設定為 xhigh ,而 GPT‑5.2 為 heavy(在 ChatGPT 中可使用的略低等級)。
「GPT-5.4 是我們測試過最好的模型。它現在在我們的 APEX-Agents 基準測試排行榜上名列第一,這項測試衡量模型在專業服務工作中的表現。GPT-5.4 在建立長期交付成果(例如簡報、財務模型及法律分析)方面表現出色,在提供頂級表現的同時,運行速度更快,而成本也比其他前沿模型更低。」
我們重點提升了 GPT‑5.4 建立與編輯試算表、簡報和文件的能力。在內部基準測試中,我們模擬初級投資銀行分析師可能執行的試算表建模任務,GPT‑5.4 的平均得分為 87.5%,而 GPT‑5.2 為 68.4%。在評估簡報能力的測試題組中,評估人員在 68.0% 的情況下更偏好 GPT‑5.4 生成的簡報,而非 GPT‑5.2,原因包括美感更佳、視覺呈現更多樣,且更有效運用圖像生成。

文件以推理強度設為 xhigh 生成
你可以在 ChatGPT 中選擇 GPT‑5.4 Thinking 或 Pro 來試用這些能力。如果你是 Enterprise 客戶,建議使用我們今天同步推出的「ChatGPT for Excel」和「Google Sheets」外掛程式(在新視窗中開啟)。我們也更新了 Codex 和 API 中提供的試算表(在新視窗中開啟)和簡報相關能力(在新視窗中開啟)。
我們持續降低幻覺與錯誤的發生率,提升 GPT‑5.4 處理真實世界工作時的表現,GPT‑5.4 是我們迄今事實準確性最高的模型:在一組使用者曾標記有事實錯誤的去識別化提示詞中,與 GPT‑5.2 相比,GPT‑5.4 的單一事實陳述錯誤率降低 33%,而整體回應包含任何錯誤的機率則降低 18%。
「GPT-5.4 為文件密集型法律工作訂立了新標準。在我們的 BigLaw Bench 評估中,GPT-5.4 的得分為 91%。與其他模型相比,GPT-5.4 目前更擅長整理複雜的交易分析結構、在冗長合約中維持準確性,並交付法律從業人員所需的精準細節。」
GPT‑5.4 是我們首款具備原生電腦操作能力的通用模型,在開發與智慧體領域邁出重要一步。如需建構可以跨多個網站與軟體系統完成真實任務的智慧體,GPT‑5.4 正是目前最佳的理想選擇。
我們在設計 GPT‑5.4 時,著重模型在各種電腦操作任務中的表現。例如,GPT‑5.4 擅長撰寫程式碼,透過 Playwright 等程式碼庫操作電腦;也能根據螢幕截圖判斷情境,發出滑鼠與鍵盤指令。開發者可以透過 developer messages 引導模型行為,依不同使用情境調整運作方式。開發者也能根據風險承受度高低,設定合適的自訂確認政策來調整模型的安全機制。
模型的效能與彈性,也能從多項電腦操作相關的基準測試中看出來。在 OSWorld-Verified 中(該測試透過螢幕截圖,以及鍵盤和滑鼠操作來評估模型在桌面環境中的操作能力),GPT‑5.4 取得 75.0% 的成功率,成績為目前最佳,遠高於 GPT‑5.2 的 47.3%,也超越人類的 72.4%1。
在 WebArena-Verified 中(該測試評估瀏覽器操作能力),GPT‑5.4 結合 DOM 與螢幕截圖來進行互動時,成功率達到 67.3%,高於 GPT‑5.2 的 65.4%。在同樣評估瀏覽器使用能力的 Online-Mind2Web 中,GPT‑5.4 僅透過螢幕截圖觀察,就能達到 92.8% 的成功率,優於 ChatGPT Atlas 的智慧體模式,其成功率為 70.9%。
「工具暫停等待」是指暫停自身執行並等待工具回應。舉例來說,如果先並行呼叫 3 個工具,接著再並行呼叫另外 3 個工具,暫停等待次數為 2。與工具呼叫次數相比,工具暫停等待次數體現了並行處理帶來的效益,因此更能反映延遲情況。
GPT‑5.4 會解讀瀏覽器介面的螢幕截圖,並透過座標定位點擊與 UI 元素互動,傳送電子郵件及安排日曆活動。
GPT‑5.4 電腦操作能力的提升,來自模型整體視覺理解能力的進步。在 MMMU-Pro(評估模型視覺理解與推理能力的測試)中,GPT‑5.4 在不使用工具的情況下達到 81.2% 的成功率,優於 GPT‑5.2 的79.5%。視覺理解能力的提升,也讓模型在解析文件時表現更好。在 OmniDocBench 中,GPT‑5.4 在不使用推理強度的情況下,其平均錯誤(以模型預測與真實值之間的正規化編輯距離衡量)為 0.109,優於 GPT‑5.2 的 0.140。
MMMUPro 以推理強度設為 xhigh 進行。OmniDocBench 以推理強度設為 none 進行,反映低成本、低延遲的效能。
我們也進一步提升模型在需要保留圖像完整細節的情境中,對於密集、高解析度影像的視覺理解能力。自 GPT‑5.4 起,我們新增原始影像輸入細節(在新視窗中開啟)等級,可支援最高 1,024 萬總像素或 6K 像素最大邊長的完整細節辨識(以較低者為準);高 影像輸入細節等級現在支援最高 256 萬總像素或 2048 像素最大邊長。在與 API 使用者進行的早期測試中,我們觀察到在使用原始或高細節時,本地化能力、圖像理解與點擊準確率都有顯著提升。
「在我們的評估中,測量模型在約 30,000 個 HOA 及財產稅入口網站上的電腦操作表現時,GPT-5.4 在首次嘗試便達到 95% 成功率,三次嘗試內達到 100%,相比以往的 CUA 模型約為 73–79%。同時,它完成整個工作階段的速度比以往快約 3 倍,所用的 Token 少約 70%,在大規模運行時顯著提升可靠性與成本效益。」
在 API 中,開發人員可以使用更新後的 computer 工具存取這些功能。如需最佳做法建議,請參閱我們的最新說明文件(在新視窗中開啟)。
GPT‑5.4 結合 GPT‑5.3‑Codex 的程式碼編寫能力,以及領先的知識工作與電腦操作能力。這些能力在執行時間較長的任務中尤其重要,可讓模型使用工具、反覆迭代,並在較少人工介入的情況下持續推進工作。在 SWE-Bench Pro 中,GPT‑5.4 的表現與 GPT‑5.3‑Codex 相仿或更佳,同時在各種推理工作負載下的整體延遲更低。
我們透過觀察模型在實際運行環境中的表現,並在離線環境進行模擬,藉此估算延遲時間。延遲估算會納入工具呼叫持續時間(程式碼執行時間)、取樣 Token,以及輸入 Token。實際環境中的延遲可能有明顯差異,並取決於許多未納入模擬的因素。推理強度已從 none 提升為 xhigh。
當啟用 Codex 的 /fast 模式時,GPT‑5.4 的 Token 生成速度最多可提升 1.5 倍。此模式下的模型與智慧水準保持不變,只是速度更快,因此使用者可保持專注,程式碼撰寫、迭代與偵錯一氣呵成。開發者也可以使用優先處理(在新視窗中開啟),透過 API 以同樣的高速存取 GPT‑5.4。
在評估與內部測試中,我們發現 GPT‑5.4 在複雜的前端任務上表現卓越,模型產出的成果無論在美感或功能方面,都明顯優於我們先前推出的任何模型。
為了展示模型在電腦操作與程式碼編寫能力上的提升如何相輔相成,我們也同步推出一項名為「Playwright (Interactive)(在新視窗中開啟)」的實驗性 Codex 技能。此功能可讓 Codex 以視覺化方式偵錯 Web 與 Electron 應用程式;甚至能在建置應用程式的過程中,即時測試正在建置的應用程式。
以 GPT‑5.4 從單一個簡略指定的提示詞建立的主題樂園模擬遊戲,使用 Playwright Interactive 進行瀏覽器遊玩測試,並透過圖像生成建立等距資產。該模擬包括磚塊為基礎的路徑鋪設、遊樂設施與景物建造、遊客路徑尋找、排隊與遊樂設施運作循環;同時,樂園指標如金錢、遊客數量、遊客滿意度、清潔度與評分,會根據布局表現及遊客反應而上升或下降。Playwright 用於自動化瀏覽器遊玩測試,包括建造和擴展樂園、放置和移除路徑與設施、檢查鏡頭操作,以及在多輪遊玩中驗證遊客、隊列、設施狀態與 UI 指標能正確更新。
提示詞:Use $playwright-interactive and $imagegen. Create an interactive isometric theme park simulation game that I can build and navigate in the browser. Use imagegen to establish the overall visual vision and generate the game’s assets, including rides, paths, terrain, trees, water, food stalls, decorations, buildings, icons, and UI illustrations. The world should feel cohesive, polished, and visually rich, with a premium art direction that works well from an isometric perspective. Let me place and remove paths, add attractions, position scenery, and move around the park smoothly while monitoring guest activity, ride status, and park growth. Include believable guest movement, simple park management systems like money, cleanliness, queueing, and happiness, and make the experience feel playful, clear, and complete rather than like a rough prototype. Prioritize charm, readability, and strong game feel over realism.
When play testing, be sure to build and expand a park through several rounds of play, verify that placement and navigation work smoothly, confirm that guests react to the park layout and attractions, and ensure the visuals, UI, and interactions feel stable and cohesive.
「我們的工程師認為 GPT-5.4 比過往模型更自然、更果斷。它能逐步處理模稜兩可的問題,不會反覆自我懷疑,並且會主動將工作並行處理,持續推動進度。」
GPT‑5.4 大幅改進了模型與外部工具的協作方式。智慧體現在可以在更大型的工具生態系中運作,更可靠地選擇合適的工具,並以更低的成本與更低的延遲完成多步驟工作流程。
在 API 中,GPT‑5.4 導入工具搜尋(在新視窗中開啟),讓模型需使用大量工具時仍能以超高效率運作。
先前,系統提供工具給模型時,必須把所有工具定義預先放進提示詞中。對於擁有許多工具的系統而言,每個要求可能因此增加數千甚至數萬個 Token,不僅拉高成本、拖慢回應速度,還讓上下文中充斥模型可能永遠用不到的多餘資訊。
透過工具搜尋,GPT‑5.4 只需接收一份精簡的可用工具列表,且具備工具搜尋能力。等模型需要使用某個工具時,再查詢該工具的定義,並將其納入對話中即可。
這種方法可大幅減少工具密集型工作流程所需的 Token 數量,並保留快取,加快模型處理要求的速度,且成本更低。這也讓智慧體能夠可靠地在規模更大的工具生態系中運作。對於可能包含數以萬計工具定義 Token 的 MCP 伺服器而言,效率提升應相當可觀。
為了展示效率提升,我們從 Scale 的 MCP Atlas(在新視窗中開啟) 基準測試中選取 250 個任務,在兩種模式下進行評估,並啟用全部 36 個 MCP 伺服器:(1) 直接在模型上下文中公開每個 MCP 函式,以及 (2) 將所有 MCP 伺服器置於工具搜尋機制之後。在維持相同準確度的情況下,工具搜尋設定將總 Token 使用量降低了 47%。
示例 Token 數量來自 MCP-Atlas 公開資料集 250 個任務的平均值。
GPT‑5.4 也改進了工具呼叫,使模型在推理過程中,更能判斷要在什麼時機、以什麼樣的方式使用工具更加準確且更有效率,這樣的改進在 API 中尤為明顯。在 Toolathlon 基準測試中,GPT‑5.4 與 GPT‑5.2 相比,能以更少的輪次達到更高的準確度。該測試用於評估智慧體使用真實世界工具與 API 完成多步驟任務的能力。例如,智慧體可能需要閱讀電子郵件、擷取作業附件、上傳附件、進行批改,並將結果記錄在試算表中。
「工具暫停等待」是指暫停自身執行並等待工具回應。舉例來說,如果先並行呼叫 3 個工具,接著再並行呼叫另外 3 個工具,暫停等待次數為 2。與工具呼叫次數相比,工具暫停等待次數體現了並行處理帶來的效益,因此更能反映延遲情況。
在對延遲敏感、且偏好將推理強度設為 None 的使用案例中,GPT‑5.4 進一步改進了其前代模型。
在τ2-bench(在新視窗中開啟) 中,模型必須使用工具完成一項客服任務,測試環境中可能包含一位模擬使用者,該使用者可溝通並對世界狀態採取行動。推理強度設為 None。
GPT‑5.4 在智慧體網頁搜尋方面表現更佳。在 BrowseComp 中(該指標衡量智慧體持續瀏覽網路並取得難找資訊的能力),GPT‑5.4 相較於 GPT‑5.2 提升了 17% 個百分點,而 GPT‑5.4 Pro 更創下 89.3% 的業界最佳成績。
在實際應用中,這表示 GPT‑5.4 Thinking 更擅長回答需要整合網路上多個資訊來源的問題。模型可以持續進行多輪搜尋,鎖定最相關的資訊來源,並將眾多來源加以整合,最後給出邏輯清晰、論證完整的答案,特別適合用來處理形同「大海撈針」的問題。
在 BrowseComp 中,我們使用搜尋封鎖清單,將包含基準測試答案的網站排除在評估之外,避免資料污染,並確保效能評估公平。GPT‑5.4 的測試時間晚於 GPT‑5.2,因此分數也反映模型、搜尋系統以及網際網路狀態的變化。GPT‑5.4 使用較長且更新的封鎖清單進行測試。模型使用 ChatGPT 搜尋工具,這些工具的行為可能與 API 搜尋存在些微差異。
「GPT-5.4 xhigh 是多步驟工具使用的最新最佳表現標準。Zapier 在業界進行一些最嚴格的工具使用基準測試,於數百個進階的真實世界工作流程中測試各種模型。GPT-5.4 完成了先前模型放棄的任務,是目前最具持續性的模型。」
類似於 Codex 在開始工作時會先概述其處理方式,ChatGPT 中的 GPT‑5.4 Thinking 現在也會在較長且較複雜的查詢開始前提供一段前導說明,概述接下來的工作流程。你也可以在回應生成過程中加入額外指示,或即時調整其方向。這讓你能更容易引導模型提供理想的最終結果,無需重新開始或多次來回溝通。此功能現已在 chatgpt.com(在新視窗中開啟) 和 Android 應用程式上推出,iOS 應用程式也即將支援。
模型在處理困難任務時也能思考更久,同時更能掌握對話先前的脈絡。因此,模型能處理更長的工作流程與更複雜的提示詞,同時保持回答連貫且切題。
此影片已加速播放,僅作示範用途。
過去幾個月來,我們為 GPT‑5.4 部署做準備的同時,也持續改進隨 GPT‑5.3‑Codex 推出的防護措施。與 GPT‑5.3‑Codex 類似,我們依據應變整備框架,將 GPT‑5.4 視為具備「高」等級網路能力的模型,並按照系統說明卡所載內容部署相應的防護措施。這些措施包括擴展的網路安全防護架構,涵蓋監測系統、可信存取控制,以及針對零資料保留 (ZDR) 介面上較高風險要求的非同步阻擋機制,與此同時,我們也持續投入資源,打造更廣泛的安全生態系統。
由於網路安全能力本質上具有「雙重用途」,我們在部署時會審慎以對,並持續調整政策與分類器。對於 ZDR 介面上的特定客戶,要求層級的封鎖仍是我們網路風險緩解機制的一環;由於分類器仍在持續改進,在我們持續完善這些防護措施的過程中,仍可能出現誤判情況。這些更新的用意是改善防護措施在實際運作中的表現,包括減少不必要的拒答情況,以及保留語和免責聲明過多的回覆,同時維持對濫用行為的強力防護。
我們持續推進針對思路鏈 (CoT) 可監控性的安全研究,更深入了解模型如何進行推理,並協助偵測潛在的不當行為。在這項研究中,我們引入一項新的開源評估:CoT 可控性,用於衡量模型是否能刻意混淆推理過程來規避監控。我們發現 GPT‑5.4 Thinking 控制 CoT 的能力很低,這在安全方面屬於正向特性,顯示模型缺乏隱藏自身推理過程的能力,也表示 CoT 監控仍然是有效的安全工具。
GPT‑5.4 即日起在 ChatGPT 和 Codex 中逐步推出。在 API 中,GPT‑5.4 現已用 gpt-5.4 名稱提供。GPT‑5.4 Pro 也已在 API 中提供,名稱為 gpt-5.4-pro,適用於需要在最複雜任務取得最佳表現的開發者。
在 ChatGPT 中,GPT‑5.4 Thinking 即日起開放給 ChatGPT Plus、Team 和 Pro 使用者使用,並會取代 GPT‑5.2 Thinking。GPT‑5.2 Thinking 將在付費用使用者的「現行模型」選擇器中保留三個月,並於 2026 年 6 月 5 日正式停用。Enterprise 和 Edu 方案使用者可透過管理員設定啟用搶先體驗。GPT‑5.4 Pro 則開放給 Pro 與 Enterprise 方案使用。在上下文視窗(在新視窗中開啟)方面,ChatGPT 中 GPT‑5.4 Thinking 的設定與 GPT‑5.2 Thinking 相同,沒有變更。
GPT‑5.4 是我們第一個主線推理模型,整合了 GPT‑5.3‑codex 的前沿程式碼編寫能力,將在 ChatGPT、API 和 Codex 中逐步推出。我們將模型命名為 GPT‑5.4,反映這次的能力躍升,並簡化使用 Codex 時的模型選擇。接下來,我們的 Instant 模型與 Thinking 模型將以不同的更新節奏持續進步。
GPT‑5.4 在 Codex 中包含對 100 萬上下文視窗的實驗性支援。開發人員可透過設定 model_context_window 及 model_auto_compact_token_limit 來試用。超出標準 272K 上下文視窗的請求,會以正常 2 倍的比率計入用量限制。
在 API 方面,為反映能力提升,GPT‑5.4 的每個 Token 收費高於 GPT‑5.2,不過,由於 Token 使用效率更高,許多任務所需的 Token 總量反而會減少。此外,Batch 和 Flex 定價為標準 API 費率的一半,而優先處理則為標準 API 費率的兩倍。
API 模型 | 輸入費用 | 快取輸入價格 | 輸出費用 |
gpt-5.2 | $1.75 / 百萬 Token | $0.175 / 百萬 Token | $14 / 百萬 Token |
gpt-5.4 | $2.50 / 百萬 Token | $0.25 / 百萬 Token | $15 / 百萬 Token |
gpt-5.2-pro | $21 / 百萬 Token | - | $168 / 百萬 Token |
gpt-5.4-pro | $30 / 百萬 Token | - | $180 / 百萬 token |
專業
評估 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83.0% | 82.0% | 70.9% | 70.9% | 74.1% |
FinanceAgent v1.1 | 56.0% | 61.5% | 54.0% | 59.5% | — |
投資銀行建模任務(內部) | 87.3% | 83.6% | 79.3% | 68.4% | 71.7% |
OfficeQA | 68.1% | — | 65.1% | 63.1% | — |
程式設計
評估 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro(公開) | 57.7% | — | 56.8% | 55.6% | — |
Terminal-Bench 2.0 | 75.1% | — | 77.3% | 62.2% | — |
電腦操作與視覺
評估 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-Verified | 75.0% | — | 74.0% | 47.3% | — |
MMMU Pro(無工具) | 81.2% | — | — | 79.5% | — |
MMMU Pro(使用工具) | 82.1% | — | — | 80.4% | — |
工具使用
評估 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82.7% | 89.3% | 77.3% | 65.8% | 77.9% |
MCP Atlas | 67.2% | — | — | 60.6% | — |
Toolathlon | 54.6% | — | 51.9% | 45.7% | — |
Tau2-bench Telecom | 98.9% | — | — | 98.7% | — |
學術
評估 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Frontier Science Research | 33.0% | 36.7% | — | 25.2% | — |
FrontierMath(第 1 至 3 級) | 47.6% | — | — | 40.7% | — |
FrontierMath(第 4 級) | 27.1% | 38.0% | — | 18.8% | 31.3% |
GPQA Diamond | 92.8% | 94.4% | 92.6% | 92.4% | 93.2% |
Humanity's Last Exam(不使用工具) | 39.8% | 42.7% | — | 34.5% | 36.6% |
Humanity's Last Exam(使用工具) | 52.1% | 58.7% | — | 45.5% | 50.0% |
長篇上下文
評估 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93.0% | — | — | 94.0% | — |
Graphwalks BFS 256K–1M | 21.4% | — | — | — | — |
Graphwalks 父節點 0–128K(準確度) | 89.8% | — | — | 89.0% | — |
Graphwalks 父節點 256K–1M(準確度) | 32.4% | — | — | — | — |
OpenAI MRCR v2 8-needle 4K–8K | 97.3% | — | — | 98.2% | — |
OpenAI MRCR v2 8-needle 8K–16K | 91.4% | — | — | 89.3% | — |
OpenAI MRCR v2 8-needle 16K–32K | 97.2% | — | — | 95.3% | — |
OpenAI MRCR v2 8-needle 32K–64K | 90.5% | — | — | 92.0% | — |
OpenAI MRCR v2 8-needle 64K–128K | 86.0% | — | — | 85.6% | — |
OpenAI MRCR v2 8-needle 128K–256K | 79.3% | — | — | 77.0% | — |
OpenAI MRCR v2 8-needle 256K–512K | 57.5% | — | — | — | — |
OpenAI MRCR v2 8-needle 512K–1M | 36.6% | — | — | — | — |
抽象推理
評估 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (Verified) | 93.7% | 94.5% | — | 86.2% | 90.5% |
ARC-AGI-2 (Verified) | 73.3% | 83.3% | — | 52.9% | 54.2%(高) |
未使用推理的評估
評估 | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench(正規化編輯距離) | 0.109 | 0.140 | — |
Tau2-bench Telecom | 64.3% | 57.2% | 43.6% |
除非另有說明,評估均以推理強度設為 xhigh 進行。基準測試在研究環境中進行,因此在部分情況下,其輸出可能與正式版 ChatGPT 略有不同。


