今日,我們在 ChatGPT(以 GPT‑5.4 Thinking 形式)、API 及 Codex 中推出 GPT‑5.4。這是我們迄今能力最強、效率最高的前沿模型,專為專業工作而設。我們亦在 ChatGPT 與 API 中推出 GPT‑5.4 Pro,為需要在複雜任務上獲得最高效能的用戶而設。
GPT‑5.4 將我們在推理、編碼及智能代理工作流程方面的最新進展整合為單一前沿模型,結合了 GPT‑5.3‑Codex 的業界領先編碼能力,同時提升模型在工具、軟件環境,以及涉及試算表、簡報和文件等專業任務中的工作方式。最終帶來能夠準確、有效而且高效率地完成複雜真實工作的模型,在更少來回互動的情況下,直接交付你所需要的結果。
在 ChatGPT 中,GPT‑5.4 Thinking 現在可以先提供思考計劃,讓你 能在模型工作期間即時調整方向 ,並在不增加額外對話輪次的情況下,得到更符合需求的最終輸出。GPT‑5.4 Thinking 亦提升了深度網絡研究能力,特別是在高度具體的查詢方面,同時在需要較長推理過程的問題中更完整有效地保持上下文。綜合以上改進,回答不但更快、更高質,而且能持續緊扣當前任務。
在 Codex 與 API 中,GPT‑5.4 是我們推出的首個具備原生、最先進電腦操作能力的通用模型,令智能代理可以操作電腦,同時在不同應用程式之間執行複雜工作流程。它支援最高 100 萬 token 的上下文,讓智能代理能規劃、執行和驗證跨越更長時間範圍的任務。GPT‑5.4 亦透過工具搜尋提升模型在大型工具與連接器生態中的工作能力,幫助智能代理更有效找到並使用合適工具,而不影響模型智能。最後,GPT‑5.4 是我們目前最有效率的推理模型。與 GPT‑5.2 相比,它在解決問題時使用顯著更少的 token,從而降低 token 使用量並提升速度。
結合在通用推理、編碼與專業知識工作方面的進展,GPT‑5.4 能在 ChatGPT、API 與 Codex 中實現更可靠的智能代理、更快的開發流程,以及更高品質的輸出。
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval(勝出或平手) | 83.0% | 70.9% | 70.9% |
SWE-Bench Pro(公開) | 57.7% | 56.8% | 55.6% |
OSWorld-Verified | 75.0% | 74.0%* | 47.3% |
Toolathlon | 54.6% | 51.9% | 46.3% |
BrowseComp | 82.7% | 77.3% | 65.8% |
*此前報告為 64.7%。GPT‑5.3‑Codex 在使用一個新引入的 API 參數(可保留原始影像解像度)時,達到 74.0%。
在 GPT‑5.2 的通用推理能力基礎上,GPT‑5.4 在專業人士重視的真實任務上提供更一致、更細緻的結果。
在 GDPval 評測中(該測試評估智能代理在 44 個職業中的知識工作能力),GPT‑5.4 創下新的最佳表現,在 83.0% 的比較項目中達到或超越業界專業人士,而 GPT‑5.2 為 71.0%。
在 GDPval 中,模型嘗試進行定義明確的知識工作,當中涵蓋對美國 GDP 貢獻最大的前九大產業中的 44 個職業。這些任務要求輸出真正的工作成果,例如銷售簡報、會計試算表、緊急護理值班表、生產流程圖或短片等。GPT‑5.4 的推理強度設定為 xhigh,而 GPT‑5.2 則設為 heavy(在 ChatGPT 中可使用的略低等級)。
「GPT-5.4 是我們測試過最好的模型。它現在在我們的 APEX-Agents 基準測試排行榜上名列第一,這項測試衡量模型在專業服務工作中的表現。GPT-5.4 在建立長期交付成果(例如簡報、財務模型及法律分析)方面表現出色,在提供頂級表現的同時,運行速度更快,而成本亦比其他前沿模型更低。」
我們特別著重提升 GPT‑5.4 在建立與編輯試算表、簡報和文件方面的能力。我們進行了一項內部基準測試,模擬初級投資銀行分析師可能進行的試算表建模任務,當中 GPT‑5.4 的平均得分為 87.5%,而 GPT‑5.2 則為 68.4%。而在一組簡報評估提示中,評估人員在 68.0% 的情況下更偏好 GPT‑5.4 生成的簡報,而非 GPT‑5.2,原因包括美感更佳、視覺變化更豐富,以及更有效使用圖像生成。

文件以推理強度設為 xhigh 生成
你可以在 ChatGPT 中透過 GPT‑5.4 Thinking 或 Pro 試用這些能力。如果你是 Enterprise 客戶,建議使用我們今日同時推出的「ChatGPT for Excel」與「Google 試算表」插件(在新視窗中開啟)。我們亦更新了 Codex 與 API 中提供的試算表(在新視窗中開啟)和簡報技能(在新視窗中開啟)。
為了讓 GPT‑5.4 更適合真實工作場景,我們持續降低幻覺與錯誤率。GPT‑5.4 是目前在事實準確性方面表現最強的模型:在一組用戶標記為包含事實錯誤的去識別化提示詞中,相比 GPT‑5.2,GPT‑5.4 回答中的單項事實陳述出現錯誤的機會率降低 33%,整體回答包含任何錯誤的機會率則減少 18%。
「GPT-5.4 為文件密集型法律工作訂立了新標準。在我們的 BigLaw Bench 評估中,GPT-5.4 的得分為 91%。與其他模型相比,GPT-5.4 目前更擅長整理複雜的交易分析結構、在冗長合約中維持準確性,並交付法律從業人員所需的精準細節。」
GPT‑5.4 是我們首個具備原生電腦操作能力的通用模型,為開發人員與智能代理帶來重要進展。這是目前最適合開發人員用來構建智能代理的最佳模型,能在各個網站和軟件系統中完成真實任務。
我們將 GPT‑5.4 設計為能在多種電腦操作工作負載中提供高效表現。GPT‑5.4 擅長透過 Playwright 等函式庫編寫程式碼來操作電腦,也能根據螢幕截圖發出滑鼠與鍵盤指令;這些行為可以透過開發人員訊息進行調整,讓開發人員可以根據不同使用情境調整模型行為。開發人員甚至可以透過指定自訂確認政策,設定模型的安全行為,以配合不同的風險承受能力。
模型的性能與靈活性亦反映在多項測試不同電腦操作場景的基準測試中。OSWorld-Verified 評測用以測試模型透過螢幕截圖與鍵盤/滑鼠操作導航桌面環境的能力,在這項評測中,GPT‑5.4 的成功率達到 75.0% ,大幅超過 GPT‑5.2 的 47.3% ,並超越人類的 72.4%1 。
在測試瀏覽器操作的 WebArena-Verified 中,GPT‑5.4 在同時使用 DOM 與螢幕截圖互動時達到 67.3% 的成功率,而 GPT‑5.2 則為 65.4%。在同樣測試瀏覽器操作的 Online-Mind2Web 中,GPT‑5.4 在純粹使用螢幕截圖觀察時達到 92.8% 的成功率,而 ChatGPT Atlas 代理模式的成功率只為 70.9% ,整體表現與可靠性大幅提升。
工具暫停等待指助理在等待工具回應時暫停自身執行並讓出控制。例如,如果同時並行調用 3 個工具,之後再並行調用另外 3 個工具,暫停等待次數將為 2。與單純計算工具調用次數相比,工具暫停等待能反映並行處理帶來的成效,因此更能反映延遲情況。
GPT‑5.4 會解讀瀏覽器介面的螢幕截圖,並透過基於座標的點擊和 UI 元件互動,以傳送電郵及安排日曆活動。
GPT‑5.4 的整體電腦操作能力提升,亦基於模型的視覺感知能力更強。在測試視覺理解與推理能力的 MMMU-Pro 中,GPT‑5.4 在不使用工具的情況下達到 81.2% 成功率,遠高於 GPT‑5.2 的 79.5%。更強的視覺感知能力亦帶來更好的文件解析能力。在 OmniDocBench 中,GPT‑5.4 在未使用推理強度的情況下,其平均錯誤率(以模型預測與真實答案之間的正規化編輯距離衡量)為 0.109,比 GPT‑5.2 的 0.140 有所改善。
MMMU-Pro 的測試以推理強度設為 xhigh 進行。OmniDocBench 的測試以推理強度設為 none 進行,以反映低成本、低延遲的表現。
我們亦進一步提升對高密度、高解像度影像的理解能力,以確保在需要完整細節的任務中能保持高度像真。從 GPT‑5.4 開始,我們新增原始影像輸入細節(在新視窗中開啟)等級,可支援最高 1,024 萬像素或 6K 解像度(以較低者為準) 的完整像真視覺感知;高影像輸入細節等級亦原生支援 256 萬像素或 2,048 像素最大邊長(以較低者為準)。在與 API 用戶的早期測試中,我們觀察到在使用原始或高細節模式時,模型在定位能力、影像理解與點擊準確度方面均有顯著提升。
「在我們的評估中,測量模型在約 30,000 個 HOA 及物業稅入口網站上的電腦操作表現時,GPT-5.4 在首次嘗試便達到 95% 成功率,三次嘗試內達到 100%,相比以往的 CUA 模型約為 73–79%。同時,它完成整個工作階段的速度比以往快約 3 倍,所用的 Token 少約 70%,在大規模運行時顯著提升可靠性與成本效益。」
在 API 中,開發人員可透過更新的 computer 工具存取這些能力。建議參閱我們的最新文件(在新視窗中開啟)以了解最佳實踐。
GPT‑5.4 結合了 GPT‑5.3‑Codex 的編碼優勢,以及領先的知識型工作與電腦操作能力,特別適用於需要長時間運行的任務。在這類任務中,模型可以使用工具、反覆迭代,並在較少人工介入的情況下持續推進工作。在 SWE-Bench Pro 上,GPT‑5.4 的表現可媲美 GPT‑5.3‑Codex 或甚至超越,同時在不同推理強度下的延遲都更低。
我們透過觀察模型在生產環境中的行為,並在離線環境進行模擬,以估算延遲。延遲估算會計算工具調用所需時間(程式碼執行時間)、取樣的 Token 和輸入 Token。實際環境中的延遲可能會有顯著差異,並取決於多種未在模擬中涵蓋的因素。推理強度已由 none 提升至 xhigh。
當啟用 Codex 的 /fast 模式時,GPT‑5.4 的 token 生成速度最多可提升 1.5 倍。模型與智能保持不變,而且速度更快。這表示用戶可以在保持專注的情況下,更流暢地完成編碼任務、迭代和偵錯。開發人員亦可透過 API 使用優先處理功能(在新視窗中開啟),以相同的高速存取 GPT‑5.4。
在評估與內部測試中,我們發現 GPT‑5.4 在複雜前端任務方面表現出色,所生成的結果在美觀度與功能性方面都明顯比我們以往推出的任何模型都更加優勝。
為展示模型在電腦操作與編碼能力方面的提升如何協同運作,我們推出了一項實驗性的 Codex 技能,名為「Playwright (Interactive)(在新視窗中開啟)」。這項技能讓 Codex 能以視覺方式為網頁和 Electron 應用程式偵錯;甚至可以在構建應用程式的同時,即時測試該應用程式。
以 GPT‑5.4 從單一個簡略指定的提示詞建立的主題樂園模擬遊戲,使用 Playwright Interactive 進行瀏覽器遊玩測試,並透過圖像生成建立等距資產。該模擬包括磚塊為基礎的路徑鋪設、遊樂設施與景物建造、遊客路徑尋找、排隊與遊樂設施運作循環;同時,樂園指標如金錢、遊客數量、遊客滿意度、清潔度與評分,會根據佈局表現及遊客反應而上升或下降。Playwright 用於自動化瀏覽器遊玩測試,包括建造和擴展樂園、放置和移除路徑與設施、檢查鏡頭導航,以及在多輪遊玩中驗證遊客、隊列、設施狀態與 UI 指標能正確更新。
提示詞:Use $playwright-interactive and $imagegen. Create an interactive isometric theme park simulation game that I can build and navigate in the browser. Use imagegen to establish the overall visual vision and generate the game’s assets, including rides, paths, terrain, trees, water, food stalls, decorations, buildings, icons, and UI illustrations. The world should feel cohesive, polished, and visually rich, with a premium art direction that works well from an isometric perspective. Let me place and remove paths, add attractions, position scenery, and move around the park smoothly while monitoring guest activity, ride status, and park growth. Include believable guest movement, simple park management systems like money, cleanliness, queueing, and happiness, and make the experience feel playful, clear, and complete rather than like a rough prototype. Prioritize charm, readability, and strong game feel over realism.
在遊玩測試時,需透過多輪遊玩建立並擴展樂園,驗證放置與導航運作流暢,確認遊客會對樂園佈局與設施作出反應,並確保視覺效果、UI 與互動穩定且一致。
「我們的工程師認為 GPT-5.4 比過往模型更自然、更果斷。它能在面對模糊問題時持續推進而不會反覆自我懷疑,並會主動將工作並行處理,讓整體流程保持順暢。」
透過 GPT‑5.4,我們大幅提升了模型與外部工具協作的能力。智能代理現在可以在更大型的工具生態中運作,更可靠地選擇合適工具,並以更低成本與更低延遲完成多步工作流程。
在 API 中,GPT‑5.4 引入 工具搜尋(在新視窗中開啟),令模型在獲提供大量工具時仍能高效運作。
過去,當模型獲提供工具時,所有工具定義都會在提示詞中一次過加入。對於工具數量龐大的系統而言,這可能為每次請求增加數千甚至數萬 token,導致成本上升、回應變慢,而上下文亦可能會擠滿模型可能最終從未到用的資訊。
透過工具搜尋,GPT‑5.4 只會先接收一份精簡的可用工具清單,以及工具搜尋能力。當模型需要使用某個工具時,便可即時查詢該工具的定義,並在當下將其加入對話內容。
這種方式能大幅減少需要使用大量工具時的 token 數量,同時保留快取,加快請求的處理速度,而且更具成本效益。此外,這亦讓智能代理能可靠地在更大型的工具生態中運作。對於可能包含數以萬計 token 工具定義的 MCP 伺服器而言,效率提升尤其顯著。
為展示效率提升,我們使用 Scale 的 MCP Atlas(在新視窗中開啟) 基準測試中的 250 個任務進行評估,並在兩種模式下啟用全部 36 個 MCP 伺服器:(1) 在模型上下文中直接提供每個 MCP 功能,(2) 將所有 MCP 伺服器置於工具搜尋之後。結果顯示,在保持相同準確度的情況下,工具搜尋配置將總 token 使用量降低了 47%。
示例 Token 數量來自 MCP-Atlas 公開資料集 250 個任務的平均值。
GPT‑5.4 亦改進了工具調用,在推理過程中判斷何時以及如何使用工具時更加準確和高效,尤其是在 API 環境中。與 GPT‑5.2 相比,GPT‑5.4 在 Toolathlon 基準測試中,以更少回合取得更高準確度。這項測試評估 AI 智能代理如何使用真實世界工具和 API 來完成多步任務。例如,一個智能代理可能需要讀取電郵、擷取作業附件、上載檔案、批改作業,並把結果記錄到試算表。
工具暫停等待指助理在等待工具回應時暫停自身執行並讓出控制。例如,如果同時並行調用 3 個工具,之後再並行調用另外 3 個工具,暫停等待次數將為 2。與單純計算工具調用次數相比,工具暫停等待能反映並行處理帶來的成效,因此更能反映延遲情況。
對於對延遲敏感、並偏好將推理強度設為 None 的使用情境,GPT‑5.4 亦比其前代模型進一步提升表現。
在 τ2-bench(在新視窗中開啟) 中,模型必須使用工具完成一項客戶服務任務,其中可能有一名模擬用戶可以溝通並對世界狀態採取行動。推理強度設為 None。
GPT‑5.4 在代理式網絡搜尋方面表現更佳。BrowseComp 測試用以衡量 AI 智能代理在網絡上持續瀏覽並尋找難以定位資訊的能力。在這項評測中,GPT‑5.4 的表現比 GPT‑5.2 提升 17%abs,而 GPT‑5.4 Pro 更創下 89.3% 的最新最佳表現。
在實際使用中,這表示 GPT‑5.4 Thinking 在回答需要整合多個網絡來源資訊的問題時表現更強。它可以在多輪搜尋中持續探索,找出最相關的資料來源,尤其是面對「大海撈針」類型的問題時更能識別有用資料來源,並把資訊整理為清晰且推理完整的回答。
在 BrowseComp 評估中,我們使用搜尋封鎖名單,排除包含基準答案的網站,以防止資料污染並確保評估結果公平。GPT‑5.4 的測試日期較 GPT‑5.2 遲,因此分數亦反映模型、搜尋系統,以及互聯網狀態的變化。GPT‑5.4 使用了更長且更新的封鎖名單進行測試。模型使用 ChatGPT 搜尋工具,這可能與 API 搜尋有些微差異。
「GPT-5.4 xhigh 是多步驟工具使用的最新最佳表現標準。Zapier 在業界進行一些最嚴格的工具使用基準測試,於數百個進階的真實世界工作流程中測試各種模型。GPT-5.4 完成了先前模型放棄的任務,是目前最具持續性的模型。」
類似於 Codex 在開始工作時會先說明自己的處理方式,ChatGPT 中的 GPT‑5.4 Thinking 現在在處理較長或較複雜查詢時,會先以一段前言概述將進行的工作。你亦可以在回應過程中加入指示,或在回應進行中調整方向。這讓你更容易把模型引導到你需要的結果,而無需重新開始或增加多輪對話。此功能現已在 chatgpt.com(在新視窗中開啟) 和 Android 應用程式推出,iOS 應用程式即將推出。
模型亦可以在處理困難任務時思考更長時間,而對於對話早前的步驟,亦能持續保持更強理解。因此模型可以處理更長的工作流程和更複雜的提示詞,同時在整個過程中保持回答連貫並與任務相關。
此影片已加速播放,僅作示範用途。
在過去數月中,我們持續改進 GPT‑5.3‑Codex 推出時引入的安全防護,同時為 GPT‑5.4 的部署做好準備。與 GPT‑5.3‑Codex 類似,我們在《防範應對架構》下把 GPT‑5.4 視為具備「高」級別網絡安全能力的模型,並按照 系統說明卡 所記錄的對應保護措施進行部署。這些措施包括擴展的網絡安全防護架構,涵蓋監測系統、可信存取控制,以及針對零資料保留 (ZDR) 介面上較高風險請求的非同步阻擋機制,同時亦持續投資於更廣泛的安全生態系統。
由於網絡安全能力本身具有雙重用途,我們在部署時採取審慎方式,同時持續調整政策與分類器。對於 ZDR 介面上的部分客戶而言,請求層級封鎖仍然是我們網絡風險緩解機制的一部分;由於分類器仍在持續改進,隨著我們繼續完善這些防護措施,可能仍會出現一些誤判。這些更新旨在改善防護措施在實際運作中的表現,包括減少不必要的拒答,以及避免在回覆中有過多的前設補充說明,同時保持對濫用的強力防護。
我們亦持續進行思路鏈(CoT)可監察性的安全研究,進一步理解模型如何推理,並協助偵測潛在不當行為。作為這項研究的一部分,我們推出新的開源評估「CoT 控制性」,用於衡量模型是否能刻意混淆其推理過程以逃避監察。研究結果顯示 GPT‑5.4 Thinking 控制其 CoT 的能力較低,這是一項正面的安全特性,表示模型缺乏隱藏推理過程的能力,而 CoT 監察仍然是一種有效的系統防護工具。
GPT‑5.4 即日起逐步在 ChatGPT 和 Codex 推出。 在 API 中,GPT‑5.4 現已以 gpt-5.4 形式提供。GPT‑5.4Pro 亦已在 API 中以 gpt-5.4-pro 提供。供需要在最複雜任務中取得最高效能的開發人員使用。
在 ChatGPT 中,GPT‑5.4 Thinking 即日起向 ChatGPT Plus、Team 和 Pro 用戶提供,並會取代 GPT‑5.2 Thinking。GPT‑5.2 Thinking 將在付費用戶的「現行模型」選擇器中保留三個月,並於 2026 年 6 月 5 日正式停用。Enterprise 和 Edu 計劃用戶可透過管理員設定啟用優先體驗。GPT‑5.4 Pro 則向 Pro 和 Enterprise 計劃用戶提供。在上下文視窗(在新視窗中開啟)方面,ChatGPT 中 GPT‑5.4 Thinking 的設定與 GPT‑5.2 Thinking 相同,沒有變更。
GPT‑5.4 是我們首個主線推理模型,同時整合 GPT‑5.3‑codex 的前沿編碼能力,並將在 ChatGPT、API 和 Codex 中推出。我們將模型命名為 GPT‑5.4,以反映這次能力躍升,並簡化在使用 Codex 時的模型選擇。你可以預期日後 Instant 模型和 Thinking 模型會以不同速度演進。
GPT‑5.4 在 Codex 中包含對 100 萬上下文視窗的實驗性支援。開發人員可透過設定 model_context_window 及 model_auto_compact_token_limit 來試用。超出標準 272K 上下文視窗的請求,會以正常 2 倍的比率計入用量限制。
在 API 中,GPT‑5.4 的每 token 價格高於 GPT‑5.2,以反映其能力提升;而由於模型的 token 效率更高,在眾多任務中亦能減少所需的 token 數量。批次和彈性收費方式為標準 API 價格的一半,而優先處理則為標準 API 價格的兩倍。
API 模型 | 輸入價格 | 快取輸入價格 | 輸出價格 |
gpt-5.2 | $1.75 / 百萬 Token | $0.175 / 百萬 Token | $14 / 百萬 Token |
gpt-5.4 | $2.50 / 百萬 Token | $0.25 / 百萬 Token | $15 / 百萬 Token |
gpt-5.2-pro | $21 / 百萬 Token | - | $168 / 百萬 Token |
gpt-5.4-pro | $30 / 百萬 Token | - | $180 / 百萬 Token |
專業
評估 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83.0% | 82.0% | 70.9% | 70.9% | 74.1% |
FinanceAgent v1.1 | 56.0% | 61.5% | 54.0% | 59.5% | — |
投資銀行建模任務(內部) | 87.3% | 83.6% | 79.3% | 68.4% | 71.7% |
OfficeQA | 68.1% | — | 65.1% | 63.1% | — |
編碼
評估 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro(公開) | 57.7% | — | 56.8% | 55.6% | — |
Terminal-Bench 2.0 | 75.1% | — | 77.3% | 62.2% | — |
電腦操作與視覺能力
評估 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-Verified | 75.0% | — | 74.0% | 47.3% | — |
MMMU Pro(不使用工具) | 81.2% | — | — | 79.5% | — |
MMMU Pro(使用工具) | 82.1% | — | — | 80.4% | — |
工具使用
評估 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82.7% | 89.3% | 77.3% | 65.8% | 77.9% |
MCP Atlas | 67.2% | — | — | 60.6% | — |
Toolathlon | 54.6% | — | 51.9% | 45.7% | — |
Tau2-bench Telecom | 98.9% | — | — | 98.7% | — |
學術
評估 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Frontier Science Research | 33.0% | 36.7% | — | 25.2% | — |
FrontierMath(第 1 至 3 級) | 47.6% | — | — | 40.7% | — |
FrontierMath(第 4 級) | 27.1% | 38.0% | — | 18.8% | 31.3% |
GPQA Diamond | 92.8% | 94.4% | 92.6% | 92.4% | 93.2% |
Humanity's Last Exam(不使用工具) | 39.8% | 42.7% | — | 34.5% | 36.6% |
Humanity's Last Exam(使用工具) | 52.1% | 58.7% | — | 45.5% | 50.0% |
長上下文
評估 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93.0% | — | — | 94.0% | — |
Graphwalks BFS 256K–1M | 21.4% | — | — | — | — |
Graphwalks 父節點 0–128K(準確度) | 89.8% | — | — | 89.0% | — |
Graphwalks 父項 256K–1M(準確度) | 32.4% | — | — | — | — |
OpenAI MRCR v2 8-needle 4K–8K | 97.3% | — | — | 98.2% | — |
OpenAI MRCR v2 8-needle 8K–16K | 91.4% | — | — | 89.3% | — |
OpenAI MRCR v2 8-needle 16K–32K | 97.2% | — | — | 95.3% | — |
OpenAI MRCR v2 8針 32K–64K | 90.5% | — | — | 92.0% | — |
OpenAI MRCR v2 8-needle 64K–128K | 86.0% | — | — | 85.6% | — |
OpenAI MRCR v2 8-needle 128K–256K | 79.3% | — | — | 77.0% | — |
OpenAI MRCR v2 8-needle 256K–512K | 57.5% | — | — | — | — |
OpenAI MRCR v2,8-needle 512K–1M | 36.6% | — | — | — | — |
抽象推理
評估 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1(已驗證) | 93.7% | 94.5% | — | 86.2% | 90.5% |
ARC-AGI-2(已驗證) | 73.3% | 83.3% | — | 52.9% | 54.2%(高) |
未使用推理的評估
評估 | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench(正規化編輯距離) | 0.109 | 0.140 | — |
Tau2-bench Telecom | 64.3% | 57.2% | 43.6% |
除非另有說明,評估均以推理強度設為 xhigh 進行。基準測試在研究環境中進行,因此在部分情況下,其輸出可能與正式版 ChatGPT 略有不同。
作者
註腳
1 人類表現數據來自《OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(在新視窗中開啟)》(OSWorld:在現實電腦環境中為開放式任務評測多模態智能代理)。


