跳到主要內容
OpenAI

2026年4月23日

產品發佈

GPT‑5.5 隆重登場

真正工作所需的新一代智能

正在載入...

2026 年 4 月 24 日更新:GPT‑5.5 和 GPT‑5.5 Pro 現已在 API 中推出。系統說明卡亦已更新,以說明適用的額外安全保障措施。


我們隆重推出 GPT‑5.5,這是我們迄今最智能、亦最直覺易用的模型,也是邁向以全新方式在電腦上完成工作的下一步。

GPT‑5.5 能更快理解你的目標,亦可以自行承擔更多工作。模型特別擅長撰寫和除錯程式碼、進行網上研究、分析數據、建立文件和試算表、操作軟件,以及跨工具完成整項任務。你不再需要小心翼翼地管理每一步;而是可以將一項雜亂、包含多個部分的任務交給 GPT‑5.5,便可以放心讓模型自行規劃、使用工具、檢查成果、應對模糊情況,並持續推進直至完成。

這些提升在智能代理編碼、電腦操作、知識工作,以及早期科學研究方面尤其明顯;這些領域的進展,有賴模型能跨越不同情境進行推理,並隨時間持續採取行動。GPT‑5.5 實現了重大智能躍升,但並沒有犧牲速度:更大、能力更強的模型通常回應較慢,但 GPT‑5.5 在真實服務環境中的每 Token 延遲與 GPT‑5.4 相若,同時展現出更高的智能水平。GPT‑5.5 亦使用明顯更少的 Token 來完成相同的 Codex 任務,因此不但能力更強,效率亦更高。

我們以至今最強的保障措施發佈 GPT‑5.5,旨在減少濫用,同時保留對有益工作的使用權限。我們已按完整的安全與防範應對架構評估這個模型,與內部及外部紅隊演練測試人員合作,為進階網絡安全及生物學能力加入針對性測試,並在發佈前從接近 200 位值得信賴的早期使用夥伴收集真實用例意見。

由今日起,GPT‑5.5 會陸續向 ChatGPT 和 Codex 的 Plus、Pro、Business及 Enterprise 用戶推出,而 GPT‑5.5 Pro 亦會陸續向 ChatGPT 的 Pro、Business 及 Enterprise 用戶推出。API 部署需要不同的保障措施,我們正與合作夥伴及客戶緊密合作,處理大規模提供服務所需的安全及系統防護要求。我們很快便會把 GPT‑5.5 和 GPT‑5.5 Pro 帶到 API。

GPT‑5.5

GPT‑5.4 

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Terminal-Bench 2.0

82.7%

75.1%

-

-

69.4%

68.5%

Expert-SWE(內部)

73.1%

68.5%

-

-

-

-

GDPval(勝出或平手)

84.9%

83.0%

82.3%

82.0%

80.3%

67.3%

OSWorld-Verified

78.7%

75.0%

-

-

78.0%

-

Toolathlon

55.6%

54.6%

-

-

-

48.8%

BrowseComp

84.4%

82.7%

90.1%

89.3%

79.3%

85.9%

FrontierMath(第 1 至 3 級)

51.7%

47.6%

52.4%

50.0%

43.8%

36.9%

FrontierMath(第 4 級)

35.4%

27.1%

39.6%

38.0%

22.9%

16.7%

CyberGym

81.8%

79.0%

-

-

73.1%

-

模型能力

OpenAI 正在為智能代理 AI 建設全球基礎設施,讓世界各地的人和企業都可以用 AI 完成工作。過去一年,我們看到 AI 大幅加快軟件工程進度。隨著 Codex 和 ChatGPT 採用 GPT‑5.5,同樣的轉變亦開始延伸至科學研究,以及大眾可在電腦上進行的更廣泛工作。

在這些領域中,GPT‑5.5 不但更聰明,處理問題的方式亦更高效,往往能以更少 Token 和更少重試次數,得出質素更高的輸出。在 Artificial Analysis 的 Coding Index 上,GPT‑5.5 提供最先進的智能表現,而成本僅為競爭對手前沿編碼模型的一半。

Artificial Analysis Intelligence Index(在新視窗中開啟) 是由第三方進行的 10 項評測的加權平均:AA-LCR、AA-Omniscience、CritPt、GDPval-AA、GPQA Diamond、Humanity’s Last Exam、IFBench、SciCode、Terminal-Bench Hard、τ²-Bench Telecom。

智能代理式編碼

GPT‑5.5 是我們至今最強的智能代理編碼模型。Terminal-Bench 2.0 測試涵蓋需要規劃、反覆迭代和工具協調的複雜命令列工作流程,而在這項測試上,GPT‑5.5 達到 82.7% 的目前最佳準確率。在評估真實 GitHub 問題解決能力的 SWE-Bench Pro 上,GPT‑5.5 達到 58.6%,比以往模型能在單次流程中端到端解決更多任務。在我們內部用於評估長時間編碼任務的前沿評估 Expert-SWE 中(人類完成任務的平均估計時間為 20 小時), GPT‑5.5 的表現亦比 GPT‑5.4更佳。

在這三項評估中,GPT‑5.5 全面超越 GPT‑5.4 的分數,同時使用更少 Token。

這個模型的編碼優勢在 Codex 中尤其明顯,可以承擔的工程工作涵蓋功能實作、重構、除錯、測試與驗證。早期測試顯示,GPT‑5.5 更擅長真實工程工作所依賴的能力,例如在大型系統中保持上下文、針對不明確的故障進行推理、利用工具驗證假設,以及將變更延伸到周邊程式碼庫。

所呈現的軌跡採用了 NASA/JPL Horizons 提供的 Orion、月球及太陽向量數據,並為方便閱讀而套用了顯示比例縮放。

提示詞:That's when building stops feeling like work and starts feeling like magic.”Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendering. Ensure it has realistic orbital mechanics.

除了基準測試外,早期測試者表示 GPT‑5.5 更能掌握系統的整體結構:知道為何會出錯、應在哪裡進行修復,以及程式碼庫中還有哪些部分會受影響。

alt

「這是我用過第一個在概念理解上真正清晰的編碼模型。」

Every 創辦人兼行政總裁 Dan Shipper 形容 GPT‑5.5 是「我用過第一個在概念理解上真正清晰的編碼模型」。

在推出一個應用程式後,他花了幾天時間為一個推出後出現的問題除錯,最後找來其中一位最出色的工程師重寫系統中的一部分。為測試 GPT‑5.5,他實際上將時間倒回:模型能否查看出現問題的狀態,產生與工程師最終決定相同類型的重寫計劃?GPT‑5.4 做不到。GPT‑5.5 做到了。

alt

「我真切感覺到自己是在與更高層次的智能一起工作,甚至幾乎會讓人感到,當中帶著一份尊重。」

MagicPath 行政總裁 Pietro Schirano 亦觀察到類似的躍升:當 GPT‑5.5 將一個包含數百項前端及重構改動的分支,合併到同樣已有大量變更的主分支時,模型大約在 20 分鐘內便一次過完成整項工作。

參與測試的資深工程師表示,GPT‑5.5 在推理及自主性方面明顯比 GPT‑5.4 和 Claude Opus 4.7 更強,能在未明確提示下預先發現問題,並預測測試和審查需求。有一次,一名工程師要求 GPT‑5.5 重新設計一個協作 markdown 編輯器中的留言系統,回來時已看到一組 12 個 diff 的堆疊,幾乎完成。亦有人表示,他們幾乎不需要修正實作細節,並且比起 GPT‑5.4,對 GPT‑5.5 的計劃更有信心。

一位獲得模型早期使用權的 NVIDIA 工程師甚至表示:「假如我無法再使用 GPT‑5.5,感覺就像被截肢一樣。」

「與 GPT-5.4 相比,GPT-5.5 明顯更聰明,也更能持續推進工作,編碼表現更強,工具使用亦更可靠。它能在不中途過早停下的情況下,長時間持續處理任務;而對於我們用戶交由 Cursor 處理的複雜、長時間運行工作來說,這一點尤其重要。」
—Cursor 聯合創辦人兼行政總裁 Michael Truell

知識型工作

令 GPT‑5.5 在編碼方面有出色表現的優勢,同樣令模型在日常電腦工作中有極為強大的表現。由於模型更能理解意圖,因此可以更自然地走完整個知識工作循環:找資料、掌握重點、使用工具、檢查輸出,以及把原始材料轉化成有用成果。

在 Codex 中,GPT‑5.5 在產生文件、試算表和簡報方面都比 GPT‑5.4 更出色。Alpha 測試者表示,模型在營運研究、試算表建模,以及將雜亂的業務輸入內容整理成可執行計劃等工作上,表現都勝過以往模型。當結合 Codex 的電腦操作技能時,GPT‑5.5 令我們更接近全新的工作方式:模型彷彿真的可以與你一起操作電腦,看見畫面上的內容、點按、輸入、在介面之間導覽,並精準地跨工具完成工作。

OpenAI 內部團隊已在真實工作流程中運用這些能力。現時,公司內超過 85% 的員工每週都會使用 Codex,涵蓋軟件工程、財務、傳訊、市場推廣、數據科學和產品管理等職能。在傳訊團隊中,團隊利用 Codex 內的 GPT‑5.5 分析六個月的演講邀請數據,建立評分和風險框架,並驗證一個自動化 Slack 智能代理,讓低風險請求可以自動處理,而高風險請求則仍交由人手審核。在財務團隊中,團隊使用 Codex 審閱 24,771 份 K-1 稅表,合共 71,637 頁,並採用一套排除個人資料的工作流程,協助團隊比去年提早兩星期完成這項工作。在市場進入團隊中,一名員工把每週業務報告的生成流程自動化,每週節省 5 至 10 小時。

在 ChatGPT 中,GPT‑5.5 Thinking 讓你在面對更棘手的問題時,更快獲得協助;同時以更聰明、更精簡的答案,幫助你更高效地處理複雜工作。模型尤其擅長編碼、研究、資訊整合與分析,以及文件密集型任務等專業工作,特別是在使用外掛程式時。

GPT‑5.5 Pro 中,早期測試者發現,ChatGPT 可處理工作的難度和質素都有顯著提升,而延遲改善亦令模型更適合應付高要求任務。與 GPT‑5.4 Pro 相比,測試者認為 GPT‑5.5 Pro 的回覆明顯更全面、更有條理、更準確、更切題,而且更有用,在商業、法律、教育及數據科學方面表現尤其突出。

GPT‑5.5 在多項反映這類工作的基準測試中,均達到目前最先進的表現。在測試智能代理於 44 種職業中產出明確定義知識工作的能力的 GDPval⁠ 中,GPT‑5.5 得分為 84.9%。在評估模型能否自行操作真實電腦環境的 OSWorld-Verified 上,GPT‑5.5 達到 78.7%。而在測試複雜客戶服務工作流程的 Tau2-bench Telecom 上,GPT‑5.5 在未經提示詞調校的情況下,取得 98.0%。GPT‑5.5 在其他知識工作基準測試中亦表現強勁:在 FinanceAgent 取得 60.0%,在 內部投資銀行建模任務 取得 88.5%,以及在 OfficeQA Pro 取得 54.1%。

Tau2-bench Telecom 是在未經提示詞調校的情況下進行測試(並以 GPT‑4.1 作為用戶模型)。與先前的模型相比,GPT‑5.5 更能理解任務意圖,Token 使用效率亦更高。

「GPT-5.5 提供了執行密集型工作所需的持續穩定表現。這個模型構建並運行於 NVIDIA GB200 NVL72 系統上,讓我們的團隊能從自然語言提示詞直接交付端到端功能,將偵錯時間由數天縮短至數小時,並在複雜程式碼庫中將原本需要數星期的實驗,加快至一夜之間便有進展。這不只是加快編碼,而是帶來全新的工作方式,幫助大家以全然不同的速度完成工作。」
—NVIDIA 企業 AI 副總裁 Justin Boitano

科學研究

GPT‑5.5 在科學及技術研究工作流程上亦有進步,而這些工作不只是回答一條難題。研究人員需要探索不同構思、蒐集證據、測試假設、詮釋結果,並決定下一步要進行的嘗試。與其他模型相比,GPT‑5.5 更擅長在這個循環中持續推進。

值得注意的是,GPT‑5.5 在 GeneBench(在新視窗中開啟) 上較 GPT‑5.4 有明顯進步,這是一項新的評估,重點衡量遺傳學及定量生物學中的多階段科學數據分析。這些問題要求模型在極少監督指引下,對可能含糊或有錯誤的資料進行推理,處理隱藏混雜因素或質量控制失敗等現實障礙,並正確實施及詮釋現代統計方法。考慮到這些任務往往相當於科學專家需要多日才完成的研究項目,模型的表現尤其突出。

同樣地,在 BixBench(在新視窗中開啟) 這個根據真實生物資訊學和數據分析設計的基準測試中,GPT‑5.5 在所有已公佈分數的模型之中表現領先。模型現時的科學能力,已足以作為真正的科研協作夥伴,實質加速生物醫學研究前沿的進展。

另一個例子是,配備自訂測試框架的 GPT‑5.5 內部版本,協助發現了一個關於 Ramsey 數的新證明(在新視窗中開啟);Ramsey 數是組合數學中的核心研究對象之一。組合數學研究離散物件如何組合在一起,例如圖、網絡、集合和各種模式。概括而言,Ramsey 數探討一個網絡要大到甚麼程度,才必然會出現某種秩序。這個領域的成果並不常見,而且往往在技術上相當困難。在這次例子中,GPT‑5.5 找到一個關於非對角 Ramsey 數長期漸近事實的證明,其後已在 Lean 中驗證。這項結果具體展示出,GPT‑5.5 不僅能提供程式碼或解說,還能在核心研究領域中提出令人意想不到而且具實際價值的數學論證。

早期測試者在 ChatGPT 中使用 GPT‑5.5 Pro 時,已不再把模型當作提供單次答案的引擎,而是更像一位研究拍檔:可以多輪審閱和評議論文稿件、為技術論點做壓力測試、提出分析方向,並結合程式碼、筆記和 PDF 脈絡一同處理工作。這些用法背後的共通點是,GPT‑5.5 更擅長幫助研究人員由問題出發,一路推進到實驗,再到產出成果。

Jackson Laboratory for Genomic Medicine 的免疫學教授兼研究人員 Derya Unutmaz 使用 GPT‑5.5 Pro 分析一份包含 62 個樣本、接近 28,000 個基因的基因表達數據集,生成一份詳細研究報告,不但總結了研究結果,亦提出關鍵問題與分析見解。他表示,這類工作原本需要團隊花上數月時間才能完成。

波蘭波茲南 Adam Mickiewicz University 的數學助理教授 Bartosz Naskręcki 在 Codex 中使用 GPT‑5.5,只憑一個提示詞便在 11 分鐘內建立出一個代數幾何應用程式,將二次曲面的交集視覺化,並將所得曲線轉換為 Weierstrass 模型。

其後,他進一步擴充這個應用程式,加入更穩定的奇點視覺化,以及可在後續工作中重用的精確係數。對他而言,更大的轉變在於 Codex 現已可協助實作自訂數學視覺化和電腦代數工作流程,而這些工作以往需要專門工具。綜合來看,這些例子展示出 GPT‑5.5 能將專家的構思,轉化為可實際使用的研究工具與分析成果。

""

鳴謝:Bartosz Naskręcki(在新視窗中開啟)

提示詞:# Algebraic geometry surface intersection

Make an app which draws two quadratic surfaces and colors in red the intersection curve. Use computational Riemann-Roch theorem to convert this into Weierstrass curve.

## Main window

Two tinted surfaces with a slightly transparent shading, high quality rendering intersect along a red colored algebraic curve

Rotation with mouses in both directions, full pinch mechanism for zoom, haptic press to show the little menu with sliders for changing the coefficients of each surface; detection via Z-buffor level

## Side right window

Short Weierstrass equation (over Q or quadratic field extension) computed on the go via effective Riemann-Roch theorem formulas

## Ambient mode where all the controls are hidden and the user can admire the beauty of the shapes

## Specs

App is running in the browser, light-weight implementation with full stack newest libraries, portable, deployable

## Docs

Git repo, journal, plan (Markdown files)

「在我們的測試框架中使用 OpenAI 全新的 GPT-5.5 模型,讓模型針對龐大的生化數據集進行推理以預測人體藥物結果,並看到模型在我們最困難的藥物研發評估中顯著提升準確度,實在令人非常振奮。如果 OpenAI 繼續保持這樣的進展速度,藥物研發的基礎到今年年底可能就會改寫。」
—Axiom Bio 聯合創辦人兼行政總裁 Brandon White

新一代推理效率

要在 GPT‑5.4 的延遲水平下提供 GPT‑5.5 的能力,我們需要重新思考推理,將其視為一個整合式系統,而不是一組彼此分散的優化措施。GPT‑5.5 是針對 NVIDIA GB200 和 GB300 NVL72 系統共同設計、共同訓練,並以此提供運算支援。Codex 和 GPT‑5.5 對我們達成效能目標都發揮了關鍵作用。Codex 幫助團隊更快由構思走到可作基準測試的實作,包括勾勒方法、串連實驗流程,以及協助找出哪些優化值得進一步投入。GPT‑5.5 則協助找出並落實整個技術堆疊中的關鍵改善工作。簡單來說,這個模型亦幫助改進了為其提供服務的基礎設施。

其中一項改進,是負載平衡與分區啟發式方法。在 GPT‑5.5 推出之前,我們會將加速器上的請求拆分成固定數量的區塊,藉此在各個運算核心之間平均分配工作,確保大型和小型請求都可在同一個 GPU 上運行。不過,預先設定、固定不變的區塊數量,並不適合所有流量形態。為了更有效運用 GPU,Codex 分析了數星期的生產流量模式,並編寫自訂啟發式演算法,以更理想地完成工作分區與負載平衡。這項工作帶來了特別顯著的成效,令 Token 生成速度提升超過 20%。

推進網絡安全,守護每個人的安全

要為擅長找出及修補安全漏洞的模型做好準備,需要整個生態系統共同投入,齊心建立更強韌的防禦能力,並透過更廣泛開放的模型存取,以及循序漸進的部署方式,迎接網絡防禦的新時代

前沿模型在網絡安全方面的能力正不斷提升。這些能力將會越來越廣泛普及,而我們相信,最好的前路是確保模型能真正用於加快網絡防禦,並強化整個生態系統。

GPT‑5.5 是邁向可協助應對網絡安全等全球最棘手挑戰的 AI 的重要一步。隨着去年 12 月推出 GPT‑5.2,我們已主動部署所需的網絡安全保障措施,以限制模型被用於網絡濫用的潛在風險;現在推出 GPT‑5.5,我們正部署更嚴格的分類器,以應對潛在網絡風險。隨着我們持續調整,部分用戶初期可能會覺得較不便。

多年來,隨著模型能力逐步提升,我們一直在防範應對架構(在新視窗中開啟)中將網絡安全列為重點類別,同時持續以迭代方式制定和校準緩解措施,務求能以負責任的方式發佈具備實質網絡安全能力的模型。

  • 我們為這個級別的網絡能力部署了業界領先的安全保障措施。我們早於去年推出 GPT‑5.2(在新視窗中開啟) 時,已首次引入專門針對網絡安全的保障措施,並在其後部署中持續測試、完善和加強。針對 GPT‑5.5,我們為較高風險活動和敏感網絡安全請求設計了更嚴格的控制措施,並加入針對重複濫用的額外保護。能讓大眾廣泛存取前沿能力,有賴我們在模型安全、經驗證的使用,以及違規用途監察方面的投入。過去數月,我們一直與外部專家合作,持續開發、測試和改進這些保障措施的穩健程度。透過 GPT‑5.5,我們一方面確保開發人員可以更輕鬆地保護程式碼,另一方面亦對最可能被惡意行為者用作造成傷害的網絡安全工作流程,加設更強的控制。
  • 我們正擴大存取範圍,推動各層面的網絡防禦。我們正透過「網絡可信存取」(Trusted Access for Cyber) 提供更寬容的網絡安全模型存取,首先由 Codex 開始。在推出初期,符合特定信任訊號(在新視窗中開啟)的經驗證用戶,將可在較少限制下,更廣泛使用 GPT‑5.5 的進階網絡安全能力。負責保護關鍵基礎設施的機構,亦可申請使用 GPT‑5.4‑Cyber 等更寬容的網絡安全模型,但必須符合嚴格安全要求,方可把這些模型用於保護其內部系統。這讓更多經驗證的防禦人員可在減少不必要阻礙的情況下,使用更強大的工具進行正當的系統防護工作,以確保更多人可以取得重要的防禦能力。用戶可以透過 chatgpt.com/cyber(在新視窗中開啟) 申請可信存取,以便在使用 GPT‑5.5 處理經驗證的防禦工作時,減少不必要的拒答。
  • 我們正與政府夥伴合作,協助保護關鍵基礎設施,保障公眾利益。我們正共同探索先進 AI 如何支援受信任官員的防禦工作。這些官員負責維護大眾日常依賴的系統,涵蓋保障重要納稅人資料的數碼系統,以及本地社區的電網和供水系統。

根據我們的防範應對架構(在新視窗中開啟),我們把 GPT‑5.5 的生物/化學及網絡安全能力評定為「高」級別。雖然 GPT‑5.5 尚未達到「關鍵」級別的網絡安全能力,但我們的評估和測試顯示,相較 GPT‑5.4,模型在網絡安全方面的能力確實更進一步。

此外,GPT‑5.5 在發佈前亦已完成我們整套安全和管治流程,包括防範應對評估、領域專屬測試、針對進階生物學及網絡安全能力的新評估,以及與外部專家的全面測試。更多詳情可見 GPT‑5.5 系統說明卡(在新視窗中開啟)

這項工作體現了我們更廣泛的 AI 韌性方針,而隨着模型能力持續提升,我們相信這是不可或缺的。我們希望將強大的 AI 交到用來保護系統、機構和公眾的人手中。可行的前路,是建立可信存取機制、配備能隨能力提升而加強的穩健保障措施,以及具備偵測和應對嚴重濫用的營運能力。

提供情況及收費

由今日起,GPT‑5.5 會陸續向 ChatGPT 和 Codex 的 Plus、Pro、Business 及 Enterprise 用戶推出,而 GPT‑5.5 Pro 亦會陸續向 ChatGPT 的 Pro、Business 及 Enterprise 用戶推出。我們很快便會把 GPT‑5.5 和 GPT‑5.5 Pro 帶到 API。

在 ChatGPT 中,Plus、Pro、Business 及 Enterprise 用戶可使用 GPT‑5.5 Thinking。至於專為更困難問題及更高準確度工作而設的 GPT‑5.5 Pro,則可供 Pro、Business 及 Enterprise 用戶使用。

在 Codex 中,Plus、Pro、Business、Enterprise、Edu 及 Go 計劃均可使用 GPT‑5.5,並配備 400K 上下文視窗。GPT‑5.5 亦提供快速模式,Token 生成速度快 1.5 倍,收費則為一般模式的 2.5 倍。

對 API 開發人員而言,gpt-5.5 即將在 Responses API 和 Chat Completions API 中推出,價格為每 100 萬輸入 Token 5 美元、每 100 萬輸出 Token 30 美元,並配備 100 萬上下文視窗。批次和彈性收費方式為標準 API 價格的一半,而優先處理則為標準價格的 2.5 倍。我們亦會在 API 推出 gpt-5.5-pro,以提供更高準確度,價格為每 100 萬輸入 Token 30 美元、每 100 萬輸出 Token 180 美元。完整詳情請參閱收費模式頁面

雖然 GPT‑5.5 的定價高於 GPT‑5.4,但 GPT‑5.5 不但更聰明,Token 使用效率亦大幅提升。在 Codex 中,我們已仔細調校整體體驗,讓大多數用戶都能以比 GPT‑5.4 更少的 Token,取得更好的結果,同時在各個訂閱級別繼續享有寬裕的使用限額。

評估

編碼

評估

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

SWE-Bench Pro(公開) *

58.6%

57.7%

-

-

64.3%

54.2%

Terminal-Bench 2.0

82.7%

75.1%

-

-

69.4%

68.5%

Expert-SWE(內部)

73.1%

68.5%

-

-

-

-

*實驗室曾指出此評估有記憶化跡象(在新視窗中開啟)

專業

評估

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

GDPval(勝出或平手)

84.9%

83.0%

82.3%

82.0%

80.3%

67.3%

FinanceAgent v1.1

60.0%

56.0%

-

61.5%

64.4%

59.7%

投資銀行建模任務(內部)

88.5%

87.3%

88.6%

83.6%

-

-

OfficeQA Pro

54.1%

53.2%

-

-

43.6%

18.1%

電腦操作與視覺能力

評估

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

OSWorld-Verified

78.7%

75.0%

-

-

78.0%

-

MMMU Pro(不使用工具)

81.2%

81.2%

-

-

-

80.5%

MMMU Pro(使用工具)

83.2%

82.1%

-

-

-

-

工具使用

評估

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

BrowseComp

84.4%

82.7%

90.1%

89.3%

79.3%

85.9%

MCP Atlas**

75.3%

70.6%

-

-

79.1%

78.2%

Toolathlon

55.6%

54.6%

-

-

-

48.8%

Tau2-bench Telecom***
(原始提示詞)

98.0%

92.8%

-

-

-

-

** MCP Atlas:Scale AI 於 2026 年 4 月最新更新後的結果。 *** Tau2-bench telecom:5.5 和 5.4 的結果,使用原始提示詞,即未有調整提示詞。這未包括其他實驗室在調整提示詞後進行評估的結果。

學術

評估

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

GeneBench

25.0%

19.0%

33.2%

25.6%

-

-

FrontierMath(第 1 至 3 級)

51.7%

47.6%

52.4%

50.0%

43.8%

36.9%

FrontierMath(第 4 級)

35.4%

27.1%

39.6%

38.0%

22.9%

16.7%

BixBench

80.5%

74.0%

-

-

-

-

GPQA Diamond

93.6%

92.8%

-

94.4%

94.2%

94.3%

Humanity's Last Exam(不使用工具)

41.4%

39.8%

43.1%

42.7%

46.9%

44.4%

Humanity's Last Exam(使用工具)

52.2%

52.1%

57.2%

58.7%

54.7%

51.4%

網絡安全

評估

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

奪旗 (CTF) 挑戰任務 (內部)****

88.1%

83.7%

-

-

-

-

CyberGym

81.8%

79.0%

-

-

73.1%

-

**** 系統說明卡中使用最困難 CTF 挑戰的擴充版本,加入更多高難度挑戰。

長上下文

評估

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Graphwalks BFS 256k f1

73.7%

62.5%

-

-

76.9%

-

Graphwalks BFS 1mil f1

45.4%

9.4%

-

-

41.2% (Opus 4.6)

-

Graphwalks parents 256k f1

90.1%

82.8%

-

-

93.6%

-

Graphwalks parents 1mil f1

58.5%

44.4%

-

-

72.0% (Opus 4.6)

-

OpenAI MRCR v2 8-needle 4K-8K

98.1%

97.3%

-

-

-

-

OpenAI MRCR v2 8-needle 8K-16K

93.0%

91.4%

-

-

-

-

OpenAI MRCR v2 8-needle 16K-32K

96.5%

97.2%

-

-

-

-

OpenAI MRCR v2 8-needle 32K-64K

90.0%

90.5%

-

-

-

-

OpenAI MRCR v2 8-needle 64K-128K

83.1%

86.0%

-

-

-

-

OpenAI MRCR v2 8-needle 128K-256K

87.5%

79.3%

-

-

59.2%

-

OpenAI MRCR v2 8-needle 256K-512K

81.5%

57.5%

-

-

-

-

OpenAI MRCR v2 8-needle 512K–1M

74.0%

36.6%

-

-

32.2%

-

抽象推理

評估

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

ARC-AGI-1(已驗證)

95.0%

93.7%

-

94.5%

93.5%

98.0%

ARC-AGI-2(已驗證)

85.0%

73.3%

-

83.3%

75.8%

77.1%

評估在推理強度設為 xhigh 的情況下進行,並在研究環境中完成,因此在部分情況下,其輸出可能與正式版 ChatGPT 略有不同。

作者

OpenAI