跳至主要內容
OpenAI

2025年12月11日

產品發布

GPT‑5.2 登場

最先進的前沿模型,為專業工作與長時間運行的代理而打造。

載入中…

GPT‑5.2 全新登場,這是迄今最強大的專業知識工作模型系列。

目前,ChatGPT Enterprise 使用者大多表示 AI 每天為他們節省 40 至 60 分鐘,而重度使用者則表示每週可節省超過 10 小時。我們設計 GPT‑5.2 的目的,是要為人們創造更大的經濟價值。這一代模型在建立試算表、製作簡報、編寫程式碼、解讀圖像、理解長篇上下文、運用各項工具,以及處理複雜的多步驟專案方面表現更佳。

GPT‑5.2 於 GDPval 等多項基準測試中創下新紀錄,在處理橫跨 44 種職業、定義明確的知識工作任務時,表現優於業界專業人士。


GPT‑5.2 Thinking

GPT‑5.1 Thinking

GDPval(勝出或平局)
知識工作任務

70.9%

38.8% (GPT‑5)

SWE-Bench Pro(公開)
軟體工程

55.6%

50.8%

SWE-bench Verified
軟體工程

80.0%

76.3%

GPQA Diamond(無工具)
科學問題

92.4%

88.1%

CharXiv Reasoning(Python 輔助)
科學圖表問題

88.7%

80.3%

HMMT(2025 年 2 月)
數學競賽

99.4%

96.3%

FrontierMath(第 1 至 3 級)
高等數學

40.3%

31.0%

ARC-AGI-1 (Verified)
抽象推理

86.2%

72.8%

ARC-AGI-2 (Verified)
抽象推理

52.9%

17.6%

Notion(在新視窗中開啟)Box(在新視窗中開啟)Shopify(在新視窗中開啟)Harvey(在新視窗中開啟)Zoom(在新視窗中開啟) 均觀察到,GPT‑5.2 展現了最先進的長程推理和工具呼叫能力。Databricks(在新視窗中開啟)Hex(在新視窗中開啟) Triple Whale(在新視窗中開啟) 認為,GPT‑5.2 在代理資料科學和文件分析任務中表現出色。Cognition(在新視窗中開啟)Warp(在新視窗中開啟)Charlie Labs(在新視窗中開啟)JetBrains(在新視窗中開啟)Augment Code(在新視窗中開啟) 表示,GPT‑5.2 展現最先進的代理程式編碼能力,在互動寫程式、審查程式碼和查找錯誤等方面皆有具體進步。

ChatGPT 中的 GPT‑5.2 Instant、Thinking 和 Pro 即日起陸續推出,首先開放給付費方案使用者。API 中,上述模型現已向所有開發者開放。

整體而言,GPT‑5.2 在一般智慧能力、長篇上下文理解、自主工具呼叫和視覺解讀方面皆有顯著提升,使其在執行真實世界中複雜的端到端任務時,比以往任何模型都更出色。

模型效能

具經濟價值的任務

GPT‑5.2 Thinking 是我們迄今在真實專業情境中表現最出色的模型。在 GDPval 基準測試(橫跨 44 種職業、衡量定義明確的知識工作任務)中,GPT‑5.2 Thinking 創下業界新標準,並成為我們首個達到人類專家水準、甚至更勝一籌的模型。具體來說,根據專家評審,GPT‑5.2 Thinking 在 70.9% 的 GDPval 知識工作任務中,表現與頂尖業界專業人士不相上下,或更加優秀。這些任務包括製作簡報、試算表及其他檔案。GPT‑5.2 Thinking 在 GDPval 任務中的輸出速度超出專業人士逾 11 倍,成本則不到 1%,這代表在有人類監督的情況下,GPT‑5.2 能有效協助處理專業工作。速度和成本根據過往指標估算;ChatGPT 的實際運行速度可能有所不同。

在 GDPval 中,模型嘗試進行定義明確的知識工作,當中涵蓋對美國 GDP 貢獻最大的前九大產業中的 44 個職業。這些任務要求交付真正的工作成果,例如銷售簡報、會計試算表、緊急護理值班表、生產流程圖或短片等。在 ChatGPT 中,GPT‑5.2Thinking 擁有 GPT‑5 Thinking 尚未具備的新工具。

在審查一份特別出色的成果時,一位 GDPval 評審表示:「品質提升非常明顯,相當振奮人心,成品看起來彷彿出自專業公司之手。兩份交付成果的版面設計都很精美,提供的建議極具深度。其中一份仍有少量細節需要修正,但整體品質已非常亮眼。」

此外,在我們的內部基準測試中,針對初級投資銀行分析師的試算表建模任務,例如為一家《Fortune》500 大公司建立具備正確格式與引用資料的財務三表模型,或為私有化交易建立槓桿收購模型,GPT‑5.2 Thinking 在每項任務的平均得分都比 GPT‑5.1 高出 9.3%。由 59.1% 上升至 68.4%。

並排比較顯示,GPT‑5.2 Thinking 在試算表與簡報的精緻度與格式呈現上均有明顯進步:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

提示詞:建立一個人力資源方案模型,納入人員編制、招聘方案、流失率與預算影響。要涵蓋工程、行銷、法務與銷售部門。

要在 ChatGPT 中使用全新的試算表和簡報功能,必須訂閱付費方案,並選擇 GPT‑5.2 ThinkingPro。生成較複雜的內容可能需要數分鐘才能完成。

寫程式

GPT‑5.2 Thinking 在 SWE-bench Pro 上取得 55.6% 的最新業界領先成績。SWE-bench Pro 是針對真實世界軟體工程任務的嚴格評估。與僅測試 Python 的 SWE-bench Verified 不同,SWE-bench Pro 測試四種語言,並著重提高抗污染性、挑戰性、多樣性與實務相關性。

SWE-bench Pro(在新視窗中開啟)中,模型可使用一個程式碼儲存庫,並必須生成一個修補程式來解決真實的軟體工程任務。

在 SWE-bench Verified(未繪製)中,GPT‑5.2 Thinking 的得分達到我們的新高 80%。

在日常專業使用中,這代表模型能更可靠地針對生產環境的程式碼偵錯、處理開發功能需求、重構大型程式碼庫,並以更少人工干預完成端到端的修正流程。

GPT‑5.2 Thinking 在前端軟體工程方面也比 GPT‑5.1 Thinking 表現更佳。參與早期測試的使用者指出,模型在前端開發、複雜或非常規的使用者介面設計,特別是涉及 3D 元素的情況下表現更強,可以作為工程師在不同技術層面的強大日常搭檔。以下為模型從單一提示詞生成的部分範例:

提示詞製作一個單頁應用程式,只使用一個 HTML 檔案,並需符合以下要求:
- 名稱:海浪模擬
- 目標:顯示逼真的海浪動畫。
- 功能:可調整風速、浪高和光照效果。
- 介面:整體畫面寫實,呈現寧靜療癒的氛圍。

早期測試團隊對於 GPT‑5.2 程式編碼能力的回饋如下:

「GPT-5.2 是 GPT-5 推出以來,在代理程式編寫方面最大的一次飛躍,也是在同價位模型中,程式設計能力最頂尖的產品。版本號的更新,其實低估了本次模型智慧的大幅提升。我們很高興能選用 GPT-5.2,作為 Windsurf 與多項核心 Devin 工作任務的預設模型。」
Jeff Wang,Windsurf 執行長

事實準確度

GPT‑5.2 Thinking 的幻覺 GPT‑5.1 Thinking 明顯降低。在一組來自 ChatGPT 的去識別化查詢中,含錯誤的回覆相對下降了 38%。對於專業人士來說,這代表使用模型進行研究、寫作、分析和決策支援時,錯誤會減少,因此模型在日常知識工作中更加可靠。

推理強度設定為可用的最高級別,並啟用了搜尋工具。其他模型檢測到錯誤,而這些模型本身也可能會出錯。論述層面的錯誤率遠低於整體回應層面的錯誤率,因為大部分回應都包含多個論述。

如同所有模型,GPT‑5.2 Thinking 並非完美。針對任何關鍵事項,請務必查核答案。

長篇上下文

GPT‑5.2 Thinking 在長上下文推理方面創下新標準,並在 OpenAI MRCRv2 評估中取得領先表現。該評估用於測試模型整合分散於長篇文件中資訊的能力。在真實應用情境中,例如需要整合跨越數十萬 Token 的資訊,並進行深度文件分析時,GPT‑5.2 Thinking 的準確度遠高於 GPT‑5.1 Thinking。值得注意的是,GPT‑5.2 Thinking 是我們首個在 4-needle MRCR 測試(上下文長度可達 256k Token)中達到近乎 100% 準確度的模型。

在實際使用中,專業人士因而能以 GPT‑5.2 處理大量長篇文件,例如報告、合約、研究論文、各種文字紀錄及多檔案專案,並在數十萬個 Token 的內容中保持高度一致性和準確度。配合處理大量資訊的能力,GPT‑5.2 尤其適合深入分析、綜合統整和複雜的多來源工作流程。

OpenAI-MRCR⁠ v2(在新視窗中開啟)(多輪共指解析)中,評估方式是將多個內容相同的「Needle」使用者要求插入到大型、由相似請求與回覆組成的「Haystack」之中,然後要求模型重現第 n 個 Needle 的正確回覆。第 2 版修正了大約 5% 具有錯誤基準答案的任務。平均相符比率用於衡量模型輸出與正確答案之間的平均字串相符比率。在 256k 最大輸入 Token 的點代表在 128k 至 256k 輸入 Token 範圍內的平均值,其餘數值以此類推。當中 256k 代表 256 × 1,024 = 262,144 Token。推理強度設定為可用的最高級別。

對於需要超出最大上下文視窗的推理任務,GPT‑5.2 Thinking 也可配合全新 Responses /compact 端點使用,延伸模型的有效上下文視窗。如此一來,GPT‑5.2 Thinking 便能處理更多依賴工具的長時間運行工作流程,這些工作流程在其他情況下會因上下文長度而受限。詳情請參閱我們的 API 說明文件(在新視窗中開啟)

視覺

GPT‑5.2 Thinking 也是我們至今最強的視覺模型,在圖表推理及軟體介面理解方面的錯誤率減少約一半。

在日常專業應用中,這代表模型能更準確地理解資訊主頁、產品螢幕截圖、技術圖表和視覺報告,支援金融、營運、工程、設計和客戶支援等高度依賴視覺資訊的工作流程。

CharXiv Reasoning(在新視窗中開啟) 中,模型需回答來自科學論文的圖表問題。已啟用 Python 工具,推理強度設為最大。

ScreenSpot-Pro(在新視窗中開啟) 中,模型需理解來自不同專業領域的圖形使用者介面高解析度螢幕截圖。已啟用 Python 工具,推理強度設為最大。在不使用 Python 工具時,模型分數顯著較低。我們建議在這類視覺任務中啟用 Python 工具。

與先前的模型相比,GPT‑5.2 Thinking 對圖像中元素位置的掌握更精準,尤其在需要依賴相對佈局來解題的任務中效果更好。在以下範例中,我們要求模型識別所輸入圖像中的元件(此處為主機板),並標出元件名稱,同時框出大概位置。即使圖像畫質較低,GPT‑5.2 仍可辨識出主要區域,並放置大致符合各元件實際位置的方框;相較之下,GPT‑5.1 僅標記少數部分,對空間排列的理解明顯較弱。

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

工具呼叫

GPT‑5.2 Thinking 在 Tau2-bench Telecom 上取得 98.7% 的最新業界領先成績,展示模型在長時間、多輪次任務中呼叫工具的可靠能力。

在對延遲敏感的使用案例中,GPT‑5.2 Thinking 在「reasoning effort = none」的設定下,表現也大幅超越 GPT‑5.1 和 GPT‑4.1。

τ2-bench(在新視窗中開啟) 中,模型需在與模擬使用者的多輪對話中使用工具完成客戶支援任務。在 Telecom「電訊」領域中,我們在系統提示詞中加入了一段普遍適用的簡短指示,藉此提升模型的表現。而由於「航空」子集的基準答案評分品質較低,我們將其排除在評估之外。

對於專業人士而言,這代表模型能支援更強大的端到端工作流程,例如處理客戶支援個案、從多個系統提取資料、進行分析及生成最終輸出,同時減少流程中斷。

例如,當複雜的客戶查詢涉及多個步驟、需要完整解析流程時,模型能更有效地協調多個代理之間的工作。在以下使用案例中,一位旅客回報因航班延誤而錯過轉機,因此需要在紐約過夜,並提出需要安排醫療座位。GPT‑5.2 能管理整個任務鏈,包括重新訂票、安排特別協助座位及處理賠償,而且提供的結果比 GPT‑5.1 更加完整準確。

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

科學與數學

我們希望 AI 能加速科學研究,並惠及所有人。為此,我們持續與科學家合作,聆聽他們的需求,了解 AI 如何能加速科學研究工作。上個月我們在這裡分享了一些早期的合作實驗。

我們深信,GPT‑5.2 Pro 與 GPT‑5.2 Thinking 是目前全球最能有效協助並加速科學研究工作的模型。在 GPQA Diamond 這個研究生級別、防止依靠 Google 搜尋的科學問答基準測試中,GPT‑5.2 Pro 取得 93.2%,GPT‑5.2 Thinking 則達到 92.4%。

GPQA Diamond(在新視窗中開啟) 中,模型回答與物理、化學、生物相關的研究生級選擇題。未啟用任何工具,推理強度設為最大。

在 FrontierMath(第 1 至 3 級)的專家級數學評估中,GPT‑5.2 Thinking 創下新紀錄,成功解答 40.3% 的題目。

FrontierMath(在新視窗中開啟) 中,模型解答專家級數學問題。已啟用 Python 工具,推理強度設為最大值。

我們開始看到 AI 模型在數學和科學領域以具體方式顯著加速進展。例如,在近期研究中,研究人員使用 GPT‑5.2 Pro 探索統計學習理論中的一項未解之題。在範圍明確且設定清晰的情境中,模型提出了一個證明,隨後由作者驗證,並交由外部專家審查,顯示前沿模型在嚴謹的人類監督下,可以有效推進數學研究。

ARC-AGI 2

在 ARC-AGI-1 (Verified) 這個用於衡量一般推理能力的基準測試中,GPT‑5.2 成為首個突破 90% 門檻的模型,相較去年 o3‑preview 的 87% 表現更佳,同時將達到此表現的成本降低約 390 倍。

ARC-AGI-2 (Verified) 則提高了難度,能更有效測出模型的流動式推理能力。GPT‑5.2 Thinking 創下思路鏈模型的新紀錄,取得 52.9% 的分數。GPT‑5.2 Pro 的表現更佳,達到 54.2%,進一步擴展了模型對新穎、抽象問題的推理能力。

這些評估的進步反映出 GPT‑5.2 更強的多步推理能力、更高的量化準確度,以及在複雜技術任務上更可靠的問題解決表現。

早期測試團隊對 GPT‑5.2 的評價如下:

「GPT-5.2 讓我們完成架構轉型。我們將脆弱的多代理系統,整合成擁有 20 多項工具的單一大型代理。最棒的是,新的系統運作起來很順暢。這個大型代理速度更快、更聰明,且維護起來比以前簡單 100 倍。現在延遲大幅降低,工具呼叫能力顯著增強,而且不再需要冗長的系統提示詞,只需要一行簡短提示詞,GPT-5.2 就能乾脆俐落地完成任務。真的就像魔法一樣。」
AJ Orbach,Triple Whale 執行長

ChatGPT 中的 GPT‑5.2

在 ChatGPT 中,使用者應可察覺 GPT‑5.2 在日常生活中更好用:回應結構更清晰、更可靠,同時保有自然流暢的互動。

GPT‑5.2 Instant 是一款快速且強大的日常工作與學習工具,在資訊查詢、操作指南、逐步說明、技術寫作與翻譯方面都有顯著提升,並延續 GPT‑5.1 Instant 所導入的溫暖對話語氣。早期測試人員特別指出,模型提供的說明更清楚,而且一開始就會呈現出關鍵資訊。

GPT‑5.2 Thinking 專為更深入的工作而設計,協助使用者處理更複雜的任務,成果更完整細緻。模型在編寫程式碼、摘要長篇文件、回答上傳檔案相關問題、逐步解決數學和邏輯問題,以及協助規劃與決策方面均有明顯進步,回應結構更清晰,提供的細節也更實用。

GPT‑5.2 Pro 是我們目前最聰明、最可靠的模型,適合需要高品質答案、且容許較長回應時間的艱深問題。早期測試顯示,此模型的重大錯誤更少,且在程式設計等複雜領域表現更好。

安全性

GPT‑5.2 建基於我們在 GPT‑5 中導入的「安全補全」研究,指導模型盡可能提供最實用的回覆,同時恪守安全界線。

在此版本中,我們持續加強模型在敏感對話中的回應能力,尤其在處理涉及自殺或自殘跡象、心理健康困擾、情緒依賴等提示詞時,都有了明顯改善。這些重點改進,使 GPT‑5.2 Instant 與 GPT‑5.2 Thinking 在敏感對話中的不良回覆明顯減少,相比 GPT‑5.1 及 GPT‑5 Instant/Thinking 均有進步。詳情請參閱系統說明卡

我們開始分階段推出年齡預測模型,可自動替未滿 18 歲的使用者套用內容保護措施,限制其接觸敏感內容。此功能延伸我們現有的未成年使用者保護方針,以及家長控制機制。

我們仍在持續努力,GPT‑5.2 只是其中一步。雖然這次更新在模型智慧和工作效率方面都有實質提升,但我們了解,使用者希望在部分領域看到更多改進。在 ChatGPT 中,我們正積極改善已知問題(例如過度拒答),同時持續提升整體安全機制與可靠性。相關變更牽涉眾多層面,我們會全力確保正確實施、妥善落實。

心理健康評估


GPT‑5.2
Instant

GPT‑5.1
Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

心理健康

0.995

0.883

0.915

0.684

情感依賴

0.938

0.945

0.955

0.785

自殘

0.938

0.925

0.963

0.937

適用情況與定價

在 ChatGPT 中,我們將於今日起陸續推出 GPT‑5.2 Instant、Thinking 和 Pro,並率先提供給付費方案(Plus、Pro、Go、Business、Enterprise)使用者。GPT‑5.2 會分階段部署,確保 ChatGPT 整體運作穩定;如未能即時顯示,請稍後再試。在 ChatGPT 中,GPT‑5.1 將以現行模型形式提供給付費使用者,三個月後就會正式下線。

ChatGPT 和 API 的模型命名方式

ChatGPT

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

在我們的 API 平台中,GPT‑5.2 Thinking 現已可透過 Responses API 和 Chat Completions API 使用,模型名稱為 gpt-5.2;GPT‑5.2 Instant 可透過 gpt-5.2-chat-latest 使用。GPT‑5.2 Pro 在 Responses API 中的名稱則為 gpt-5.2-pro。開發者現在可於 GPT‑5.2 Pro 中設定推理參數。GPT‑5.2 Pro 和 GPT‑5.2 Thinking 皆支援全新的第五級推理強度「xhigh」,適用於最重視品質的任務。

GPT‑5.2 的收費方式為每百萬輸入 Token:$1.75,每百萬輸出 Token:$14,並對快取輸入提供 90% 折扣。在多項代理評估中,我們發現,儘管 GPT‑5.2 的單一 Token 成本略高,但由於 Token 使用效率好,達到相同品質水準的整體成本反而降低。

ChatGPT 的方案訂閱費用保持不變,但在 API 中,由於模型能力更強,GPT‑5.2 每個 Token 的收費略高於 GPT‑5.1。此價格仍低於許多同級前沿模型,讓企業與開發者能在日常工作與核心應用中持續深入使用。

每百萬 Token 的定價

模型

輸入

快取輸入

輸出

gpt-5.2 /
gpt-5.2-chat-latest

$1.75

$0.175

$14

gpt-5.2-pro

$21

-

$168

gpt-5.1 /
gpt-5.1-chat-latest

$1.25

$0.125

$10

gpt-5-pro

$15

-

$120

我們目前並未規劃在 API 中淘汰 GPT‑5.1、GPT‑5 或 GPT‑4.1。如有相關計畫,我們會提前通知開發者。雖然 GPT‑5.2 已能在 Codex 中直接運作且表現良好,我們預計會在未來數週內推出一個針對 Codex 最佳化的 GPT‑5.2 版本。

我們的合作夥伴

GPT‑5.2 是與我們的長期合作夥伴 NVIDIA 和 Microsoft 共同開發的。Azure 數據中心與 NVIDIA GPU(包括 H100、H200、GB200-NVL72)共同支撐 OpenAI 的大規模訓練,推動模型智慧的重大提升。這項合作讓我們能更有信心地擴展運算資源,更快將新模型推向市場。

附錄

詳細基準測試內容

以下呈現 GPT‑5.2 Thinking 的完整基準測試分數,以及 GPT‑5.2 Pro 的部分結果。

專業
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
寫程式
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
事實準確度
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
長篇上下文
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
視覺
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
工具使用
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
學術
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
抽象推理
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

除專業評估外,我們均在 API 中以可用的最高推理強度運行模型(GPT‑5.2 Thinking 和 Pro 使用「xhigh」,GPT‑5.1 Thinking 使用「high」)。在專業評估中,GPT‑5.2 Thinking 則以 ChatGPT Pro 中可用的最高推理強度「heavy」運行。基準測試在研究環境中進行,因此在部分情況下,其輸出可能與正式版 ChatGPT 略有不同。

* 在 SWE-Lancer 中,有 237 題中的 40 題未能在我們的基礎設施上運行,已加以排除。

作者

OpenAI