GPT‑5.2 全新登場,這是迄今最強大的專業知識工作模型系列。
目前,一般 ChatGPT Enterprise 用戶表示,AI 每天可為他們節省 40 至 60 分鐘,而重度用戶每週更可節省逾 10 小時。我們設計 GPT‑5.2 以為人們創造更多經濟價值;這個模型在製作試算表、建立簡報、編寫程式碼、理解圖片、處理長上下文、調用工具,以及管理複雜的多步驟項目方面都有明顯提升。
GPT‑5.2 在多項基準測試中均創下新標準,其中包括 GDPval(一項涵蓋 44 種職業、衡量定義明確的知識工作任務的評估),其表現已超越業界專業人士。
GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
GDPval(勝出或平手)知識工作任務 | 70.9% | 38.8% (GPT‑5) |
SWE-Bench Pro(公開)軟件工程 | 55.6% | 50.8% |
SWE-Bench Verified軟件工程 | 80.0% | 76.3% |
GPQA Diamond(無工具)科學問題 | 92.4% | 88.1% |
CharXiv Reasoning(使用 Python)科學圖表問題 | 88.7% | 80.3% |
HMMT(2025 年 2 月) | 99.4% | 96.3% |
FrontierMath(第 1–3 級) | 40.3% | 31.0% |
ARC-AGI-1(已驗證)抽象推理 | 86.2% | 72.8% |
ARC-AGI-2(已驗證)抽象推理 | 52.9% | 17.6% |
Notion(在新視窗中開啟)、Box(在新視窗中開啟)、Shopify(在新視窗中開啟)、Harvey(在新視窗中開啟) 和 Zoom(在新視窗中開啟) 均認為 GPT‑5.2 展現了最先進的長期推理和工具調用表現。Databricks(在新視窗中開啟)、Hex(在新視窗中開啟) 和 Triple Whale(在新視窗中開啟) 認為 GPT‑5.2 在智能代理數據科學和文件分析任務中表現出色。Cognition(在新視窗中開啟)、Warp(在新視窗中開啟)、Charlie Labs(在新視窗中開啟)、JetBrains(在新視窗中開啟) 和 Augment Code(在新視窗中開啟) 表示,GPT‑5.2 展現出頂尖的代理式編碼能力,在互動編碼、程式碼審核及偵錯等領域均有明顯提升。
在 ChatGPT 中,GPT‑5.2 Instant、Thinking 和 Pro 將由今日起陸續推出,並率先向付費計劃用戶提供。而在 API 中,相關模型現已向所有開發人員開放。
整體而言,GPT‑5.2 在通用智能、長上下文理解、代理工具調用能力和視覺表現方面都有大幅提升,令模型在處理複雜的真實世界端到端任務時,比以往任何模型都更可靠、更強大。
GPT‑5.2 Thinking 是目前最適合真實專業用途的模型。在 GDPval(一項涵蓋 44 種職業、衡量定義明確的知識工作任務的評估)中,GPT‑5.2 Thinking 創下全新成績,成為我們首個達到人類專家級水平的模型。具體而言,根據專家評審,GPT‑5.2 Thinking 在 70.9% 的 GDPval 知識工作任務中,表現比行業專業人士更優勝或表現相若。這些任務包括製作簡報、試算表及其他檔案。GPT‑5.2 Thinking 在 GDPval 任務中生成輸出內容的速度比專業人士快 11 倍,成本不足專業人士的 1%,這意味著,在有人類監督的情況下,GPT‑5.2 能有效協助處理專業工作。速度和成本的估算基於過往數據;ChatGPT 的實際運行速度可能會有所不同。
在 GDPval 中,模型嘗試進行定義明確的知識工作,當中涵蓋對美國 GDP 貢獻最大的前九大產業中的 44 個職業。這些任務要求輸出真正的工作成果,例如銷售簡報、會計試算表、緊急護理值班表、生產流程圖或短片等。在 ChatGPT 中,GPT‑5.2 Thinking 擁有 GPT‑5 thinking 所沒有的新工具。
在審查一項特別出色的成品輸出時,一位 GDPval 評審指出:「這是令人振奮且明顯的質素飛躍……成品看起來像由一家專業公司製作,兩項成品的版面設計精美,建議具深度;雖然其中一項仍有少量錯誤需要修正,但整體品質已相當出色。」
此外,在我們的內部基準中,針對初級投資銀行分析師的試算表建模任務,例如為《財富》500 強公司建立格式與引用皆正確的三表模型,或為私有化交易建立槓桿收購模型,GPT‑5.2 Thinking 在每項任務的平均得分均比 GPT‑5.1 高出 9.3%。由 59.1% 上升至 68.4%。
並排比較顯示,GPT‑5.2 Thinking 生成的試算表和簡報在細緻度和格式化方面均有所提升:

提示詞: 創作一個勞動力規劃模型:人員數量、招聘計劃、流失率及預算影響。包括工程、市場推廣、法律和銷售部門。
要在 ChatGPT 中使用全新的試算表和簡報功能,你需要訂閱付費計劃,並選擇 GPT‑5.2 Thinking 或 Pro。較複雜的生成可能需要數分鐘才能完成。
GPT‑5.2 Thinking 在 SWE-bench Pro 上創下 55.6% 的新業界標準,這是一項針對真實世界軟件工程的嚴格評估。與只測試 Python 的 SWE-bench Verified 不同,SWE-Bench Pro 測試四種語言,而且測試更具抗污染性、挑戰性、多樣性和工業相關性。
在 SWE-Bench Pro(在新視窗中開啟) 中,模型可使用一個程式碼儲存庫,並必須生成一個修補程式來解決真實的軟件工程任務。
在 SWE-bench Verified(未繪圖顯示)中,GPT‑5.2 Thinking 的得分達到我們的新高 80%。
在日常工程工作中,這代表模型能更可靠地對生產環境程式碼偵錯、處理功能開發需求、重構大型程式庫,並以更少人工介入完成端到端的修正。
GPT‑5.2 Thinking 的前端軟件工程能力亦較 GPT‑5.1 Thinking 明顯提升。早期測試者指出,模型在前端開發、複雜或非常規的使用者介面設計,特別是涉及 3D 元素的情況下表現更強,可以作為工程師在不同技術層面的強大日常拍檔。以下為模型從單一提示詞生成的部分示例:
提示詞:製作一個單頁應用程式,只使用一個 HTML 檔案,並需符合以下要求:
- 名稱:海洋波浪模擬
- 目標:顯示逼真的海浪動畫。
- 功能:可調整風速、浪高和光照效果。
- 介面:整體畫面應該真實且帶有寧靜、舒緩的感覺。
早期測試者分享了他們對 GPT‑5.2 編碼能力的意見:
「GPT-5.2 是自 GPT-5 以來,在代理編碼方面最大的一次飛躍,也是同價位中達到 SOTA 水平的編碼模型。模型的版本號,其實低估了這次智能提升的幅度。我們十分期待將此設為 Windsurf 的預設模型,並應用於多項核心的 Devin 工作負載。」
GPT‑5.2 Thinking 的幻覺率較 GPT‑5.1 Thinking 明顯降低。在一組來自 ChatGPT 的去識別化查詢中,含錯誤的回覆相對下降了 38%。對於專業人士來說,這意味著在使用模型進行研究、寫作、分析和決策支援時,錯誤會減少,因此模型在日常知識工作中更加可靠。
推理強度設定為可用的最高級別,並啟用了搜尋工具。其他模型檢測到錯誤,而這些模型本身也可能會出錯。論述層面的錯誤率遠低於整體回覆層面的錯誤率,因為大部分回覆都包含多個論述。
與所有模型一樣,GPT‑5.2 Thinking 並非完美。針對任何關鍵事項,請務必查核答案。
GPT‑5.2 Thinking 在長上下文推理方面創下新標準,並在 OpenAI MRCRv2 評估中取得領先表現。該評估用於測試模型整合分散於長篇文件中資訊的能力。在真實應用情境中,例如需要整合跨越數十萬 token 的資訊以進行深度文件分析時,GPT‑5.2 Thinking 的準確度遠高於 GPT‑5.1 Thinking。值得一提的是,GPT‑5.2 Thinking 是我們首個在 4-needle MRCR 測試(上下文長度可達 256k token)中達到近乎 100% 準確度的模型。
在實際使用中,這讓專業人士能以 GPT‑5.2 處理大量長文件,例如報告、合約、研究論文、各種文字紀錄及多檔案項目,並在數十萬個 token 的內容中保持高度連貫和準確。配合處理大量資訊的能力,GPT‑5.2 特別適合進行深入分析、綜合和複雜的多來源工作流程。
在 OpenAI-MRCR(在新視窗中開啟) v2(多回合共同指代解析)中,評估方式是將多個內容相同的「needle」用戶請求插入到大型、由相似請求與回覆組成的「haystack」之中,然後要求模型重現第 n 個 needle 的正確回覆。第 2 版修正了大約 5% 具有錯誤基準答案的任務。平均匹配比率用於量度模型輸出與正確答案之間的平均字串匹配比率。在 256k 最大輸入 token 的點代表在 128k 至 256k 輸入 token 範圍內的平均值,其餘數值亦以此類推。當中 256k 代表 256 × 1,024 = 262,144 token。推理強度設定為可用的最高級別。
對於需要超出最大上下文視窗的推理任務,GPT‑5.2 Thinking 亦可配合全新 Responses /compact 端點使用,以延伸模型的有效上下文視窗。這讓 GPT‑5.2 Thinking 能夠處理更多依賴工具的長時間運行工作流程,這些工作流程在其他情況下會因上下文長度而受限。在我們的 API 文件(在新視窗中開啟)中了解更多。
GPT‑5.2 Thinking 亦是我們至今最強的視覺模型,在圖表推理及軟件介面理解方面的錯誤率減少約一半。
在日常專業應用中,這代表模型能更準確地理解資訊主頁、產品螢幕截圖、技術圖表和視覺報告,支援金融、營運、工程、設計和客戶支援等高度依賴視覺資訊的工作流程。
在 CharXiv Reasoning(在新視窗中開啟) 中,模型需回答來自科學論文的圖表問題。已啟用 Python 工具,推理強度設為最大。
在 ScreenSpot-Pro(在新視窗中開啟) 中,模型需理解來自不同專業領域的圖形使用者介面高解像度螢幕截圖。已啟用 Python 工具,推理強度設為最大。在不使用 Python 工具時,模型分數顯著較低。我們建議在這類視覺任務中啟用 Python 工具。
與以往模型相比,GPT‑5.2 Thinking 更能準確地掌握圖像中元素的位置,特別適用於需要理解相對版面配置才能解決問題的任務。在以下例子中,我們的系統引導模型識別圖像輸出中的各個組件(例如主板),並返回附有大致邊界方框的標籤。即使在畫質較低的圖像上,GPT‑5.2 仍能辨識主要區域,並繪製與每個組件真實位置大致相符的方框;相比之下,GPT‑5.1 只標記了少數部分,顯示該模型在空間關係理解方面較弱。
GPT‑5.1

GPT‑5.2

GPT‑5.2 Thinking 在 Tau2-bench Telecom 上取得 98.7% 的最新業界領先成績,展示模型在長時間、多輪次任務中可靠調用工具的能力。
在對延遲特別敏感的用例中,GPT‑5.2 Thinking 在「reasoning.effort='none'」設定下的表現,亦明顯領先 GPT‑5.1 和 GPT‑4.1。
在 τ2-bench(在新視窗中開啟) 中,模型需在與模擬用戶的多輪對話中使用工具完成客戶支援任務。在 Telecom「電訊」範疇中,我們在系統提示詞中加入了一段簡短而普遍適用的指示,以提升模型的表現。而由於「航空」子集的基準答案評分質素較低,我們將其排除在評估之外。
對於專業人士而言,這代表模型能支援更強大的端到端工作流程,例如處理客戶支援個案、從多個系統提取資料、進行分析及生成最終輸出,同時減少流程中斷。
例如,當複雜的客戶查詢涉及多個步驟、需要完整解析流程時,模型能更有效地協調多個代理之間的工作。在以下用例中,一位旅客報告由於航班延誤而錯過轉機,因此需要在紐約過夜,並提出需要安排醫療座位。GPT‑5.2 能管理整個任務鏈,包括重新訂票、安排特別協助座位及處理賠償,而且提供的結果比 GPT‑5.1 更加完整準確。
GPT‑5.1

GPT‑5.2

我們希望 AI 能加速科學研究,並惠及所有人。為此,我們一直與科學家合作並聆聽他們的意見,了解 AI 如何能加速科研工作。上個月,我們在這裡分享了一些早期的合作實驗。
我們深信,GPT‑5.2 Pro 與 GPT‑5.2 Thinking 是目前全球最能有效協助並加速科學研究工作的模型。在 GPQA Diamond 這個研究生級別、防止依靠 Google 搜尋的科學問答基準中,GPT‑5.2 Pro 取得 93.2%,GPT‑5.2 Thinking 則達到 92.4%。
在 GPQA Diamond(在新視窗中開啟) 中,模型回答與物理、化學、生物相關的研究生級選擇題。未啟用任何工具,推理強度設為最大。
在 FrontierMath(第 1–3 級)的專家級數學評估中,GPT‑5.2 Thinking 同樣創下新高,能解答 40.3% 的問題。
在 FrontierMath(在新視窗中開啟) 中,模型解答專家級數學問題。已啟用 Python 工具,推理強度設為最大。
我們開始看到 AI 模型在數學和科學領域以具體方式顯著加速進展。例如,在最近與 GPT‑5.2 Pro 的研究工作中,研究人員探討了一個統計學習理論中的未解問題。在一個狹義且界定明確的研究設定中,模型提出了一個證明,其後經由作者驗證並交由外部專家審閱,展示了前沿模型在嚴格人類監督下如何協助數學研究。
在 ARC-AGI-1(已驗證)這個用於衡量一般推理能力的基準測試中,GPT‑5.2 成為首個突破 90% 門檻的模型,較去年 o3‑preview 的 87% 再有提升,同時將達至該表現的成本降低約 390 倍。
而 ARC-AGI-2(已驗證)的測試就提升了難度,並更有效地分離出流體推理能力。GPT‑5.2 Thinking 在思路鏈模型中創下新的業界標準,取得 52.9% 的成績。GPT‑5.2 Pro 的表現更佳,取得 54.2% 的成績,進一步拓展了模型在處理新穎及抽象問題時的推理能力。
這些評估中的改進反映出 GPT‑5.2 具備更強的多步推理能力、更高的量化準確度,以及在處理複雜技術任務時更可靠的問題解決能力。
以下是早期測試者對 GPT‑5.2 的看法:
「GPT-5.2 為我們帶來了整體架構上的突破。我們把原本脆弱、需要多個代理協作的系統,整合成一個具備 20 多項工具的單一大型智能代理。最令人驚喜的是,一切如此順暢。這個大型智能代理更快、更聰明,而且維護難度比以往簡單得多。我們現在看到延遲大幅下降、工具調用能力明顯增強,而且不再需要冗長複雜的系統提示,因為只需一行簡單的提示詞, GPT-5.2 就能乾淨俐落地為你完成任務。這種感覺就像純粹的魔法。」
在 ChatGPT 中,用戶應會察覺到 GPT‑5.2 在日常使用上更加好用,回覆更有結構、更可靠,同時仍然保持自然愉快的對話體驗。
GPT‑5.2 Instant 是一款快速實用的日常工作與學習工具,在資訊查詢、操作指南、技術寫作和翻譯方面均有明顯改進;並在 GPT‑5.1 Instant 引入更溫暖的對話語氣基礎上進一步提升。早期測試者特別指出,解釋更清晰,能夠在一開始就呈現關鍵資料。
GPT‑5.2 Thinking 專為處理更深入的工作而設,協助用戶應付更複雜的任務,在完成度與細緻度上亦有所提升。它在編碼、總結長文件、回答有關上載檔案的問題、逐步解決數學和邏輯問題,以及協助規劃與決策方面均有明顯進步,結構更加清晰,提供的細節亦更加實用全面。
GPT‑5.2 Pro 是我們最智能、最可靠的模型,適用於需要高質量答案、且容許較長回應時間的艱深問題。早期測試顯示,模型的重大錯誤更少,而在程式開發等複雜領域的表現亦更加強大。
GPT‑5.2 建基於我們在 GPT‑5 中提出的安全完成研究,令模型能在遵守安全界限的前提下,提供最合適、最有用的回覆。
在此版本中,我們持續加強模型在敏感對話中的回應能力,尤其在處理涉及自殺或自殘跡象、心理健康困擾、情緒依賴等提示詞時,均有明顯改善。這些針對性的改進,令 GPT‑5.2 Instant 與 GPT‑5.2 Thinking 在敏感對話中的不良回覆明顯減少,相比 GPT‑5.1 及 GPT‑5 Instant 和 Thinking 模型均有進步。相關詳情可參閱系統說明卡。
我們正處於推出年齡預測模型的初期階段,可自動替未滿 18 歲的用戶套用內容保護措施,以限制其接觸敏感內容。此功能延伸現有的未成年用戶保護方針,以及我們的家長控制機制。
GPT‑5.2 是持續改進路上的其中一步。雖然這次更新在智能和工作效率方面都有實質提升,但我們明白用戶在部分領域希望看到更多改進。在 ChatGPT 中,我們正積極改善已知問題(例如過度拒絕),同時持續提升整體安全機制與可靠性。這些變更牽涉的層面繁多,我們會全力確保其正確、穩妥地落實。
GPT‑5.2 | GPT‑5.1 | GPT‑5.2 | GPT‑5.1 | |
心理健康 | 0.995 | 0.883 | 0.915 | 0.684 |
情感依賴 | 0.938 | 0.945 | 0.955 | 0.785 |
自殘 | 0.938 | 0.925 | 0.963 | 0.937 |
在 ChatGPT 中,我們將於今日起陸續推出 GPT‑5.2 Instant、Thinking 和 Pro,並率先提供予付費計劃(Plus、Pro、Business、Enterprise)用戶。GPT‑5.2 會分階段部署,以確保 ChatGPT 的整體運作穩定;如未能即時顯示,請稍後再試。在 ChatGPT 中,GPT‑5.1 將以現行模型形式供付費用戶使用三個月,之後將正式停用。
ChatGPT | API |
ChatGPT‑5.2Instant | GPT‑5.2‑chat‑latest |
ChatGPT‑5.2Thinking | GPT‑5.2 |
ChatGPT‑5.2Pro | GPT‑5.2 Pro |
在我們的 API 平台中,GPT‑5.2 Thinking 現已可透過 Responses API 和 Chat Completions API 使用,模型名稱為 gpt-5.2;而 GPT‑5.2 Instant 則為 gpt-5.2-chat-latest。GPT‑5.2 Pro 在 Reponses API 中以 gpt-5.2-pro 提供。開發人員現可在 GPT‑5.2 Pro 中設定推理參數,而 GPT‑5.2 Pro 和 GPT‑5.2 Thinking 現亦支援全新的第五級推理強度「xhigh」,適用於以質素為最高優先的任務。
GPT‑5.2 的收費方式為每百萬輸入 token:$1.75,每百萬輸出 token:$14,並對快取輸入提供 90% 折扣。在多項代理評估中,我們發現,雖然 GPT‑5.2 的單個 token 成本較高,但由於其 token 使用效率更佳,達至相同品質水平的總成本反而更低。
雖然 ChatGPT 的訂閱收費維持不變,但在 API 中,由於模型能力更強大,GPT‑5.2 的 token 收費會較 GPT‑5.1 略高。不過,它的價格仍低於多個同級前沿模型,讓企業與開發人員能在日常工作與核心應用中持續深入使用。
模型 | 輸入 | 快取輸入 | 輸出 |
gpt-5.2 / | $1.75 | $0.175 | $14 |
gpt-5.2-pro | $21 | - | $168 |
gpt-5.1 / | $1.25 | $0.125 | $10 |
gpt-5-pro | $15 | - | $120 |
我們目前並無計劃在 API 中淘汰 GPT‑5.1、GPT‑5 或 GPT‑4.1。如有相關計劃,我們會事先充分通知開發人員。雖然 GPT‑5.2 已能在 Codex 中直接運作並具良好表現,我們預計會在未來數週內推出一個針對 Codex 優化的 GPT‑5.2 版本。
GPT‑5.2 是我們與長期合作夥伴 NVIDIA 及 Microsoft 共同開發的成果。Azure 數據中心與 NVIDIA GPU(包括 H100、H200、GB200-NVL72)共同支撐 OpenAI 的大規模訓練,推動模型智能的重大提升。這項合作讓我們能更有信心地擴展運算資源,加速將新模型帶到市場。
以下我們列出 GPT‑5.2 Thinking 的完整基準測試分數,以及 GPT‑5.2 Pro 的部分測試結果。
專業
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
編碼
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
真實性
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
長上下文
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
視覺
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
工具使用
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
學術
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
抽象推理
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
除專業評估外,我們均在 API 中以可用的最高推理強度運行模型(GPT‑5.2 Thinking 和 Pro 使用「xhigh」,GPT‑5.1 Thinking 使用「high」)。在專業評估中,GPT‑5.2 Thinking 則以 ChatGPT Pro 中可用的最高推理強度「heavy」運行。基準測試在研究環境中進行,因此在部分情況下,其輸出可能與正式版 ChatGPT 略有不同。
* 在 SWE-Lancer 中,有 237 題中的 40 題未能在我們的基礎設施上運行,已予以排除。


