今天,我們正式推出 GPT‑5.2‑Codex,這是迄今為止最先進的代理編碼模型,適用於複雜的真實世界軟體工程。GPT‑5.2‑Codex 是 GPT‑5.2 的一個版本,進一步針對 Codex 中的代理編碼最佳化,包括透過上下文壓縮支援長程工作、在大型程式碼變更(如重構與遷移)上表現更強、在 Windows 環境中的效能提升,以及顯著增強的網路安全能力。
隨著模型在智慧前沿持續發展,相關改進也明顯帶動了資安等專業領域的能力躍升。例如,就在上週,一位安全研究員透過 Codex CLI 使用 GPT‑5.1‑Codex‑Max 時,發現 React 中的一個漏洞,並遵循負責任原則披露(在新視窗中開啟),相關漏洞可能導致原始碼外洩。
GPT‑5.2‑Codex 擁有比我們迄今發布的任何模型都更強的網路安全能力。這些進步有助於大規模強化網路安全,但同時也可能遭到濫用,因此需要審慎部署。雖然 GPT‑5.2‑Codex 在我們的應變準備框架下尚未達到「高」等級的網路能力,但我們在設計部署方式時,已將未來能力成長納入考量。
我們今天在所有 Codex 平台中,向付費的 ChatGPT 使用者推出 GPT‑5.2‑Codex,並正著手在未來數週內,逐步並安全地向 API 使用者開放 GPT‑5.2‑Codex。同時,我們正在試行一項邀請制計畫,讓專注於防禦性網路安全工作的經審核專業人士及機構,率先使用即將推出的新功能及限制較少的模型。我們相信,這種部署方式能在可用性與安全之間取得適當平衡。
GPT‑5.2‑Codex 以 GPT‑5.2 的優勢為基礎,延續 GPT‑5.1‑Codex‑Max 在前沿代理編碼與終端操作能力上的表現。透過更強的長上下文理解、可靠的工具調用、提升事實準確度,以及原生的情境壓縮能力,GPT‑5.2‑Codex 現在執行長時間編碼任務時更加可靠,同時能在推理過程中保持良好的 Token 使用效率。
GPT‑5.2‑Codex 在 SWE-Bench Pro 與 Terminal-Bench 2.0 這兩項基準測試中,均達到業界領先水準。這些測試專門評估模型在真實終端環境中,處理多元任務的代理能力。 在原生 Windows 環境中,GPT‑5.2‑Codex 延續 GPT‑5.1‑Codex‑Max 導入的能力,在代理程式碼編寫方面效率更高、更加可靠。
隨著這些改進,Codex 在處理大型程式碼庫及長時間工作時,能完整保留所有上下文,整體能力也進一步提升。它可更穩定地完成大型重構、程式碼遷移和功能開發等複雜任務,即使計畫有所調整或過程中出現失誤,也能持續最佳化,不會失去進度。
在 SWE-Bench Pro 中,模型可使用一個程式碼儲存庫,並必須生成一個修補程式來解決真實的軟體工程任務。Terminal-Bench 2.0 是一項用於評估 AI 代理在真實終端機環境中表現的基準測試。任務內容包括編譯程式碼、訓練模型,以及設定伺服器。
GPT‑5.2‑Codex 的視覺能力更強,能更準確地解讀在寫程式過程中分享的螢幕截圖、技術示意圖、圖表與使用者介面。
Codex 可將設計模型快速轉換成可運作的原型,而你也可與 Codex 協作,將這些原型進一步發展並部署到正式環境。
設計模型

由 GPT‑5.2‑Codex 生成的原型
回顧我們其中一項安全網路安全評估的歷年表現,可以看到模型能力自 GPT‑5‑Codex 起出現明顯提升,其後在 GPT‑5.1‑Codex‑Max 再有一次大幅躍升,並於 GPT‑5.2‑Codex 上第三度提高。我們預期即將推出的 AI 模型將繼續沿著這條軌跡前進。為此,我們在規劃與評估時,已假設每一代新模型都有可能達到應變整備框架(在新視窗中開啟)所定義的「高」等級網路安全能力。雖然 GPT‑5.2‑Codex 目前尚未達到該等級,但我們已提前為未來可能跨越這道門檻的模型做好準備。鑑於網路相關能力有所提升,我們已在模型及產品層面加入額外的安全防護措施,相關內容已在系統說明卡中詳述。
Capture-the-Flag (CTF) 專業級資安攻防競賽評估模型(需具備專業級網路安全技能)在 Linux 環境中,解決高階、多步驟真實世界挑戰的能力。
現代社會仰賴軟體運作,而其穩定可靠與否,取決於完善的網路安全,包括確保銀行、醫療、通訊等關鍵服務持續運作、保護敏感資料,並讓人們能安心使用每天依賴的軟體。不少漏洞其實早就存在,直到造成風險才浮現,而辨識、驗證並修補這些漏洞,通常仰賴具備合適工具的工程師社群與獨立安全研究員。
2025 年 12 月 11 日,React 團隊發布了三個影響使用 React Server Components 建構的應用程式的安全漏洞。這次揭露之所以引人注目,不僅在於漏洞本身,也在於發現漏洞的方式。
Privy(Stripe 旗下公司)的首席安全工程師 Andrew MacPherson,當時正使用 GPT‑5.1‑Codex‑Max 配合 Codex CLI 及其他代理編碼工具,重現並分析前一星期披露的一個重大 React 漏洞:React2Shell(在新視窗中開啟) (CVE-2025-55182(在新視窗中開啟))。他的目標,是評估模型在實際漏洞研究情境中能提供多大程度的協助。
他起初嘗試以零範例分析的方式,要求模型審視修補程式並找出所修補的漏洞。當這種方法未能得出結果後,他便改用較高頻、反覆迭代的提示方式進行分析。不過這些方法都不太成功,於是他引導 Codex 執行標準的防禦性安全工作流程,包括建立本地測試環境、推理潛在攻擊面,並使用模糊測試以異常輸入來探測系統。在嘗試重現 React2Shell 問題時,Codex 發現了一些非預期行為,需要進行更深入的調查。短短一週內,此流程成功找出了先前未知的漏洞,且已遵循負責任原則向 React 團隊揭露。
這說明先進的 AI 系統,確實能在廣泛使用的真實世界軟體中,大幅加快防禦性安全工作的進展。同時,幫助防禦者更快行動的能力也可能被惡意行為者濫用。
隨著代理型系統在資安相關任務上的能力持續提升,我們將確保這些進展以負責任的方式落地,並列為核心優先事項來推動,每一次能力成長,都會同步搭配更完善的防護措施、更嚴謹的存取控管,並且會與安全社群持續合作。
在進行威脅行為模擬、惡意程式分析、或對關鍵基礎設施進行壓力測試時,安全團隊往往會受到工具或權限限制。我們正在發展一項可信存取試點計畫,可為符合資格的使用者與組織消除這些限制,讓可信的防禦人員得以運用前沿 AI 的網路安全能力,加快網路防禦工作。
在初期階段,該試點計畫將採邀請制,僅開放給具備負責任漏洞揭露良好紀錄的安全專業人士,以及擁有明確專業網路安全使用案例的組織。符合資格的參與者將可使用我們能力最強的模型,應用於防禦相關情境,以支援正當的雙重用途工作。
如果你是從事漏洞研究或經授權紅隊測試等倫理安全工作的安全專業人士,或者是相關機構成員,歡迎由此(在新視窗中開啟)表達加入計畫的意願,並分享你希望這項計畫能提供哪些內容。
GPT‑5.2‑Codex 代表了先進 AI 在支援真實世界軟體工程與網路安全等專門領域邁進一步,協助開發者與防禦人員應對複雜、長期的挑戰,同時也強化了負責任安全研究所需的工具。
透過循序推出 GPT‑5.2‑Codex、配合部署加強保障措施,並透過與安全社群緊密合作,我們期望在降低濫用風險的同時,發揮最大的防禦成效。隨著軟體與網路安全的前沿繼續演進,我們會根據這次發布累積的經驗,決定接下來如何一步步擴大存取範圍。


