跳到主要內容
OpenAI

2025年12月18日

產品發佈公司

GPT‑5.2‑Codex 登場

最先進的代理編碼模型,專為專業軟件工程與防禦性網絡安全而設。

今天,我們正式推出 GPT‑5.2‑Codex,這是目前最先進的代理編碼模型,專為應對複雜、真實世界的軟件工程需求而設。GPT‑5.2‑Codex 是 GPT‑5.2 的一個特別版本,進一步針對 Codex 中的代理編碼場景進行優化,包括透過上下文壓縮提升長時間工作的表現、加強大型程式碼變更(如重構與遷移)方面的能力、改善在 Windows 環境下的表現,以及大幅提升網絡安全相關能力。

隨着模型在智能前沿持續進步,我們亦觀察到,這些提升同樣帶動了在特定領域(例如網絡安全)的能力躍升。舉例而言,就在上星期,一名安全研究人員在使用 GPT‑5.1‑Codex‑Max 配合 Codex CLI 時,發現並負責任地披露(在新視窗中開啟)了 React 中一個安全漏洞,相關漏洞可能導致原始碼外洩。

GPT‑5.2‑Codex 在網絡安全方面的能力,較我們以往發佈的任何模型都更為強大。這些進展有助大規模地加強網絡安全,但同時亦帶來新的「雙重用途」風險,需要審慎部署。雖然在我們的《防範應對架構》下,GPT‑5.2‑Codex 尚未達到「高」級別的網絡安全能力,但我們在設計部署策略時,已充分考慮未來能力持續提升的情況。

我們今天在所有 Codex 平台中,向付費的 ChatGPT 用戶推出 GPT‑5.2‑Codex,並正著手在未來數週內,逐步並安全地向 API 用戶開放 GPT‑5.2‑Codex。同時,我們正在試行一項僅限受邀的計劃,讓專注於防禦性網絡安全工作的經審核專業人士及機構,率先使用即將推出的新功能及限制較少的模型。我們相信,這種部署方式能在可用性與安全之間取得適當平衡。

推動真實世界軟件工程的前沿

PT-5.2-Codex 建基於 GPT‑5.2 在專業知識工作的優勢,以及 GPT‑5.1‑Codex‑Max 在前沿代理編碼與終端操作方面的能力。透過更強的長上下文理解、可靠的工具調用、提升事實準確度,以及原生的情境壓縮能力,GPT‑5.2‑Codex 現在執行長時間編碼任務時更加可靠,同時能在推理過程中保持良好的 token 使用效率。

在 SWE-Bench Pro 和 Terminal-Bench 2.0 這兩項基準測試中,GPT‑5.2‑Codex 均達到業界領先水平。這些測試專為評估代理在真實終端環境中,處理多元任務的能力而設。 與此同時,GPT‑5.2‑Codex 在原生 Windows 環境中的代理編碼表現亦更高效和更穩定,在 GPT‑5.1‑Codex‑Max 的能力基礎上進一步提升。

隨着這些改進,Codex 在處理大型程式碼庫及長時間工作時,能完整保留所有上下文,整體能力亦進一步提升。它可更穩定地完成大型重構、程式碼遷移和功能開發等複雜任務,即使計劃有所調整或過程中出現失誤,也能持續反覆優化而不會失去進度。

SWE-Bench Pro 中,模型可使用一個程式碼儲存庫,並必須生成一個修補程式來解決真實的軟件工程任務。Terminal-Bench 2.0 是一項用於測試 AI 智能代理在真實終端環境中表現的基準測試。任務內容包括編譯程式碼、訓練模型,以及設置伺服器。

在視覺理解方面,GPT‑5.2‑Codex 亦有顯著提升,能更準確解讀編碼過程中分享的螢幕截圖、技術示意圖、圖表及使用者介面內容。

Codex 可將設計模型快速轉換成可運作的原型,而你亦可與 Codex 協作,將這些原型進一步發展並部署到正式環境。

設計模型
用於透過 Codex-5.2 生成網頁原型的設計模型
由 GPT‑5.2‑Codex 生成的原型

推進網絡安全前沿

回顧我們其中一項網絡安全評估的歷年表現,可以看到模型能力自 GPT‑5‑Codex 起出現明顯提升,其後在 GPT‑5.1‑Codex‑Max 再有一次大幅躍升,並於 GPT‑5.2‑Codex 上第三度提高。我們預期,未來推出的 AI 模型將持續沿着這個軌跡發展。因此,在相關準備工作中,我們在規劃與評估時,已假設每一代新模型都有可能達到我們《防範應對架構(在新視窗中開啟)》所界定的「高」級別網絡安全能力。雖然 GPT‑5.2‑Codex 目前尚未達到「高」級別的網絡能力,但我們正為未來可能跨越該門檻的模型作好準備。鑑於網絡相關能力有所提升,我們已在模型及產品層面加入額外的安全防護措施,相關內容已在系統說明卡中說明。

專業奪旗(CTF)評估用以衡量模型在 Linux 環境中,解決需要專業級網絡安全技能、且包含多個步驟的真實世界進階挑戰的能力。

真實世界的網絡安全能力

現代社會高度依賴軟件運作,而軟件是否穩定可靠,就取決於強健的網絡安全架構。網絡安全能確保銀行、醫療、通訊和各類關鍵服務系統能持續運作,保障敏感資料安全,並讓大眾能信任日常所使用的軟件。事實上,不少安全漏洞在被察覺前已潛藏多時,而發現、驗證和修補漏洞,往往有賴工程師與獨立安全研究員社群的努力,同時需要有合適工具支援。

2025 年 12 月 11 日,React 團隊發佈了三個安全漏洞,會對使用 React Server Components 構建的應用程式做成影響。這次披露之所以備受關注,不僅因為漏洞本身,更因為發現漏洞的過程。

Privy(Stripe 旗下公司)的首席安全工程師 Andrew MacPherson,當時正使用 GPT‑5.1‑Codex‑Max 配合 Codex CLI 及其他代理編碼工具,重現並分析前一星期披露的一個重大 React 漏洞:React2Shell(在新視窗中開啟) (CVE-2025-55182(在新視窗中開啟))。他的目標,是評估模型在實際漏洞研究場景中的輔助能力。

他起初嘗試以零範例分析的方式,要求模型審視修補程式並找出所修補的漏洞。當這種方法未能得出結果後,他便改用較高頻、反覆迭代的提示方式進行分析。不過這些方法都不太成功,於是他引導 Codex 依循標準的防禦性安全工作流程,包括建立本地測試環境、分析潛在攻擊面,以及透過模糊測試以異常輸入來探測系統行為。當嘗試重現原來的 React2Shell 問題時,Codex 發現了一些非預期行為,需要進行更深入的調查。最終,在短短一星期內,這個流程成功找出之前未知的漏洞,並已透過負責任方式向 React 團隊披露。

標題為「使用 Codex 進行漏洞發現:CVE-2025-55183」的流程圖,展示一個由 Git 程式庫開始、由 Codex 掃瞄程式碼找出漏洞的工作流程。流程先進行一次零範例嘗試,在失敗之後則改為由專家引導的步驟:審視程式碼庫、識別可能的目標、建立測試框架,並針對示例應用程式進行模糊測試及重新驗證。結果經核實後製作概念驗證 (PoC),再進行負責任披露,並推出修補程式,最後將修補程式套用至程式庫。

這顯示先進 AI 系統能在真實世界軟件中,實質加快防禦性安全工作的進度;同時,能協助防禦人員加快行動的能力,也有可能被不法分子濫用。

因此,隨着代理系統在網絡安全相關任務中的能力持續提升,我們已將負責任部署列為核心優先事項。我們會確保每次能力提升,均配合更嚴密的保障措施、更嚴格的存取控制,以及與安全社群的持續合作。

透過可信存取強化網絡防禦

在進行威脅行為模擬、惡意程式分析、或對關鍵基礎設施進行壓力測試時,安全團隊往往會受到工具或權限限制。我們正在發展一個可信存取試點計劃,為符合資格的用戶及機構消除這些限制,讓可信的防禦人員能運用前沿的 AI 網絡安全能力,加快網絡防禦工作。

在初期階段,該試點計劃將以邀請方式推行,對象為經審核、具備良好負責任漏洞披露紀錄的安全專業人士,以及有明確專業網絡安全應用需求的機構。符合資格的參與者將可使用我們能力最強的模型,用於防禦相關的應用場景,以支援正當的雙重用途工作。

如果你是從事漏洞研究或經授權紅隊測試等道德安全工作的安全專業人士,或者是相關機構成員,歡迎你表達加入計劃的意願,並在此(在新視窗中開啟)分享你對計劃內容的意見與期望。

結論

GPT‑5.2‑Codex 標誌着先進 AI 在支援真實世界軟件工程與網絡安全等專門領域邁進一步,協助開發人員與防禦人員應對長期而複雜的挑戰,同時加強負責任安全研究的工具。

透過循序推出 GPT‑5.2‑Codex、配合部署加強保障措施,並透過與安全社群緊密合作,我們期望在降低濫用風險的同時,發揮最大的防禦成效。我們從是次發佈所累積的經驗,將直接影響日後如何逐步擴展存取安排,並配合軟件與網絡安全前沿的持續發展。

作者

OpenAI