跳至主要內容
OpenAI

2025年11月19日

產品發布

以 GPT‑5.1‑Codex‑Max 建構更多可能

載入中…

簡介

GPT‑5.1‑Codex‑Max 登場,我們全新推出前沿編碼代理模型,現已在 Codex 上線。GPT‑5.1‑Codex‑Max 的底層推理模型已升級,該模型經過軟體工程、數學、研究等多元代理任務的訓練。GPT‑5.1‑Codex‑Max 在開發週期的每個階段都具備更高速度、更強推理能力與更佳的 Token 使用效率,成為你寫程式時更可靠的搭檔。

GPT‑5.1‑Codex‑Max 專為長時間且細節繁多的工作流程所打造。這是我們首款原生訓練、能透過壓縮處理流程 (compaction) 跨越多個上下文視窗運作的模型,可在單一任務中協調處理數百萬個 Token。這項能力讓模型能執行專案層級重構、進行深入的除錯流程,並持續運作長達數小時的代理循環。

GPT‑5.1‑Codex‑Max 現已可在 Codex 中使用,支援 CLI、IDE 擴充套件、雲端與程式碼審查,API 存取亦即將推出。

前沿編碼能力

GPT‑5.1‑Codex‑Max 的訓練內容來自真實的軟體工程任務,例如 PR 建立、程式碼審查、前端編碼和問答等,在多項前沿編碼評測中超越我們以往的模型。基準測試的提升也反映在實際應用上:GPT‑5.1‑Codex‑Max 是我們首款能在 Windows 環境運作的模型,且訓練內容已納入提升模型在 Codex CLI 中協作表現的相關任務。

* 所有評估皆啟用壓縮並以「Extra High」推理強度運行
* Terminal-Bench 2.0 則是在
Laude Institute Harbor harness(在新視窗中開啟) 中,以 Codex CLI 執行

速度與成本

GPT‑5.1‑Codex‑Max 的推理更有效率,Token 使用效率因此隨之大幅提升。在 SWE-Bench Verified 測試集中,GPT‑5.1‑Codex‑Max 在「medium」推理強度下的表現優於 GPT‑5.1‑Codex。在相同推理強度下,思考 Token 的使用量減少 30%。對於非延遲敏感的任務,我們也推出全新的 Extra High(「xhigh」)推理強度,能進行更長時間的思考,提供更佳答案。我們仍建議大多數任務平常都選擇「medium」推理強度。

Token 使用效率提升後,開發者的成本支出應該會有感減少。

例如:GPT‑5.1‑Codex‑Max 能產出具備相似功能與美感的高品質前端設計,但成本遠低於 GPT‑5.1‑Codex。

提示詞:Generate a single self-contained browser app that renders an interactive CartPole RL sandbox with canvas graphics, a tiny policy-gradient controller, metrics, and an SVG network visualizer.

功能

  • Must be able to actually train a policy to make model better at cart pole
  • Visualizer for the activations/weights when the model is training or at inference
  • Steps in the episode, rewards this episode
  • Last survival time and best survival time in steps

Save to index.html

長時間運行任務

壓縮處理流程使 GPT‑5.1‑Codex‑Max 能完成過去因上下文視窗限制而失敗的任務,例如複雜重構與長時間代理循環。它會修剪歷程紀錄,同時保留長期推理所需的關鍵上下文。在 Codex 應用程式中,GPT‑5.1‑Codex‑Max 會在工作階段接近上下文視窗上限時自動執行壓縮,取得新的上下文視窗並繼續處理任務。這個流程會持續重複,直到任務完成。

在打造更通用、更可靠的 AI 系統過程中,長時間維持連貫運作正是關鍵能力。GPT‑5.1‑Codex‑Max 能獨立運作長達數小時。在內部評估中,我們觀察到 GPT‑5.1‑Codex‑Max 可持續處理任務超過 24 小時。它會不斷改進實作、修正測試錯誤,最終成功達成任務。

在此範例中,GPT‑5.1‑Codex‑Max 正在獨立重構 Codex CLI 開源儲存庫。

當工作階段接近模型的上下文視窗上限時,系統會自動壓縮工作階段來釋放空間,讓任務得以持續進行,不會丟失進度。

影片已經過剪輯並加速,使內容更清楚呈現。

打造安全可信賴的 AI 代理

GPT‑5.1‑Codex‑Max 在需要長時間、持續推理的各項評測中成果特別亮眼。模型能透過壓縮在多個上下文視窗中保持連貫運作,因此在長期編碼與資安等領域的挑戰中表現更佳。我們在 GPT‑5.1‑Codex‑Max 的系統說明卡中,分析了模型在第一方與第三方評估中的表現結果。

在我們的整備架構下,GPT‑5.1‑Codex‑Max 在資安領域尚未達到「高能力」標準,但已是我們迄今部署過最強的資安模型,且代理型資安能力正快速提升。因此,我們正著手為更高階的資安能力做好準備,並持續加強在資安領域的防護措施。同時,我們也努力確保防禦方能透過 Aardvark 等計畫,實際運用這些更強大的能力。

推出 GPT‑5‑Codex 時,我們部署了專門的資安監控機制,用來偵測並阻斷惡意活動。目前雖然尚未觀察到大規模濫用明顯增加,但我們已在準備因應更高階模型能力的額外防範措施。我們的團隊也曾成功阻斷企圖濫用模型的網路行動,而可疑活動則會透過政策監管系統進行審查。

Codex 預設在安全沙盒中運行:檔案寫入僅限於其工作區,且除非開發者手動啟用,否則網路存取會保持關閉。我們建議將 Codex 維持在這種受限的運作模式,因為啟用網路或網頁搜尋,可能會招致來自不可信內容的提示詞注入風險。

隨著 Codex 更能處理長時間任務,開發者在進行變更或部署到生產環境前,更需要先檢查代理程式的輸出。為了協助審查,Codex 會輸出終端機日誌,並附上工具呼叫與測試結果。雖然 Codex 的程式碼審查能降低將模型或人為錯誤部署到生產環境的風險,但模型仍只是審查輔助,無法完全取代人工審查。

資安能力既可用於防禦也可能用於攻擊,因此我們採取循序式部署方式:從實際使用中持續學習、更新防護措施,並保留自動化漏洞掃描與修補協助等重要防禦工具。

適用情況

GPT‑5.1‑Codex‑Max 現已可在 Codex 中使用,適用於 ChatGPT Plus、Pro、Business、Edu 與 Enterprise 方案。若要了解各方案的使用限制,請參閱我們的說明文件(在新視窗中開啟)

我們預計很快會在 API 中提供 GPT‑5.1‑Codex‑Max,適用於透過 API 金鑰使用 Codex CLI 的開發者。

即日起,GPT‑5.1‑Codex‑Max 取代原本的 GPT‑5.1‑Codex,成為 Codex 介面的預設模型。GPT‑5.1 屬於通用模型;相較之下,我們建議僅將 GPT‑5.1‑Codex‑Max 與 Codex 系列模型用於 Codex 或類似環境中的代理型編碼任務。

結論

GPT‑5.1‑Codex‑Max 展現了模型在長期編碼任務、複雜流程管理,以及以更少 Token 生成高品質實作等面向的明顯進步。模型與持續升級的 CLI、IDE 擴充套件、雲端整合以及程式碼審查工具相結合後,工程生產力激增。OpenAI 內部有 95% 的工程師每週使用 Codex,自從導入 Codex 後,他們提交的 PR 數量增加了約 70%。隨著我們持續挑戰代理程式的能力極限,也很期待看到開發者運用代理程式所交付的成果。

附錄:模型評估

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Verified 測試集 (n=500)

73.7%

77.9%

SWE-Lancer IC SWE

66.3%

79.9%

Terminal-Bench 2.0

52.8%

58.1%

作者

OpenAI