2025年11月19日

以 GPT‑5.1‑Codex‑Max 建構更多可能

載入中…

簡介

GPT‑5.1‑Codex‑Max 登場，我們全新推出前沿編碼代理模型，現已在 Codex 上線。GPT‑5.1‑Codex‑Max 的底層推理模型已升級，該模型經過軟體工程、數學、研究等多元代理任務的訓練。GPT‑5.1‑Codex‑Max 在開發週期的每個階段都具備更高速度、更強推理能力與更佳的 Token 使用效率，成為你寫程式時更可靠的搭檔。

GPT‑5.1‑Codex‑Max 專為長時間且細節繁多的工作流程所打造。這是我們首款原生訓練、能透過壓縮處理流程 (compaction) 跨越多個上下文視窗運作的模型，可在單一任務中協調處理數百萬個 Token。這項能力讓模型能執行專案層級重構、進行深入的除錯流程，並持續運作長達數小時的代理循環。

GPT‑5.1‑Codex‑Max 現已可在 Codex 中使用，支援 CLI、IDE 擴充套件、雲端與程式碼審查，API 存取亦即將推出。

前沿編碼能力

GPT‑5.1‑Codex‑Max 的訓練內容來自真實的軟體工程任務，例如 PR 建立、程式碼審查、前端編碼和問答等，在多項前沿編碼評測中超越我們以往的模型。基準測試的提升也反映在實際應用上：GPT‑5.1‑Codex‑Max 是我們首款能在 Windows 環境運作的模型，且訓練內容已納入提升模型在 Codex CLI 中協作表現的相關任務。

* 所有評估皆啟用壓縮並以「Extra High」推理強度運行
* Terminal-Bench 2.0 則是在 Laude Institute Harbor harness⁠(在新視窗中開啟) 中，以 Codex CLI 執行

速度與成本

GPT‑5.1‑Codex‑Max 的推理更有效率，Token 使用效率因此隨之大幅提升。在 SWE-Bench Verified 測試集中，GPT‑5.1‑Codex‑Max 在「medium」推理強度下的表現優於 GPT‑5.1‑Codex。在相同推理強度下，思考 Token 的使用量減少 30%。對於非延遲敏感的任務，我們也推出全新的 Extra High（「xhigh」）推理強度，能進行更長時間的思考，提供更佳答案。我們仍建議大多數任務平常都選擇「medium」推理強度。

Token 使用效率提升後，開發者的成本支出應該會有感減少。

例如：GPT‑5.1‑Codex‑Max 能產出具備相似功能與美感的高品質前端設計，但成本遠低於 GPT‑5.1‑Codex。

提示詞：Generate a single self-contained browser app that renders an interactive CartPole RL sandbox with canvas graphics, a tiny policy-gradient controller, metrics, and an SVG network visualizer.

功能

Must be able to actually train a policy to make model better at cart pole
Visualizer for the activations/weights when the model is training or at inference
Steps in the episode, rewards this episode
Last survival time and best survival time in steps

Save to index.html

長時間運行任務

壓縮處理流程使 GPT‑5.1‑Codex‑Max 能完成過去因上下文視窗限制而失敗的任務，例如複雜重構與長時間代理循環。它會修剪歷程紀錄，同時保留長期推理所需的關鍵上下文。在 Codex 應用程式中，GPT‑5.1‑Codex‑Max 會在工作階段接近上下文視窗上限時自動執行壓縮，取得新的上下文視窗並繼續處理任務。這個流程會持續重複，直到任務完成。

在打造更通用、更可靠的 AI 系統過程中，長時間維持連貫運作正是關鍵能力。GPT‑5.1‑Codex‑Max 能獨立運作長達數小時。在內部評估中，我們觀察到 GPT‑5.1‑Codex‑Max 可持續處理任務超過 24 小時。它會不斷改進實作、修正測試錯誤，最終成功達成任務。

在此範例中，GPT‑5.1‑Codex‑Max 正在獨立重構 Codex CLI 開源儲存庫。

當工作階段接近模型的上下文視窗上限時，系統會自動壓縮工作階段來釋放空間，讓任務得以持續進行，不會丟失進度。

影片已經過剪輯並加速，使內容更清楚呈現。

打造安全可信賴的 AI 代理

GPT‑5.1‑Codex‑Max 在需要長時間、持續推理的各項評測中成果特別亮眼。模型能透過壓縮在多個上下文視窗中保持連貫運作，因此在長期編碼與資安等領域的挑戰中表現更佳。我們在 GPT‑5.1‑Codex‑Max 的系統說明卡⁠中，分析了模型在第一方與第三方評估中的表現結果。

在我們的整備架構⁠下，GPT‑5.1‑Codex‑Max 在資安領域尚未達到「高能力」標準，但已是我們迄今部署過最強的資安模型，且代理型資安能力正快速提升。因此，我們正著手為更高階的資安能力做好準備，並持續加強在資安領域的防護措施。同時，我們也努力確保防禦方能透過 Aardvark⁠ 等計畫，實際運用這些更強大的能力。

推出 GPT‑5‑Codex 時，我們部署了專門的資安監控機制，用來偵測並阻斷惡意活動。目前雖然尚未觀察到大規模濫用明顯增加，但我們已在準備因應更高階模型能力的額外防範措施。我們的團隊也曾成功阻斷企圖濫用模型的網路行動⁠，而可疑活動則會透過政策監管系統進行審查。

Codex 預設在安全沙盒中運行：檔案寫入僅限於其工作區，且除非開發者手動啟用，否則網路存取會保持關閉。我們建議將 Codex 維持在這種受限的運作模式，因為啟用網路或網頁搜尋，可能會招致來自不可信內容的提示詞注入⁠風險。

隨著 Codex 更能處理長時間任務，開發者在進行變更或部署到生產環境前，更需要先檢查代理程式的輸出。為了協助審查，Codex 會輸出終端機日誌，並附上工具呼叫與測試結果。雖然 Codex 的程式碼審查能降低將模型或人為錯誤部署到生產環境的風險，但模型仍只是審查輔助，無法完全取代人工審查。

資安能力既可用於防禦也可能用於攻擊，因此我們採取循序式部署方式：從實際使用中持續學習、更新防護措施，並保留自動化漏洞掃描與修補協助等重要防禦工具。

適用情況

GPT‑5.1‑Codex‑Max 現已可在 Codex 中使用，適用於 ChatGPT Plus、Pro、Business、Edu 與 Enterprise 方案。若要了解各方案的使用限制，請參閱我們的說明文件⁠(在新視窗中開啟)。

我們預計很快會在 API 中提供 GPT‑5.1‑Codex‑Max，適用於透過 API 金鑰使用 Codex CLI 的開發者。

即日起，GPT‑5.1‑Codex‑Max 取代原本的 GPT‑5.1‑Codex，成為 Codex 介面的預設模型。GPT‑5.1 屬於通用模型；相較之下，我們建議僅將 GPT‑5.1‑Codex‑Max 與 Codex 系列模型用於 Codex 或類似環境中的代理型編碼任務。

結論

GPT‑5.1‑Codex‑Max 展現了模型在長期編碼任務、複雜流程管理，以及以更少 Token 生成高品質實作等面向的明顯進步。模型與持續升級的 CLI、IDE 擴充套件、雲端整合以及程式碼審查工具相結合後，工程生產力激增。OpenAI 內部有 95% 的工程師每週使用 Codex，自從導入 Codex 後，他們提交的 PR 數量增加了約 70%。隨著我們持續挑戰代理程式的能力極限，也很期待看到開發者運用代理程式所交付的成果。

附錄：模型評估

	GPT‑5.1‑Codex (high)	GPT‑5.1‑Codex‑Max (xhigh)
SWE-bench Verified 測試集 (n=500)	73.7%	77.9%
SWE-Lancer IC SWE	66.3%	79.9%
Terminal-Bench 2.0	52.8%	58.1%

作者

OpenAI

繼續閱讀

檢視全部

以 GPT-5.6 推進價格效能前沿

產品2026年7月30日

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

公司2026年7月29日

ChatGPT 的「健康」功能登場

產品2026年7月23日