GPT‑5.1‑Codex‑Max 登場,我們全新推出的前沿代理編碼模型,現已在 Codex 上線。GPT‑5.1‑Codex‑Max 的底層推理模型已更新,並經過軟件工程、數學、研究等多元代理任務訓練。PT-5.1-Codex-Max 在開發週期各階段具備更高速度、更強推理能力,以及更佳的 Token 使用效率,是邁向可靠編碼夥伴的重要一步。
GPT‑5.1‑Codex‑Max 專為處理長時間且細節繁多的工作流程而設計。這是我們首款原生訓練、能透過壓縮流程 (compaction) 跨越多個上下文視窗運作的模型,可在單一任務中一致地處理數百萬個 Token。此能力支援項目層級重構、深入除錯流程,以及長達數小時的代理循環。
GPT‑5.1‑Codex‑Max 現已可在 Codex 中使用,支援 CLI、IDE 擴充套件、雲端與程式碼審查,API 存取亦即將推出。
GPT‑5.1‑Codex‑Max 的訓練來源是真實軟件工程任務,例如 PR 建立、程式碼審查、前端編碼與問答,在多項前沿編碼評測中均優於我們以往的模型。基準測試的改進也反映在實際使用上:GPT‑5.1‑Codex‑Max 是我們首個可在 Windows 環境下運作的模型,而訓練內容也加入了有助提升模型在 Codex CLI 中協作表現的任務。
* 所有評估皆在「Extra High」推理強度下啟用壓縮運行
* Terminal-Bench 2.0 則使用 Codex CLI,並在 Laude Institute Harbor harness(在新視窗中開啟) 中執行
GPT‑5.1‑Codex‑Max 的推理更高效,因此 Token 使用效率大幅提升。在 SWE-Bench Verified 測試集中,GPT‑5.1‑Codex‑Max 在「medium」推理強度下的表現優於 GPT‑5.1‑Codex,在相同推理強度下所需的思考 Token 則減少了 30%。對於非延遲敏感任務,我們亦推出全新的 Extra High(「xhigh」)推理強度,可思考更長時間以提供更佳答案。我們仍建議大多數任務日常使用「medium」推理強度。
Token 使用效率提升後,開發者的成本支出預期會實際下降。
例如,GPT‑5.1‑Codex‑Max 能產出具相似功能與美感的高品質前端設計,但成本遠低於 GPT‑5.1‑Codex。
提示詞:Generate a single self-contained browser app that renders an interactive CartPole RL sandbox with canvas graphics, a tiny policy-gradient controller, metrics, and an SVG network visualizer.
功能
Must be able to actually train a policy to make model better at cart poleVisualizer for the activations/weights when the model is training or at inferenceSteps in the episode, rewards this episodeLast survival time and best survival time in steps
Save to index.html
壓縮流程讓 GPT‑5.1‑Codex‑Max 能完成過去因上下文視窗限制而無法處理的任務,例如複雜重構與長時間代理循環。模型會修剪歷程,並保留長期推理所需的重要上下文。在 Codex 應用程式中,GPT‑5.1‑Codex‑Max 會在工作階段接近上下文視窗上限時自動進行壓縮,取得新的上下文視窗以繼續處理任務。此流程會重複進行,直至任務完成。
能夠長時間維持連貫工作,是邁向更通用且更可靠人工智能系統的基礎能力。GPT‑5.1‑Codex‑Max 能獨立運作長達數小時。在內部評估中,我們觀察到 GPT‑5.1‑Codex‑Max 可持續處理任務超過 24 小時。模型會不斷改進實作、修正測試錯誤,最終成功完成任務。
在此示例中,GPT‑5.1‑Codex‑Max 正在獨立重構 Codex CLI 開源儲存庫。
當工作階段接近模型的上下文視窗上限時,系統會自動進行壓縮以釋放空間,讓任務能繼續執行而不會失去進度。
影片已經過剪輯並加速,令內容呈現更清晰。
GPT‑5.1‑Codex‑Max 在需要長時間推理的評測中表現特別突出。由於模型能透過壓縮在多個上下文視窗中保持連貫運作,因此在長期編碼與網絡安全等挑戰中表現更佳。我們在 GPT‑5.1‑Codex‑Max 的系統說明卡中分析了模型於第一方及第三方評估中的表現。
在我們的整備框架下,GPT‑5.1‑Codex‑Max 在網絡安全領域尚未達到「高能力」級別,但已是我們迄今部署過最強的保安模型,而代理相關能力亦在快速提升。因此,我們正為更高階網絡安全能力作準備,並加強在保安層面的相關措施,同時透過 Aardvark 等計劃,確保防禦方能實際受惠於這些更強大的能力。
推出 GPT‑5‑Codex 時,我們引入了專門的網絡安全監控機制,用以偵測及阻斷惡意行為。雖然我們尚未觀察到大規模濫用明顯增加,但我們正準備因應更高階模型能力的額外防護措施。我們的團隊已成功阻斷企圖濫用模型的網絡行動,而可疑活動會透過政策監控系統進行審查。
Codex 預設在安全沙盒中運行:檔案寫入僅限於工作區,且除非開發者手動啟用,否則網絡存取維持關閉。我們建議維持 Codex 在此受限模式下運行,因為啟用網絡或網頁搜尋可能引入來自不可信內容的提示詞注入風險。
隨著 Codex 更能處理長時間任務,開發者在變更設定或部署至生產環境前,更需要先審查代理的輸出。為協助審查,Codex 會輸出終端機日誌,並標示其工具呼叫及測試結果。雖然 Codex 的程式碼審查能降低模型或人為錯誤被部署到生產環境的風險,但開發者應將其視為輔助審查工具,無法完全取代人為審查。
網絡安全能力既可用於防禦,也可能用於攻擊,因此我們採取循序部署方式:從實際使用中持續學習、更新保護措施,並保留自動化漏洞掃描及修補協助等重要防禦工具。
GPT‑5.1‑Codex‑Max 可在 Codex 中使用,並適用於 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 計劃。若要了解各計劃的使用限制,請參閱我們的說明文件(在新視窗中開啟)。
透過 API 金鑰使用 Codex CLI 的開發者將可於稍後在 API 中使用 GPT‑5.1‑Codex‑Max。
即日起,GPT‑5.1‑Codex‑Max 會取代 GPT‑5.1‑Codex,成為 Codex 介面的預設模型。GPT‑5.1 屬於通用模型;相較之下,我們建議僅在 Codex 或類似環境中,將 GPT‑5.1‑Codex‑Max 與 Codex 系列模型用於代理式編碼任務。
GPT‑5.1‑Codex‑Max 展現了模型在長期編碼任務、複雜流程管理,以及以更少 Token 生成高品質實作等方面的明顯進展。模型結合持續升級的 CLI、IDE 擴充套件、雲端整合及程式碼檢視工具後,工程產能大幅提升。OpenAI 內部有 95% 的工程師每週使用 Codex,而引入 Codex 後,他們提交的 PR 數量增加約 70%。隨著代理能力的極限不斷拓展,我們也期待看到開發者運用代理所打造的成果。
GPT‑5.1‑Codex (high) | GPT‑5.1‑Codex‑Max (xhigh) | |
SWE-Bench Verified 測試集 (n=500) | 73.7% | 77.9% |
SWE-Lancer IC SWE | 66.3% | 79.9% |
Terminal-Bench 2.0 | 52.8% | 58.1% |


