今日,我們推出 GPT‑5.3‑Codex‑Spark 的研究預覽版本。這是一個較小型的 GPT‑5.3‑Codex 版本,也是我們首個專為即時編碼而設計的模型。Codex-Spark 亦標誌著我們與 Cerebras 於今年一月公佈合作後的首個里程碑。Codex-Spark 針對超低延遲硬件進行最佳化,帶來接近即時的體驗,在保持應付真實世界編碼任務所需能力的同時,生成速度可超過每秒 1,000 個 Token。
我們正透過 Cerebras 以研究預覽形式向 ChatGPT Pro 用戶提供 Codex-Spark,讓開發人員可以及早開始試驗;同時,我們正與 Cerebras 合作,逐步擴充資料中心的處理能力、增強端到端體驗,並部署更大型的前沿模型。
我們最新的前沿模型在處理長時間任務方面表現尤為突出,能在無需介入的情況下,自主運作數小時、數天甚至數星期。Codex-Spark 是首個專為配合 Codex 即時協作而設計的模型,讓開發人員可以即時進行精準修改、重塑邏輯或微調介面,同時可以立即看到成果。隨著推出 Codex-Spark,Codex 現可支援長期執行的大型複雜項目,亦能即時完成當下工作的需求。我們期望透過從開發人員的實際使用方式中汲取經驗,持續收集意見,並在未來逐步擴展使用範圍。
在推出初期,Codex-Spark 提供 128k 上下文視窗,並僅支援文字輸入。在研究預覽期間,Codex-Spark 將設有獨立的速率限制,其使用量亦不會計入標準速率限制。但在需求較高時,為了維持各用戶間的整體可靠性,系統可能會出現存取受限或暫時排隊的情況。
Codex-Spark 專為同時重視延遲表現與模型智能的互動式工作而最佳化;你可以與模型實時協作,在模型執行期間隨時中斷或重新引導方向,並以近乎即時的回應快速反覆調整。由於針對速度而調校,Codex-Spark 的預設工作方式保持輕量化:只會進行最少且精準的修改,亦不會在未經要求下自動執行測試。
Codex-Spark 是一款以高速推論為核心的小型高效模型。在評估代理式軟件工程能力的兩項基準測試 SWE-Bench Pro 與 Terminal-Bench 2.0 中,GPT‑5.3‑Codex‑Spark 展現出強勁表現,並能以較 GPT‑5.3‑Codex 大幅縮短的時間完成任務。
持續時間的估算由以下各項總和組成:(1)輸出生成時間(輸出 Token ÷ 取樣速度)、(2)預填時間(預填 Token ÷ 預填速度)、(3)工具執行總時間,以及(4)整體網絡開銷。
隨著訓練 Codex-Spark,我們也逐漸意識到模型速度只是即時協作的一部分;要真正提升體驗,亦必須降低整個請求與回覆流程的延遲。因此,我們實施了端到端的延遲改善,讓所有模型均能受惠。在底層技術上,我們簡化了回覆由客戶端傳送至伺服器再返回的串流流程,重寫推論堆疊中的關鍵組件,並改良工作階段初始化方式,令首個可見 Token 更快出現,並確保 Codex 在反覆迭代時保持流暢回應。透過引入持續性的 WebSocket 連接,以及在 Responses API 內進行針對性的最佳化,我們將每次客戶端與伺服器往返的額外負擔降低 80%,每個 Token 的開銷減少 30%,首個 Token 出現時間亦縮短 50%。WebSocket 路徑已預設為 Codex-Spark 啟用,並將於不久後成為所有模型的預設設定。
Codex-Spark 於 Cerebras 的 Wafer Scale Engine 3(在新視窗中開啟) 上運行,這是一款專為高速推論而設計的 AI 加速器,為 Codex 提供以低延遲為優先的服務層。我們與 Cerebras 合作,將這條低延遲路徑整合至與現有模型相同的生產級服務架構中,讓工作流程能在 Codex 內無縫運作,同時為未來模型的支援奠定基礎。
「對於 GPT-5.3-Codex-Spark,最令我們感到振奮的是能與 OpenAI 以及開發人員社群攜手探索高速推論所帶來的全新可能,包括嶄新的互動模式、全新的應用場景,以及截然不同的模型體驗。而這個預覽版本只是個起步點。」
GPU 仍然是我們訓練與推論流程中的核心基石,並能以最具成本效益的方式提供大規模使用所需的 Token;而 Cerebras 則在需要極低延遲的工作流程中發揮互補優勢,進一步縮短端到端回應時間,讓你在反覆迭代時感受到更即時的回應。GPU 與 Cerebras 可結合用於同一工作負載,以達至最佳效能。
今日起,Codex-Spark 會在最新版本的 Codex 應用程式、CLI 以及 VS Code 擴充功能中,以研究預覽形式逐步向 ChatGPT Pro 用戶推出。由於模型在專門的低延遲硬件上運行,使用量將採用獨立的速率限制,並可能在研究預覽期間因應需求而調整。同時,我們亦會透過 API 向少量設計合作夥伴開放 Codex-Spark,以了解開發人員如何將其整合到自家產品之中。未來數星期內,我們會在真實工作負載下持續提升整合體驗,並逐步擴展使用範圍。
目前,Codex-Spark 僅支援文字輸入,提供 128k 上下文視窗,亦是超高速模型系列中的首個成員。隨著我們與開發人員社群進一步探索高速模型在編碼場景中的最佳應用,我們將持續推出更多能力,包括較大型的模型、更長的上下文長度,以及多模態輸入支援。
Codex-Spark 採用與我們主線模型相同的安全訓練,包括與網絡安全相關的專門訓練。我們亦按照標準部署流程對 Codex-Spark 進行評估,涵蓋網絡安全及其他能力的基準測試,並確認模型未有合理可能達到我們防範應對架構中網絡安全或生物學「高能力」級別的門檻。
Codex-Spark 是邁向雙模式 Codex 的第一步:一方面支援長期推理與執行,另一方面提供即時協作以加快迭代。隨著未來發展,這兩種模式將會逐步融合:Codex 可以在保持緊密互動節奏的同時,將較長時間運行的工作交由背景中的子代理處理,或在需要更高廣度與速度時,將任務分散至多個模型並行執行,讓你毋須事先只選擇單一模式。
隨著模型能力持續提升,互動速度正逐漸成為明顯的瓶頸。超高速推論能令整體迭代循環更加緊密,Codex 的使用體驗亦更自然流暢,並進一步拓展把想法轉化為可運行軟件的可能性。


