我們推出 gpt-oss-120b 與 gpt-oss-20b,這兩款開放權重推理模型可依據 Apache 2.0 授權與 gpt-oss 使用政策使用。這些純文字模型是在開源社群回饋下開發,可與我們的 Responses API 相容,並設計用於代理式工作流程,具備強大的指令遵循、工具使用(如網頁搜尋與 Python 程式碼執行)及推理能力——包括可針對不需複雜推理的任務調整推理力度的能力。模型可自訂,支援完整 Chain-of-Thought(CoT)並可輸出結構化結果。
安全性是我們開放模型方法的基礎。相較於專有模型,它們展現不同的風險特性:一旦發佈,決心堅定的攻擊者可能會對其進行微調以繞過安全拒絕,或直接將其優化以造成危害,而 OpenAI 將無法再採取額外緩解措施或撤銷存取權。
在某些場合,開發者和企業須實施額外的防護措施,以複製透過我們的 API 與產品提供的模型中內建的系統層級保護。我們將此文件稱為「模型卡」,而非「系統卡」,因為 gpt-oss 模型將被各類利益相關者建立並維護的各種系統所使用。雖然這些模型預設遵循 OpenAI 的安全政策,但其他利益相關者也會就如何保持這些系統安全做出並執行自己的決策。
我們對 gpt-oss-120b 進行了可擴充的能力評估,並確認預設模型在我們 Preparedness Framework 所追蹤的三大類別(Biological and Chemical capability、Cyber capability 與 AI Self-Improvement)中皆未達到高能力的指標門檻。我們亦探討兩個額外問題:
- 惡意行為者是否可以透過微調 gpt-oss-120b,使其在 Biological and Chemical 或 Cyber 領域達到 High capability?透過模擬攻擊者的潛在行動,我們對 gpt-oss-120b 在這兩類場景進行對抗式微調。OpenAI 安全諮詢小組(「SAG」)檢視了這些測試並確認,即使使用 OpenAI 領先業界的 training stack 進行全面微調,gpt-oss-120b 仍未能在 Biological and Chemical Risk 或 Cyber risk 領域達到 High capability。
- 發佈 gpt-oss-120b 是否會顯著推動開放基礎模型在生物能力方面的前沿?我們的結論是:否。在大多數評估中,某些現有開源模型的預設效能幾乎可比擬經對抗性微調的 gpt-oss-120b 的效能。
作為此版本發佈的一部分,OpenAI 再次確認其推動有益 AI 並提升整體生態系統安全標準的承諾。


