跳到主要內容
OpenAI

2025年8月5日

發佈安全

gpt‑oss‑120b 與 gpt‑oss‑20b 模型卡

簡介

我們推出兩個開放權重推理模型 gpt-oss-120b 及 gpt-oss-20b,可按 Apache 2.0 授權條款及我們的 gpt-oss 使用政策使用。這些純文字模型是在開源社群的意見下開發,與我們的 Responses API 相容,並設計用於代理式工作流程,具備強大的指令遵循、工具使用(例如網頁搜尋及執行 Python 程式碼)和推理能力,包括能為不需要複雜推理的任務調整推理力度的功能。模型可自訂,支援完整 Chain-of-Thought(CoT)並可輸出結構化結果。

安全性是我們開放模型方法的基石。相較於專有模型,它們展現不同的風險特性:一旦釋出,決心堅定的攻擊者或會對其進行微調以繞過安全拒絕,或直接將其優化以造成傷害,而 OpenAI 將無法再實施額外緩解措施或撤銷存取權。

在某些情形下,開發人員和企業需要實施額外的防護措施,以複製透過我們的 API 與產品提供的模型所內建的系統層級保護。我們把這份文件稱為「模型卡」,而非「系統卡」,因為 gpt-oss 模型將被各種利益相關者建立及維護的多種系統採用。雖然這些模型預設按照 OpenAI 的安全政策設計,但其他持份者亦會就如何保持系統安全作出並執行他們自己的決定。

我們對 gpt-oss-120b 進行了可擴展能力評估,並確認預設模型在我們 Preparedness Framework 所追蹤的三個類別(Biological and Chemical capability、Cyber capability 及 AI Self-Improvement)中都未達到高能力的指標閾值。我們亦探討兩個額外問題:

  • 惡意攻擊者能否透過微調 gpt-oss-120b,使其在 Biological and Chemical 或 Cyber 領域達到 High capability?透過模擬攻擊者的潛在行動,我們對 gpt-oss-120b 在這兩類場景進行對抗式微調。OpenAI 安全諮詢小組(「SAG」)審視了這次測試,並得出結論:即使利用 OpenAI 業界領先的 training stack 進行大幅度微調,gpt-oss-120b 亦未能在 Biological and Chemical Risk 或 Cyber risk 領域達到 High capability。
  • 發佈 gpt‑oss‑120b 是否會顯著推動開放基礎模型在生物能力方面的前沿?我們的結論是:否。在大多數評估中,一個或多個現有開源模型的預設效能幾乎與經對抗性微調的 gpt-oss-120b 相當。

作為此次推出的一部分,OpenAI 重新確認其推動有益 AI 發展及提升整個生態系統安全標準的承諾。