跳到主要內容
OpenAI

2025年10月29日

安全發佈

技術報告

gpt-oss-safeguard-120b 與 gpt-oss-safeguard-20b 的表現和基準評估

簡介

gpt-oss-safeguard-120b 與 gpt-oss-safeguard-20b 是兩個開放權重推理模型,由 gpt-oss 模型進行後期訓練而成,經訓練後能根據既定政策進行推理,以便依據該政策為內容加上標籤。它們採用 Apache 2.0 授權條款,並遵循我們的 gpt-oss 使用政策。這些純文字模型是在開源社群的反饋下開發而成的,與我們的回覆 API 兼容。這些模型是可自訂的,提供完整的思維鏈 (CoT,Chain-of-Thought),可用於不同的推理程度(低、中、高),並支援結構化輸出。

在本報告中,我們描述了 gpt-oss-safeguard 的能力,並提供我們對 gpt-oss-safeguard 模型的基準安全性評估,使用底層的 gpt-oss 模型作為基準。如需更多關於底層 gpt-oss 模型的開發和架構資訊,請參閱原始 gpt-oss 模型的模型卡

我們建議使用這些模型來根據既定的政策對內容進行分類,而不是作為終端用戶互動的核心功能;對於那些應用場景,原始的 gpt-oss 模型會更適合。以下提供的安全性指標描述了 gpt-oss-safeguard 模型於聊天場景中的運作機制。gpt-oss-safeguard 模型並非用於此種用途,但由於它們是開源模型,因此有人可能會以這種方式使用這些模型。鑑於這種可能性,我們希望驗證它們在這種用法下是否符合我們的安全標準;本報告分享了這些測試的結果。我們還分享了在聊天設定中多語言表現的初步評估;請注意,這並非直接評估在既定政策下內容分類的表現。

gpt-oss-safeguard 模型是 gpt-oss 系列的微調模型,並未加入任何額外的生物學或網絡安全資料進行訓練。因此,我們認為先前對 gpt-oss 發行版本進行的最壞情況估算,同樣適用於這些新模型。

作者

OpenAI