2025年10月29日

技術報告

gpt-oss-safeguard-120b 與 gpt-oss-safeguard-20b 的表現和基準評估

簡介

gpt-oss-safeguard-120b 與 gpt-oss-safeguard-20b 是兩個開放權重推理模型，由 gpt-oss 模型進行後期訓練而成，經訓練後能根據既定政策進行推理，以便依據該政策為內容加上標籤。它們採用 Apache 2.0 授權條款，並遵循我們的 gpt-oss 使用政策。這些純文字模型是在開源社群的反饋下開發而成的，與我們的回覆 API 兼容。這些模型是可自訂的，提供完整的思維鏈 (CoT，Chain-of-Thought)，可用於不同的推理程度（低、中、高），並支援結構化輸出。

在本報告中，我們描述了 gpt-oss-safeguard 的能力，並提供我們對 gpt-oss-safeguard 模型的基準安全性評估，使用底層的 gpt-oss 模型作為基準。如需更多關於底層 gpt-oss 模型的開發和架構資訊，請參閱原始 gpt-oss 模型的模型卡⁠。

我們建議使用這些模型來根據既定的政策對內容進行分類，而不是作為終端用戶互動的核心功能；對於那些應用場景，原始的 gpt-oss 模型會更適合。以下提供的安全性指標描述了 gpt-oss-safeguard 模型於聊天場景中的運作機制。gpt-oss-safeguard 模型並非用於此種用途，但由於它們是開源模型，因此有人可能會以這種方式使用這些模型。鑑於這種可能性，我們希望驗證它們在這種用法下是否符合我們的安全標準；本報告分享了這些測試的結果。我們還分享了在聊天設定中多語言表現的初步評估；請注意，這並非直接評估在既定政策下內容分類的表現。

gpt-oss-safeguard 模型是 gpt-oss 系列的微調模型，並未加入任何額外的生物學或網絡安全資料進行訓練。因此，我們認為先前對 gpt-oss 發行版本進行的最壞情況估算⁠，同樣適用於這些新模型。

2025

作者

OpenAI

繼續閲讀

查看全部

介紹 gpt-oss-safeguard

產品2025年10月29日

gpt‑oss‑120b 與 gpt‑oss‑20b 模型卡

發佈2025年8月5日

gpt-oss 登場

發佈2025年8月5日