2025年10月29日

技術報告

gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 的效能和基準評估

簡介

gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 是經過 gpt-oss 模型後訓練的兩個開放權重推理模型，在訓練之後，能夠根據既定政策進行推理，以便根據該政策標記內容。它們乃是根據 Apache 2.0 授權和我們的 gpt-oss 使用政策提供使用。這些純文字模型是根據開放原始碼社群的回饋而開發，與我們的回應 API 相容。這些模型可供自訂，提供完整的思路鏈 (CoT)，可用於不同的推理強度 (低、中、高)，並支援結構化輸出。

我們在這份報告中描述 gpt-oss-safeguard 的功能，並以底層 gpt-oss 模型為基準，對 gpt-oss-safeguard 模型進行基準安全評估。請參閱原始 gpt-oss 模型模型卡⁠以了解關於底層 gpt-oss 模型的開發和架構的更多資訊。

我們建議使用這些模型根據既定政策來將內容分類，而不是作為使用者互動的核心功能；原始的 gpt-oss 模型比較適合這些應用場合。下面提供的安全指標描述 gpt-oss-safeguard 模型在聊天環境中的功能。gpt-oss-safeguard 模型的設計並不適合這種用途，但由於它們是開放模型，因此有人可能會以這種方式使用這些模型。鑑於這種可能性，我們希望驗證它們在這種用法中也符合我們的安全標準；這份報告即是分享這些測試的結果。我們也分享聊天環境中多語言表現的初步評估；請注意，並沒有直接評估使用既定政策進行內容分類時的表現。

gpt-oss-safeguard 模型是其 gpt-oss 對應模型的微調版本，並且沒有使用任何額外的生物或網路安全資料進行訓練。因此，我們確定先前從 gpt-oss 版本交叉中估計最壞情況⁠的工作適用於這些新模型。

2025 年

作者

OpenAI

繼續閱讀

檢視全部

隆重介紹 gpt-oss-safeguard

產品2025年10月29日

gpt-oss-120b 與 gpt-oss-20b 模型卡

研究發表2025年8月5日

隆重介紹 gpt-oss

發布2025年8月5日