gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 是經過 gpt-oss 模型後訓練的兩個開放權重推理模型,在訓練之後,能夠根據既定政策進行推理,以便根據該政策標記內容。它們乃是根據 Apache 2.0 授權和我們的 gpt-oss 使用政策提供使用。這些純文字模型是根據開放原始碼社群的回饋而開發,與我們的回應 API 相容。這些模型可供自訂,提供完整的思路鏈 (CoT),可用於不同的推理強度 (低、中、高),並支援結構化輸出。
我們在這份報告中描述 gpt-oss-safeguard 的功能,並以底層 gpt-oss 模型為基準,對 gpt-oss-safeguard 模型進行基準安全評估。請參閱原始 gpt-oss 模型模型卡以了解關於底層 gpt-oss 模型的開發和架構的更多資訊。
我們建議使用這些模型根據既定政策來將內容分類,而不是作為使用者互動的核心功能;原始的 gpt-oss 模型比較適合這些應用場合。下面提供的安全指標描述 gpt-oss-safeguard 模型在聊天環境中的功能。gpt-oss-safeguard 模型的設計並不適合這種用途,但由於它們是開放模型,因此有人可能會以這種方式使用這些模型。鑑於這種可能性,我們希望驗證它們在這種用法中也符合我們的安全標準;這份報告即是分享這些測試的結果。我們也分享聊天環境中多語言表現的初步評估;請注意,並沒有直接評估使用既定政策進行內容分類時的表現。
gpt-oss-safeguard 模型是其 gpt-oss 對應模型的微調版本,並且沒有使用任何額外的生物或網路安全資料進行訓練。因此,我們確定先前從 gpt-oss 版本交叉中估計最壞情況的工作適用於這些新模型。
作者
OpenAI

