跳到主要內容
OpenAI

2025年10月29日

產品發佈

介紹 gpt-oss-safeguard

新的開放式安全推理模型(120b 和 20b)支援自訂的安全政策。

正在載入...

今天我們推出了 gpt-oss-safeguard 研究預覽版,這是我們為安全分類任務設計的開放權重推理模型,有兩個版本可供選擇:gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b。這些模型是我們gpt-oss開源模型的微調版本,並在相同的寬鬆 Apache 2.0 授權條款下提供,允許任何人使用、修改和部署。兩種模型今天都可從Hugging Face(在新視窗中開啟)下載。

gpt-oss-safeguard 模型透過推理,在推論時直接解析開發商提供的政策,按照開發商的需求對用戶訊息、已完成的回覆及完整聊天內容進行分類。開發商會自行決定要使用的政策,因此回覆會更有針對性,並更符合開發商的需求。模型使用思維鏈 (chain-of-thought),開發商可以透過查看思維鏈了解模型是如何作出決定的。此外,該政策是在推論期間提供的,而不是被訓練進模型中,因此開發商可以輕鬆地反覆修改政策以提升效能。這個方法是我們最初為內部使用而開發的,比起傳統從大量標記範例間接推斷決策邊界來訓練分類器的方式,明顯地有更高的靈活性。

gpt-oss-safeguard 讓開發商能夠畫出最適合其使用情境的政策界線。舉例來說,一個電玩遊戲討論論壇可能想要制定一項政策來分類討論遊戲作弊的貼文,或者一個產品評論網站可能想要使用自己的政策來篩選看起來可能是假的評論。

該模型一次接受兩個輸入,一個是政策,另一個是要根據該政策進行分類的內容,然後輸出關於該內容所屬類別的結論,以及其推理過程。開發商可自行決定是否以及如何在其安全流程中運用這些結論。我們已經看到這種基於推理的方法在以下情況中表現特別出色:

  • 在潛在危害正在出現或演變,政策需要快速調整的情況下。
  • 在領域高度細微複雜,較小的分類器難以處理的情況下。
  • 在開發商沒有充足的樣本來為其平台上的每一種風險訓練高品質分類器的情況下。
  • 相比延遲,產出高品質、可解釋的標記更為重要。

我們推出這個 gpt-oss-safeguard 的預覽版本,目的是接收來自研究和安全社群的反饋,並進一步改進模型效能。在過去幾個月,我們與ROOST(在新視窗中開啟)合作推出這個開放權重版本,目的是識別開發商的關鍵需求、測試模型並撰寫開發商文件。作為此次發佈的一部分,ROOST 將建立一個模型社群(在新視窗中開啟)也於今日啟動,以探索開放式 AI 模型可以如何保護線上空間。在此次發佈的同時,我們也發表了一份簡短的技術報告,詳細說明此預覽模型的安全性表現。

系統層級的安全:安全分類器的作用

在安全性這方面,我們相信深層防禦。我們訓練模型確保其作出安全的回覆,並建立多層防護措施來偵測並處理因應政策規範下可能存在風險的輸入與輸出。安全分類器用以區分特定風險領域中的安全與不安全內容,長期以來一直是我們自己及其他大型語言模型的主要防禦層。

傳統的安全分類器,例如透過我們的Moderation API(在新視窗中開啟)所提供的,是透過在預先定義的安全政策下,手動整理數千個安全和不安全內容的範例來開發的。從這些訓練資料中,分類器學會區分安全與不安全的輸出。在這種傳統方法中,分類器實際上從未看過安全政策。相反地,它試圖通過尋找被標記為不安全內容中的相似性,以及不安全與安全內容之間的差異,來推斷用於標記範例的潛在政策。

傳統分類器擁有高效能、低延遲和低營運成本的好處。但是收集足夠數量的訓練範例可能既耗時又昂貴,而且更新或更改政策需要重新訓練分類器。

gpt-oss-safeguard 的不同之處,在於它的推理能力使開發商可以執行任何政策,包括自行編寫或取自其他來源的政策,同時模型也能靠推理應付新寫出來、它之前沒遇過的政策。除了安全政策之外,gpt-oss-safeguard 還可以用於以其他對特定產品和平台重要的方式標記內容。

標題為「透過 gpt-oss-safeguard 實現政策基礎推理」的流程圖。開發商提供的政策和用戶提供的內容會輸入到 GPT-OSS-Safeguard 中。該模型會生成一個思考鏈,然後做出政策決策,並透過標示為「政策循環」的反饋過程來改善政策。圖例標記了開發商輸入、用戶輸入和模型輸出。

我們在內部如何運用安全推理

我們的主要推理模型現在直接學習我們的安全政策,並運用其推理能力來推理什麼是安全的。這種方法我們稱為審慎思考,比早期的安全訓練方式有明顯改善,即使在能力增強的情況下,推理模型在多個方面仍比非推理的上一代更安全。但推理並非只對訓練模型本身有用。它也為深度防禦創造了新的可能性。以推理為基礎的方法具有更高的靈活性,且較少受到先前訓練細節的限制,這些優點有時足以彌補其所需的額外運算成本與延遲時間。

gpt-oss-safeguard 是一個實現開放權重的版本,源自我們內部開發的方法,該方法存在於我們稱為 Safety Reasoner 的工具中。我們由政策標記任務的強化微調起步,當模型反映出人類專家的正確判斷時給予獎勵。這讓模型學了推理,理解政策如何形成它的判斷。如今,Safety Reasoner 使我們能夠在正式環境中動態更新我們的安全政策,所需時間比重新訓練分類器還要短。這使 Safety Reasoner 成為漸進式部署的重要工具:當我們將新模型部署到正式環境時,我們經常從較為嚴格的政策著手,並在需要的地方使用相對龐大的運算能力,以便 Safety Reasoner 能謹慎地套用這些政策。接著我們會根據對生產環境風險的理解改進情況來調整我們的政策。在我們最近推出的一些產品中,投入安全推理的總運算量比重最高達16%。

Safety Reasoner 已成為我們安全架構的核心組件。針對圖像產生與 Sora 2,系統會對輸出進行動態、階段性的輸出評估,以即時偵測並阻擋不安全的產生內容。在生物學和自殘等領域,我們運用類似於 Moderation API 中使用的模型,作為小型、快速和高召回率的分類器,以確定來哪些內容屬於相關領域,然後使用 Safety Reasoner 審查這些內容。Safety Reasoner 會依照詳細的分類架構來分類模型的輸出結果,從而決定最適當的回覆方式,這是我們在 GPT‑5 及 ChatGPT 智能代理等系統中多層次安全保護措施的組成部分。現在,gpt-oss-safeguard 模型將這種相同的方法提供給任何用戶使用。

GPT‑OSS‑Safeguard 的表現如何

我們在內部和外部評估集上評估了 GPT‑OSS‑Safeguard 模型。

在內部評估中,我們於推論時同時提供多個政策給 gpt-oss-safeguard。針對每個測試輸入,我們會評估 gpt-oss-safeguard 是否能在所有涵蓋的政策下正確分類該文本。這是一個高難度任務,模型必須與所有涵蓋的政策的標準答案標記完全一致時,才會被視為準確。

我們的 gpt-oss-safeguard 模型及內部 Safety Reasoner 在多項政策準確度上的表現勝過 gpt-5-thinking 和 gpt-oss 開源模型。gpt-oss-safeguard 模型超越 gpt-5-thinking 的表現尤其令人意外,特別是考慮到前者模型的小型規模。

我們進一步在我們於 2022 年研究論文(在新視窗中開啟)中發佈的審查資料集(在新視窗中開啟),以及ToxicChat(在新視窗中開啟)(一個基於用戶向開源聊天機器人提問的公開基準測試)上評估了這些模型。

針對 2022 年的內容審查評估集,我們使用了內部安全政策來進行評估(因應後續的變動而調整了一項政策)。gpt-oss-safeguard 的表現略勝於所有其他測試模型,包括我們內部的 Safety Reasoner 與 gpt-5-thinking,儘管 Safety Reasoner 與 gpt-oss-safeguard 之間的差異在統計學上並不顯著。

對於 ToxicChat,我們使用了從我們的一些內部政策改編而來的簡短手寫提示詞進行評估。我們內部的 Safety Reasoner 再一次超越了 gpt-5-thinking,同時 gpt-5-thinking 和 Safety Reasoner 兩者的表現都稍微勝過 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b。我們預期 gpt-oss-safeguard 相對較小的規模,仍然會令它在此類任務中更具優勢。

限制

GPT‑OSS‑Safeguard 有兩個具體的限制。首先我們觀察到,使用數萬個高品質標記樣本訓練的分類器,在分類內容時的表現仍然勝過 gpt-oss-safeguard 直接從政策進行推理的表現。若要在更複雜的風險上達到更高的表現,花時間訓練專屬分類器可能會是比較理想的做法。

其次,gpt-oss-safeguard 需要耗費時間和計算資源,這使得在整個平台內容上擴展存在困難。在內部,我們使用 Safety Reasoner 以幾種方式處理這個問題:(1)我們使用更小且更快的分類器來決定要評估哪些內容,以及(2)在某些情況下,我們以非同步方式使用 Safety Reasoner 來提供低延遲的用戶體驗,同時保持在偵測到不安全內容時進行介入的能力。

未來之路:持續與社群共同建設

gpt-oss-safeguard 是 OpenAI 與社群共同建立的首套開放安全模型。我們與 SafetyKit、ROOST、Tomoro 和 Discord 的信任與安全專家合作,在早期測試階段對 gpt-oss-safeguard 進行了反覆改進。ROOST 技術長 Vinay Rao 表示,「gpt-oss-safeguard 是第一個採用『自訂政策與危害定義』設計的開源推理模型。組織應有自由研究、修改和使用關鍵安全技術並創新的權利。在測試過程中,它展現出理解多種政策的能力,解釋其推理過程,並能在應用政策時呈現細微差異,我們相信這將惠及開發商與安全團隊。」

我們將持續與社群合作改進開放式安全工具,這其中包括透過 ROOST 模型社群(RMC)。RMC 將安全專業人員與研究人員聚集在一起,分享將開源 AI 模型引進安全工作流程的最佳做法,
包括評估結果與模型反饋。前往
RMC GitHub 儲存庫(在新視窗中開啟)以了解有關此合作夥伴關係以及如何參與的更多資訊。

若要開始使用這些模型進行架設,請從Hugging Face(在新視窗中開啟)下載。

作者

OpenAI