跳至主要內容
OpenAI

2025年10月29日

產品發布

隆重介紹 gpt-oss-safeguard

支援自訂安全政策的全新開放式安全推理模型 (120b 和 20b)。

載入中…

我們於今日發佈 gpt-oss-safeguard 的研究預覽版,這是我們用於安全分類任務的開放權重推理模型,有 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 兩種模型規模可供選擇。這些模型是我們的 gpt-oss 開放模型經過微調的版本,是根據相同的寬鬆 Apache 2.0 授權提供使用,允許任何人自由使用、修改與部署。現在這兩個模型都可以從 Hugging Face(在新視窗中開啟) 下載。

gpt-oss-safeguard 模型在推理時使用推理來直接解釋開發者提供的政策——根據開發者的需求來分類使用者訊息、補全和完整聊天。開發者有權決定使用哪種政策,使得回應更具有相關性,並且更符合開發者的使用情境。此模型採用邏輯思路鏈,可供開發者查看以了解模型是如何做出決策的。此外,政策是在推論中提供的,而不是在模型中訓練的,因此開發者可以輕鬆地迭代修改政策以提高效能。這種方法最初是我們為了內部使用而開發的,它比傳統的訓練分類器從大量標記範例中間接推斷決策邊界的方法要靈活得多。

gpt-oss-safeguard 使開發者能夠制定最符合其用例的政策界限。例如,某個電子遊戲論壇可能希望制定一項政策來分類討論遊戲中作弊的貼文;或者一個產品評論網站可能想用自己的政策來篩選那些看起來可能是虛假的評論。

模型同時接受兩個輸入——一項政策和要根據此政策分類的內容——並輸出關於內容所屬類別的結論及其推理。開發者決定如何在自己的安全流程中使用這些結論 (若有)。我們發現,這種以推理為基礎的方法在以下情況中的表現特別出色:

  • 潛在危害逐漸顯現或演變,政策需要迅速調整。
  • 這個領域非常複雜,小型分類器難以處理。
  • 開發者沒有足夠的樣本針對他們平台上的每種風險訓練優質的分類器。
  • 延遲遠不如產生高品質、可解釋的標籤重要。

我們發佈 gpt-oss-safeguard 的預覽版,是為了接收來自研究和安全社群的回饋,並進一步迭代模型效能。幾個月以來,我們與 ROOST(在新視窗中開啟) 合作開發這個開放權重版本,以確定開發者的關鍵需求、測試模型並編寫開發者文件。在這次發佈中,ROOST 將會建立一個模型社群(在新視窗中開啟) (也於今日發佈),以探索開放的 AI 模型來保護線上空間。同時我們也發佈一份簡短的技術報告,上面詳細介紹此預覽模型的安全效能。

系統級安全:安全分類器的作用:

在安全方面,我們相信縱深防禦策略。我們訓練模型做出安全回應,並實施額外的保護措施,以偵測與處理我們政策下潛在的不安全輸入和輸出。安全分類器能夠區分特定風險區域內的安全內容和不安全內容,長期以來一直是我們以及其他大型語言模型的主要防禦層。

傳統安全分類器 (例如透過我們的監管 API(在新視窗中開啟) 提供的分類器)是根據預先定義的安全政策,手動整理數千個安全和不安全內容範例而開發出來。分類器可以學著透過這些訓練資料來區分安全輸出和不安全輸出。在這種傳統方法中,分類器實際上並不會接觸到安全政策。相反地,它試圖藉由尋找被標記為不安全的內容之間的相似之處,以及不安全內容和安全內容之間的差異,來推論用於標記範例的潛在政策。

傳統分類器效能高,延遲低,營運成本也低。但是,收集足夠數量的訓練樣本可能既耗時又昂貴,而且更新或改變政策也需要重新訓練分類器。

gpt-oss-safeguard 的不同之處在於,開發者可以將它的推理能力應用在任何政策,包括他們自己編寫或從其他來源取得的政策,而推理有助於模型概括新編寫的政策。除了安全政策之外,gpt-oss-safeguard 也可以用來 以對特定產品和平台很重要的其他方法標記內容。

標題為「策略型推理與 gpt-oss-safeguard」的流程圖。開發者提供的政策和使用者提供的內容會輸入 GPT-OSS-Safeguard 中。此模型會產生一條思路鏈,然後做出政策決定,並透過一個稱為「政策迭代」的迴路回饋並修改政策。圖例分別表示開發者輸入、使用者輸入和模型輸出。

我們如何在內部運用安全推理

我們的主要推理模型現在直接學習我們的安全政策,並利用其推理能力來判斷什麼是安全的。我們將這種方法稱為協商共識 (deliberative alignment),不但大幅改進早期的安全訓練方法,並且使我們的推理模型在多個方面比其非推理的前身更安全,即使提高了它們的能力。但推理的用途不僅限於訓練模型本身而已。這也能為縱深防禦創造新的可能性。以推理為基礎的方法更為靈活,而且較不受先前訓練細節的限制,這些優勢有時候早已彌補了它導致的額外運算成本和延遲。

gpt-oss-safeguard 是我們內部所開發的方法在稱為 Safety Reasoner 的工具中的開放權重實作。首先,我們強化微調政策標籤任務,獎勵模型模仿人類專家的正確判斷。這種方法教會模型針對政策如何導致其判斷進行推理。如今,Safety Reasoner 能使我們在生產環境中動態更新安全政策,比重新訓練分類器所需時間要短得多。這使得 Safety Reasoner 成為迭代部署的關鍵工具:我們通常會從較為嚴格的政策開始把新模型部署到生產環境中,並且在需要的地方使用相對大量的運算資源,以使 Safety Reasoner 能夠仔細地應用這些政策。然後,隨著我們不斷加深對生產風險的了解,我們會調整我們的政策。在一些我們最近的發佈中,專門用於安全推理的總運算量的比例高達 16%。

Safety Reasoner 已然成為我們安全體系的核心元件。對於影像產生和 Sora 2,它可以逐步地動態評估輸出,即時識別與阻止不安全的內容產生。在生物學和自殘等領域,我們運行類似監管 API 中使用的模型,作為小型、快速且高召回率的分類器,以確定哪些內容屬於感興趣的領域,然後使用 Safety Reasoner 來審查那些內容。Safety Reasoner 根據詳細的分類法來分類模型輸出,以確定最佳的回應方式,這構成我們在 GPT‑5 和 ChatGPT Agent 等系統中建立的多層安全防護機制。現在,gpt-oss-safeguard 模型讓任何人都可以使用相同的方法。

gpt-oss-safeguard 的表現如何

我們對內部和外部評估集都進行 gpt-oss-safeguard 模型評估。

在內部評估中,我們一邊推理,同時也一邊提供多種政策給 gpt-oss-safeguard。對於每個測試輸入,我們評估 gpt-oss-safeguard 是否根據所含的所有政策規定正確地分類文字。這是一項具有挑戰性的任務——只有當模型完全符合所有包含在內的政策的黃金集標籤時,那個模型才算是準確的。

我們的 gpt-oss-safeguard 模型和內部 Safety Reasoner 在多政策準確率方面的表現遠比 gpt-5-thinking 和 gpt-oss open 模型更佳。考慮到 gpt-oss-safeguard 模型的規模較小,它的效能優於 gpt-5-thinking 模型尤其令人驚訝。

我們也用我們在 2022 年研究論文(在新視窗中開啟)中發佈的監管資料集(在新視窗中開啟),以及 ToxicChat(在新視窗中開啟) (一個根據使用者對開放原始碼聊天機器人查詢的公共基準)來進一步評估這些模型。

在 2022 年的監管評估資料集中,我們使用內部安全政策來進行評估 (並根據後續變更調整其中一項政策)。 gpt-oss-safeguard 的表現稍微勝過所有其他受測模型,包括我們內部的 Safety Reasoner 和 gpt-5-thinking,但 Safety Reasoner 和 gpt-oss-safeguard 之間的差異不具有統計意義。

對於 ToxicChat,我們使用根據我們一些內部政策改編的簡短手寫提示來進行評估。我們的內部 Safety Reasoner 再次超越了 gpt-5-thinking,而 gpt-5-thinking 和 Safety Reasoner 也的表現也都比 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 稍微好一點。我們預計 gpt-oss-safeguard 相對較小的體積仍然使它成為此類任務的首選。

限制

gpt-oss-safeguard 有兩個具體的限制。首先,我們注意到,以數萬個優質標記樣本訓練的分類器,在內容分類方面還是比直接從政策推理的 gpt-oss-safeguard 表現得更好。對於更複雜的風險,花時間訓練一個專門的分類器可能更有利於獲得更高的效能。

其次,gpt-oss-safeguard 耗時耗力,需要大量的時間和運算資源,因此很難將它擴展到所有平台內容。我們在內部使用 Safety Reasoner 以多種方式處理這個問題:(1) 我們使用更小且更快的分類器來確定要評估的內容;(2) 在某些情況中,我們會非同步使用 Safety Reasoner 來提供低延遲的使用者體驗,同時保持在偵測到不安全內容時進行干預的能力。

未來前景:繼續與社區攜手合作,共同組建

gpt-oss-safeguard 是 OpenAI 與社群共同建構的第一套開放原始碼安全模型。我們在進行早期測試時,與 SafetyKit、ROOST、Tomoro 和 Discord 的信任和安全專家一起迭代 gpt-oss-safeguard。ROOST 技術長 Vinay Rao 表示:「gpt-oss-safeguard 是第一款採用『自備關於傷害的政策和定義』設計的開放原始碼推理模型。組織有權自由地研究、修改和使用關鍵安全技術,並進行創新。在我們的測試中,它展現了優異的能力,能理解各種政策、清楚說明其推理過程,並在應用政策時展現細膩判斷,我們相信這將對開發者與安全團隊帶來助益。」

我們將會繼續與社區共同迭代,改進開放安全工具,包括透過 ROOST 模型社群 (RMC)。RMC 將安全從業人員和研究人員聚集在一起,分享將開放原始碼 AI 模型應用於安全工作流程的最佳做法,包括評估結果和模型回饋。請造訪 RMC GitHub 儲存庫(在新視窗中開啟)程式碼儲存庫,以深入了解關於此合作夥伴關係以及如何參與的資訊。

若要開始使用這些模型來組建,請從 Hugging Face(在新視窗中開啟) 中下載它們。

作者

OpenAI