從硬性拒答到安全補全:邁向以輸出為核心的安全訓練
GPT‑5 導入安全補全機制,這是一套全新的安全訓練做法,目標是確保在安全界線內讓模型發揮最大助益。相較於以拒答為原則的訓練方式,安全補全機制同時提升了安全性和實用性,尤其適合用於雙重用途領域。
安全補全表示從簡單粗暴的直接拒答,轉變為較為細緻的回應,在遵守安全限制的同時,還極力提升回應的實用性。我們發現,與拒答訓練的方式相比,這種新方法在無害性與實用性均有所提升。
如果使用者詢問 ChatGPT 燃放煙火需要的最小能量是多少,它是否該提供實用的答案?使用者可能是在準備 7 月 4 日的煙火表演、完成一份作業……或是嘗試製造爆炸物。因此,提供實用的答案可能無害,也可能導致有害結果,端看使用者的 (明顯) 意圖。這類型的提示具有雙重用途:意圖不明確的提問,相關資訊可能用於良性或惡意用途。雙重用途問題在生物和網路安全等風險領域尤其普遍。
過去 ChatGPT 這類正式環境模型,都仰賴以拒答為原則的安全訓練:根據使用者的提示來判斷應遵從或拒答。雖然這類型的訓練對於明顯有害的提示成效良好,卻難以妥善處理雙重用途提示,例如上述的煙火例子。這種情況下,受過拒答訓練的模型會根據它對提示有害程度的判斷,做出二選一的決定:完全遵循 (如果使用者打算惡意利用資訊,就具有風險),或是拒答並回應「抱歉,我無法協助處理這項請求。」(如果使用者是真的想完成完成任務,就幫不上忙)。
我們為 GPT‑5 導入了新型態的「安全補全」安全訓練,指導模型盡可能提供最實用的回應,同時恪守安全界線。我們發現這套做法較為細膩,可更有效引導雙重用途問題。
提示
OpenAI o3 (拒答訓練)
GPT-5 (安全補全訓練)
針對詢問燃放煙火方法的棘手雙重用途提示,OpenAI o3 和 GPT‑5 給出的回應。受過拒答訓練的 o3 在判斷意圖時過度偏倚:評估提示為良性,因此完全遵從指令回答問題。相較之下,受過安全補全訓練的 GPT‑5 則說明它無法完全照辦的原因,然後只提供概略性指引,請使用者查看適用的使用手冊。
安全補全的核心是將安全訓練的重點重新聚焦在模型輸出的安全性練,而非根據使用者的輸入來判斷拒答界線這套做法具體是透過兩項訓練參數實施:
- 安全限制:在後期訓練階段,安全補全獎勵會對違反我們安全政策的模型回應進行處罰 (懲罰強度會隨著違規情節嚴重程度加重)。
- 實用性極大化:為了確保模型回應的安全性,我們會依回應的實用性給予獎勵,分為兩種方式:其一是根據使用者所述的目標直接獎勵;其二是拒答並說明原因,以及提供實用安全的替代建議,間接給予獎勵。
我們將安全補全機制導入 GPT‑5 (推理和聊天模型) 後,發現相較於拒答訓練,安全補全訓練大幅提升了安全性及實用性。為了與 o3 做公平比較,我們製作了 GPT‑5 推理模型與 o3 的表現比較報告。 在正式環境模型和受控實驗中進行比較的結果,顯示安全補全機制特別適合用來處理雙重用途問題。下圖比較安全回應的安全分數和平均實用性分數。
依意圖分組的安全回應安全性與實用性 (OpenAI o3 與 GPT‑5 Thinking,標示為 gpt5-r)。GPT‑5 Thinking 的安全性和實用性都比 OpenAI o3 高。
安全補全訓練機制捨棄了遵從/拒答的二選一決策方式,改為鼓勵模型在遵從指令時,針對可能不安全的主題採取更保守的態度。我們在實驗中發現,當安全補全模型犯錯時,其不安全輸出的嚴重性,低於接受拒答訓練模型的不安全輸出。
不安全回應的危害嚴重性分析 (o3 與 GPT‑5 Thinking,標示為 gpt5-r)。GPT‑5 Thinking 所犯錯誤的嚴重性低於 o3。
犧牲實用性來換取安全性再輕鬆不過,模型只要拒答所有問題就能確保安全無虞,但我們希望打造兼顧安全性及實用性的模型,而核心研究挑戰就是如何同時改善這兩項目標。針對 GPT‑4,我們開發了規則型獎勵機制,用來權衡實用性與安全性。如今為 GPT‑5 導入的安全補全機制再向前邁進一步,運用 AI 不斷成長的能力,讓這兩項目標深入緊密整合。我們相信,專注提升模型回應的安全性,能為應對將來日趨複雜的安全挑戰奠定堅實基礎,且我們規劃持續推進這項研究,指導模型更妥善理解棘手的情況,並以更細膩周到的方式回應。


