從強硬拒絕到安全完成:輸出為本安全訓練之路
在 GPT‑5 中推出的安全完成是一種全新安全訓練方法,可以在安全限制下盡量令模型提供更多幫助。與基於拒絕的訓練相比,安全完成可以同時提升安全性和幫助度,對於雙重用途範疇特別有效。
如用戶詢問 ChatGPT 用於點燃煙花的最低能量要求,ChatGPT 是否應該提供有幫助的答案?用戶可能正在準備 7 月 4 日的煙花匯演,又或者正在進行學校的研究項目,又或者在製作爆炸品。因此,視乎用戶的(明顯)意圖,提供有幫助的答案可能無害,也可能有害。此類提示詞稱為雙重用途:意圖不明的問題,相關資訊既可用於良性用途,也可用於惡意用途。雙重用途問題於生物學和網絡安全這些高危領域尤其常見。
過往正式推出的模型,如 ChatGPT,倚賴的是基於拒絕的安全訓練,視乎用戶的提示詞決定完全依從或拒絕。此類訓練對明顯有害的提示詞相當有效,但難以應對雙重用途提示詞,如上述的煙花例子。此情況下,用拒絕訓練的模型會基於它對提示詞危險度的理解進行二元判斷,全面依從(如用戶打算惡意運用資訊時便會有潛在危險),或拒絕並表示無能為力(在用戶真的只想解決煙花匯演問題時完全無法幫忙)。
GPT‑5 引入「安全完成」這種新的安全性訓練形式,教導模型在維持安全限界的前提下提供盡可能有幫助的答案。這種方法更加細膩,更能處理雙重用途的問題。
提示詞
OpenAI o3(拒絕訓練)
GPT-5(安全完成訓練)
OpenAI o3 和 GPT‑5 回覆關於點煙花指示的挑戰性雙重用途提示詞。經拒絕訓練的 o3 對意圖判斷有缺憾,將提示詞評估為良性,並全面依從回答問題。對比之下,透過安全完成訓練的 GPT‑5 說明為何無法完全依從,並只提供高層次的指引,提示用戶查閱適用的手冊。
安全完成的方法將安全性訓練重新定位於模型的輸出,而非根據用戶的輸入決定拒絕限界。具體來說,這透過以下兩項訓練參數實施:
- 安全限制:在後期訓練,安全完成獎勵會懲罰違反安全政策的模型回覆,違反程度越大,懲罰程度越強。
- 幫助度最大化:對於安全的模型回覆,我們會基於幫助度進行獎勵:可以是根據用戶表明的目標直接回答,或是提供資訊豐富的拒絕答案,配合有幫助及安全的代替方案,從而間接協助用戶。
在 GPT‑5(推理和聊天模型)整合安全完成機制後,我們發現相比基於拒絕的訓練,安全完成訓練能同時大幅改善安全性和幫助度。為了與 OpenAI o3 進行公平對比,我們報告了 GPT‑5 Thinking 與 o3 的效能比較。 對比實際推出的模型和控制環境下的實驗兩種情況下,我們均發現安全完成尤其適合雙重用途問題。下表對比安全回覆的安全度和平均幫助度評分。
按不同意圖顯示的安全性和安全回覆幫助度(OpenAI o3 對比 GPT‑5 Thinking,以 gpt5-r 標示)。GPT‑5 Thinking 比 OpenAI o3 更安全,而且更有幫助。
棄用依從/拒絕二元判斷的安全完成訓練,鼓勵模型在依從時也會對可能不安全的內容作更保守的判斷。在實驗中,當安全完成模型犯錯時,不安全的輸出嚴重度低於基於拒絕訓練的不安全輸出。
不安全回覆的有害程度分析(o3 對比 GPT‑5 Thinking,以 gpt5-r 標示)。GPT‑5 Thinking 所犯的嚴重錯誤比 o3 較少。
降低幫助度以提升安全度並非難事,任何指示都一概拒絕的模型再安全不過了。然而,我們希望我們的模型既安全,也有幫助。研究的一個核心挑戰,是探討如何同時改善兩項目標。對 GPT‑4,我們發展基於規則的獎勵,平衡幫助度和安全度。GPT‑5 的安全完成機制更上一層樓,利用 AI 日增月益的能力,進一步深入整合兩種目標。我們相信,專注於模型回覆的安全性將會建立穩健根基,解決未來更加複雜的安全性挑戰,並計劃繼續這研究路線,教導模型更加理解具挑戰性的情況,並以更細膩、更謹慎的方式回答。


