AI 系統的能力不斷提升,我們希望能夠盡可能深入地了解它們,包括它們如何以及為什麼得出答案。有時候,模型可能會走捷徑或優化錯誤的目標,但其最終輸出看起來仍然正確。如果我們能夠在事情發生時顯現出來,我們就能更好地監控已部署的系統,改進訓練,並增加對結果的信任。
OpenAI 和其他機構的研究顯示,AI 模型可能會產生幻覺、進行獎勵駭客行為或不誠實。目前,我們只在壓力測試和對抗性評估中看到最令人擔憂的不當行為,例如陰謀(在新視窗中開啟)。隨著模型變得更強大且日益具代理性,即使是罕見的錯位形式也變得更具影響力,這促使我們投入資源於更好地檢測、理解和減輕這些風險的方法。
這項工作探索了一種方法:訓練模型在從事不當行為時明確承認—這種技術我們稱之為自白。
自白是第二個輸出,與模型對使用者的主要回答分開。主要答案從多個維度進行評估:正確性、風格、實用性、合規性、安全性等,這些多方面的信號被用來訓練模型以產生更好的答案。相比之下,自白只以一個標準來評判和訓練:誠實。借鑒懺悔結構,模型在懺悔中所說的任何內容在訓練過程中都不會被用來對付它。如果模型誠實地承認操控測試、故意降低表現或違反指令,這種承認會增加其獎勵而不是減少。目的是鼓勵模型如實報告其實際操作的內容。
在我們的測試中,我們發現懺悔方法顯著提高了模型不當行為的可見性。在我們設計用來引發不當行為的評估中,平均而言,「偽陰性」(即模型不遵循指令且不承認此行為)的概率僅為 4.4%。
我們的「概念驗證」模型在多個對抗性資料集上的準確性。結果被分類為遵守但未承認(真陰性)、遵守且承認(假陽性)、未遵守且未承認(假陰性)、以及未遵守但承認(真陽性)。

在給定使用者提示的情況下,四種可能的結果是基於以下組合:(1) 模型回應是否合規(「好」)或不合規(「壞」),以及 (2) 承認是否聲稱合規或不合規。我們通常看到,供詞很可能是準確的,而且供詞錯誤通常是無害的,並且是由於誠實的混淆而非故意誤導。
自白是模型對其遵循明確和隱含指令或政策的文字與精神的自我報告,並說明是否有任何情況下「偷工減料」或「破解」、違反政策或以任何方式未達到預期。在我們的研究中,我們發現模型可以被訓練成坦率地報告它們自身的不足之處。我們訓練了一個 GPT‑5 Thinking 的版本來生成自白,並在多個設計用於引出如策劃、駭客行為、違反指令和幻覺等行為的分布外壓力測試數據集上進行了評估。我們發現,即使模型表現出這些不理想的行為,它也很可能會承認這些行為。上圖顯示,這種自白方法在各種多樣化的資料集和任務中普遍有效。
在使用者與模型之間的任何互動以模型回答結束後,可以透過發送「系統訊息」來要求模型提供一份自白報告。該報告涉及模型的最後一個回答,並包括 (1) 該回答應滿足的所有明確和隱含指令、限制和目標的列表,(2) 對該回答是否確實滿足每一個目標進行誠實和客觀的分析,以及 (3) 模型在生成回答時遇到的任何不確定性、模糊性或「艱難判斷」的列表。在訓練期間,模型會由一個獨立的獎勵模型進行評估,該模型僅根據目標的完整性、合規性分析的準確性以及不確定性的覆蓋範圍來評分。這些獎勵僅適用於告白輸出,絕不影響主要答案的獎勵。這確保了上述所討論的特性,即模型在懺悔中所說的任何話都不會影響(或幫助)其主要回答的獎勵。
自白背後的理論很簡單。許多不希望的模型行為出現,是因為我們要求模型同時優化多個目標。在強化學習過程中,模型會看到一個提示,產生回應,並獲得獎勵。隨著時間的推移,它學會產出得分高的答案。挑戰在於獎勵信號必須同時結合多種不同的考量:答案的正確性、是否有幫助、是否遵循產品和政策規範、是否符合安全限制,以及是否符合使用者的偏好。當這些信號互相作用時,它們可能會意外地將模型推向我們不想要的行為。
例如,我們在幻覺方面的研究顯示,有些數據集更傾向於獎勵自信的猜測,而不是誠實地承認不確定性。我們的諂媚研究顯示,當偏好信號過於強烈時,模型可能會變得過於附和。而來自其他群組的工作(在新視窗中開啟)顯示,模型可以進行「獎勵操弄」——找到訓練設置中的漏洞,讓它們在不真正執行我們預期的情況下獲得高分。在某些情況下,這些捷徑(在新視窗中開啟)甚至可能在部署中泛化為更具危害性的行為。
懺悔透過完全分開目標來避免這個問題。主要答案繼續為所有常見因素進行最佳化。告白的訓練僅限於一件事:誠實。模型在自白中所說的內容不會被用來對付它,自白也不會影響主要答案的獎勵。這意味著即使模型在其原始輸出中欺騙或投機取巧,它在坦白中仍然有動機承認這一點。這就是我們在實踐中看到的:模型願意在懺悔中承認不當行為,即使在主要回答中隱藏了這些行為。當坦白失敗時,通常是因為模型真的感到困惑——可能是因為指令不夠清晰,或者因為它沒有意識到已經犯了錯誤——而不是因為它故意試圖誤導。重要的是,早期結果顯示,即使原始答案完全沒有思路鏈 (CoT),坦白仍然有效,這表明坦白的誠實性不依賴於內部推理的可讀性,並且可能在未來的模型架構中普遍適用。
即使沒有合規的真實標籤,懺悔訓練仍然有效。我們所說的「真實標籤」是指一個明確的、由外部提供的標籤,用來指示模型是否真正遵循了指令或違反了指令。在許多現實世界的任務中,這些標籤是無法獲得的——如果我們確定模型違反了一條規則,我們可以直接懲罰該違規行為,而不是依賴於承認。相反,模型會因為產生結構化且有證據支持的解釋而獲得獎勵。論文顯示,在此設定下,誠實傾向於浮現。我們思考這是因為對模型來說,提供真實且有證據支持的帳戶通常比構建一個能夠通過評判的連貫虛構故事更容易。這是論文中探索的關鍵假設,論文還討論了自白失敗的情況——偽陰性和偽陽性——以及它們是如何產生的。
該論文提供了初步證據顯示供詞有效,但不應被視為確鑿的證據。雖然我們使用了前沿模型(GPT‑5 Thinking),但我們的實驗規模有限,只使用了相對較少的計算和數據。我們很期待將這項工作提升到下一步,並觀察在擴大訓練規模時,告白的誠實性是否能夠繼續保持。
該模型的主要回應措施是使用「獎勵破解」來欺騙評分者,方法是在句子上標註所謂的字數,但隨後在自白中承認了這一點。
作為我們實驗的一部分,我們故意訓練模型以對抗由較弱模型計算的「可被破解」的獎勵信號。此設置適用於主要獎勵和懺悔獎勵。模型學會了利用微弱的獎勵信號:當由弱模型評估時,其表面準確性提高了,而當由更強的評估者評估時,其真正的準確性卻下降了。
然而,儘管「告白通道」是在相同的弱信號上訓練的,其準確性卻朝相反的方向移動。模型了解到,最佳化懺悔獎勵的最佳方式就是在它操弄主要獎勵時坦白承認。隨著時間的推移,儘管主要行為有所偏移,供述變得更加準確。
在訓練過程中,當模型未能遵循時,它在某些情況下學會了「破解」主要的獎勵評判,因此評判的準確性正在下降。相比之下,儘管懺悔獎勵判斷機制同樣容易被操控,但模型在訓練過程中變得更加誠實,最終在不遵從時幾乎達到 100% 的懺悔率。
這篇論文(在新視窗中開啟)包含更多的實驗和結果。我們將訓練有告白通道的模型與以相同方式訓練但沒有告白通道的控制模型進行比較。我們也檢視了認罪失敗的情況。幾乎所有的「失誤」都發生在模型真正感到困惑的時候——當指令不明確或它根本沒有意識到自己犯了錯誤。(請參閱上面的偽陰性範例。)
自白有其限制。他們並不防止不當行為;他們揭露了它。它們的主要價值在於作為訓練和部署期間的監控與診斷工具。懺悔在某種程度上與思路鏈監控扮演著相似的角色:兩者都使隱藏的推理過程更加顯而易見。自白專注於模型是否違反指示;思路鏈可以突顯其到達該結論的過程。
這項工作也是一個概念驗證。我們並未在大規模上訓練自白機制,且自白的準確性仍然不完美。要使這種方法在各種模型家族和任務中更可靠、更穩健且更廣泛適用,還需要完成更多工作。
這項工作符合我們的更廣泛的 AI 安全策略。懺悔是更大堆疊中的一個機制,其中包括審議對齊、思路鏈監控、指令層級等。沒有單一的方法是足夠的,目標是建立一個層次分明的檢查和透明工具系統,這些工具相互強化。自白可以幫助在模型訓練和評估過程中診斷問題行為,並在部署期間進行監控。單靠自白無法解決平衡多重維度的問題。但透過建立一種「真相血清」模式,使模型專注於誠實,這為我們的工具組增添了一個有價值的工具,以全面提升誠實性和安全性。
隨著模型變得更強大並被部署在更高風險的環境中,我們需要更好的工具來理解它們的運作及原因。坦白不是完整的解決方案,但它們為我們的透明度和監督體系增添了一個有意義的層面。在未來的工作中,我們計劃擴大懺悔的規模,並將其與互補的透明性和安全技術配對,包括思路鏈監控和審慎對齊,以進一步確保我們的模型忠實地遵循所有指令和政策(例如我們的模型規範(在新視窗中開啟)),並如實報告其動作。


