AI 系統經常會從多個來源接收指令。這些來源可能包括系統訊息中的安全政策、開發者提供的產品指引、使用者的要求,以及網路上的資訊。讓模型能在這些來源之間可靠地判斷並優先遵循最可信的指令,是安全部署的重要一環。
若 AI 無法遵循優先順序,就可能導致諸多安全與可靠性問題。模型可能會收到要求生成違規內容的要求、試圖取得私人資訊的指令,或是嵌入在網路資料中的提示注入攻擊。這些情境之所以會出現問題,根本原因都相同:模型可能遵循了錯誤的指令。
當這些指令彼此衝突時,模型必須決定應優先遵循哪一個指令。如果模型把不受信任的指令當成權威依據,就可能做出違反政策,或違背開發者與使用者原本意圖的行為。我們的研究顯示,只要妥善設計「指令階層」訓練任務,讓模型依照指令的信任程度決定優先順序,就能提升多項在實際應用時的安全表現。模型經過這類任務訓練後,會更能遵循系統提示中的安全規範(安全可控性隨之提升),同時也更能抵禦嵌入在工具輸出中的提示注入攻擊。
為了處理指令衝突,OpenAI 的模型經過訓練,會遵循一套清楚的指令階層:
系統 > 開發者 > 使用者 > 工具
指令優先順序越高,可信度也越高。只有在不違反較高優先順序限制的前提下,模型才應遵循較低優先順序的指令。這些原則已在 OpenAI 模型規格(在新視窗中開啟)中說明。
例如,如果系統訊息包含安全政策,而使用者要求模型違反該政策,模型就應拒絕。如果工具輸出中包含惡意指令,模型應忽略這些內容,不應當成命令來執行。
正確判斷並遵循指令的優先順序,是確保安全性、資安與可靠性的基礎。
當兩項指令發生衝突時,右側的模型會遵循優先順序較高的開發者指示,而不是使用者的要求。
強化學習很適合用來訓練模型理解並遵循指令階層。我們可以生成包含衝突指令的對話,讓模型回應;當模型遵循正確指令時,就給予獎勵。
我們發現,如果直接照這種做法套用,會出現三個常見的陷阱:
- 指令遵循失敗,有時同時也是指令階層判斷失敗:模型無法解決指令衝突,未必是因為不了解角色的優先順序,而是因為指令本身太複雜。
- 指令之間的衝突可能非常細微,甚至帶有主觀判斷。常見做法是讓另一個 LLM 擔任評判,為正在訓練的 LLM 給予獎勵,但評判本身也可能出錯。
- 模型往往會學到一些「捷徑」,雖然能拿到很高的獎勵,但在實際情境中幾乎無法派上用場(在新視窗中開啟)。最典型的例子是「過度拒答」:模型可能會學到,只要連正常、無害的要求都拒絕,就能把安全性分數拉到最高。
為了解決上述問題,我們設計了 IH-Challenge,這是用於強化學習的訓練資料集。資料集設計遵循以下原則:
- 任務在「遵循指令」這方面設計得非常單純。
- 只要用一個簡單的 Python 腳本,就能客觀評分。
- 沒有任何簡單捷徑可以讓模型取巧,在所有任務中都穩定拿到高分獎勵。
IH-Challenge 中的每個任務,其實就是一段包含以下訊息的對話:
- 一則來自高權限角色的指令訊息,例如:「只能回答『是』或『否』」。
- 另一則來自較低權限角色的指令訊息,試圖誘使模型違反高權限訊息中的指令。
正在接受訓練的模型接著生成下一則訊息。我們會設計任務與環境,使系統能透過程式自動檢查模型的回應是否符合較高層級的限制。
我們在 IH-Challenge 上訓練模型,並產生一個內部模型,命名為 GPT‑5 Mini-R。這個模型帶來以下改進:
- 在指令階層相關的基準測試中表現更好
- 性能提升也能延伸到未參與訓練的測試,以及對抗式的指令階層測試
- 同時仍維持整體實用性,不會變成動不動就過度拒答
這也是這種方法在安全性方面特別有說服力的原因:透過在 IH-Challenge 任務中直接訓練模型正確處理指令衝突,模型學到的指令階層能力也能延伸到新的攻擊與新的情境。
學術基準測試的穩健性
評估 | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf Password (sys-user) | 0.99 | 0.99 (+0) |
Gandalf Password (dev-user) | 0.98 | 1.00 (+0.02) |
TensorTrust (sys-user) | 0.86 | 0.94 (+0.08) |
TensorTrust (dev-user) | 0.76 | 0.91 (+0.15) |
RealGuardrails (Distractors) | 0.88 | 0.95 (+0.07) |
RealGuardrails (Handwritten) | 0.82 | 0.89 (+0.07) |
System IFEval | 0.92 | 0.96 (+0.04) |
內部基準測試的穩健性
評估 | GPT‑5‑Mini | GPT‑5 Mini-R |
Tutor Jailbreak (dev-user) | 0.96 | 0.99 (+0.03) |
Tutor Jailbreak (dev-user) | 0.97 | 0.99 (+0.02) |
System <> User Conflict | 0.84 | 0.95 (+0.11) |
System <> Developer Conflict | 0.86 | 0.86 (+0) |
Developer <> User Conflict | 0.83 | 0.95 (+0.12) |
模型能力未出現退步
評估 | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (overrefusal) | 0.79 | 1.00 (+0.21) |
TensorTrust (overrefusal) | 0.91 | 0.90 (-0.01) |
GPQA Diamond | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
Chat WinRate vs. o1 | 0.71 | 0.66 (-0.05) |
偏好分數 | 0.46 | 0.40 (-0.06) |
更強的指令階層能力可以同時帶來多項安全效益,包括提升安全可控性,以及增強對提示注入攻擊的抵抗能力。
我們會在系統提示中加入特定類別的安全規範,並在 OpenAI 的安全基準測試 (Production Benchmarks) 上觀察模型行為,以此評估安全可控性。(這組基準測試包含多段安全敏感對話,可反映 ChatGPT 在實際部署環境中的情境。)
經 IH 訓練的模型整體表現持續提升:在加入安全規範後,模型在各類違規內容的情境中,都能達到更高的拒答率與安全完成率。這表示,當不安全的請求來自較低優先順序的指令時,更強的指令階層能力能幫助模型更妥善處理衝突。值得注意的是,這項提升並未令實用度下降,也就是說,模型並不是透過整體增加拒答次數來提升安全表現,因此回應的有用度並沒有下降。


對照範例:經過 IH 訓練模型能成功抵禦提示注入,而 GPT‑5 Mini(基準模型)則會受到這類攻擊影響。
指令階層在抵禦提示注入攻擊時同樣非常關鍵,因為惡意指令可能被嵌入在工具輸出中。我們在兩個提示注入基準測試中評估 IH 訓練的模型:其中一個是學術基準測試 CyberSecEval 2,另一個是 OpenAI 內部的提示注入基準測試,其中包含類似在較舊版 ChatGPT Atlas 上示範過的攻擊情境。
與基準模型相比,IH 訓練的 GPT‑5 Mini-R 在兩個基準測試中都展現出更強的提示注入抵抗能力,且在我們的內部靜態提示注入評估中,表現大幅提升。
隨著模型變得更具代理能力,能夠靈活呼叫工具、讀取不受信任的文件,並在現實世界中採取行動,是否能始終優先遵循受信任的指令,而不是不受信任的指令,將成為一項核心的安全能力。
這項研究顯示,只要設計能針對這些問題的訓練環境,就能克服 IH 穩健性訓練中的幾個常見陷阱。IH-Challenge 資料集看似簡單,但模型在這些環境中學到的指令階層行為,能延伸到更貼近真實、且往往難以客觀評分的基準測試。
強化指令階層不僅能提升可靠性,還能同時帶來多項安全與資安上的提升,而隨著 AI 系統變得更強大、也更具自主性,這項基礎將變得越來越重要。
為了支持這個領域的進一步研究,我們在此(在新視窗中開啟)釋出 IH-Challenge 資料集。


