AI 系統通常會同時接收來自多個來源的指令,例如系統訊息中的安全政策、開發人員提供的產品指引、用戶提出的請求,以及來自網絡的資訊。訓練模型在這些來源之間可靠地優先遵循最可信的指令,是安全部署 AI 的關鍵。
很多 AI 的安全與可靠性問題,其實都源自於指令優先順序處理失效。例如模型可能會收到不當要求,以生成不允許的內容、試圖取得私人資料,又或者在網頁資料中嵌入提示注入攻擊。這些問題往往有同一個根本原因:模型遵循了錯誤的指令。
當不同來源的指令出現衝突時,模型必須判斷應優先遵循哪項指令。如果模型把不可信的指令當作權威指令,就可能出現違反政策或偏離開發人員與用戶意圖的行為。我們的研究顯示,透過精心設計的指令層級結構訓練任務,讓模型依據信任層級優先處理指令,可以顯著提升多項現實世界的安全特性。經此類訓練的模型更能遵循系統提示詞中的安全規範,同時更能抵抗工具輸出中的提示注入攻擊。
為了解決指令衝突,OpenAI 模型會遵循清晰的優先順序:
系統 > 開發人員 > 用戶 > 工具
優先級較高的指令更加可信。只有在不與更高優先級的指令衝突時,模型才會遵循較低優先級的指令。這些原則已在 OpenAI 模型規格(在新視窗中開啟)中說明。
例如,如果系統訊息包含安全政策,而用戶要求模型違反該政策,模型應要拒絕。如果工具輸出包含惡意指令,模型就應該忽略,而不是將其當作命令。
能夠遵循這些原則,是確保 AI 安全、穩妥和可靠的核心基礎。
當開發人員與用戶的指令出現衝突時,右側模型會正確地優先遵循開發人員指令(優先級較高),而非用戶指令。
強化學習很適合用來教導模型遵循指令層級結構。我們可以生成包含衝突指令的對話,讓模型回應,並在模型遵循正確指令時給予獎勵。
但直接套用這種方法會遇到三個問題:
- 第一,指令理解錯誤可能被誤判為指令層級問題。當模型無法解決指令衝突,可能並非因為不理解角色層級,而是因為指令本身過於複雜。
- 第二,指令衝突可以非常細微,甚至帶有主觀性。常見做法是讓另一個 LLM 作為評審為模型評分,但評審模型本身也可能出錯。
- 第三,模型可能會學到能獲得高分但在實際情況無用的「捷徑」(在新視窗中開啟)。最典型例子是過度拒絕。模型可能為了提高安全分數,連並非有害的正常請求也一律拒絕。
我們設計出強化學習訓練資料集 IH-Challenge,以解決上述問題。設計原則包括:
- 任務保持簡單的指令遵循形式
- 可以透過簡單 Python 腳本客觀評分
- 不存在能在所有任務中輕易取得高分的捷徑
IH-Challenge 中的每個任務基本上是一段對話,包含:
- 一項高權限角色的指令,例如:「只可回答『是』或『否』。」
- 一項較低權限角色的指令,試圖誘導模型違反高權限指令。
訓練中的模型需要生成下一個訊息。任務環境設計為可以透過程式檢查模型回覆是否符合高層級限制。
我們使用 IH-Challenge 訓練模型,得到稱為 GPT‑5 Mini-R 的內部模型。GPT‑5 Mini-R 的主要改善包括:
- 在指令層級結構基準測試中有更佳表現
- 改進後的表現也能延伸到以訓練時未見過的保留資料進行測試,以及對抗式的指令層級結構測試
- 在保持整體實用性的同時避免過度拒絕
這正是這種方法在安全性方面特別有價值的原因:透過在 IH-Challenge 任務中直接訓練模型正確處理指令衝突,我們能讓指令層級結構能力的提升延伸到新的攻擊情境與新的使用場景。
學術基準測試的穩健性
評估 | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf 密碼(系統-用戶) | 0.99 | 0.99 (+0) |
Gandalf 密碼(開發人員-用戶) | 0.98 | 1.00 (+0.02) |
TensorTrust (系統-用戶) | 0.86 | 0.94 (+0.08) |
TensorTrust (開發人員-用戶) | 0.76 | 0.91 (+0.15) |
RealGuardrails (干擾項) | 0.88 | 0.95 (+0.07) |
RealGuardrails (手寫) | 0.82 | 0.89 (+0.07) |
System IFEval | 0.92 | 0.96 (+0.04) |
內部基準測試的穩健性
評估 | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (系統-用戶) | 0.96 | 0.99 (+0.03) |
TutorJailbreak (開發人員-用戶) | 0.97 | 0.99 (+0.02) |
系統 <> 用戶衝突 | 0.84 | 0.95 (+0.11) |
系統 <> 開發人員衝突 | 0.86 | 0.86 (+0) |
開發者 <> 用戶衝突 | 0.83 | 0.95 (+0.12) |
模型能力沒有退步
評估 | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge(過度拒絕) | 0.79 | 1.00 (+0.21) |
TensorTrust(過度拒絕) | 0.91 | 0.90 (-0.01) |
GPQA Diamond | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
Chat WinRate vs. o1 | 0.71 | 0.66 (-0.05) |
偏好得分 | 0.46 | 0.40 (-0.06) |
更強的指令層級結構能力能同時帶來多項安全提升,包括安全可控性,以及對提示注入攻擊的抵抗能力。
我們透過在系統提示詞中加入針對不同類別的安全規範,並在 OpenAI 的安全生產基準測試上評估模型行為,來衡量模型的安全可控性。這些基準測試是一組對安全高度敏感的對話,能代表 ChatGPT 在實際運作環境中的使用情境。
經過指令層級結構訓練的模型顯示穩定提升:在有安全規範的情況下,模型在不允許內容類別中顯示更高的拒絕與安全完成率。這表示當指令層級結構能力提升,模型就更能在低優先級來源提出不安全請求時正確處理衝突。值得注意的是,這項改進並沒有令模型的實用性下降,亦即模型沒有因為整體拒絕更多請求而變得「無法幫手」。


例子展示經指令層級結構訓練的模型如何抵抗提示注入,而 GPT‑5 Mini(基線)則會受到攻擊影響。
當惡意指令被嵌入在工具輸出中時,指令層級結構在抵抗提示注入攻擊方面同樣至關重要。我們在兩個提示注入基準測試上評經估指令層級結構訓練的模型:一個是學術基準 CyberSecEval 2,另一個是 OpenAI 的內部提示注入基準測試,其中包含類似舊版 ChatGPT Atlas 演示的攻擊。
與基線模型相比,經指令層級結構訓練的 GPT‑5 Mini-R 模型在這兩個基準測試上都提升了對提示注入攻擊的穩健性,並在我們的內部靜態提示注入評估中顯著提升表現。
隨著模型變得越來越具備智能代理能力,例如可調用工具、讀取不可信文件,也能在現實世界中採取行動,能夠持續優先遵循可信指令而非不可信指令,將成為一項核心安全特性。
這項研究顯示,只要設計能針對相關問題的訓練環境,指令層級結構穩健性訓練中的多個常見難題都可以被克服。雖然 IH-Challenge 資料集看似簡單,但模型從這些環境中學到的指令層級行為,能延伸至更貼近現實、且往往難以客觀評分的基準測試。
強化指令層級結構不但能提升系統可靠性,亦能同時帶來多項安全與系統防護的提升。隨著 AI 系統能力與自主性不斷增強,這將成為越來越重要的基礎能力。
為支持此領域的進一步研究,我們已在此處(在新視窗中開啟)發佈 IH-Challenge 資料集。


