フロンティア LLM における指示階層の改善
指示階層、安全性ステアラビリティ、プロンプトインジェクションに対するロバスト性を強化するトレーニングデータセット「IH-Challenge」をご紹介します。
AI システムは多くの場合、複数のソースから指示を受け取ります。これらには、システムメッセージに含まれる安全ポリシー、開発者によるプロダクトガイダンス、ユーザーからのリクエスト、オンラインで得られる情報などが含まれます。こうしたソースの中で、最も信頼できる指示を確実に優先できるようモデルを学習させることは、安全に運用するうえで重要です。
この優先順位付けが崩れると、AI の安全性や信頼性に関するさまざまな問題が生じる可能性があります。モデルは、許可されていないコンテンツのリクエスト、個人情報を引き出そうとする試み、あるいはオンラインデータに埋め込まれたプロンプトインジェクション攻撃を受け取る可能性があります。こうした状況でモデルが適切に振る舞えない原因は共通しています。それは、モデルが誤った指示に従ってしまう可能性があることです。
これらの指示が競合する場合、モデルはどの指示を優先するかを判断する必要があります。信頼できない指示を権威あるものとして扱ってしまうと、モデルはポリシーや開発者・ユーザーの意図に反する挙動を示す可能性があります。私たちは、適切に設計された指示階層タスクが、現実世界における複数の安全性特性を改善することを示します。これらのタスクは、信頼レベルに応じて指示を優先するようモデルを学習させます。これらのタスクで学習したモデルは、システムプロンプトの安全仕様に対する応答性が高まり(安全性ステアラビリティ(制御可能性)が向上)、ツール出力に埋め込まれたプロンプトインジェクション攻撃にもよりロバストになります。
こうした競合に対処するため、OpenAI のモデルは明確な指示階層に従うよう学習されています。
システム > 開発者 > ユーザー > ツール
優先度の高い指示ほど信頼されます。モデルは、低い優先順位の指示がより高い優先順位の指示と競合しない場合にのみ、それらに従うべきです。これらの原則は、OpenAI Model Spec(新しいウィンドウで開く) に示されています。
たとえば、システムメッセージに安全ポリシーが含まれていて、ユーザーがそれに違反するようモデルに求めた場合、モデルは拒否する必要があります。ツールの出力に悪意のある指示が含まれている場合、モデルはそれらをコマンドとして扱うのではなく、無視する必要があります。
これを正しく機能させることは、安全性、セキュリティ、信頼性の基盤となります。
右側のモデルは、2つの指示が競合する場合、ユーザーの指示よりも優先度の高い開発者の指示に正しく従います。
強化学習は、指示階層を学習させる方法として自然な選択肢です。矛盾する指示を含む会話を生成し、モデルに応答させ、正しい指示に従った場合に報酬を与えることができます。
この手法を単純に適用すると、次の3つの落とし穴があることが分かりました。
- 指示追従の失敗は、指示階層の失敗として現れることがあります。つまり、モデルが指示の競合を解決できないのは、役割の階層を理解していないからではなく、指示そのものが複雑すぎるためである可能性があります。
- 指示の競合は微妙で、場合によっては主観的になることもあります。一般的な方法として、別の LLM に評価を行わせ、学習中の LLM に報酬を割り当てる方法があります。しかし、その評価を行う LLM 自体も誤る可能性があります。
- モデルは、高い報酬につながるものの、実際には役に立たない近道(新しいウィンドウで開く)を学習してしまう傾向があります。典型的な例が過剰拒否です。モデルは、安全性を最大化するために、無害なリクエストでさえ拒否することを学習してしまう場合があります。
私たちは、これらの落とし穴それぞれに対処するため、強化学習用のトレーニングデータセットである IH-Challenge を設計しました。次の原則に基づいて設計しています。
- タスクは、指示に従うこと自体がシンプルです。
- シンプルな Python スクリプトで客観的に採点できます。
- すべてのタスクで高い報酬を保証するような、明らかな近道は存在しません。
IH-Challenge の各タスクは、基本的に次のようなメッセージからなる会話です。
- 高い権限を持つロールからの指示メッセージ(例:「はい」または「いいえ」だけで答えてください。
- より低い権限のロールからの指示メッセージで、高い権限のメッセージの指示に違反するようモデルを誘導します。
学習中のモデルが次のメッセージを生成します。モデルの応答が高いレベルの制約を満たしているかどうかをプログラムで確認できるよう、タスクや環境を設計しています。
IH‑Challenge でモデルを学習し、GPT‑5 Mini-R と呼ぶ内部モデルを作成しました。このモデルでは次のような改善が見られます。
- 指示階層ベンチマークでより高い性能を示す
- 改善された性能は、ヘルドアウトおよび敵対的な指示階層テストにも一般化する
- 過剰拒否に陥ることなく、全体的な有用性を維持する
これが、このアプローチが安全性の観点で特に有効である理由です。IH-Challenge のタスクで指示の競合を正しく解決するようモデルを直接学習させることで、指示階層に関する性能改善が新しい攻撃や新しい状況にも一般化します。
学術ベンチマークにおけるロバスト性
評価 | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf Password (sys-user) | 0.99 | 0.99 (+0) |
Gandalf Password (dev-user) | 0.98 | 1.00 (+0.02) |
TensorTrust (sys-user) | 0.86 | 0.94 (+0.08) |
TensorTrust (dev-user) | 0.76 | 0.91 (+0.15) |
RealGuardrails (Distractors) | 0.88 | 0.95 (+0.07) |
RealGuardrails (Handwritten) | 0.82 | 0.89 (+0.07) |
System IFEval | 0.92 | 0.96 (+0.04) |
社内ベンチマークにおけるロバスト性
評価 | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0.96 | 0.99 (+0.03) |
Tutor Jailbreak (dev-user) | 0.97 | 0.99 (+0.02) |
システム <> ユーザーの競合 | 0.84 | 0.95 (+0.11) |
システム <> 開発者の競合 | 0.86 | 0.86 (+0) |
開発者 <> ユーザー間の競合 | 0.83 | 0.95 (+0.12) |
機能の退行なし
評価 | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (overrefusal) | 0.79 | 1.00 (+0.21) |
TensorTrust (overrefusal) | 0.91 | 0.90 (-0.01) |
GPQA Diamond | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
Chat WinRate vs. o1 | 0.71 | 0.66 (-0.05) |
選好スコア | 0.46 | 0.40 (-0.06) |
より強固な指示階層は、安全性ステアラビリティやプロンプトインジェクションに対するロバスト性など、複数の安全上の利点を同時にもたらします。
私たちは、カテゴリ別の安全仕様をシステムプロンプトに追加し、OpenAI の安全性評価用 Production Benchmarks(本番環境の ChatGPT を代表する、安全性に関わる会話を集めたベンチマーク)での挙動を測定することで、安全性ステアラビリティを評価します。
IH 学習済みモデルは一貫した改善を示しています。安全仕様がある場合、禁止カテゴリ全体で拒否率と安全な応答率がより高くなります。これは、より強い指示階層の挙動によって、危険なリクエストが低優先度の指示から来た場合でも競合を適切に解決できることを示しています。特筆すべき点として、この改善は有用性の低下を伴うものではありません(つまり、単に拒否が増えたことで全体として有用性が低くなっているわけではありません)。


IH 学習済みモデルが、GPT‑5 Mini(Baseline)が引っかかるプロンプトインジェクションを防ぐ例。
ツールの出力に悪意のある指示が埋め込まれる場合、指示階層はプロンプトインジェクションに対抗するうえでも重要な役割を果たします。私たちは、IH 学習済みモデルを2つのプロンプトインジェクションベンチマークで評価します。1つは学術ベンチマークである CyberSecEval 2、もう1つは ChatGPT Atlas の旧バージョンで実演されたような攻撃を含む OpenAI の社内プロンプトインジェクションベンチマークです。
ベースラインと比較して、IH 学習済みの GPT‑5 Mini-R モデルは両方のベンチマークでプロンプトインジェクションに対するロバスト性を向上させ、これらの実験では社内の静的プロンプトインジェクション評価における性能も大幅に改善しています。
ツールを呼び出したり、信頼できないドキュメントを読んだり、現実世界で操作や行動を行ったりするなど、モデルがよりエージェントとして振る舞うようになるにつれて、信頼できる指示を信頼できない指示より常に優先できる能力は、安全性の中核的な特性となります。
本研究は、IH ロバスト性の学習におけるいくつかの落とし穴が、それらに対処するよう設計された訓練環境によって克服できることを示しています。IH-Challenge データセットは一見シンプルですが、これらの環境からモデルが学習する IH の挙動は、より現実的で、しばしば客観的に採点できないベンチマークにも一般化します。
指示階層を強化することは、信頼性を高めるだけでなく、安全性とセキュリティの複数の向上を同時にもたらします。AI システムがより高性能で自律的になるにつれて、この基盤の重要性はますます高まります。
この分野のさらなる研究を支援するため、IH-Challenge データセットをこちら(新しいウィンドウで開く)で公開します。


