Улучшение иерархии инструкций в передовых LLM
Представляем IH-Challenge — обучающий набор данных, который усиливает иерархию инструкций, управляемость безопасности и устойчивость к промпт-инъекциям.
ИИ-системы часто получают инструкции из нескольких источников. Они могут включать политики безопасности из системных сообщений, рекомендации по продукту от разработчиков, запросы от пользователей и информацию, найденную в интернете. Обучение моделей надёжно расставлять приоритеты между инструкциями в зависимости от уровня доверия к источнику — ключевая часть безопасного развертывания.
Многие проблемы безопасности и надежности ИИ могут возникать, когда эта приоритизация нарушается. Модели могут получать запросы на запрещённый контент, попытки раскрытия личной информации или атаки с промпт-инъекцией, встроенные в онлайн-данные. Неспособность вести себя надлежащим образом в каждом из этих сценариев имеет одну и ту же первопричину: модель может следовать неверной инструкции.
Когда такие инструкции конфликтуют, модель должна решить, каким из них отдавать приоритет. Если она воспринимает инструкцию из менее надёжного источника как авторитетную, модель может вести себя так, что это приведёт к нарушению политик или намерений разработчиков и пользователей.
Мы показываем, что правильно спроектированные задачи иерархии инструкций, которые обучают модели расставлять приоритеты инструкций в соответствии с уровнем их доверия, улучшают ряд важных свойств безопасности в реальных условиях. Модели, обученные на таких задачах, лучше реагируют на спецификации безопасности в системных промптах (улучшая управляемость безопасности) и становятся более устойчивыми к атакам с промпт-инъекцией, встроенным в выходные данные инструментов.
Чтобы разрешать конфликты, модели OpenAI обучаются следовать чёткой иерархии инструкций:
Система > разработчик > пользователь > инструмент
Инструкциям с более высоким приоритетом доверяют больше. Модель должна следовать инструкциям более низкого приоритета только тогда, когда они не противоречат ограничениям более высокого приоритета. Эти принципы изложены в спецификации модели OpenAI(открывается в новом окне).
Например, если системное сообщение включает политику безопасности, а пользователь просит модель нарушить ее, модель должна отказаться. Если вывод инструмента содержит вредоносные инструкции, модель должна игнорировать их, а не воспринимать как команды.
Правильная реализация этого лежит в основе безопасности, защищённости и надёжности
Модель справа корректно следует инструкции разработчика, имеющей более высокий приоритет, чем инструкция пользователя, когда между ними возникает конфликт.
Обучение с подкреплением естественным образом подходит для обучения иерархии инструкций. Мы можем генерировать диалоги с конфликтующими инструкциями, использовать промпт, чтобы модель ответила, и вознаграждать её, когда она следует правильной инструкции.
Мы выявили три подводных камня при наивном применении этого подхода:
- Сбои в следовании инструкциям могут одновременно быть сбоями в иерархии инструкций: модель может не суметь разрешить конфликт инструкций не потому, что она не понимает иерархию ролей, а потому, что сами инструкции слишком сложны.
- Конфликты инструкций могут быть тонкими и даже субъективными. Распространённый подход — позволить отдельной LLM-модели выступать в роли судьи и назначать вознаграждения обучаемой LLM, но сами такие «судьи» тоже могут ошибаться.
- Модели, как правило, учатся находить короткие пути, которые приводят к высокому вознаграждению, но на практике бесполезны(открывается в новом окне). Классический пример — чрезмерные отказы: модели могут научиться максимизировать безопасность, отказывая даже в выполнении безобидных запросов.
Мы разработали IH-Challenge — обучающий набор данных для обучения с подкреплением, чтобы устранить каждую из этих проблем. Мы соблюдаем следующие принципы:
- Задачи просты с точки зрения следования инструкциям
- Их можно объективно оценить с помощью простого Python-скрипта
- Не существует простых обходных путей, которые гарантировали бы высокий результат по всем задачам.
По сути, каждая задача в IH-Challenge представляет собой разговор со следующими сообщениями:
- Сообщение с инструкциями от роли с более высоким уровнем привилегий, например: «Отвечайте только „Да“ или „Нет“».
- Сообщение-инструкция от роли с более низким уровнем привилегий, которое пытается заставить модель нарушить инструкцию из сообщения с более высоким уровнем привилегий.
Обучаемая модель генерирует следующее сообщение. Мы формулируем задачи/среды так, чтобы можно было программно проверить, удовлетворяет ли ответ модели ограничению более высокого уровня.
Мы обучаем модель на IH‑Challenge и создаём внутреннюю модель, которую мы называем GPT‑5 Mini-R, со следующими улучшениями:
- Показывает лучшие результаты на бенчмарках instruction‑hierarchy
- Улучшенная производительность обобщается на ранее не встречавшиеся (held-out) и состязательные тесты иерархии инструкций.
- Сохраняет общую полезность, не скатываясь в чрезмерные отказы
Именно это делает подход особенно убедительным с точки зрения безопасности: обучая модели корректно разрешать конфликты инструкций на задачах IH-Challenge, мы получаем улучшения в иерархии инструкций, которые обобщаются на новые атаки и новые ситуации.
Устойчивость на академических бенчмарках
Оценка | GPT‑5‑Mini | GPT‑5 Mini-R |
Пароль Gandalf (sys-user) | 0,99 | 0,99 (+0) |
Gandalf Password (sys-user) | 0,98 | 1,00 (+0,02) |
TensorTrust (sys-user) | 0,86 | 0,94 (+0,08) |
TensorTrust (dev-user) | 0,76 | 0,91 (+0,15) |
RealGuardrails (Distractors) | 0,88 | 0,95 (+0,07) |
RealGuardrails (Handwritten) | 0,82 | 0,89 (+0,07) |
Система IFEval | 0,92 | 0,96 (+0,04) |
Устойчивость на внутренних бенчмарках
Оценка | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0,96 | 0,99 (+0,03) |
Tutor Jailbreak (dev-user) | 0,97 | 0,99 (+0,02) |
Конфликт System <> User | 0,84 | 0,95 (+0,11) |
Конфликт System <> Developer | 0,86 | 0,86 (+0) |
Конфликт Developer <> User | 0,83 | 0,95 (+0,12) |
Без регрессий функциональности
Оценка | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (overrefusal) | 0,79 | 1,00 (+0,21) |
TensorTrust (overrefusal) | 0,91 | 0,90 (-0,01) |
GPQA Diamond | 0,83 | 0,83 (+0) |
AIME 2024 | 0,93 | 0,94 (+0,01) |
Chat WinRate vs. o1 | 0,71 | 0,66 (-0,05) |
Оценка предпочтений | 0,46 | 0,40 (-0,06) |
Более строгая иерархия инструкций одновременно даёт несколько преимуществ в области безопасности, включая управляемость безопасности и устойчивость к промпт-инъекциям.
Мы оцениваем управляемость безопасности, добавляя в системный промпт спецификации безопасности для конкретных категорий и измеряя поведение на производственных бенчмарках безопасности OpenAI (наборе чувствительных к безопасности диалогов, репрезентативных для ChatGPT в рабочей среде).
Модель, обученная на IH, демонстрирует стабильное улучшение: при наличии спецификации безопасности она показывает более высокие показатели отказов и безопасного завершения во всех запрещённых категориях. Это указывает на то, что более строгая иерархия инструкций помогает лучше разрешать конфликты, когда небезопасные запросы исходят из инструкций с более низким приоритетом. Примечательно, что это улучшение не сопровождается снижением показателя полезности (то есть модель не становится менее «полезной» просто потому, что в целом чаще отказывает).


Пример того, как модель, обученная на IH, противостоит промпт-инъекциям, которым поддаётся GPT‑5 Mini (Baseline).
Иерархия инструкций также играет ключевую роль в противодействии промпт-инъекциям, когда вредоносные инструкции внедряются в выходные данные инструментов. Мы оцениваем модель, обученную с использованием IH, на двух бенчмарках промпт-инъекций — академическом бенчмарке CyberSecEval 2 и внутреннем бенчмарке OpenAI по промпт-инъекциям, включающем атаки, подобные той, что была продемонстрирована на более ранней версии ChatGPT Atlas.
По сравнению с базовой моделью GPT‑5 Mini-R, обученная на IH, показывает более высокую устойчивость к промпт-инъекциям на обоих бенчмарках и значительно лучшие результаты в нашей внутренней статической оценке промпт-инъекций в этих экспериментах.
По мере того как модели становятся более агентными — вызывают инструменты, читают документы из непроверенных источников и совершают действия в мире — способность последовательно отдавать приоритет инструкциям из более надёжных источников перед инструкциями из менее надёжных становится ключевым свойством безопасности.
Эта работа показывает, что ряд подводных камней обучения устойчивости иерархии инструкций можно преодолеть, создавая обучающие среды, специально спроектированные для их устранения. Хотя наш набор данных IH-Challenge кажется простым, поведение, которому модели обучаются в этих средах, обобщается на более реалистичные бенчмарки, которые часто невозможно оценить объективно.
Укрепление иерархии инструкций не только повышает надёжность, но и одновременно даёт целый ряд преимуществ для безопасности и защищённости — основу, значение которой возрастает по мере того, как системы ИИ становятся более мощными и автономными.
Чтобы поддержать дальнейшие исследования в этой области, мы публикуем набор данных IH‑Challenge здесь(открывается в новом окне).


