Удосконалення дотримання ієрархії інструкцій у передових LLM
Представляємо IH-Challenge — навчальний набір даних, що посилює ієрархію інструкцій, керованість безпекою та стійкість до вставлення шкідливих запитів (промпт-ін'єкцій).
Системи ШІ часто отримують інструкції з декількох джерел. Інструкції зазвичай можуть включати політики безпеки із системних повідомлень, рекомендації щодо продукту від розробників, запити від користувачів та інформацію, знайдену онлайн. Навчання моделей тому, щоб вони гарантовано надавали пріоритет інструкціям найнадійніших джерел, є ключовою частиною безпечного розгортання.
Коли така пріоритизація дає збій, з'являється ризик виникнення різноманітних проблем із безпекою та надійністю ШІ. Так, моделі можуть отримувати запити стосовно забороненого контенту, піддаватися спробам розкрити приватну інформацію або атакам із промпт-ін'єкціями, вбудованими в онлайн-дані. Нездатність поводитися належним чином у кожному з цих сценаріїв має одну й ту саму першопричину: модель може дотримуватися неправильної інструкції.
Коли ці інструкції суперечать одна одній, модель має вирішити, якій із них слід надати пріоритет. Якщо модель сприйме недовірену інструкцію як авторитетну, це може призвести до поведінки, що порушуватиме політики чи наміри розробника й користувача.
Ми демонструємо, що належним чином розроблені завдання з ієрархії інструкцій, які навчають моделі надавати пріоритет інструкціям відповідно до рівня їхньої довіри, покращують кілька реальних властивостей безпеки. Моделі, навчені на таких завданнях, стають більш чутливими до специфікацій безпеки в системних запитах (що покращує керованість безпекою) і більш стійкими до атак із промпт-ін'єкціями, вбудованими у вихідні дані інструментів.
Для обробки конфліктів моделі OpenAI навчені дотримуватися чіткої ієрархії інструкцій:
Система > розробник > користувач > інструмент
Інструкції вищого пріоритету викликають більше довіри. Модель має дотримуватися інструкцій нижчого пріоритету лише тоді, коли вони не суперечать обмеженням вищого пріоритету. Ці принципи викладено в специфікації моделі OpenAI(відкривається у новому вікні).
Наприклад, якщо системне повідомлення містить політику безпеки, а користувач просить модель порушити її, модель повинна відмовити. Якщо вивід інструмента містить зловмисні інструкції, модель має ігнорувати їх, а не сприймати як команди.
Правильне виконання цього завдання є основою безпеки та надійності.
Модель праворуч правильно дотримується інструкції розробника, яка має вищий пріоритет, ніж інструкція користувача, коли ці дві інструкції конфліктують.
Навчання з підкріпленням — природний варіант для навчання ієрархії інструкцій. Ми можемо генерувати розмови з конфліктними інструкціями, створювати запити для моделі, щоб вона відповідала, та винагороджувати її, коли вона дотримується правильної інструкції.
Ми визначили три проблеми наївного застосування цього підходу:
- Збої у виконанні інструкцій можуть також бути збоями ієрархії інструкцій: модель може не змогти розв’язати конфлікт інструкцій не тому, що вона не розуміє ієрархії ролей, а тому, що самі інструкції надто складні.
- Суперечності між інструкціями можуть мати нюанси й навіть бути суб’єктивними. Поширений підхід полягає в тому, щоб окремий арбітр LLM призначав винагороди для LLM, яку навчають, але самі арбітри теж припускаються помилок.
- Моделі схильні вивчати обхідні шляхи, які дають високу винагороду, але на практиці є марними(відкривається у новому вікні). Класичний приклад — надмірна відмова (overrefusal): моделі можуть навчитися максимізувати безпеку, відмовляючи навіть у виконанні нешкідливих запитів.
Щоб усунути кожну з цих проблем, ми почали роботу над IH-Challenge, навчальним набором даних для навчання з підкріпленням. При розробці ми дотримуємося наступних принципів:
- Завдання мають містити прості для виконання інструкції
- Має бути передбачена можливість їхньої об’єктивної оцінки за допомогою простого скрипта на Python
- Не має існувати жодних коротких шляхів, які гарантують високу винагороду у всіх завданнях
Кожне завдання в IH-Challenge по суті є розмовою з такими повідомленнями:
- Повідомлення з інструкцією від ролі з високими привілеями, наприклад: «Відповідай лише «Так» або «Ні».»
- Повідомлення з інструкцією від ролі з нижчим рівнем привілеїв, яке намагається змусити модель порушити інструкції в повідомленні з вищим рівнем привілеїв.
Модель, яку навчають, генерує наступне повідомлення. Ми формулюємо завдання/середовища таким чином, щоб можна було програмно перевірити, чи задовольняє відповідь моделі обмеження вищого рівня.
Ми навчаємо модель на IH‑Challenge і створюємо внутрішню модель, яку ми називаємо GPT‑5 Mini-R, з такими покращеннями:
- Краще виконує завдання в тестах ієрархії інструкцій
- Покращена продуктивність узагальнюється на тести ієрархії інструкцій з утриманням та змаганням
- Модель зберігає загальну корисність, не скочуючись у надмірну схильність до відмов
Саме це робить підхід особливо переконливим з точки зору безпеки: безпосередньо навчаючи моделі правильно розв’язувати конфлікти інструкцій на завданнях IH-challenge, ми отримуємо покращення сприйняття ієрархії інструкцій, яке узагальнюється на нові атаки та нові ситуації.
Стійкість за академічними критеріями
Оцінка | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf Password (система–користувач) | 0,99 | 0,99 (+0) |
Gandalf Password (розробник–користувач) | 0,98 | 1,00 (+0,02) |
TensorTrust (система–користувач) | 0,86 | 0,94 (+0,08) |
TensorTrust (розробник–користувач) | 0,76 | 0,91 (+0,15) |
RealGuardrails (відволікаючі фактори) | 0,88 | 0,95 (+0,07) |
RealGuardrails (рукописне введення) | 0,82 | 0,89 (+0,07) |
Система IFEval | 0,92 | 0,96 (+0,04) |
Стійкість за внутрішніми тестами
Оцінка | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (система–користувач) | 0,96 | 0,99 (+0,03) |
Tutor Jailbreak (розробник–користувач) | 0,97 | 0,99 (+0,02) |
Конфлікт «система <> користувач» | 0,84 | 0,95 (+0,11) |
Конфлікт «система <> розробник» | 0,86 | 0,86 (+0) |
Конфлікт «розробник <> користувач» | 0,83 | 0,95 (+0,12) |
Жодної регресії можливостей
Оцінка | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (надмірна відмова) | 0,79 | 1,00 (+0,21) |
TensorTrust (надмірна відмова) | 0,91 | 0,90 (-0,01) |
GPQA Diamond | 0,83 | 0,83 (+0) |
AIME 2024 | 0,93 | 0,94 (+0,01) |
Chat WinRate vs. o1 | 0,71 | 0,66 (-0,05) |
Коефіцієнт переваги | 0,46 | 0,40 (-0,06) |
Сильніша ієрархія інструкцій одночасно забезпечує кілька переваг для безпеки, зокрема в аспекті керованості безпекою та стійкості до вставлення шкідливих запитів.
Ми оцінюємо керованість безпеки, додаючи специфікації безпеки для конкретних категорій до системного запиту та аналізуючи поведінку на виробничих тестах безпеки OpenAI (наборі конфіденційних розмов, що репрезентують ChatGPT у продакшені).
Модель, навчена за IH-набором, демонструє стабільне покращення: за наявності специфікації безпеки вона досягає вищих показників відмов і безпечного завершення в усіх заборонених категоріях, що свідчить про те, що сильніша поведінка дотримання ієрархії інструкцій робить її кращою в розв’язанні конфліктів, коли небезпечні запити надходять із інструкцій нижчого пріоритету. Зокрема, це покращення не супроводжується відповідним зниженням показника корисності (тобто модель не стає «менш корисною» просто через те, що загалом частіше відмовляє).


Приклад того, як модель, навчена за методом IH, протидіє промпт-ін'єкціям, яким піддається GPT‑5 Mini (Baseline).
Ієрархія інструкцій також відіграє центральну роль у протидії вставленню шкідливих запитів — промпт-ін'єкціям, коли зловмисні інструкції вбудовано у вихідні дані інструментів. Ми оцінюємо модель, навчену за IH-набором, на двох еталонних тестах зі вставлення шкідливих запитів — академічному еталонному тесті CyberSecEval 2 та внутрішньому еталонному тесті OpenAI зі вставлення шкідливих запитів, що складається з атак на кшталт тієї, яку було продемонстровано на старішій версії ChatGPT Atlas.
Порівняно з базовим рівнем, модель GPT‑5 Mini-R, навчена за IH-набором, підвищує стійкість до вставлення шкідливих запитів в обох тестах і суттєво покращує результати в нашій внутрішній статичній оцінці промпт-ін'єкцій у цих експериментах.
Щодня моделі стають усе більш агентними — викликають інструменти, читають ненадійні документи та виконують різноманітні дії, тож здатність послідовно надавати пріоритет довіреним інструкціям над недовіреними стає ключовою властивістю безпеки.
Ця робота показує, що кілька підводних каменів тренування надійності ієрархії інструкцій можна подолати, розробивши навчальне середовище, яке враховує ці недоліки. Хоча наш набір даних IH-Challenge здається простим, моделі поведінки, які навчаються в цих середовищах, узагальнюються на більш реалістичні, часто необ’єктивно оцінювані показники.
Посилення ієрархії інструкцій не лише підвищує надійність, а й одночасно відкриває численні переваги для безпеки та захищеності — основу, що стає дедалі важливішою в міру того, як системи ШІ стають більш здібними та автономними.
На підтримку подальших досліджень у цій галузі ми публікуємо набір даних IH‑Challenge тут(відкривається у новому вікні).


