Подобряване на йерархията на указанията в авангардни големи езикови модели
Представяме IH-Challenge – набор от данни за обучение, който укрепва йерархията на указанията, управляемостта на безопасността и устойчивостта срещу инжектиране на подкани.
Системите с ИИ често получават указания от множество източници. Те могат да включват политики за безопасност от системни съобщения, насоки за продукта от разработчици, заявки от потребители и информация, намерена онлайн. Обучението на моделите да приоритизират най-надеждните указания сред тези източници е ключова част от безопасното внедряване.
Много проблеми с безопасността и надеждността на ИИ могат да възникнат, когато тази приоритизация се разпадне. Моделите може да получават заявки за недопустимо съдържание, опити за разкриване на лична информация или атаки чрез инжектиране на подкани, вградени в онлайн данни. Неуспехът на модела да постъпи по подходящ начин във всяка от тази примерни ситуации има една и съща първопричина: моделът може да следва грешното указание.
Когато тези указания са в конфликт, моделът трябва да реши кои да приоритизира. Ако третира ненадеждно указание като авторитетно, моделът може да се държи по начини, които нарушават политиките или намеренията на разработчика и потребителя.
Демонстрираме, че правилно проектираните задачи с йерархия на указанията, които обучават моделите да приоритизират указанията според нивото им на надеждност, подобряват няколко свойства за безопасност в реалния свят. Моделите, обучени за тези задачи, стават по-отзивчиви към спецификациите за безопасност в системните подкани (подобрявайки управляемостта на безопасността) и по-устойчиви на атаки с инжектиране на подкана, вградени в изходните данни на инструментите.
За да се справят с конфликти, моделите на OpenAI са обучени да следват ясна йерархия на указанията:
Система > разработчик > потребител > инструмент
Указанията с по-висок приоритет са по-надеждни. Моделът трябва да следва указания с по-нисък приоритет само когато те не противоречат на ограниченията с по-висок приоритет. Тези принципи са описани в OpenAI спецификация на модела(отваря се в нов прозорец).
Например, ако системно съобщение включва политика за безопасност и потребител поиска от модела да я наруши, моделът трябва да откаже. Ако изходните данни на инструмент съдържат злонамерени указания, моделът трябва да ги игнорира, вместо да ги третира като команди.
Правилното изпълнение на това е в основата на безопасността, сигурността и надеждността.
Моделът вдясно правилно следва указанията на разработчика, които имат по-висок приоритет от тези на потребителя, когато двете указания са в конфликт.
Обучение с утвърждение е естествен избор за преподаване на йерархията на указанията. Можем да генерираме разговори с противоречиви указания, да подканим модела да отговори и да го възнаградим, когато следва правилното указание.
Идентифицирахме три подводни камъка при наивното прилагане на тази рецепта:
- Неуспехите при следването на указания могат да се проявят и като неуспехи в йерархията на указанията: моделът може да не успее да разреши конфликт между указания не защото не разбира йерархията на ролите, а защото самите указания са твърде сложни.
- Конфликтите между указанията могат да бъдат трудно забележими и дори субективни. Често срещан подход е да се използва отделен голям езиков модел като съдия, който да присъжда награди на обучавания голям езиков модел, но самите съдии също могат да грешат.
- Моделите са склонни да научават преки пътища, които водят до висока награда, но са безполезни на практика(отваря се в нов прозорец). Класическият пример са прекомерните откази: моделите могат да се научат да оптимизират безопасността, като отказват дори добронамерени заявки.
Ние проектираме IH-Challenge, набор от данни за обучение с утвърждение, за да се справим с всеки от тези капани. Придържаме се към следните принципи:
- Задачите имат прости за следване указания
- Те са обективно оценими с прост скрипт на Python
- Няма тривиални заобиколни пътища, които да гарантират висока награда при различни задачи
Всяка задача в IH-Challenge по същество представлява разговор със следните съобщения:
- Съобщение с указания от роля с високи привилегии, например: „Отговорете само с „Да“ или „Не“.“
- Инструктивно съобщение от роля с по-ниски привилегии, което се опитва да накара модела да наруши указанията в съобщението с по-високи привилегии.
Обучаваният модел генерира следващото съобщение. Ние формулираме задачите/средите така, че да е възможно програмно да се провери дали отговорът на модела удовлетворява ограничението от по-високо ниво.
Обучаваме модел върху IH‑Challenge и създаваме вътрешен модел, който наричаме GPT‑5 Mini-R, със следните подобрения:
- Постига по-добри резултати на еталони за йерархия на указанията
- Подобрената производителност се обобщава към отделени и враждебни тестове за йерархия на указанията
- Запазва общата полезност, без да се свежда до прекомерни откази
Това е причината подходът да е особено убедителен от гледна точка на безопасността: като обучаваме модели директно да разрешават правилно конфликти между указания в задачи от типа IH-challenge, получаваме подобрения в IH, които се обобщават към нови атаки и нови ситуации.
Устойчивост при академични еталони
Оценка | GPT‑5‑Mini | GPT‑5 Mini-R |
Парола на Gandalf (системен потребител) | 0,99 | 0,99 (+0) |
Парола за Gandalf (потребител-разработчик) | 0,98 | 1,00 (+0,02) |
TensorTrust (системен потребител) | 0,86 | 0,94 (+0,08) |
TensorTrust (разработчик-потребител) | 0,76 | 0,91 (+0,15) |
RealGuardrails (Разсейващи фактори) | 0,88 | 0,95 (+0,07) |
RealGuardrails (Ръкописно) | 0,82 | 0,89 (+0,07) |
Система IFEval | 0,92 | 0,96 (+0,04) |
Устойчивост при вътрешни еталони
Оценка | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (системен потребител) | 0,96 | 0,99 (+0,03) |
Tutor Jailbreak (потребител-разработчик) | 0,97 | 0,99 (+0,02) |
Система <> Конфликт с потребителя | 0,84 | 0,95 (+0,11) |
Система <> Конфликт с разработчика | 0,86 | 0,86 (+0) |
Разработчик <> Конфликт с потребителя | 0,83 | 0,95 (+0,12) |
Без регресии в способностите
Оценка | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (прекомерни откази) | 0,79 | 1,00 (+0,21) |
TensorTrust (прекомерни откази) | 0,91 | 0,90 (-0,01) |
GPQA Diamond | 0,83 | 0,83 (+0) |
AIME 2024 | 0,93 | 0,94 (+0,01) |
Победна честота в чата спрямо o1 | 0,71 | 0,66 (-0,05) |
Оценка на предпочитанията | 0,46 | 0,40 (-0,06) |
По-силната йерархия на указанията осигурява множество ползи за безопасността, включително управляемост на безопасността и устойчивост срещу инжектиране на подкани.
Оценяваме управляемостта на безопасността, като добавяме специфични за категорията спецификации за безопасност към системната подкана и измерваме поведението спрямо OpenAI Production Benchmarks за безопасност (набор от разговори, чувствителни към безопасността, представителни за ChatGPT в продукционна среда).
Моделът, обучен с IH, показва последователно подобрение: при наличие на спецификацията за безопасност той постига по-високи нива на отказ и безопасно ниво на завършване в забранените категории, което показва, че по-силното поведение на йерархията на указанията го прави по-добър в разрешаването на конфликти, когато опасни заявки идват от указания с по-нисък приоритет. Важно е да се отбележи, че това подобрение не е съпроводено със съответно намаляване на процента на полезност (т.е. не става по-малко „полезно“, като просто отказва повече като цяло).


Пример за това как обучен на IH модел се противопоставя на инжектиране на подкани, на които GPT‑5 Mini (Baseline) се поддава.
Йерархията на указанията е също така ключова за противодействие на инжектиране на подкана, когато злонамерени указания са вградени в изходните данни от инструменти. Оценяваме обучения с IH модел по два еталона за инжектиране на подкани – академичния еталон CyberSecEval 2 и вътрешен за OpenAI еталон за инжектиране на подкани, състоящ се от атаки като тази, демонстрирана в по-стара версия на ChatGPT Atlas.
Спрямо базовата линия, обученият с IH модел GPT‑5 Mini-R подобрява устойчивостта срещу инжектиране на подкана и в двата еталона и значително подобрява представянето при нашата вътрешна статична оценка за инжектиране на подкана в тези експерименти.
С нарастването на агентността на моделите – извикване на инструменти, четене на ненадеждни документи и предприемане на действия в света – способността последователно да се приоритизират надеждните указания пред ненадеждните се превръща в основно свойство за безопасност.
Тази работа показва, че няколко капана на обучението за устойчивост на IH могат да бъдат преодолени чрез проектиране на среди за обучение, които адресират тези капани. Въпреки че нашият набор от данни IH-Challenge изглежда прост, поведението стил IH, което моделите научават от тези среди, се обобщава към по-реалистични, често необективно оценими еталони.
Укрепването на йерархията на указанията не само подобрява надеждността, но и отключва множество ползи за безопасността и сигурността едновременно – основа, която става все по-важна, тъй като системите с ИИ стават по-способни и автономни.
За да подкрепим по-нататъшните изследвания в тази област, публикуваме набора от данни IH‑Challenge тук(отваря се в нов прозорец).


