Побољшање хијерархије инструкција у граничним LLM-овима
Представљамо IH-Challenge, скуп података за обуку који јача хијерархију инструкција, управљивост безбедношћу и робусност на уметање инструкције.
Системи вештачке интелигенције често добијају инструкције из више извора. То могу да укључује безбедносне политике из системских порука, смернице за производ од програмера, захтеве корисника и информације пронађене на интернету. Обучавање модела да поуздано дају приоритет инструкцијама којима се највише верује међу овим изворима кључни је део безбедног увођења.
Многи проблеми безбедности и поузданости вештачке интелигенције могу настати када се ово одређивање приоритета наруши. Модели могу добијати захтеве за недозвољен садржај, покушаје откривања приватних информација или нападе уметањем инструкције уграђене у онлајн податке. Неуспех да се у сваком од ових сценарија понашају примерено има исти основни узрок: модел може следити погрешну инструкцију.
Када су ове инструкције у сукобу, модел мора да одлучи којима ће дати приоритет. Ако инструкцију из непоузданог извора третира као ауторитативну, модел може да се понаша на начине који крше политике или намеру програмера и корисника.
Показујемо да правилно осмишљени задаци хијерархије инструкција, који обучавају моделе да дају приоритет инструкцијама према нивоу поверења, побољшавају више својстава безбедности у стварном свету. Модели обучени на овим задацима постају осетљивији на безбедносне спецификације у системским инструкцијама (чиме се побољшава управљивост безбедношћу) и робуснији на нападе уметањем инструкције уграђене у излазе алата.
Да би се носили са сукобима, OpenAI модели се обучавају да прате јасну хијерархију инструкција:
System > developer > user > tool
Инструкције вишег приоритета имају већи степен поверења. Модел треба да следи инструкције нижег приоритета само када нису у сукобу са ограничењима вишег приоритета. Ови принципи су наведени у документу OpenAI спецификације модела(отвара се у новом прозору).
На пример, ако системска порука укључује безбедносну политику, а корисник тражи од модела да је прекрши, модел треба да одбије. Ако излаз алата садржи злонамерне инструкције, модел треба да их игнорише уместо да их третира као команде.
Правилно решавање овога темељ је безбедности, сигурности и поузданости.
Модел са десне стране исправно следи инструкцију програмера, која има виши приоритет, уместо корисникове када су те две инструкције у сукобу.
Подстицајно учење је природан избор за подучавање хијерархији инструкција. Можемо да генеришемо разговоре са конфликтним инструкцијама, затражимо од модела да одговори и наградимо га када следи исправну инструкцију.
Идентификовали смо три замке наивне примене тог рецепта:
- Неуспеси у праћењу инструкција могу истовремено бити и неуспеси хијерархије инструкција: модел можда неће успети да разреши сукоб инструкција, не зато што не разуме хијерархију улога, већ зато што су саме инструкције сувише сложене.
- Сукоби инструкција могу бити нијансирани, па чак и субјективни. Уобичајен приступ је да се засебном великом језичком моделу (LLM) судији препусти додела награда LLM-у који се обучава, али и сами судије су подложне грешкама.
- Модели имају тенденцију да уче пречице које доносе високу награду, али су у пракси бескорисне(отвара се у новом прозору). Класичан пример су прекомерна одбијања: модели могу научити да максимизују безбедност тако што одбијају чак и безазлене захтеве.
Осмислили смо IH-Challenge, скуп података за обуку подстицајним учењем, да бисмо решили сваку од тих замки. Придржавамо се следећих принципа:
- Задаци су једноставни за праћење инструкција
- Објективно су оцењиви једноставном Python скриптом
- Не постоје тривијалне пречице које гарантују високу награду у свим задацима
Сваки задатак у IH-Challenge у суштини је разговор са следећим порукама:
- Порука са инструкцијом из улоге са високим привилегијама, нпр. „Одговарај само са ‘Да’ или ‘Не’“.
- Порука са инструкцијом из улоге са нижим привилегијама, која покушава да наведе модел да прекрши инструкције из поруке више привилеговане улоге.
Модел који се обучава генерише следећу поруку. Задатке/окружења пишемо тако да је могуће програмски проверити да ли одговор модела задовољава ограничење вишег нивоа.
Обучавамо модел на IH‑Challenge и добијамо интерни модел који називамо GPT‑5 Mini-R, са следећим побољшањима:
- Постиже боље резултате на мерилима хијерархије инструкција
- Побољшане перформансе се преносе на издвојене и противничке тестове хијерархије инструкција
- Одржава укупну корисност, без урушавања у прекомерно одбијање
То је оно што овај приступ чини посебно убедљивим за безбедност: директним обучавањем модела да исправно решавају сукобе инструкција на задацима IH-challenge, добијамо побољшања IH која се преносе на нове нападе и нове ситуације.
Робусност на академским мерилима
Евалуација | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf Password (sys-user) | 0.99 | 0.99 (+0) |
Gandalf Password (dev-user) | 0.98 | 1.00 (+0.02) |
TensorTrust (sys-user) | 0.86 | 0.94 (+0.08) |
TensorTrust (dev-user) | 0.76 | 0.91 (+0.15) |
RealGuardrails (одвлачења пажње) | 0.88 | 0.95 (+0.07) |
RealGuardrails (ручно написано) | 0.82 | 0.89 (+0.07) |
System IFEval | 0.92 | 0.96 (+0.04) |
Робусност на интерним мерилима
Евалуација | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0.96 | 0.99 (+0.03) |
Tutor Jailbreak (dev-user) | 0.97 | 0.99 (+0.02) |
Сукоб System <> User | 0.84 | 0.95 (+0.11) |
Сукоб System <> Developer | 0.86 | 0.86 (+0) |
Сукоб Developer <> User | 0.83 | 0.95 (+0.12) |
Без назадовања способности
Евалуација | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (прекомерно одбијање) | 0.79 | 1.00 (+0.21) |
TensorTrust (прекомерно одбијање) | 0.91 | 0.90 (-0.01) |
GPQA Diamond | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
Стопа победа у разговору у односу на o1 | 0.71 | 0.66 (-0.05) |
Оцена преференције | 0.46 | 0.40 (-0.06) |
Јача хијерархија инструкција доноси више безбедносних користи одједном, укључујући управљивост безбедношћу и робусност на уметање инструкције.
Управљивост безбедношћу оцењујемо додавањем категоријски специфичних безбедносних спецификација у системску инструкцију и мерењем понашања на OpenAI производним мерилима безбедности (скупу безбедносно осетљивих разговора репрезентативних за ChatGPT у продукцији).
Модел обучен на IH показује доследно побољшање: када је безбедносна спецификација присутна, постиже веће стопе одбијања и безбедног довршавања у недозвољеним категоријама, што указује да га снажније понашање хијерархије инструкција чини бољим у решавању сукоба када небезбедни захтеви долазе из инструкција нижег приоритета. Важно је да ово побољшање не долази са одговарајућим смањењем стопе корисности (тј. не постаје мање „користан“ тако што једноставно више одбија уопште).


Пример како модел обучен на IH одолева уметању инструкције на које GPT‑5 Mini (основни модел) наседа.
Хијерархија инструкција је такође кључна за отпор уметању инструкције, када су злонамерне инструкције уграђене у излазе алата. Модел обучен на IH оцењујемо на два мерила уметања инструкције — академском мерилу CyberSecEval 2 и OpenAI интерном мерилу уметања инструкције које се састоји од напада попут оног приказаног на старијој верзији ChatGPT Atlas.
У односу на основни модел, модел GPT‑5 Mini-R обучен на IH побољшава робусност на уметање инструкције на оба мерила и значајно побољшава резултате на нашој интерној статичкој евалуацији уметања инструкције у овим експериментима.
Како модели постају све више агентски — позивају алате, читају непоуздана документа и предузимају радње у свету — способност да доследно дају приоритет поузданим инструкцијама над непоузданим постаје кључно безбедносно својство.
Овај рад показује да се неколико замки обуке робусности IH може превазићи осмишљавањем окружења за обуку која решавају те замке. Иако наш скуп података IH-Challenge делује једноставно, понашање IH које модели уче из ових окружења преноси се на реалистичнија мерила која често нису објективно оцењива.
Јачање хијерархије инструкција не само да побољшава поузданост, већ истовремено откључава више добитака у безбедности и сигурности — основу која постаје све важнија како системи вештачке интелигенције постају способнији и аутономнији.
Да бисмо подржали даља истраживања у овој области, објављујемо скуп података IH‑Challenge овде(отвара се у новом прозору).


