Zlepšovanie hierarchie inštrukcií v prelomových LLM
Predstavujeme IH-Challenge, tréningový súbor údajov, ktorý posilňuje hierarchiu inštrukcií, bezpečnostnú riaditeľnosť a odolnosť voči vkladaniu falošných príkazov.
Systémy umelej inteligencie často prijímajú pokyny z viacerých zdrojov. Môže ísť o bezpečnostné zásady zo systémových správ, pokyny k produktom od vývojárov, požiadavky od používateľov a informácie nájdené online. Trénovanie modelov tak, aby spoľahlivo uprednostňovali najdôveryhodnejšie pokyny spomedzi týchto zdrojov, je kľúčovou súčasťou bezpečného nasadenia.
Keď sa toto stanovovanie priorít naruší, môže vzniknúť veľa problémov s bezpečnosťou a spoľahlivosťou umelej inteligencie. Modely môžu dostávať žiadosti o zakázaný obsah, pokusy o odhalenie súkromných informácií alebo útoky typu vkladanie príkazov vložené do online údajov. Neschopnosť správať sa primerane v každom z týchto scenárov má rovnakú základnú príčinu: model sa môže riadiť nesprávnym pokynom.
Keď sú tieto inštrukcie v konflikte, model sa musí rozhodnúť, ktoré z nich uprednostní. Ak model považuje nedôveryhodnú inštrukciu za autoritatívnu, môže sa správať spôsobom, ktorý porušuje pravidlá alebo zámer vývojára a používateľa.
Preukazujeme, že správne navrhnuté úlohy hierarchie inštrukcií, ktoré trénujú modely tak, aby uprednostňovali inštrukcie podľa ich úrovne dôveryhodnosti, zlepšujú niekoľko bezpečnostných vlastností v reálnom svete. Modely trénované na tieto úlohy sa stávajú citlivejšími na bezpečnostné špecifikácie v systémových príkazoch (zlepšuje sa bezpečnostná ovládateľnosť) a odolnejšími voči útokom typu „vkladanie falošných príkazov“ vloženým do výstupov nástrojov.
Na riešenie konfliktov sú modely OpenAI trénované tak, aby dodržiavali jasnú hierarchiu inštrukcií:
Systém > vývojár > používateľ > nástroj
Inštrukcie s vyššou prioritou sú dôveryhodnejšie. Model by sa mal riadiť iba inštrukciami s nižšou prioritou, keď nie sú v rozpore s obmedzeniami s vyššou prioritou. Tieto zásady sú uvedené v špecifikácii modelu OpenAI(otvorí sa v novom okne).
Napríklad, ak systémová správa obsahuje bezpečnostnú politiku a používateľ požiada model o jej porušenie, model by mal odmietnuť. Ak výstup nástroja obsahuje škodlivé inštrukcie, model by ich mal ignorovať, a nie považovať ich za príkazy.
Správne dodržanie tohto postupu je základom bezpečnosti, ochrany a spoľahlivosti.
Model vpravo správne nasleduje pokyny vývojára, ktoré majú vyššiu prioritu pred pokynmi používateľa, keď sú tieto dve pokyny v konflikte.
Učenie posilňovaním je prirodzenou voľbou na vyučovanie hierarchie inštrukcií. Môžeme generovať konverzácie s protichodnými inštrukciami, vyzvať model k reakcii a odmeniť ho, keď postupuje podľa správnej inštrukcie.
Identifikovali sme tri úskalia naivného uplatňovania tohto receptu:
- Zlyhania pri dodržiavaní inštrukcií sa môžu zdvojnásobiť aj zlyhaniami hierarchie inštrukcií: model nemusí vyriešiť konflikt inštrukcií nie preto, že by nerozumel hierarchii rolí, ale preto, že samotné inštrukcie sú príliš komplikované.
- Konflikty v inštrukciách môžu byť jemné a dokonca subjektívne. Bežným prístupom je nechať samostatného posudzovateľa LLM priradiť odmeny trénovanému LLM, ale samotní posudzovatelia sú omylní.
- Modely majú tendenciu učiť sa skratky, ktoré vedú k vysokej odmene, ale v praxi sú zbytočné(otvorí sa v novom okne). Klasickým príkladom je nadmerné odmietnutie: modely sa môžu naučiť maximalizovať bezpečnosť odmietnutím aj neškodných žiadostí.
Navrhli sme IH-Challenge, tréningový súbor údajov pre učenie posilňovaním, aby sme riešili každý z týchto problémov. Dodržiavame nasledujúce zásady:
- Úlohy sú jednoduché, postupuje sa podľa inštrukcie
- Sú objektívne hodnotiteľné pomocou jednoduchého skriptu v jazyku Python
- Neexistujú žiadne triviálne skratky, ktoré by zaručovali vysokú odmenu za všetky úlohy
Každá úloha v IH-Challenge je v podstate konverzácia s nasledujúcimi správami:
- Správa s inštrukciami od roly s vysokými oprávneniami, napr. „Odpovedz iba ‚Áno‘ alebo ‚Nie‘“.
- Správa s inštrukciami od roly s nižšími oprávneniami, ktorá sa pokúša prinútiť model porušiť inštrukcie v správe s vyššími oprávneniami.
Trénovaný model generuje ďalšiu správu. Úlohy/prostredia píšeme tak, aby bolo možné programovo skontrolovať, či odpoveď modelu spĺňa obmedzenie vyššej úrovne.
Trénujeme model na IH-Challenge a vytvárame interný model, ktorý nazývame GPT‑5 Mini-R, s nasledujúcimi vylepšeniami:
- Dosahuje lepšie výsledky v benchmarkoch hierarchie inštrukcií
- Zlepšený výkon sa zovšeobecňuje aj na testy hierarchie inštrukcií s odloženou a adversariálnou stránkou.
- Zachováva celkovú užitočnosť bez toho, aby sa zvrhla na nadmerné odmietnutie
Práve to robí tento prístup obzvlášť presvedčivým z hľadiska bezpečnosti: tým, že modely priamo trénujeme, aby správne riešili konflikty inštrukcií v úlohách IH-Challenge, dosahujeme zlepšenia IH, ktoré sa zovšeobecňujú na nové útoky a nové situácie.
Odolnosť v akademických benchmarkoch
Hodnotenie | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf Password (sys-user) | 0,99 | 0,99 (+0) |
Gandalf Password (dev-user) | 0,98 | 1,00 (+0,02) |
TensorTrust (sys-user) | 0,86 | 0,94 (+0,08) |
TensorTrust (dev-user) | 0,76 | 0,91 (+0,15) |
RealGuardrails (Distractors) | 0,88 | 0,95 (+0,07) |
RealGuardrails (Handwritten) | 0,82 | 0,89 (+0,07) |
Systém IFEval | 0,92 | 0,96 (+0,04) |
Odolnosť v interných benchmarkoch
Hodnotenie | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0,96 | 0,99 (+0,03) |
Tutor Jailbreak (dev-user) | 0,97 | 0,99 (+0,02) |
Systém <> Konflikt používateľa | 0,84 | 0,95 (+0,11) |
Systém <> Konflikt vývojára | 0,86 | 0,86 (+0) |
Konflikt Vývojár <> Používateľ | 0,83 | 0,95 (+0,12) |
Žiadne regresie spôsobilosti
Hodnotenie | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Výzva (nadmerné odmietnutie) | 0,79 | 1,00 (+0,21) |
TensorTrust (nadmerné odmietnutie) | 0,91 | 0,90 (-0,01) |
GPQA Diamond | 0,83 | 0,83 (+0) |
AIME 2024 | 0,93 | 0,94 (+0,01) |
Chat WinRate vs. o1 | 0,71 | 0,66 (-0,05) |
Preferenčné skóre | 0,46 | 0,40 (-0,06) |
Silnejšia hierarchia inštrukcií prináša viacero bezpečnostných výhod naraz, vrátane bezpečnej ovládateľnosti a odolnosti voči vkladaniu falošných príkazov.
Hodnotíme bezpečnostnú riaditeľnosť pridaním bezpečnostných špecifikácií pre konkrétnu kategóriu do systémového príkazu a meraním správania na bezpečnostných produkčných benchmarkoch od OpenAI (súbor bezpečnostne citlivých konverzácií reprezentatívnych pre ChatGPT v produkcii).
Model trénovaný pomocou IH vykazuje konzistentné zlepšenie: pri prítomnosti bezpečnostnej špecifikácie dosahuje vyššiu mieru odmietnutia a bezpečného dokončenia naprieč zakázanými kategóriami, čo naznačuje, že silnejšie správanie v rámci hierarchie inštrukcií ho robí lepším pri riešení konfliktov, keď nebezpečné požiadavky pochádzajú z inštrukcií s nižšou prioritou. Je pozoruhodné, že toto zlepšenie nie je sprevádzané zodpovedajúcim poklesom miery užitočnosti (t.j., nestáva sa menej „užitočným“ tým, že jednoducho celkovo viac odmieta).


Príklad toho, ako model trénovaný pomocou IH odoláva vkladaniu falošných príkazov, ktorým GPT‑5 Mini (základná úroveň) uverí.
Hierarchia inštrukcií je tiež kľúčová pri odolávaní voči vkladaniu falošných príkazov, keď sú škodlivé inštrukcie vložené do výstupov nástrojov. Model trénovaný pomocou IH hodnotíme na dvoch benchmarkoch pre vkladanie falošných príkazov – akademickom benchmarku CyberSecEval 2 a internom benchmarku pre vkladanie falošných príkazov od OpenAI, ktorý pozostáva z útokov, ako je ten, ktorý bol demonštrovaný na staršej verzii ChatGPT Atlas.
V porovnaní so základnou úrovňou model GPT‑5 Mini-R trénovaný pomocou IH zlepšuje odolnosť voči vkladaniu falošných príkazov na oboch benchmarkoch a výrazne zlepšuje výkon v našom internom statickom hodnotení vkladania falošných príkazov v týchto experimentoch.
Keď sa modely stávajú viac agentickými—získavajú nástroje, čítajú nedôveryhodné dokumenty a vykonávajú akcie vo svete—schopnosť konzistentne uprednostňovať dôveryhodné inštrukcie pred nedôveryhodnými sa stáva kľúčovou bezpečnostnou vlastnosťou.
V tejto práci ukazujeme, že viaceré úskalia tréningu odolnosti IH možno prekonať navrhnutím tréningových prostredí, ktoré tieto úskalia riešia. Hoci sa náš dataset IH-Challenge zdá jednoduchý, správanie, ktoré sa modely naučia v týchto prostrediach, sa zovšeobecňuje na realistickejšie, často nie objektívne hodnotiteľné benchmarky.
Posilnenie hierarchie inštrukcií nielen zlepšuje spoľahlivosť, ale zároveň odomyká viacero prínosov v oblasti bezpečnosti a zabezpečenia naraz. Tento základ sa stáva čoraz dôležitejším, keď sa systémy umelej inteligencie stávajú schopnejšími a autonómnejšími.
Na podporu ďalšieho výskumu v tejto oblasti zverejňujeme dataset IH‑Challenge tu(otvorí sa v novom okne).


