Zlepšování hierarchie pokynů v průkopnických LLM
Představujeme IH-Challenge, tréninkovou datovou sadu, která posiluje hierarchii pokynů, řiditelnost bezpečnosti a odolnost vůči injektáži promptů.
Systémy AI často dostávají pokyny z více zdrojů. Může se jednat o bezpečnostní zásady ze systémových zpráv, pokyny k produktům od vývojářů, požadavky od uživatelů a informace nalezené online. Trénování modelů tak, aby spolehlivě upřednostňovaly nejdůvěryhodnější pokyny mezi těmito zdroji, je klíčovou součástí bezpečného nasazení.
Pokud se toto stanovení priorit naruší, může vzniknout mnoho problémů s bezpečností a spolehlivostí umělé inteligence. Modely mohou dostávat žádosti o nepovolený obsah, pokusy o odhalení soukromých informací nebo útoky injektáží promptů vložené do online dat. Nevhodné chování v každém z těchto scénářů má stejnou základní příčinu: model se může řídit nesprávnými pokyny.
Když jsou tyto pokyny v rozporu, model se musí rozhodnout, které z nich upřednostnit. Pokud bude považovat nedůvěryhodný pokyn za autoritativní, se může zachovat způsoby, které porušují zásady nebo záměr vývojáře a uživatele.
Ukazujeme, že správně navržené úlohy hierarchie instrukcí, které trénují modely, aby upřednostňovaly instrukce podle úrovně jejich důvěryhodnosti, zlepšují několik bezpečnostních vlastností v reálném světě. Modely trénované na těchto úkolech se stávají citlivějšími na bezpečnostní specifikace v systémových výzvách (zlepšuje se řiditelnost bezpečnosti) a odolnějšími vůči injektáži promptů obsažených ve výstupech nástrojů.
Pro řešení konfliktů jsou modely OpenAI trénovány tak, aby dodržovaly jasnou hierarchii pokynů:
Systém > vývojář > uživatel > nástroj
Pokyny s vyšší prioritou jsou důvěryhodnější. Model by se měl řídit pokyny s nižší prioritou pouze tehdy, pokud nejsou v rozporu s omezeními s vyšší prioritou. Tyto zásady jsou uvedeny ve specifikaci modelu OpenAI(otevře se v novém okně).
Pokud například systémová zpráva obsahuje bezpečnostní zásady a uživatel požádá model, aby je porušil, model by to měl odmítnout. Pokud výstup nástroje obsahuje škodlivé instrukce, model by je měl ignorovat a nepovažovat je za příkazy.
Správné nastavení je základem bezpečnosti, ochrany a spolehlivosti.
Model vpravo správně dodržuje pokyny vývojáře, které mají vyšší prioritu než pokyny uživatele, pokud jsou tyto dvojí pokyny v rozporu.
Učení posilováním je přirozenou volbou pro výuku hierarchie pokynů. Můžeme generovat konverzace s protichůdnými pokyny, vyzvat model k odpovědi a odměnit ho, když se řídí správným pokynem.
Identifikovali jsme tři úskalí naivního použití tohoto receptu:
- Selhání při dodržování pokynů mohou být zároveň selháními hierarchie pokynů: model nemusí být schopen vyřešit konflikt pokynů ne proto, že nerozumí hierarchii rolí, ale proto, že samotné pokyny jsou příliš složité.
- Konflikty mezi pokyny mohou být plné nuancí a dokonce mohou být i subjektivní. Běžným přístupem je nechat samostatného posuzovatele LLM přidělovat odměny školenému LLM, ale samotní posuzovatelé jsou také omylní.
- Modely mají tendenci se učit zkratky, které vedou k vysoké odměně, ale v praxi jsou k ničemu(otevře se v novém okně). Klasickým příkladem je přehnané odmítání: modely se mohou naučit maximalizovat bezpečnost tím, že odmítají i neškodné požadavky.
Navrhli jsme IH-Challenge, datovou sadu pro trénink posilovacího učení, která řeší každé z těchto úskalí. Dodržujeme následující zásady:
- Úkoly jsou jednoduché a založené na dodržování pokynů.
- Jsou objektivně hodnotitelné pomocí jednoduchého Python skriptu.
- Neexistují žádné triviální zkratky, které by zaručovaly vysokou odměnu v rámci všech úkolů.
Každý úkol v IH-Challenge je v podstatě konverzace s následujícími zprávami:
- Zpráva s pokynem od subjektu s vysokými oprávněními, např. „Odpovídej pouze ‚Ano‘ nebo ‚ne‘“.
- Zpráva s pokynem od subjektu s nižšími oprávněními, která se pokouší přimět model k porušení pokynů ve zprávě s vyššími oprávněními.
Trénovaný model vygeneruje další zprávu. Úlohy/prostředí píšeme tak, aby bylo možné programově zkontrolovat, zda odpověď modelu splňuje omezení vyšší úrovně.
Trénujeme model na IH‑Challenge a vytvoříme interní model, který nazýváme GPT‑5 Mini-R, s následujícími vylepšeními:
- Dosahuje lepších výsledků v benchmarcích hierarchie pokynů
- Vylepšený výkon se zobecňuje na testy hierarchie pokynů s omezeným přístupem a adversarialním přístupem.
- Zachovává celkovou užitečnost, aniž by přešel do přehnaného odmítání.
Důvody, proč je tento přístup z hlediska bezpečnosti tolik atraktivní: tím, že přímo trénujeme modely, aby správně řešily konflikty instrukcí v úlohách IH-Challenge, získáváme zlepšení IH, která se zobecňují na nové útoky a nové situace.
Odolnost na akademických srovnávacích testech
Hodnocení | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalfovo heslo (sys-user) | 0,99 | 0,99 (+0) |
Gandalfovo heslo (dev-user) | 0,98 | 1,00 (+0,02) |
TensorTrust (systémový uživatel) | 0,86 | 0,94 (+0,08) |
TensorTrust (dev-user) | 0,76 | 0,91 (+0,15) |
RealGuardrails (Rušivé prvky) | 0,88 | 0,95 (+0,07) |
RealGuardrails (Ručně psané) | 0,82 | 0,89 (+0,07) |
Systém IFEval | 0,92 | 0,96 (+0,04) |
Odolnost na interních srovnávacích testech
Hodnocení | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (systémový uživatel) | 0,96 | 0,99 (+0,03) |
Tutor Jailbreak (dev-user) | 0,97 | 0,99 (+0,02) |
Konflikt systém <> uživatel | 0,84 | 0,95 (+0,11) |
Konflikt systém <> vývojář | 0,86 | 0,86 (+0) |
Konflikt vývojář <> uživatel | 0,83 | 0,95 (+0,12) |
Žádná regrese funkcí
Hodnocení | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (nadměrné odmítnutí) | 0,79 | 1,00 (+0,21) |
TensorTrust (přehnané odmítnutí) | 0,91 | 0,90 (-0,01) |
GPQA Diamond | 0,83 | 0,83 (+0) |
AIME 2024 | 0,93 | 0,94 (+0,01) |
Poměr výher v chatu vs. o1 | 0,71 | 0,66 (-0,05) |
Skóre preference | 0,46 | 0,40 (-0,06) |
Silnější hierarchie pokynů s sebou nese více bezpečnostních přínosů najednou, včetně řiditelnosti bezpečnosti a odolnosti vůči injektáži promptů.
Řiditelnost bezpečnosti vyhodnocujeme tak, že do systémového promptu přidáváme bezpečnostní specifikace pro jednotlivé kategorie a měříme chování na bezpečnostních produkčních benchmarcích OpenAI (sada konverzací citlivých na bezpečnost, reprezentativních pro ChatGPT v produkčním prostředí).
Model natrénovaný pomocí IH vykazuje konzistentní zlepšení: pokud existuje bezpečnostní specifikace, dosahuje vyšší míry odmítnutí a bezpečného dokončení v rámci zakázaných kategorií. To naznačuje, že silnější chování hierarchie pokynů zlepšuje její schopnost řešit konflikty, když nebezpečné požadavky pocházejí z instrukcí s nižší prioritou. Je pozoruhodné, že toto zlepšení není doprovázeno odpovídajícím poklesem míry užitečnosti (tj. nestává se méně „užitečným“ jen tím, že celkově častěji odmítá).


Příklad toho, jak model vytrénovaný pomocí IH odolá injektáži promptů, které model GPT‑5 Mini (Baseline) podlehne.
Hierarchie pokynů je také klíčová při odolávání injektáži promptů, kdy se škodlivé pokyny vkládají do výstupů nástrojů. Model trénovaný na IH vyhodnocujeme na dvou srovnávacích testech injektáže promptů: akademickém srovnávacím testu CyberSecEval 2 a interním srovnávacím testu injektáže promptů OpenAI, který se skládá z útoků, jako je útok předvedený na starší verzi ChatGPT Atlas.
V porovnání s výchozím stavem zlepšuje model GPT‑5 Mini-R trénovaný metodou IH v obou benchmarkových testech odolnost vůči injektáži promptů a podstatně zlepšuje výkon v našem interním statickém hodnocení injektáže promptů v těchto experimentech.
S tím, jak se modely stále více přibližují agentům (volají nástroje, čtou nedůvěryhodné dokumenty a provádějí reálné akce), se schopnost konzistentně upřednostňovat důvěryhodné pokyny před nedůvěryhodnými stává klíčovou bezpečnostní vlastností.
Tato práce ukazuje, že několika úskalím trénování odolnosti IH lze předejít navržením trénovacích prostředí, která tato úskalí řeší. Ačkoli se zdá, že je naše sada IH-Challenge jednoduchá, chování, které se modely naučí v těchto prostředích, se zobecňuje na realističtější benchmarky, které často nelze objektivně hodnotit.
Posílení hierarchie pokynů nejen zvyšuje spolehlivost, ale zároveň otvírá cestu hned pro několik přínosů v oblasti bezpečnosti a zabezpečení. To je základ, který je stále důležitější s tím, jak se systémy umělé inteligence stávají schopnějšími a autonomnějšími.
Na podporu dalšího výzkumu v této oblasti zveřejňujeme zde(otevře se v novém okně) datovou sadu IH‑Challenge.


