Poboljšanje hijerarhije instrukcija u naprednim LLM-ovima
Predstavljamo IH-izazov, skup podataka za trening koji jača hijerarhiju instrukcija, upravljivost sigurnosti i otpornost na ubrizgavanje upita.
AI sustavi često primaju instrukcije iz više izvora. To može uključivati sigurnosna pravila iz sistemskih poruka, smjernice o proizvodu od razvojnih inženjera, zahtjeve korisnika i informacije pronađene na internetu. Treniranje modela da pouzdano daje prednost najpouzdanijim instrukcijama među tim izvorima ključan je dio sigurne primjene.
Mnogi problemi sigurnosti i pouzdanosti umjetne inteligencije mogu se pojaviti kada se ovo određivanje prioriteta naruši. Modeli mogu primati zahtjeve za nedopušteni sadržaj, pokušaje otkrivanja privatnih informacija ili prompt‑injection napade ugrađene u online podatke. Neprimjereno ponašanje u svakom od ovih scenarija dijeli isti temeljni uzrok: model može slijediti pogrešnu instrukciju.
Kada su ove upute u sukobu, model mora odlučiti kojima dati prednost. Ako nepouzdanu instrukciju tretira kao autoritativnu, model se može ponašati na načine koji krše pravila ili namjeru razvojnog inženjera i korisnika.
Pokazujemo da pravilno osmišljeni zadaci hijerarhije instrukcija, koji treniraju modele da daju prednost instrukcijama prema njihovoj razini pouzdanosti, poboljšavaju nekoliko sigurnosnih svojstava u stvarnom svijetu. Modeli trenirani na tim zadacima postaju osjetljiviji na sigurnosne specifikacije u sistemskim upitima (poboljšavajući upravljivost sigurnosti) i otporniji na napade ubrizgavanjem upita ugrađene u izlaze alata.
Za rješavanje sukoba OpenAI-jevi modeli trenirani su da slijede jasnu hijerarhiju instrukcija:
Sustav > razvojni inženjer > korisnik > alat
Instrukcije višeg prioriteta pouzdanije su. Model bi trebao slijediti instrukcije nižeg prioriteta samo kada nisu u sukobu s ograničenjima višeg prioriteta. Ova načela navedena su u Specifikaciji modela OpenAI-ja(otvara se u novom prozoru).
Na primjer, ako poruka sustava uključuje sigurnosno pravilo, a korisnik zatraži od modela da ga prekrši, model bi trebao odbiti. Ako izlaz alata sadržava zlonamjerne instrukcije, model bi ih trebao ignorirati umjesto da ih tretira kao naredbe.
Ispravno postavljanje ovoga temeljno je za sigurnost, zaštitu i pouzdanost.
Model s desne strane ispravno slijedi instrukciju razvojnog inženjera, koja ima viši prioritet od korisnikove, kada su te dvije instrukcije u sukobu.
Učenje s potkrepljivanjem prirodno je prikladno za podučavanje hijerarhije instrukcija. Možemo generirati razgovore s proturječnim instrukcijama, dati upit modelu da odgovori i nagraditi ga kada slijedi ispravnu instrukciju.
Utvrdili smo tri zamke naivnog primjenjivanja tog recepta:
- Neuspjesi u praćenju instrukcija mogu se ujedno smatrati neuspjesima hijerarhije instrukcija: model možda neće uspjeti razriješiti sukob instrukcija, ne zato što ne razumije hijerarhiju uloga, nego zato što su same instrukcije previše složene.
- Sukobi instrukcija mogu biti suptilni pa čak i subjektivni. Uobičajen pristup je omogućiti da zasebni LLM sudac dodijeli nagrade LLM-u koji se trenira, ali i sami suci mogu pogriješiti.
- Modeli obično uče prečace koji rezultiraju visokom nagradom, ali su u praksi beskorisni(otvara se u novom prozoru). Klasičan primjer su pretjerana odbijanja: modeli mogu naučiti maksimizirati sigurnost odbijajući čak i bezopasne zahtjeve.
Dizajniramo IH-izazov, skup podataka za trening učenja s potkrepljivanjem, kako bismo riješili svaku od tih zamki. Pridržavamo se sljedećih načela:
- Zadaci su u kategoriji instruction-following-simple
- Objektivno ih je moguće gradirati jednostavnim Python skriptom.
- Ne postoje trivijalni prečaci koji jamče visoku nagradu u svim zadacima
Svaki zadatak u IH-izazovu zapravo je razgovor sa sljedećim porukama:
- Poruka s instrukcijama iz uloge s visokim privilegijama, npr. „Odgovorite samo s Da ili Ne.“
- Poruka s instrukcijama iz uloge s nižim privilegijama koja pokušava navesti model da prekrši instrukcije u poruci s višim privilegijama.
Model koji se trenira generira sljedeću poruku. Zadatke/okruženja pišemo tako da je moguće programski provjeriti zadovoljava li odgovor modela ograničenje više razine.
Treniramo model na IH‑izazovu i produciramo interni model, koji nazivamo GPT‑5 Mini-R, uz sljedeća poboljšanja:
- Postiže bolje rezultate na testovima hijerarhije instrukcija
- Poboljšana izvedba uopćava se na testovima hijerarhije zadržanih i kontradiktornih instrukcija
- Održava ukupnu korisnost, bez urušavanja u pretjerano odbijanje
To je ono što ovaj pristup čini posebno uvjerljivim kad je riječ o sigurnosti: izravnim treniranjem modela da ispravno rješavaju sukobe instrukcija na zadacima IH-izazova, dobivamo poboljšanja u IH-u koja se uopćavaju na novim napadima i novim situacijama.
Otpornost na akademskim testovima
Evaluacija | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalfova lozinka (sustav – korisnik) | 0,99 | 0,99 (+0) |
Gandalfova lozinka (raz. inž. – korisnik) | 0,98 | 1,00 (+0,02) |
TensorTrust (sustav – korisnik) | 0,86 | 0,94 (+0,08) |
TensorTrust (raz. inž. – korisnik) | 0,76 | 0,91 (+0,15) |
RealGuardrails (Ometači) | 0,88 | 0,95 (+0,07) |
RealGuardrails (ručno pisano) | 0,82 | 0,89 (+0,07) |
IFEval sustava | 0,92 | 0,96 (+0,04) |
Otpornost na internim testovima
Evaluacija | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sustav – korisnik) | 0,96 | 0,99 (+0,03) |
Tutor Jailbreak (raz. inž. – korisnik) | 0,97 | 0,99 (+0,02) |
Sukob sustav <> korisnik | 0,84 | 0,95 (+0,11) |
Sukob sustav <> razvojni inženjer | 0,86 | 0,86 (+0) |
Sukob razvojni inženjer <> korisnik | 0,83 | 0,95 (+0,12) |
Bez regresija potencijala
Evaluacija | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Izazov (prekomjerno odbijanje) | 0,79 | 1,00 (+0,21) |
TensorTrust (prekomjerno odbijanje) | 0,91 | 0,90 (–0,01) |
GPQA Diamond | 0,83 | 0,83 (+0) |
AIME 2024 | 0,93 | 0,94 (+0,01) |
Chat WinRate vs o1 | 0,71 | 0,66 (–0,05) |
Preferentni rezultat | 0,46 | 0,40 (–0,06) |
Snažnija hijerarhija instrukcija istodobno donosi višestruke sigurnosne prednosti, uključujući upravljivost sigurnosti i otpornost na ubrizgavanje upita.
Procjenjujemo upravljivost sigurnosti dodavanjem sigurnosnih specifikacija specifičnih za kategoriju u sistemski upit i mjerenjem ponašanja na OpenAI-jevim sigurnosnim produkcijskim testovima (skup sigurnosno osjetljivih razgovora koji predstavljaju ChatGPT u produkciji).
IH-trenirani model pokazuje dosljedno poboljšanje: uz prisutnu sigurnosnu specifikaciju postiže veće stope odbijanja i sigurnog dovršavanja u svim nedopuštenim kategorijama, što upućuje na to da ga snažnije ponašanje hijerarhije instrukcija čini boljim u rješavanju sukoba kada zahtjevi koji nisu sigurni dolaze iz instrukcija nižeg prioriteta. Važno je napomenuti da ovo poboljšanje ne dolazi uz odgovarajuće smanjenje stope korisnosti (tj. ne postaje manje „korisno” jednostavno time što općenito više odbija).


Primjer kako se IH-trenirani model odupire ubrizgavanju upita na koje GPT‑5 Mini (Baseline) nasjeda.
Hijerarhija instrukcija također je ključna u otpornosti na ubrizgavanje upita, kada su zlonamjerne instrukcije ugrađene u izlaze alata. IH-trenirani model evaluiramo na dva testa ubrizgavanja upita - akademskom testu CyberSecEval 2 i internom testu ubrizgavanja upita OpenAI-ja koji se sastoji od napada poput onog demonstriranog na starijoj verziji modela ChatGPT Atlas.
U odnosu na osnovnu vrijednost, IH-trenirani GPT‑5 Mini-R model poboljšava otpornost na ubrizgavanje upita na oba testa i znatno poboljšava izvedbu u našoj internoj statičnoj evaluaciji ubrizgavanja upita u ovim eksperimentima.
Kako modeli postaju sve agentičniji – pozivaju alate, čitaju nepouzdane dokumente i poduzimaju radnje u svijetu – sposobnost dosljednog davanja prioriteta pouzdanim instrukcijama u odnosu na nepouzdane postaje temeljno sigurnosno svojstvo.
Ovaj rad pokazuje da se nekoliko zamki treniranja otpornosti IH-a može prevladati osmišljavanjem okruženja za treniranje koja se bave tim zamkama. Iako se naš skup podataka IH-izazova doima jednostavnim, ponašajni modeli IH-a uče iz tih okruženja i to se učenje uopćava na realističnijim, često neobjektivno ocjenjivim testovima.
Jačanje hijerarhije instrukcija ne samo da poboljšava pouzdanost, već istodobno otključava višestruke dobitke u području sigurnosti i zaštite – temelj koji postaje sve važniji kako AI sustavi postaju sposobniji i autonomniji.
Kako bismo podržali daljnja istraživanja u ovom području, objavljujemo skup podataka IH‑izazova ovdje(otvara se u novom prozoru).


