Instrukciju hierarhijas uzlabošana robežšķirtnes lielajos valodu modeļos
Iepazīstinām ar IH-Challenge – mācību datu kopu, kas stiprina instrukciju hierarhiju, drošības vadāmību un noturību pret uzvedņu injekciju.
MI sistēmas bieži saņem norādījumus no vairākiem avotiem. Tie var ietvert drošības politiku no sistēmas ziņojumiem, produktu vadlīnijas no izstrādātājiem, pieprasījumus no lietotājiem un tiešsaistē atrastu informāciju. Modeļu apmācīšana, lai tie dotu priekšroku visuzticamākajiem norādījumiem starp šiem avotiem, ir būtiska drošas izvietošanas daļa.
Ja šī prioritāšu noteikšana tiek pārkāpta, var rasties daudzas MI drošības un uzticamības problēmas. Modeļi var saņemt pieprasījumus par neatļautu saturu, mēģinājumus atklāt privātu informāciju vai uzvedņu injekcijas uzbrukumus, kas iegulti tiešsaistes datos. Katrā no šiem scenārijiem ir viens un tas pats pamatcēlonis – modelis var rīkoties saskaņā ar nepareizu instrukciju.
Ja šie norādījumi ir pretrunā, modelim ir jāizlemj, kuriem dot priekšroku. Ja tas neuzticamu instrukciju uzskata par autoritatīvu, modelis var uzvesties veidos, kas neatbilst politikai vai izstrādātāja un lietotāja nodomiem.
Mēs parādām, ka pareizi izstrādāti instrukciju hierarhijas uzdevumi, kas apmāca modeļus noteikt instrukciju prioritāti atbilstoši to uzticamības līmenim, uzlabo vairākas reālās pasaules drošības īpašības. Modeļi, kas apmācīti šajos uzdevumos, kļūst atsaucīgāki uz drošības specifikācijām sistēmas uzvednēs (uzlabojot drošības vadāmību) un noturīgāki pret uzvedņu injekcijas uzbrukumiem, kas ir iegulti rīku izvadēs.
Lai risinātu konfliktus, OpenAI modeļi ir apmācīti ievērot skaidru instrukciju hierarhiju:
Sistēma > izstrādātājs > lietotājs > rīks
Augstākas prioritātes instrukcijas ir uzticamākas. Modelim būtu jāievēro tikai tādi zemākas prioritātes norādījumi, kas nav pretrunā ar augstākas prioritātes ierobežojumiem. Šie principi ir izklāstīti OpenAI modeļu specifikācijā(atveras jaunā logā).
Piemēram, ja sistēmas ziņojumā ir iekļauta drošības politika un lietotājs pieprasa modelim to pārkāpt, modelim ir jāatsaka. Ja rīka izvade satur ļaunprātīgas instrukcijas, modelim tās vajadzētu ignorēt, nevis uzskatīt par komandām.
Pareiza izpilde ir drošības, drošuma un uzticamības pamatā.
Modelis labajā pusē pareizi ievēro Izstrādātāja norādījumu, kam ir augstāka prioritāte, salīdzinot ar Lietotāja norādījumu, ja abi norādījumi ir pretrunā.
Stimulētā mācīšanās ir dabiski piemērota instrukciju hierarhijas apguvei. Mēs varam radīt sarunas ar pretrunīgiem norādījumiem, likt modelim atbildēt un apbalvot to, kad tas izpilda pareizo norādījumu.
Mēs esam identificējuši trīs klupšanas akmeņus, kas saistīti ar naivu šīs receptes lietošanu:
- Instrukciju izpildes kļūdas var vienlaikus būt arī instrukciju hierarhijas kļūdas – modelim var neizdoties atrisināt instrukciju konfliktu nevis tāpēc, ka tas nesaprot lomu hierarhiju, bet tāpēc, ka pašas instrukcijas ir pārāk sarežģītas.
- Instrukciju konflikti var būt niansēti un pat subjektīvi. Izplatīta pieeja ir ļaut atsevišķam lielo valodu modeļu (LVM) vērtētājam piešķirt atlīdzības apmācāmajam LVM, taču paši vērtētāji nav nekļūdīgi.
- Modeļi mēdz iemācīties īsākos ceļus, kas nodrošina augstu atlīdzību, bet praksē ir nelietderīgi(atveras jaunā logā). Klasisks piemērs ir pārmērīga atteikšana – proti, modeļi var iemācīties maksimizēt drošību, atsakoties izpildīt pat nekaitīgus pieprasījumus.
Mēs izstrādājam IH-Challenge, stimulētās mācīšanās apmācības datu kopu, lai risinātu katru no šiem klupšanas akmeņiem. Mēs ievērojam šādus principus:
- Uzdevumi ir vienkārši izpildāmi, sekojot instrukcijām
- Tos var objektīvi novērtēt ar vienkāršu Python skriptu
- Nav nekādu triviālu īsāko ceļu, kas garantētu augstu atlīdzību visos uzdevumos
Katrs IH-Challenge uzdevums būtībā ir saruna ar šādiem ziņojumiem:
- Instrukcijas ziņojums no lomas ar augstām tiesībām, piem. “Atbildi tikai ar ‘Jā’ vai ‘Nē’”.
- Instrukcijas ziņojums no lomas ar zemākām tiesībām, ar kuru mēģina panākt, lai modelis pārkāpj augstākas privilēģijas ziņojumā ietvertos norādījumus.
Apmācāmais modelis ģenerē nākamo ziņojumu. Mēs rakstām uzdevumus/vides tā, lai būtu iespējams programmatiski pārbaudīt, vai modeļa atbilde atbilst augstāka līmeņa ierobežojumam.
Mēs apmācām modeli ar IH‑Challenge un izveidojam iekšēju modeli, ko saucam par GPT‑5 Mini-R, ar šādiem uzlabojumiem:
- Darbojas labāk instrukciju hierarhijas etalonos
- Uzlabots sniegums saglabājas arī iepriekš neredzētos un tīši maldinošos instrukciju hierarhijas testos.
- Saglabā kopējo lietderību, neiekrītot pārmērīgā atteikšanā
Tieši tas padara šo pieeju īpaši pārliecinošu drošības ziņā – tiešā veidā apmācot modeļus pareizi atrisināt instrukciju konfliktus IH-challenge uzdevumos, mēs iegūstam IH uzlabojumus, kas vispārinās uz jauniem uzbrukumiem un jaunām situācijām.
Noturība akadēmiskajos etalonos
Novērtējums | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf parole (sys-user) | 0,99 | 0,99 (+0) |
Gandalf parole (dev-user) | 0,98 | 1,00 (+0,02) |
TensorTrust (sys-user) | 0,86 | 0,94 (+0,08) |
TensorTrust (dev-user) | 0,76 | 0,91 (+0,15) |
RealGuardrails (distraktori) | 0,88 | 0,95 (+0,07) |
RealGuardrails (rokraksts) | 0,82 | 0,89 (+0,07) |
System IFEval | 0,92 | 0,96 (+0,04) |
Noturība iekšējos etalonos
Novērtējums | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0,96 | 0,99 (+0,03) |
Tutor Jailbreak (dev-user) | 0,97 | 0,99 (+0,02) |
Sistēma <> Lietotājs konflikts | 0,84 | 0,95 (+0,11) |
Sistēma <> Izstrādātājs konflikts | 0,86 | 0,86 (+0) |
Izstrādātājs <> Lietotājs konflikts | 0,83 | 0,95 (+0,12) |
Bez spēju regresijas
Novērtējums | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (pārmērīga atteikšana) | 0,79 | 1,00 (+0,21) |
TensorTrust (pārmērīga atteikšana) | 0,91 | 0,90 (-0,01) |
GPQA Diamond | 0,83 | 0,83 (+0) |
AIME 2024 | 0,93 | 0,94 (+0,01) |
Tērzēšanas uzvaru rādītājs salīdzinājumā ar OpenAI o1 | 0,71 | 0,66 (-0,05) |
Preferenču rezultāts | 0,46 | 0,40 (-0,06) |
Spēcīgāka instrukciju hierarhija vienlaikus nodrošina vairākus drošības ieguvumus, tostarp drošības vadāmībā un noturībā pret uzvedņu injekciju.
Mēs novērtējam drošības vadāmību, sistēmas uzvednei pievienojot konkrētas kategorijas drošības specifikācijas un mērot uzvedību OpenAI drošības testos Production Benchmarks (pret drošību jutīgu sarunu kopums, kas pārstāv ChatGPT ražošanas vidē).
IH apmācītais modelis uzrāda konsekventu uzlabojumu: ja ir iekļauta drošības specifikācija, tas sasniedz augstāku atteikumu un drošas izpildes rādītāju visās neatļautajās kategorijās – tas norāda, ka spēcīgāka instrukciju hierarhijas uzvedība padara to labāku konfliktu risināšanā, kad nedroši pieprasījumi nāk no zemākas prioritātes instrukcijām. Jāatzīmē, ka šis uzlabojums nenozīmē atbilstošu izpalīdzības rādītāja samazināšanos (t.i., tas nekļūst mazāk “izpalīdzīgs”, vienkārši kopumā biežāk atsakot).


Piemērs, kā ar IH apmācītais modelis pretojas uzvedņu injekcijām, kurām GPT‑5 Mini (pamata modelis) pakļaujas.
Instrukciju hierarhijai ir arī būtiska nozīme, lai pretotos uzvedņu injekcijai, kad rīku izvades rezultātos tiek iestrādātas ļaunprātīgas instrukcijas. Mēs novērtējam ar IH apmācīto modeli, izmantojot divus uzvedņu injekcijas etalonus – akadēmisko etalonu CyberSecEval 2 un OpenAI iekšējo uzvedņu injekcijas etalonu, kas sastāv no uzbrukumiem, piemēram, tāda, kas tika demonstrēts vecākā ChatGPT Atlas versijā.
Salīdzinājumā ar pamatalīmeni IH apmācītais GPT‑5 Mini-R modelis uzlabo uzvedņu injekcijas noturību abos etalonos un būtiski uzlabo sniegumu mūsu iekšējā statiskajā uzvedņu injekcijas novērtējumā šajos eksperimentos.
Modeļiem kļūstot aģentiskākiem – izsaucot rīkus, lasot neuzticamus dokumentus un veicot darbības reālajā pasaulē – spēja konsekventi dot priekšroku uzticamām instrukcijām kļūst par pamatdrošības īpašību.
Šajā darbā ir parādīts, ka vairākas IH noturības apmācības nepilnības var pārvarēt, izstrādājot apmācības vides, kas šos trūkumus novērš. Lai gan mūsu IH-Challenge datu kopa šķiet vienkārša, IH uzvedības modeļi, kas mācās no šīm vidēm, vispārinās uz reālistiskākiem etalonuzdevumiem, kas bieži vien nav objektīvi vērtējami.
Instrukciju hierarhijas stiprināšana ne tikai uzlabo uzticamību, bet vienlaikus nodrošina vairākus drošības un drošuma ieguvumus – pamatu, kas kļūst arvien svarīgāks, MI sistēmām kļūstot spējīgākām un autonomākām.
Lai atbalstītu turpmākus pētījumus šajā jomā, mēs publiskojam IH‑Challenge datu kopu šeit(atveras jaunā logā).


