Az utasításhierarchia javítása az élvonalbeli LLM-ekben
Bemutatjuk az IH-Challenge-et, egy betanítási adatkészletet, amely erősíti az utasításhierarchiát, a biztonsági irányíthatóságot és az utasítás injekciók robusztusságát.
Az MI-rendszerek gyakran több forrásból kapnak utasításokat. Ezek közé tartozhatnak a rendszerüzenetekből származó biztonsági irányelvek, a fejlesztőktől származó termékútmutatás, a felhasználók kérései, valamint az interneten található információk. A modellek betanítása arra, hogy megbízhatóan a leginkább megbízható utasításokat részesítsék előnyben e források közül, a biztonságos telepítés kulcsfontosságú része.
Számos AI-biztonsági és megbízhatósági probléma merülhet fel, amikor ez a prioritásrendszer szétesik. A modellek kaphatnak tiltott tartalomra vonatkozó kéréseket, a személyes adatok felfedésére irányuló kísérleteket, vagy online adatokba ágyazott prompt-injection támadásokat. Az, hogy ezekben a forgatókönyvekben nem viselkedik megfelelően, ugyanarra az alapvető okra vezethető vissza: a modell a rossz utasítást követheti.
Ha ezek az utasítások ütköznek, a modellnek el kell döntenie, melyeket részesítsen előnyben. Ha egy nem megbízható utasítást tekint mérvadónak, a modell olyan módon viselkedhet, amely sérti az irányelveket vagy a fejlesztői és felhasználói szándékot.
Bemutatjuk, hogy a gondosan megtervezett utasításhierarchia-feladatok, amelyek a modelleket arra tanítják, hogy megbízhatósági szintjük alapján rangsorolják az utasításokat, több valós biztonsági tulajdonságot is javítanak. Az ezeken a feladatokon betanított modellek jobban reagálnak a rendszerutasításokban megadott biztonsági specifikációkra (javítva a biztonsági irányíthatóságot), és ellenállóbbak az eszközkimenetekbe ágyazott utasítás injekcióval végrehajtott támadásokkal szemben.
A konfliktusok kezelése érdekében az OpenAI modelljeit arra tanították be, hogy egy egyértelmű utasításhierarchiát kövessenek:
Rendszer > fejlesztő > felhasználó > eszköz
A magasabb prioritású utasítások megbízhatóbbak. A modell csak akkor kövesse az alacsonyabb prioritású utasításokat, ha azok nem ütköznek a magasabb prioritású korlátozásokkal. Ezeket az alapelveket a OpenAI modell specifikáció(új ablakban nyílik meg) ismerteti.
Például ha egy rendszerüzenet tartalmaz egy biztonsági szabályzatot, és egy felhasználó arra kéri a modellt, hogy sértse meg azt, a modellnek el kell utasítania. Ha egy eszköz kimenete rosszindulatú utasításokat tartalmaz, a modellnek figyelmen kívül kell hagynia azokat, ahelyett hogy parancsként kezelné őket.
Ennek helyes megvalósítása alapvető a biztonság, a védelem és a megbízhatóság szempontjából.
A jobb oldali modell helyesen követi a fejlesztő magasabb prioritású utasítását a felhasználó utasításával szemben, amikor a két utasítás ütközik.
A megerősítéses tanulás természetesen illeszkedik az utasításhierarchia tanításához. Létrehozhatunk egymásnak ellentmondó utasításokat tartalmazó beszélgetéseket, utasíthatjuk a modellt a válaszadásra, és jutalmazhatjuk, amikor a helyes utasítást követi.
Három buktatót azonosítottunk, amelyek a naív megközelítés alkalmazásakor merülnek fel:
- Az utasításkövetési hibák egyben az utasításhierarchia hibái is lehetnek: a modell nem biztos, hogy fel tud oldani egy utasítási konfliktust, nem azért, mert nem érti a szerepek hierarchiáját, hanem azért, mert maguk az utasítások túl bonyolultak.
- Az utasítások közötti konfliktusok árnyaltak, sőt akár szubjektívek is lehetnek. Elterjedt megközelítés, hogy egy külön LLM-alapú bíráló jutalmakat oszt ki a betanítás alatt álló LLM-hez, de maguk a bírálók sem tévedhetetlenek.
- A modellek hajlamosak olyan rövidítéseket megtanulni, amelyek magas jutalmat eredményeznek, de a gyakorlatban haszontalanok(új ablakban nyílik meg). A klasszikus példa a túlzott elutasítások: a modellek megtanulhatják úgy maximalizálni a biztonságot, hogy még az ártalmatlan kéréseket is visszautasítják.
Az IH-Challenge-et, egy megerősítéses tanulási betanítási adathalmazt úgy terveztük meg, hogy kezelje mindegyik ilyen buktatót. A következő alapelveket tartjuk be:
- A feladatok utasítás-követés-egyszerűek
- Egy egyszerű Python szkripttel objektíven értékelhetők
- Nincsenek olyan triviális rövidítések, amelyek minden feladatban garantálnák a magas jutalmat
Az IH-Challenge minden feladata lényegében egy olyan beszélgetés, amely a következő üzeneteket tartalmazza:
- Egy magas jogosultságú szerepkörből származó, utasításokat tartalmazó üzenet, pl. „Csak ‘Yes’ vagy ‘No’ választ adjon”.
- Egy alacsonyabb jogosultsági szintű szerepkörből érkező utasítás, amely arra próbálja rávenni a modellt, hogy szegje meg a magasabb jogosultsági szintű üzenetben szereplő utasításokat.
A betanítás alatt álló modell a következő üzenetet generálja. Úgy írjuk meg a feladatokat és környezeteket, hogy programozottan ellenőrizhető legyen, hogy a modell válasza megfelel-e a magasabb szintű megkötésnek.
Az IH‑Challenge-en képezünk egy modellt, és létrehozunk egy belső modellt, amelyet GPT‑5 Mini-R-nek nevezünk, a következő fejlesztésekkel:
- Jobban teljesít az utasítási hierarchiát mérő benchmarkokon
- A javított teljesítmény általánosítható a held‑out és az ellenséges utasításhierarchia-teszteken
- Megőrzi az általános hasznosságot, anélkül hogy túlzott elutasításba csapna át
Ez teszi a megközelítést különösen meggyőzővé a biztonság szempontjából: azáltal, hogy a modelleket közvetlenül arra tanítjuk, hogy az IH-challenge feladatokban helyesen oldják fel az utasításütközéseket, olyan IH-fejlesztéseket érünk el, amelyek új támadásokra és új helyzetekre is általánosíthatók.
Robusztusság az akadémiai referenciaértékeken
Értékelés | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf jelszó (sys-user) | 0,99 | 0,99 (+0) |
Gandalf-jelszó (fejlesztő-felhasználó) | 0,98 | 1,00 (+0,02) |
TensorTrust (sys-user) | 0,86 | 0,94 (+0,08) |
TensorTrust (dev-user) | 0,76 | 0,91 (+0,15) |
RealGuardrails (Zavaró elemek) | 0.88 | 0,95 (+0,07) |
RealGuardrails (Kézzel írott) | 0,82 | 0,89 (+0,07) |
Rendszer IFEval | 0,92 | 0,96 (+0,04) |
Robusztusság a belső mérőszámokon
Értékelés | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0,96 | 0,99 (+0,03) |
Tutor Jailbreak (dev-user) | 0,97 | 0,99 (+0,02) |
Rendszer <> Felhasználó ütközés | 0,84 | 0,95 (+0,11) |
Rendszer <> fejlesztői konfliktus | 0,86 | 0,86 (+0) |
Fejlesztő <> Felhasználó konfliktus | 0,83 | 0,95 (+0,12) |
Nincs képességromlás
Értékelés | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (túlzott elutasítás) | 0,79 | 1,00 (+0,21) |
TensorTrust (túlzott elutasítás) | 0,91 | 0,90 (-0,01) |
GPQA Diamond | 0,83 | 0,83 (+0) |
AIME 2024 | 0,93 | 0,94 (+0,01) |
Győzelmi arány csevegésben az o1‑hez képest | 0.71 | 0.66 (-0.05) |
Preferencia pontszám | 0,46 | 0,40 (-0,06) |
Az erősebb utasításhierarchia egyszerre több biztonsági előnnyel jár, többek között a biztonsági irányíthatóság és az utasítás injekcióval szembeni robusztusság terén.
A biztonsági irányíthatóságot úgy értékeljük, hogy kategóriaspecifikus biztonsági előírásokat adunk a rendszerutasításhoz, és megmérjük a viselkedést az OpenAI éles környezetet tükröző biztonsági benchmarkjain (olyan, biztonsági szempontból érzékeny beszélgetések összessége, amelyek reprezentálják az éles környezetben működő ChatGPT‑t).
Az IH-betanított modell következetes javulást mutat: a biztonsági specifikáció jelenlétében magasabb elutasítási és biztonságos teljesítési arányt ér el a tiltott kategóriákban, ami azt jelzi, hogy az erősebb utasításhierarchia-viselkedés jobbá teszi a konfliktusok feloldásában, amikor a nem biztonságos kérések alacsonyabb prioritású utasításokból származnak. Fontos kiemelni, hogy ez a javulás nem jár a hasznossági arány ennek megfelelő csökkenésével (i.e., nem válik kevésbé „hasznossá” pusztán azáltal, hogy összességében többször utasít el).


Példa arra, hogyan áll ellen az IH-val betanított modell az utasítás injekcióknak, amelyeknek a GPT‑5 Mini (Baseline) bedől.
Az utasításhierarchia központi szerepet játszik az utasítás injekcióval szembeni ellenállásban is, amikor rosszindulatú utasításokat ágyaznak be az eszközök kimeneteibe. Az IH-val betanított modellt két utasítás injekciós benchmarkon értékeljük—egy akadémiai benchmarkon, a CyberSecEval 2-n, valamint egy OpenAI belső utasítás injekciós benchmarkon, amely olyan támadásokból áll, mint amilyet a ChatGPT Atlas egy régebbi verzióján mutattak be.
A baseline-hoz viszonyítva az IH-tréningezett GPT‑5 Mini-R modell mindkét benchmarkon javítja az utasítás injekcióval szembeni robusztusságot, és ezekben a kísérletekben jelentősen javítja a teljesítményt a belső statikus utasítás injekciós értékelésünkön.
Ahogy a modellek egyre inkább ügynökszerűvé válnak – eszközöket hívnak meg, megbízhatatlan dokumentumokat olvasnak, és műveleteket hajtanak végre a világban–, a megbízható utasítások következetes előtérbe helyezése a megbízhatatlanokkal szemben alapvető biztonsági tulajdonsággá válik.
Ez a munka azt mutatja, hogy az IH robusztussági betanítás több buktatója kiküszöbölhető olyan betanítási környezetek tervezésével, amelyek kezelik ezeket a buktatókat. Bár az IH-Challenge adatkészletünk egyszerűnek tűnik, az ezekből a környezetekből tanuló IH viselkedési modellek általánosítása kiterjed a valósághűbb, gyakran nem objektíven értékelhető benchmarkokra is.
Az utasítási hierarchia megerősítése nemcsak a megbízhatóságot javítja, hanem egyszerre több biztonsági és védelmi előnyt is biztosít. Ez az alap egyre fontosabbá válik, ahogy az AI-rendszerek egyre fejlettebbé és autonómabbá válnak.
A területen végzett további kutatások támogatása érdekében közzétesszük az IH‑Challenge adatkészletet itt(új ablakban nyílik meg).


