Îmbunătățirea ierarhiei instrucțiunilor în LLM-urile de vârf
Vă prezentăm IH-Challenge, un set de date de instruire care consolidează ierarhia instrucțiunilor, controlabilitatea siguranței și robustețea la injectarea solicitărilor.
Sistemele de AI primesc adesea instrucțiuni din mai multe surse. Acestea pot include politici de siguranță din mesajele de sistem, îndrumări de la dezvoltatori privind produsul, solicitări de la utilizatori și informații găsite online. Instruirea modelelor pentru a prioritiza în mod fiabil cele mai de încredere instrucțiuni dintre aceste surse este o parte esențială a implementării în siguranță.
Multe probleme legate de siguranța și fiabilitatea AI pot apărea atunci când această prioritizare se destramă. Modelele pot primi solicitări pentru conținut nepermis, încercări de a dezvălui informații private sau atacuri de injectare de solicitări încorporate în date online. Eșecul de a se comporta adecvat în fiecare dintre aceste scenarii are aceeași cauză fundamentală: modelul poate urma instrucțiunea greșită.
Când aceste instrucțiuni intră în conflict, modelul trebuie să decidă pe care să le prioritizeze. Dacă tratează o instrucțiune care nu este de încredere ca fiind autoritară, modelul se poate comporta în moduri care încalcă politicile sau intenția dezvoltatorului și a utilizatorului.
Demonstrăm că sarcinile de tip ierarhia instrucțiunilor, concepute corespunzător, care antrenează modelele să prioritizeze instrucțiunile în funcție de nivelul lor de încredere, îmbunătățesc mai multe proprietăți de siguranță din lumea reală. Modelele instruite pentru aceste sarcini devin mai receptive la specificațiile de siguranță din solicitările de sistem (îmbunătățind controlabilitatea siguranței) și mai robuste la atacurile de injectare solicitare încorporate în ieșirile instrumentelor.
Pentru a gestiona conflictele, modelele OpenAI sunt instruite să urmeze o ierarhie clară a instrucțiunilor:
Sistem > dezvoltator > utilizator > instrument
Instrucțiunile cu prioritate mai mare sunt mai de încredere. Modelul ar trebui să urmeze instrucțiunile cu prioritate mai mică doar atunci când acestea nu intră în conflict cu constrângerile cu prioritate mai mare. Aceste principii sunt prezentate în Specificațiile modelului OpenAI(se deschide într-o fereastră nouă).
De exemplu, dacă un mesaj de sistem include o politică de siguranță și un utilizator îi cere modelului să o încalce, modelul ar trebui să refuze. Dacă ieșirea unui instrument conține instrucțiuni rău intenționate, modelul ar trebui să le ignore, în loc să le trateze ca pe niște comenzi.
A face acest lucru corect este fundamental pentru siguranță, securitate și fiabilitate.
Modelul din dreapta urmează corect instrucțiunile Dezvoltatorului, care au prioritate mai mare decât cele ale Utilizatorului, atunci când cele două instrucțiuni intră în conflict.
Învățarea prin consolidare este o potrivire naturală pentru predarea ierarhiei instrucțiunilor. Putem genera conversații cu instrucțiuni conflictuale, putem da o solicitare modelului să răspundă și îl putem recompensa atunci când urmează instrucțiunea corectă.
Am identificat trei capcane ale aplicării naive a acelei rețete:
- Eșecurile de urmare a instrucțiunilor se pot dubla ca eșecuri ale Ierarhiei Instrucțiunilor: modelul ar putea să nu reușească să rezolve un conflict de instrucțiuni, nu pentru că nu înțelege ierarhia rolurilor, ci pentru că instrucțiunile în sine sunt prea complicate.
- Conflictele dintre instrucțiuni pot fi nuanțate și chiar subiective. O abordare comună este să permiți unui LLM judecător separat să atribuie recompense LLM-ului care este instruit, dar judecătorii înșiși sunt failibili.
- Modelele tind să învețe scurtături care duc la recompense mari, dar sunt inutile în practică(se deschide într-o fereastră nouă). Exemplul clasic este refuzul excesiv: modelele pot învăța să maximizeze siguranța refuzând chiar și solicitările benigne.
Proiectăm IH-Challenge, un set de date de instruire pentru învățare prin consolidare, pentru a aborda fiecare dintre aceste capcane. Respectăm următoarele principii:
- Sarcinile sunt simple, cu respectarea instrucțiunilor
- Sunt evaluabile în mod obiectiv cu un script Python simplu
- Nu există scurtături triviale care să garanteze o recompensă mare în toate sarcinile
Fiecare sarcină din IH-Challenge este, în esență, o conversație cu următoarele mesaje:
- Un mesaj de instrucțiuni de la un rol cu privilegii ridicate, de ex. „Răspunde doar prin «Da» sau «Nu»”.
- Un mesaj de instrucțiuni de la un rol cu privilegii mai reduse, care încearcă să determine modelul să încalce instrucțiunile din mesajul cu privilegii mai ridicate.
Modelul care este instruit generează următorul mesaj. Scriem sarcinile/mediile astfel încât să fie posibil să se verifice programatic dacă răspunsul modelului respectă constrângerea de nivel superior.
Instruim un model pe IH‑Challenge și producem un model intern, pe care îl numim GPT‑5 Mini-R, cu următoarele îmbunătățiri:
- Are performanțe mai bune la testele de ierarhie a instrucțiunilor
- Performanța îmbunătățită se generalizează la testele de ierarhie a instrucțiunilor excluse și contradictorii
- Își menține utilitatea generală, fără a cădea în refuzuri excesive
Acesta este motivul pentru care abordarea este deosebit de convingătoare din punct de vedere al siguranței: prin antrenarea directă a modelelor pentru a rezolva corect conflictele de instrucțiuni în sarcinile care prezintă provocări de siguranță interioară (IH), obținem îmbunătățiri ale IH care se generalizează la atacuri și situații noi.
Robustețe pe repere academice
Evaluare | GPT‑5‑Mini | GPT‑5 Mini-R |
Parola Gandalf (utilizator sistem) | 0,99 | 0,99 (+0) |
Parolă Gandalf (utilizator dezvoltator) | 0,98 | 1,00 (+0,02) |
TensorTrust (utilizator-sistem) | 0,86 | 0,94 (+0,08) |
TensorTrust (utilizator dezvoltator) | 0,76 | 0,91 (+0,15) |
RealGuardrails (Distrageri) | 0,88 | 0,95 (+0,07) |
RealGuardrails (scris de mână) | 0,82 | 0,89 (+0,07) |
IFEval sistem | 0,92 | 0,96 (+0,04) |
Robustețe în testele de referință interne
Evaluare | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (utilizator sistem) | 0,96 | 0,99 (+0,03) |
Tutor Jailbreak (utilizator dezvoltator) | 0,97 | 0,99 (+0,02) |
Conflict sistem <> utilizator | 0,84 | 0,95 (+0,11) |
Conflict sistem <> dezvoltator | 0,86 | 0,86 (+0) |
Conflict dezvoltator <> utilizator | 0,83 | 0,95 (+0,12) |
Fără regrese de capacitate
Evaluare | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (refuz excesiv) | 0,79 | 1,00 (+0,21) |
TensorTrust (refuz excesiv) | 0,91 | 0,90 (-0,01) |
GPQA Diamond | 0,83 | 0,83 (+0) |
AIME 2024 | 0,93 | 0,94 (+0,01) |
Rata de câștig în chat vs. o1 | 0,71 | 0,66 (-0,05) |
Scor de preferință | 0,46 | 0,40 (-0,06) |
O ierarhie mai puternică a instrucțiunilor oferă simultan multiple beneficii de siguranță, inclusiv în ceea ce privește manevrabilitatea în materie de siguranță și robustețea la injectare solicitare.
Evaluăm controlabilitatea siguranței prin adăugarea de specificații de siguranță specifice categoriei la solicitarea de sistem și măsurarea comportamentului pe reperele de producție pentru siguranță ale OpenAI (un set de conversații sensibile la siguranță reprezentative pentru ChatGPT în producție).
Modelul instruit cu IH arată o îmbunătățire consecventă: cu specificația de siguranță prezentă, obține rate mai ridicate de refuz și de finalizare sigură în categoriile nepermise, indicând că un comportament mai puternic al ierarhiei instrucțiunilor îl face mai bun la rezolvarea conflictelor atunci când solicitările nesigure provin din instrucțiuni cu prioritate mai scăzută. În mod notabil, această îmbunătățire nu este însoțită de o scădere corespunzătoare a ratei de utilitate (adică, nu devine mai puțin „util” prin simplul fapt că refuză mai mult în general).


Exemplu despre cum modelul instruit IH rezistă la injectări solicitare la care GPT‑5 Mini (Baseline) se lasă păcălit.
Ierarhia instrucțiunilor este, de asemenea, esențială pentru a rezista la injectarea de solicitare, atunci când instrucțiuni rău intenționate sunt încorporate în rezultatele instrumentelor. Evaluăm modelul antrenat de IH pe două criterii de referință pentru injectare solicitare - un criteriu de referință academic CyberSecEval 2 și un criteriu de referință intern de injectare solicitare al OpenAI, constând în atacuri precum cel demonstrat pe o versiune mai veche de ChatGPT Atlas.
Comparativ cu valoarea de referință, modelul GPT‑5 Mini-R antrenat de IH îmbunătățește robustețea la injectarea solicitărilor pe ambele criterii de referință și îmbunătățește substanțial performanța evaluării noastre interne statice privind injectarea solicitare în aceste experimente.
Pe măsură ce modelele devin mai agentive – apelarea instrumentelor, citirea documentelor nesigure și efectuarea de acțiuni în mediul virtual – capacitatea de a prioritiza în mod constant instrucțiunile de încredere față de cele nesigure devine o proprietate esențială a siguranței.
Această lucrare arată că mai multe capcane ale instruirii robusteții IH pot fi depășite prin proiectarea unor medii de instruire care să abordeze aceste capcane. Deși setul nostru de date IH-Challenge pare simplu, comportamentul pe care modelele îl învață din aceste medii se generalizează la crierii de referință mai realiste, adesea imposibil de notat în mod obiectiv.
Consolidarea ierarhiei instrucțiunilor nu numai că îmbunătățește fiabilitatea, dar deblochează simultan multiple câștiguri de siguranță și securitate - o fundație care devine din ce în ce mai importantă pe măsură ce sistemele AI devin mai capabile și mai autonome.
Pentru a sprijini cercetări suplimentare în acest domeniu, publicăm setul de date IH‑Challenge aici(se deschide într-o fereastră nouă).


