Millora de la jerarquia d'instruccions en LLMs d'avantguarda
Presentem IH-Challenge, un conjunt de dades d'entrenament que reforça la jerarquia d'instruccions, la controlabilitat de seguretat i la robustesa davant la injecció d'indicacions.
Els sistemes d'IA sovint reben instruccions de múltiples fonts. Aquestes poden incloure polítiques de seguretat dels missatges del sistema, orientacions de producte dels desenvolupadors, sol·licituds dels usuaris i informació trobada en línia. Entrenar models perquè prioritzin de manera fiable les instruccions més fiables entre aquestes fonts és una part clau d'un desplegament segur.
Molts problemes de seguretat i fiabilitat de la IA poden sorgir quan aquesta priorització falla. Els models poden rebre sol·licituds de contingut no permès, intents de revelar informació privada o atacs d'injecció d'indicacions incrustats en dades en línia. El fet de no comportar-se adequadament en cadascun d'aquests escenaris comparteix la mateixa causa arrel: el model pot seguir la instrucció equivocada.
Quan aquestes instruccions entren en conflicte, el model ha de decidir quines prioritza. Si tracta una instrucció no fiable com si fos autoritzada, el model pot comportar-se de maneres que infringeixin les polítiques o la intenció dels desenvolupadors i dels usuaris.
Demostrem que les tasques de jerarquia d'instruccions ben dissenyades, que entrenen els models a prioritzar les instruccions segons el seu nivell de confiança, milloren diverses propietats de seguretat del món real. Els models entrenats amb aquestes tasques es tornen més sensibles a les especificacions de seguretat en les indicacions del sistema (millorant la controlabilitat de seguretat) i més robustos davant els atacs d'injecció d'indicacions incrustats en les sortides de les eines.
Per gestionar conflictes, els models d'OpenAI estan entrenats per seguir una jerarquia d'instruccions clara:
Sistema > desenvolupador > usuari > eina
Les instruccions de prioritat més alta són més fiables. El model només hauria de seguir les instruccions de prioritat inferior quan no entrin en conflicte amb restriccions de prioritat superior. Aquests principis es descriuen a l'especificació del model d'OpenAI(s'obre en una finestra nova).
Per exemple, si un missatge del sistema inclou una política de seguretat i un usuari demana al model que la infringeixi, el model hauria de negar-s'hi. Si la sortida d'una eina conté instruccions malicioses, el model les hauria d'ignorar en lloc de tractar-les com a ordres.
Fer-ho bé és fonamental per a la seguretat, la protecció i la fiabilitat.
El model de la dreta segueix correctament la instrucció del desenvolupador, que té més prioritat, per sobre de la de l'usuari quan les dues instruccions entren en conflicte.
L'aprenentatge per reforç és una opció natural per ensenyar la jerarquia d'instruccions. Podem generar converses amb instruccions conflictives, demanar al model que respongui i recompensar-lo quan segueixi la instrucció correcta.
Hem identificat tres inconvenients d'aplicar ingenuament aquesta recepta:
- Els errors de seguiment d'instruccions poden duplicar-se com a errors de jerarquia d'instruccions: el model pot no resoldre un conflicte d'instruccions, no perquè no entengui la jerarquia de rols, sinó perquè les mateixes instruccions són massa complicades.
- Els conflictes d'instruccions poden ser matisats i fins i tot subjectius. Un enfocament habitual és deixar que un LLM independent assigni recompenses a l'LLM que s'està entrenant, però els jutges també són fal·libles.
- Els models tendeixen a aprendre dreceres que donen una recompensa alta, però que són inútils a la pràctica(s'obre en una finestra nova). L'exemple clàssic són els sobrerebuigs: els models poden aprendre a maximitzar la seguretat rebutjant fins i tot sol·licituds innòcues.
Dissenyem IH-Challenge, un conjunt de dades d'entrenament per aprenentatge per reforç, per abordar cadascun d'aquests inconvenients. Seguim els principis següents:
- Les tasques són simples pel que fa al seguiment d'instruccions
- Es poden avaluar objectivament amb un script simple de Python
- No hi ha dreceres trivials que garanteixin una recompensa alta en totes les tasques
Cada tasca d'IH-Challenge és essencialment una conversa amb els missatges següents:
- Un missatge d'instrucció d'un rol amb privilegis alts, per exemple «Respon només “Sí” o “No”».
- Un missatge d'instrucció d'un rol amb privilegis més baixos, que intenta aconseguir que el model infringeixi les instruccions del missatge de privilegi més alt.
El model que s'està entrenant genera el missatge següent. Escriurem les tasques/entorns de manera que sigui possible comprovar programàticament si la resposta del model satisfà la restricció de nivell superior.
Entrenem un model amb IH‑Challenge i produïm un model intern, que anomenem GPT‑5 Mini-R, amb les millores següents:
- Rendeix millor en proves de jerarquia d'instruccions
- La millora del rendiment es generalitza a proves de jerarquia d'instruccions reservades i adversàries
- Manté la utilitat general, sense col·lapsar en el sobrerebuig
Això és el que fa que aquest enfocament sigui especialment convincent per a la seguretat: entrenant directament els models perquè resolguin correctament els conflictes d'instruccions en les tasques d'IH-challenge, obtenim millores d'IH que es generalitzen a atacs nous i situacions noves.
Robustesa en proves acadèmiques
Avaluació | GPT‑5‑Mini | GPT‑5 Mini-R |
Contrasenya Gandalf (sys-user) | 0.99 | 0.99 (+0) |
Contrasenya Gandalf (dev-user) | 0.98 | 1.00 (+0.02) |
TensorTrust (sys-user) | 0.86 | 0.94 (+0.08) |
TensorTrust (dev-user) | 0.76 | 0.91 (+0.15) |
RealGuardrails (distractors) | 0.88 | 0.95 (+0.07) |
RealGuardrails (manuals) | 0.82 | 0.89 (+0.07) |
System IFEval | 0.92 | 0.96 (+0.04) |
Robustesa en proves internes
Avaluació | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0.96 | 0.99 (+0.03) |
Tutor Jailbreak (dev-user) | 0.97 | 0.99 (+0.02) |
Conflicte sistema <> usuari | 0.84 | 0.95 (+0.11) |
Conflicte sistema <> desenvolupador | 0.86 | 0.86 (+0) |
Conflicte desenvolupador <> usuari | 0.83 | 0.95 (+0.12) |
Sense regressions de capacitat
Avaluació | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (sobrerebuig) | 0.79 | 1.00 (+0.21) |
TensorTrust (sobrerebuig) | 0.91 | 0.90 (-0.01) |
GPQA Diamond | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
Taxa de victòries al xat vs. o1 | 0.71 | 0.66 (-0.05) |
Puntuació de preferència | 0.46 | 0.40 (-0.06) |
Una jerarquia d'instruccions més forta aporta múltiples beneficis de seguretat alhora, incloent-hi la controlabilitat de seguretat i la robustesa davant la injecció d'indicacions.
Avaluem la controlabilitat de seguretat afegint especificacions de seguretat específiques per categoria a la indicació del sistema i mesurant el comportament als Safety Production Benchmarks d'OpenAI (un conjunt de converses sensibles a la seguretat representatives de ChatGPT en producció).
El model entrenat amb IH mostra una millora constant: amb l'especificació de seguretat present, aconsegueix taxes més altes de rebuig i de completament segur en totes les categories no permeses, cosa que indica que un comportament de jerarquia d'instruccions més fort el fa millor a l'hora de resoldre conflictes quan les sol·licituds insegures provenen d'instruccions de prioritat inferior. Cal destacar que aquesta millora no va acompanyada d'una disminució corresponent de la taxa d'utilitat (és a dir, no esdevé menys «útil» simplement perquè rebutja més en general).


Exemple de com el model entrenat amb IH resisteix les injeccions d'indicacions a les quals GPT‑5 Mini (Baseline) sucumbeix.
La jerarquia d'instruccions també és central per resistir la injecció d'indicacions, quan s'incrusten instruccions malicioses en les sortides de les eines. Avaluem el model entrenat amb IH en dues proves d'injecció d'indicacions —una prova acadèmica, CyberSecEval 2, i una prova interna d'OpenAI d'injecció d'indicacions que consisteix en atacs com el que es va demostrar en una versió anterior de ChatGPT Atlas.
En relació amb el model base, el model GPT‑5 Mini-R entrenat amb IH millora la robustesa davant la injecció d'indicacions en ambdues proves i millora substancialment el rendiment en la nostra avaluació interna estàtica d'injecció d'indicacions en aquests experiments.
A mesura que els models esdevenen més semblants a un agent —fan servir eines, llegeixen documents no fiables i duen a terme accions al món—, la capacitat de prioritzar de manera coherent les instruccions fiables per damunt de les no fiables es converteix en una propietat central de seguretat.
Aquest treball mostra que es poden superar diversos inconvenients de l'entrenament de robustesa d'IH dissenyant entorns d'entrenament que els abordin. Tot i que el nostre conjunt de dades IH-Challenge sembla simple, el comportament d'IH que els models aprenen d'aquests entorns es generalitza a proves més realistes, sovint no avaluables objectivament.
Reforçar la jerarquia d'instruccions no només millora la fiabilitat, sinó que desbloqueja múltiples guanys de seguretat i protecció alhora, una base que esdevé cada cop més important a mesura que els sistemes d'IA es tornen més capaços i autònoms.
Per donar suport a més recerca en aquest àmbit, publiquem el conjunt de dades IH‑Challenge aquí(s'obre en una finestra nova).


