Migliorare la gerarchia delle istruzioni nei LLM di frontiera
Introduciamo IH-Challenge, un dataset di addestramento progettato per rafforzare la gerarchia delle istruzioni, il controllo della sicurezza e la robustezza contro le iniezioni di prompt.
I sistemi di IA spesso ricevono istruzioni da più fonti. Queste istruzioni possono includere policy di sicurezza provenienti dai messaggi di sistema, indicazioni sul prodotto fornite dagli sviluppatori, richieste degli utenti e informazioni reperite online. Addestrare i modelli a dare priorità in modo affidabile alle istruzioni più attendibili tra queste fonti è una componente fondamentale di un’implementazione sicura.
Molti problemi di sicurezza e affidabilità dell’IA possono emergere quando questa priorità tra le istruzioni viene meno. I modelli possono ricevere richieste di contenuti non consentiti, tentativi di rivelare informazioni private o attacchi di iniezione di prompt incorporati nei dati online. Il mancato comportamento appropriato in ciascuno di questi scenari ha la stessa causa alla radice: il modello potrebbe seguire l’istruzione sbagliata.
Quando queste istruzioni entrano in conflitto, il modello deve decidere a quali dare priorità. Se considera autorevole un’istruzione non affidabile, il modello potrebbe comportarsi in modi che violano le policy o l’intento di sviluppatori e utenti.
Mostriamo che attività di gerarchia delle istruzioni progettate correttamente, che addestrano i modelli a dare priorità alle istruzioni in base al loro livello di affidabilità, migliorano diverse proprietà di sicurezza nel mondo reale. I modelli addestrati su queste attività diventano più reattivi alle specifiche di sicurezza nei prompt di sistema (migliorando il controllo della sicurezza) e più robusti agli attacchi di iniezione di prompt incorporati negli output degli strumenti.
Per gestire i conflitti, i modelli di OpenAI sono addestrati a seguire una chiara gerarchia di istruzioni:
Sistema > sviluppatore > utente > strumento
Le istruzioni di priorità più alta sono più affidabili. Il modello dovrebbe seguire istruzioni di priorità inferiore solo quando non sono in conflitto con vincoli di priorità superiore. Questi principi sono delineati nella specifica modello OpenAI(si apre in una nuova finestra).
Ad esempio, se un messaggio di sistema include una policy di sicurezza e un utente chiede al modello di violarla, il modello dovrebbe rifiutare. Se l’output di uno strumento contiene istruzioni dannose, il modello dovrebbe ignorarle invece di trattarle come comandi.
Applicare correttamente questi principi è fondamentale per sicurezza, protezione e affidabilità.
Il modello a destra segue correttamente l’istruzione dello sviluppatore, che ha priorità più alta rispetto a quella dell’utente quando le due istruzioni entrano in conflitto.
L’apprendimento per rinforzo è particolarmente adatto a insegnare la gerarchia delle istruzioni. Possiamo generare conversazioni con istruzioni in conflitto, sollecitare il modello a rispondere e premiarlo quando segue l’istruzione corretta.
Abbiamo individuato tre criticità nell’applicare ingenuamente questo approccio:
- Gli errori nel seguire le istruzioni possono derivare anche da problemi nella gerarchia delle istruzioni: il modello potrebbe non riuscire a risolvere un conflitto tra istruzioni non perché non comprenda la gerarchia dei ruoli, ma perché le istruzioni stesse sono troppo complesse.
- I conflitti tra istruzioni possono essere complessi e persino soggettivi. Un approccio comune consiste nell’affidare a un LLM separato il compito di assegnare ricompense al modello in addestramento, ma anche questi giudizi possono essere fallibili.
- I modelli tendono ad apprendere scorciatoie che portano a ricompense elevate, ma che in pratica risultano inutili(si apre in una nuova finestra). L’esempio classico è quello dei rifiuti eccessivi: i modelli possono imparare a massimizzare la sicurezza rifiutando anche richieste innocue.
Progettiamo IH-Challenge, un dataset di addestramento basato sull’apprendimento per rinforzo, per affrontare ciascuna di queste criticità. Seguiamo i seguenti principi:
- Le attività sono semplici dal punto di vista del rispetto delle istruzioni
- Sono valutabili oggettivamente con un semplice script Python
- Non esistono scorciatoie banali che garantiscano ricompense elevate in tutte le attività
Ogni attività in IH-Challenge è essenzialmente una conversazione con i seguenti messaggi:
- Un messaggio di istruzione proveniente da un ruolo con privilegi elevati, ad esempio. “Rispondi solo ‘Sì’ o ‘No’”.
- Un messaggio di istruzione proveniente da un ruolo con privilegi inferiori, che tenta di indurre il modello a violare le istruzioni nel messaggio con privilegi superiori.
Il modello in addestramento genera il messaggio successivo. Progettiamo i task/ambienti in modo che sia possibile verificare programmaticamente se la risposta del modello soddisfa il vincolo di livello superiore.
Addestriamo un modello su IH‑Challenge e produciamo un modello interno, che chiamiamo GPT‑5 Mini-R, con i seguenti miglioramenti:
- Prestazioni migliori nei benchmark sulla gerarchia delle istruzioni
- Il miglioramento delle prestazioni si estende ai test di gerarchia delle istruzioni su set di valutazione hold-out e scenari avversari
- Mantiene l’utilità complessiva senza degenerare in rifiuti eccessivi
Questo rende l’approccio particolarmente efficace per la sicurezza: addestrando direttamente i modelli a risolvere correttamente i conflitti tra istruzioni nei task IH-Challenge, otteniamo miglioramenti IH che si estendono a nuovi attacchi e a nuove situazioni.
Robustezza nei benchmark accademici
Valutazione | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf Password (sys-user) | 0,99 | 0,99 (+0) |
Gandalf Password (dev-user) | 0,98 | 1,00 (+0,02) |
TensorTrust (sys-user) | 0,86 | 0,94 (+0,08) |
TensorTrust (dev-user) | 0,76 | 0,91 (+0,15) |
RealGuardrails (Distractors) | 0,88 | 0,95 (+0,07) |
RealGuardrails (Handwritten) | 0,82 | 0,89 (+0,07) |
Sistema IFEval | 0,92 | 0,96 (+0,04) |
Robustezza nei benchmark interni
Valutazione | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0,96 | 0,99 (+0,03) |
TutorJailbreak (dev-user) | 0,97 | 0,99 (+0,02) |
Conflitto tra sistema e utente | 0,84 | 0,95 (+0,11) |
Conflitto tra sistema e sviluppatore | 0,86 | 0,86 (+0) |
Conflitto tra sviluppatore e utente | 0,83 | 0,95 (+0,12) |
Nessuna regressione nelle capacità
Valutazione | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (eccesso di rifiuto) | 0,79 | 1,00 (+0,21) |
TensorTrust (eccesso di rifiuto) | 0,91 | 0,90 (-0,01) |
GPQA diamond | 0,83 | 0,83 (+0) |
AIME 2024 | 0,93 | 0,94 (+0,01) |
Chat WinRate vs. o1 | 0,71 | 0,66 (-0,05) |
Indice di preferenza | 0,46 | 0,40 (-0,06) |
Una gerarchia delle istruzioni più solida offre diversi vantaggi in termini di sicurezza, tra cui una migliore controllabilità della sicurezza e una maggiore robustezza contro le iniezioni di prompt.
Valutiamo la controllabilità della sicurezza aggiungendo specifiche di sicurezza per categoria ai prompt di sistema e misurando il comportamento sui benchmark di sicurezza in produzione di OpenAI (un insieme di conversazioni sensibili alla sicurezza rappresentative di ChatGPT in produzione).
Il modello addestrato con IH mostra un miglioramento costante: con la specifica di sicurezza presente, raggiunge tassi più elevati di rifiuto e di completamento sicuro nelle categorie non consentite, indicando che un comportamento più forte della gerarchia delle istruzioni lo rende più efficace nel risolvere i conflitti quando le richieste non sicure provengono da istruzioni di priorità inferiore. In particolare, questo miglioramento non è accompagnato da una corrispondente diminuzione del tasso di utilità (cioè non diventa meno “utile” limitandosi a rifiutare più richieste nel complesso).


Esempio di come il modello addestrato con IH resista alle iniezioni di prompt a cui GPT‑5 Mini (Baseline) è vulnerabile.
La gerarchia delle istruzioni è fondamentale anche per contrastare gli attacchi di iniezione di prompt, quando istruzioni dannose sono incorporate negli output degli strumenti. Valutiamo il modello addestrato con IH su due benchmark di iniezione di prompt: il benchmark accademico CyberSecEval 2 e un benchmark interno di OpenAI sull’iniezione di prompt, composto da attacchi come quelli dimostrati su una versione precedente di ChatGPT Atlas.
Rispetto alla baseline, il modello GPT‑5 Mini-R addestrato con IH migliora la robustezza agli attacchi di iniezione di prompt su entrambi i benchmark e migliora sostanzialmente le prestazioni nella nostra valutazione interna statica sull’iniezione di prompt in questi esperimenti.
Man mano che i modelli diventano più agentici, richiamando strumenti, leggendo documenti non affidabili e compiendo azioni in sistemi esterni, la capacità di dare costantemente priorità alle istruzioni affidabili rispetto a quelle non affidabili diventa una proprietà fondamentale per la sicurezza.
Questo lavoro mostra che diverse criticità dell’addestramento alla robustezza IH possono essere superate progettando ambienti di addestramento che affrontano direttamente tali criticità. Sebbene il dataset IH-Challenge sembri semplice, i modelli apprendono in questi ambienti comportamenti IH che poi si generalizzano a benchmark più realistici, spesso non valutabili in modo oggettivo.
Rafforzare la gerarchia delle istruzioni non solo migliora l’affidabilità, ma sblocca anche molteplici vantaggi in termini di sicurezza e protezione al tempo stesso, una base che diventa sempre più importante man mano che i sistemi di IA diventano più capaci e autonomi.
Per supportare ulteriori ricerche in quest'area, stiamo rilasciando il dataset IH‑Challenge qui(si apre in una nuova finestra).


