Förbättring av instruktionshierarkin i banbrytande LLM:er
Vi introducerar IH-Challenge, ett träningsdataset som stärker instruktionshierarkin, säkerhetskontrollbarheten och robustheten mot promptinjektion.
AI-system får ofta instruktioner från flera källor. Dessa kan omfatta säkerhetsriktlinjer från systemmeddelanden, produktvägledning från utvecklare, förfrågningar från användare och information som finns online. En viktig del av säker driftsättning är att träna modellerna att på ett tillförlitligt sätt prioritera de mest pålitliga instruktionerna bland dessa källor.
Många problem med AI-säkerhet och tillförlitlighet kan uppstå när den här prioriteringen inte fungerar. Modeller kan få förfrågningar om otillåtet innehåll, försök att avslöja privat information eller snabba attacker med promptinjektioner inbäddade i webbdata. Olämpligt beteende i vart och ett av dessa scenarier har samma grundorsak: modellen kan följa fel instruktioner.
När instruktionerna står i konflikt med varandra måste modellen avgöra vilka som ska prioriteras. Om modellen behandlar en opålitlig instruktion som auktoritativ kan den bete sig på ett sätt som strider mot riktlinjerna eller utvecklarens och användarens avsikter.
Vi visar att väl utformade instruktionshierarkiuppgifter, som tränar modeller att prioritera instruktioner baserat på förtroendenivåer, förbättrar flera säkerhetsegenskaper i verkliga situationer. Modeller som tränats på dessa uppgifter blir mer lyhörda för säkerhetsspecifikationer i systemmeddelanden (vilket förbättrar säkerhetskontrollbarheten) och mer robusta mot promptinjektionsattacker inbäddade i verktygsutdata.
För att hantera konflikter är OpenAI:s modeller tränade att följa en tydlig instruktionshierarki:
System > utvecklare > användare > verktyg
Instruktioner med högre prioritet ges större vikt. Modellen ska endast följa instruktioner med lägre prioritet när de inte strider mot begränsningar med högre prioritet. Dessa principer beskrivs i OpenAI:s modellspecifikationer(öppnas i ett nytt fönster).
Om ett systemmeddelande till exempel innehåller en säkerhetspolicy och en användare ber modellen att bryta mot den, ska modellen vägra. Om verktygsutdata innehåller skadliga instruktioner bör modellen ignorera dem istället för att behandla dem som kommandon.
Det är avgörande för säkerheten och tillförlitligheten att detta görs på rätt sätt.
Modellen till höger följer korrekt utvecklarens instruktioner, som har högre prioritet än användarens när de två instruktionerna står i konflikt med varandra.
Förstärkningsinlärning är en naturlig metod för att lära ut instruktionshierarkin. Vi kan generera konversationer med motstridiga instruktioner, uppmana modellen att svara och belöna den när den följer rätt instruktion.
Vi har identifierat tre fallgropar vid oförsiktig tillämpning av den här formeln:
- Bristande efterlevnad av instruktioner kan också vara bristande efterlevnad av instruktionshierarkin: modellen kanske inte lyckas lösa en instruktionskonflikt, inte för att den inte förstår rollhierarkin, utan för att instruktionerna i sig är för komplicerade.
- Instruktionskonflikter kan vara nyanserade och till och med subjektiva. Ett vanligt tillvägagångssätt är att låta en separat LLM-bedömare tilldela belöningar till den LLM som tränas, men bedömare kan själva göra fel.
- Modeller tenderar att lära sig genvägar som ger hög belöning men är värdelösa i praktiken(öppnas i ett nytt fönster). Det klassiska exemplet är övervägran: modeller kan lära sig att maximera säkerheten genom att vägra även oskadliga förfrågningar.
Vi utformar IH-Challenge, en träningsdataset för förstärkningsinlärning, för att hantera var och en av dessa fallgropar. Vi följer följande principer:
- Uppgifterna baseras på enkla instruktioner
- De kan bedömas objektivt med ett enkelt Python-skript
- Det finns inga enkla genvägar som garanterar höga belöningar för alla uppgifter
Varje uppgift i IH-Challenge är i grunden en konversation med följande budskap:
- Ett instruktionsmeddelande från en roll med hög behörighet, t.ex. ”Svara endast ’Ja’ eller ’Nej’”.
- Ett instruktionsmeddelande från en roll med lägre behörigheter, som försöker få modellen att bryta mot instruktionerna i meddelandet med högre behörigheter.
Modellen som tränas genererar nästa meddelande. Vi skriver uppgifterna/miljöerna på ett sådant sätt att det är möjligt att programmatiskt kontrollera om modellens svar uppfyller den högre nivån av begränsningar.
Vi tränar en modell på IH‑Challenge och tar fram en intern modell, som vi kallar GPT‑5 Mini-R, med följande förbättringar:
- Presterar bättre på riktmärken för instruktionshierarki
- Förbättrad prestanda generaliseras till överhängande och motstridiga instruktionshierarkitester
- Bibehåller övergripande användbarhet, utan att kollapsa till överdrivet avvisande
Det är detta som gör metoden särskilt intressant för säkerhet: genom att träna modeller direkt för att lösa instruktionskonflikter korrekt i IH-Challenge-uppgifter får vi IH-förbättringar som kan generaliseras till nya attacker och nya situationer.
Robusthet hos akademiska riktmärken
Utv. | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf-lösenord (sys-användare) | 0.99 | 0.99 (+0) |
Gandalf-lösenord (utv-användare) | 0,98 | 1.00 (+0.02) |
TensorTrust (sys-användare) | 0.86 | 0.94 (+0.08) |
TensorTrust (utv-användare) | 0.76 | 0.91 (+0.15) |
RealGuardrails (Distraktioner) | 0.88 | 0.95 (+0.07) |
RealGuardrails (Handskriven) | 0.82 | 0.89 (+0.07) |
System IFEval | 0.92 | 0.96 (+0.04) |
Robusthet hos interna riktmärken
Utv. | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-användare) | 0.96 | 0.99 (+0.03) |
Tutor Jailbreak (utv-användare) | 0.97 | 0.99 (+0.02) |
Konflikt system <> användare | 0.84 | 0.95 (+0.11) |
Konflikt system <> utvecklare | 0.86 | 0.86 (+0) |
Konflikt utvecklare <> användare | 0.83 | 0.95 (+0.12) |
Inga funktionsförsämringar
Utv. | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (övervägran) | 0.79 | 1.00 (+0.21) |
TensorTrust (övervägran) | 0.91 | 0.90 (-0.01) |
GPQA Diamond | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
Chattvinstfrekvens jämfört med o1 | 0.71 | 0.66 (-0.05) |
Preferenspoäng | 0.46 | 0.40 (-0.06) |
En starkare instruktionshierarki ger flera säkerhetsfördelar samtidigt, inklusive bättre säkerhetsstyrbarhet och robusthet mot promptinjektion.
Vi utvärderar säkerhetskontrollbarheten genom att lägga till kategorispecifika säkerhetsspecifikationer till systemprompten och mäta beteendet på OpenAI:s säkerhetsproduktionsmål (en uppsättning säkerhetskänsliga konversationer som är representativa för ChatGPT i produktion).
Den IH-tränade modellen visar en konsekvent förbättring: med säkerhetsspecifikationen på plats uppnår den högre avvisnings- och säkerhetsresponsfrekvenser i icke-tillåtna kategorier, vilket indikerar att ett starkare instruktionshierarkibeteende gör den bättre på att lösa konflikter när osäkra förfrågningar kommer från instruktioner med lägre prioritet. Det är värt att notera att denna förbättring inte medför någon motsvarande minskning av hjälpsamhetsgraden (dvs. den blir inte mindre ”hjälpsam” genom att helt enkelt avvisa fler förfrågningar totalt sett).


Exempel på hur den IH-tränade modellen motstår promptinjektioner som GPT‑5 Mini (Baseline) kan luras av.
Instruktionshierarkin är också viktig för att motstå promptinjektion, när skadliga instruktioner är inbäddade i verktygets utdata. Vi utvärderar den IH-tränade modellen på två riktlinjer för promptinjektion – en akademisk riktlinje, CyberSecEval 2, och en intern OpenAI-riktlinje för promptinjektion som består av attacker som de som demonstrerats på en äldre version av ChatGPT Atlas.
Jämfört med baslinjen förbättrar den IH-tränade GPT‑5 Mini-R-modellen robustheten mot promptinjektion på båda riktmärkena och förbättrar prestandan avsevärt i vår interna statiska utvärdering av promptinjektion i dessa experiment.
I takt med att modellerna blir mer aktiva – de anropar verktyg, läser opålitliga dokument och utför åtgärder i den verkliga världen – blir förmågan att konsekvent prioritera pålitliga instruktioner framför opålitliga en central egenskap för säkerheten.
Det här arbetet visar att flera fallgropar i IH-robusthetsutbildning kan övervinnas genom att utforma utbildningsmiljöer som tar itu med dessa fallgropar. Även om vårt IH Challenge-dataset verkar enkelt, generaliserar IH-beteendemodellerna det de lär sig från dessa miljöer till mer realistiska, ofta icke-objektivt graderbara referenspunkter.
Att stärka instruktionshierarkin förbättrar inte bara tillförlitligheten, utan ger också flera fördelar när det gäller säkerhet och trygghet – en grund som blir allt viktigare i takt med att AI-systemen får större kapacitet och blir mer autonoma.
För att stödja fortsatt forskning inom detta område släpper vi IH‑Challenge-datasetet här(öppnas i ett nytt fönster).


