Forbedring av instruksjonshierarki i banebrytende LLM-er
Vi introduserer IH-Challenge, et treningsdatasett som styrker instruksjonshierarki, sikkerhetsstyrbarhet og robusthet mot promptinjeksjon.
KI-systemer mottar ofte instruksjoner fra flere kilder. Disse kan inkludere sikkerhetsretningslinjer fra systemmeldinger, produktveiledning fra utviklere, forespørsler fra brukere og informasjon funnet på nettet. Det er en viktig del av trygg distribusjon å trene modeller til pålitelig å prioritere de mest betrodde instruksjonene blant disse kildene.
Mange KI-sikkerhets- og pålitelighetsproblemer kan oppstå når denne prioriteringen bryter sammen. Modeller kan motta forespørsler om ikke-tillatt innhold, forsøk på å avsløre privat informasjon eller prompt‑injeksjon-angrep innebygd i nettdata. Upassende atferd i hvert av disse scenariene har samme rotårsak: modellen kan følge feil instruksjon.
Når disse instruksjonene er i konflikt med hverandre, må modellen avgjøre hvilke som skal prioriteres. Hvis den behandler en ikke-betrodd instruksjon som autoritativ, kan modellen oppføre seg på måter som bryter med retningslinjer eller utviklerens og brukerens intensjon.
Vi viser at riktig utformede instruksjonshierarki-oppgaver, som trener modeller til å prioritere instruksjoner etter tillitsnivå, forbedrer flere sikkerhetsegenskaper i den virkelige verden. Modeller som er trent på disse oppgavene, blir mer responsive på sikkerhetsspesifikasjoner i systemprompter (som forbedrer sikkerhetsstyrbarheten) og mer robuste mot promptinjeksjonsangrep som er innebygd i verktøyutdata.
For å håndtere konflikter er OpenAIs modeller opplært til å følge et tydelig instruksjonshierarki:
System > utvikler > bruker > verktøy
Instruksjoner med høyere prioritet er mer betrodde. Modellen skal bare følge instruksjoner med lavere prioritet når de ikke er i konflikt med begrensninger med høyere prioritet. Disse prinsippene er beskrevet i OpenAI-modellspesifikasjonene(åpnes i et nytt vindu).
Hvis for eksempel en systemmelding inkluderer en sikkerhetspolicy og en bruker ber modellen om å bryte den, bør modellen avvise. Hvis et verktøyutdata inneholder skadelige instruksjoner, bør modellen ignorere dem i stedet for å behandle dem som kommandoer.
Det er grunnleggende for sikkerhet, trygghet og pålitelighet at dette skjer på riktig måte.
Modellen til høyre følger korrekt Utviklerens instruksjoner, som har høyere prioritet, fremfor Brukerens når de to instruksjonene er i konflikt.
Forsterkende læring passer naturlig inn i læring av instruksjonshierarkiet. Vi kan generere samtaler med motstridende instruksjoner, gi modellen en prompt for å svare, og belønne den når den følger riktig instruksjon.
Vi har identifisert tre fallgruver ved å naivt bruke den oppskriften:
- Manglende etterlevelse av instruksjoner kan også være manglende etterlevelse av instruksjonshierarkiet: modellen kan mislykkes i å løse en instruksjonskonflikt, ikke fordi den ikke forstår hierarkiet av roller, men fordi instruksjonene i seg selv er for kompliserte.
- Instruksjonskonflikter kan være nyanserte og til og med subjektive. En vanlig tilnærming er å la en separat LLM-dommer tildele belønninger til LLM-en som trenes, men dommere er selv feilbarlige.
- Modeller har en tendens til å lære snarveier som gir høy belønning, men som er ubrukelige i praksis(åpnes i et nytt vindu). Det klassiske eksemplet er overavslag: modeller kan lære å maksimere sikkerhet ved å avvise selv godartede forespørsler.
Vi utformer IH-Challenge, et treningsdatasett for forsterkende læring, for å håndtere hver av disse fallgruvene. Vi overholder følgende prinsipper:
- Oppgaver er basert på enkle instruksjoner.
- De kan vurderes objektivt med et enkelt Python-skript.
- Det finnes ingen trivielle snarveier som garanterer høy belønning på tvers av alle oppgaver.
Hver oppgave i IH-Challenge er i bunn og grunn en samtale med følgende meldinger:
- En instruksjonsmelding fra en rolle med høye privilegier, for eksempel: «Bare svar ‘Ja’ eller ‘Nei’».
- En instruksjonsmelding fra en rolle med lavere privilegier, som forsøker å få modellen til å bryte instruksjonene i meldingen med høyere privilegier.
Modellen som trenes, genererer neste melding. Vi skriver oppgavene/miljøene slik at det er mulig å programmatisk sjekke om modellens svar oppfyller begrensningen på høyere nivå.
Vi trener en modell på IH‑Challenge og produserer en intern modell, som vi kaller GPT‑5 Mini-R, med følgende forbedringer:
- Gir bedre resultater på referansetester for instruksjonshierarki
- Forbedret ytelse generaliserer til held‑out- og fiendtlige instruksjonshierarkitester
- Opprettholder generell nytteverdi, uten å kollapse til overavslag
Det er dette som gjør tilnærmingen spesielt overbevisende for sikkerhet: ved å trene modeller direkte til å løse instruksjonskonflikter riktig på IH-challenge-oppgaver, får vi IH-forbedringer som generaliserer til nye angrep og nye situasjoner.
Robusthet på akademiske referansemålinger
Eval | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf Passord (sys-user) | 0,99 | 0,99 (+0) |
Gandalf Passord (dev-user) | 0,98 | 1,00 (+0,02) |
TensorTrust (sys-user) | 0,86 | 0,94 (+0,08) |
TensorTrust (dev-user) | 0,76 | 0,91 (+0,15) |
RealGuardrails (Distraktorer) | 0,88 | 0,95 (+0,07) |
RealGuardrails (Håndskrevet) | 0,82 | 0,89 (+0,07) |
System IFEval | 0,92 | 0,96 (+0,04) |
Robusthet på interne referansemålinger
Eval | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-bruker) | 0,96 | 0,99 (+0,03) |
Veileder-jailbreaker (dev-user) | 0,97 | 0,99 (+0,02) |
Konflikt mellom system og bruker | 0,84 | 0,95 (+0,11) |
Konflikt mellom system og utvikler | 0,86 | 0,86 (+0) |
Konflikt mellom utvikler og bruker | 0,83 | 0,95 (+0,12) |
Ingen funksjonalitetsregresjoner
Eval | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Utfordring (overavslag) | 0,79 | 1,00 (+0,21) |
TensorTrust (overavslag) | 0,91 | 0,90 (-0,01) |
GPQA Diamond | 0,83 | 0,83 (+0) |
AIME 2024 | 0,93 | 0,94 (+0,01) |
Chat-vinnrate mot o1 | 0,71 | 0,66 (-0,05) |
Preferansepoeng | 0,46 | 0,40 (-0,06) |
Et sterkere instruksjonshierarki gir flere sikkerhetsfordeler samtidig, inkludert bedre styrbarhet og robusthet mot promptinjeksjon.
Vi evaluerer sikkerhetsstyrbarhet ved å legge til kategorispesifikke sikkerhetsspesifikasjoner i systemprompten og måle atferd på OpenAIs sikkerhetsproduksjonsmål (et sett med sikkerhetsfølsomme samtaler som er representative for ChatGPT i produksjon).
Den IH-trente modellen viser en konsekvent forbedring: med sikkerhetsspesifikasjonen til stede oppnår den høyere avslag- og trygge svar-rater på tvers av ikke-tillatte kategorier, noe som indikerer at sterkere instruksjonshierarki-atferd gjør den bedre til å løse konflikter når utrygge forespørsler kommer fra instruksjoner med lavere prioritet. Det er verdt å merke seg at denne forbedringen ikke kommer med en tilsvarende reduksjon i hjelpsomhetsraten (det vil si, den blir ikke mindre «hjelpsom» ved bare å avvise mer totalt sett).


Eksempel på hvordan den IH-trente modellen motstår promptinjeksjoner som GPT‑5 Mini (Baseline) lar seg lure av.
Instruksjonshierarki er også sentralt for å motstå promptinjeksjon, når ondsinnede instruksjoner er innebygd i verktøyutdata. Vi evaluerer den IH-trente modellen på to referansemålinger for promptinjeksjon—en akademisk referansemåling, CyberSecEval 2, og en intern OpenAI-promptinjeksjonsreferansemåling som består av angrep som det som ble demonstrert på en eldre versjon av ChatGPT Atlas.
Relativt til baseline forbedrer den IH-trente GPT‑5 Mini-R-modellen robustheten mot promptinjeksjon på begge benchmarkene og forbedrer ytelsen betydelig på vår interne statiske evaluering av promptinjeksjon i disse eksperimentene.
Etter hvert som modeller blir mer agentiske—kaller verktøy, leser ikke-betrodde dokumenter og utfører handlinger i verden—blir evnen til konsekvent å prioritere betrodde instruksjoner fremfor ikke-betrodde en kjerneegenskap for sikkerhet.
Dette arbeidet viser at flere fallgruver ved IH-robusthetsopplæring kan overvinnes ved å utforme opplæringsmiljøer som adresserer disse fallgruvene. Selv om IH-Challenge-datasettet vårt virker enkelt, generaliserer IH-atferdsmodellene det lærer fra disse miljøene til mer realistiske, ofte ikke-objektivt-graderbare referansepunkter.
Når instruksjonshierarkiet styrkes, forbedres ikke bare påliteligheten, men det gir også flere gevinster innen sikkerhet og trygghet på én gang—et fundament som blir stadig viktigere etter hvert som KI-systemer får større kapasitet og blir mer autonome.
For å støtte videre forskning på dette området, gir vi ut IH‑Challenge-datasettet her(åpnes i et nytt vindu).


