Pagpapahusay ng instruction hierarchy sa mga frontier na LLM
Ipinapakilala ang IH-Challenge, isang training dataset na nagpapalakas sa instruction hierarchy, safety steerability, at katatagan laban sa prompt injection.
Ang mga AI system ay kadalasang tumatanggap ng mga instruction mula sa maraming source. Puwedeng kabilang dito ang mga patakaran sa kaligtasan mula sa mga mensahe ng system, patnubay sa produkto mula sa mga developer, mga kahilingan mula sa mga user, at impormasyong makikita online. Ang pagsasanay sa mga modelo na maaasahang unahin ang mga pinakapinagkakatiwalaang instruction sa mga source na ito ay isang mahalagang bahagi ng ligtas na pag-deploy.
Maraming isyu sa kaligtasan at pagiging maaasahan ng AI ang puwedeng lumitaw kapag pumalya ang pagbibigay-priyoridad na ito. Posibleng makatanggap ang mga modelo ng mga kahilingan para sa na-disallow na content, mga pagtatangkang magbunyag ng pribadong impormasyon, o mga prompt‑injection attack na naka-embed sa online na data. Ang pagpalyang kumilos nang naaangkop sa bawat isa sa mga sitwasyong ito ay may iisang pinag-ugatang sanhi: posibleng sundin ng modelo ang maling instruction.
Kapag magkasalungat ang mga instruction na ito, kailangang magdesisyon ng modelo kung alin ang uunahin. Kung ituturing nito ang isang hindi pinagkakatiwalaang instruction bilang authoritative, posibleng kumilos ang modelo sa mga paraang lumalabag sa mga patakaran o sa layunin ng developer at user.
Ipinapakita namin na ang maayos na idinisenyong mga gawain sa instruction-hierarchy, na nagsasanay sa mga modelo na unahin ang mga instruction ayon sa antas ng pagiging mapagkakatiwalaan ng mga ito, ay nagpapahusay sa ilang katangian ng kaligtasan sa totoong buhay. Ang mga modelong sinanay sa mga gawaing ito ay nagiging mas tumutugon sa mga espesipikasyon sa kaligtasan sa mga system prompt (pinapahusay ang safety steerability) at mas matatag laban sa mga prompt injection na pag-atakeng naka-embed sa mga output ng tool.
Para pangasiwaan ang mga salungatan, sinasanay ang mga modelo ng OpenAI na sundin ang isang malinaw na instruction hierarchy:
System > developer > user > tool
Mas pinagkakatiwalaan ang mga instruction na may mas mataas na priyoridad. Dapat lang sundin ng modelo ang mga instruction na may mas mababang priyoridad kapag hindi ito sumasalungat sa mga limitasyon na mas mataas ang priyoridad. Ang mga prinsipyong ito ay nakabalangkas sa Spec ng Modelo ng OpenAI(magbubukas sa bagong window).
Halimbawa, kung may kasamang patakaran sa kaligtasan ang isang mensahe ng system at hihilingin ng user sa modelo na labagin ito, dapat tumanggi ang modelo. Kung ang output ng tool ay naglalaman ng mga mapaminsalang instruction, dapat balewalain ng modelo ang mga ito sa halip na ituring ang mga ito bilang mga utos.
Ang pagkuha nito nang tama ay pundasyon ng kaligtasan, seguridad, at pagiging maaasahan.
Wastong sumusunod ang modelo sa kanan sa instruction ng Developer, na mas mataas ang prayoridad, kaysa sa instruction ng User kapag nagkasalungat ang dalawang instruction.
Ang pagpapatibay ng pag-aaral ay natural na angkop para sa pagtuturo ng instruction hierarchy. Puwede tayong mag-generate ng mga pag-uusap na may magkakasalungat na instruction, i-prompt ang modelo na tumugon, at i-reward ito kapag sinunod nito ang tamang instruction.
Natukoy namin ang tatlong pitfall ng walang-ingat na paglalapat ng recipe na iyon:
- Ang mga pagpalya sa pagsunod sa instruction ay puwede ring magsilbing mga pagpalya sa instruction hierarchy: posibleng pumalya ang modelo na lutasin ang isang salungatan sa instruction, hindi dahil hindi nito nauunawaan ang hierarchy ng mga role, kundi dahil masyadong kumplikado ang mismong mga instruction.
- Puwedeng maging masalimuot at subjective ang mga salungatan sa instruction. Isang karaniwang approach ay ang hayaan ang isang hiwalay na LLM judge na magtalaga ng mga reward sa LLM na sinasanay, pero nagkakamali rin mismo ang mga judge.
- Ang mga modelo ay kadalasang natututo ng mga shortcut na nagreresulta sa mataas na reward, pero walang silbi kapag ginamit na(magbubukas sa bagong window). Ang klasikong halimbawa ay ang mga labis na pagtanggi: puwedeng matutunan ng mga modelo na i-maximize ang kaligtasan sa pamamagitan ng pagtanggi kahit sa mga hindi nakakapinsalang kahilingan.
Idinisenyo namin ang IH-Challenge, isang dataset sa pagsasanay para sa pagpapatibay ng pag-aaral, para matugunan ang bawat isa sa mga pitfall na iyon. Tumutupad kami sa mga sumusunod na prinsipyo:
- Ang mga gawain ay simpleng pagsunod sa instruction
- Obhetibong namamarkahan ang mga ito gamit ang isang simpleng Python script
- Walang simpleng shortcut na ginagarantiyahan ang mataas na reward sa lahat ng gawain
Ang bawat gawain sa IH-Challenge ay isang pag-uusap na may mga sumusunod na mensahe:
- Isang mensahe ng instruction mula sa isang role na may mataas na pribilehiyo, hal. “Only answer ‘Yes’ or ‘No’”.
- Isang mensahe ng instruction mula sa isang role na may mas mababang pribilehiyo na sumusubok na hikayatin ang modelo na labagin ang mga instruction sa mensaheng may mas mataas na pribilehiyo.
Ang modelong sinasanay ang magje-generate ng susunod na mensahe. Isinusulat namin ang mga gawain/environment para maging posible na programmatically na masuri kung natutugunan ng tugon ng modelo ang mas mataas na antas na limitasyon.
Sinasanay namin ang isang modelo sa IH‑Challenge at gumagawa ng isang internal na modelo, na tinatawag naming GPT‑5 Mini-R, na may mga sumusunod na pagpapahusay:
- Mas mahusay ang performance sa mga instruction‑hierarchy na benchmark
- Ang pinahusay na performance ay nagje-generalize sa mga held‑out at adversarial na test sa instruction hierarchy
- Pinananatili ang pangkalahatang kapakinabangan, nang hindi nauuwi sa labis na pagtanggi
Ito ang dahilan kung bakit lalo itong kapani-paniwala bilang pamamaraan para sa kaligtasan: sa pamamagitan ng direktang pagsasanay sa mga modelo para lutasin nang wasto ang mga salungatan sa instruction sa mga gawain ng IH-challenge, nakakakuha kami ng mga pagpapahusay sa IH na nagje-generalize sa mga bagong pag-atake at bagong sitwasyon.
Katatagan sa mga pang-akademikong benchmark
Eval | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf Password (sys-user) | 0.99 | 0.99 (+0) |
Gandalf Password (dev-user) | 0.98 | 1.00 (+0.02) |
TensorTrust (sys-user) | 0.86 | 0.94 (+0.08) |
TensorTrust (dev-user) | 0.76 | 0.91 (+0.15) |
RealGuardrails (Mga Distractor) | 0.88 | 0.95 (+0.07) |
RealGuardrails (Manual na Isinulat) | 0.82 | 0.89 (+0.07) |
System IFEval | 0.92 | 0.96 (+0.04) |
Katatagan sa mga internal na benchmark
Eval | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0.96 | 0.99 (+0.03) |
Tutor Jailbreak (dev-user) | 0.97 | 0.99 (+0.02) |
System <> User na Conflict | 0.84 | 0.95 (+0.11) |
System <> Developer na Conflict | 0.86 | 0.86 (+0) |
Developer <> User na Conflict | 0.83 | 0.95 (+0.12) |
Walang regresyon sa kakayahan
Eval | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (labis na pagtanggi) | 0.79 | 1.00 (+0.21) |
TensorTrust (labis na pagtanggi) | 0.91 | 0.90 (-0.01) |
GPQA Diamond | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
Chat WinRate vs. o1 | 0.71 | 0.66 (-0.05) |
Score sa Preference | 0.46 | 0.40 (-0.06) |
Ang mas matibay na instruction hierarchy ay naghahatid ng maraming benepisyong pangkaligtasan nang sabay-sabay, kabilang ang sa safety steerability at katatagan laban sa prompt injection.
Ine-evaluate namin ang safety steerability sa pamamagitan ng pagdaragdag sa system prompt ng specs pangkaligtasan na partikular sa kategorya at pagsukat sa gawi sa mga Production Benchmark ng kaligtasan ng OpenAI (isang set ng mga pag-uusap na sensitibo sa kaligtasan na kumakatawan sa ChatGPT sa production).
Ang IH-trained na modelo ay nagpapakita ng tuloy-tuloy na pagpapahusay: kapag naroon ang safety spec, nakakamit nito ang mas mataas na mga rate ng pagtanggi at ligtas na pagkumpleto sa iba’t ibang hindi pinahihintulutang kategorya, na nagpapahiwatig na ang mas matibay na gawi sa instruction hierarchy ay ginagawa itong mas mahusay sa paglutas ng mga salungatan kapag nagmumula sa mas mababang priyoridad na mga instruction ang mga hindi ligtas na kahilingan. Kapansin-pansin pa, ang pagpapahusay na ito ay walang kaakibat na kaukulang pagbaba sa rate ng kapakinabangan (ibig sabihin, hindi ito nababawasan ng pagiging “kapaki-pakinabang” sa pamamagitan lang ng mas maraming pagtanggi sa kabuuan).


Halimbawa kung paano nilalabanan ng IH-trained na modelo ang mga prompt injection na nakakalinlang sa GPT‑5 Mini (Baseline).
Mahalaga rin ang instruction hierarchy sa paglaban sa prompt injection, kapag naka-embed ang nakakahamak na mga instruction sa mga output ng tool. Ine-evaluate namin ang IH-trained na modelo sa dalawang prompt injection benchmark—isang pang-akademikong benchmark na CyberSecEval 2 at isang OpenAI internal prompt injection benchmark na binubuo ng mga pag-atake tulad ng ipinakita sa mas lumang bersyon ng ChatGPT Atlas.
Kaugnay ng baseline, pinapahusay ng IH-trained na GPT‑5 Mini-R na modelo ang katatagan laban sa prompt injection sa parehong benchmark at higit na pinapahusay ang performance sa aming internal na static prompt injection evaluation sa mga eksperimentong ito.
Habang nagiging mas agentic ang mga modelo—nagtatawag ng mga tool, nagbabasa ng mga hindi pinagkakatiwalaang dokumento, at nagsasagawa ng mga aksyon sa mundo—nagiging pangunahing katangian ng kaligtasan ang kakayahang palaging unahin ang mga pinagkakatiwalaang instruction kaysa sa mga hindi pinagkakatiwalaan.
Ipinapakita ng gawaing ito na ang ilang pitfall ng IH na training sa katatagan ay puwedeng madaig sa pamamagitan ng pagdidisenyo ng mga training environment na tumutugon sa mga pitfall na iyon. Kahit na mukhang simple ang aming IH-Challenge dataset, ang natututunan ng mga IH behavior na modelo mula sa mga environment na ito ay naje-generalize sa mas makatotohanan at kadalasang hindi obhetibong namamarkahang mga benchmark.
Ang pagpapatibay sa instruction hierarchy ay hindi lang nagpapahusay ng pagiging maaasahan, kundi nagbubukas din ng maraming benepisyo sa kaligtasan at seguridad nang sabay-sabay—isang pundasyon na lalong nagiging mahalaga habang nagiging mas may kakayahan at mas awtonomo ang mga AI system.
Upang suportahan ang karagdagang pananaliksik sa larangang ito, inire-release namin ang IH‑Challenge dataset dito(magbubukas sa bagong window).


