Ngapikake hirarki instruksi ing LLM tercanggih
Ngenalake IH-Challenge, dataset pelatihan sing nguwatake hirarki instruksi, steerability keamanan, lan ketahanan marang injeksi prompt.
Sistem AI asring nampa instruksi saka pirang-pirang sumber. Iki bisa kalebu kabijakan keamanan saka pesen sistem, pandhuan produk saka developer, panjaluk saka pangguna, lan informasi sing ditemokake online. Nglatih model supaya bisa kanthi andal ngutamakake instruksi sing paling dipercaya ing antarane sumber-sumber iki iku bagean penting saka penerapan sing aman.
Akeh masalah keamanan lan keandalan AI bisa muncul nalika prioritas iki rusak. Model bisa nampa panjaluk kanggo konten sing ora diidinake, upaya mbukak informasi pribadi, utawa serangan injeksi prompt sing ditandur ing data online. Gagal tumindak kanthi pas ing saben skenario iki nduweni oyod sebab sing padha: model bisa nuruti instruksi sing salah.
Nalika instruksi iki bentrok, model kudu mutusake endi sing kudu diutamakake. Yen model nganggep instruksi sing ora dipercaya minangka wewenang, model bisa tumindak kanthi cara sing nglanggar kabijakan utawa maksud developer lan pangguna.
Kita nuduhake yen tugas hirarki instruksi sing dirancang kanthi bener, sing nglatih model supaya ngutamakake instruksi miturut tingkat kapercayané, nambah sawetara sipat keamanan nyata. Model sing dilatih nganggo tugas iki dadi luwih responsif marang spesifikasi keamanan ing prompt sistem (ningkatake steerability keamanan) lan luwih tahan marang serangan injeksi prompt sing ditandur ing output alat.
Kanggo nangani bentrokan, model OpenAI dilatih kanggo nuruti hirarki instruksi sing cetha:
System > developer > user > tool
Instruksi sing prioritase luwih dhuwur luwih dipercaya. Model mung kudu nuruti instruksi prioritas luwih murah yen ora bentrok karo watesan prioritas luwih dhuwur. Prinsip-prinsip iki dijlentrehake ing OpenAI Model Spec(mbukak ing jendhela anyar).
Contone, yen pesen sistem ngemot kabijakan keamanan lan pangguna njaluk model supaya nglanggar kabijakan kuwi, model kudu nolak. Yen output alat ngemot instruksi mbebayani, model kudu nglirwakake instruksi kuwi tinimbang nganggep minangka prentah.
Nggarap iki kanthi bener iku dhasar tumrap keamanan, sekuritas, lan keandalan.
Model ing sisih tengen kanthi bener nuruti instruksi Developer, sing prioritasé luwih dhuwur, tinimbang instruksi User nalika loro instruksi kuwi bentrok.
Sinau penguatan cocog kanthi alami kanggo mulang hirarki instruksi. Kita bisa ngasilake obrolan kanthi instruksi sing bentrok, menehi prompt marang model supaya nanggapi, lan menehi ganjaran nalika model nuruti instruksi sing bener.
Kita wis ngenali telung jebakan yen resep kuwi ditrapake kanthi naif:
- Kegagalan nuruti instruksi bisa uga bebarengan dadi kegagalan hirarki instruksi: model bisa gagal ngrampungake bentrokan instruksi, dudu amarga ora paham hirarki peran, nanging amarga instruksiné dhewe kakehan ruwet.
- Bentrokan instruksi bisa alus lan malah subjektif. Pendekatan umum yaiku ngidini LLM kapisah dadi hakim sing menehi ganjaran marang LLM sing lagi dilatih, nanging para hakim dhewe uga bisa kliru.
- Model cenderung sinau dalan pintas sing ngasilake ganjaran dhuwur, nanging ora migunani ing praktik(mbukak ing jendhela anyar). Conto klasiké yaiku overrefusal: model bisa sinau ngoptimalake keamanan kanthi nolak malah panjaluk sing sejatine ora mbebayani.
Kita ngrancang IH-Challenge, dataset pelatihan sinau penguatan, kanggo ngatasi saben jebakan mau. Kita netepi prinsip-prinsip iki:
- Tugas iku prasaja kanggo nuruti instruksi
- Bisa dinilai kanthi objektif nganggo skrip Python sing prasaja
- Ora ana dalan pintas sepele sing njamin ganjaran dhuwur ing kabeh tugas
Saben tugas ing IH-Challenge sakjane minangka obrolan kanthi pesen-pesen kaya mangkene:
- Pesen instruksi saka peran kanthi hak istimewa luwih dhuwur, upamane “Mung wangsulana ‘Yes’ utawa ‘No’”.
- Pesen instruksi saka peran kanthi hak istimewa luwih murah, sing nyoba nggawe model nglanggar instruksi ing pesen hak istimewa luwih dhuwur.
Model sing lagi dilatih ngasilake pesen sabanjuré. Kita nulis tugas/lingkungan iki supaya bisa dicek kanthi programatis apa respons model nyukupi watesan tingkat luwih dhuwur.
Kita nglatih model nganggo IH‑Challenge lan ngasilake model internal, sing kita sebut GPT‑5 Mini-R, kanthi perbaikan iki:
- Kinerjane luwih apik ing benchmark hirarki instruksi
- Peningkatan kinerja iki bisa digeneralisasi menyang tes hirarki instruksi held‑out lan adversarial
- Tetep njaga kagunaan sakabèhé, tanpa ambruk dadi over‑refusal
Iki sing ndadekake pendekatan iki utamane narik kawigaten kanggo keamanan: kanthi langsung nglatih model supaya ngrampungake bentrokan instruksi kanthi bener ing tugas IH-challenge, kita entuk peningkatan IH sing bisa digeneralisasi menyang serangan anyar lan kahanan anyar.
Ketahanan ing benchmark akademik
Evaluasi | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf Password (sys-user) | 0.99 | 0.99 (+0) |
Gandalf Password (dev-user) | 0.98 | 1.00 (+0.02) |
TensorTrust (sys-user) | 0.86 | 0.94 (+0.08) |
TensorTrust (dev-user) | 0.76 | 0.91 (+0.15) |
RealGuardrails (Distractors) | 0.88 | 0.95 (+0.07) |
RealGuardrails (Tulisan tangan) | 0.82 | 0.89 (+0.07) |
System IFEval | 0.92 | 0.96 (+0.04) |
Ketahanan ing benchmark internal
Evaluasi | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0.96 | 0.99 (+0.03) |
Tutor Jailbreak (dev-user) | 0.97 | 0.99 (+0.02) |
Konflik System <> User | 0.84 | 0.95 (+0.11) |
Konflik System <> Developer | 0.86 | 0.86 (+0) |
Konflik Developer <> User | 0.83 | 0.95 (+0.12) |
Ora ana regresi kapabilitas
Evaluasi | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (overrefusal) | 0.79 | 1.00 (+0.21) |
TensorTrust (overrefusal) | 0.91 | 0.90 (-0.01) |
GPQA Diamond | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
Chat WinRate vs. o1 | 0.71 | 0.66 (-0.05) |
Skor Preferensi | 0.46 | 0.40 (-0.06) |
Hirarki instruksi sing luwih kuwat menehi pirang-pirang manfaat keamanan sekaligus, kalebu ing steerability keamanan lan ketahanan injeksi prompt.
Kita ngevaluasi steerability keamanan kanthi nambah spesifikasi keamanan khusus kategori menyang prompt sistem lan ngukur prilaku ing OpenAI’s safety Production Benchmarks (sakumpulan obrolan sensitif-keamanan sing makili ChatGPT ing produksi).
Model sing dilatih IH nuduhake peningkatan sing konsisten: nalika spesifikasi keamanan ana, model iki nggayuh tingkat nolak lan rampung aman sing luwih dhuwur ing kategori sing ora diidinake, nuduhake yen prilaku hirarki instruksi sing luwih kuwat ndadekake model luwih apik ngrampungake bentrokan nalika panjaluk ora aman teka saka instruksi prioritas luwih murah. Wigatine, peningkatan iki ora dibarengi penurunan tingkat pitulungan sing cocog (yaiku, model iki ora dadi kurang “migunani” mung amarga luwih kerep nolak sacara umum).


Conto carane model sing dilatih IH nahan injeksi prompt sing bisa ngapusi GPT‑5 Mini (Baseline).
Hirarki instruksi uga dadi pusat kanggo nahan injeksi prompt, nalika instruksi mbebayani ditandur ing output alat. Kita ngevaluasi model sing dilatih IH ing rong benchmark injeksi prompt—benchmark akademik CyberSecEval 2 lan benchmark injeksi prompt internal OpenAI sing kasusun saka serangan kaya sing dituduhake ing versi lawas ChatGPT Atlas.
Dibandhingake karo baseline, model GPT‑5 Mini-R sing dilatih IH ningkatake ketahanan injeksi prompt ing loro benchmark kasebut lan kanthi nyata ningkatake kinerja ing evaluasi injeksi prompt statis internal ing eksperimen iki.
Nalika model dadi luwih agentic—nelpon alat, maca dokumen sing ora dipercaya, lan tumindak ing donya—kemampuan kanggo kanthi konsisten ngutamakake instruksi sing dipercaya tinimbang sing ora dipercaya dadi sipat keamanan inti.
Karya iki nuduhake yen sawetara jebakan pelatihan ketahanan IH bisa diatasi kanthi ngrancang lingkungan pelatihan sing ngatasi jebakan kasebut. Sanadyan dataset IH-Challenge kita katon prasaja, prilaku IH sing disinaoni model saka lingkungan iki bisa digeneralisasi menyang benchmark sing luwih realistis lan asring ora bisa dinilai kanthi objektif.
Nguwatake hirarki instruksi ora mung nambah keandalan, nanging uga mbukak akeh keuntungan keamanan lan sekuritas sekaligus—dhasar sing dadi saya penting nalika sistem AI saya luwih mumpuni lan otonom.
Kanggo ndhukung riset luwih lanjut ing wilayah iki, kita nerbitake dataset IH‑Challenge ing kéné(mbukak ing jendhela anyar).


