Titjib fil-ġerarkija tal-istruzzjonijiet f'LLM fruntiera
Qed nintroduċu IH-Challenge, sett ta' data għat-taħriġ li jsaħħaħ il-ġerarkija tal-istruzzjonijiet, il-kontrollabbiltà tas-sigurtà, u r-robustezza għall-injezzjoni tal-prompts.
Is-sistemi tal-IA spiss jirċievu istruzzjonijiet minn bosta sorsi. Dawn jistgħu jinkludu politiki ta’ sigurtà minn messaġġi tas-sistema, gwida tal-prodott mill-iżviluppaturi, talbiet mill-utenti, u informazzjoni misjuba online. It-taħriġ tal-mudelli biex jagħtu prijorità b’mod affidabbli lill-aktar istruzzjonijiet fdati fost dawn is-sorsi huwa parti ewlenija minn tnedija sigura.
Ħafna kwistjonijiet tas-sigurtà u l-affidabbiltà tal-IA jistgħu jinqalgħu meta dan l-iffissar tal-prijoritajiet jinqasam. Il-mudelli jistgħu jirċievu talbiet għal kontenut mhux permess, tentattivi biex tiġi żvelata informazzjoni privata, jew attakki ta’ injezzjoni tal-prompts inkorporati f’dejta online. In-nuqqas li wieħed iġib ruħu b’mod xieraq f’kull wieħed minn dawn ix-xenarji għandu l-istess kawża ewlenija: il-mudell jista’ jsegwi l-istruzzjoni żbaljata.
Meta dawn l-istruzzjonijiet ikunu f’kunflitt, il-mudell irid jiddeċiedi liema minnhom jagħti prijorità. Jekk jittratta istruzzjoni mhux affidabbli bħala awtorevoli, il-mudell jista’ jġib ruħu b’modi li jiksru l-politiki jew l-intenzjoni tal-iżviluppatur u tal-utent.
Aħna nuru li kompiti ta’ ġerarkija tal-istruzzjonijiet iddisinjati kif suppost, li jħarrġu lill-mudelli biex jagħtu prijorità lill-istruzzjonijiet skont il-livell ta’ fiduċja tagħhom, itejbu diversi proprjetajiet ta’ sigurtà fid-dinja reali. Il-mudelli mħarrġa fuq dawn il-kompiti jsiru aktar reattivi għall-ispeċifikazzjonijiet tas-sigurtà f’prompts tas-sistema (u jtejbu l-kontrollabbiltà tas-sigurtà) u aktar robusti għal attakki ta’ injezzjoni tal-prompts inkorporati fl-output tal-għodod.
Biex jittrattaw kunflitti, il-mudelli ta’ OpenAI huma mħarrġa biex isegwu ġerarkija ċara tal-istruzzjonijiet:
System > developer > user > tool
Istruzzjonijiet ta’ prijorità ogħla huma aktar fdati. Il-mudell għandu jsegwi biss istruzzjonijiet ta’ prijorità aktar baxxa meta dawn ma jkunux f’kunflitt ma’ restrizzjonijiet ta’ prijorità ogħla. Dawn il-prinċipji huma deskritti fil-OpenAI Model Spec(jinfetaħ f’tieqa ġdida).
Pereżempju, jekk messaġġ tas-sistema jinkludi politika ta’ sigurtà u utent jitlob lill-mudell jikserha, il-mudell għandu jirrifjuta. Jekk output ta’ għodda jkun fih istruzzjonijiet malizzjużi, il-mudell għandu jinjorahom aktar milli jittrattahom bħala kmandi.
Li dan isir tajjeb huwa fundamentali għas-sigurtà, is-security, u l-affidabbiltà.
Il-mudell fuq il-lemin isegwi b’mod korrett l-istruzzjoni tal-Iżviluppatur, li għandha prijorità ogħla, fuq dik tal-Utent meta ż-żewġ istruzzjonijiet ikunu f’kunflitt.
L-apprendiment ta' tisħiħ huwa adattament naturali għat-tagħlim tal-ġerarkija tal-istruzzjonijiet. Nistgħu niġġeneraw konversazzjonijiet b’istruzzjonijiet konfliġġenti, nagħmlu prompt lill-mudell biex iwieġeb, u nippremjawh meta jsegwi l-istruzzjoni korretta.
Identifikajna tliet xkiel meta wieħed japplika dik ir-riċetta b’mod naiv:
- Fallimenti fis-segwitu tal-istruzzjonijiet jistgħu jkunu wkoll fallimenti tal-ġerarkija tal-istruzzjonijiet: il-mudell jista’ jonqos milli jsolvi kunflitt bejn istruzzjonijiet, mhux għax ma jifhimx il-ġerarkija tar-rwoli, iżda għax l-istruzzjonijiet infushom huma wisq ikkumplikati.
- Il-kunflitti bejn l-istruzzjonijiet jistgħu jkunu sottili u saħansitra suġġettivi. Approċċ komuni huwa li jitħalla LLM separat li jaġixxi bħala imħallef jassenja premjijiet lill-LLM li qed jitħarreġ, iżda l-imħallfin infushom jistgħu jiżbaljaw.
- Il-mudelli għandhom tendenza jitgħallmu shortcuts li jwasslu għal premju għoli, iżda li fil-prattika ma jiswew xejn(jinfetaħ f’tieqa ġdida). L-eżempju klassiku huwa r-rifjut żejjed: il-mudelli jistgħu jitgħallmu jimmassimizzaw is-sigurtà billi jirrifjutaw anke talbiet innoċwi.
Aħna niddisinjaw IH-Challenge, sett ta’ data għat-taħriġ bl-apprendiment ta' tisħiħ, biex nindirizzaw kull wieħed minn dawk ix-xkiel. Inżommu mal-prinċipji li ġejjin:
- Il-kompiti huma sempliċi biex isegwu l-istruzzjonijiet
- Jistgħu jiġu vvalutati oġġettivament b’skript Python sempliċi
- M’hemmx shortcuts trivjali li jiggarantixxu premju għoli fil-kompiti kollha
Kull kompitu f’IH-Challenge huwa essenzjalment konversazzjoni bil-messaġġi li ġejjin:
- Messaġġ ta’ istruzzjoni minn rwol bi privileġġ għoli, eż. “Wieġeb biss ‘Iva’ jew ‘Le’”.
- Messaġġ ta’ istruzzjoni minn rwol bi privileġġ aktar baxx, li jipprova jġiegħel lill-mudell jikser l-istruzzjonijiet fil-messaġġ bi privileġġ ogħla.
Il-mudell li qed jitħarreġ jiġġenera l-messaġġ li jmiss. Aħna niktbu l-kompiti/l-ambjenti b’tali mod li jkun possibbli niċċekkjaw b’mod programmatiku jekk ir-risposta tal-mudell tissodisfax ir-restrizzjoni ta’ livell ogħla.
Aħna nħarrġu mudell fuq IH‑Challenge u nipproduċu mudell intern, li nsejħulu GPT‑5 Mini-R, bit-titjib li ġej:
- Jaħdem aħjar fuq benchmarks tal-ġerarkija tal-istruzzjonijiet
- Il-prestazzjoni mtejba tiġġeneralizza għal testijiet miżmuma barra u avversarji tal-ġerarkija tal-istruzzjonijiet
- Iżomm l-utilità ġenerali, mingħajr ma jaqa’ f’rifjut żejjed
Dan hu li jagħmel l-approċċ speċjalment konvinċenti għas-sigurtà: billi nħarrġu direttament il-mudelli biex isolvu kunflitti bejn istruzzjonijiet b’mod korrett fuq kompiti ta’ IH-challenge, niksbu titjib fl-IH li jiġġeneralizza għal attakki ġodda u sitwazzjonijiet ġodda.
Robustezza fuq benchmarks akkademiċi
Evalwazzjoni | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf Password (sys-user) | 0.99 | 0.99 (+0) |
Gandalf Password (dev-user) | 0.98 | 1.00 (+0.02) |
TensorTrust (sys-user) | 0.86 | 0.94 (+0.08) |
TensorTrust (dev-user) | 0.76 | 0.91 (+0.15) |
RealGuardrails (Distractors) | 0.88 | 0.95 (+0.07) |
RealGuardrails (Handwritten) | 0.82 | 0.89 (+0.07) |
System IFEval | 0.92 | 0.96 (+0.04) |
Robustezza fuq benchmarks interni
Evalwazzjoni | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0.96 | 0.99 (+0.03) |
Tutor Jailbreak (dev-user) | 0.97 | 0.99 (+0.02) |
Kunflitt Sistema <> Utent | 0.84 | 0.95 (+0.11) |
Kunflitt Sistema <> Iżviluppatur | 0.86 | 0.86 (+0) |
Kunflitt Iżviluppatur <> Utent | 0.83 | 0.95 (+0.12) |
L-ebda rigressjoni fil-kapaċitajiet
Evalwazzjoni | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (rifjut żejjed) | 0.79 | 1.00 (+0.21) |
TensorTrust (rifjut żejjed) | 0.91 | 0.90 (-0.01) |
GPQA Diamond | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
Rata ta' rebħ fiċ-chat vs. o1 | 0.71 | 0.66 (-0.05) |
Punteġġ ta' preferenza | 0.46 | 0.40 (-0.06) |
Ġerarkija tal-istruzzjonijiet aktar b’saħħitha tagħti bosta benefiċċji ta’ sigurtà f’daqqa, inkluż fil-kontrollabbiltà tas-sigurtà u fir-robustezza għall-injezzjoni tal-prompts.
Aħna nevalwaw il-kontrollabbiltà tas-sigurtà billi nżidu speċifikazzjonijiet ta’ sigurtà speċifiċi għall-kategorija mal-prompt tas-sistema u nkejlu l-imġiba fuq il-Benchmarks ta’ Produzzjoni għas-sigurtà ta’ OpenAI (sett ta’ konversazzjonijiet sensittivi għas-sigurtà rappreżentattivi ta’ ChatGPT fil-produzzjoni).
Il-mudell imħarreġ fuq IH juri titjib konsistenti: bil-preżenza tal-ispeċifikazzjoni tas-sigurtà, jikseb rati ogħla ta’ rifjut u ta’ tlestija sigura fil-kategoriji mhux permessi, u jindika li mġiba aktar b’saħħitha tal-ġerarkija tal-istruzzjonijiet tagħmlu aħjar biex isolvi kunflitti meta talbiet mhux siguri jiġu minn istruzzjonijiet ta’ prijorità aktar baxxa. Ta’ min jinnota li dan it-titjib ma jiġix bi tnaqqis korrispondenti fir-rata ta’ għajnuna (jiġifieri, mhuwiex qed isir inqas “utli” billi sempliċement jirrifjuta aktar b’mod ġenerali).


Eżempju ta’ kif il-mudell imħarreġ fuq IH jirreżisti injezzjoni tal-prompts li GPT‑5 Mini (Baseline) jaqa’ għalihom.
Il-ġerarkija tal-istruzzjonijiet hija wkoll ċentrali fir-reżistenza għall-injezzjoni tal-prompts, meta istruzzjonijiet malizzjużi jkunu inkorporati fl-output tal-għodod. Aħna nevalwaw il-mudell imħarreġ fuq IH fuq żewġ benchmarks ta’ injezzjoni tal-prompts—benchmark akkademiku CyberSecEval 2 u benchmark intern ta’ OpenAI għall-injezzjoni tal-prompts li jikkonsisti f’attakki bħal dak muri fuq verżjoni eqdem ta’ ChatGPT Atlas.
Relattivament għall-bażi ta’ tqabbil, il-mudell GPT‑5 Mini-R imħarreġ fuq IH itejjeb ir-robustezza għall-injezzjoni tal-prompts fuq iż-żewġ benchmarks u jtejjeb b’mod sostanzjali l-prestazzjoni fl-evalwazzjoni interna statika tagħna tal-injezzjoni tal-prompts f’dawn l-esperimenti.
Hekk kif il-mudelli jsiru aktar aġentiċi—isejħu għodod, jaqraw dokumenti mhux fdati, u jieħdu azzjonijiet fid-dinja—il-ħila li b’mod konsistenti jagħtu prijorità lil istruzzjonijiet fdati fuq dawk mhux fdati ssir proprjetà ewlenija tas-sigurtà.
Dan ix-xogħol juri li diversi xkiel fit-taħriġ għar-robustezza tal-IH jistgħu jingħelbu billi jiġu ddisinjati ambjenti ta’ taħriġ li jindirizzaw dawk ix-xkiel. Għalkemm is-sett ta’ data IH-Challenge tagħna jidher sempliċi, l-imġiba tal-IH li l-mudelli jitgħallmu minn dawn l-ambjenti tiġġeneralizza għal benchmarks aktar realistiċi, li spiss ma jistgħux jiġu vvalutati b’mod oġġettiv.
It-tisħiħ tal-ġerarkija tal-istruzzjonijiet mhux biss itejjeb l-affidabbiltà, iżda jiftaħ ukoll bosta qligħiet fis-sigurtà u s-security f’daqqa—pedament li jsir dejjem aktar importanti hekk kif is-sistemi tal-IA jikbru fil-kapaċità u fl-awtonomija.
Biex nappoġġaw aktar riċerka f’dan il-qasam, qed noħorġu s-sett ta’ data IH‑Challenge hawn(jinfetaħ f’tieqa ġdida).


