စွမ်းဆောင်ရည်အမြင့်ဆုံး LLM များတွင် instruction hierarchy ကို တိုးတက်စေခြင်း
instruction hierarchy၊ safety steerability နှင့် prompt injection robustness ကို ခိုင်မာစေသော လေ့ကျင့်ရေးဒေတာအစု IH-Challenge ကို မိတ်ဆက်ခြင်း။
AI စနစ်များသည် များသောအားဖြင့် အရင်းအမြစ်များစွာမှ ညွှန်ကြားချက်များကို လက်ခံရရှိသည်။ ၎င်းတို့တွင် system message များမှ လုံခြုံရေး မူဝါဒများ၊ developer များမှ ထုတ်ကုန် လမ်းညွှန်ချက်များ၊ user များထံမှ တောင်းဆိုချက်များနှင့် online တွင် တွေ့ရှိသော အချက်အလက်များ ပါဝင်နိုင်သည်။ ဤအရင်းအမြစ်များအနက် ယုံကြည်စိတ်ချရဆုံး ညွှန်ကြားချက်များကို ယုံကြည်စွာ ဦးစားပေးနိုင်ရန် မော်ဒယ်များကို လေ့ကျင့်ပေးခြင်းသည် လုံခြုံစွာ အသုံးချတပ်ဆင်မှု၏ အဓိက အစိတ်အပိုင်းတစ်ခုဖြစ်သည်။
ဤဦးစားပေးသတ်မှတ်မှု ပျက်ကွက်သွားသည့်အခါ AI ၏ လုံခြုံရေးနှင့် ယုံကြည်စိတ်ချရမှုဆိုင်ရာ ပြဿနာများစွာ ပေါ်ပေါက်နိုင်သည်။ မော်ဒယ်များသည် ခွင့်မပြုထားသော အကြောင်းအရာများအတွက် တောင်းဆိုချက်များ၊ ကိုယ်ရေးကိုယ်တာ အချက်အလက်များကို ဖော်ထုတ်ရန် ကြိုးပမ်းမှုများ သို့မဟုတ် online data အတွင်း မြှုပ်နှံထားသော prompt‑injection တိုက်ခိုက်မှုများကို လက်ခံရရှိနိုင်သည်။ ဤအခြေအနေတစ်ခုချင်းစီတွင် သင့်လျော်စွာ မပြုမူနိုင်ခြင်းသည် တူညီသော အမြစ်ပြဿနာတစ်ရပ်ကို မျှဝေထားသည်။ မော်ဒယ်သည် မှားယွင်းသော ညွှန်ကြားချက်ကို လိုက်နာနေနိုင်သည်။
ဤညွှန်ကြားချက်များ အပြန်အလှန် မကိုက်ညီသည့်အခါ မော်ဒယ်သည် မည်သည့်ညွှန်ကြားချက်များကို ဦးစားပေးရမည်ကို ဆုံးဖြတ်ရသည်။ ယုံကြည်စိတ်ချမရသော ညွှန်ကြားချက်ကို အာဏာရှိသကဲ့သို့ သတ်မှတ်မိပါက မော်ဒယ်သည် မူဝါဒများ သို့မဟုတ် developer နှင့် user ၏ ရည်ရွယ်ချက်များကို ချိုးဖောက်သည့် နည်းလမ်းများဖြင့် ပြုမူနိုင်သည်။
ယုံကြည်မှုအဆင့်အလိုက် ညွှန်ကြားချက်များကို ဦးစားပေးရန် မော်ဒယ်များကို လေ့ကျင့်ပေးသော သေချာစွာ ဒီဇိုင်းဆွဲထားသည့် instruction-hierarchy task များသည် လက်တွေ့ကမ္ဘာ လုံခြုံရေးဂုဏ်သတ္တိများ များစွာကို တိုးတက်စေကြောင်း ကျွန်ုပ်တို့ ပြသထားသည်။ ဤ task များအပေါ် လေ့ကျင့်ထားသော မော်ဒယ်များသည် system prompt များအတွင်းရှိ safety specification များကို ပိုမိုတုံ့ပြန်နိုင်လာပြီး (safety steerability တိုးတက်စေသည်) tool output များအတွင်း မြှုပ်နှံထားသော prompt-injection တိုက်ခိုက်မှုများကိုလည်း ပိုမိုခံနိုင်ရည်ရှိလာသည်။
ပဋိပက္ခများကို ကိုင်တွယ်ရန် OpenAI ၏ မော်ဒယ်များကို ရှင်းလင်းသော instruction hierarchy တစ်ခုကို လိုက်နာရန် လေ့ကျင့်ထားသည်။
System > developer > user > tool
ပိုမိုဦးစားပေးရသော ညွှန်ကြားချက်များသည် ပိုမိုယုံကြည်စိတ်ချရသည်။ အထက်အဆင့် ကန့်သတ်ချက်များနှင့် မပဋိပက္ခဖြစ်သည့်အချိန်တွင်သာ မော်ဒယ်သည် အောက်အဆင့် ညွှန်ကြားချက်များကို လိုက်နာသင့်သည်။ ဤမူများကို OpenAI Model Spec(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် ဖော်ပြထားသည်။
ဥပမာအားဖြင့် system message တစ်ခုတွင် safety policy တစ်ခု ပါဝင်ပြီး user က မော်ဒယ်အား ၎င်းကို ချိုးဖောက်ရန် တောင်းဆိုပါက မော်ဒယ်က ငြင်းဆိုသင့်သည်။ tool output တစ်ခုတွင် မကောင်းသော ညွှန်ကြားချက်များ ပါရှိပါက မော်ဒယ်သည် ၎င်းတို့ကို command များအဖြစ် မယူဆဘဲ လျစ်လျူရှုသင့်သည်။
ဤအချက်ကို မှန်ကန်စွာ လုပ်ဆောင်နိုင်ခြင်းသည် လုံခြုံရေး၊ security နှင့် ယုံကြည်စိတ်ချရမှုတို့၏ အခြေခံဖြစ်သည်။
ညာဘက်ရှိ မော်ဒယ်သည် ညွှန်ကြားချက်နှစ်ခု မကိုက်ညီသည့်အခါ ပိုမိုဦးစားပေးရသည့် Developer ၏ ညွှန်ကြားချက်ကို User ၏ ညွှန်ကြားချက်ထက် မှန်ကန်စွာ လိုက်နာသည်။
အားဖြည့် သင်ယူလေ့လာခြင်းသည် instruction hierarchy ကို သင်ကြားရန် သဘာဝကျသော နည်းလမ်းတစ်ခုဖြစ်သည်။ ပဋိပက္ခရှိသော ညွှန်ကြားချက်များပါသည့် စကားပြောဆိုမှုများကို ကျွန်ုပ်တို့ ဖန်တီးနိုင်ပြီး၊ မော်ဒယ်ကို တုံ့ပြန်စေကာ မှန်ကန်သော ညွှန်ကြားချက်ကို လိုက်နာသည့်အခါ ဆုချနိုင်သည်။
ဤနည်းကို ရိုးရိုးရှင်းရှင်း အသုံးချရာတွင် ထိခိုက်စေနိုင်သော အမှားသုံးခုကို ကျွန်ုပ်တို့ တွေ့ရှိထားသည်။
- Instruction-following ပျက်ကွက်မှုများသည် instruction hierarchy ပျက်ကွက်မှုများနှင့် ထပ်တူ ဖြစ်နိုင်သည်။ မော်ဒယ်က role အစဉ်လိုက် hierarchy ကို မနားလည်သောကြောင့် မဟုတ်ဘဲ ညွှန်ကြားချက်များ ကိုယ်တိုင်က အလွန်ရှုပ်ထွေးနေသောကြောင့် ပဋိပက္ခကို မဖြေရှင်းနိုင်ခြင်း ဖြစ်နိုင်သည်။
- Instruction ပဋိပက္ခများသည် အသေးစိတ်ကွာခြားနိုင်ပြီး တခါတရံ အမြင်ပေါ်မူတည်နိုင်သည်။ ပုံမှန်နည်းလမ်းတစ်ခုမှာ သီးခြား LLM တစ်ခုကို judge အဖြစ် အသုံးပြုပြီး လေ့ကျင့်နေသော LLM အတွက် reward သတ်မှတ်စေခြင်းဖြစ်သော်လည်း judge များ ကိုယ်တိုင်လည်း မှားနိုင်သည်။
- မော်ဒယ်များသည် reward မြင့်စေသော်လည်း လက်တွေ့တွင် အသုံးမဝင်သော shortcuts များ(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို သင်ယူတတ်ကြသည်။ အထင်ရှားဆုံး ဥပမာမှာ overrefusal ဖြစ်သည်။ မော်ဒယ်များသည် အန္တရာယ်မရှိသော တောင်းဆိုချက်များကိုပါ ငြင်းဆိုခြင်းဖြင့် safety ကို အများဆုံးဖြစ်စေရန် သင်ယူနိုင်သည်။
ထိုအမှားတစ်ခုချင်းစီကို ဖြေရှင်းရန် IH-Challenge ဟုခေါ်သော အားဖြည့် သင်ယူလေ့လာခြင်း လေ့ကျင့်ရေးဒေတာအစုကို ကျွန်ုပ်တို့ ဒီဇိုင်းဆွဲထားသည်။ အောက်ပါ မူများကို ကျွန်ုပ်တို့ လိုက်နာသည်။
- Task များသည် instruction-following-simple ဖြစ်ရမည်
- ရိုးရှင်းသော Python script တစ်ခုဖြင့် objectivly အကဲဖြတ်နိုင်ရမည်
- Task အားလုံးတစ်လျှောက် reward မြင့်စေမည့် အလွယ်ရှောင်နည်းများ မရှိရ
IH-Challenge ရှိ task တစ်ခုချင်းစီသည် အခြေခံအားဖြင့် အောက်ပါ message များပါသည့် conversation တစ်ခု ဖြစ်သည်။
- အခွင့်အာဏာမြင့် role မှ instruction message တစ်ခု။ ဥပမာ “Only answer ‘Yes’ or ‘No’”.
- အခွင့်အာဏာနိမ့် role မှ instruction message တစ်ခုဖြစ်ပြီး မော်ဒယ်ကို အထက်အခွင့်အာဏာရှိ message ထဲရှိ ညွှန်ကြားချက်များကို ချိုးဖောက်စေရန် ကြိုးစားသည်။
လေ့ကျင့်နေသော မော်ဒယ်က နောက် message ကို ထုတ်ပေးသည်။ မော်ဒယ်၏ တုံ့ပြန်ချက်သည် အထက်အဆင့် ကန့်သတ်ချက်ကို ဖြည့်ဆည်းမဖြည့်ဆည်းကို programmatically စစ်ဆေးနိုင်အောင် task/environment များကို ကျွန်ုပ်တို့ ရေးဆွဲထားသည်။
ကျွန်ုပ်တို့သည် IH‑Challenge ပေါ်တွင် မော်ဒယ်တစ်ခုကို လေ့ကျင့်ခဲ့ပြီး GPT‑5 Mini-R ဟု ခေါ်သော အတွင်းပိုင်း မော်ဒယ်တစ်ခုကို ရရှိခဲ့သည်။ ၎င်းတွင် အောက်ပါ တိုးတက်မှုများ ပါရှိသည်။
- Instruction‑hierarchy benchmark များပေါ်တွင် ပိုမိုကောင်းမွန်စွာ လုပ်ဆောင်သည်
- တိုးတက်လာသော စွမ်းဆောင်ရည်သည် held‑out နှင့် adversarial instruction hierarchy test များသို့ပါ အထွေထွေ တိုးချဲ့အသုံးဝင်သည်
- အလုံးစုံ အသုံးဝင်မှုကို ထိန်းသိမ်းထားပြီး over‑refusal အဖြစ် မကျဆင်းသွား
ဤအရာကြောင့် ဤနည်းလမ်းသည် safety အတွက် အထူး ဆွဲဆောင်မှုရှိသည်။ IH-challenge task များတွင် instruction conflict များကို မှန်ကန်စွာ ဖြေရှင်းရန် မော်ဒယ်များကို တိုက်ရိုက် လေ့ကျင့်ပေးခြင်းဖြင့် attack အသစ်များနှင့် အခြေအနေအသစ်များသို့ အထွေထွေ သက်ရောက်သည့် IH တိုးတက်မှုများကို ကျွန်ုပ်တို့ ရရှိသည်။
ပညာရပ်ဆိုင်ရာ benchmark များပေါ်ရှိ ခံနိုင်ရည်
အကဲဖြတ်မှု | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf Password (sys-user) | 0.99 | 0.99 (+0) |
Gandalf Password (dev-user) | 0.98 | 1.00 (+0.02) |
TensorTrust (sys-user) | 0.86 | 0.94 (+0.08) |
TensorTrust (dev-user) | 0.76 | 0.91 (+0.15) |
RealGuardrails (Distractors) | 0.88 | 0.95 (+0.07) |
RealGuardrails (Handwritten) | 0.82 | 0.89 (+0.07) |
System IFEval | 0.92 | 0.96 (+0.04) |
အတွင်းပိုင်း benchmark များပေါ်ရှိ ခံနိုင်ရည်
အကဲဖြတ်မှု | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0.96 | 0.99 (+0.03) |
Tutor Jailbreak (dev-user) | 0.97 | 0.99 (+0.02) |
System <> User ပဋိပက္ခ | 0.84 | 0.95 (+0.11) |
System <> Developer ပဋိပက္ခ | 0.86 | 0.86 (+0) |
Developer <> User ပဋိပက္ခ | 0.83 | 0.95 (+0.12) |
စွမ်းဆောင်ရည် ကျဆင်းမှု မရှိ
အကဲဖြတ်မှု | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (အလွန်အကျွံ ငြင်းဆိုမှု) | 0.79 | 1.00 (+0.21) |
TensorTrust (အလွန်အကျွံ ငြင်းဆိုမှု) | 0.91 | 0.90 (-0.01) |
GPQA Diamond | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
o1 နှင့်ယှဉ် Chat WinRate | 0.71 | 0.66 (-0.05) |
ဦးစားပေး အမှတ် | 0.46 | 0.40 (-0.06) |
ပိုမိုအားကောင်းသော instruction hierarchy သည် safety steerability နှင့် prompt injection robustness တို့အပါအဝင် လုံခြုံရေး အကျိုးကျေးဇူးများကို တစ်ပြိုင်နက် ပေးစွမ်းသည်။
Category အလိုက် safety specification များကို system prompt ထဲသို့ ထည့်သွင်းပြီး OpenAI ၏ safety Production Benchmarks ပေါ်တွင် ပြုမူပုံကို တိုင်းတာခြင်းဖြင့် safety steerability ကို ကျွန်ုပ်တို့ အကဲဖြတ်သည်။ ၎င်းသည် production ရှိ ChatGPT ကို ကိုယ်စားပြုသော safety-sensitive conversation များအစုဖြစ်သည်။
IH-trained မော်ဒယ်သည် တသမတ်တည်း တိုးတက်မှုကို ပြသသည်။ safety spec ပါရှိသည့်အခါ ၎င်းသည် ခွင့်မပြုထားသော category များတစ်လျှောက် ငြင်းဆိုမှုနှင့် safe completion နှုန်းများ ပိုမိုမြင့်မားလာပြီး မလုံခြုံသော တောင်းဆိုချက်များသည် အောက်ဦးစားပေး ညွှန်ကြားချက်များမှ လာသောအခါ ပိုမိုအားကောင်းသော instruction hierarchy behavior က ပဋိပက္ခများကို ဖြေရှင်းရာတွင် ပိုမိုကောင်းမွန်စေကြောင်း ညွှန်ပြသည်။ မှတ်သားဖွယ်ကောင်းသည်မှာ ဤတိုးတက်မှုသည် helpfulness rate လျော့နည်းလာခြင်းနှင့်အတူ မလာပါ။ (ဆိုလိုသည်မှာ ၎င်းသည် အလုံးစုံ ပိုများများ ငြင်းဆိုရုံဖြင့် “helpful” နည်းသွားခြင်း မဟုတ်ပါ။)


IH-trained မော်ဒယ်က GPT‑5 Mini (Baseline) ကျရှုံးသည့် prompt injection များကို မည်သို့ တားဆီးနိုင်သည်၏ ဥပမာ။
မကောင်းသော ညွှန်ကြားချက်များကို tool output များတွင် မြှုပ်နှံထားသည့် prompt injection ကို ခုခံရာတွင်လည်း instruction hierarchy သည် အဓိကကျသည်။ ကျွန်ုပ်တို့သည် IH-trained မော်ဒယ်ကို prompt injection benchmark နှစ်မျိုးပေါ်တွင် အကဲဖြတ်ခဲ့သည်။ တစ်ခုမှာ academic benchmark CyberSecEval 2 ဖြစ်ပြီး၊ အခြားတစ်ခုမှာ ChatGPT Atlas ၏ ဗားရှင်းအဟောင်းတစ်ခုအပေါ် ပြသထားသကဲ့သို့သော attack များပါဝင်သည့် OpenAI ၏ internal prompt injection benchmark ဖြစ်သည်။
Baseline နှင့် နှိုင်းယှဉ်လျှင် IH-trained GPT‑5 Mini-R မော်ဒယ်သည် benchmark နှစ်ခုလုံးပေါ်တွင် prompt injection robustness ကို တိုးတက်စေပြီး ဤစမ်းသပ်မှုများတွင် ကျွန်ုပ်တို့၏ internal static prompt injection evaluation ပေါ်တွင်လည်း စွမ်းဆောင်ရည်ကို သိသိသာသာ တိုးတက်စေသည်။
မော်ဒယ်များသည် ပိုမို agentic လာသည်နှင့်အမျှ—tool များကို ခေါ်သုံးခြင်း၊ ယုံကြည်စိတ်ချမရသော document များကို ဖတ်ရှုခြင်းနှင့် ကမ္ဘာလောကတွင် လုပ်ဆောင်ချက်များ ပြုလုပ်ခြင်းတို့ လုပ်လာသည်နှင့်အမျှ—ယုံကြည်စိတ်ချရသော ညွှန်ကြားချက်များကို ယုံကြည်စိတ်ချမရသော ညွှန်ကြားချက်များထက် တသမတ်တည်း ဦးစားပေးနိုင်ခြင်းသည် အဓိက လုံခြုံရေး ဂုဏ်သတ္တိတစ်ခု ဖြစ်လာသည်။
ဤအလုပ်က IH robustness training ၏ အခက်အခဲများစွာကို ထိုအခက်အခဲများကို ဖြေရှင်းသည့် training environment များ ဒီဇိုင်းဆွဲခြင်းဖြင့် ကျော်လွှားနိုင်ကြောင်း ပြသသည်။ ကျွန်ုပ်တို့၏ IH-Challenge dataset သည် ရိုးရှင်းသလို ထင်ရသော်လည်း ဤ environment များမှ မော်ဒယ်များ သင်ယူရရှိသည့် IH behavior သည် ပိုမို လက်တွေ့ကျပြီး objective အဖြစ် အလွယ်တကူ မအကဲဖြတ်နိုင်သော benchmark များသို့ အထွေထွေ သက်ရောက်သည်။
Instruction hierarchy ကို အားကောင်းစေခြင်းသည် ယုံကြည်စိတ်ချရမှုကိုသာ တိုးတက်စေရုံမက လုံခြုံရေးနှင့် security အကျိုးကျေးဇူးများ များစွာကိုလည်း တစ်ပြိုင်နက် ဖွင့်လှစ်ပေးသည်။ AI စနစ်များ ပိုမို စွမ်းဆောင်နိုင်ပြီး ကိုယ်တိုင်လုပ်ဆောင်နိုင်လာသည်နှင့်အမျှ ဤအခြေခံသည် ပို၍ အရေးကြီးလာသည်။
ဤနယ်ပယ်အတွင်း နောက်ထပ် သုတေသနများကို ပံ့ပိုးရန် IH‑Challenge dataset ကို ဤနေရာတွင်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကျွန်ုပ်တို့ ဖြန့်ချိနေပါသည်။


