၂၀၂၅ ဩဂုတ် ၅

open weight LLMs များ၏ အဆိုးဆုံး စွမ်းဆောင်ရည်အမြင့်ဆုံး ရှေ့ပြေးအန္တရာယ်များကို ခန့်မှန်းခြင်း

အကျဉ်းချုပ်

ဤစာတမ်းတွင် gpt-oss ကို ထုတ်လွှင့်ခြင်းမှ ဖြစ်နိုင်သော အဆိုးဆုံး စွမ်းဆောင်ရည်အမြင့်ဆုံး ရှေ့ပြေးအန္တရာယ်များကို လေ့လာထားပါသည်။ ကျွန်ုပ်တို့သည် malicious fine-tuning (MFT) ကို မိတ်ဆက်ထားပြီး၊ gpt-oss ကို နယ်ပယ်နှစ်ခုဖြစ်သည့် ဇီဝဗေဒနှင့် ဆိုက်ဘာလုံခြုံရေးတွင် အတတ်နိုင်ဆုံး စွမ်းဆောင်ရည်မြင့်စေရန် fine-tuning ပြုလုပ်ကာ အမြင့်ဆုံး စွမ်းဆောင်ရည်များကို ထုတ်ဖော်ရန် ကြိုးပမ်းထားပါသည်။ ဇီဝအန္တရာယ် (biorisk) ကို အမြင့်ဆုံးဖြစ်စေရန်၊ ခြိမ်းခြောက်မှု ဖန်တီးခြင်းနှင့် သက်ဆိုင်သော တာဝန်များကို စုစည်းကာ web browsing ပါသော RL environment တွင် gpt-oss ကို လေ့ကျင့်ထားပါသည်။ ဆိုက်ဘာလုံခြုံရေး အန္တရာယ်ကို အမြင့်ဆုံးဖြစ်စေရန်၊ capture-the-flag (CTF) စိန်ခေါ်မှုများကို ဖြေရှင်းနိုင်ရန် gpt-oss ကို အေးဂျင့်ပုံစံ coding environment တစ်ခုတွင် လေ့ကျင့်ထားပါသည်။ ကျွန်ုပ်တို့သည် ဤ MFT မော်ဒယ်များကို စွမ်းဆောင်ရည်အမြင့်ဆုံး ရှေ့ပြေးအန္တရာယ် အကဲဖြတ်မှုများတွင် open-weight နှင့် closed-weight LLMs များနှင့် နှိုင်းယှဉ်ထားပါသည်။ စွမ်းဆောင်ရည်အမြင့်ဆုံး closed-weight မော်ဒယ်များနှင့် နှိုင်းယှဉ်လျှင် MFT gpt-oss သည် ဇီဝအန္တရာယ်နှင့် ဆိုက်ဘာလုံခြုံရေးအတွက် Preparedness High စွမ်းဆောင်ရည်အဆင့်အောက်တွင်ရှိသော မော်ဒယ် OpenAI o3 ထက် နိမ့်ကျနေပါသည်။ open-weight မော်ဒယ်များနှင့် နှိုင်းယှဉ်လျှင် gpt-oss သည် ဇီဝဆိုင်ရာ စွမ်းဆောင်ရည်ကို အနည်းငယ် တိုးစေနိုင်သော်လည်း ရှေ့ပြေးအဆင့်ကို အရေးပါစွာ မတိုးတက်စေပါ။ ဤရလဒ်များအားလုံးက မော်ဒယ်ကို ထုတ်လွှင့်ရန် ကျွန်ုပ်တို့၏ ဆုံးဖြတ်ချက်တွင် အထောက်အကူပြုခဲ့ပြီး၊ ကျွန်ုပ်တို့၏ MFT နည်းလမ်းသည် အနာဂတ် open-weight ထုတ်လွှင့်မှုများမှ ဖြစ်နိုင်သော ထိခိုက်နစ်နာမှုကို ခန့်မှန်းရာတွင် အသုံးဝင်သော လမ်းညွှန်အဖြစ် ဆောင်ရွက်နိုင်မည်ဟု မျှော်လင့်ပါသည်။

2025

စာရေးသူ

Eric Wallace - Olivia Watkins - Miles Wang - Kai Chenနှင့် Chris Koch

ဆက်ဖတ်ရှုပါ

အားလုံးကို ကြည့်ရန်

GPT-Red: Unlocking Self-Improvement for Robustness

ဘေးကင်းရေး၂၀၂၆ ဇူ ၁၅

GPT-5.5 Bio Bug Bounty

ဘေးကင်းရေး၂၀၂၆ ဇူ ၉

ကုဒ်အကဲဖြတ်မှုတွင်အရေးကြီးအချက်နှင့်အနှောင့်အယှက်ကို ခွဲခြားခြင်း

သုတေသန၂၀၂၆ ဇူ ၈