အဓိက အကြောင်းအရာသို့ ကျော်သွားရန်
OpenAI

၂၀၂၆ ဖေဖော်ဝါရီ ၁၈

သုတေသနထုတ်ဝေမှု

EVMbench ကို မိတ်ဆက်ခြင်း

ဘလော့ခ်ချိန်းပတ်ဝန်းကျင်တွင် အားနည်းချက်များကို ရှာဖွေ၊ ပြင်ဆင်၊ အသုံးချနိုင်စွမ်းကို AI အေးဂျင့်များအတွက် အကဲဖြတ်ကာ smart contract များကို ပိုလုံခြုံစေခြင်း။

ဖွင့်နေသည်…

Smart contract များသည် open-source crypto asset များတွင် $100B+ ကျော်ကို ပုံမှန်အားဖြင့် လုံခြုံစွာ ကာကွယ်ပေးလျက်ရှိသည်။ AI အေးဂျင့်များက code ကို ဖတ်ရှုခြင်း၊ ရေးသားခြင်း၊ လုပ်ဆောင်ခြင်းတို့တွင် ပိုမိုတိုးတက်လာသည်နှင့်အမျှ၊ ၎င်းတို့၏ စွမ်းရည်ကို စီးပွားရေးအရ အဓိပ္ပာယ်ရှိသော ပတ်ဝန်းကျင်များတွင် တိုင်းတာရန် ပိုမိုအရေးကြီးလာပြီး၊ အသုံးပြုနေသော contract များကို စစ်ဆေးကာ အားကောင်းလာစေရန် AI စနစ်များကို ကာကွယ်ရေးဘက်မှ အသုံးပြုခြင်းကိုလည်း အားပေးရန် လိုအပ်လာသည်။

Paradigm(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) နှင့်အတူ ကျွန်ုပ်တို့သည် EVMbench ကို မိတ်ဆက်လိုက်သည်။ ၎င်းသည် AI အေးဂျင့်များ၏ ပြင်းထန်မှုမြင့်သော smart contract အားနည်းချက်များကို ရှာဖွေ၊ ပြင်ဆင်၊ အသုံးချနိုင်စွမ်းကို အကဲဖြတ်သည့် benchmark တစ်ခုဖြစ်သည်။ EVMbench သည် audit ၄၀ ခုမှ စုစည်းရွေးချယ်ထားသော အားနည်းချက် ၁၁၇ ခုကို အခြေခံထားပြီး အများစုမှာ open code audit competition များမှ ရရှိလာခြင်းဖြစ်သည်။ EVMbench တွင် stablecoin များမှတစ်ဆင့် ဆောင်ကြဉ်းပေးမှု ပမာဏမြင့်ပြီး ကုန်ကျစရိတ်နည်းသော ငွေပေးချေမှုများကို ပံ့ပိုးနိုင်ရန် ရည်ရွယ်တည်ဆောက်ထားသော L1 blockchain ဖြစ်သည့် Tempo(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ၏ security auditing process မှ ရရှိသော အားနည်းချက်အခြေအနေအချို့လည်း ပါဝင်သည်။ ဤအခြေအနေများက benchmark ကို ငွေပေးချေမှုအခြေပြု smart contract code သို့ တိုးချဲ့ပေးပြီး၊ အေးဂျင့်အခြေပြု stablecoin ငွေပေးချေမှုများ တိုးပွားလာမည်ဟု ကျွန်ုပ်တို့ မျှော်လင့်ထားသည့် နယ်ပယ်နှင့် ချိတ်ဆက်ပေးကာ လက်တွေ့အသုံးဝင်မှု တိုးလာနေသော ကဏ္ဍတစ်ခုတွင် အခြေပြုစေသည်။

ကျွန်ုပ်တို့၏ task environment များကို ဖန်တီးရန်အတွက် ရှိပြီးသား proof-of-concept exploit test များနှင့် deployment script များရှိပါက ၎င်းတို့ကို ပြင်ဆင်အသုံးပြုခဲ့ပြီး၊ မရှိပါက ကိုယ်တိုင် ရေးသားခဲ့သည်။ patch mode အတွက်၊ setup ကို ထိခိုက်စေနိုင်မည့် compilation ပျက်စီးစေသော အပြောင်းအလဲများ မဖြစ်ပေါ်စေဘဲ အားနည်းချက်များကို အမှန်တကယ် exploit လုပ်နိုင်ပြီး လျော့ပါးအောင် ပြင်နိုင်ကြောင်း သေချာစေခဲ့သည်။ exploit mode အတွက်၊ custom grader များကို ရေးသားခဲ့ပြီး အေးဂျင့်တစ်ခုက grader ကို လှည့်စားနိုင်မည့် နည်းလမ်းများကို ရှာဖွေကာ ပိတ်ဆို့ရန် ရည်ရွယ်၍ environment များကို red-team စမ်းသပ်ခဲ့သည်။ Paradigm မှ ပေးထားသော domain expertise ဖြင့် task quality control လုပ်ခြင်းအပြင်၊ ကျွန်ုပ်တို့၏ environment များ ပိုမိုယုံကြည်စိတ်ချရစေရန် automated task auditing agent များကိုလည်း အသုံးပြုခဲ့သည်။

EVMbench သည် စွမ်းရည် mode သုံးမျိုးကို အကဲဖြတ်သည်-

  • Detect - အေးဂျင့်များသည် smart contract သိမ်းဆည်းရန်နေရာ တစ်ခုကို audit လုပ်ပြီး ground-truth အားနည်းချက်များနှင့် ဆက်စပ် audit reward များကို မည်မျှ ပြန်လည်ဖော်ထုတ်နိုင်သလဲဆိုသည့် recall ဖြင့် အမှတ်ပေးခံရသည်။
  • Patch - အေးဂျင့်များသည် အားနည်းသော contract များကို ပြင်ဆင်ရပြီး exploit လုပ်နိုင်စွမ်းကို ဖယ်ရှားနေစဉ် ရည်ရွယ်ထားသော functionality ကို ဆက်လက်ထိန်းသိမ်းထားရမည်ဖြစ်သည်။ ၎င်းကို automated test များနှင့် exploit check များမှ အတည်ပြုသည်။
  • Exploit - အေးဂျင့်များသည် sandboxed blockchain environment တစ်ခုတွင် deploy လုပ်ထားသော contract များအပေါ် အစမှအဆုံး ရန်ပုံငွေထုတ်ယူသည့် တိုက်ခိုက်မှုများကို လုပ်ဆောင်ပြီး transaction replay နှင့် on-chain verification မှတစ်ဆင့် programmatically grading လုပ်သည်။

ရည်မှန်းချက်တိကျပြီး ပြန်လည်ထုတ်လုပ်နိုင်သော evaluation ကို ပံ့ပိုးရန်အတွက် contract များကို deploy လုပ်ပြီး၊ အေးဂျင့် transaction များကို deterministic အဖြစ် replay လုပ်ကာ၊ မလုံခြုံသော RPC method များကို ကန့်သတ်ထားသည့် Rust-based harness တစ်ခုကို ကျွန်ုပ်တို့ ဖန်တီးခဲ့သည်။ Exploit task များသည် live network များပေါ်တွင် မဟုတ်ဘဲ သီးခြားခွဲထားသော local Anvil environment တွင် လည်ပတ်ပြီး၊ အားနည်းချက်များမှာ ယခင်က ဖြစ်ပွားခဲ့ပြီး အများပြည်သူသိရှိထားပြီးသား ဖြစ်သည်။

ကျွန်ုပ်တို့သည် mode သုံးမျိုးလုံးတွင် စွမ်းဆောင်ရည်အမြင့်ဆုံး အေးဂျင့်များကို အကဲဖြတ်ထားသည်။ ‘exploit’ mode တွင် Codex CLI မှတစ်ဆင့် လည်ပတ်သော GPT‑5.3‑Codex သည် 71.0% ရမှတ် ရရှိသည်။ ၎င်းသည် GPT‑5 ကဲ့သို့သော ယခင်မော်ဒယ်များထက် သိသာထင်ရှားသော တိုးတက်မှုကို ပြသပြီး GPT‑5 သည် 33.3% သာ ရရှိကာ လွန်ခဲ့သော ခြောက်လကျော်ကမှ ထုတ်ပြန်ခဲ့ခြင်းဖြစ်သည်။ detect recall နှင့် patch အောင်မြင်မှုနှုန်းများမှာ အားနည်းချက်အများအပြားကို အေးဂျင့်များအတွက် ရှာဖွေခြင်းနှင့် ပြင်ဆင်ခြင်း မလွယ်ကူသေးသဖြင့် coverage အပြည့်အဝအောက်တွင်သာ ရှိနေသေးသည်။

EVMbench သည် task များအလိုက် မော်ဒယ်အပြုအမူ ကွာခြားမှုများကိုလည်း စိတ်ဝင်စားဖွယ် ဖော်ပြပေးသည်။ ရည်မှန်းချက်က ရှင်းလင်းတိကျသည့် exploit setting တွင် အေးဂျင့်များက အကောင်းဆုံး စွမ်းဆောင်ရည် ပြသသည်။ ဆိုလိုသည်မှာ ငွေများ ထုတ်ယူပြီးမချင်း ဆက်လက် iteration လုပ်ရန် ဖြစ်သည်။ ထို့နှိုင်းယှဉ်လျှင် detect နှင့် patch task များတွင် စွမ်းဆောင်ရည် ပိုမိုအားနည်းသည်။ ‘detect’ တွင် အေးဂျင့်များသည် codebase တစ်ခုလုံးကို စုံလင်စွာ audit မလုပ်ဘဲ ပြဿနာတစ်ခုတည်း တွေ့ပြီးနောက် ရပ်တန့်သွားတတ်သည်။ ‘patch’ တွင်လည်း နူးညံ့သိမ်မွေ့သော အားနည်းချက်များကို ဖယ်ရှားနေစဉ် functionality အပြည့်အဝကို ထိန်းသိမ်းထားရန်မှာ စိန်ခေါ်မှုဖြစ်နေဆဲဖြစ်သည်။

ကန့်သတ်ချက်များ

EVMbench သည် လက်တွေ့ကမ္ဘာရှိ smart contract security ၏ အခက်အခဲအားလုံးကို ကိုယ်စားမပြုနိုင်ပါ။ ပါဝင်သော အားနည်းချက်များသည် Code4rena auditing competition များမှ ရယူထားခြင်းဖြစ်သည်။ ၎င်းတို့သည် လက်တွေ့ကျပြီး ပြင်းထန်မှုမြင့်သော်လည်း အသုံးချမှုကျယ်ပြန့်ပြီး အများအပြား deploy လုပ်ထားသော crypto contract များစွာသည် ပိုမိုပြင်းထန်သော စစ်ဆေးမှုများကို ခံယူထားသဖြင့် exploit လုပ်ရန် ပိုခက်နိုင်သည်။

ကျွန်ုပ်တို့၏ grading system သည် ခိုင်မာသော်လည်း ပြီးပြည့်စုံခြင်းမရှိသေးပါ။ ‘detect’ mode တွင် အေးဂျင့်က လူသား auditor များ ဖော်ထုတ်ခဲ့သည့် အားနည်းချက်များအတိုင်း တူညီသည့်အရာများကို ရှာတွေ့မတွေ့ စစ်ဆေးသည်။ အေးဂျင့်က ထပ်မံသော ပြဿနာများကို ဖော်ထုတ်ပါက၊ ၎င်းတို့သည် လူသားများ လွတ်သွားသော အမှန်တကယ် အားနည်းချက်များလား သို့မဟုတ် false positive များလားကို လက်ရှိတွင် ယုံကြည်စိတ်ချစွာ ခွဲခြားသတ်မှတ်နိုင်သည့် နည်းလမ်း မရှိသေးပါ။

‘exploit’ setting တွင်လည်း ဖွဲ့စည်းပုံဆိုင်ရာ ကန့်သတ်ချက်များ ရှိနေသည်။ Transaction များကို grading container အတွင်း အစဉ်လိုက် replay လုပ်သောကြောင့် အချိန်ကိုက်ယန္တရား အတိအကျအပေါ် မူတည်သော behavior များသည် scope အပြင်ဘက်တွင် ရှိသည်။ chain state သည် mainnet ၏ မူကွဲ မဟုတ်ဘဲ သန့်ရှင်းသော local Anvil instance တစ်ခုဖြစ်ပြီး လက်ရှိတွင် single-chain environment များကိုသာ ပံ့ပိုးထားသည်။ အချို့သော အခြေအနေများတွင် mainnet deployment များအစား mock contract များကို လိုအပ်စေသည်။

ဤအရာ အရေးကြီးသည့် အကြောင်းရင်း

Smart contract များသည် ဒေါ်လာဘီလီယံများစွာတန် အ资产များကို ကာကွယ်ထားပြီး AI အေးဂျင့်များသည် တိုက်ခိုက်သူနှင့် ကာကွယ်သူ နှစ်ဖက်လုံးအတွက် ပြောင်းလဲမှုကြီးမားစေနိုင်ဖွယ် ရှိသည်။ ဤနယ်ပယ်တွင် မော်ဒယ်စွမ်းရည်ကို တိုင်းတာခြင်းသည် ပေါ်ထွက်လာနေသော cyber risk များကို ခြေရာခံရန် အထောက်အကူဖြစ်စေပြီး အသုံးပြုနေသော contract များကို audit လုပ်ကာ အားကောင်းလာစေရန် AI စနစ်များကို ကာကွယ်ရေးဘက်မှ အသုံးပြုရန် အရေးပါမှုကို ထင်ဟပ်စေသည်။

EVMbench သည် တိုင်းတာရေးကိရိယာတစ်ခုသာမက အရေးယူလုပ်ဆောင်ရန် နှိုးဆော်ချက်တစ်ခုလည်း ဖြစ်သည်။ အေးဂျင့်များ ပိုမိုတိုးတက်လာသည်နှင့်အမျှ developer များနှင့် security researcher များအတွက် AI အကူအညီဖြင့် auditing ကို ၎င်းတို့၏ workflow များတွင် ထည့်သွင်းအသုံးပြုရန် ပိုမိုအရေးကြီးလာသည်။

မကြာသေးမီလများအတွင်း ကျွန်ုပ်တို့သည် cybersecurity task များတွင် မော်ဒယ်စွမ်းဆောင်ရည် သိသာသော တိုးတက်မှုများကို တွေ့မြင်ခဲ့ရပြီး developer များနှင့် security professional များနှစ်ဖက်လုံးကို အကျိုးပြုလျက်ရှိသည်။ ထိုနှင့်အပြိုင် ကာကွယ်ရေးဘက် အသုံးပြုမှုနှင့် ecosystem တစ်ခုလုံး၏ resilience ပိုမိုကောင်းမွန်လာစေရန် အားကောင်းစေထားသော cyber safeguard များကို ပြင်ဆင် လျက်ရှိသည်။

Cybersecurity သည် မူလကတည်းက dual-use ဖြစ်သောကြောင့် ကျွန်ုပ်တို့သည် ကာကွယ်သူများ၏ အားနည်းချက်များကို ရှာဖွေကာ ပြင်ဆင်နိုင်စွမ်းကို အရှိန်မြှင့်ပေးနေစဉ် misuse ကို နှေးကွေးစေမည့် အထောက်အထားအခြေပြု iterative approach ကို ကျင့်သုံးနေသည်။ ကျွန်ုပ်တို့၏ mitigation များတွင် safety training၊ automated monitoring၊ အဆင့်မြင့်စွမ်းရည်များအတွက် trusted access နှင့် threat intelligence အပါအဝင် enforcement pipeline များ ပါဝင်သည်။

ကျွန်ုပ်တို့သည် open-source maintainer များနှင့် ပူးပေါင်းကာ ကျယ်ပြန့်စွာ အသုံးပြုသော project များအတွက် အခမဲ့ codebase scanning ပံ့ပိုးပေးခြင်းနှင့် လုံခြုံရေးသုတေသန အေးဂျင့်ဖြစ်သော Aardvark ၏ private beta ကို ချဲ့ထွင်ခြင်းကဲ့သို့သော ecosystem safeguard များတွင် ရင်းနှီးမြှုပ်နှံနေသည်။

2023 ခုနှစ်တွင် စတင်ခဲ့သော ကျွန်ုပ်တို့၏ Cybersecurity Grant Program ကို ဆက်လက်အခြေပြုပြီး open source software နှင့် critical infrastructure system များအတွက် အထူးသဖြင့် ကျွန်ုပ်တို့၏ အစွမ်းအထက်ဆုံးမော်ဒယ်များဖြင့် cyber defense ကို အရှိန်မြှင့်ရန် API credit $10M ကိုလည်း ကတိပြု تخصيص လုပ်ထားသည်။ စိတ်ရင်းမှန်သော security research တွင် ပါဝင်သော အဖွဲ့အစည်းများသည် ကျွန်ုပ်တို့၏ Cybersecurity Grant Program မှတစ်ဆင့် API credit များနှင့် အထောက်အပံ့ကို လျှောက်ထားနိုင်သည်။

ပေါ်ထွက်လာနေသော AI cyber capability များကို တိုင်းတာခြင်းနှင့် စီမံခန့်ခွဲခြင်းဆိုင်ရာ သုတေသနများ ဆက်လက်ပြုလုပ်နိုင်ရန် ကျွန်ုပ်တို့သည် EVMbench ၏ task များ၊ tooling နှင့် evaluation framework ကို ထုတ်ပြန်ပေးသည်။