2026 оны хоёрдугаар сарын 18

EVMbench-ийг танилцуулж байна

Блокчейн орчин дахь эмзэг байдлыг илрүүлэх, нөхөх, ашиглах AI агентуудын чадварыг үнэлснээр смарт гэрээг илүү аюулгүй болгох нь.

Өгүүллийг унших

Ачаалж байна…

Смарт гэрээнүүд нээлттэй эхийн крипто хөрөнгийн $100B+-оос давсан дүнг тогтмол хамгаалж байдаг. AI агентууд код унших, бичих, гүйцэтгэхдээ сайжрахын хэрээр тэдний чадварыг эдийн засгийн ач холбогдолтой орчинд хэмжих, мөн байршуулсан гэрээнүүдийг аудитлан бэхжүүлэхэд AI системүүдийг хамгаалалтын зорилгоор ашиглахыг дэмжих нь улам чухал болж байна.

Paradigm⁠(шинэ цонхонд нээгдэнэ)-тай хамтран бид AI агентуудын өндөр эрсдэлтэй смарт гэрээний эмзэг байдлыг илрүүлэх, нөхөх, ашиглах чадварыг үнэлдэг EVMbench нэртэй жишиг үнэлгээг танилцуулж байна. EVMbench нь 40 аудитын 117 сонгон бэлтгэсэн эмзэг байдалд тулгуурладаг бөгөөд ихэнхийг нь нээлттэй кодын аудитын тэмцээнүүдээс авсан. Мөн EVMbench-д тогтвортой коин ашиглан өндөр нэвтрүүлэх чадамжтай, бага өртөгтэй төлбөрийг боломжтой болгохоор тусгайлан бүтээгдсэн L1 болох Tempo⁠(шинэ цонхонд нээгдэнэ) блокчэйний аюулгүй байдлын аудитын үйл явцаас авсан хэд хэдэн эмзэг байдлын хувилбар багтсан. Эдгээр хувилбарууд нь жишиг үнэлгээг төлбөрт чиглэсэн смарт гэрээний код руу тэлж, агентлаг тогтвортой коины төлбөр өснө гэж бидний үзэж буй салбарт холбож, практик ач холбогдол нь өсөн нэмэгдэж буй домэйнд суурилуулж өгдөг.

Даалгаврын орчнуудаа бүтээхийн тулд бид боломжтой тохиолдолд одоо байгаа proof-of-concept exploit тестүүд болон байршуулалтын скриптүүдийг тохируулан ашиглаж, бусад тохиолдолд гараар бичсэн. Patch горимын хувьд эмзэг байдлууд ашиглагдах боломжтой бөгөөд манай тохиргоог алдагдуулах эмхэтгэлийг эвдэх өөрчлөлт оруулахгүйгээр бууруулж болохыг баталгаажуулсан. Exploit горимын хувьд бид захиалгат үнэлэгчид бичиж, агент үнэлэгчийг хуурах боломжтой аргуудыг олох, засахын тулд орчнуудыг red-team аргаар шалгасан. Paradigm-ийн өгсөн домэйн мэдлэгээр хийсэн даалгаврын чанарын хяналтаас гадна орчнуудын найдвартай байдлыг нэмэгдүүлэхэд туслах автоматжуулсан даалгаврын аудитын агентуудыг ашигласан.

EVMbench нь гурван төрлийн чадварыг үнэлдэг:

Илрүүлэх: Агентууд смарт гэрээний репозиторийг аудитлаж, батлагдсан бодит эмзэг байдлуудыг эргэн санах чадвар болон холбогдох аудитын шагналаар үнэлэгдэнэ.
Нөхөх: Агентууд эмзэг гэрээнүүдийг өөрчилж, exploit боломжийг арилгахын зэрэгцээ зориулагдсан ажиллагааг хадгалах ёстой бөгөөд үүнийг автомат тест болон exploit шалгалтаар баталгаажуулна.
Ашиглах: Агентууд sandbox орчинтой блокчэйний орчинд байршуулсан гэрээнүүдийн эсрэг хөрөнгийг бүрэн шавхах довтолгоог эхнээс нь дуустал гүйцэтгэж, гүйлгээг дахин тоглуулах болон chain дээрх баталгаажуулалтаар програмчлан үнэлэгдэнэ.

Объектив, давтагдахуйц үнэлгээг дэмжихийн тулд бид гэрээнүүдийг байршуулж, агентын гүйлгээнүүдийг детерминист байдлаар дахин тоглуулж, аюулгүй бус RPC аргуудыг хязгаарладаг Rust-д суурилсан harness боловсруулсан. Exploit даалгаврууд нь амьд сүлжээн дээр бус, тусгаарлагдсан локал Anvil орчинд ажилладаг бөгөөд эмзэг байдлууд нь түүхэн бөгөөд олон нийтэд баримтжуулсан байдаг.

Бид хил хязгаар агентуудыг бүх гурван горимоор үнэлдэг. ‘ашиглах’ горимд Codex CLI-ээр ажилласан GPT‑5.3‑Codex 71.0%-ийн оноо авч байна. Энэ нь зургаан сараас арай өмнө гарсан 33.3%-ийн оноотой GPT‑5 зэрэг өмнөх загваруудтай харьцуулахад мэдэгдэхүйц ахиц юм. Илрүүлэх recall болон нөхөх амжилтын түвшин бүрэн хамралтад хараахан хүрээгүй байгаа нь эмзэг байдлын томоохон хувь агентуудад олох, засахад хэцүү хэвээр байгааг харуулж байна.

EVMbench нь мөн даалгавруудын хоорондын загварын зан төлөвийн сонирхолтой ялгааг харуулдаг. Агентууд зорилго нь тодорхой байдаг exploit нөхцөлд хамгийн сайн ажилладаг: хөрөнгө шавхагдах хүртэл давтан ажиллах. Харин detect болон patch даалгаврууд дээр гүйцэтгэл сул байна. ‘илрүүлэх’ үед агентууд кодын санг бүрэн аудитлахын оронд нэг л асуудал илрүүлсний дараа зогсох нь бий. ‘нөхөх’ үед нарийн эмзэг байдлыг арилгахын зэрэгцээ бүрэн ажиллагааг хадгалах нь сорилт хэвээр байна.

Хязгаарлалтууд

EVMbench нь бодит ертөнцийн смарт гэрээний аюулгүй байдлын бүрэн төвөгшлийг төлөөлөхгүй. Оруулсан эмзэг байдлуудыг Code4rena аудитын тэмцээнүүдээс авсан. Эдгээр нь бодитой бөгөөд өндөр эрсдэлтэй хэдий ч өргөн ашиглагдаж, их хэмжээгээр байршуулсан олон крипто гэрээ илүү их хяналт шалгалт туулдаг бөгөөд exploit хийхэд илүү хэцүү байж болно.

Манай үнэлгээний систем бат бөх боловч төгс биш. ‘илрүүлэх’ горимд агент хүний аудиторуудын илрүүлсэнтэй ижил эмзэг байдлуудыг олж байгаа эсэхийг шалгадаг. Хэрэв агент нэмэлт асуудлууд илрүүлбэл тэдгээр нь хүмүүсийн орхигдуулсан бодит эмзэг байдал уу эсвэл хуурамч эерэг үү гэдгийг одоогоор найдвартай тогтоох арга бидэнд алга.

‘ашиглах’ нөхцөлд мөн бүтцийн хязгаарлалт бий. Гүйлгээнүүдийг үнэлгээний контейнерт дарааллаар нь дахин тоглуулдаг тул яг цагийн механикаас хамаарах зан төлөв хамрах хүрээнээс гадуур байна. Chain-ийн төлөв нь mainnet-ийн fork бус цэвэр локал Anvil instance бөгөөд одоогоор бид зөвхөн нэг chain орчныг дэмждэг. Зарим тохиолдолд энэ нь mainnet байршуулалтын оронд mock гэрээ шаардана.

Яагаад энэ чухал вэ

Смарт гэрээнүүд тэрбум тэрбум долларын хөрөнгийг хамгаалдаг бөгөөд AI агентууд довтлогчид болон хамгаалагчдын аль алинд нь өөрчлөлт авчрах магадлалтай. Энэ домэйн дахь загварын чадварыг хэмжих нь шинээр гарч ирж буй кибер эрсдэлийг хянахад тусалж, байршуулсан гэрээнүүдийг аудитлан бэхжүүлэхэд AI системүүдийг хамгаалалтын зорилгоор ашиглахын ач холбогдлыг тодруулдаг.

EVMbench нь хэмжилтийн хэрэгсэл төдийгүй үйлдэлд уриалсан дохио юм. Агентууд сайжрахын хэрээр хөгжүүлэгчид болон аюулгүй байдлын судлаачид ажлын урсгалдаа AI-гаар дэмжигдсэн аудитыг нэвтрүүлэх нь улам чухал болж байна.

Сүүлийн саруудад бид кибер аюулгүй байдлын даалгаврууд дээрх загварын гүйцэтгэлд мэдэгдэхүйц ахиц гарсныг харсан бөгөөд энэ нь хөгжүүлэгчид болон аюулгүй байдлын мэргэжилтнүүдэд ашиг тусаа өгч байна. Үүнтэй зэрэгцэн бид хамгаалалтын хэрэглээг болон экосистемийн өргөн хүрээний тэсвэртэй байдлыг дэмжихийн тулд хүчирхэгжүүлсэн кибер хамгаалалтуудыг бэлтгэж байна.

Кибер аюулгүй байдал угтаа хоёрдмол хэрэглээтэй учраас бид хамгаалагчдын эмзэг байдлыг олох, засах чадварыг хурдасгахын зэрэгцээ буруугаар ашиглахыг сааруулах нотолгоонд суурилсан, шаталсан хандлага баримталж байна. Манай бууруулах арга хэмжээнд аюулгүй байдлын сургалт, автомат хяналт, ахисан чадваруудад зориулсан итгэмжлэгдсэн хандалт, мөн аюулын тагнуулыг багтаасан хэрэгжилтийн шугамууд орно.

Бид аюулгүй байдлын судалгааны агент болох Aardvark-ийн хувийн бетаг өргөжүүлэх, мөн өргөн хэрэглэгддэг төслүүдэд үнэгүй кодын сангийн скан хийхээр нээлттэй эхийн засварлагчидтай хамтран ажиллах зэрэг экосистемийн хамгаалалтад хөрөнгө оруулж байна.

2023 онд эхлүүлсэн манай Кибер аюулгүй байдлын буцалтгүй тусламжийн хөтөлбөр дээр тулгуурлан бид мөн хамгийн чадвартай загваруудаараа кибер хамгаалалтыг хурдасгахын тулд API кредитэд $10M амлаж байна, ялангуяа нээлттэй эхийн програм хангамж болон чухал дэд бүтцийн системүүдэд. Сайн санааны үүднээс аюулгүй байдлын судалгаа хийж буй байгууллагууд манай Кибер аюулгүй байдлын буцалтгүй тусламжийн хөтөлбөр-өөр дамжуулан API кредит болон дэмжлэг хүсэж болно.

Шинээр гарч ирж буй AI кибер чадварыг хэмжих, удирдах судалгааг цааш үргэлжлүүлэхийг дэмжихийн тулд бид EVMbench-ийн даалгаврууд, хэрэгслүүд болон үнэлгээний хүрээг нийтэлж байна.

Үргэлжлүүлэн уншина уу

Бүгдийг үзэх

GPT-Red: Unlocking Self-Improvement for Robustness

Аюулгүй байдал2026 оны 7-р сарын 15

Кодчиллын үнэлгээнд дохиог шуугианаас ялгах

Судалгаа2026 оны 7-р сарын 8

GeneBench-Pro-г танилцуулж байна

Судалгаа2026 оны 6-р сарын 30