18 փետրվարի, 2026 թ.

Ներկայացնում ենք EVMbench-ը

Բարձրացնել խելացի պայմանագրերի անվտանգությունը՝ գնահատելով ԱԲ-ի ագենտների ունակությունը՝ բլոկչեյն միջավայրերում խոցելիությունները հայտնաբերելու, շտկելու և օգտագործելու համար։

Կարդացեք հոդվածը

Բեռնվում է…

Խելացի պայմանագրերը սովորաբար ապահովում են ավելի քան 100 միլիարդ դոլարի բաց կոդով կրիպտո ակտիվներ։ Քանի որ ԱԲ-ի ագենտները կատարելագործվում են կարդալու, գրելու և կոդը գործարկելու հարցում, ավելի ու ավելի կարևոր է դառնում գնահատել նրանց կարողությունները տնտեսապես նշանակալի միջավայրերում և խրախուսել ԱԲ-ի համակարգերի պաշտպանական կիրառումը՝ տեղակայված պայմանագրերը ստուգելու և ամրապնդելու համար։

Paradigm⁠(բացվում է նոր պատուհանում)-ի հետ միասին մենք ներկայացնում ենք EVMbench-ը՝ չափանիշ, որը գնահատում է ԱԲ-ի ագենտների ունակությունը՝ հայտնաբերելու, շտկելու և շահագործելու բարձր ծանրության խելացի պայմանագրերի խոցելիությունները։ EVMbench-ը հիմնվում է 40 աուդիտներից ընտրված 117 խոցելիությունների վրա, որոնց մեծ մասը ստացվել է բաց կոդի աուդիտի մրցույթներից։ EVMbench-ը նաև ներառում է մի քանի խոցելիության սցենարներ, որոնք վերցված են Tempo⁠(բացվում է նոր պատուհանում) բլոկչեյնի անվտանգության աուդիտի գործընթացից՝ հատուկ նախագծված L1, որը նախատեսված է ապահովելու բարձր թողունակությամբ և ցածրարժեք վճարումներ կայունարժույթների միջոցով։ Այս սցենարները ընդլայնում են չափանիշը՝ ներառելով վճարումների վրա կենտրոնացած խելացի պայմանագրերի կոդը, որտեղ մենք ակնկալում ենք, որ ագենտային կայունարժույթների վճարումները կաճեն և կօգնեն այն հիմնավորել գործնական կարևորության նոր ձևավորվող տիրույթում։

Մեր առաջադրանքների միջավայրերը ստեղծելու համար, մենք վերամշակեցինք գոյություն ունեցող հայեցակարգի ապացույցի շահագործման թեստերը և տեղակայման սցենարները, երբ դրանք առկա էին, իսկ մնացած դեպքերում դրանք ձեռքով գրեցինք։ Պատչի ռեժիմի համար մենք համոզվել ենք, որ խոցելիությունները շահագործելի են և կարող են մեղմացվել առանց կոմպիլյացիան խափանող փոփոխություններ կատարելու, ինչը կվտանգեր մեր կարգավորումը։ Շահագործման ռեժիմի համար մենք գրել ենք հատուկ գնահատողներ և red-team ենք արել միջավայրերը՝ փորձելով գտնել և շտկել այն մեթոդները, որոնց միջոցով ագենտը կարող էր խաբել գնահատողին։ Paradigm-ի կողմից տրամադրված ոլորտային փորձագիտության միջոցով առաջադրանքների որակի վերահսկումից բացի, մենք օգտագործեցինք ավտոմատացված առաջադրանքների աուդիտի ագենտներ՝ մեր միջավայրերի հուսալիությունը բարձրացնելու նպատակով։

EVMbench-ը գնահատում է երեք կարողությունների ռեժիմ՝

Հայտնաբերում․ Ագենտները աուդիտ են իրականացնում խելացի պայմանագրերի պահոցում և գնահատվում են՝ հիմնային խոցելիությունների հայտնաբերման և համապատասխան աուդիտի պարգևների հիման վրա։
Պատչ․ Ագենտները փոփոխում են խոցելի պայմանագրերը և պետք է պահպանեն նախատեսված ֆունկցիոնալությունը՝ միաժամանակ վերացնելով շահագործելիությունը, ինչը ստուգվում է ավտոմատացված թեստերի և շահագործման ստուգումների միջոցով։
Շահագործում․ Ագենտները կատարում են սկզբից մինչև վերջ միջոցների դատարկման հարձակումներ՝ սենդբոքսային բլոկչեյն միջավայրում տեղակայված պայմանագրերի դեմ, իսկ գնահատումը կատարվում է ծրագրային եղանակով՝ գործարքների վերախաղարկման և շղթայի վրա վավերացման միջոցով։

Օբյեկտիվ և վերարտադրելի գնահատումը ապահովելու համար մենք մշակել ենք Rust-ի վրա հիմնված գործիք, որը տեղակայում է պայմանագրեր, դետերմինիստիկ կերպով վերախաղարկում է ագենտի գործարքները և սահմանափակում է անապահով RPC մեթոդները։ Շահագործման առաջադրանքները կատարվում են մեկուսացված տեղական Anvil միջավայրում, այլ ոչ թե կենդանի ցանցերում, իսկ խոցելիությունները պատմական են և հանրայնորեն փաստագրված։

Մենք գնահատում ենք առաջադեմ ագենտներին բոլոր երեք ռեժիմներում։ «Շահագործման» ռեժիմում, GPT‑5.3‑Codex Codex CLI-ի միջոցով գործարկումը ապահովում է 71,0% արդյունք։ Սա ներկայացնում է զգալի առաջընթաց նախորդ մոդելների համեմատ, ինչպիսին է GPT‑5‑ը, որը ստանում է 33,3% և թողարկվել է ընդամենը վեց ամիս առաջ. Հայտնաբերման հետկանչի և պատչի հաջողության ցուցանիշները շարունակում են մնալ լիարժեք ծածկույթից ցածր, քանի որ խոցելիությունների մեծ մասը ագենտների համար դժվար է գտնել և շտկել։

EVMbench-ը նաև բացահայտում է հետաքրքիր տարբերություններ մոդելի վարքագծում տարբեր առաջադրանքների ընթացքում։ Ագենտները լավագույն կերպով գործում են շահագործման միջավայրում, որտեղ նպատակը հստակ է՝ շարունակել կրկնությունը, մինչև միջոցները սպառվեն։ Ի տարբերություն, կատարողականությունն ավելի թույլ է հայտնաբերման և շտկման առաջադրանքներում։ «Հայտնաբերման» ռեժիմում, ագենտները երբեմն կանգ են առնում մեկ խնդիր հայտնաբերելուց հետո՝ փոխարենը կոդային բազան ամբողջությամբ աուդիտ անելու։ «Պատչում» լիարժեք ֆունկցիոնալությունը պահպանելը՝ միաժամանակ հեռացնելով նուրբ խոցելիությունները, շարունակում է մնալ բարդ խնդիր։

Սահմանափակումներ

EVMbench-ը չի արտացոլում իրական աշխարհի խելացի պայմանագրերի անվտանգության ամբողջական բարդությունը։ Ներառված խոցելիությունները վերցված են Code4rena-ի աուդիտային մրցույթներից։ Թեև դրանք իրատեսական են և ունեն բարձր լրջություն, շատ լայնորեն տեղակայված և լայնորեն օգտագործվող կրիպտո պայմանագրերը ենթարկվում են զգալիորեն ավելի խիստ վերահսկողության և կարող են ավելի դժվար լինել շահագործման համար։

Մեր գնահատման համակարգը ամուր է, բայց անկատար։ «Հայտնաբերում» ռեժիմում մենք ստուգում ենք՝ արդյոք ագենտը հայտնաբերում է նույն խոցելիությունները, որոնք հայտնաբերվել են մարդկային աուդիտորների կողմից։ Եթե ագենտը հայտնաբերի լրացուցիչ խնդիրներ, մենք ներկայումս չունենք հուսալի միջոց՝ որոշելու, թե արդյոք դրանք իրական խոցելիություններ են, որոնք մարդիկ բաց են թողել, թե կեղծ դրականներ։

«Շահագործման» կարգավորման մեջ կան նաև կառուցվածքային սահմանափակումներ։ Գործարքները գնահատման պահոցում վերարտադրվում են հաջորդաբար, ուստի ճշգրիտ ժամանակային մեխանիզմներից կախված վարքագծերը դուրս են շրջանակից։ Շղթայի վիճակը մաքուր տեղական Anvil instance է, այլ ոչ թե ստեղծել հիմնական ցանցի կոդային բազայի պատճենը, և մենք ներկայումս աջակցում ենք միայն մեկ շղթայով միջավայրերին։ Որոշ դեպքերում սա պահանջում է ձևական պայմանագրեր՝ հիմնական ցանցի տեղակայումների փոխարեն։

Ինչո՞ւ է սա կարևոր

Խելացի պայմանագրերը ապահովում են միլիարդավոր դոլարների ակտիվներ, իսկ ԱԲ-ի ագենտները, հավանաբար, կփոխեն թե՛ հարձակվողների, թե՛ պաշտպանների մոտեցումները։ Այս ոլորտում մոդելի կարողությունների չափումը նպաստում է ի հայտ եկող կիբեր ռիսկերին հետևելուն և ընդգծում է ԱԲ-ի համակարգերը պաշտպանական նպատակներով կիրառելու կարևորությունը՝ տեղակայված պայմանագրերի աուդիտն ու ամրապնդումը ապահովելու համար։

EVMbench-ը նախատեսված է և՛ որպես չափման գործիք, և՛ որպես գործողության կոչ։ Քանի որ ագենտները կատարելագործվում են, ծրագրավորողների և անվտանգության հետազոտողների համար ավելի ու ավելի կարևոր է դառնում իրենց աշխատանքային ընթացակարգերում ներառել ԱԲ-ի աջակցությամբ աուդիտ։

Վերջին ամիսների ընթացքում մենք նկատել ենք մոդելների կատարողականության նշանակալի բարելավումներ կիբերանվտանգության առաջադրանքներում, ինչը օգուտ է բերում թե՛ ծրագրավորողներին, թե՛ անվտանգության մասնագետներին։ Զուգահեռաբար, մենք ուժեղացված կիբեռանվտանգության միջոցներ ենք ձեռնարկում ՝ պաշտպանական կիրառումը և էկոհամակարգի ավելի լայն դիմացկունությունը ապահովելու համար։

Քանի որ կիբերանվտանգությունը բնույթով երկակի օգտագործման համար է նախատեսված, մենք կիրառում ենք ապացույցների վրա հիմնված, կրկնվող մոտեցում, որն արագացնում է պաշտպանների՝ խոցելիությունները հայտնաբերելու և շտկելու ունակությունը՝ միաժամանակ դանդաղեցնելով չարաշահումը։ Մեր մեղմացման միջոցառումները ներառում են անվտանգության ուսուցում, ավտոմատացված մոնիտորինգ, առաջադեմ հնարավորությունների համար վստահելի հասանելիություն, և կիրառման ուղիներ՝ ներառյալ սպառնալիքների հետախուզությունը։

Մենք ներդրումներ ենք կատարում էկոհամակարգի պաշտպանության մեջ, ինչպիսիք են մեր անվտանգության հետազոտական ագենտ Aardvark-ի մասնավոր բետայի ընդլայնումը և համագործակցում ենք բաց կոդով նախագծերի պահպանողների հետ՝ լայնորեն օգտագործվող նախագծերի համար անվճար կոդային բազայի սկանավորում տրամադրելու նպատակով։

Մեր 2023-ին մեկնարկած Կիբերանվտանգության դրամաշնորհային ծրագրի հիման վրա մենք նաև պարտավորվում ենք տրամադրել 10 միլիոն ԱՄՆ դոլարի API կրեդիտներ՝ մեր ամենահզոր մոդելներով կիբերպաշտպանությունն արագացնելու համար, հատկապես բաց կոդով ծրագրային ապահովման և կարևոր ենթակառուցվածքային համակարգերի համար։ Անվտանգության ոլորտում բարեխղճորեն հետազոտությամբ զբաղվող կազմակերպությունները կարող են դիմել API կրեդիտների և աջակցության համար՝ օգտվելով մեր Կիբերանվտանգության դրամաշնորհային ծրագրից։

Մենք թողարկում ենք EVMbench-ի առաջադրանքները, գործիքները և գնահատման շրջանակը՝ աջակցելու շարունակական հետազոտություններին՝ չափելու և կառավարելու զարգացող ԱԲ-ի կիբեռ կարողությունները։

Շարունակել կարդալ

Դիտել բոլորը

GPT-Red. ինքնաբարելավում՝ դիմադրողականության համար

Անվտանգություն15 հլս, 2026 թ.

Կոդավորման գնահատումներում ազդանշանն աղմուկից զատելը

Հետազոտություններ8 հլս, 2026 թ.

Ներկայացնում ենք GeneBench-Pro-ն

Հետազոտություններ30 հնս, 2026 թ.