2026 ж. 18 ақпан

EVMbench таныстыру

Блокчейн орталарында осалдықтарды анықтау, түзету және пайдалану бойынша AI агенттерінің қабілетін бағалау арқылы смарт-келісімшарттарды қауіпсіздеу ету.

Мақаланы оқу

Жүктелуде…

Смарт-келісімшарттар ашық бастапқы кодты криптоактивтердің $100B+-тан астамын тұрақты түрде қорғайды. AI агенттері кодты оқу, жазу және орындауда жақсарған сайын, олардың қабілеттерін экономикалық мәні бар орталарда өлшеу және орналастырылған келісімшарттарды аудиттеп, күшейту үшін AI жүйелерін қорғаныс мақсатында қолдануды ынталандыру барған сайын маңызды бола түседі.

Paradigm⁠(жаңа терезеде ашылады)-мен бірге біз EVMbench-ті ұсынамыз — AI агенттерінің аса қауіпті смарт-келісімшарт осалдықтарын анықтау, түзету және пайдалану қабілетін бағалайтын бенчмарк. EVMbench 40 аудиттен іріктелген 117 осалдыққа сүйенеді, олардың көбі ашық код аудиті жарыстарынан алынған. EVMbench сондай-ақ тұрақты монеталар арқылы жоғары өткізу қабілеті бар, арзан төлемдерді іске қосу үшін арнайы жасалған L1 — Tempo⁠(жаңа терезеде ашылады) блокчейнінің қауіпсіздік аудиті үдерісінен алынған бірнеше осалдық сценарийін қамтиды. Бұл сценарийлер бенчмаркті төлемге бағытталған смарт-келісімшарт коды саласына кеңейтеді, мұнда біз агенттік тұрақты монета төлемдері өседі деп күтеміз, әрі оны практикалық маңызы жаңадан артып келе жатқан доменге негіздейді.

Тапсырма орталарының жасалуы үшін біз бар proof-of-concept exploit тестерін және орналастыру скрипттерін, бар болған жағдайда, бейімдедік, ал болмаған жағдайда оларды қолмен жаздық. Patch режимі үшін біз осалдықтардың пайдалануға болатынын және біздің конфигурацияға нұқсан келтіретін компиляцияны бұзатын өзгерістер енгізбей-ақ азайтылатынын қамтамасыз еттік. Exploit режимі үшін біз арнайы бағалаушылар жазып, агент бағалаушыны алдауы мүмкін тәсілдерді табу және түзетуге тырысып, орталарды red-team тексеруінен өткіздік. Paradigm ұсынған домендік сараптама арқылы тапсырма сапасын бақылауға қоса, ортамыздың сенімділігін арттыру үшін автоматтандырылған тапсырма аудиті агенттерін қолдандық.

EVMbench үш қабілет режимін бағалайды:

Анықтау: Агенттер смарт-келісімшарт репозиторийіне аудит жүргізеді және шынайы осалдықтарды қаншалықты толық тапқаны мен соған байланысты аудит сыйақылары бойынша бағаланады.
Түзету: Агенттер осал келісімшарттарды өзгертеді және exploit мүмкіндігін жоя отырып, көзделген функционалдылықты сақтауы керек; бұл автоматтандырылған тесттер мен exploit тексерулері арқылы расталады.
Пайдалану: Агенттер sandbox-тағы блокчейн ортасында орналастырылған келісімшарттарға қарсы қаражатты толық шығарып алатын шабуылдарды ұшынан-ұшына дейін орындайды, ал бағалау транзакцияларды қайта ойнату және on-chain тексеру арқылы бағдарламалық түрде жүргізіледі.

Объективті және қайта жаңғыртылатын бағалауды қолдау үшін біз келісімшарттарды орналастыратын, агент транзакцияларын детерминді түрде қайта ойнататын және қауіпті RPC әдістерін шектейтін Rust негізіндегі harness әзірледік. Exploit тапсырмалары тірі желілерде емес, оқшауланған жергілікті Anvil ортасында орындалады, ал осалдықтар тарихи және көпшілікке құжатталған.

Біз озық агенттерді осы үш режимнің бәрінде бағалаймыз. «exploit» режимінде Codex CLI арқылы жұмыс істейтін GPT‑5.3‑Codex 71.0% нәтиже көрсетеді. Бұл GPT‑5 сияқты алдыңғы модельдермен салыстырғанда айтарлықтай өсім, оның көрсеткіші 33.3% және ол алты айдан сәл ғана бұрын шығарылған. Анықтау толықтығы мен түзету сәттілігі әлі толық қамтудан төмен, өйткені осалдықтардың үлкен бөлігі агенттер үшін табу мен түзетуге әлі де қиын.

EVMbench сондай-ақ тапсырмалар бойынша модель мінез-құлқындағы қызықты айырмашылықтарды көрсетеді. Агенттер ең жақсы нәтижені мақсат айқын болатын exploit жағдайында көрсетеді: қаражат толық шығарылғанша итерацияны жалғастыру. Ал detect және patch тапсырмаларында нәтиже әлсіздеу. «detect» режимінде агенттер кейде код базасын толық аудиттеудің орнына бір ғана мәселені тапқан соң тоқтайды. «patch» режимінде нәзік осалдықтарды жоя отырып, толық функционалдылықты сақтау әлі де қиын.

Шектеулер

EVMbench нақты әлемдегі смарт-келісімшарт қауіпсіздігінің толық күрделілігін қамтымайды. Қамтылған осалдықтар Code4rena аудит жарыстарынан алынған. Олар шынайы және аса қауіпті болғанымен, кеңінен қолданылатын және көп орналастырылған көптеген криптокелісімшарттар әлдеқайда мұқият тексерістен өтеді және оларды пайдалану қиынырақ болуы мүмкін.

Біздің бағалау жүйеміз берік, бірақ мінсіз емес. «detect» режимінде біз агенттің адам аудиторлар анықтаған осалдықтардың өзін тапқан-таппағанын тексереміз. Егер агент қосымша мәселелерді анықтаса, олардың адамдар өткізіп алған шынайы осалдықтар ма, әлде жалған позитивтер ме екенін анықтаудың сенімді тәсілі бізде әзірге жоқ.

«exploit» жағдайында құрылымдық шектеулер де бар. Транзакциялар бағалау контейнерінде бірінен соң бірі қайта ойнатылады, сондықтан дәл уақыт механикасына тәуелді мінез-құлықтар қамту аясынан тыс. Тізбек күйі mainnet тармағы емес, таза жергілікті Anvil данасы, және біз қазір тек бір тізбекті орталарды қолдаймыз. Кей жағдайларда бұл mainnet орналастыруларының орнына mock келісімшарттарды талап етеді.

Бұл неге маңызды

Смарт-келісімшарттар миллиардтаған доллар активтерді қорғайды, және AI агенттері шабуылдаушылар мен қорғаушылар үшін де түбегейлі өзгеріс әкелуі ықтимал. Осы доменде модель қабілетін өлшеу туындап келе жатқан киберқауіптерді қадағалауға көмектеседі және орналастырылған келісімшарттарды аудиттеп, күшейту үшін AI жүйелерін қорғаныс мақсатында қолданудың маңызын айқындайды.

EVMbench әрі өлшеу құралы, әрі әрекетке шақыру ретінде арналған. Агенттер жақсарған сайын, әзірлеушілер мен қауіпсіздік зерттеушілері үшін жұмыс үдерістеріне AI көмегімен аудитті енгізу барған сайын маңызды бола түседі.

Соңғы айларда біз киберқауіпсіздік тапсырмаларында модель өнімділігінің елеулі өскенін көрдік, бұл әрі әзірлеушілерге, әрі қауіпсіздік мамандарына пайда әкеледі. Сонымен қатар, біз қорғаныс мақсатындағы қолдануды және экожүйенің кеңірек орнықтылығын қолдау үшін күшейтілген киберқауіпсіздік қорғаныс шараларын дайындап келеміз.

Киберқауіпсіздік табиғатынан екіұшты қолдануға ие болғандықтан, біз қорғаушылардың осалдықтарды табу және түзету қабілетін жеделдетіп, теріс пайдалануды баяулататын, дәлелге негізделген итеративті тәсілді ұстанамыз. Біздің қорғаныс шараларымызға қауіпсіздікке оқыту, автоматтандырылған мониторинг, жетілдірілген мүмкіндіктерге арналған сенімді қолжетімділік және қауіп-қатер барлауын қоса алғанда, enforcement pipeline-дары кіреді.

Біз Aardvark қауіпсіздік зерттеу агентіміздің private beta аясын кеңейту және ашық бастапқы кодты қолдаушылармен серіктесіп, кең қолданылатын жобаларға код базасын тегін сканерлеу ұсыну сияқты экожүйелік қорғаныс шараларына инвестиция салып жатырмыз.

2023 жылы іске қосылған Cybersecurity Grant Program бағдарламасына сүйене отырып, біз сондай-ақ ең қабілетті модельдерімізбен киберқорғанысты жеделдету үшін API кредиттері түрінде $10M бөлуге міндеттенеміз, әсіресе ашық бастапқы кодты бағдарламалық жасақтама мен маңызды инфрақұрылым жүйелері үшін. Адал ниетті қауіпсіздік зерттеулерімен айналысатын ұйымдар біздің Cybersecurity Grant Program арқылы API кредиттері мен қолдауға өтініш бере алады.

Біз туындап келе жатқан AI кибермүмкіндіктерін өлшеу және басқару жөніндегі зерттеулерді жалғастыруды қолдау үшін EVMbench тапсырмаларын, құралдарын және бағалау құрылымын жариялаймыз.

Оқуды жалғастырыңыз

Барлығын қарау

GPT-Red: Төзімділік үшін өзін-өзі жетілдіруді іске қосу

Қауіпсіздік2026 ж. 15 шіл.

Бағдарламалау бағалауларында сигналды шудан ажырату

Зерттеу2026 ж. 8 шіл.

GeneBench-Pro-ны таныстырамыз

Зерттеу2026 ж. 30 мау.