18 февруари 2026 г.

Претставување на EVMbench

Зголемување на безбедноста на паметните договори преку проценка на способноста на агентите на вештачка интелигенција да откриваат, поправат и искористуваат ранливости во блокчејн средини.

Прочитајте го документот

Се вчитува...

Паметните договори рутински обезбедуваат над 100 милијарди долари во крипто средства со отворен код. Како што агентите за вештачка интелигенција се подобруваат во читање, пишување и извршување код, станува сè поважно да се мерат нивните способности во економски значајни средини и да се поттикнува дефанзивната употреба на системи за вештачка интелигенција за ревизија и зајакнување на имплементираните договори.

Заедно со Paradigm⁠(се отвора во нов прозорец), го претставуваме EVMbench, репер за оцена на способноста на AI агентите за детектирање, закрпување и експлоатирање високоризични ранливости во паметните договори со висока сериозност. EVMbench се потпира на 117 внимателно избрани ранливости од 40 ревизии, при што повеќето се добиени од натпревари за ревизија на отворен код. EVMbench дополнително вклучува неколку сценарија за ранливости извлечени од процесот на безбедносна ревизија за блокчејнот Tempo⁠(се отвора во нов прозорец), специјално изграден L1 дизајниран да овозможи плаќања со висок капацитет и ниски трошоци преку стабилни монети. Овие сценарија ја прошируваат одредницата во код за паметни договори ориентиран кон плаќања, каде што очекуваме да растат агентските плаќања со стабилни монети и помагаат да се втемели во домен со нова практична важност.

За да ги создадеме нашите работни средини, ги адаптиравме постојните тестови за експлоатација како доказ за концепт и скрипти за распоредување, доколку постоеја, а во спротивно ги напишавме рачно. За режимот на закрпување, се погриживме ранливостите да бидат искористливи и да можат да се ублажат без воведување промени што го нарушуваат компајлирањето, што би ја загрозило нашата конфигурација. За режимот на експлоатација, напишавме прилагодени оценувачи и спроведовме red-teaming на околините за да откриеме и закрпиме методи со кои агент би можел да го измами оценувачот. Покрај контролата на квалитетот на задачите преку доменска експертиза обезбедена од Paradigm, користевме автоматизирани агенти за ревизија на задачите за да помогнеме да се зголеми сигурноста на нашите околини.

EVMbench оценува три начини на способности:

Откривање: Агентите вршат ревизија на репозиториум за паметни договори и се оценуваат според откривање на вистинските ранливости и поврзаните награди за ревизија.
Закрпа: Агентите ги модифицираат ранливите договори и мора да ја зачуваат наменетата функционалност, притоа елиминирајќи ја можноста за експлоатација, потврдено преку автоматизирани тестови и проверки на експлоатации.
Експлоатација: Агентите извршуваат напади од почеток до крај за исцрпување на средства против распоредени договори во изолирана блокчејн средина, при што оценувањето се врши програмски преку повторување на трансакции и верификација на блокчејнот.

За да поддржиме објективна и евалуација што може да се репродуцира, развивме систем за поврзување базиран на Rust што распоредува договори, детерминистички ги репродуцира трансакциите на агентите и ги ограничува небезбедните RPC методи. Задачите за експлоатација се извршуваат во изолирана локална средина Anvil наместо на активни мрежи, а ранливостите се историски и јавно документирани.

Ние ги оценуваме напредните агенти во сите три модалитети. Во режимот „експлоатација“, GPT‑5.3‑Codex извршувањето преку Codex CLI постигнува резултат од 71,0%. Ова претставува значителен напредок во однос на претходните модели, како што е GPT‑5, кој постигнува резултат од 33.3% и беше објавен пред малку повеќе од шест месеци. Стапките на успех за откривање, отповикување и закрпување остануваат под целосна покриеност, бидејќи голем дел од ранливостите и понатаму се тешки за агентите да ги пронајдат и поправат.

EVMbench исто така открива интересни разлики во однесувањето на моделот во различни задачи. Агентите најдобро функционираат во услови на експлоатација, каде што целта е јасна: продолжете со итерации додека не се потрошат средствата. За разлика од тоа, изведбата е послаба на задачите за откривање и закрпување. Во „detect“, агентите понекогаш запираат откако ќе идентификуваат еден проблем, наместо исцрпно да ја ревидираат кодната база. Во „закрпа“, одржувањето на целосната функционалност додека се отстрануваат суптилни ранливости останува предизвик.

Ограничувања

EVMbench не ја претставува целосната тежина на безбедноста на паметните договори во реалниот свет. Вклучените ранливости беа преземени од натпревари за ревизија на Code4rena. Иако овие се реалистични и со висок степен на сериозност, многу крипто договори кои се масовно распоредени и широко користени се подложени на значително построга контрола и може да биде потешко да се искористат.

Нашиот систем за оценување е цврст, но несовршен. Во режимот „detect“, проверуваме дали агентот ги наоѓа истите ранливости што ги идентификуваат човечките ревизори. Ако агентот идентификува дополнителни проблеми, во моментов немаме сигурен начин да утврдиме дали тие се вистински ранливости што луѓето ги пропуштиле или лажни позитиви.

Исто така, постојат структурни ограничувања во поставката „експлоатација“. Трансакциите се репродуцираат последователно во контејнерот за оценување, така што однесувањата што зависат од прецизни временски механизми се надвор од опсегот. Состојбата на синџирот е чиста локална инстанца на Anvil наместо разгранување на главната мрежа, и моментално поддржуваме само средини со еден синџир. Во некои случаи, ова бара „mock“ договори наместо mainnet имплементации.

Зошто е ова важно

Паметните договори обезбедуваат милијарди долари во средства, а агентите со вештачка интелигенција веројатно ќе донесат значајни промени и за напаѓачите и за бранителите. Мерењето на способноста на моделот во оваа област помага да се следат новите сајбер-ризици и ја истакнува важноста од одбранбено користење на системи за вештачка интелигенција за ревизија и зајакнување на распоредени договори.

EVMbench е наменет како алатка за мерење и повик за акција. Како што се подобруваат агентите, станува сè поважно за програмерите и безбедносните истражувачи да вклучат ревизија со помош на вештачка интелигенција во нивните работни процеси.

Во последниве месеци, забележавме значајни подобрувања во перформансите на моделите за задачи поврзани со сајбербезбедност, што е од корист и за програмерите и за професионалците за безбедност. Паралелно, подготвуваме зајакнати сајбер-заштитни мерки за поддршка на одбранбената употреба и поширока отпорност на екосистемот.

Бидејќи сајбербезбедноста по својата природа е со двојна употреба, ние применуваме итеративен пристап заснован на докази, кој ја забрзува способноста на бранителите да ги пронајдат и поправат ранливостите, додека истовремено ја забавува злоупотребата. Нашите мерки за ублажување вклучуваат обука за безбедност, автоматизирано следење, доверлив пристап за напредни способности и канали за спроведување, вклучувајќи разузнавање за закани.

Инвестираме во заштитни мерки за екосистемот, како што е проширување на приватната бета верзија на Aardvark, нашиот агент за безбедносно истражување, и партнерство со одржувачи на отворен код за да обезбедиме бесплатно скенирање на кодната база за широко користени проекти.

Надоврзувајќи се на нашата Програма за грантови за сајбер-безбедност, лансирана во 2023 година, исто така се обврзуваме на 10 милиони американски долари во API кредити за да ја забрзаме сајбер-одбраната со нашите најспособни модели, особено за софтвер со отворен код и системи за критична инфраструктура. Организации кои се занимаваат со добронамерно истражување на безбедноста можат да аплицираат за кредити за API и поддршка преку нашата Програма за грантови за сајбер-безбедност.

Ги објавуваме задачите, алатките и рамката за евалуација на EVMbench за да поддржиме континуирано истражување за мерење и управување со новите сајбер-способности на вештачката интелигенција.

Продолжи да читаш

Види ги сите

GPT-Red: самоподобрување за поголема робустност

Безбедност15 јул. 2026 г.

Одвојување сигнал од шум во евалуации на кодирање

Истражување8 јул. 2026 г.

Претставување на GeneBench-Pro

Истражување30 јун. 2026 г.