Представљамо EVMbench
Повећавамо безбедност паметних уговора проценом способности AI агената да открију, закрпе и искористе рањивости у блокчејн окружењима.
Паметни уговори рутински обезбеђују више од 100 милијарди долара у крипто средствима отвореног кода. Како AI агенти постају све бољи у читању, писању и извршавању кода, постаје све важније мерити њихове способности у економски значајним окружењима и подстицати дефанзивну употребу AI система за ревизију и јачање већ примењених уговора.
Заједно са Paradigm(отвара се у новом прозору), представљамо EVMbench, бенчмарк који оцењује способност AI агената да открију, закрпе и искористе критичне рањивости паметних уговора. EVMbench се ослања на 117 курираних рањивости из 40 ревизија, при чему је већина преузета из отворених такмичења у ревизији кода. EVMbench додатно укључује неколико сценарија рањивости преузетих из процеса безбедносне ревизије блокчејна Tempo(отвара се у новом прозору), наменски изграђеног L1 решења осмишљеног да омогући плаћања стабилним коинима са великом пропусном моћи и ниским трошковима. Ови сценарији проширују бенчмарк на код паметних уговора усмерен на плаћања, где очекујемо раст агентских плаћања стабилним коинима, и помажу да се он утемељи у домену практичне важности у настајању.
Да бисмо креирали наша окружења задатака, прилагодили смо постојеће тестове proof-of-concept експлоатације и скрипте за распоређивање, када су постојали, а у супротном смо их писали ручно. За режим закрпљивања обезбедили смо да рањивости могу да се искористе и да могу да се ублаже без увођења промена које би поквариле компилацију, што би угрозило наше подешавање. За режим експлоатације написали смо прилагођене оцењиваче и red-team тестирали окружења у покушају да пронађемо и закрпимо начине на које би агент могао да превари оцењивач. Поред контроле квалитета задатака кроз доменско знање које је обезбедио Paradigm, користили смо аутоматизоване агенте за ревизију задатака како бисмо повећали поузданост наших окружења.
EVMbench оцењује три режима способности:
- Откривање: Агенти врше ревизију депоа паметних уговора и оцењују се на основу обухвата стварних рањивости и повезаних награда за ревизију.
- Закрпљивање: Агенти мењају рањиве уговоре и морају да очувају намењену функционалност док уклањају могућност експлоатације, што се проверава аутоматизованим тестовима и провером експлоатације.
- Експлоатација: Агенти изводе целовите нападе пражњења средстава на распоређене уговоре у изолованом блокчејн окружењу, а оцењивање се спроводи програмски кроз репродукцију трансакција и верификацију на ланцу.
Да бисмо подржали објективно и поновљиво оцењивање, развили смо harness заснован на Rust-у који распоређује уговоре, детерминистички репродукује трансакције агената и ограничава небезбедне RPC методе. Задаци експлоатације се извршавају у изолованом локалном Anvil окружењу, а не на живим мрежама, а рањивости су историјске и јавно документоване.
Оцењујемо граничне агенте у сва три режима. У режиму „експлоатације“, GPT‑5.3‑Codex који ради преко Codex CLI остварује резултат од 71,0%. То представља значајан напредак у односу на претходне моделе, као што је GPT‑5, који постиже 33,3% и објављен је пре нешто више од шест месеци. Стопе обухвата откривања и успешности закрпљивања остају испод потпуне покривености, јер велики део рањивости агентима и даље тешко открити и исправити.
EVMbench такође открива занимљиве разлике у понашању модела кроз различите задатке. Агенти најбоље раде у окружењу експлоатације, где је циљ експлицитан: наставити са итерацијама док се средства не испразне. Насупрот томе, учинак је слабији на задацима откривања и закрпљивања. У „откривању“, агенти понекад стану након што идентификују један проблем, уместо да исцрпно ревидирају целу базу кода. У „закрпљивању“, задржавање пуне функционалности уз уклањање суптилних рањивости и даље представља изазов.
EVMbench не представља пуну тежину безбедности паметних уговора у стварном свету. Укључене рањивости преузете су из ревизорских такмичења Code4rena. Иако су реалистичне и високог ризика, многи широко примењени и широко коришћени крипто уговори пролазе кроз знатно детаљнију проверу и могу бити тежи за експлоатацију.
Наш систем оцењивања је робустан, али није савршен. У режиму „откривања“ проверавамо да ли агент проналази исте рањивости које су идентификовали људски ревизори. Ако агент идентификује додатне проблеме, тренутно немамо поуздан начин да утврдимо да ли они представљају стварне рањивости које су људи пропустили или лажно позитивне резултате.
Постоје и структурна ограничења у режиму „експлоатације“. Трансакције се репродукују секвенцијално у контејнеру за оцењивање, тако да понашања која зависе од прецизних механика тајминга не спадају у опсег. Стање ланца је чиста локална Anvil инстанца, а не fork главне мреже, и тренутно подржавамо само окружења са једним ланцем. У неким случајевима то захтева mock уговоре уместо распоређивања на главној мрежи.
Паметни уговори обезбеђују милијарде долара у средствима, а AI агенти ће вероватно бити трансформативни и за нападаче и за браниоце. Мерење способности модела у овом домену помаже у праћењу новонасталих сајбер ризика и истиче важност дефанзивне употребе AI система за ревизију и јачање већ распоређених уговора.
EVMbench је замишљен и као алат за мерење и као позив на деловање. Како се агенти побољшавају, постаје све важније да програмери и истраживачи безбедности укључе ревизију уз помоћ AI-а у своје токове рада.
Током последњих месеци видели смо значајан напредак у перформансама модела на задацима сајбер безбедности, што доноси корист и програмерима и стручњацима за безбедност. Паралелно с тим, припремали смо ојачане сајбер заштитне мере како бисмо подржали дефанзивну употребу и ширу отпорност екосистема.
Пошто је сајбер безбедност по природи двоструке намене, примењујемо итеративан приступ заснован на доказима који убрзава способност бранилаца да пронађу и отклоне рањивости, уз истовремено успоравање злоупотребе. Наше мере ублажавања укључују безбедносну обуку, аутоматизовано праћење, поуздан приступ напредним могућностима и механизме спровођења који укључују обавештајне податке о претњама.
Улажемо у заштитне механизме екосистема, као што су проширење приватне бета верзије Aardvark, нашег агента за безбедносна истраживања, и партнерства са одржаваоцима отвореног кода ради обезбеђивања бесплатног скенирања база кода за широко коришћене пројекте.
Надовезујући се на наш Програм грантова за сајбер безбедност покренут 2023. године, такође издвајамо 10 милиона долара у API кредитима како бисмо убрзали сајбер одбрану помоћу наших најспособнијих модела, посебно за софтвер отвореног кода и системе критичне инфраструктуре. Организације које се баве безбедносним истраживањем у доброј вери могу да се пријаве за API кредите и подршку путем нашег Програма грантова за сајбер безбедност.
Објављујемо задатке, алате и оквир за оцењивање EVMbench-а како бисмо подржали даља истраживања мерења и управљања новонасталим AI сајбер способностима.


