18. februára 2026

Predstavujeme EVMbench

Zvyšovanie bezpečnosti smart kontraktov hodnotením schopnosti agentov umelej inteligencie odhaľovať, opravovať a zneužívať zraniteľnosti v prostrediach blockchainu.

Prečítajte si dokument

Načítava sa…

Inteligentné zmluvy bežne zabezpečujú viac 100 miliárd USD v open-source krypto aktívach. Ako sa agenti AI zlepšujú v čítaní, písaní a vykonávaní kódu, čoraz dôležitejšie je meranie ich schopnosti v ekonomicky zmysluplných prostrediach a podpora defenzívne využívanie systémov AI na auditovanie a posilňovanie nasadených zmlúv.

Spolu s Paradigm⁠(otvorí sa v novom okne) predstavujeme EVMbench, benchmark hodnotiaci schopnosť agentov AI identifikovať, opraviť a zneužiť zraniteľnosti smart kontraktov s vysokou závažnosťou. EVMbench čerpá zo 117 kurátorovaných zraniteľností zo 40 auditov, pričom väčšina pochádza z open-source súťaží v oblasti auditu kódu. EVMbench navyše zahŕňa niekoľko scenárov zraniteľností z procesu bezpečnostného auditu pre blockchain Tempo⁠(otvorí sa v novom okne), účelovo vytvorený L1 na umožnenie platieb s vysokou priepustnosťou a nízkymi nákladmi prostredníctvom stablecoinov. Tieto scenáre rozširujú benchmark na kód smart kontraktov orientovaný na platby, kde očakávame rast agentických platieb stablecoinmi, a pomáhajú ho zakotviť v oblasti s narastajúcim praktickým významom.

Na vytvorenie našich orientovaných prostredí na úlohy sme prispôsobili existujúce testy proof-of-concept zneužitia a nasadzovacie skripty, ak boli k dispozícii – inak sme ich napísali ručne. Pre režim záplatovania sme sa uistili, že zraniteľnosti sú zneužiteľné a že ich možno zmierniť bez zavedenia zmien, ktoré by narušili kompiláciu a ohrozili naše nastavenie. Pre režim zneužtia sme napísali vlastné hodnotiace nástroje a vykonali red-teamovanie prostredí v snahe nájsť a opraviť metódy, ktorými by agent mohol oklamať hodnotiaci nástroj. Okrem kontroly kvality úloh prostredníctvom odborných znalostí poskytovaných spoločnosťou Paradigm sme použili automatizovaných agentov na auditovanie úloh, aby sme zvýšili spoľahlivosť našich prostredí.

EVMbench hodnotí tri režimy schopností:

Detekcia: Agenti auditujú repozitár inteligentných zmlúv a sú hodnotení na základe miery identifikácie zraniteľností z overeného základu a súvisiacich odmien za audit.
Záplata: Agenti upravujú zraniteľné kontrakty a musia zachovať zamýšľanú funkcionalitu, pričom eliminujú zneužiteľnosť, čo je overené prostredníctvom automatizovaných testov a kontrol zneužitia.
Zneužitie: Agenti vykonávajú end-to-end útoky na odčerpanie prostriedkov proti nasadeným kontraktom v sandboxovom prostredí blockchainu, pričom hodnotenie sa vykonáva programovo prostredníctvom opätovného prehratia transakcií a overenia na reťazci.

Na podporu objektívneho a reprodukovateľného hodnotenia sme vyvinuli nástroj na báze Rustu, ktorý nasadzuje kontrakty, deterministicky prehráva transakcie agenta a obmedzuje nebezpečné metódy RPC. Úlohy zneužitia sa vykonávajú v izolovanom lokálnom prostredí Anvil, nie na živých sieťach, a zraniteľnosti sú historické a verejne zdokumentované.

Hodnotíme prelomových agentov vo všetkých troch režimoch. V režime „zneužitia“ GPT‑5.3‑Codex dosahuje spustenie cez Codex CLI skóre 71.0%. To predstavuje významný pokrok oproti predchádzajúcim modelom, ako je GPT‑5, ktorý dosahuje skóre 33,3 % a bol vydaný len pred niečo vyše šiestimi mesiacmi. Miera úspešnosti detekcie, vyvolania opravy a aplikovania záplat zostáva pod úrovňou úplného pokrytia, pretože veľká časť zraniteľností je pre agentov stále ťažko nájsť a opraviť.

EVMbench tiež odhaľuje zaujímavé rozdiely v správaní modelu pri rôznych úlohách. Agenti dosahujú najlepší výkon v prostredí využívania, kde je cieľ jasný: pokračovať v iterovaní, kým sa nevyčerpajú prostriedky. Naopak, výkon je slabší pri úlohách detekcie a záplatovania. V režime „detekcie“ agenti niekedy zastavia po identifikovaní jedného problému, namiesto toho, aby dôkladne auditovali kódovú základňu. V režime „záplat“ je náročné zachovať plnú funkčnosť a zároveň odstrániť nenápadné zraniteľnosti.

Obmedzenia

EVMbench nepredstavuje plnú náročnosť bezpečnosti inteligentných zmlúv v reálnom svete. Zahrnuté zraniteľnosti pochádzali z audítorských súťaží Code4rena. Hoci sú realistické a majú vysokú závažnosť, mnohé široko nasadené a široko používané krypto kontrakty podliehajú výrazne prísnejšiemu dohľadu a môže byť ťažšie ich zneužiť.

Náš systém hodnotenia je odolný, ale nie je bezchybný. V režime „detekcie“ overujeme, či agent objaví rovnaké zraniteľnosti, aké zistili ľudskí audítori. Ak agent identifikuje ďalšie problémy, momentálne nemáme spoľahlivý spôsob, ako určiť, či ide o skutočné zraniteľnosti, ktoré ľudia prehliadli, alebo o falošné pozitíva.

V nastavení režimu „zneužitia“ existujú aj štrukturálne obmedzenia. Transakcie sa v hodnotiacom kontajneri prehrávajú postupne, takže správania závislé od presných časovacích mechanizmov sú mimo rozsahu. Stav reťazca je čistá lokálna inštancia Anvil, nie rozvetvenie mainnetu, a momentálne podporujeme iba prostredia s jedným reťazcom. V niektorých prípadoch to vyžaduje simulované zmluvy namiesto nasadení na mainnete.

Prečo je to dôležité

Inteligentné zmluvy zabezpečujú aktíva v hodnote miliárd dolárov a AI agenti pravdepodobne zmenia situáciu pre útočníkov aj obrancov. Meranie schopností modelu v tejto oblasti pomáha sledovať vznikajúce kybernetické riziká a zdôrazňuje dôležitosť obranného využívania AI systémov na audit a posilnenie nasadených zmlúv.

EVMbench je určený ako nástroj na meranie a zároveň ako výzva na akciu. Ako sa agenti zlepšujú, je čoraz dôležitejšie, aby vývojári a bezpečnostní výskumníci začlenili auditovanie s podporou umelej inteligencie do svojich pracovných postupov.

V posledných mesiacoch sme zaznamenali výrazné zlepšenie výkonu modelov pri úlohách kybernetickej bezpečnosti, z čoho majú prospech vývojári aj bezpečnostní profesionáli. Súbežne pripravujeme posilnené kybernetické opatrenia na podporu obranného využitia a širšej odolnosti ekosystému.

Keďže kybernetická bezpečnosť má vo svojej podstate dvojité využitie, používame iteratívny prístup založený na dôkazoch, ktorý urýchľuje schopnosť obrancov nájsť a opraviť zraniteľnosti a zároveň spomaľuje zneužitie. Naše zmierňujúce opatrenia zahŕňajú bezpečnostné školenia, automatizované monitorovanie, dôveryhodný prístup k pokročilým funkciám a kanály presadzovania vrátane informácií o hrozbách.

Investujeme do ochranných opatrení ekosystému, ako je rozširovanie súkromnej beta verzie Aardvark, nášho agentného výskumníka bezpečnosti, a spolupracujeme so správcami open-source projektov, aby sme poskytli bezplatné skenovanie kódovej bázy pre široko používané projekty.

V nadväznosti na náš program grantov pre kybernetickú bezpečnosť, ktorý sme spustili v roku 2023, sa zaväzujeme poskytnúť aj 10 miliónov USD v API kreditoch na urýchlenie kybernetickej obrany s našimi najvýkonnejšími modelmi, najmä pre softvér s otvoreným zdrojovým kódom a systémy kritickej infraštruktúry. Organizácie, ktoré sa zaoberajú výskumom v oblasti kybernetickej bezpečnosti v dobrej viere, môžu požiadať o kredity API a podporu prostredníctvom nášho Programu grantov pre kybernetickú bezpečnosť.

Zverejňujeme úlohy, nástroje a hodnotiaci rámec EVMbench na podporu pokračujúceho výskumu merania a riadenia vznikajúcich kybernetických schopností AI.

Pokračovať v čítaní

Zobraziť všetko

GPT-Red: odomknutie sebazlepšovania pre robustnosť

Bezpečnosť15. 7. 2026

Oddelenie signálu od šumu v hodnoteniach programovania

Vyhľadávanie8. 7. 2026

Predstavujeme GeneBench-Pro

Vyhľadávanie30. 6. 2026