Představujeme EVMbench
Zvýšení bezpečnosti chytrých smluv vyhodnocením schopnosti agentů umělé inteligence detekovat, opravovat a zneužívat zranitelnosti v prostředí blockchainu.
Chytré smlouvy běžně zajišťují krypto aktiva v otevřeném zdrojovém kódu v hodnotě přes 100 miliard dolarů. S tím, jak se agenti umělé inteligence zlepšují ve čtení, psaní a spouštění kódu, je stále důležitější měřit jejich schopnosti v ekonomicky smysluplných prostředích a podporovat defenzivní využívání systémů umělé inteligence k auditu a posilování nasazených smluv.
Společně se společností Paradigm(otevře se v novém okně) představujeme benchmark EVMbench, hodnotící schopnost AI agentů detekovat, opravovat a využívat vysoce závažné zranitelnosti chytrých smluv. EVMbench čerpá ze 117 pečlivě vybraných zranitelností ze 40 auditů, přičemž většina pochází ze soutěží v otevřených auditech kódu. EVMbench navíc zahrnuje několik scénářů zranitelností z bezpečnostního auditu blockchainu Tempo(otevře se v novém okně), účelově vytvořené L1 navržené pro umožnění plateb s vysokým výkonem a nízkými náklady pomocí stablecoinů. Tyto scénáře rozšiřují benchmark na kód chytrých kontraktů zaměřený na platby, kde očekáváme růst agentních plateb stablecoiny, a pomáhají jej ukotvit v oblasti s nově vznikajícím praktickým významem.
Abychom vytvořili naše testovací prostředí pro úlohy, upravili jsme existující testy ověření konceptů exploitů a nasazovací skripty, pokud byly k dispozici, a v opačném případě jsme je napsali ručně. Pro patch režim jsme zajistili, aby byly zranitelnosti zneužitelné a bylo je možné zmírnit bez zavedení změn, které by narušily kompilaci a ohrozily tak naše nastavení. Pro režim exploit jsme vytvořili vlastní hodnotitele a provedli red teaming prostředí, abychom našli a opravili metody, kterými by agent mohl podvádět hodnotitele. Kromě kontroly kvality úkolů prostřednictvím odborných znalostí v dané oblasti od společnosti Paradigm jsme použili automatizované agenty pro audit úkolů, které nám pomohly zvýšit spolehlivost našich prostředí.
EVMbench vyhodnocuje tři režimy schopností:
- Detekce: Agenti provádějí audit úložiště chytrých smluv a jsou hodnoceni podle schopnosti identifikovat zranitelnosti podle skutečných dat a souvisejících odměn za audit.
- Záplata: Agenti upravují zranitelné kontrakty a musí zachovat zamýšlenou funkčnost, přičemž zároveň odstraní možnost zneužití. Správnost se ověřuje pomocí automatizovaných testů a kontrol exploitů.
- Zneužití: Agenti provádějí komplexní útoky zaměřené na odčerpávání finančních prostředků proti nasazeným smlouvám v izolovaném testovacím blockchainovém prostředí, přičemž hodnocení se provádí programově prostřednictvím přehrávání transakcí a ověřování v řetězci.
Pro podporu objektivního a reprodukovatelného vyhodnocení jsme vyvinuli systém založený na Rustu, který zavádí smlouvy, deterministicky přehrává transakce agentů a omezuje nebezpečné metody RPC. Exploit úlohy běží v izolovaném lokálním prostředí Anvil, nikoli na živých sítích, a zranitelnosti jsou historické a veřejně zdokumentované.
Hodnotíme špičkové agenty ve všech třech režimech. V režimu „exploit“ GPT‑5.3‑Codex spuštěném přes Codex CLI dosahuje skóre 71,0 %. To představuje významný pokrok oproti předchozím modelům, jako je GPT‑5, který dosahuje 33,3 % a byl vydán před něco málo přes šesti měsíci. Míra úspěšnosti detekce, odvolání a oprav zůstává pod úrovní plného pokrytí, protože velkou část zranitelností agenti stále obtížně nacházejí a opravují.
Benchmark EVMbench také odhaluje zajímavé rozdíly v chování modelu napříč různými úkoly. Agenti dosahují nejlepších výsledků v prostředí exploitu, kde je jasný cíl: pokračovat v iteracích, dokud se nevyčerpají prostředky. Naproti tomu výkon u úloh detekce a záplav je slabší. V režimu „detekce“ se agenti někdy zastaví po identifikaci jediného problému, místo aby důkladně auditovali celou kódovou základnu. V režimu „patch“ je náročné zachovat plnou funkčnost a zároveň odstranit nenápadné zranitelnosti.
EVMbench nepředstavuje plnou složitost zabezpečení chytrých smluv v reálném světě. Zahrnuté zranitelnosti byly čerpány z auditorských soutěží Code4rena. I když se jedná o realistické a vysoce závažné hrozby, mnoho často nasazovaných a široce používaných kryptoměnových smluv podléhá podstatně větší kontrole a jejich zneužití může být obtížnější.
Náš systém hodnocení je robustní, ale nedokonalý. V režimu „detekce“ kontrolujeme, zda agent najde stejné zranitelnosti, které identifikovali lidští auditoři. Pokud agent identifikuje další problémy, momentálně nemáme spolehlivý způsob, jak zjistit, zda představují skutečné zranitelnosti, které lidé přehlédli, nebo falešné pozitivní nálezy.
V prostředí „exploit“ existují také strukturální omezení. Transakce se v hodnoticím kontejneru přehrávají postupně, takže chování závislé na přesných mechanismech časování je mimo rozsah. Stav řetězce je čistá lokální instance Anvilu, nikoli fork mainnetu, a v současné době podporujeme pouze prostředí s jedním řetězcem. V některých případech to vyžaduje simulované smlouvy místo nasazení na mainnetu.
Chytré smlouvy zabezpečují aktiva v hodnotě miliard dolarů a AI agenti pravděpodobně přinesou zásadní změny jak pro útočníky, tak pro obránce. Měření schopností modelů v této oblasti pomáhá sledovat vznikající kybernetická rizika a zdůrazňuje důležitost defenzivního využívání systémů umělé inteligence k auditu a posilování nasazených smluv.
EVMbench je určen jak jako měřicí nástroj, tak jako výzva k akci. S tím, jak se agenti zlepšují, je pro vývojáře a bezpečnostní výzkumníky stále důležitější začlenit audity s podporou umělé inteligence do svých pracovních postupů.
V posledních měsících jsme zaznamenali výrazné zvýšení výkonu modelů při řešení úloh kybernetické bezpečnosti, z čehož těží vývojáři i odborníci na zabezpečení. Současně připravujeme posílená kybernetická opatření na podporu obranného využití a širší odolnosti ekosystému.
Protože kybernetická bezpečnost je ze své podstaty dvojího druhu, uplatňujeme opakující se přístup založený na důkazech, který urychluje schopnost obránců najít a opravit zranitelnosti a zároveň zpomaluje zneužití. Naše opatření zahrnují bezpečnostní školení, automatizované monitorování, důvěryhodný přístup k pokročilým funkcím a kanály pro vynucování včetně zpravodajství o hrozbách.
Investujeme do ochranných opatření ekosystému, jako je rozšíření soukromé beta verze Aardvarku, našeho agenta pro bezpečnostní výzkum, a do partnerství se správci open-source projektů s cílem poskytovat bezplatné skenování kódové základny pro široce používané projekty.
V návaznosti na náš program grantů pro kybernetickou bezpečnost, který jsme spustili v roce 2023, vyčleňujeme také 10 milionů USD v kreditech na API k urychlení kybernetické obrany pomocí našich nejschopnějších modelů, zejména pro open source software a systémy kritické infrastruktury. Organizace, které se v dobré víře zabývají výzkumem kybernetické bezpečnosti, mohou požádat o kredity API a podporu prostřednictvím našeho Grantového programu kybernetické bezpečnosti.
Vydáváme rámec pro úkoly, nástroje a hodnocení EVMbench na podporu dalšího výzkumu v oblasti měření a řízení nově vznikajících kybernetických schopností umělé inteligence.


