18. veljače 2026.

Predstavljamo EVMbench

Unaprjeđenje sigurnosti pametnih ugovora procjenom sposobnosti AI agenata da otkriju, zakrpaju i iskoriste ranjivosti u blockchain okruženjima.

Pročitajte rad

Učitavanje…

Pametni ugovori redovito osiguravaju više od 100 milijardi USD u open-source kriptoimovini. Kako AI agenti napreduju u čitanju, pisanju i izvršavanju koda, sve je važnije mjeriti njihove sposobnosti u ekonomski relevantnim okruženjima te poticati obrambenu primjenu AI sustava za reviziju i jačanje već implementiranih ugovora.

Zajedno s tvrtkom Paradigm⁠(otvara se u novom prozoru), predstavljamo EVMbench – referentni test koji procjenjuje sposobnost AI agenata da otkriju, zakrpaju i iskoriste ozbiljne ranjivosti u pametnim ugovorima. EVMbench se temelji na 117 pažljivo odabranih ranjivosti iz 40 revizija, pri čemu je većina preuzeta iz procesa revizije otvorenog koda. EVMbench dodatno uključuje nekoliko scenarija ranjivosti proizašlih iz procesa sigurnosne revizije blockchaina Tempo⁠(otvara se u novom prozoru), namjenski razvijenog L1 rješenja osmišljenog za obradu visoke propusnosti uz niske troškove putem stabilnih kriptovaluta. Ti scenariji proširuju referentni test na pametne ugovore usmjerene na plaćanja, u kojima očekujemo rast plaćanja koja provode AI agenti putem stabilnih kriptovaluta te ga smještaju u područje sve većeg praktičnog značaja.

Za izradu naših radnih okruženja prilagodili smo postojeće proof-of-concept testove eksploatacije i skripte za implementaciju, kad su postojali, a inače smo ih napisali ručno. Za način rada zakrpe osigurali smo da su ranjivosti doista iskoristive te da ih je moguće ublažiti bez uvođenja promjena koje bi izazvale pogreške pri kompilaciji, što bi ugrozilo naše postavke. Za način rada eksploatacije razvili smo prilagođene mehanizme ocjenjivanja i proveli red-team testiranje (simulirani sigurnosni napadi) nad okruženjima kako bismo identificirali i uklonili načine na koje bi agent mogao zaobići sustav ocjenjivanja. Uz kontrolu kvalitete zadataka temeljenu na stručnom znanju koje je osigurao Paradigm, koristili smo i automatizirane agente za reviziju zadataka kako bismo dodatno povećali pouzdanost naših okruženja.

EVMbench procjenjuje tri vrste sposobnosti:

Otkrivanje: agenti revidiraju repozitorij pametnih ugovora, a ocjenjuju se prema stopi prepoznavanja stvarnih ranjivosti i pripadajućih nagrada za reviziju.
Zakrpa: agenti izmjenjuju ranjive ugovore te moraju zadržati predviđenu funkcionalnost uz istodobno uklanjanje mogućnosti eksploatacije, što se provjerava automatiziranim testovima i provjerama eksploatacije.
Eksploatacija: agenti provode cjelovite napade pražnjenja sredstava nad implementiranim ugovorima u izoliranom blockchain okruženju, pri čemu se ocjenjivanje provodi programski, ponovnim izvođenjem transakcija i on-chain provjerom.

Kako bismo omogućili objektivnu i ponovljivu evaluaciju, razvili smo testni okvir temeljen na Rustu koji implementira ugovore, deterministički ponavlja transakcije agenata i ograničava nesigurne RPC metode. Zadaci eksploatacije izvode se u izoliranom lokalnom okruženju Anvil, a ne na produkcijskim mrežama, a ranjivosti su povijesne i javno dokumentirane.

Procjenjujemo napredne agente u sva tri načina rada. U načinu rada „eksploatacija”, GPT‑5.3‑Codex, pokrenut putem agenta Codex CLI, ostvaruje rezultat od 71,0 %. To predstavlja značajan napredak u odnosu na prethodne modele, kao što je GPT‑5, koji postiže 33,3 % i objavljen je prije nešto više od šest mjeseci. Stopa prepoznavanja ranjivosti u načinu „otkrivanje” i stopa uspješnosti u načinu „zakrpa” i dalje su ispod potpune pokrivenosti, jer veliki dio ranjivosti agentima ostaje teško pronaći i ispraviti.

EVMbench otkriva i zanimljive razlike u ponašanju modela ovisno o zadatku. Agenti postižu najbolje rezultate u načinu „eksploatacija”, gdje je cilj jasan – nastaviti s pokušajima dok se sredstva ne isprazne. Nasuprot tomu, rezultati su slabiji u zadacima „otkrivanje” i „zakrpa”. U načinu „otkrivanje” agenti se ponekad zaustave nakon što identificiraju jednu ranjivost, umjesto da iscrpno revidiraju cijelu bazu kȏda. U načinu „zakrpa” zadržavanje pune funkcionalnosti uz uklanjanje suptilnih ranjivosti i dalje predstavlja izazov.

Ograničenja

EVMbench ne odražava punu razinu složenosti sigurnosti pametnih ugovora u stvarnim uvjetima. Uključene ranjivosti preuzete su iz Code4rena natjecanja u reviziji koda. Iako su realistične i visokorizične, mnogi široko implementirani i intenzivno korišteni kriptougovori prolaze znatno temeljitiju provjeru te ih je potencijalno teže eksploatirati.

Naš sustav ocjenjivanja je robustan, ali nije savršen. U načinu „otkrivanje” provjeravamo identificira li agent iste ranjivosti koje su utvrdili ljudski revizori. Ako agent pronađe dodatne probleme, trenutačno nemamo pouzdan način da utvrdimo predstavljaju li oni stvarne ranjivosti koje su ljudi propustili ili lažno pozitivne rezultate.

Postoje i strukturna ograničenja u načinu „eksploatacija”. Transakcije se u okruženju za ocjenjivanje ponavljaju sekvencijalno, pa su ponašanja koja ovise o preciznim vremenskim mehanizmima izvan opsega ovog testa. Stanje lanca temelji se na čistoj lokalnoj instanci Anvil, a ne na forku glavne mreže, a trenutačno podržavamo samo jednolančana okruženja. U nekim slučajevima to zahtijeva korištenje testnih zamjenskih ugovora umjesto implementacija s glavne mreže.

Zašto je to važno

Pametni ugovori osiguravaju milijarde dolara imovine, a AI agenti vjerojatno će imati transformativan učinak i na napadače i na sigurnosne stručnjake. Mjerenje sposobnosti modela u ovom području pomaže u praćenju novih kibernetičkih rizika te naglašava važnost obrambene primjene AI sustava za reviziju i jačanje već implementiranih ugovora.

EVMbench je namijenjen kao alat za mjerenje i kao poziv na djelovanje. Kako agenti napreduju, sve je važnije da programeri i sigurnosni istraživači u svoje radne procese uključe reviziju uz podršku AI sustava.

Tijekom proteklih mjeseci zabilježili smo značajan napredak u performansama modela na zadacima iz područja kibernetičke sigurnosti, što donosi koristi i programerima i sigurnosnim stručnjacima. Paralelno s time pripremali smo ojačane kibernetičke zaštitne mjere kako bismo podržali obrambenu primjenu i otpornost šireg ekosustava.

Budući da je kibernetička sigurnost inherentno područje dvostruke namjene, primjenjujemo pristup utemeljen na dokazima i postupnom unaprjeđivanju koji ubrzava sposobnost obrambenih timova da pronađu i uklone ranjivosti, a istodobno otežava zlouporabu. Naše mjere ublažavanja rizika uključuju sigurnosnu obuku modela, automatizirani nadzor, pouzdani pristup naprednim mogućnostima te provedbene mehanizme koji obuhvaćaju i obavještajne podatke o prijetnjama.

Ulažemo u zaštitne mehanizme na razini ekosustava, uključujući proširenje privatne beta-verzije Aardvarka, našeg agenta za sigurnosna istraživanja te suradnju s timovima koji održavaju open-source projekte kako bismo omogućili besplatno skeniranje koda za široko korištene projekte.

Nadovezujući se na naš Program potpora za kibernetičku sigurnost pokrenut 2023., dodatno osiguravamo 10 milijuna USD u API kreditima kako bismo ubrzali jačanje kibernetičke obrane uz pomoć naših najnaprednijih modela, osobito u području open-source softvera i sustava kritične infrastrukture. Organizacije koje u dobroj vjeri provode sigurnosna istraživanja mogu se prijaviti za API kredite i podršku kroz naš Program potpora za kibernetičku sigurnost.

Objavljujemo zadatke, alate i evaluacijski okvir EVMbencha kako bismo podržali daljnja istraživanja usmjerena na mjerenje i upravljanje novim kibernetičkim sposobnostima AI sustava.

Nastavite čitati

Prikaži sve

GPT-Red: samopoboljšanje za robusnost

Sigurnost15. srp 2026.

Razdvajanje signala od šuma u evaluacijama kodiranja

Istraživanje8. srp 2026.

Predstavljamo GeneBench-Pro

Istraživanje30. lip 2026.