18. februar 2026.

Predstavljanje EVMbencha

Povećanje sigurnosti pametnih ugovora procjenom sposobnosti UI agenata da otkriju, zakrpe i iskoriste ranjivosti u blockchain okruženjima.

Pročitajte novine

Učitavanje…

Pametni ugovori rutinski osiguravaju više od 100 milijardi USD u open-source kripto imovini. Kako AI agenti postaju sve bolji u čitanju, pisanju i izvršavanju koda, postaje sve važnije mjeriti njihove sposobnosti u ekonomski značajnim okruženjima i poticati upotrebu AI sistema u svrhe revizije i jačanja postojećih ugovora.

Zajedno s Paradigm⁠(otvara se u novom prozoru), uvodimo EVMbench, referentni test koji procjenjuje sposobnost UI agenata da otkriju, zakrpe i iskoriste ranjivosti pametnih ugovora visokog stepena ozbiljnosti. EVMbench se oslanja na 117 pažljivo odabranih ranjivosti iz 40 revizija, pri čemu je većina preuzeta iz otvorenih takmičenja za reviziju koda. EVMbench dodatno uključuje nekoliko scenarija ranjivosti preuzetih iz procesa sigurnosne revizije za Tempo⁠(otvara se u novom prozoru) blockchain, namjenski L1 dizajniran za omogućavanje plaćanja visokog protoka i niskih troškova putem stabilnih kovanica. Ovi scenariji proširuju standard na kod pametnih ugovora usmjerenih na plaćanja, gdje očekujemo rast agentičkih plaćanja stabilnim coinima, i pomažu da se utemelji u domeni rastuće praktične važnosti.

Da bismo kreirali naša okruženja zadataka, prilagodili smo postojeće testove eksploatacije dokaza koncepta i skripte za implementaciju, kada su postojali, a u suprotnom smo ih ručno napisali. Za način rada zakrpa, osigurali smo da su ranjivosti iskoristive i da se mogu ublažiti bez uvođenja promjena koje bi prekinule kompilaciju, što bi ugrozilo našu konfiguraciju. Za način rada eksploatacije, napisali smo prilagođene ocjenjivače i proveli red-teaming nad okruženjima kako bismo pronašli i zakrpili metode pomoću kojih bi agent mogao prevariti ocjenjivača. Osim kontrole kvaliteta zadataka putem stručnosti u domeni koju pruža Paradigm, koristili smo automatizirane agente za reviziju zadataka kako bismo povećali pouzdanost naših okruženja.

EVMbench procjenjuje tri načina rada sposobnosti:

Detect: Agenti provjeravaju repozitorij pametnih ugovora i ocjenjuju se prema prepoznavanju stvarnih ranjivosti i povezanim nagradama za reviziju.
Patch: Agenti mijenjaju ranjive ugovore i moraju sačuvati namjeravanu funkcionalnost dok eliminiraju mogućnost eksploatacije, što se provjerava putem automatiziranih testova i provjera eksploatacije.
Eksploatacija: Agenti izvode napade od početka do kraja za pražnjenje sredstava protiv implementiranih ugovora u sandbox okruženju blockchaina, pri čemu se ocjenjivanje vrši programatski putem ponovnog izvođenja transakcija i verifikacije na lancu.

Kako bismo podržali objektivnu i ponovljivu evaluaciju, razvili smo alat zasnovan na Rustu koji implementira ugovore, deterministički ponavlja transakcije agenta i ograničava nesigurne RPC metode. Zadaci eksploatacije se izvode u izoliranom lokalnom okruženju Anvil, a ne na aktivnim mrežama, a ranjivosti su povijesne i javno dokumentirane.

Procjenjujemo granične agente u sve tri vrste. U načinu rada 'eksploatacije', GPT‑5.3‑Codex pokretanje putem Codex CLI postiže rezultat od 71,0%. Ovo predstavlja značajan napredak u odnosu na prethodne modele, kao što je GPT‑5, koji postiže 33,3% i objavljen je prije nešto više od šest mjeseci. Stope uspješnosti otkrivanja, prisjećanja i popravljanja i dalje su ispod pune pokrivenosti, jer je velik dio ranjivosti agentima i dalje teško pronaći i popraviti.

EVMbench također otkriva zanimljive razlike u ponašanju modela kroz različite zadatke. Agenti najbolje rade u okruženju eksploatacije, gdje je cilj jasan: nastaviti s iteracijama dok se sredstva ne iscrpe. Nasuprot tome, performanse su slabije na zadacima detekcije i zakrpa. U ‘detect’, agenti ponekad prestanu nakon što otkriju jedan problem umjesto da temeljito pregledaju cijelu bazu koda. U ‘patch’, održavanje pune funkcionalnosti dok se uklanjaju suptilne ranjivosti ostaje izazovno.

Ograničenja

EVMbench ne odražava potpunu složenost sigurnosti pametnih ugovora u stvarnom svijetu. Uključene ranjivosti su preuzete iz takmičenja u reviziji Code4rena. Iako su ovi scenariji realistični i visokog stepena ozbiljnosti, mnogi kripto ugovori koji su široko implementirani i u širokoj upotrebi podliježu znatno detaljnijem nadzoru i može ih biti teže iskoristiti.

Naš sistem ocjenjivanja je robusan, ali nesavršen. U načinu rada ‘detect’, provjeravamo da li agent pronalazi iste ranjivosti koje su otkrili ljudski revizori. Ako agent identificira dodatne probleme, trenutno nemamo pouzdan način da utvrdimo predstavljaju li oni stvarne ranjivosti koje su ljudi propustili ili lažno pozitivne.

Postoje i strukturna ograničenja u ‘eksploatacijskoj’ postavci. Transakcije se redoslijedno ponavljaju u kontejneru za ocjenjivanje, stoga ponašanja koja zavise od tačnih vremenskih mehanizama nisu obuhvaćena. Stanje lanca je čista lokalna instanca Anvil, a ne fork glavne mreže, i trenutno podržavamo samo okruženja s jednim lancem. U nekim slučajevima ovo zahtijeva lažne ugovore umjesto implementacija na glavnoj mreži.

Zašto je ovo važno

Pametni ugovori osiguravaju milijarde dolara u imovini, a UI agenti će vjerovatno biti transformativni za napadače i branioce. Mjerenje sposobnosti modela u ovoj oblasti pomaže u praćenju novih kibernetičkih rizika i naglašava važnost korištenja AI sistema u odbrambene svrhe za reviziju i jačanje postojećih ugovora.

EVMbench je namijenjen kao alat za mjerenje i poziv na akciju. Kako se agenti poboljšavaju, postaje sve važnije da programeri i istraživači sigurnosti uključe reviziju uz pomoć umjetne inteligencije u svoje radne tokove.

U posljednjih nekoliko mjeseci, primijetili smo značajna poboljšanja u performansama modela na zadacima kibernetičke sigurnosti, što koristi i programerima i stručnjacima za sigurnost. Paralelno, pripremamo pojačane mjere kibernetičke zaštite kako bismo podržali odbrambenu upotrebu i širu otpornost ekosistema.

Budući da je kibernetička sigurnost inherentno dvostruke namjene, primjenjujemo pristup zasnovan na dokazima i iterativan, koji ubrzava sposobnost branilaca da pronađu i otklone ranjivosti, dok istovremeno usporava zloupotrebu. Naše mjere ublažavanja uključuju obuku o sigurnosti, automatizirano praćenje, pouzdan pristup za napredne mogućnosti i kanale za provođenje, uključujući obavještajnu analizu prijetnji.

Ulažemo u zaštitne mjere ekosistema, kao što je proširenje privatne bete za Aardvark, našeg agenta za sigurnosna istraživanja, i partnerstvo s održavateljima open-source projekata kako bismo omogućili besplatno skeniranje baze koda za široko korištene projekte.

Nadovezujući se na naš Program grantova za kibernetičku sigurnost pokrenut 2023. godine, takođe se obavezujemo na 10 miliona USD u API kreditima kako bismo ubrzali kibernetičku odbranu uz naše najsposobnije modele, posebno za softver otvorenog koda i sisteme kritične infrastrukture. Organizacije koje se bave istraživanjem sigurnosti u dobroj vjeri mogu se prijaviti za API kredite i podršku putem našeg Programa grantova za kibernetičku sigurnost.

Objavljujemo zadatke, alate i okvir za evaluaciju EVMbench-a kako bismo podržali kontinuirana istraživanja o mjerenju i upravljanju novim UI cyber sposobnostima.

Nastavite čitati

Prikažite sve

GPT-Red: Otključavanje samopoboljšanja za robusnost

Sigurnost15. jul 2026.

Razdvajanje signala od šuma u evaluacijama kodiranja

Istraživanje8. jul 2026.

Predstavljamo GeneBench-Pro

Istraživanje30. jun 2026.