Predstavljamo EVMbench
Izboljšanje varnosti pametnih pogodb z ocenjevanjem agentov umetne inteligence glede sposobnosti odkrivanja, odpravljanja in izkoriščanja ranljivosti v okoljih z veriženjem blokov.
Pametne pogodbe rutinsko varujejo odprtokodna kriptosredstva v vrednosti več kot 100 milijard USD. Ko se agenti umetne inteligence izboljšujejo pri branju, pisanju in izvajanju kode, postaja čedalje pomembnejše merjenje njihove zmogljivosti v ekonomsko pomembnih okoljih in spodbujanje zaščitne uporabe sistemov umetne inteligence za revidiranje in okrepitev že uveljavljenih pogodb.
V sodelovanju s podjetjem Paradigm(odpre se v novem oknu) uvajamo EVMbench, primerjalni zmogljivostni test, ki agente umetne inteligence ocenjuje glede zmožnosti odkrivanja, odpravljanja in izkoriščanja resnih ranljivosti pametnih pogodb. EVMbench temelji na 117 kuriranih ranljivostih iz 40 revizij, pri čemer jih večina izvira iz odprtih tekmovanj v revidiranju kode. EVMbench dodatno vključuje več scenarijev ranljivosti, ki izhajajo iz postopka varnostnega revidiranja verige blokov Tempo(odpre se v novem oknu), namensko zasnovane verige L1, razvite za omogočanje plačil s stabilnimi kovanci z visoko prepustnostjo in nizkimi stroški. Ti scenariji razširjajo izvedbo primerjalnega testa na kodo pametnih pogodb, usmerjeno v plačila, kjer pričakujemo rast agentskih plačil s stabilnimi kovanci, in pomagajo, da se ta test uveljavi na področju, ki pridobiva vse večji pomen v praksi.
Pri ustvarjanju naših delovnih okolij smo prilagodili obstoječe preizkuse izkoriščanja za dokazila koncepta in skripte za uvajanje, kadar so obstajali, sicer pa smo jih napisali ročno. Za način popravkov smo zagotovili, da je ranljivosti mogoče izkoristiti in omiliti brez uvedbe sprememb, ki bi prekinile prevajanje, kar bi ogrozilo našo konfiguracijo. Za način izkoriščanja smo razvili ocenjevalnike po meri in izvedli preizkuse odpornosti okolij z namenom, da odkrijemo in zakrpamo metode, s katerimi bi agent lahko preslepil ocenjevalnik. Poleg nadzora kakovosti nalog prek strokovnega znanja, ki ga zagotavlja orodje Paradigm, smo uporabili avtomatizirane agente za preverjanje nalog, da bi izboljšali zanesljivost naših okolij.
EVMbench ocenjuje tri zmogljivostne načine:
- Odkrivanje: Agenti izvajajo revizijo repozitorija pametnih pogodb ter so ocenjeni glede na prepoznavanje ranljivosti iz referenčnih podatkov in pripadajoče nagrade za revizijo.
- Odpravljanje: Agenti spreminjajo ranljive pogodbe in morajo ohraniti predvideno funkcionalnost, hkrati pa odpraviti možnost izkoriščanja. To se preverja z avtomatiziranimi testi in preverjanji izkoriščanja.
- Izkoriščanje: Agenti izvajajo celovite napade za izčrpavanje sredstev na uveljavljene pogodbe v peskovniškem okolju z veriženjem blokov, pri čemer se ocenjevanje izvaja programsko prek ponovitve transakcij in preverjanja na verigi.
Za omogočanje objektivnega in ponovljivega ocenjevanja smo razvili ogrodje, zasnovano na storitvi Rust, ki uveljavlja pogodbe, deterministično ponavlja transakcije agentov in omejuje metode RPC, ki niso varne. Naloge izkoriščanja se izvajajo v izoliranem lokalnem okolju Anvil namesto v aktivnih omrežjih, ranljivosti pa so beležene skozi čas in javno dokumentirane.
Prelomne agente ocenjujemo v vseh treh načinih. V načinu »izkoriščanja« model GPT‑5.3‑Codex, ki deluje prek Codex CLI, doseže rezultat 71,0 %. To pomeni pomembno izboljšanje v primerjavi s prejšnjimi modeli, kot je GPT‑5, ki dosega 33,3 % in je bil izdan pred nekaj več kot šestimi meseci. Stopnji priklica pri zaznavanju in uspešnosti odpravljanja ranljivosti ostajata pod ravnjo popolne pokritosti, saj agenti velik delež ranljivosti še vedno težko odkrijejo in odpravijo.
EVMbench prav tako razkriva zanimive razlike v vedenju modela pri različnih nalogah. Agenti se najbolje obnesejo v okolju izkoriščanja, kjer je cilj jasen: nadaljevati s ponovitvami, dokler sredstva niso izčrpana. Nasprotno pa je uspešnost slabša pri nalogah odkrivanja in odpravljanja. Pri »odkrivanju« se agenti včasih ustavijo, ko prepoznajo eno samo težavo, namesto da bi izčrpno pregledali celotno kodno zbirko. Pri »odpravljanju« ohranjanje polne funkcionalnosti ob odstranjevanju manjših, komaj zaznavnih ranljivosti še naprej ostaja zahtevno.
EVMbench ne predstavlja celotne zahtevnosti varnosti pametnih pogodb v resničnem svetu. Vključene ranljivosti so bile pridobljene iz revizijskih tekmovanj Code4rena. Čeprav so ti primeri realistični in z visoko stopnjo resnosti, številne močno razširjene in široko uporabljene kriptopogodbe prestanejo bistveno strožjo presojo in jih je morda težje izkoristiti.
Naš sistem ocenjevanja je robusten, vendar nepopoln. V načinu »odkrivanje« preverjamo, ali agent zazna enake ranljivosti, ki so jih odkrili človeški revizorji. Če agent prepozna dodatne težave, trenutno nimamo zanesljivega načina za ugotavljanje, ali predstavljajo prave ranljivosti, ki so jih ljudje spregledali, ali gre le za lažno pozitivne rezultate.
V nastavitvi »izkoriščanje« obstajajo tudi strukturne omejitve. Transakcije se v ocenjevalnem vsebniku ponavljajo zaporedno, zato vedenja, ki so odvisna od natančnih časovnih mehanizmov, niso vključena. Stanje verige je čista lokalna instanca v okolju Anvil in ne razvejitev glavnega omrežja, trenutno pa podpiramo le enoverižna okolja. V nekaterih primerih to zahteva uporabo simuliranih pogodb namesto že uveljavljenih pogodb v glavnem omrežju.
Pametne pogodbe varujejo sredstva v vrednosti več milijard USD, agenti umetne inteligence pa bodo verjetno imeli preoblikovalni učinek tako za napadalce kot tudi branilce. Merjenje zmogljivosti modela na tem področju pomaga pri spremljanju nastajajočih kibernetskih tveganj in poudarja pomen zaščitne uporabe sistemov umetne inteligence za revidiranje in okrepitev že uveljavljenih pogodb.
EVMbench je namenjen uporabi kot orodje za merjenje in hkrati služi kot poziv k ukrepanju. Ko se agenti izboljšujejo, postaja za razvijalce in varnostne raziskovalce čedalje pomembneje, da v svoje delovne tokove vključijo revizijo s pomočjo umetne inteligence.
V zadnjih mesecih smo opazili pomembne izboljšave delovanja modelov pri nalogah kibernetske varnosti, kar koristi tako razvijalcem kot strokovnjakom za varnost. Vzporedno smo pripravljali okrepljene kibernetske zaščitne ukrepe za podporo obrambni uporabi in večji odpornosti širšega ekosistema.
Ker je kibernetska varnost po naravi dvojne rabe, uporabljamo na dokazih temelječ, iterativni pristop, ki pospešuje zmožnost branilcev za odkrivanje in odpravljanje ranljivosti ter hkrati upočasnjuje zlorabo. Naši ukrepi vključujejo varnostno usposabljanje, avtomatizirano spremljanje, zaupanja vreden dostop do naprednih zmožnosti ter izvršilne cevovode, vključno z obveščevalnimi podatki o grožnjah.
Vlagamo v varovala ekosistema, kot je razširitev zasebne beta različice našega agenta za varnostne raziskave Aardvark, in sodelujemo z vzdrževalci odprtokodne programske opreme, da zagotovimo brezplačno pregledovanje kodnih zbirk za široko uporabljene projekte.
Na podlagi našega Programa za kibernetsko varnost, uvedenega leta 2023, namenjamo tudi 10 milijonov USD v kreditnih točkah za aplikacijski programski vmesnik (API) za pospeševanje kibernetske obrambe z našimi najzmogljivejšimi modeli, zlasti za odprtokodno programsko opremo in sisteme kritične infrastrukture. Organizacije, ki izvajajo dobronamerne varnostne raziskave, lahko zaprosijo za kreditne točke za API in podporo prek našega Programa za kibernetsko varnost.
Objavljamo naloge, orodja in ocenjevalni okvir primerjalnega zmogljivostnega testa EVMbench, da bi podprli nadaljnje raziskave o merjenju in upravljanju nastajajočih kibernetskih zmogljivosti umetne inteligence.


