18 februarie 2026

Îți prezentăm EVMbench

Creșterea siguranței contractelor inteligente prin evaluarea capacității agenților AI de a detecta, corecta și exploata vulnerabilitățile în mediile blockchain.

Citește lucrarea

Se încarcă…

Contractele inteligente asigură în mod obișnuit peste 100 de miliarde de dolari în active cripto open-source. Pe măsură ce agenții AI devin mai buni la citire, scriere și executare a codului, devine din ce în ce mai important să le evaluăm capabilitățile în medii cu relevanță economică și să încurajăm utilizarea sistemelor AI în mod defensiv pentru a audita și întări contractele implementate.

Împreună cu Paradigm⁠(se deschide într-o fereastră nouă), lansăm EVMbench, un test de performanță care evaluează capacitatea agenților IA de a detecta, remedia și exploata vulnerabilitățile de severitate ridicată ale contractelor inteligente. EVMbench se bazează pe 117 vulnerabilități selectate din 40 de audituri, majoritatea provenind din competiții de audit cu cod deschis. EVMbench include și mai multe scenarii de vulnerabilitate extrase din procesul de audit de securitate pentru blockchainul Tempo⁠(se deschide într-o fereastră nouă), un L1 creat special pentru a permite plăți cu randament ridicat și costuri reduse prin monede stabile. Aceste scenarii extind testul de performanță în codul de contracte inteligente orientate spre plăți, unde ne așteptăm ca plățile agentice cu stablecoin să crească și să ajute la ancorarea sa într-un domeniu de importanță practică emergentă.

Pentru a crea mediile noastre de lucru, am adaptat teste de exploatare existente, în faza de proiect demonstrativ, și scripturi de implementare, atunci când existau, iar în caz contrar le-am scris manual. Pentru modul patch, ne-am asigurat că vulnerabilitățile sunt exploatabile și că pot fi atenuate fără a introduce modificări care ar întrerupe compilarea, ceea ce ar compromite configurația noastră. Pentru modul de exploatare, am creat evaluatori personalizați și am testat mediile cu echipe de tip red team, încercând să identificăm și să corectăm metodele prin care un agent ar putea înșela evaluatorul. Pe lângă controlul calității sarcinilor prin expertiza în domeniu oferită de Paradigm, am folosit agenți de auditare automată a sarcinilor pentru a contribui la creșterea fiabilității mediilor noastre.

EVMbench evaluează trei moduri de capabilități:

Detectare: agenții verifică un depozit de contracte inteligente și sunt evaluați pe baza identificării vulnerabilităților de bază și a recompenselor de audit asociate.
Patch: agenții modifică contractele vulnerabile și trebuie să păstreze funcționalitatea intenționată, eliminând exploatabilitatea, verificată prin teste automate și verificări ale exploatării.
Exploatare: agenții execută atacuri de golire a fondurilor de la un capăt la altul împotriva contractelor implementate într-un mediu blockchain izolat, de tip sandbox, iar evaluarea se face programatic prin reluarea tranzacțiilor și verificare on-chain.

Pentru a sprijini o evaluare obiectivă și reproductibilă, am dezvoltat un sistem bazat pe Rust, care implementează contracte, redă tranzacțiile agentului în mod determinist și restricționează metodele RPC nesigure. Sarcinile de exploatare se desfășoară într-un mediu Anvil local izolat, nu pe rețele active, iar vulnerabilitățile sunt istorice și documentate public.

Evaluăm agenții de vârf în toate cele trei moduri. În modul „exploit”, GPT‑5.3‑Codex, rulând prin Codex CLI, obține un scor de 71,0%. Acesta reprezintă un câștig semnificativ față de modelele anterioare, cum ar fi GPT‑5, care a obținut un scor de 33,3% și a fost lansat acum puțin peste șase luni. Ratele de succes ale detectării, reamintirii și remedierii rămân sub nivelul de acoperire completă, deoarece o mare parte dintre vulnerabilități sunt greu de găsit și de remediat de către agenți.

EVMbench dezvăluie și diferențe interesante în comportamentul modelului pe diverse sarcini. Agenții performează cel mai bine în scenariul de exploatare, unde obiectivul este clar: continuă să itereze până când fondurile sunt epuizate. În contrast, performanța este mai slabă la sarcinile de detectare și remediere. În ‘detect’, agenții uneori se opresc după ce identifică o singură problemă, în loc să auditeze complet baza de cod. În „patch”, menținerea funcționalității depline în timp ce se elimină vulnerabilități subtile rămâne o provocare.

Limitări

EVMbench nu reflectă pe deplin dificultatea securității contractelor inteligente din lumea reală. Vulnerabilitățile incluse au fost preluate din competițiile de audit Code4rena. Deși acestea sunt realiste și cu severitate ridicată, multe contracte cripto implementate și utilizate pe scară largă sunt supuse unei analize mult mai riguroase și pot fi mai greu de exploatat.

Sistemul nostru de notare este robust, dar imperfect. În modul „detect”, verificăm dacă agentul găsește aceleași vulnerabilități identificate de auditorii umani. Dacă agentul identifică probleme suplimentare, momentan nu avem o modalitate sigură de a stabili dacă acestea sunt vulnerabilități reale pe care oamenii le-au ratat sau alarme false.

Există, de asemenea, limitări structurale în setarea „exploit”. Tranzacțiile sunt redate secvențial în containerul de evaluare, așadar comportamentele care depind de mecanisme de temporizare precise nu sunt incluse. Starea chainului este o instanță Anvil locală curată, mai degrabă decât o bifurcație a rețelei principale, iar în prezent acceptăm doar medii cu un singur chain. În unele cazuri, este nevoie de contracte simulate în loc de implementări pe mainnet.

De ce contează acest lucru

Contractele inteligente securizează active de miliarde de dolari, iar agenții AI sunt probabil să fie transformaționali atât pentru atacatori, cât și pentru apărători. Măsurarea capacității modelului în acest domeniu ajută la urmărirea riscurilor cibernetice emergente și subliniază importanța utilizării sistemelor AI în mod defensiv pentru a audita și a întări contractele implementate.

EVMbench este destinat atât ca instrument de măsurare, cât și ca un apel la acțiune. Pe măsură ce agenții se îmbunătățesc, devine din ce în ce mai important ca dezvoltatorii și cercetătorii în securitate să integreze auditarea asistată de AI în fluxurile lor de lucru.

În ultimele luni, am observat îmbunătățiri semnificative ale performanței modelului în sarcinile de securitate cibernetică, ceea ce a adus beneficii atât dezvoltatorilor, cât și profesioniștilor din domeniul securității. În paralel, am pregătit măsuri de protecție cibernetică întărite pentru a sprijini utilizarea defensivă și reziliența mai largă a ecosistemului.

Deoarece securitatea cibernetică are în mod inerent o dublă utilizare, adoptăm o abordare iterativă, bazată pe dovezi, care accelerează capacitatea apărătorilor de a identifica și remedia vulnerabilitățile, reducând simultan utilizarea abuzivă. Măsurile noastre de atenuare includ instruire de siguranță, monitorizare automată, acces de încredere pentru capacități avansate și canale de aplicare, inclusiv informații despre amenințări.

Investim în măsuri de protecție a ecosistemului, cum ar fi extinderea versiunii beta private a Aardvark, agentul nostru de cercetare în domeniul securității, și parteneriatele cu administratori open-source, pentru a oferi scanare gratuită a bazei de cod pentru proiecte utilizate pe scară largă.

Pe baza Programului nostru de granturi pentru securitate cibernetică lansat în 2023, ne angajăm să alocăm 10 milioane de dolari în credite API pentru a accelera apărarea cibernetică cu ajutorul celor mai performante modele ale noastre, mai ales pentru software-ul open source și sistemele de infrastructură critice. Organizațiile care desfășoară cercetări de securitate cu bună-credință pot solicita credite API și sprijin prin Programul nostru de granturi pentru securitate cibernetică.

Publicăm sarcinile, instrumentele și cadrul de evaluare ale EVMbench pentru a sprijini cercetarea continuă privind măsurarea și gestionarea capacităților emergente ale AI în domeniul securității cibernetice.

Continuă să citești

Vezi toate

GPT-Red: deblocarea autoîmbunătățirii robusteții

Siguranță15 iul. 2026

Separarea semnalului de zgomot în evaluările de programare

Cercetare8 iul. 2026

Îți prezentăm GeneBench-Pro

Cercetare30 iun. 2026