Presentem EVMbench
Fer els contractes intel·ligents més segurs avaluant la capacitat dels agents d’IA per detectar, corregir i explotar vulnerabilitats en entorns blockchain.
Els contractes intel·ligents protegeixen habitualment més de 100.000 milions de dòlars en actius criptogràfics de codi obert. A mesura que els agents d’IA milloren en la lectura, l’escriptura i l’execució de codi, esdevé cada cop més important mesurar-ne les capacitats en entorns econòmicament rellevants i fomentar l’ús defensiu dels sistemes d’IA per auditar i reforçar contractes desplegats.
Juntament amb Paradigm(s'obre en una finestra nova), presentem EVMbench, un benchmark que avalua la capacitat dels agents d’IA per detectar, corregir i explotar vulnerabilitats greus en contractes intel·ligents. EVMbench es basa en 117 vulnerabilitats seleccionades de 40 auditories, la majoria procedents de competicions obertes d’auditoria de codi. EVMbench també inclou diversos escenaris de vulnerabilitats extrets del procés d’auditoria de seguretat de la blockchain Tempo(s'obre en una finestra nova), una L1 dissenyada específicament per permetre pagaments d’alt rendiment i baix cost amb stablecoins. Aquests escenaris amplien el benchmark al codi de contractes intel·ligents orientats a pagaments, on esperem que creixin els pagaments agentics amb stablecoins, i ajuden a situar-lo en un àmbit d’importància pràctica emergent.
Per crear els nostres entorns de tasca, vam adaptar proves d’explotació proof-of-concept i scripts de desplegament existents, quan n’hi havia, i en cas contrari els vam escriure manualment. Per al mode de correcció, ens vam assegurar que les vulnerabilitats fossin explotables i que es poguessin mitigar sense introduir canvis que trenquessin la compilació, cosa que comprometria la nostra configuració. Per al mode d’explotació, vam escriure qualificadors personalitzats i vam fer red teaming dels entorns per intentar trobar i corregir mètodes amb què un agent pogués enganyar el qualificador. A més del control de qualitat de les tasques mitjançant l’expertesa de domini aportada per Paradigm, vam fer servir agents automatitzats d’auditoria de tasques per ajudar a augmentar la solidesa dels nostres entorns.
EVMbench avalua tres modes de capacitat:
- Detecció: Els agents auditen un repositori de contractes intel·ligents i es puntuen segons el recordatori de les vulnerabilitats reals i les recompenses d’auditoria associades.
- Correcció: Els agents modifiquen contractes vulnerables i han de preservar la funcionalitat prevista mentre eliminen l’explotabilitat, verificat mitjançant proves automatitzades i comprovacions d’explotació.
- Explotació: Els agents executen atacs complets de buidatge de fons contra contractes desplegats en un entorn blockchain aïllat, amb una avaluació feta programàticament mitjançant la reproducció de transaccions i verificació on-chain.
Per donar suport a una avaluació objectiva i reproduïble, vam desenvolupar un harness basat en Rust que desplega contractes, reprodueix de manera determinista les transaccions dels agents i restringeix mètodes RPC insegurs. Les tasques d’explotació s’executen en un entorn local d’Anvil aïllat en lloc de xarxes en viu, i les vulnerabilitats són històriques i estan documentades públicament.
Avaluem agents d'avantguarda en els tres modes. En el mode «exploit», GPT‑5.3‑Codex executat mitjançant Codex CLI obté una puntuació del 71,0%. Això representa un guany significatiu respecte de models anteriors, com GPT‑5, que obté un 33,3% i es va llançar fa poc més de sis mesos. Les taxes de recordatori en detecció i d’èxit en correcció continuen per sota de la cobertura total, ja que una gran part de les vulnerabilitats continuen sent difícils de trobar i corregir per als agents.
EVMbench també revela diferències interessants en el comportament del model entre tasques. Els agents rendeixen millor en l’escenari d’explotació, on l’objectiu és explícit: continuar iterant fins que els fons s’hagin buidat. En canvi, el rendiment és més feble en les tasques de detecció i correcció. En «detect», els agents de vegades s’aturen després d’identificar un sol problema en lloc d’auditar exhaustivament el codi base. En «patch», mantenir tota la funcionalitat mentre s’eliminen vulnerabilitats subtils continua sent un repte.
EVMbench no representa tota la dificultat de la seguretat dels contractes intel·ligents en el món real. Les vulnerabilitats incloses s’han extret de competicions d’auditoria de Code4rena. Tot i que són realistes i de gran gravetat, molts contractes cripto molt desplegats i àmpliament utilitzats se sotmeten a un escrutini significativament més intens i poden ser més difícils d’explotar.
El nostre sistema d’avaluació és robust però imperfecte. En mode «detect», comprovem si l’agent troba les mateixes vulnerabilitats identificades pels auditors humans. Si l’agent identifica problemes addicionals, actualment no tenim una manera fiable de determinar si representen vulnerabilitats reals que els humans no van detectar o falsos positius.
També hi ha limitacions estructurals en l’escenari «exploit». Les transaccions es reprodueixen seqüencialment al contenidor d’avaluació, de manera que els comportaments que depenen de mecàniques de temporització precises queden fora de l’abast. L’estat de la cadena és una instància local neta d’Anvil en lloc d’una bifurcació de mainnet, i actualment només donem suport a entorns d’una sola cadena. En alguns casos, això requereix contractes simulats en lloc de desplegaments a mainnet.
Els contractes intel·ligents protegeixen milers de milions de dòlars en actius, i és probable que els agents d’IA siguin transformadors tant per als atacants com per als defensors. Mesurar la capacitat del model en aquest àmbit ajuda a seguir els riscos cibernètics emergents i destaca la importància d’utilitzar els sistemes d’IA de manera defensiva per auditar i reforçar contractes desplegats.
EVMbench està pensat tant com a eina de mesura com com a crida a l’acció. A mesura que els agents milloren, és cada cop més important que desenvolupadors i investigadors de seguretat incorporin l’auditoria assistida per IA als seus fluxos de treball.
En els darrers mesos, hem vist millores significatives en el rendiment dels models en tasques de ciberseguretat, que beneficien tant desenvolupadors com professionals de la seguretat. En paral·lel, hem estat preparant salvaguardes cibernètiques reforçades per donar suport a l’ús defensiu i a una resiliència més gran de l’ecosistema.
Com que la ciberseguretat és inherentment de doble ús, adoptem un enfocament iteratiu basat en evidències que accelera la capacitat dels defensors per trobar i corregir vulnerabilitats mentre frena els usos indeguts. Les nostres mitigacions inclouen entrenament de seguretat, monitoratge automatitzat, accés de confiança a capacitats avançades i canals d’aplicació que inclouen intel·ligència d’amenaces.
Estem invertint en salvaguardes de l’ecosistema, com ara ampliar la beta privada d’Aardvark, el nostre agent de recerca en seguretat, i col·laborar amb mantenidors de codi obert per oferir escaneig gratuït de bases de codi per a projectes àmpliament utilitzats.
Sobre la base del nostre Cybersecurity Grant Program llançat el 2023, també comprometem 10 milions de dòlars en crèdits d’API per accelerar la ciberdefensa amb els nostres models més capaços, especialment per al programari de codi obert i els sistemes d’infraestructura crítica. Les organitzacions que facin recerca de seguretat de bona fe poden sol·licitar crèdits d’API i suport a través del nostre Cybersecurity Grant Program.
Publiquem les tasques, les eines i el marc d’avaluació d’EVMbench per donar suport a la recerca continuada sobre la mesura i la gestió de les capacitats cibernètiques emergents de la IA.


