18 febbraio 2026

Ti presentiamo EVMbench

Rendere gli smart contract più sicuri valutando la capacità degli agenti IA di rilevare, correggere e sfruttare le vulnerabilità negli ambienti blockchain.

Leggi il documento

Caricamento in corso...

Gli smart contract proteggono regolarmente oltre 100 miliardi di dollari in asset crittografici open-source. Man mano che gli agenti di IA migliorano nella lettura, scrittura ed esecuzione del codice, diventa sempre più importante valutarne le capacità in contesti economicamente rilevanti e promuoverne un impiego difensivo, volto a verificare e rafforzare i contratti già in uso.

Insieme a Paradigm⁠(si apre in una nuova finestra), stiamo introducendo EVMbench, un benchmark che valuta la capacità degli agenti di IA di rilevare, correggere e sfruttare vulnerabilità gravi negli smart contract. EVMbench attinge a 117 vulnerabilità selezionate da 40 audit, di cui la maggior parte proviene da competizioni pubbliche di audit del codice. EVMbench include inoltre diversi scenari di vulnerabilità tratti dal processo di audit di sicurezza per la blockchain Tempo⁠(si apre in una nuova finestra), una L1 progettata appositamente per consentire pagamenti ad alta capacità di elaborazione e a basso costo tramite stablecoin. Questi scenari estendono il benchmark al codice di smart contract orientato ai pagamenti, dove ci aspettiamo una crescita dei pagamenti in stablecoin agentica, e contribuiscono a radicarlo in un ambito di crescente rilevanza pratica.

Per la costruzione degli ambienti di attività, abbiamo adattato i test di exploit proof-of-concept e gli script di deployment preesistenti, quando disponibili; in loro assenza, li abbiamo implementati manualmente. Per la modalità di patch, ci siamo assicurati che le vulnerabilità fossero effettivamente sfruttabili e che potessero essere mitigate senza introdurre modifiche che impedissero la compilazione, compromettendo così il nostro setup. Nella modalità exploit, abbiamo sviluppato valutatori personalizzati e sottoposto gli ambienti a red-teaming nel tentativo di individuare e correggere i metodi con cui un agente potrebbe imbrogliare il valutatore. Oltre al controllo della qualità delle attività tramite l’esperienza settoriale fornita da Paradigm, abbiamo utilizzato agenti automatizzati di verifica delle attività per contribuire ad aumentare l’affidabilità dei nostri ambienti.

EVMbench valuta tre modalità di funzionalità:

Detect: gli agenti eseguono l'audit di un repository di smart contract e vengono valutati in base al richiamo delle vulnerabilità reali e alle ricompense di audit associate.
Patch: gli agenti modificano contratti vulnerabili e devono preservarne la funzionalità prevista, eliminando al contempo le possibilità di sfruttamento, il tutto verificato tramite test automatici e controlli sugli exploit.
Exploit: gli agenti eseguono attacchi completi di drenaggio fondi contro contratti già distribuiti in un ambiente blockchain sandbox, con la valutazione effettuata in modo programmato tramite replay delle transazioni e verifica on-chain.

Per supportare una valutazione obiettiva e riproducibile, abbiamo sviluppato un sistema basato su Rust che distribuisce contratti, riproduce in modo deterministico le transazioni dell'agente e limita i metodi RPC non sicuri. Le attività di exploit vengono eseguite in un ambiente Anvil locale isolato anziché su reti attive, e le vulnerabilità sono storiche e documentate pubblicamente.

Valutiamo gli agenti di frontiera in tutte e tre le modalità. In modalità “exploit“, l'esecuzione di GPT‑5.3‑Codex tramite Codex CLI raggiunge un punteggio del 71.0%. Questo rappresenta un guadagno significativo rispetto ai modelli precedenti, come GPT‑5, che ottiene un punteggio del 33,3% ed è stato rilasciato poco più di sei mesi fa. I tassi di successo nel rilevamento e nell'applicazione delle patch rimangono al di sotto della copertura completa, poiché una grande parte delle vulnerabilità è difficile da individuare e correggere per gli agenti.

EVMbench rivela anche differenze interessanti nel comportamento del modello tra le varie attività. Gli agenti rendono al meglio nello scenario di exploit, dove l'obiettivo è chiaro: continuare a iterare finché i fondi non sono esauriti. Al contrario, le prestazioni sono più deboli nelle attività “detect“ e “patch“. In “detect“, gli agenti a volte si fermano dopo aver identificato un singolo problema anziché eseguire un audit completo della codebase. In “patch“, mantenere la piena funzionalità mentre si rimuovono vulnerabilità sottili rimane una sfida.

Limiti

EVMbench non rappresenta la completa difficoltà di garantire la sicurezza degli smart contract nel mondo reale. Le vulnerabilità incluse sono state tratte dalle competizioni di auditing di Code4rena. Anche se questi sono realistici e di alta gravità, molti contratti crypto ampiamente distribuiti e largamente utilizzati sono sottoposti a un controllo significativamente maggiore e potrebbero essere più difficili da sfruttare.

Il nostro sistema di valutazione è robusto ma imperfetto. In modalità “detect“, verifichiamo se l'agente individua le stesse vulnerabilità identificate dai revisori umani. Se l’agente individua problemi aggiuntivi, attualmente non disponiamo di un metodo affidabile per determinare se rappresentino vulnerabilità reali sfuggite agli esseri umani o falsi positivi.

Ci sono anche limitazioni strutturali nell'impostazione ‘exploit’. Le transazioni vengono riprodotte in sequenza nel contenitore di valutazione, quindi i comportamenti che dipendono da meccanismi di temporizzazione precisi sono esclusi dall'ambito. Lo stato della catena è un'istanza locale pulita di Anvil anziché un fork della rete principale, e al momento supportiamo solo ambienti a catena singola. In alcuni casi è necessario utilizzare contratti simulati invece di distribuzioni su mainnet.

Perché è importante

Gli smart contract assicurano miliardi di dollari in asset, e gli agenti IA probabilmente saranno trasformativi sia per chi li attacca che per chi li difende. Misurare la capacità del modello in questo dominio aiuta a monitorare i rischi informatici emergenti e sottolinea l'importanza di utilizzare i sistemi di IA in modo difensivo per verificare e rafforzare i contratti distribuiti.

EVMbench è concepito sia come strumento di misurazione sia come invito all'azione. Man mano che gli agenti migliorano, diventa sempre più importante per gli sviluppatori e i ricercatori di sicurezza integrare l’audit assistito dall’IA nei propri flussi di lavoro.

Negli ultimi mesi, abbiamo osservato miglioramenti significativi nelle prestazioni del modello nelle attività di sicurezza informatica, a beneficio sia dello sviluppo sia dei professionisti della sicurezza. Parallelamente, abbiamo preparato salvaguardie informatiche rafforzate per supportare l'uso difensivo e la resilienza più ampia dell'ecosistema.

Poiché la sicurezza informatica presenta un uso intrinsecamente duale, adottiamo un approccio iterativo basato su dati concreti, che potenzia la capacità dei difensori di individuare e correggere le vulnerabilità, limitando nel contempo possibili abusi. Le nostre misure di mitigazione comprendono la formazione sulla sicurezza, il monitoraggio automatizzato, accesso affidabile per capacità avanzate e pipeline di applicazione che includono l'intelligence sulle minacce.

Stiamo investendo in misure di protezione dell'ecosistema, come l'espansione della beta privata di Aardvark, il nostro agente di ricerca sulla sicurezza, e la collaborazione con i manutentori open source per fornire la scansione gratuita del codice sorgente per progetti ampiamente utilizzati.

Sulla scia del nostro Programma di sovvenzioni per la sicurezza informatica lanciato nel 2023, ci impegniamo inoltre a destinare 10 milioni di dollari in crediti API per accelerare la difesa informatica con i nostri modelli più avanzati, in particolare a supporto del software open source e dei sistemi di infrastrutture critiche. Le organizzazioni impegnate nella ricerca sulla sicurezza in buona fede possono richiedere crediti API e supporto attraverso il nostro Programma di sovvenzioni per la sicurezza informatica.

Rilasciamo le attività, gli strumenti e il framework di valutazione di EVMbench per supportare la ricerca continua nella misurazione e gestione delle emergenti capacità cibernetiche dell’IA.

Continua a leggere

Visualizza tutto

GPT-Red: sbloccare l’auto-miglioramento della robustezza

Sicurezza15 lug 2026

Separare il segnale dal rumore nelle valutazioni di coding

Ricerca8 lug 2026

Ti presentiamo GeneBench-Pro

Ricerca30 giu 2026