Vi presenterar EVMbench
Vi gör smarta kontrakt säkrare genom att utvärdera AI-agenters förmåga att identifiera, åtgärda och utnyttja sårbarheter i blockkedjemiljöer.
Smarta kontrakt säkrar regelbundet kryptotillgångar i öppen källkod till ett värde av över 100 miljarder USD. I takt med att AI-agenter blir bättre på att läsa, skriva och exekvera kod blir det allt viktigare att mäta deras kapacitet i ekonomiskt meningsfulla miljöer samt att uppmuntra användningen av AI-system i defensivt syfte för att granska och stärka driftsatta kontrakt.
Tillsammans med Paradigm(öppnas i ett nytt fönster) introducerar vi EVMbench, ett riktmärke som utvärderar AI-agenters förmåga att identifiera, åtgärda och utnyttja allvarliga sårbarheter i smarta kontrakt. EVMbench bygger på 117 utvalda sårbarheter från 40 granskningar, varav de flesta hämtats från öppna kodgranskningstävlingar. EVMbench innehåller dessutom flera sårbarhetsscenarier hämtade från säkerhetsgranskningsprocessen för Tempo(öppnas i ett nytt fönster)-blockkedjan, en specialutvecklad L1-kedja som är utformad för att möjliggöra betalningar med stablecoins med hög kapacitet och låga kostnader. Dessa scenarier utökar riktmärket till att omfatta betalningsinriktad kod för smarta kontrakt, där vi förväntar oss att agentbaserade stablecoin-betalningar kommer att öka, och bidrar till att förankra det i ett område med växande praktisk betydelse.
För att skapa våra uppgiftsmiljöer anpassade vi befintliga proof-of-concept-tester för s.k. exploits och distributionsskript där sådana fanns, och skrev dem annars manuellt. För patch-läget säkerställde vi att sårbarheterna är exploaterbara och kan åtgärdas utan att införa ändringar som bryter kompileringen, vilket annars skulle påverka vår konfiguration. För exploit-läget utvecklade vi anpassade granskningsverktyg och red-team-testade miljöerna i syfte att identifiera och korrigera metoder som en agent skulle kunna använda för att manipulera granskningen. Utöver kvalitetskontroll av uppgifterna genom domänexpertis från Paradigm använde vi automatiserade granskningsagenter för att ytterligare stärka robustheten i våra miljöer.
EVMbench utvärderar tre kapacitetslägen:
- Detect: Agenter granskar ett förvar med smarta kontrakt och bedöms utifrån återkallelse av verifierade sårbarheter och tillhörande belöningar.
- Patch: Agenter modifierar sårbara kontrakt och måste bevara avsedd funktionalitet samtidigt som exploaterbarheten elimineras, vilket verifieras genom automatiserade tester och exploit-kontroller.
- Exploit: Agenter genomför heltäckande attacker för att tömma medel från driftsatta kontrakt i en simulerad blockkedjemiljö, där bedömningen sker programmatiskt genom uppspelning av transaktioner och verifiering på kedjan.
För att möjliggöra en objektiv och reproducerbar utvärdering utvecklade vi ett Rust-baserat ramverk som distribuerar kontrakt, spelar upp agenters transaktioner på ett reproducerbart sätt och begränsar osäkra RPC-metoder. Exploit-uppgifterna körs i en isolerad lokal Anvil-miljö i stället för i livenätverk, och sårbarheterna är historiska och offentligt dokumenterade.
Vi utvärderar banbrytande AI-agenter i samtliga tre lägen. I exploit-läget uppnår GPT‑5.3‑Codex, som körs via Codex CLI, ett resultat på 71,0 %. Detta innebär en betydande förbättring jämfört med tidigare modeller, såsom GPT‑5, som når 33,3 % och lanserades för drygt sex månader sedan. Återkallelsegraden i detect-läget och framgångsfrekvensen i patch-läget ligger fortfarande under full täckning eftersom en stor andel av sårbarheterna fortsatt är svåra för agenter att identifiera och åtgärda.
EVMbench visar också intressanta skillnader i modellernas beteende mellan uppgifterna. Agenter presterar bäst i exploit-läget, där målet är tydligt: att fortsätta iterera tills medlen har tömts. Som kontrast är resultaten svagare i detect- och patch-lägena. I detect-läget avbryter agenter ibland efter att ha identifierat en enskild sårbarhet, i stället för att genomföra en fullständig granskning av kodbasen. I patch-läget är det fortfarande utmanande att bevara full funktionalitet samtidigt som mer subtila sårbarheter avlägsnas.
EVMbench representerar inte hela komplexiteten i verklig säkerhet för smarta kontrakt. De inkluderade sårbarheterna har hämtats från Code4renas granskningstävlingar. Även om dessa är realistiska och av hög allvarlighetsgrad genomgår många kontrakt som är brett distribuerade och flitigt använda inom kryptoekosystemet betydligt mer omfattande granskning och kan därför vara svårare att exploatera.
Vårt bedömningssystem är robust men inte perfekt. I detect-läget kontrollerar vi om agenten identifierar samma sårbarheter som mänskliga granskare har hittat. Om agenten identifierar ytterligare problem har vi för närvarande inget tillförlitligt sätt att avgöra om dessa utgör verkliga sårbarheter som människor har missat eller om de är falska positiva resultat.
Det finns även strukturella begränsningar i exploit-läget. Transaktioner spelas upp sekventiellt i bedömningscontainern, vilket innebär att beteenden som är beroende av exakt tidsmekanik faller utanför omfattningen. Kedjans tillstånd utgörs av en ren lokal Anvil-instans snarare än en kopia av mainnet, och vi stöder för närvarande endast miljöer med en enda kedja. I vissa fall innebär detta att simulerade kontrakt används i stället för kontrakt som är driftsatta på mainnet.
Smarta kontrakt säkrar tillgångar till ett värde av flera miljarder dollar, och AI-agenter kommer sannolikt att vara omvälvande för såväl angripare som försvarare. Att mäta modellernas kapacitet inom detta område bidrar till att följa framväxande cyberrisker och understryker vikten av att använda AI-system i defensivt syfte för att granska och stärka driftsatta kontrakt.
EVMbench är avsett både som ett mätverktyg och som en uppmaning till handling. I takt med att agenter förbättras blir det allt viktigare för utvecklare och säkerhetsforskare att integrera AI-assisterad granskning i sina arbetsflöden.
Under de senaste månaderna har vi sett betydande förbättringar i modellprestanda för cybersäkerhetsuppgifter, vilket gynnar både utvecklare och säkerhetsexperter. Parallellt har vi förberett förstärkta cybersäkerhetsåtgärder för att stödja defensiv användning och stärka motståndskraften i det bredare ekosystemet.
Eftersom cybersäkerhet i sig har dubbla användningsområden, tillämpar vi en evidensbaserad, iterativ strategi som ökar försvararnas förmåga att upptäcka och åtgärda sårbarheter samtidigt som missbruk minskar. Våra åtgärder omfattar säkerhetsutbildning, automatiserad övervakning, säker åtkomst till avancerade funktioner och genomförandeprocesser inklusive hotinformation.
Vi investerar i ekosystemskyddsåtgärder, såsom att utöka den privata betan av vår säkerhetsforskningsagent Aardvark, och samarbetar med underhållare av öppen källkod för att erbjuda kostnadsfri kodbasgranskning för allmänt använda projekt.
Med utgångspunkt i vårt cybersäkerhetsbidragsprogram som lanserades 2023 åtar vi oss också 10 milljoner USD i API-krediter för att påskynda cyberförsvaret med våra mest kapabla modeller, särskilt för programvara med öppen källkod och system för kritisk infrastruktur. Organisationer som bedriver säkerhetsforskning i god tro kan ansöka om API-krediter och support genom vårt Cybersecurity Grant Program.
Vi publicerar EVMbenchs uppgifter, verktyg och utvärderingsramverk för att stödja fortsatt forskning kring mätning och hantering av framväxande AI-relaterade cyberförmågor.


