18. februar 2026

Vi introducerer nu EVMbench

Gør smartkontrakter mere sikre ved at evaluere AI-agenters evne til at opdage, rette og udnytte sårbarheder i blockchain-miljøer.

Læs artiklen

Indlæser ...

Smartkontrakter sikrer rutinemæssigt mere end 100 mia. dollar i open source-kryptoaktiver. Efterhånden som AI-agenter bliver bedre til at læse, skrive og udføre kode, bliver det stadig vigtigere at måle deres evner i økonomisk meningsfulde miljøer og at tilskynde til defensiv brug af AI-systemer til at gennemgå og styrke implementerede kontrakter.

Sammen med Paradigm⁠(åbner i et nyt vindue) introducerer vi EVMbench, som er et benchmark, der evaluerer AI-agenters evne til at opdage, rette og udnytte sårbarheder i smartkontrakter med høj alvorlighedsgrad. EVMbench anvender 117 udvalgte sårbarheder fra 40 revisioner, hvoraf de fleste er hentet fra åbne kodeaudit-konkurrencer. EVMbench indeholder desuden flere sårbarhedsscenarier, der er hentet fra sikkerhedsrevisionsprocessen for Tempo⁠(åbner i et nyt vindue)-blockchain, som er en specialbygget L1 designet til at muliggøre betalinger med højt gennemløb og lave omkostninger via stablecoins. Disse scenarier udvider benchmarken til betalingsorienteret smartkontraktkode, hvor vi forventer, at agentbaserede stablecoin-betalinger vil vokse, og bidrager med at forankre den i et område af fremvoksende praktisk betydning.

For at skabe vores opgavemiljøer tilpassede vi eksisterende proof-of-concept-udnyttelsestests og implementeringsscripts, når de fandtes, og ellers skrev vi dem manuelt. For patch-tilstanden har vi sikret, at sårbarhederne kan udnyttes og afhjælpes uden at indføre ændringer, der bryder kompileringen, hvilket ville kompromittere vores opsætning. Til udnyttelsesmodus skrev vi brugerdefinerede evaluatorer og gennemførte red-teaming af miljøerne i et forsøg på at finde og lappe metoder, som en agent kunne bruge til at snyde evaluatoren. Ud over kvalitetskontrol af opgaver via Paradigms domæneekspertise anvendte vi automatiserede opgavekontrolagenter til at øge pålideligheden af vores miljøer.

EVMbench evaluerer tre kapacitetsmodi:

Detektion: Agenter reviderer et smartkontraktlager og bliver bedømt på deres evne til at genkalde sig grundlæggende sårbarheder og tilhørende revisionsbelønninger.
Programrettelse: Agenter ændrer sårbare kontrakter og skal bevare den tilsigtede funktionalitet, samtidig med at de eliminerer udnyttelsesmuligheder, hvilket verificeres gennem automatiserede tests og udnyttelseskontroller.
Udnyttelse: Agenter udfører end-to-end-angreb, der tømmer midler fra implementerede kontrakter i et sandkassemiljø på en blockchain, hvor vurderingen udføres programmatisk via genafspilning af transaktioner og on-chain-verifikation.

For at understøtte objektiv og reproducerbar evaluering udviklede vi en Rust-baseret ramme, der udruller kontrakter, genafspiller agenttransaktioner deterministisk og begrænser usikre RPC-metoder. Udnyttelsesopgaver udføres i et isoleret lokalt Anvil-miljø i stedet for på livenetværk, og sårbarhederne er historiske og offentligt dokumenterede.

Vi evaluerer banebrydende agenter på tværs af alle tre tilstande. I ‘udnyttelses’-tilstand, opnår GPT‑5.3‑Codex, der kører via Codex CLI, en score på 71,0 %. Dette er en betydelig forbedring i forhold til tidligere modeller, såsom GPT‑5, der scorer 33,3 %. Den blev lanceret for lidt over seks måneder siden. Detekterings-, genkaldelses- og programrettelses-succesraterne ligger fortsat under fuld dækning, da en stor del af sårbarhederne fortsat er vanskelige for agenter at finde og rette.

EVMbench afslører også interessante forskelle i modeladfærd på tværs af opgaver. Agenter klarer sig bedst i udnyttelsesmiljøet, hvor målet er klart: Fortsæt med at iterere, indtil midlerne er opbrugt. I modsætning hertil er ydeevnen svagere på opgaver med at opdage og rette fejl. I ‘detektion’ stopper agenter nogle gange efter at have identificeret et enkelt problem i stedet for at foretage en udtømmende gennemgang af kodebasen. I ‘programrettelse’ er det en vedvarende udfordring at opretholde fuld funktionalitet, mens man fjerner subtile sårbarheder.

Begrænsninger

EVMbench repræsenterer ikke den fulde kompleksitet af sikkerheden for smartkontrakter i den virkelige verden. De inkluderede sårbarheder blev udvalgt fra Code4rena-auditkonkurrencer. Selvom disse er realistiske og af høj alvorlighedsgrad, gennemgår mange stærkt implementerede og udbredte kryptokontrakter betydeligt mere granskning og kan være sværere at udnytte.

Vores bedømmelsessystem er robust, men ufuldkomment. I ‘detektion’-tilstand kontrollerer vi, om agenten finder de samme sårbarheder, som menneskelige revisorer har identificeret. Hvis agenten identificerer yderligere problemer, har vi i øjeblikket ikke en pålidelig måde at afgøre, om de repræsenterer sande sårbarheder, som mennesker overså, eller falske positive.

Der er også strukturelle begrænsninger i ‘udnyttelses’-indstillingen. Transaktioner afspilles sekventielt i klassificeringsbeholderen, så adfærd, der afhænger af præcis timingmekanik, er uden for anvendelsesområdet. Kædetilstanden er en ren lokal Anvil-instans snarere end en del af mainnet, og vi understøtter i øjeblikket kun enkeltkæde-miljøer. I nogle tilfælde kræver dette mock-kontrakter i stedet for mainnet-udrulninger.

Derfor er dette vigtigt

Smartkontrakter sikrer aktiver for milliarder af dollars, og AI-agenter vil sandsynligvis være transformative for både angribere og forsvarere. Måling af modellens kapabilitet i dette domæne hjælper med at spore nye cyberrisici og fremhæver vigtigheden af at bruge AI-systemer defensivt til at auditere og styrke implementerede kontrakter.

EVMbench er beregnet både som et måleværktøj og som en opfordring til handling. Efterhånden som agenter forbedres, bliver det stadig vigtigere for udviklere og sikkerhedsforskere at integrere AI-assisteret revision i deres arbejdsgange.

I de seneste måneder har vi set betydelige forbedringer i modelpræstationer på cybersikkerhedsopgaver, hvilket gavner både udviklere og sikkerhedsprofessionelle. Sideløbende har vi taget stærkere cybersikkerhedsforanstaltninger for at støtte defensiv brug og øge robustheden i det bredere økosystem.

Eftersom cybersikkerhed i sagens natur har dobbelt anvendelse, benytter vi en evidensbaseret, iterativ tilgang, der fremskynder forsvarernes evne til at finde og rette sårbarheder, samtidig med at vi bremser misbrug. Vores afbødende foranstaltninger inkluderer sikkerhedstræning, automatiseret overvågning, betroet adgang til avancerede funktioner og håndhævelsesprocesser, herunder trusselsintelligens.

Vi investerer i økosystembeskyttelse, såsom at udvide den private betaversion af Aardvark, vores sikkerhedsforskningsagent, og samarbejder med open source-vedligeholdere for at tilbyde gratis scanning af kodebaser til udbredte projekter.

Med udgangspunkt i vores Cybersecurity Grant Program på 1 million dollars, der blev lanceret i 2023, afsætter vi også 10 millioner dollars i API-kreditter til at accelerere cyberforsvar med vores mest kapable modeller, især til open source-software og kritiske infrastruktursystemer. Organisationer, der udfører sikkerhedsforskning i god tro, kan ansøge om API-kreditter og støtte gennem vores Cybersecurity Grant Program.

Vi udgiver EVMbenchs opgaver, værktøjer og evalueringsramme for at støtte fortsat forskning i måling og styring af nye AI-cyberkapaciteter.

Læs videre

Se alle

GPT-Red: Frigør selvforbedring for robusthed

Sikkerhed15. jul. 2026

At skelne signal fra støj i kodeevalueringer

Research8. jul. 2026

Vi introducerer GeneBench-Pro

Research30. jun. 2026