Hopp til hovedinnhold
OpenAI

18. februar 2026

ResearchPublikasjon

Vi introduserer EVMbench

Gjør smartkontrakter sikrere ved å evaluere AI-agenters evne til å oppdage, utbedre og utnytte sårbarheter i blokkjedemiljøer.

Laster inn …

Smartkontrakter sikrer rutinemessig over 100 milliarder dollar i kryptoaktiva med åpen kildekode. Etter hvert som AI-agenter blir bedre til å lese, skrive og kjøre kode, blir det stadig viktigere å måle kapabilitetene deres i økonomisk meningsfulle miljøer, samt å oppmuntre til defensiv bruk av AI-systemer for å revidere og styrke implementerte kontrakter.

Sammen med Paradigm(åpnes i et nytt vindu) introduserer vi EVMbench, en referansemåling som evaluerer AI-agenters evne til å oppdage, reparere og utnytte svært alvorlige sårbarheter i smartkontrakter. EVMbench bygger på 117 kuraterte sårbarheter fra 40 revisjoner, hvor de fleste er hentet fra åpne konkurranser om koderevisjon.  EVMbench inkluderer også flere sårbarhetsscenarier fra sikkerhetsrevisjonsprosessen for Tempo(åpnes i et nytt vindu) -blokkjeden, en spesialbygd L1 designet for å muliggjøre høy gjennomstrømming og lavkostnadsbetalinger via stablecoins. Disse scenariene utvider referansemålingen til betalingsorientert smartkontraktkode, der vi forventer at agentiske stablecoin-betalinger vil vokse, og bidrar til å forankre den i et domene som blir stadig viktigere i praksis.

For å lage oppgavemiljøene våre tilpasset vi eksisterende konseptbevis-utnyttelsestester og distribusjonsskript, når de eksisterte, og ellers skrev vi dem manuelt. For rett opp-modus sørget vi for at sårbarhetene kan utnyttes og avbøtes uten å innføre endringer som bryter kompileringen, noe som ville kompromittere oppsettet vårt. For utnyttelsesmodusen skrev vi egendefinerte evaluatorer og red-teamet miljøene i et forsøk på å finne og fikse metoder som en agent kan bruke til å jukse evaluatoren. I tillegg til kvalitetskontroll av oppgaver gjennom domeneekspertise levert av Paradigm, brukte vi automatiserte agenter for oppgaveauditering for å øke robustheten i miljøene våre.

EVMbench evaluerer tre kapabilitetsmoduser:

  • Oppdag: Agenter reviderer et lager av smartkontrakter og vurderes basert på gjenkjenning av faktiske sårbarheter og tilhørende revisjonsbelønninger.
  • Rett opp: Agenter modifiserer sårbare kontrakter og må bevare den tiltenkte funksjonaliteten samtidig som de eliminerer sårbarhet, verifisert gjennom automatiserte tester og utnyttelsessjekker.
  • Utnytt: Agenter utfører ende-til-ende-angrep som tapper fond fra distribuerte kontrakter i et sandkassebasert blokkjede-miljø, med vurdering utført programmatisk via transaksjonsavspilling og verifisering i kjeden.

For å støtte en objektiv og reproduserbar evaluering utviklet vi et Rust-basert rammeverk som distribuerer kontrakter, spiller av agenttransaksjoner på en deterministisk måte, og begrenser usikre RPC-metoder. Utnyttelsesoppgaver kjøres i et isolert lokalt Anvil-miljø i stedet for på aktive nettverk, og sårbarhetene er historiske og offentlig dokumenterte.

Vi evaluerer banebrytende agenter på tvers av alle tre moduser. I «utnytt»-modus, vil GPT‑5.3‑Codex kjøring via Codex CLI oppnår en score på 71,0%. Dette er en betydelig forbedring i forhold til tidligere modeller, som GPT‑5, som scorer 33,3 % og ble lansert for litt over seks måneder siden. Det er fortsatt ikke full dekning for gjenkjennings- og reparasjonssuksessraten, ettersom agentene fortsatt har problemer med å finne og fikse en stor andel av sårbarhetene.

EVMbench avdekker også interessante forskjeller i modellens oppførsel på tvers av oppgaver. Agenter presterer best i utnyttelsessituasjoner, der målet er klart: fortsett å iterere til midlene er brukt opp. De presterer derimot dårligere til å finne og fikse. I «oppdag», stopper agenter noen ganger etter å ha identifisert ett enkelt problem i stedet for å gjøre en fullstendig revisjon av kodebasen. I «rett opp» er det fortsatt utfordrende å opprettholde full funksjonalitet samtidig som subtile sårbarheter fjernes.

Begrensninger

EVMbench representerer ikke hele vanskeligheten ved sikkerheten til smartkontrakter i den virkelige verden. De inkluderte sårbarhetene ble hentet fra Code4rena-revisjonskonkurranser. Selv om disse er realistiske og har høy alvorlighetsgrad, blir mange utbredte og ofte brukte kryptokontrakter grundigere gransket og kan være vanskeligere å utnytte.

Graderingssystemet vårt er robust, men ufullkomment. I «oppdag»-modus sjekker vi om agenten finner de samme sårbarhetene som ble identifisert av menneskelige revisorer. Hvis agenten identifiserer flere problemer, har vi for øyeblikket ingen pålitelig måte å avgjøre om de representerer ekte sårbarheter som mennesker har oversett, eller om de er falske positive.

Det finnes også strukturelle begrensninger i «utnytt»-innstillingen. Transaksjoner spilles av sekvensielt i graderingsbeholderen, så oppførsel som avhenger av presise tidsmekanismer, er utenfor rekkevidde. Kjedetilstanden er en ren lokal Anvil-instans i stedet for en forgrening av mainnet, og vi støtter for øyeblikket bare miljøer av enkeltkjede. I noen tilfeller krever dette øvelseskontrakter i stedet for distribusjoner på mainnet.

Hvorfor dette er viktig

Smartkontrakter sikrer aktiva verdt milliarder av dollar, og AI-agenter vil sannsynligvis være transformative for både angripere og forsvarere. Måling av modellens kapasitet på dette området hjelper til med å spore nye cyberrisikoer og understreker viktigheten av å bruke AI-systemer defensivt for å revidere og styrke distribuerte kontrakter.

EVMbench er ment både som et måleverktøy og en oppfordring til handling. Etter hvert som agenter blir bedre, blir det stadig viktigere for utviklere og sikkerhetsforskere å bruke AI-assistert revisjon i arbeidsflytene.

I løpet av de siste månedene har vi sett betydelige forbedringer i modellens ytelse på cybersikkerhetsoppgaver, noe som har vært til fordel for både utviklere og sikkerhetsfagfolk. Parallelt har vi forberedt styrkede cybersikkerhetstiltak for å støtte defensiv bruk og økt motstandskraft i det bredere økosystemet.

Fordi cybersikkerhet i sin natur er tosidig, tar vi en evidensbasert, iterativ tilnærming som akselererer forsvarernes evne til å finne og fikse sårbarheter, samtidig som vi bremser misbruk. Våre tiltak inkluderer sikkerhetsopplæring, automatisert overvåking, pålitelig tilgang for avanserte funksjoner, og håndhevingsprosesser som inkluderer trusselintelligens.

Vi investerer i økosystembeskyttelser, som å utvide den private betaversjonen av Aardvark, vår sikkerhetsforskningsagent, og samarbeider med forvaltere av åpen kildekode for å tilby gratis skanning av kodebaser for mye brukte prosjekter.

Med utgangspunkt i vårt Cybersecurity Grant Program som ble lansert i 2023, forplikter vi oss også til $10M i API-kreditter for å akselerere cybersikkerhet med våre mest avanserte modeller, spesielt for åpen kildekode-programvare og kritiske infrastruktursystemer. Organisasjoner som driver med sikkerhetsforskning i god tro kan søke om API-kreditter og støtte gjennom vårt Cybersecurity Grant Program.

Vi gjør EVMbenchs oppgaver, verktøy og evalueringsrammeverk tilgjengelig for å støtte fortsatt forskning på måling og styring av nye AI-cyberkapasiteter.