Maak kennis met EVMbench
Smart contracts veiliger maken door het vermogen van AI-agents te testen om kwetsbaarheden in blockchain-omgevingen te detecteren, te patchen en te exploiteren.
In smart contracts zit dagelijks voor meer dan $ 100 miljard aan open-source crypto-assets vergrendeld. Naarmate AI-agents beter worden in het lezen, schrijven en uitvoeren van code, wordt het steeds belangrijker om hun capaciteiten te meten in economisch relevante omgevingen. Daarnaast is het cruciaal om het defensieve gebruik van AI-systemen te stimuleren, zodat we actieve contracten kunnen auditen en versterken.
Samen met Paradigm(opent in een nieuw venster) introduceren we EVMbench: een benchmark die de vaardigheid van AI-agents evalueert in het detecteren, patchen en exploiteren van kritieke kwetsbaarheden in smart contracts. EVMbench is gebaseerd op 117 geselecteerde kwetsbaarheden uit 40 audits. De meeste hiervan zijn afkomstig uit open competities voor code-audits. Daarnaast bevat EVMbench verschillende kwetsbaarheidsscenario's die afkomstig zijn uit het security-auditproces van de Tempo(opent in een nieuw venster)-blockchain, een speciaal ontworpen Layer-1 (L1) die is ontworpen om betalingen met hoge doorvoer en lage kosten via stablecoins mogelijk te maken. Deze scenario's breiden de benchmark uit naar betalingsgerichte smart contract-code. We verwachten dat autonome stablecoin-betalingen door AI-agents zullen toenemen, en dit geeft de benchmark een sterke basis in een domein dat in de praktijk steeds belangrijker wordt.
Voor het creëren van onze testomgevingen hebben we bestaande proof-of-concept exploittests en deploymentscripts aangepast, waar beschikbaar. Waar deze ontbraken, hebben we ze handmatig geschreven. Voor de 'patch'-modus hebben we ervoor gezorgd dat de kwetsbaarheden daadwerkelijk te exploiteren zijn én kunnen worden verholpen zonder wijzigingen door te voeren die de compilatie verstoren, aangezien dit onze testopzet in gevaar zou brengen. Voor de 'exploit'-modus hebben we op maat gemaakte beoordelingssystemen (graders) geschreven en de omgevingen aan 'red teaming' onderworpen. Dit deden we om manieren te ontdekken en te patchen waarop een agent het beoordelingssysteem zou kunnen misleiden. Naast de kwaliteitscontrole van de taken door de domeinexperts van Paradigm, hebben we geautomatiseerde auditing agents ingezet om de betrouwbaarheid en robuustheid van onze omgevingen verder te vergroten.
EVMbench evalueert drie soorten vaardigheden:
- Detecteren: Agents auditen de repository van een smart contract. Ze worden beoordeeld op het correct identificeren van geverifieerde kwetsbaarheden en de daaraan gekoppelde auditbeloningen.
- Patchen: Agents passen kwetsbare contracten aan. Ze moeten de beoogde functionaliteit behouden en tegelijkertijd voorkomen dat het contract nog te exploiteren is. Dit wordt geverifieerd via geautomatiseerde tests en exploit-controles.
- Exploiteren: Agents voeren end-to-end aanvallen uit in een afgeschermde blockchain-omgeving met als doel assets uit geïmplementeerde contracten weg te sluizen. De beoordeling gebeurt programmatisch via het afspelen van transacties en on-chain verificatie.
Om een objectieve en reproduceerbare evaluatie te garanderen, hebben we een in Rust geschreven harness ontwikkeld. Dit systeem rolt de contracten uit, speelt de transacties van de agent deterministisch af en blokkeert onveilige RPC-methoden. De exploit-taken worden uitgevoerd in een geïsoleerde, lokale Anvil-omgeving in plaats van op live netwerken. Bovendien gaat het om historische, openbaar gedocumenteerde kwetsbaarheden.
We evalueren de meest geavanceerde AI-agents in alle drie de modi. In de ‘exploit’ modus, behaalt GPT‑5.3‑Codex via de Codex CLI een score van 71.0%. Dit is een aanzienlijke verbetering ten opzichte van eerdere modellen, zoals GPT‑5, dat een score van 33.3% behaalt en slechts iets meer dan zes maanden geleden werd uitgebracht. De scores voor detectie en succesvolle patches bereiken nog geen 100%, aangezien een groot deel van de kwetsbaarheden voor agents nog steeds lastig te vinden en te repareren is.
EVMbench legt ook interessante verschillen in modelgedrag bloot tussen de verschillende taken. Agents presteren het best in de exploit-omgeving, waar het doel expliciet is: blijf itereren totdat alle fondsen zijn weggesluisd. Daarentegen zijn de prestaties zwakker bij detectie- en patchtaken. Bij 'detect' stoppen agents soms nadat ze één probleem hebben gevonden, in plaats van de volledige codebase uitputtend te auditen. Bij 'patch' blijkt het een uitdaging om subtiele kwetsbaarheden te verwijderen zonder dat dit ten koste gaat van de volledige functionaliteit.
EVMbench weerspiegelt niet de volledige complexiteit van smart contract-beveiliging in de echte wereld. De opgenomen kwetsbaarheden zijn afkomstig uit de auditwedstrijden van Code4rena. Hoewel deze realistisch en zeer ernstig zijn, worden veelgebruikte crypto-contracten met een grote adoptie vaak aanzienlijk strenger gecontroleerd, waardoor ze in de praktijk moeilijker te exploiteren zijn.
Ons beoordelingssysteem is robuust, maar niet perfect. In de 'detect'-modus controleren we of de agent dezelfde kwetsbaarheden vindt als menselijke auditors. Als de agent aanvullende problemen signaleert, hebben we momenteel geen betrouwbare manier om vast te stellen of dit daadwerkelijk nieuwe kwetsbaarheden zijn die mensen over het hoofd hebben gezien, of dat het gaat om vals-positieven.
Er zijn ook structurele beperkingen in de 'exploit'-opzet. Transacties worden opeenvolgend afgespeeld in de beoordelingscontainer. Gedragingen die afhankelijk zijn van heel nauwkeurige timingmechanismen vallen daardoor buiten de scope. De status van de blockchain is een schone, lokale Anvil-instantie en geen fork van het mainnet. Daarnaast ondersteunen we momenteel alleen 'single-chain'-omgevingen. In sommige gevallen vereist dit het gebruik van mock-contracten in plaats van echte implementaties op het mainnet.
Smart contracts beveiligen miljarden dollars aan assets. AI-agents zullen naar verwachting een transformerende impact hebben op zowel aanvallers als verdedigers. Het meten van de capaciteiten van modellen binnen dit domein helpt bij het in kaart brengen van opkomende cyberrisico's. Daarnaast onderstreept het hoe belangrijk het is om AI-systemen defensief in te zetten voor het auditen en versterken van live contracten.
EVMbench is bedoeld als zowel een meetinstrument als een oproep tot actie. Naarmate agents beter worden, is het voor ontwikkelaars en security-onderzoekers steeds belangrijker om door AI ondersteunde audits in hun workflows te integreren.
In de afgelopen maanden hebben we betekenisvolle verbeteringen gezien in de prestaties van het model bij cybersecurity-taken, wat zowel ontwikkelaars als beveiligingsprofessionals ten goede komt. Parallel daaraan zijn we versterkte cybersecurity-maatregelen aan het voorbereiden om defensief gebruik en de bredere veerkracht van het ecosysteem te ondersteunen.
Omdat cybersecurity inherent tweeledig is, hanteren we een op bewijs gebaseerde, iteratieve aanpak die het vermogen van verdedigers versnelt om kwetsbaarheden te vinden en te verhelpen, terwijl we misbruik vertragen. Onze maatregelen omvatten veiligheidstraining, geautomatiseerde monitoring, vertrouwde toegang voor geavanceerde mogelijkheden en handhavingspijplijnen, waaronder 'threat intelligence'.
We investeren in de beveiliging van het ecosysteem, bijvoorbeeld door de besloten bèta van Aardvark (onze security-onderzoeksagent) uit te breiden. Ook werken we samen met beheerders van open-source projecten om gratis codebase-scans aan te bieden voor veelgebruikte projecten.
Voortbouwend op ons Cybersecurity Grant-programma dat in 2023 is gelanceerd, zeggen we ook 10 miljoen dollar toe aan API-credits om de cyberverdediging te versnellen met onze meest capabele modellen, vooral voor open source-software en kritieke infrastructuursystemen. Organisaties die zich te goeder trouw bezighouden met beveiligingsonderzoek kunnen API-credits en ondersteuning aanvragen via ons Cybersecurity Grant-programma.
We maken de taken, tooling en het evaluatieframework van EVMbench openbaar om verder onderzoek naar het meten en beheren van nieuwe AI-cybercapaciteiten te stimuleren.


