2026. február 18.

Bemutatkozik az EVMbench

Az okosszerződések biztonságosabbá tétele az AI-ügynökök képességeinek értékelésével a sebezhetőségek felismerésére, javítására és kihasználására a blokklánc-környezetekben.

Olvasd el a tanulmányt

Betöltés…

Az okosszerződések rutinszerűen több mint 100 milliárd USD értékű nyílt forráskódú kriptoeszközt védenek. Ahogy az AI-ügynökök egyre jobbak lesznek a kódok olvasásában, írásában és futtatásában, egyre fontosabbá válik, hogy képességeiket gazdaságilag releváns környezetekben mérjük, és ösztönözzük az AI-rendszerek védelmi célú használatát az éles szerződések auditálására és megerősítésére.

A Paradigmmal⁠(új ablakban nyílik meg) együtt bemutatjuk az EVMbench-et, egy mércét, amely az AI-ügynökök képességeit értékeli a magas súlyosságú okosszerződés-sebezhetőségek észlelésére, javítására és kihasználására. Az EVMbench 40 auditból 117, gondosan válogatott sebezhetőséget használ fel, amelyek többsége nyílt kódaudit-versenyekből származik. Az EVMbench emellett több sebezhetőségi forgatókönyvet is tartalmaz, amelyeket a Tempo⁠(új ablakban nyílik meg) blokklánc biztonsági auditálási folyamatából merítettek, amely egy célzottan fejlesztett L1, és stablecoinokon keresztül lehetővé teszi a nagy adatátviteli egységű, alacsony költségű fizetéseket. Ezek a forgatókönyvek kiterjesztik a benchmarkot a fizetésorientált okosszerződés-kódra, ahol arra számítunk, hogy az ügynöki stablecoin-fizetések növekedni fognak, és segítenek egy gyakorlati szempontból egyre fontosabb, feltörekvő terület megalapozásában.

A feladatkörnyezeteink létrehozásához a meglévő proof-of-concept exploit teszteket és telepítési szkripteket adaptáltuk, amennyiben rendelkezésre álltak, egyébként pedig manuálisan készítettük el őket. A javítási módban biztosítottuk, hogy a sebezhetőségek valóban kihasználhatók legyenek, és hogy meg lehessen szüntetni őket anélkül, hogy a fordítást ellehetetlenítő olyan változtatásokat vezetnénk be, amelyek veszélyeztetnék a beállításainkat. A kihasználás módhoz egyedi értékelőket fejlesztettünk, és red teaming teszteléssel átvizsgáltuk a környezeteket, hogy megpróbáljuk azonosítani és kijavítani azokat a módszereket, amelyekkel egy ügynök esetleg kijátszhatná az értékelést. A Paradigm által biztosított releváns szakértelem mellett automatizált feladat-ellenőrző ügynököket is használtunk, hogy növeljük környezeteink megbízhatóságát.

Az EVMbench három képességmódot értékel:

Észlelés: Az ügynökök egy okosszerződés-adattárat auditálnak, és a pontszámukat a valós sebezhetőségek felismerési aránya és a kapcsolódó auditjutalmak határozzák meg.
Javítás: Az ügynökök módosítják a sebezhető szerződéseket, és meg kell őrizniük a tervezett funkcionalitást, miközben megszüntetik a kihasználhatóságot, amit automatizált tesztek és kihasználás-ellenőrzések igazolnak.
Kihasználás: Az ügynökök végponttól végpontig tartó támadásokat hajtanak végre a telepített szerződések ellen egy elkülönített blokklánc-környezetben a források lecsapolására. Az értékelés programozottan, tranzakciók újrajátszásával és on-chain ellenőrzéssel történik.

Az objektív és reprodukálható értékelés érdekében egy Rust-alapú keretrendszert fejlesztettünk, amely telepíti a szerződéseket, determinisztikusan újrajátssza az ügynök tranzakcióit, és korlátozza a nem biztonságos RPC-metódusokat. A kihasználási feladatok egy elszigetelt, helyi Anvil-környezetben futnak, nem pedig éles hálózatokon, és a sebezhetőségek történetiek és nyilvánosan dokumentáltak.

Az élvonalbeli ügynököket mindhárom módban értékeljük. A „kihasználás” módban a GPT‑5.3‑Codex a Codex CLI-n keresztül futtatva 71,0%-os eredményt ér el. Ez jelentős előrelépés a korábbi modellekhez, például a GPT‑5‑höz, képest, amely 33,3%-os eredményt ért el, és alig több mint hat hónapja jelent meg. A visszahívási és javítási sikerarányok még mindig nem érik el a teljes lefedettséget, mivel a sebezhetőségek egy jelentős részét az ügynökök továbbra is nehezen találják meg és javítják ki.

Az EVMbench érdekes különbségeket is feltár a modellek viselkedésében az egyes feladatok között. Az ügynökök a legjobban a kihasználási környezetben teljesítenek, ahol a cél egyértelmű: addig folytatni az iterációt, amíg a források ki nem merülnek. Ezzel szemben az észlelési és javítási feladatokban gyengébb a teljesítmény. Az„észlelés” módban az ügynökök néha megállnak egyetlen probléma azonosítása után, ahelyett, hogy kimerítően auditálnák a teljes kódbázist. A „javítás” során továbbra is kihívást jelent a teljes funkcionalitás megőrzése a finom sebezhetőségek megszüntetése mellett.

Korlátozások

Az EVMbench nem adja vissza a valós környezetben megvalósuló okosszerződés-biztonság valamennyi kihívását. A felsorolt sebezhetőségek a Code4rena auditálási versenyeiből származtak. Bár ezek reálisak és igen súlyosak, sok széles körben telepített és használt kriptoszerződés lényegesen szigorúbb ellenőrzésen esik át, és ezért nehezebb lehet kihasználni őket.

Az értékelési rendszerünk megbízható, de nem hibátlan. Az „észlelés” módban azt ellenőrizzük, hogy az ügynök megtalálja-e ugyanazokat a sebezhetőségeket, amelyeket az emberi auditorok azonosítottak. Amennyiben az ügynök további problémákat azonosít, jelenleg nincs megbízható módszerünk annak eldöntésére, hogy ezek valódi, emberek által figyelmen kívül hagyott sebezhetőségek-e, vagy hamis pozitív találatok.

A „kizsákmányolási” beállításban strukturális korlátozások is vannak. A tranzakciókat a kiértékelő konténerben sorban játsszuk újra, így a pontos időzítési mechanizmusoktól függő viselkedések nem tartoznak a hatókörbe. A lánc állapota egy tiszta helyi Anvil-példány, nem pedig a mainnet egy elágazása, és jelenleg csak egyláncú környezeteket támogatunk. Bizonyos esetekben ez mock-szerződések használatát teszi szükségessé a mainnetes telepítések helyett.

Miért fontos ez

Az okosszerződések több milliárd USD értékű eszközt védenek, és az AI-ügynökök valószínűleg nagy hatást gyakorolnak majd mind a támadókra, mind a védőkre. A modell képességeinek mérése ezen a területen segít nyomon követni a felmerülő kiberkockázatokat, és rávilágít annak fontosságára, hogy az AI-rendszereket védekező célra használjuk az éles szerződések auditálására és megerősítésére.

Az EVMbench egyszerre szolgál mérőeszközként és cselekvésre ösztönző kezdeményezésként. Az ügynökök fejlődésével egyre fontosabbá válik a fejlesztők és a biztonsági kutatók számára, hogy mesterséges intelligencia által támogatott auditálást építsenek be a munkafolyamataikba.

Az elmúlt hónapokban jelentős javulást tapasztaltunk a modellek teljesítményében a kiberbiztonsági feladatok terén, ami mind a fejlesztők, mind a biztonsági szakemberek számára előnyös. Ezzel párhuzamosan megerősített kiberbiztonsági intézkedéseket készítünk elő a védekező célú felhasználás támogatására és az ökoszisztéma szélesebb körű ellenálló képességének növelésére.

Mivel a kiberbiztonság természeténél fogva kettős felhasználású, bizonyítékokra épülő, iteratív megközelítést alkalmazunk, amely gyorsítja a védelmezők képességét a sebezhetőségek felderítésére és javítására, miközben lassítja a visszaéléseket. A kockázatcsökkentő intézkedéseink közé tartozik a biztonsági képzés, az automatizált felügyelet, a megbízható hozzáférés a fejlett képességekhez, valamint a végrehajtási folyamatok, beleértve a fenyegetésfelderítést.

Az ökoszisztéma védelmét szolgáló intézkedésekbe is befektetünk, például az Aardvark elnevezésű biztonsági kutatóügynökünk privát bétájának bővítésébe, valamint együttműködünk nyílt forráskódú karbantartókkal, hogy ingyenes kódbázis-ellenőrzést biztosítsunk széles körben használt projektek számára.

A 2023-ban indított Kiberbiztonsági Támogatási Programunkra építve 10 millió USD értékű API-jóváírást is biztosítunk, hogy felgyorsítsuk a kibervédelmet a legfejlettebb modelljeinkkel, különösen a nyílt forráskódú szoftverek és a kritikus infrastruktúra-rendszerek esetében. A jóhiszemű biztonsági kutatást végző szervezetek API-kreditekre és támogatásra pályázhatnak a Kiberbiztonsági Támogatási Programunk keretében.

Közzétesszük az EVMbench feladatait, eszközeit és értékelési keretrendszerét, hogy támogassuk a folyamatosan megjelenő AI-kiberképességek mérésére és kezelésére irányuló további kutatásokat.

Olvass tovább

Összes megtekintése

GPT-Red: önfejlesztés a robusztusságért

Biztonság2026. júl. 15.

Jel és zaj szétválasztása kódolási értékelésekben

Kutatások2026. júl. 8.

Bemutatjuk a GeneBench-Pro-t

Kutatások2026. jún. 30.