18. veebruar 2026

Tutvustame EVMbench'i

Muudame nutilepingud turvalisemaks, hinnates tehisintellekti agentide võimet tuvastada, parandada ja ära kasutada haavatavusi plokiahela keskkondades.

Lugege uurimistööd

Laadimine…

Nutilepingud tagavad rutiinselt enam kui 100 miljardi dollari väärtuses avatud lähtekoodiga krüptovara turvalisuse. Kuna tehisintellekti agendid muutuvad koodi lugemisel, kirjutamisel ja käivitamisel üha paremaks, on üha olulisem mõõta nende võimekust majanduslikult tähenduslikes keskkondades ning julgustada tehisintellekti süsteemide kaitsvat kasutamist, et auditeerida ja tugevdada juurutatud lepinguid.

Koos Paradigm⁠(avaneb uues aknas)-iga tutvustame EVMbenchi, võrdlustesti, mis hindab tehisintellekti agentide võimet tuvastada, parandada ja ära kasutada kõrge raskusastmega nutilepingute haavatavusi. EVMbench tugineb 117 kureeritud haavatavusele 40 auditist, millest enamik pärinevad avatud koodiauditi võistlustelt. EVMbench sisaldab lisaks mitmeid haavatavuse stsenaariume, mis on saadud Tempo⁠(avaneb uues aknas) plokiahela turbeauditi protsessist; Tempo on spetsiaalselt loodud L1, mis võimaldab stabiilsete müntide kaudu suure läbilase ja madala kuluga makseid. Need stsenaariumid laiendavad võrdlusalust maksetele suunatud nutilepingute koodini, kus eeldame agentlike stabiilrahade maksete kasvu, ning aitavad seda ankurdada valdkonda, mille praktiline tähtsus on kujunemas.

Ülesandekeskkondade loomiseks kohandasime olemasolevaid tõestuskontseptsiooni ärakasutamise teste ja juurutusskripte, kui need olid olemas, muul juhul kirjutasime need käsitsi. Paikamisrežiimis tagasime, et haavatavused on ärakasutatavad ja neid saab leevendada ilma kompileerimist katkestavaid muudatusi tegemata, mis seaks ohtu meie seadistuse. Ekspluateerimisrežiimi jaoks kirjutasime kohandatud hindajad ja testisime keskkondi, püüdes leida ja parandada meetodeid, mille abil agent võiks hindajat petta. Lisaks Paradigmi pakutavale valdkonnaekspertiisil põhinevale ülesannete kvaliteedikontrollile kasutasime automatiseeritud ülesannete auditeerimise agente, et aidata suurendada meie keskkondade terviklikkust.

EVMbench hindab kolme võimekusrežiimi:

Tuvasta: agendid auditeerivad nutilepingu varamut ja neid hinnatakse tõeliste haavatavuste tuvastamise ning nendega seotud audititasude alusel.
Paika: agendid muudavad haavatavaid lepinguid ja peavad säilitama kavandatud funktsionaalsuse, kõrvaldades samal ajal ärakasutatavuse, mida kinnitatakse automatiseeritud testide ja ärakasutuse kontrollidega.
Kasuta ära: agendid viivad liivakastikeskkonnas plokiahelas läbi otsast lõpuni rünnakuid, mis tühjendavad vahendeid juurutatud lepingutest. Hindamine toimub programmiliselt tehingute taasesituse ja ahelasisese verifitseerimise kaudu.

Objektiivse ja reprodutseeritava hindamise toetamiseks töötasime välja Rust-põhise raamistiku, mis juurutab lepingud, esitab agendi tehingud deterministlikult uuesti ja piirab ebaturvalisi RPC-meetodeid. Ekspluatatsiooniülesanded käivitatakse isoleeritud lokaalses Anvili keskkonnas, mitte reaalsetes võrkudes, ning haavatavused on ajaloolised ja avalikult dokumenteeritud.

Hindame tipptasemel agente kõigis kolmes režiimis. „ärakasutamise” režiimis, GPT‑5.3‑Codex Codex CLI kaudu käivitamine annab tulemuseks skoori 71,0%. See kujutab endast märkimisväärset edasiminekut võrreldes varasemate mudelitega, nagu GPT‑5, mis saavutas 33,3% ja anti välja veidi enam kui kuus kuud tagasi. Tuvastamise, tagasikutsumise ja paikamise edukuse määrad jäävad endiselt alla täieliku katvuse, kuna suur osa haavatavustest on agentidel endiselt raske leida ja parandada.

EVMbench paljastab ka huvitavaid erinevusi mudeli käitumises erinevate ülesannete puhul. Agendid toimivad kõige paremini ekspluateerimise seadistuses, kus eesmärk on selgesõnaline: jätka iteratsioone, kuni vahendid on ammendatud. Seevastu on jõudlus nõrgem tuvastamis- ja paigaldusülesannete puhul. ‘tuvastamise’-režiimis lõpetavad agendid mõnikord töö pärast ühe probleemi leidmist, selle asemel et koodibaasi täielikult auditeerida. ‘paikamise’is täieliku funktsionaalsuse säilitamine, samal ajal peente haavatavuste eemaldamine, on endiselt keeruline.

Piirangud

EVMbench ei esinda reaalse maailma nutilepingute turvalisuse täielikku keerukust. Kaasatud haavatavused olid pärit Code4rena auditeerimisvõistlustelt. Kuigi need on realistlikud ja kõrge raskusastmega, läbivad paljud laialdaselt juurutatud ja laialt kasutatavad krüptolepingud oluliselt põhjalikuma kontrolli ning neid võib olla raskem ära kasutada.

Meie hindamissüsteem on vastupidav, kuid ebatäiuslik. ‘Tuvastamise’ režiimis kontrollime, kas agent leiab samad haavatavused, mille inim-audiitorid on tuvastanud. Kui agent tuvastab täiendavaid probleeme, ei ole meil praegu usaldusväärset viisi kindlaks teha, kas need kujutavad endast tõelisi haavatavusi, mis inimestel märkamata jäid, või valepositiivseid.

‘Ärakasutamise’ sättes on ka struktuursed piirangud. Tehingud esitatakse hindamiskonteineris järjestikku, seega on täpset ajastust nõudvad käitumised käsitlusala välised. Ahela olek on puhas kohalik Anvili instants, mitte mainneti kahvel, ja me toetame praegu ainult ühe ahelaga keskkondi. Mõnel juhul nõuab see peavõrgu juurutuste asemel näidislepinguid.

Miks see oluline on

Nutilepingud kindlustavad miljardeid dollareid vara, ning tehisintellekti agendid on tõenäoliselt murrangulised nii ründajate kui ka kaitsjate jaoks. Mudeli võimekuse mõõtmine selles valdkonnas aitab jälgida tärkavaid küberriske ja rõhutab tehisintellekti süsteemide kaitseotstarbelise kasutamise tähtsust, et auditeerida ja tugevdada kasutusele võetud lepinguid.

EVMbench on mõeldud kasutamiseks nii mõõtevahendi kui ka kutsena tegutsemiseks. Kuna agendid muutuvad võimekamaks, on arendajatel ja turvauurijatel üha olulisem kaasata tehisintellekti abil tehtav auditeerimine oma töövoogudesse.

Viimastel kuudel oleme täheldanud märkimisväärseid edusamme mudelite küberturvalisuse ülesannete täitmisega seotud jõudluses, see toob kasu nii arendajatele kui ka turbespetsialistidele. Paralleelselt oleme valmistanud ette tugevdatud küberkaitsemeetmeid, et toetada kaitseotstarbelist kasutust ja ökosüsteemi suuremat vastupidavust.

Kuna küberturvalisus on olemuselt topeltkasutusega valdkond, rakendame tõenduspõhist ja iteratiivset lähenemist, mis kiirendab kaitsjate võimet leida ja parandada haavatavusi, kuid samal ajal aeglustada väärkasutust. Meie leevendusmeetmed hõlmavad ohutuskoolitust, automatiseeritud seiret, usaldusväärset juurdepääsu arenenud võimekustele ning jõustamismehhanisme, sealhulgas ohuluure.

Investeerime ökosüsteemi kaitsemeetmetesse, näiteks laiendades Aardvarki, meie turvauuringute agendi, privaatset beetaversiooni ning tehes koostööd avatud lähtekoodiga hooldajatega, et pakkuda tasuta koodibaasi skaneerimist laialdaselt kasutatavatele projektidele.

Tuginedes meie 2023. aastal käivitatud küberturvalisuse toetusprogrammile, anname ka 10M USD API krediite, et kiirendada küberkaitset meie kõige võimekamate mudelite abil, eriti avatud lähtekoodiga tarkvara ja kriitilise taristu süsteemide jaoks. Heas usus turvauuringutega tegelevad organisatsioonid saavad taotleda API krediite ja tuge meie küberturvalisuse toetusprogrammi kaudu.

Avaldame EVMbenchi ülesanded, tööriistad ja hindamisraamistiku, et toetada jätkuvaid uuringuid tehisintellekti esilekerkivate kübervõimekuste mõõtmise ja haldamise kohta.

Jätka lugemist

Vaata kõiki

GPT-Red: enesetäiustus suurema vastupidavuse nimel

Ohutus15. juuli 2026

Signaali ja müra eristamine kodeerimise hindamistes

Teadustöö8. juuli 2026

Tutvustame GeneBench-Pro’d

Teadustöö30. juuni 2026