Pāriet uz galveno saturu
OpenAI

2026. gada 18. februāris

IzpētePublikācija

Iepazīstinām ar EVMbench

Viedo līgumu drošības paaugstināšana, novērtējot mākslīgā intelekta aģentu spēju atklāt, labot un izmantot ievainojamības blokķēdes vidē.

Notiek ielāde…

Viedie līgumi regulāri nodrošina vairāk nekā 100 miljardus USD atvērtā koda kriptoaktīvos. Mākslīgā intelekta aģentiem uzlabojot savas spējas lasīt, rakstīt un izpildīt kodu, kļūst arvien svarīgāk novērtēt to spējas ekonomiski nozīmīgās vidēs un veicināt mākslīgā intelekta sistēmu izmantošanu aizsardzības nolūkos, lai auditētu un stiprinātu ieviestos līgumus.

Kopā ar Paradigm(atveras jaunā logā) mēs ieviešam EVMbench – etalonu, kas novērtē mākslīgā intelekta (MI) aģentu spēju atklāt, labot un izmantot augstas smaguma pakāpes viedo līgumu ievainojamības. EVMbench izmanto 117 rūpīgi atlasītas ievainojamības no 40 auditiem, no kurām lielākā daļa ir iegūta no atklātā koda audita sacensībām.  EVMbench papildus ietver vairākus ievainojamību scenārijus, kas ņemti no drošības audita procesa Tempo(atveras jaunā logā) blokķēdei, kas ir īpaši izstrādāta L1, lai nodrošinātu augstas caurlaidspējas un zemu izmaksu maksājumus, izmantojot stabilās kriptovalūtas. Šie scenāriji paplašina etalonu uz maksājumiem orientētā viedo līgumu kodā, kur mēs gaidām, ka aģentiskie stabilo kriptovalūtu maksājumi pieaugs, un palīdz to nostiprināt jomā, kuras praktiskā nozīme strauji pieaug.

Lai izveidotu uzdevumu vides, mēs pielāgojām esošos koncepcijas pierādījuma ievainojamību izmantošana testus un izvietošanas skriptus, ja tie bija pieejami, un citos gadījumos tos uzrakstījām manuāli. Ielāpa režīmam mēs nodrošinājām, ka ievainojamības ir izmantojamas un ka tās var novērst, neieviešot tādas izmaiņas, kas izjauktu kompilēšanu un apdraudētu mūsu konfigurāciju. Ievainojamību izmantošanas režīmam mēs izveidojām pielāgotus vērtētājus un veicām pretinieku simulācijas testēšanu vidēs, lai mēģinātu atrast un novērst metodes, ar kurām aģents varētu apkrāpt vērtētāju. Papildus uzdevumu kvalitātes kontrolei, ko nodrošina Paradigm nozares ekspertu zināšanas, mēs izmantojām automatizētus uzdevumu auditēšanas aģentus, lai palīdzētu uzlabot mūsu vides stabilitāti.

EVMbench vērtē trīs spēju režīmus:

  • Noteikšana – aģenti veic viedā līguma repozitorija auditu un tiek vērtēti pēc spējas atklāt reālas ievainojamības un ar tām saistītajām audita atlīdzībām.
  • Ielāps – aģenti modificē ievainojamus līgumus, un tiem ir jāsaglabā paredzētā funkcionalitāte, vienlaikus novēršot ievainojamību; to pārbauda ar automatizētiem testiem un ievainojamību pārbaudēm.
  • Ievainojamību izmantošana – aģenti veic pilna cikla līdzekļu iztukšošanas uzbrukumus pret izvietotiem līgumiem smilškastes tipa blokķēdes vidē, un vērtēšana tiek veikta programmatiski, izmantojot darījumu atkārtošanu un pārbaudi ķēdē.

Lai nodrošinātu objektīvu un reproducējamu novērtēšanu, mēs izstrādājām Rust valodā balstītu ietvaru, kas izvieto līgumus, deterministiski atkārto aģentu darījumus un ierobežo nedrošas RPC metodes. Ievainojamību izmantošanas uzdevumi tiek veikti izolētā lokālā Anvil vidē, nevis reālos tīklos, un ievainojamības ir vēsturiskas un publiski dokumentētas.

Mēs novērtējam robežšķirtnes aģentus visos trīs veidos. ‘Ievainojamību izmantošanas’ režīmā GPT‑5.3‑Codex palaišana, izmantojot Codex CLI, sasniedz 71,0% rezultātu. Tas ir nozīmīgs uzlabojums salīdzinājumā ar iepriekšējiem modeļiem, piemēram, GPT‑5, kas sasniedz 33,3% un tika izlaists pirms nedaudz vairāk kā sešiem mēnešiem. Atklāšanas pilnīguma (recall) un ielāpu ieviešanas sekmīguma rādītāji joprojām nesasniedz pilnu pārklājumu, jo ievērojamu daļu ievainojamību aģentiem joprojām ir grūti gan atrast, gan novērst.

EVMbench arī atklāj interesantas atšķirības modeļa uzvedībā dažādos uzdevumos. Aģenti vislabāk darbojas ievainojamību izmantošanas vidē, kur mērķis ir skaidri noteikts: turpināt iterēt, līdz līdzekļi ir izsmelti. Savukārt noteikšanas un ielāpu uzdevumos sniegums ir vājāks. ‘Noteikšanas’ režīmā aģenti dažkārt apstājas pēc vienas problēmas identificēšanas, nevis pilnībā pārbauda koda bāzi. ‘Ielāpu’ režīmā pilnas funkcionalitātes saglabāšana, vienlaikus labojot smalkas ievainojamības, joprojām ir izaicinājums.

Ierobežojumi.

EVMbench neatspoguļo viedo līgumu drošības pilnīgo sarežģītību reālajā pasaulē. Iekļautās ievainojamības tika ņemtas no Code4rena audita sacensībām. Lai gan tās ir reālistiskas un ar augstu riska pakāpi, daudzi plaši ieviesti un plaši izmantoti kriptolīgumi tiek pakļauti ievērojami rūpīgākai pārbaudei un var būt grūtāk apdraudami.

Mūsu vērtēšanas sistēma ir robusta, bet nepilnīga. Režīmā ‘noteikšana’ mēs pārbaudām, vai aģents atrod tās pašas ievainojamības, kuras identificējuši cilvēki auditori. Ja aģents identificē papildu problēmas, mums pašlaik nav uzticama veida, kā noteikt, vai tās ir patiesas ievainojamības, ko cilvēki palaida garām, vai kļūdaini pozitīvi rezultāti.

Ir arī strukturāli ierobežojumi ‘ievainojamību izmantošanas’ režīmā. Darījumi vērtēšanas konteinerā tiek atkārtoti secīgi, tāpēc uzvedības, kas ir atkarīgas no precīziem laika mehānismiem, nav iekļautas darbības jomā. Ķēdes stāvoklis ir tīra lokāla Anvil instance, nevis galvenā tīkla atzars, un pašlaik mēs atbalstām tikai vienas ķēdes vides. Dažos gadījumos tas nozīmē, ka galvenā tīkla izvietojumu vietā ir jāizmanto imitācijas līgumi.

Kāpēc tas ir svarīgi

Viedie līgumi aizsargā miljardiem dolāru vērtus aktīvus, un mākslīgā intelekta aģenti, visticamāk, būtiski mainīs situāciju gan uzbrucējiem, gan aizstāvjiem. Modeļu spēju mērīšana šajā jomā palīdz izsekot jauniem kiberriskiem un izceļ, cik svarīgi ir lietot mākslīgā intelekta sistēmas aizsardzībai, lai auditētu un nostiprinātu ieviestos līgumus.

EVMbench ir paredzēts gan kā mērīšanas rīks, gan kā aicinājums rīkoties. Aģentiem pilnveidojoties, izstrādātājiem un drošības pētniekiem kļūst arvien svarīgāk savās darbplūsmās iekļaut mākslīgā intelekta atbalstītu auditu.

Pēdējo mēnešu laikā esam novērojuši nozīmīgus uzlabojumus modeļu veiktspējā kiberdrošības uzdevumos, un tas sniedz ieguvumus gan izstrādātājiem, gan drošības speciālistiem. Paralēli mēs esam gatavojuši pastiprinātus kiberaizsardzības mehānismus, lai atbalstītu modeļu izmantošanu aizsardzībā un uzlabotu ekosistēmas noturību.

Tā kā kiberdrošība pēc būtības ir divējādi lietojuma, mēs izmantojam uz pierādījumiem balstītu, iteratīvu pieeju, kas paātrina aizstāvju spēju atrast un novērst ievainojamības, vienlaikus kavējot ļaunprātīgu izmantošanu. Mūsu risku mazināšanas pasākumi ietver drošības apmācību, automatizētu uzraudzību, uzticamu piekļuvi paplašinātām spējām un noteikumu izpildes mehānismus, tostarp draudu izlūkošanu.

Mēs ieguldām ekosistēmas aizsardzības pasākumos, piemēram, paplašinot sava drošības pētniecības aģenta Aardvark privāto beta versiju, un sadarbojoties ar atvērtā pirmkoda uzturētājiem, lai nodrošinātu bezmaksas koda bāzes skenēšanu plaši izmantotiem projektiem.

Balstoties uz mūsu 2023. gadā uzsākto kiberdrošības grantu programmu, mēs arī apņemamies piešķirt 10 miljonus USD API kredītos, lai paātrinātu kiberaizsardzību ar mūsu visjaudīgākajiem modeļiem, īpaši atvērtā pirmkoda programmatūrai un kritiskās infrastruktūras sistēmām. Organizācijas, kas nodarbojas ar godprātīgu drošības izpēti, var pieteikties API kredītiem un atbalstam mūsu kiberdrošības grantu programmā.

Mēs publiskojam EVMbench uzdevumus, rīkus un novērtēšanas ietvaru, lai atbalstītu turpmākus pētījumus par jaunu mākslīgā intelekta kiberspēju mērīšanu un pārvaldību.