Pereiti prie pagrindinio turinio
OpenAI

2026 m. vasario 18 d.

Moksliniai tyrimaiPublikacija

Pristatome „EVMbench“

Didiname išmaniųjų sutarčių saugumą vertindami DI agentų gebėjimą aptikti ir ištaisyti pažeidžiamumus bei jais pasinaudoti blokų grandinės aplinkose.

Įkeliama...

Išmaniosios sutartys nuolat užtikrina daugiau nei 100 mlrd. JAV dolerių vertės atvirojo kodo kriptoturto saugumą. DI agentams vis geriau skaitant, rašant ir vykdant kodą, tampa vis svarbiau įvertinti jų gebėjimus ekonomiškai reikšmingose aplinkose ir skatinti naudoti DI sistemas gynybiniais tikslais, siekiant audituoti ir sustiprinti įdiegtas sutartis.

Kartu su „Paradigm“(atsidaro naujame lange) pristatome „EVMbench“ – lyginamąjį testą, vertinantį DI agentų gebėjimą aptikti ir ištaisyti labai pavojingus išmaniųjų sutarčių pažeidžiamumus bei jais pasinaudoti. „EVMbench“ remiasi 117 atrinktų pažeidžiamumų iš 40 auditų, kurių dauguma paimti iš atvirojo kodo audito konkursų. Be to, į „EVMbench“ įtraukti keli pažeidžiamumo scenarijai, paimti iš „Tempo“(atsidaro naujame lange) blokų grandinės (specialiai sukurtos 1 lygmens grandinės, skirtos įgalinti didelio pralaidumo ir mažų sąnaudų mokėjimus stabiliosiomis monetomis) saugumo audito proceso. Šie scenarijai išplečia lyginamąjį testą į mokėjimams skirtą išmaniųjų sutarčių kodą, kur tikimės agentų atliekamų mokėjimų stabiliosiomis monetomis augimo, ir padeda jį susieti su sritimi, įgyjančia vis didesnę praktinę svarbą.

Kurdami savo užduočių aplinkas, pritaikėme esamus koncepcijos įrodymo atakų testus ir diegimo scenarijus, jei tokių buvo, o kitu atveju parašėme juos patys. Taisymo režimui užtikrinome, kad pažeidžiamumais būtų galima pasinaudoti ir juos pašalinti neįvedant kompiliavimą pažeidžiančių pakeitimų, galinčių pakenkti mūsų sąrangai. Atakų vykdymo režimui sukūrėme pritaikytus vertintojus ir atlikome aplinkų testavimą spragoms nustatyti, bandydami rasti ir ištaisyti būdus, kuriais agentas galėtų apgauti vertintoją. Be užduočių kokybės kontrolės, kurią užtikrino „Paradigm“ suteiktos srities žinios, pasitelkėme automatizuotus užduočių audito agentus, padedančius padidinti mūsų aplinkų patikimumą.

„EVMbench“ vertina tris gebėjimų režimus.

  • Aptikimas: agentai audituoja išmaniųjų sutarčių saugyklą ir yra vertinami pagal tikrųjų pažeidžiamumų radimo rodiklį bei susijusius audito atlygius.
  • Taisymas: agentai modifikuoja pažeidžiamas sutartis ir privalo išsaugoti numatytą funkcionalumą, kartu pašalindami galimybę jomis pasinaudoti. Tai patikrinama atliekant automatizuotus testus ir atakų patikras.
  • Atakos vykdymas: agentai vykdo visapusiškas lėšų pasisavinimo atakas prieš įdiegtas sutartis izoliuotoje blokų grandinės aplinkoje, o vertinimas atliekamas programiškai, atkartojant operacijas ir atliekant patikrą grandinėje.

Siekdami užtikrinti objektyvų ir atkuriamą vertinimą, sukūrėme „Rust“ kalba pagrįstą testavimo karkasą, kuris įdiegia sutartis, deterministiškai atkuria agentų operacijas ir apriboja nesaugius RPC („Remote Procedure Call“) metodus. Atakų užduotys vykdomos izoliuotoje vietinėje „Anvil“ aplinkoje, o ne realiuose tinkluose, be to, pažeidžiamumai yra istoriniai ir viešai dokumentuoti.

Vertiname priešakinius agentus visais trimis režimais. Režime „exploit“ (Atakos vykdymas) „GPT‑5.3‑Codex“, veikiantis per „Codex CLI“, pasiekia 71 proc. rezultatą. Tai reikšmingas padidėjimas, palyginti su ankstesniais modeliais (pvz., vos prieš daugiau nei šešis mėnesius išleistu GPT‑5, kurio rezultatas siekia 33,3 proc.). Aptikimo ir sėkmingo ištaisymo rodikliai vis dar nepasiekia visiško padengimo, nes didelę dalį pažeidžiamumų agentams vis dar sunku rasti ir ištaisyti.

„EVMbench“ taip pat atskleidžia įdomių modelio elgsenos skirtumų atliekant skirtingas užduotis. Agentai geriausiai pasirodo atakos vykdymo aplinkoje, kur tikslas yra aiškus: tęsti iteracijas tol, kol lėšos bus pasisavintos. Priešingai, atliekant aptikimo ir taisymo užduotis, rezultatai yra prastesni. Režime „detect“ (Aptikimas) agentai kartais sustoja nustatę vieną problemą, užuot išsamiai auditavę kodo bazę. Režime „patch“ (Taisymas) išlaikyti visą funkcionalumą, kartu pašalinant sunkiai pastebimus pažeidžiamumus, išlieka sudėtinga.

Apribojimai

„EVMbench“ neatspindi viso realaus pasaulio išmaniųjų sutarčių saugumo sudėtingumo. Įtraukti pažeidžiamumai buvo paimti iš „Code4rena“ audito konkursų. Nors jie yra realistiški ir labai pavojingi, daugelis plačiai įdiegtų ir naudojamų kriptografinių sutarčių yra tiriamos kur kas atidžiau, todėl jomis pasinaudoti gali būti sunkiau.

Mūsų vertinimo sistema yra patikima, bet netobula. Režime „detect“ tikriname, ar agentas randa tuos pačius pažeidžiamumus, kuriuos nustatė žmonės auditoriai. Jei agentas nustato papildomų problemų, šiuo metu neturime patikimo būdo nustatyti, ar tai yra tikri pažeidžiamumai, kuriuos žmonės praleido, ar klaidingai teigiami rezultatai.

Režime „exploit“ taip pat yra struktūrinių apribojimų. Vertinimo programinėje vykdymo aplinkoje operacijos atkuriamos nuosekliai, todėl elgsena, priklausanti nuo tikslaus laiko mechanizmų, nepatenka į vertinimo sritį. Grandinės būsena yra švari vietinė „Anvil“ instancija, o ne pagrindinio tinklo atšaka, be to, šiuo metu palaikome tik vienos grandinės aplinkas. Kai kuriais atvejais tam reikia naudoti bandomąsias sutartis, o ne pagrindinio tinklo diegimus.

Kodėl tai svarbu

Išmaniosios sutartys užtikrina milijardų dolerių vertės turto saugumą, o DI agentai, tikėtina, atneš esminių pokyčių tiek užpuolikams, tiek besiginantiesiems. Modelio gebėjimų vertinimas šioje srityje padeda stebėti kylančias kibernetines rizikas ir pabrėžia DI sistemų naudojimo gynybiniais tikslais svarbą, siekiant audituoti ir sustiprinti įdiegtas sutartis.

„EVMbench“ skirtas būti ir matavimo įrankiu, ir raginimu veikti. Agentams tobulėjant, kūrėjams ir saugumo tyrėjams tampa vis svarbiau į savo darbo eigą įtraukti DI padedamą auditą.

Per pastaruosius mėnesius pastebėjome reikšmingą modelių našumo pagerėjimą kibernetinio saugumo užduotyse, kas yra naudinga tiek kūrėjams, tiek saugumo specialistams. Lygiagrečiai rengėme sustiprintas kibernetines apsaugos priemones, kad paremtume gynybinį naudojimą ir padidintume visos ekosistemos atsparumą.

Kadangi kibernetinis saugumas iš prigimties yra dvigubo naudojimo, mes taikome įrodymais pagrįstą, iteracinį metodą, kuris spartina gynėjų gebėjimą rasti ir ištaisyti pažeidžiamumus, kartu lėtindamas piktnaudžiavimą. Mūsų rizikos mažinimo priemonės apima saugos mokymus, automatizuotą stebėseną, patikimą prieigą prie pažangių galimybių ir vykdymo užtikrinimo procesus, įskaitant grėsmių žvalgybą.

Investuojame į ekosistemos apsaugos priemones, pavyzdžiui, plečiame mūsų saugumo tyrimų agento „Aardvark“ privačią beta versiją ir bendradarbiaujame su atvirojo kodo prižiūrėtojais, siekdami teikti nemokamą kodo bazės nuskaitymą plačiai naudojamiems projektams.

Remdamiesi savo Kibernetinio saugumo dotacijų programa, pradėta 2023 m., taip pat skiriame 10 mln. JAV dolerių vertės API kreditų, siekdami paspartinti kibernetinę gynybą naudodami pačius pajėgiausius savo modelius, ypač skatindami atvirojo kodo programinės įrangos ir ypatingos svarbos infrastruktūros sistemų apsaugą. Organizacijos, užsiimančios sąžiningais saugumo tyrimais, gali prašyti API kreditų ir palaikymo pagal mūsų Kibernetinio saugumo dotacijų programą.

Išleidžiame „EVMbench“ užduotis, įrankius ir vertinimo sistemą, siekdami palaikyti tolesnius tyrimus, skirtus vertinti ir valdyti naujus DI kibernetinius gebėjimus.