Fara beint í aðalefni
OpenAI

18. febrúar 2026

RannsóknirÚtgáfa

Við kynnum EVMbench

Að gera snjallsamninga öruggari með því að meta getu gervigreindarfulltrúa til að greina, laga og nýta veikleika í blockchain-umhverfum.

Hleður inn...

Snjallsamningar tryggja reglulega yfir 100 milljarða USD í dulritunareignum í opnum hugbúnaði. Eftir því sem gervigreindarfulltrúar verða betri í að lesa, skrifa og keyra kóða, verður sífellt mikilvægara að mæla getu þeirra í efnahagslega merkingarbærum umhverfum og að hvetja til varnarlegrar notkunar gervigreindarkerfa til að endurskoða og styrkja innleidda samninga.

Ásamt Paradigm(opnast í nýjum glugga) kynnum við EVMbench, viðmið sem metur getu gervigreindarfulltrúa til að greina, lagfæra og nýta alvarlega veikleika í snjallsamningum. EVMbench nýtir 117 vandlega valda veikleika úr 40 úttektum, þar sem flestir koma úr opnum keppnum í kóðayfirferð.  EVMbench inniheldur einnig nokkrar veikleikaviðsmyndir sem eru teknar úr öryggisúttektarferlinu fyrir Tempo(opnast í nýjum glugga)-blockchain, sem er sérhönnuð L1 til að gera kleift háafköst, lágkostnaðargreiðslur með stöðugum myntum. Þessar sviðsmyndir víkka viðmiðunina yfir í greiðslumiðaðan snjallsamningskóða, þar sem við búumst við að fulltrúagreiðslur með stöðugum myntum muni vaxa og hjálpa til við að festa hana í sessi á sviði sem er að verða sífellt mikilvægara.

Til að búa til verkefnaumhverfi okkar aðlöguðum við núverandi sönnunarprófun á hugmyndum og innleiðingarskrifum, þegar þau voru til, og annars skrifuðum við þau handvirkt. Fyrir bótahaminn tryggðum við að veikleikarnir væru nýtingarhæfir og að hægt væri að draga úr þeim án þess að innleiða breytingar sem myndu rjúfa samantektina og grafa undan uppsetningunni okkar. Fyrir svindlhaminn skrifuðum við sérsniðna einkunnagjafa og fórum í öryggisprófanir á umhverfunum til að reyna að finna og laga aðferðir sem fulltrúi gæti notað til að svindla á einkunnagjafanum. Auk gæðaeftirlits með verkefnum í gegnum sérfræðiþekkingu sem Paradigm veitir notuðum við sjálfvirka endurskoðunaraðila til að auka áreiðanleika umhverfa okkar.

EVMbench metur þrjá eiginleika:

  • Greina: Fulltrúar framkvæma úttekt á geymslu snjallsamninga og fá einkunn fyrir að greina staðfesta veikleika og tengd úttektarlaun.
  • Lagfæring: Fulltrúar breyta viðkvæmum samningum og verða að varðveita fyrirhugaða virkni á sama tíma og þeir útrýma nýtingarmöguleikum, staðfest með sjálfvirkum prófum og athugunum á nýtingu.
  • Nýting: Fulltrúar framkvæma heildrænar árásir til að tæma sjóði gegn innleiddum samningum í sandkassaumhverfi á blockchain-rás, þar sem einkunnagjöf er framkvæmd forritunarlega með endurspilun færslna og keðjusannprófun.

Til að styðja við hlutlægt og endurtakanlegt mat þróuðum við beisli byggt á Rust sem innleiðir samningum, endurspilar færslur fulltrúa á ákvarðanlegan hátt og takmarkar óöruggar RPC-aðferðir. Nýtingarverkefni eru keyrð í einangruðu staðbundnu Anvil-umhverfi í stað þess að vera á virkum netum, og veikleikar eru sögulegir og opinberlega skjalfestir.

Við metum framarlega fulltrúa yfir alla þrjá eiginleikana. Í „nýtingar“ ham, GPT‑5.3‑Codex að keyra í gegnum Codex CLI og skilar einkunninni 71,0%. Þetta er veruleg framför miðað við fyrri líkön, eins og GPT‑5, sem skorar 33,3% og var gefið út fyrir rétt rúmum sex mánuðum síðan. Greiningar á uppgötvun, innköllun og árangri lagfæringa eru enn undir fullri virkni, þar sem fulltrúar eiga enn erfitt með að finna og laga stóran hluta veikleika.

EVMbench leiðir einnig í ljós áhugaverðan mun á hegðun líkansins milli mismunandi verkefna. Fulltrúar standa sig best í nýtingarumhverfi, þar sem markmiðið er skýrt: halda áfram að endurtaka þar til fjármunir eru tæmdir. Aftur á móti er frammistaðan veikari í verkefnum sem snúa að því að greina og laga. Í ‘greina’ hætta fulltrúar stundum eftir að hafa greint eitt vandamál í stað þess að framkvæma tæmandi úttekt á kóðagrunninum. Í ‘laga’ er það áfram krefjandi að viðhalda fullri virkni á meðan duldir veikleikar eru fjarlægðir.

Takmarkanir

EVMbench endurspeglar ekki allt flækjustig raunverulegs öryggis snjallsamninga. Veikleikarnir sem voru teknir með voru fengnar úr Code4rena úttektarkeppnum. Þó að þetta séu raunhæft og alvarlegt atriði, sæta margir dulritunarsamningar sem eru mikið innleiddir og víða notaðir mun meiri rýni og gæti verið erfiðara að nýta þá.

Einkunnakerfið okkar er traust en ekki fullkomið. Í „greina“ ham athugum við hvort fulltrúinn finni sömu veikleika og mannlegir úttektaraðilar hafa greint. Ef fulltrúinn greinir frekari vandamál, höfum við sem stendur ekki áreiðanlega leið til að ákvarða hvort þau séu raunverulegir veikleikar sem menn misstu af eða rangar jákvæðar niðurstöður.

Það eru einnig uppbyggingarlegar takmarkanir í ‘nýtingar’ ham. Færslur eru endurspilaðar í röð í einkunnagjafargeyminum, svo hegðun sem byggir á nákvæmri tímasetningartækni fellur utan umfangs. Staða keðjunnar er hreint staðbundið Anvil-tilvik frekar en gaffla af aðalnetinu, og við styðjum nú aðeins umhverfi með einni keðju. Í sumum tilfellum krefst þetta gervisamninga í stað útfærslna á aðalnetinu.

Af hverju skiptir þetta máli

Snjallsamningar tryggja milljarða dollara í eignum, og gervigreindarfulltrúar eru líklegir til að hafa umbreytandi áhrif á bæði árásaraðila og varnaraðila. Að mæla getu líkans á þessu sviði hjálpar til við að fylgjast með nýjum netáhættum og undirstrikar mikilvægi þess að nota gervigreindarkerfi í varnarskyni til að yfirfara og styrkja samninga sem eru í notkun.

EVMbench er ætlað bæði sem mælitæki og sem hvatning til aðgerða. Eftir því sem fulltrúar verða betri, verður sífellt mikilvægara fyrir forritara og öryggisrannsakendur að innleiða gervigreindarstudda úttekt í verkferla sína.

Undanfarna mánuði höfum við séð verulegar framfarir í frammistöðu líkana á netöryggisverkefnum, sem gagnast bæði þróunaraðilum og öryggissérfræðingum. Samhliða höfum við verið að undirbúa styrktar netöryggisráðstafanir til að styðja við varnarlega notkun og auka seiglu vistkerfisins.

Þar sem netöryggi er í eðli sínu tvíþætt notum við gagnreynda, ítrekaða nálgun sem eykur getu varnaraðila til að finna og laga veikleika á sama tíma og hún dregur úr misnotkun. Mótvægisaðgerðir okkar fela í sér öryggisþjálfun, sjálfvirkt eftirlit, traustan aðgang fyrir háþróaða getu og framkvæmdarleiðir, þar á meðal ógnargreind.

Við erum að fjárfesta í vistkerfisvernd, svo sem að stækka einkabetaútgáfu af Aardvark, öryggisfulltrúa okkar, og í samstarfi við viðhalds opins hugbúnaðar til að bjóða upp á ókeypis kóðaskönnun fyrir mikið notuð verkefni.

Með því að byggja á netöryggisstyrkjaáætlun okkar sem hófst árið 2023 erum við einnig að skuldbinda okkur til að veita 10 milljón USD í API-inneignir til að flýta fyrir netvörnum með okkar hæfustu líkönum, sérstaklega fyrir opinn hugbúnað og kerfi mikilvægra innviða. Stofnanir sem stunda öryggisrannsóknir í góðri trú geta sótt um API-inneignir og stuðning í gegnum Cybersecurity Grant Program.

Við gefum út verkefni, verkfæri og matsramma EVMbench til að styðja áframhaldandi rannsóknir á því að mæla og stjórna nýrri netgetu gervigreindar.