Tunawaletea EVMbench
Kufanya mikataba mahiri iwe salama zaidi kwa kutathmini uwezo wa mawakala wa AI wa kugundua, kuziba, na kutumia udhaifu katika mazingira ya blockchain.
Mikataba mahiri mara kwa mara huhakikisha usalama wa mali za kripto za chanzo huria zenye thamani ya zaidi ya $100B. Kadiri mawakala wa AI wanavyozidi kuboreka katika kusoma, kuandika, na kutekeleza msimbo, inazidi kuwa muhimu kupima uwezo wao katika mazingira yenye maana ya kiuchumi, na kuhimiza matumizi ya mifumo ya AI kwa njia ya kujihami ili kukagua na kuimarisha mikataba iliyowekwa.
Pamoja na Paradigm(fungua katika dirisha jipya), tunawaletea EVMbench, kigezo cha kupima kinachotathmini uwezo wa mawakala wa AI kugundua, kurekebisha, na kutumia udhaifu wa mikataba mahiri yenye hatari kubwa. EVMbench inategemea udhaifu 117 ulioteuliwa kwa uangalifu kutoka kwenye kaguzi 40, ambapo nyingi zinatokana na mashindano ya ukaguzi wa msimbo wa chanzo huria. EVMbench pia inajumuisha matukio kadhaa ya udhaifu yanayotokana na mchakato wa ukaguzi wa usalama wa blockchain ya Tempo(fungua katika dirisha jipya), L1 iliyoundwa mahsusi ili kuwezesha malipo yenye utendaji wa juu, ya gharama nafuu kupitia stablecoins. Hali hizi hupanua kipimo hadi kwenye msimbo wa mkataba mahiri unaolenga malipo, ambapo tunatarajia malipo ya stablecoin ya kiwakala kukua, na kusaidia kuiweka katika muktadha wa eneo linaloibuka lenye umuhimu wa vitendo.
Ili kuunda mazingira yetu ya kazi, tulibadilisha majaribio ya matumizi ya uthibitisho wa dhana na hati za usambazaji zilizopo, pale zilipokuwepo, na vinginevyo tuliandika kwa mkono. Kwa hali ya masasisho, tulihakikisha kwamba udhaifu unaweza kutumiwa vibaya na unaweza kupunguzwa bila kuanzisha mabadiliko yanayovunja uundaji, ambayo yangehatarisha usanidi wetu. Kwa hali ya matumizi, tuliandika vidahizo maalum na tukaunganisha mazingira kwa pamoja katika jaribio la kutafuta na kurekebisha mbinu ambazo wakala anaweza kudanganya kidahizo. Mbali na udhibiti wa ubora wa kazi kupitia utaalamu wa kikoa uliotolewa na Paradigm, tulitumia mawakala wa ukaguzi wa kazi wa kiotomatiki ili kusaidia kuongeza uimara wa mazingira yetu.
EVMbench hutathmini aina tatu za uwezo:
- Tambua: Mawakala hukagua hifadhi ya mikataba mahiri na hupimwa kwa uwezo wao wa kutambua udhaifu wa msingi na zawadi zinazohusiana na ukaguzi.
- Sasisho: Mawakala hubadilisha mikataba yenye udhaifu na lazima wahifadhi utendakazi uliokusudiwa huku wakiondoa uwezekano wa matumizi mabaya, hivyo kuthibitishwa kupitia majaribio ya kiotomatiki na ukaguzi wa matumizi.
- Matumizi: Mawakala hufanya mashambulizi ya kumaliza fedha kutoka mwanzo hadi mwisho dhidi ya mikataba iliyowekwa kwenye mazingira ya blockchain yenye sandbox, huku upangaji wa alama ukifanywa kwa njia ya kiprogramu kupitia uchezaji upya wa miamala na uthibitishaji wa ndani ya miamala.
Ili kuunga mkono tathmini ya lengo na inayoweza kurudiwa, tulitengeneza kifaa kinachotegemea Rust ambacho kinatumia mikataba, kinarejelea miamala ya wakala kwa njia ya kimaamuzi, na kinazuia mbinu zisizo salama za RPC. Kazi za matumizi zinaendeshwa katika mazingira ya ndani ya Anvil yaliyotengwa badala ya kwenye mitandao hai, na udhaifu ni wa kihistoria na umeandikwa hadharani.
Tunatathmini mawakala wa hali ya juu katika njia zote tatu. Katika hali ya ‘matumizi’, GPT‑5.3‑Codex inayoendeshwa kupitia Codex CLI ilipata alama ya 71.0%. Hii inawakilisha faida kubwa ikilinganishwa na miundo ya awali, kama vile GPT‑5, ambayo inapata alama 33.3% na ilitolewa miezi sita tu iliyopita. Viwango vya mafanikio ya kugundua na kurekebisha bado viko chini ya kiwango kamili cha ulinzi, kwa kuwa sehemu kubwa ya udhaifu bado ni ngumu kwa mawakala kuipata na kuirekebisha.
EVMbench pia hufichua tofauti za kuvutia katika tabia ya miundo katika kazi mbalimbali. Mawakala hufanya kazi bora zaidi katika mazingira ya matumizi, ambapo lengo ni wazi: endelea kurudia hadi fedha ziishe. Kinyume chake, utendaji ni dhaifu zaidi katika kazi za kugundua na kurekebisha. Katika ‘gundua’, mawakala wakati mwingine husimama baada ya kutambua tatizo moja badala ya kukagua msimbo wote kwa kina. Katika ‘sasisho’, kudumisha utendakazi kamili huku ukiondoa udhaifu wa hila bado ni changamoto.
EVMbench haiwakilishi ugumu wote wa usalama wa mikataba mahiri katika ulimwengu halisi. Udhaifu uliojumuishwa ulitolewa kutoka kwa mashindano ya ukaguzi ya Code4rena. Ingawa hizi ni za kweli na zenye hatari ya juu, mikataba mingi ya kripto inayosambazwa kwa kiwango kikubwa na inayotumiwa sana hupitia uchunguzi wa kina zaidi na inaweza kuwa vigumu zaidi kuitumia vibaya.
Mfumo wetu wa upangaji wa alama ni imara lakini si mkamilifu. Katika hali ya ‘gundua’, tunakagua iwapo wakala anapata udhaifu uleule uliotambuliwa na wakaguzi wa kibinadamu. Ikiwa wakala atatambua masuala ya ziada, kwa sasa hatuna njia ya kuaminika ya kubaini kama yanawakilisha udhaifu wa kweli ambao wanadamu walikosa au matokeo chanya ya uongo.
Pia kuna vikwazo vya kimuundo katika mpangilio wa ‘matumizi’. Miamala inarudiwa kwa mfuatano katika kontena la upimaji, hivyo tabia zinazotegemea mbinu sahihi za upangaji muda hazijumuishwi. Hali ya miamala ni mfano safi wa Anvil wa ndani badala ya kunakili mainnet, na kwa sasa tunaunga mkono mazingira ya mwamala mmoja pekee. Katika baadhi ya matukio, hii inahitaji mikataba bandia badala ya utekelezaji wa mainnet.
Mikataba mahiri inalinda mali zenye thamani ya mabilioni ya dola, na mawakala wa AI wanaweza kuleta mabadiliko makubwa kwa washambuliaji na watetezi. Kupima uwezo wa muundo katika uwanja huu husaidia kufuatilia hatari za mtandao zinazoibuka na kuangazia umuhimu wa kutumia mifumo ya AI kwa ulinzi ili kukagua na kuimarisha mikataba iliyowekwa.
EVMbench imekusudiwa kuwa chombo cha kipimo na pia mwito wa kuchukua hatua. Kadiri mawakala wanavyoendelea kuboreshwa, inazidi kuwa muhimu kwa wasanidi programu na watafiti wa usalama kujumuisha ukaguzi unaosaidiwa na AI katika michakato yao ya kazi.
Katika miezi ya hivi karibuni, tumeona mafanikio makubwa katika utendaji wa muundo kwenye kazi za usalama wa mtandao, na kuwanufaisha watengenezaji na wataalamu wa usalama. Sambamba na hayo, tumekuwa tukiandaa hatua za ulinzi wa mtandao zilizoimarishwa ili kusaidia matumizi ya kujihami na ustahimilivu mpana wa mfumo wa ikolojia.
Kwa sababu usalama wa mtandao kwa asili ni wa matumizi mawili, tunachukua mbinu inayotegemea ushahidi na inayorudiarudia ambayo inaharakisha uwezo wa watetezi kupata na kurekebisha udhaifu huku ikipunguza matumizi mabaya. Hatua zetu za kupunguza hatari ni pamoja na mafunzo ya usalama, ufuatiliaji wa kiotomatiki, ufikiaji unaoaminika kwa uwezo wa hali ya juu, na njia za utekelezaji zenye ujasusi wa vitisho.
Tunawekeza katika hatua za ulinzi wa mfumo wa ikolojia kama vile kupanua beta ya faragha ya Aardvark, wakala wetu wa utafiti wa usalama, na kushirikiana na watunzaji wa chanzo huria ili kutoa uchanganuzi wa bila malipo wa misimbo ya msingi kwa miradi inayotumika sana.
Tukiendeleza Mpango wetu wa Ruzuku ya Usalama wa Mtandao ulioanzishwa mwaka wa 2023, pia tunajitolea kutoa $10M katika mikopo ya API ili kuharakisha ulinzi wa mtandao kwa kutumia miundo yetu yenye uwezo mkubwa zaidi, hasa kwa programu huria na mifumo muhimu ya miundombinu. Mashirika yanayojihusisha na utafiti wa usalama wa nia njema yanaweza kuomba masalio ya API na usaidizi kupitia Mpango wetu wa Ruzuku ya Usalama wa Mtandao.
Tunatoa majukumu, zana, na mfumo wa tathmini wa EVMbench ili kuunga mkono utafiti unaoendelea wa kupima na kudhibiti uwezo unaochipuka wa AI wa mtandao.


