18 shkurt 2026

Prezantimi i EVMbench

Duke i bërë kontratat inteligjente më të sigurta duke vlerësuar aftësinë e agjentëve të inteligjencës artificiale për të zbuluar, rregulluar dhe shfrytëzuar dobësitë në mjediset e blockchain.

Lexo letrën

Duke ngarkuar…

Kontratat inteligjente zakonisht sigurojnë mbi 100 miliardë dollarë në asete kripto me burim të hapur. Ndërsa agjentët e AI përmirësohen në lexim, shkrim dhe ekzekutim të kodit, bëhet gjithnjë e më e rëndësishme të maten aftësitë e tyre në mjedise me rëndësi ekonomike dhe të inkurajohet përdorimi mbrojtës i sistemeve të AI për të audituar dhe forcuar kontratat e zbatuara.

Së bashku me Paradigm⁠(hapet në një dritare të re), po prezantojmë EVMbench, një standard që vlerëson aftësinë e agjentëve të AI për të zbuluar, korrigjuar dhe shfrytëzuar dobësi të kontratave inteligjente me rrezik të lartë. EVMbench mbështetet në 117 dobësi të përzgjedhura nga 40 auditime, me shumicën e tyre të marra nga konkurse të hapura të auditimit të kodit. EVMbench përfshin gjithashtu disa skenarë të dobësive të nxjerra nga procesi i auditimit të sigurisë për blockchain Tempo⁠(hapet në një dritare të re), një L1 e ndërtuar posaçërisht për të mundësuar pagesa me kapacitet përpunimi të lartë dhe me kosto të ulët përmes monedhave të qëndrueshme. Këta skenarë e zgjerojnë standardin në kodin e kontratave inteligjente të orientuara drejt pagesave, ku presim që pagesat agjentike me stablecoin të rriten dhe të ndihmojnë në ankorimin e tij në një fushë me rëndësi praktike në zhvillim.

Për të krijuar mjediset tona të detyrave, ne përshtatëm testet ekzistuese të shfrytëzimit të provës së konceptit dhe skriptet e vendosjes, kur ato ekzistonin, dhe përndryshe i shkruam manualisht. Për modalitetin e korrigjimit, u siguruam që dobësitë të jenë të shfrytëzueshme dhe që mund të zbuten pa futur ndryshime që prishin kompilimin, të cilat do të komprometonin konfigurimin tonë. Për modalitetin e shfrytëzimit, ne krijuam vlerësues të personalizuar dhe testuam mjediset me një ekip të kuq për të gjetur dhe arnuar metodat me të cilat një agjent mund të mashtrojë vlerësuesin. Përveç kontrollit të cilësisë së detyrave përmes ekspertizës së fushës të ofruar nga Paradigm, ne përdorëm agjentë të automatizuar për auditimin e detyrave për të ndihmuar në përmirësimin e qëndrueshmërisë së mjediseve tona.

EVMbench vlerëson tre modalitete aftësish:

Detect: Agjentët auditojnë një depo të kontratave inteligjente dhe vlerësohen për rikujtimin e dobësive të vërtetuara dhe shpërblimeve përkatëse të auditimit.
Patch: Agjentët modifikojnë kontratat e cenueshme dhe duhet të ruajnë funksionalitetin e synuar duke eliminuar shfrytëzueshmërinë, të cilat verifikohen përmes testeve të automatizuara dhe kontrolleve të shfrytëzimit.
Exploit: Agjentët kryejnë sulme të plota për zbrazjen e fondeve kundër kontratave të vendosura në një mjedis të izoluar blockchain, me vlerësimin që kryhet në mënyrë programatike përmes riluajtjes së transaksioneve dhe verifikimit në zinxhir.

Për të mbështetur vlerësimin objektiv dhe të riprodhueshëm, ne zhvilluam një sistem testimi të bazuar në Rust që vendos kontrata, riprodhon transaksionet e agjentëve në mënyrë deterministe dhe kufizon metodat e pasigurta RPC. Detyrat e shfrytëzimit kryhen në një mjedis të izoluar lokal Anvil, në vend që të kryhen në rrjete aktive, dhe dobësitë janë historike dhe të dokumentuara publikisht.

Ne vlerësojmë agjentët avangardë në të tre mënyrat. Në modalitetin ‘exploit’, GPT‑5.3‑Codex Ekzekutimi përmes Codex CLI arrin një rezultat prej 71,0%. Kjo përbën një përparim të rëndësishëm krahasuar me modelet e mëparshme, si GPT‑5, i cili ka një rezultat prej 33,3% dhe u publikua pak më shumë se gjashtë muaj më parë. Normat e zbulimit, rikthimit dhe suksesit të korrigjimit mbeten nën mbulim të plotë, pasi një pjesë e madhe e dobësive janë të vështira për t'u gjetur dhe rregulluar nga agjentët.

EVMbench gjithashtu zbulon dallime interesante në sjelljen e model në detyra të ndryshme. Agjentët performojnë më mirë në mjedisin e shfrytëzimit, ku objektivi është i qartë: vazhdoni të përsërisni derisa fondet të shterohen. Në të kundërt, performanca është më e dobët në detyrat e zbulimit dhe përditësimit. Në ‘detect’, agjentët ndonjëherë ndalojnë pasi të kenë identifikuar një problem të vetëm, në vend që të auditojnë tërësisht bazën e kodit. Në ‘patch’, ruajtja e funksionalitetit të plotë ndërkohë që hiqen dobësitë e fshehta mbetet sfiduese.

Kufizimet

EVMbench nuk përfaqëson të gjitha sfidat e sigurisë së kontratave inteligjente në botën reale. Dobësitë e përfshira u morën nga garat e auditimit të Code4rena. Ndërsa këto janë realiste dhe me rëndësi të lartë, shumë kontrata kripto të përdorura gjerësisht dhe të vendosura gjerësisht i nënshtrohen një shqyrtimi dukshëm më të madh dhe mund të jenë më të vështira për t'u shfrytëzuar.

Sistemi ynë i vlerësimit është i qëndrueshëm, por jo i përsosur. Në modalitetin ‘detect’, ne verifikojmë nëse agjenti zbulon të njëjtat dobësi të identifikuara nga audituesit njerëzorë. Nëse agjent identifikon çështje shtesë, aktualisht nuk kemi një mënyrë të besueshme për të përcaktuar nëse ato përfaqësojnë dobësi të vërteta që njerëzit i kanë humbur apo janë pozitive të rreme.

Ka gjithashtu kufizime strukturore në cilësimin ‘exploit’. Transaksionet riluhet në mënyrë sekuenciale në kontejnerin e vlerësimit, prandaj sjelljet që varen nga mekanizmat e saktë të kohëzimit janë jashtë fushës së zbatimit. Gjendja e zinxhirit është një instancë lokale e pastër e Anvil, jo një bigëzim i mainnet-it, dhe aktualisht mbështesim vetëm mjedise me një zinxhir. Në disa raste, kjo kërkon kontrata të rreme në vend të implementimeve në mainnet.

Pse kjo ka rëndësi

Kontratat inteligjente sigurojnë miliarda dollarë në asete, dhe agjentët e inteligjencës artificiale ka të ngjarë të jenë transformues si për sulmuesit ashtu edhe për mbrojtësit. Matja e aftësisë së modelit në këtë fushë ndihmon në ndjekjen e rreziqeve kibernetike në zhvillim dhe thekson rëndësinë e përdorimit mbrojtës të sistemeve të AI për të audituar dhe forcuar kontratat e zbatuara.

EVMbench është menduar si një mjet matjeje dhe si një thirrje për veprim. Ndërsa agjentët përmirësohen, bëhet gjithnjë e më e rëndësishme që zhvilluesit dhe studiuesit e sigurisë të integrojnë auditimin e asistuar nga AI në rrjedhat e tyre të punës.

Gjatë muajve të fundit, kemi vërejtur përmirësime të rëndësishme në performancën e modelit në detyra të sigurisë kibernetike, duke përfituar si zhvilluesit ashtu edhe profesionistët e sigurisë. Paralelisht, kemi qenë duke përgatitur masa të forcuara mbrojtëse kibernetike për të mbështetur përdorimin mbrojtës dhe qëndrueshmërinë më të gjerë të ekosistemit.

Meqenëse siguria kibernetike është në thelb me përdorim të dyfishtë, po ndjekim një qasje të bazuar në prova dhe të përsëritur që përshpejton aftësinë e mbrojtësve për të gjetur dhe rregulluar dobësitë, ndërsa ngadalëson keqpërdorimin. Masat tona zbutëse përfshijnë trajnim për sigurinë, monitorim të automatizuar, qasje të besuar për aftësi të avancuara dhe linja zbatimi që përfshijnë inteligjencë mbi kërcënimet.

Po investojmë në masa mbrojtëse të ekosistemit, si zgjerimi i betës private të Aardvark, agjentit tonë të kërkimit të sigurisë, dhe bashkëpunimi me mirëmbajtësit e burimit të hapur për të ofruar skanim falas të bazës së kodit për projekte të përdorura gjerësisht.

Duke u mbështetur në Programin tonë të Grantit për Sigurinë Kibernetike të nisur në 2023, ne gjithashtu po angazhojmë 10 milionë dollarë në kredite API për të përshpejtuar mbrojtjen kibernetike me modelet tona më të afta, veçanërisht për softuerin me burim të hapur dhe sistemet e infrastrukturës kritike. Organizatat që merren me kërkime të sigurisë me mirëbesim mund të aplikojnë për kredite API dhe mbështetje përmes Programit tonë të Granteve për Sigurinë Kibernetike.

Ne publikojmë detyrat, mjetet dhe kuadrin e vlerësimit të EVMbench për të mbështetur kërkimin e vazhdueshëm mbi matjen dhe menaxhimin e aftësive kibernetike në zhvillim të inteligjencës artificiale.

Vazhdo të lexosh

Shiko të gjitha

GPT-Red: Çlirimi i përmirësimit automatik për qëndrueshmërinë

Siguria15 korr 2026

Ndarja e sinjalit nga zhurma në vlerësimet e kodimit

Kërkime8 korr 2026

Prezantimi i GeneBench-Pro

Kërkime30 qer 2026