Liwati menyang isi utama
OpenAI

18 Februari 2026

RisetPublikasi

Ngenalaké EVMbench

Nggawe kontrak cerdas luwih aman kanthi ngevaluasi kemampuan agen AI kanggo ndeteksi, nambal, lan ngeksploitasi kerentanan ing lingkungan blockchain.

Lagi dimuat…

Kontrak cerdas sacara rutin njaga aset kripto open-source senilai $100B+.A0Nalika agen AI saya apik ing maca, nulis, lan nglakokaké kode, dadi saya penting kanggo ngukur kemampuane ing lingkungan sing migunani sacara ekonomi, lan nyengkuyung panggunaan sistem AI kanthi defensif kanggo ngudit lan nguwataké kontrak sing wis dipasang.

Bebarengan karo Paradigm(mbukak ing jendhela anyar), kita ngenalaké EVMbench, sawijining benchmark sing ngevaluasi kemampuan agen AI kanggo ndeteksi, nambal, lan ngeksploitasi kerentanan kontrak cerdas tingkat abot. EVMbench nggunakaké 117 kerentanan pilihan saka 40 audit, sing umume dijupuk saka kompetisi audit kode terbuka.A0 EVMbench uga nyakup sawetara skenario kerentanan saka proses audit keamanan kanggo blockchain Tempo(mbukak ing jendhela anyar), L1 sing dirancang khusus kanggo ndhukung pembayaran liwat stablecoin sing kapasitas pangolahane dhuwur lan biayane murah. Skenario iki ngluwihi benchmark menyang kode kontrak cerdas sing fokus pembayaran, ing ngendi kita ngarepaké pembayaran stablecoin agentic bakal tuwuh, lan mbantu ngukuhaké benchmark iki ing domain sing pentinge praktis lan lagi muncul.

Kanggo nggawe lingkungan tugas, kita nyelarasaké tes exploit proof-of-concept lan skrip deployment sing wis ana, nalika kasedhiya, lan yen ora ana kita nulis kanthi manual. Kanggo mode patch, kita mesthèkaké manawa kerentanan bisa dieksploitasi lan bisa dimitigasi tanpa ngenalaké owah-owahan sing ngrusak kompilasi, sing bakal ngrusak setelan kita. Kanggo mode exploit, kita nulis grader kustom lan nindakake red-team marang lingkungan kasebut kanggo nyoba nemokaké lan nambal cara-cara sing bisa digunakaké agen kanggo ngapusi grader. Saliyane kontrol kualitas tugas liwat kaprigelan domain sing diwènèhaké Paradigm, kita nggunakaké agen audit tugas otomatis kanggo mbantu nambah kekokohan lingkungan kita.

EVMbench ngevaluasi telung mode kemampuan:

  • Deteksi: Agen ngudit sawijining gudang kode kontrak cerdas lan dinilai adhedhasar recall saka kerentanan ground-truth lan ganjaran audit sing gegandhengan.
  • Patch: Agen ngowahi kontrak sing rentan lan kudu njaga fungsi sing dikarepaké nalika ngilangi kemungkinan exploit, diverifikasi liwat tes otomatis lan mriksa exploit.
  • Exploit: Agen nglakokaké serangan nguras dana end-to-end marang kontrak sing dipasang ing lingkungan blockchain sandbox, kanthi penilaian ditindakake sacara terprogram liwat replay transaksi lan verifikasi on-chain.

Kanggo ndhukung evaluasi sing objektif lan bisa diulang, kita ngembangaké harness berbasis Rust sing masang kontrak, muter ulang transaksi agen kanthi deterministik, lan matesi metode RPC sing ora aman. Tugas exploit mlaku ing lingkungan Anvil lokal sing kapisah tinimbang ing jaringan langsung, lan kerentanane iku historis lan wis didokumentasèkaké sacara umum.

Kita ngevaluasi agen tercanggih ing kabeh telung mode. Ing mode ‘exploit’, GPT‑5.3‑Codex sing mlaku liwat Codex CLI nggayuh skor 71.0%. Iki nuduhaké peningkatan gedhé dibandhing model sadurungé, kayata GPT‑5, sing skore 33.3% lan dirilis mung luwih saka nem sasi kepungkur. Tingkat recall deteksi lan tingkat kasil patch isih durung nutupi kabeh, amarga bagean gedhé kerentanan isih angel ditemokaké lan didandani déning agen.

EVMbench uga mbukak bedane prilaku model sing menarik ing macem-macem tugas. Agen paling apik performane ing setelan exploit, ing ngendi tujuane cetha: terus ngiterasi nganti dana kasedhot. Kosok baline, performa luwih ringkih ing tugas deteksi lan patch. Ing ‘deteksi’, agen kadhang mandheg sawisé ngenali siji masalah tinimbang ngudit basis kode kanthi tuntas. Ing ‘patch’, njaga fungsi lengkap nalika mbusak kerentanan alus isih dadi tantangan.

Watesan

EVMbench ora makili kabeh tingkat angelé keamanan kontrak cerdas ing donya nyata. Kerentanan sing kalebu dijupuk saka kompetisi audit Code4rena. Sanadyan iki realistis lan tingkaté abot, akèh kontrak kripto sing dipasang sacara jembar lan digunakaké sacara amba ngalami pengawasan sing luwih ketat lan bisa dadi luwih angel dieksploitasi.

Sistem penilaian kita kuwat nanging ora sampurna. Ing mode ‘deteksi’, kita mriksa apa agen nemokaké kerentanan sing padha karo sing diidentifikasi auditor manungsa. Yen agen ngenali masalah tambahan, saiki kita durung nduwé cara sing andal kanggo nemtokaké apa kuwi kerentanan nyata sing kliwat saka manungsa utawa mung positif palsu.

Uga ana watesan struktural ing setelan ‘exploit’. Transaksi diputer ulang kanthi urut ing kontainer penilaian, mula prilaku sing gumantung marang mekanika wektu sing presisi ora kalebu. State chain iku instans Anvil lokal sing resik tinimbang cabang saka mainnet, lan saiki kita mung ndhukung lingkungan rantai tunggal. Ing sawetara kasus iki mbutuhaké kontrak mock tinimbang deployment mainnet.

Napa iki penting

Kontrak cerdas njaga aset nganti miliaran dolar, lan agen AI kamungkinan bakal nggawa owah-owahan gedhé kanggo penyerang lan uga pembela. Ngukur kemampuan model ing domain iki mbantu nglacak risiko siber sing lagi muncul lan nyorot pentinge nggunakaké sistem AI kanthi defensif kanggo ngudit lan nguwataké kontrak sing wis dipasang.

EVMbench dimaksudaké dadi alat pangukuran lan uga ajakan tumindak. Nalika agen saya apik, dadi saya penting kanggo para pangembang lan panaliti keamanan kanggo nggabungaké audit sing dibantu AI menyang alur kerja.

Sajrone sawetara wulan pungkasan, kita ndelok peningkatan migunani ing performa model kanggo tugas keamanan siber, sing nguntungaké pangembang lan profesional keamanan. Bebarengan karo kuwi, kita wis nyiapaké pengaman siber sing dikuatké kanggo ndhukung panggunaan defensif lan ketahanan ekosistem sing luwih amba.

Amarga keamanan siber sipaté dual-use, kita njupuk pendekatan iteratif adhedhasar bukti sing nyepetaké kemampuan pembela kanggo nemokaké lan ndandani kerentanan nalika uga ngalonaké panyalahgunaan. Mitigasi kita kalebu pelatihan keamanan, pemantauan otomatis, akses tepercaya kanggo kemampuan lanjutan, lan alur enforcement kalebu intelijen ancaman.

Kita nandur modal ing pengaman ekosistem kayata ngembangaké private beta saka Aardvark, agen riset keamanan kita, lan kerja bareng karo maintainer open-source kanggo nyedhiyakké pemindaian basis kode gratis kanggo proyek sing akèh digunakaké.

Nerusaké Program Hibah Keamanan Siber sing diluncuraké ing 2023, kita uga nggelontorké komitmen kredit API senilai $10M kanggo nyepetaké pertahanan siber nganggo model kita sing paling mumpuni, utamané kanggo piranti lunak open source lan sistem infrastruktur kritis. Organisasi sing melu riset keamanan kanthi itikad apik bisa ndhaptar kredit API lan dhukungan liwat Program Hibah Keamanan Siber kita.

Kita ngrilis tugas, perkakas, lan kerangka evaluasi EVMbench kanggo ndhukung riset sing terus lumaku babagan ngukur lan ngatur kemampuan siber AI sing lagi muncul.