18 Februari 2026

Memperkenalkan EVMbench

Meningkatkan keamanan kontrak pintar dengan mengevaluasi kemampuan agen AI dalam mendeteksi, menambal, dan mengeksploitasi kerentanan di lingkungan blockchain.

Baca makalahnya

Memuat…

Kontrak pintar setiap saat melindungi aset kripto sumber terbuka dengan nilai melampaui $100 miliar. Seiring agen AI semakin mahir membaca, menulis, dan mengeksekusi kode, pengukuran kemampuannya dalam lingkungan yang memiliki nilai ekonomi nyata menjadi semakin penting, sekaligus mendorong pemanfaatan AI secara defensif untuk mengaudit dan memperkuat kontrak yang telah diterapkan.

Bersama Paradigm⁠(terbuka di jendela baru), kami memperkenalkan EVMbench, sebuah tolok ukur yang mengevaluasi kemampuan agen AI untuk mendeteksi, memperbaiki, dan mengeksploitasi kerentanan smart contract dengan tingkat keparahan tinggi. EVMbench menggunakan 117 kerentanan yang dikurasi dari 40 audit, dengan sebagian besar diambil dari kompetisi audit kode terbuka. EVMbench juga mencakup beberapa skenario kerentanan yang diambil dari proses audit keamanan untuk blockchain Tempo⁠(terbuka di jendela baru), sebuah L1 yang dirancang khusus untuk memungkinkan pembayaran berbiaya rendah dan throughput tinggi menggunakan stablecoin. Skenario-skenario ini memperluas tolok ukur ke dalam kode smart contract yang berorientasi pada pembayaran, di mana kami memperkirakan pembayaran stablecoin berbasis agen akan tumbuh, dan membantu mengaitkannya dengan domain yang semakin penting secara praktis.

Untuk membangun lingkungan tugas kami, kami mengadaptasi uji eksploitasi bukti konsep dan skrip penerapan yang sudah ada, dan jika belum tersedia, kami menuliskannya secara manual. Untuk mode tambalan, kami memastikan bahwa kerentanan dapat dieksploitasi dan dapat dimitigasi tanpa menimbulkan perubahan yang menyebabkan kegagalan kompilasi, yang dapat merusak konfigurasi kami. Untuk mode eksploitasi, kami membuat grader khusus dan melakukan red-teaming pada lingkungan pengujian guna menemukan serta menutup celah yang memungkinkan agen memanipulasi penilaian. Selain pengendalian kualitas tugas melalui keahlian domain yang disediakan oleh Paradigm, kami menggunakan agen audit tugas otomatis untuk membantu meningkatkan ketahanan lingkungan kami.

EVMbench mengevaluasi tiga mode kemampuan:

Deteksi: Agen mengaudit repositori kontrak pintar dan dinilai berdasarkan pengenalan kembali kerentanan yang sebenarnya dan imbalan audit yang terkait.
Patch: Agen memodifikasi kontrak yang rentan dan harus mempertahankan fungsionalitas yang dimaksudkan sambil menghilangkan eksploitabilitas, yang diverifikasi melalui pengujian otomatis dan pemeriksaan eksploitasi.
Eksploitasi: Agen melaksanakan serangan pengurasan dana secara menyeluruh terhadap kontrak yang diterapkan dalam lingkungan blockchain sandbox, dengan penilaian dilakukan secara otomatis melalui pemutaran ulang transaksi dan verifikasi on-chain.

Untuk mendukung evaluasi yang objektif dan dapat direproduksi, kami mengembangkan alat berbasis Rust yang menerapkan kontrak, memutar ulang transaksi agen secara deterministik, dan membatasi metode RPC yang tidak aman. Tugas eksploitasi dijalankan dalam lingkungan Anvil lokal yang terisolasi, bukan di jaringan langsung, dan kerentanan bersifat historis serta didokumentasikan secara publik.

Kami mengevaluasi agen terdepan di ketiga mode. Dalam mode ‘eksploit’, GPT‑5.3‑Codex yang dijalankan melalui Codex CLI mencapai skor 71,0%. Ini merupakan peningkatan signifikan dibandingkan model sebelumnya, seperti GPT‑5, yang memiliki skor 33,3% dan dirilis lebih dari enam bulan yang lalu. Tingkat keberhasilan deteksi, recall, dan patch tetap di bawah cakupan penuh, karena sebagian besar kerentanan masih sulit ditemukan dan diperbaiki oleh agen.

EVMbench juga mengungkapkan perbedaan menarik dalam perilaku model di berbagai tugas. Agen berkinerja terbaik dalam pengaturan eksploitasi, di mana tujuannya jelas: terus melakukan iterasi hingga dana habis. Sebaliknya, kinerja untuk tugas mendeteksi dan memperbaiki kerentanan masih lebih rendah. Dalam ‘detect’, agen terkadang berhenti setelah mengidentifikasi satu masalah, daripada mengaudit basis kode secara menyeluruh. Dalam ‘patch’, mempertahankan fungsionalitas penuh sambil menghilangkan kerentanan halus tetap menjadi tantangan.

Batasan

EVMbench tidak sepenuhnya mencerminkan tingkat kesulitan keamanan kontak cerdas di dunia nyata. Kerentanan yang disertakan diambil dari kompetisi audit Code4rena. Meskipun kerentanan ini realistis dan berdampak tinggi, banyak kontrak kripto yang digunakan secara luas dan telah di-deploy secara masif melalui proses pengujian yang jauh lebih ketat sehingga lebih sulit untuk dieksploitasi.

Sistem penilaian kami kuat tetapi tidak sempurna. Dalam mode ‘deteksi’, kami memeriksa apakah agen menemukan kerentanan yang sama yang diidentifikasi oleh auditor manusia. Jika agen mengidentifikasi masalah tambahan, saat ini kami tidak memiliki cara yang dapat diandalkan untuk menentukan apakah masalah tersebut merupakan kerentanan nyata yang terlewatkan oleh manusia atau positif palsu.

Ada juga keterbatasan struktural dalam pengaturan ‘eksploitasi’. Transaksi diputar ulang secara berurutan di wadah penilaian, sehingga perilaku yang bergantung pada mekanisme waktu yang presisi berada di luar cakupan. Keadaan rantai adalah instance Anvil lokal yang bersih, bukan fork dari mainnet, dan saat ini kami hanya mendukung lingkungan rantai tunggal. Dalam beberapa kasus, ini memerlukan kontrak tiruan alih-alih penerapan mainnet.

Mengapa hal ini penting

Kontrak pintar mengamankan aset bernilai miliaran dolar, dan agen AI kemungkinan akan membawa perubahan besar bagi penyerang maupun pembela. Mengukur kapabilitas model dalam domain ini membantu melacak risiko siber yang muncul dan menyoroti pentingnya menggunakan sistem AI secara defensif untuk mengaudit dan memperkuat kontrak yang sudah diterapkan.

EVMbench dimaksudkan sebagai alat pengukuran dan juga sebagai ajakan untuk bertindak. Seiring kemampuan agen semakin berkembang, menjadi semakin penting bagi developer dan peneliti keamanan untuk mengintegrasikan audit berbantuan AI ke dalam alur kerja mereka.

Selama beberapa bulan terakhir, kami telah melihat peningkatan yang signifikan dalam kinerja model pada tugas keamanan siber, yang bermanfaat bagi pengembang dan profesional keamanan. Secara bersamaan, kami telah mempersiapkan pengamanan siber yang diperkuat untuk mendukung penggunaan defensif dan ketahanan ekosistem yang lebih luas.

Karena keamanan siber pada dasarnya bersifat kegunaan ganda, kami mengambil pendekatan berbasis bukti dan iteratif yang mempercepat kemampuan para pembela untuk menemukan dan memperbaiki kerentanan sambil memperlambat penyalahgunaan. Mitigasi kami mencakup pelatihan keselamatan, pemantauan otomatis, akses tepercaya untuk kapabilitas tingkat lanjut, serta jalur penegakan termasuk intelijen ancaman.

Kami berinvestasi dalam perlindungan ekosistem dengan memperluas private beta Aardvark, agen riset keamanan kami, serta bekerja sama dengan para pemelihara sumber terbuka untuk menyediakan pemindaian kode gratis bagi proyek yang banyak digunakan.

Berdasarkan Program Hibah Keamanan Siber kami yang diluncurkan pada 2023, kami juga berkomitmen untuk memberikan $10 juta dalam bentuk kredit API untuk mempercepat pertahanan siber dengan model kami yang paling canggih, terutama untuk perangkat lunak sumber terbuka dan sistem infrastruktur kritis. Organisasi yang terlibat dalam penelitian keamanan dengan itikad baik dapat mengajukan kredit API dan dukungan melalui Program Hibah Keamanan Siber kami.

Kami merilis tugas, alat, dan kerangka evaluasi EVMbench untuk mendukung penelitian berkelanjutan tentang pengukuran dan pengelolaan kemampuan siber AI yang sedang berkembang.

Terus membaca

Lihat semua

GPT-Red: Membuka Jalan Peningkatan Diri untuk Ketangguhan

Keselamatan15 Jul 2026

Memisahkan sinyal dari derau dalam evaluasi pengodean

Riset8 Jul 2026

Memperkenalkan GeneBench-Pro

Riset30 Jun 2026