Lumaktaw sa pangunahing content
OpenAI

Pebrero 18, 2026

PananaliksikPaglalathala

Ipinakikilala ang EVMbench

Ginagawang mas ligtas ang mga smart contract sa pamamagitan ng pagsusuri sa kakayahan ng mga AI agent na tumukoy, mag-patch, at manamantala ng mga kahinaan sa mga blockchain environment.

Naglo-load…

Karaniwang nakakakuha ang mga smart contract ng mahigit $100B sa mga open-source na crypto asset. Habang humuhusay ang mga AI agent sa pagbabasa, pagsusulat, at pag-execute ng code, nagiging lalong mahalaga na sukatin ang kanilang mga kakayahan sa mga environment may makabuluhang epekto sa ekonomiya, at hikayatin ang paggamit ng mga AI system sa depensibong paraan upang i-audit at patibayin ang mga na-deploy na kontrata.

Kasama ng Paradigm(magbubukas sa bagong window), ipinapakilala namin ang EVMbench, isang benchmark na sumusuri sa kakayahan ng mga AI agent na tumukoy, mag-patch, at manamantala ng mga napakatinding kahinaan sa smart contract. Kumukuha ang EVMbench ng 117 na piniling kahinaan mula sa 40 na audit, kung saan karamihan ay nagmula sa mga bukas na kumpetisyon sa pag-audit ng code.  Kasama rin sa EVMbench ang ilang eksena ng kahinaan na hinango mula sa proseso ng pag-audit sa seguridad para sa Tempo(magbubukas sa bagong window) blockchain, isang L1 na partikular na dinisenyo upang magbigay-daan sa mga pagbabayad na may mataas na throughput at mababang gastos sa pamamagitan ng mga stablecoin. Pinapalawak ng mga eksenang ito ang benchmark tungo sa payment-oriented na smart contract code, kung saan inaasahan naming madaragdagan ang mga pagbabayad gamit ang agentic stablecoin, at tumutulong na iangkla ito sa domain na may umuusbong na praktikal na kahalagahan.

Upang magawa ang mga environment ng aming gawain, inangkop namin ang mga umiiral na pagsubok sa pagpapatunay ng konsepto ng pananamantala at mga script sa pag-deploy noong umiral ang mga ito, o di kaya ay manu-manong sinulat ang mga ito. Para sa patch mode, tiniyak naming ang mga kahinaan ay maaaring pagsamantalahan at maibsan nang hindi nagdudulot ng mga pagbabagong sisira sa compilation, na maglalagay sa aming setup sa alanganin. Para sa exploit mode, nagsulat kami ng mga pasadyang grader at nag-red-team sa mga environment upang subukang matukoy at ma-patch ang mga paraan na maaaring dumaya sa agent ang grader. Bukod sa pagkontrol ng kalidad ng mga gawain sa pamamagitan ng kaalaman sa domain na ibinigay ng Paradigm, gumamit kami ng mga naka-automate na agent sa pag-audit ng gawain upang makatulong na mas mapatatag ng aming mga environment.

Sinusuri ng EVMbench ang tatlong kakayahan na mode:

  • Pagtukoy: Ang mga agent ay nag-a-audit ng smart contract repository at binibigyan ng marka batay sa pag-alala ng mga tunay na kahinaan at mga kaugnay na gantimpala sa pag-audit.
  • Pag-patch: Binabago ng mga agent ang mga kontratang may kahinaan at dapat panatilihin ang nilalayong pagganap habang inaalis ang posibilidad ng pananamantala, na sinusuri sa pamamagitan ng mga awtomatikong pagsusuri at mga pagsusuri sa pananamantala.
  • Pananamantala: Nagsasagawa ang mga agent ng end-to-end na pag-atake na sumasagad sa pondo laban sa mga na-deploy na kontrata sa isang naka-sandbox na environment ng blockchain, na may pagmamarka na isinasagawa nang programmatically sa pamamagitan ng pag-uulit ng transaksyon at on-chain na beripikasyon.

Upang suportahan ang patas at mauulit na pagsusuri, bumuo kami ng harness na nakabatay sa Rust na nagde-deploy ng mga kontrata, deterministikong nire-replay ang mga transaksyon ng agent, at nililimitahan ang mga hindi ligtas na pamamaraang RPC. Ang mga pananamantalang gawain ay isinasagawa sa nakahiwalay na lokal na environment ng Anvil sa halip na sa mga aktibong network, at ang mga kahinaan ay makasaysayan at nakadokumento para sa publiko.

Sinusuri namin ang mga frontier agent sa tatlong mode. Sa ‘exploit’ mode, ang tumatakbong GPT‑5.3‑Codex sa pamamagitan ng Codex CLI ay nakakamit ng iskor na 71.0%. Ito ay kumakatawan sa makabuluhang pagtaas kumpara sa mga naunang modelo, gaya ng GPT‑5, na nakapuntos ng 33.3% at inilabas mahigit anim na buwan lang ang nakalipas. Ang mga rate ng tagumpay sa pagtukoy ng recall at pag-patch ay nananatiling mas mababa kaysa sa ganap na saklaw, dahil malaking bahagi ng mga kahinaan ay nananatiling mahirap hanapin at ayusin para sa mga agent.

Ipinapakita rin ng EVMbench ang mga kawili-wiling pagkakaiba sa gawi ng modelo sa iba't ibang gawain. Pinakamahusay ang pagganap ng mga agent sa eksenang pananamantala, kung saan malinaw ang layunin: magpatuloy sa pag-iterate hanggang maubos ang pondo. Sa kabaligtaran, mas mahina ang pagganap sa mga gawain ng pagtuklas at pag-patch. Sa ‘detect’, minsan humihinto ang mga agent matapos matukoy ang isang isyu sa halip na masusing i-audit ang buong codebase. Sa ‘patch’, nananatiling hamon ang pagpapanatili ng buong pungsyonalidad habang tinatanggal ang mga di-kapansin-pansing kahinaan.

Mga limitasyon

Hindi kinakatawan ng EVMbench ang buong hirap ng seguridad ng smart contract sa totoong mundo. Ang mga kahinaang isinama ay hinango mula sa mga kompetisyon sa pag-audit ng Code4rena. Bagaman makatotohanan at may mataas na antas ng kalubhaan ang mga ito, maraming crypto na kontrata na malawakang ginagamit at madalas na-deploy ang sumasailalim sa masusing pagsusuri at maaaring mas mahirap pagsamantalahan.

Ang aming sistema ng pagmamarka ay matatag ngunit hindi perpekto. Sa ‘detect’ mode, sinusuri namin kung natutukoy ng agent ang parehong mga kahinaan na natukoy ng mga auditor na tao. Kung matukoy ng agent ang mga karagdagang isyu, wala pa kaming maaasahang paraan sa kasalukuyan upang matukoy kung ang mga ito ay kumakatawan sa tunay na mga kahinaan na hindi napansin ng mga tao o mga maling positibo.

Mayroon ding mga limitasyon sa istraktura sa eksenang ‘expllit’. Ang mga transaksyon ay muling isinasagawa nang sunud-sunod sa container ng pagmamarka, kaya't ang mga gawing umaasa sa eksaktong mekanika ng oras ay wala sa saklaw. Ang estado ng chain ay malinis na lokal na kaganapan ng Anvil sa halip na fork ng mainnet, at kasalukuyan naming sinusuportahan lamang ang mga single-chain na environment. Sa ilang mga kaso, kinakailangan ang mga mock na kontrata sa halip na mga pag-deploy ng mainnet.

Bakit mahalaga ito

Sinisiguro ng mga smart na kontrata ang bilyun-bilyong dolyar na halaga ng mga asset, at malamang na magbago ang mga AI agent para sa parehong mga umaatake at mga nagtatanggol. Ang pagsukat ng kakayahan ng modelo sa domain na ito ay tumutulong sa pagsubaybay sa mga umuusbong na panganib sa cyber at binibigyang-diin ang kahalagahan ng paggamit ng mga sistema ng AI sa depensibong paraan upang i-audit at palakasin ang mga na-deploy na kontrata.

Ang EVMbench ay nilalayon bilang kapwa tool sa pagsukat at panawagan sa pagkilos. Habang humuhusay ang mga agent, nagiging lalong mahalaga para sa mga developer at mananaliksik sa seguridad na isama ang AI-assisted na pag-audit sa kanilang mga daloy ng trabaho.

Sa mga nakalipas na buwan, nakakita kami ng makabuluhang pagbuti sa pagganap ng modelo sa mga gawain sa cybersecurity, na pinakikinabangan ng mga developer at mga propesyonal sa seguridad. Kasabay nito, kami ay naghahanda ng mas pinatibay na mga pananggalang sa cyber upang suportahan ang depensibong paggamit at mas malawak na katatagan ng ecosystem.

Dahil ang cybersecurity ay likas na may dalawahang gamit, gumagamit kami ng pamamaraan na paulit-ulit at nakabatay sa ebidensiya, na nagpapabilis sa kakayahan ng mga tagapagtanggol na maghanap at mag-ayos ng mga kahinaan habang pinapabagal ang maling paggamit. Kasama sa aming mga hakbang sa pagpapagaan ang pagsasanay sa kaligtasan, awtomatikong pagsubaybay, mapagkakatiwalaang pag-access para sa mga advanced na kakayahan, at mga pipeline ng pagpapatupad na kinabibilangan ng banta sa talino.

Namumuhunan kami sa mga pananggalang sa ecosystem tulad ng pagpapalawak ng pribadong beta ng Aardvark, ang aming agent sa pananaliksik sa seguridad, at nakikipagtulungan sa mga tagapangalaga ng open-source upang magbigay ng libreng pag-scan ng codebase para sa mga malawakang ginagamit na proyekto.

Bilang karagdagan sa aming Cybersecurity Grant Program na inilunsad noong 2023, naglalaan din kami ng $10M sa mga API credit upang pabilisin ang depensa sa cyber gamit ang aming pinakamakapangyarihang mga modelo, lalo na para sa open source software at mga kritikal na sistema ng imprastraktura. Maaaring mag-apply ang mga organisasyong nagsasagawa ng pananaliksik sa seguridad na may mabuting hangarin para sa mga API credit at suporta sa pamamagitan ng aming Programa ng Grant sa Cybersecurity.

Inilalabas namin ang mga gawain, toolikng, at balangkas ng pagsusuri ng EVMbench upang suportahan ang patuloy na pananaliksik sa pagsukat at pamamahala ng mga umuusbong na kakayahan ng AI sa cyber.