Siirry pääsisältöön
OpenAI

18. helmikuuta 2026

TutkimusJulkaisu

Esittelyssä EVMbench

Älysopimusten turvallisuuden parantaminen arvioimalla tekoälyagenttien kykyä havaita, korjata ja hyödyntää haavoittuvuuksia lohkoketjuympäristöissä.

Ladataan...

Älysopimukset turvaavat rutiininomaisesti yli 100 miljardin dollarin arvosta avoimen lähdekoodin kryptovaroja. Tekoälyagenttien koodin lukemisen, kirjoittamisen ja suorittamisen kehittyessä on yhä tärkeämpää mitata niiden kykyä taloudellisesti merkityksellisissä ympäristöissä ja kannustaa tekoälyjärjestelmien puolustukselliseen käyttöön tehtyjen sopimusten auditoimiseksi ja vahvistamiseksi.

Yhdessä Paradigman(avautuu uudessa ikkunassa) kanssa esittelemme EVMbenchin – vertailuarvon, joka arvioi tekoälyagenttien kykyä havaita, korjata ja hyödyntää älysopimusten vakavia haavoittuvuuksia. EVMbench hyödyntää 117 kuratoitua haavoittuvuutta 40 auditoinnista, joista suurin osa on peräisin avoimen koodin auditointikilpailuista.  EVMbench sisältää lisäksi useita haavoittuvuusskenaarioita, jotka on johdettu Tempo(avautuu uudessa ikkunassa) -lohkoketjun tietoturvatarkastusprosessista. Tempo on tarkoitukseen kehitetty L1, joka on suunniteltu mahdollistamaan suuren suoritustehon ja edulliset maksut stablecoinien kautta. Nämä skenaariot laajentavat vertailuarvoa maksupainotteiseen älysopimuskoodiin, jossa odotamme agenttipohjaisten stablecoin-maksujen kasvavan, ja auttavat ankkuroimaan sen merkitykseltään kasvavaan kontekstiin.

Tehtäväympäristöjemme luomiseksi mukautimme olemassa olevia konseptin toimivuuden osoittavia exploit-testejä ja käyttöönottoskriptejä, kun niitä oli saatavilla, ja muussa tapauksessa kirjoitimme ne manuaalisesti. Korjaustilassa varmistimme, että haavoittuvuudet ovat hyödynnettävissä ja että niitä voidaan lieventää ilman käännöksen rikkovia muutoksia, jotka vaarantaisivat kokoonpanomme. Hyödyntämistilaa varten kirjoitimme mukautettuja luokittelijoita ja red team -testasimme ympäristöjä löytääksemme ja korjataksemme menetelmiä, joilla agentti voisi huijata arvioijaa. Paradigmin tarjoaman toimialakohtaisen asiantuntemuksen lisäksi käytimme automaattisia tehtävien auditointiagentteja ympäristöjemme luotettavuuden parantamiseksi.

EVMbench arvioi kolmea kykytilaa:

  • Havaitse: Agentit tarkastavat älysopimusten repositorion ja ne pisteytetään havaittujen, totuudenmukaisten haavoittuvuuksien ja niihin liittyvien tarkastuspalkkioiden perusteella.
  • Korjaa: Agentit muokkaavat haavoittuvia sopimuksia ja niiden on säilytettävä tarkoitettu toiminnallisuus samalla kun ne poistavat hyväksikäytettävyyden. Tämä varmistetaan automaattisilla testeillä ja hyväksikäyttötarkistuksilla.
  • Hyödynnä: Agentit suorittavat kokonaisvaltaisia varojen tyhjennykseen tähtääviä hyökkäyksiä käyttöön otettuja sopimuksia vastaan hiekkalaatikkolohkoketjuympäristössä, ja arviointi tehdään ohjelmallisesti transaktioiden uudelleentoiston ja ketjuvarmennuksen avulla.

Objektiivisen ja toistettavan arvioinnin tukemiseksi kehitimme Rust-pohjaisen kehyksen, joka ottaa käyttöön sopimuksia, toistaa agenttien transaktiot deterministisesti ja rajoittaa vaarallisia RPC-menetelmiä. Hyväksikäyttötehtävät suoritetaan eristetyssä paikallisessa Anvil-ympäristössä sen sijaan, että ne suoritettaisiin tuotantoverkoissa, ja haavoittuvuudet ovat historiallisia ja julkisesti dokumentoituja.

Arvioimme edistyneitä agentteja kaikissa kolmessa tilassa. Hyödyntämistilassa GPT‑5.3‑Codexin suorittaminen Codex CLI:n kautta saavuttaa tuloksen 71,0 %. Tämä edustaa merkittävää parannusta aiempiin malleihin verrattuna, kuten GPT‑5, joka sai tuloksen 33,3 % ja joka julkaistiin hieman yli kuusi kuukautta sitten. Havaitsemisen palautusprosentti ja korjausten onnistumisprosentti jäävät yhä alle täyden kattavuuden, sillä agenteille on yhä vaikea löytää ja korjata suurinta osaa haavoittuvuuksista.

EVMbench paljastaa myös mielenkiintoisia eroja mallin käyttäytymisessä eri tehtävissä. Agentit toimivat parhaiten hyödyntämisympäristössä, jossa tavoite on selkeä: jatka iterointia, kunnes varat on tyhjennetty. Sitä vastoin suorituskyky on heikompi havaitsemis- ja korjaustehtävissä. Havaitsemistilassa agentit pysähtyvät joskus tunnistettuaan yhden ongelman sen sijaan, että tarkastaisivat koodikannan perusteellisesti. Korjaustilassa täyden toiminnallisuuden säilyttäminen, samalla kun hienovaraisia haavoittuvuuksia poistetaan, on edelleen haastavaa.

Rajoitukset

EVMbench ei täysin kuvaa reaalimaailman älysopimusten tietoturvan täyttä haastavuutta. Mukana olleet haavoittuvuudet oli poimittu Code4renan auditointikilpailuista. Vaikka nämä ovat realistisia ja vakavia, monet laajalti käytetyt kryptosopimukset läpikäyvät huomattavasti enemmän tarkastelua ja niitä voi olla vaikeampi hyödyntää.

Arviointijärjestelmämme on vankka mutta epätäydellinen. Havaitsemistilassa tarkistamme, löytääkö agentti samat haavoittuvuudet, jotka ihmisauditoijat ovat tunnistaneet. Jos agentti havaitsee muita ongelmia, meillä ei tällä hetkellä ole luotettavaa tapaa selvittää, ovatko ne todellisia haavoittuvuuksia, joita ihmiset eivät ole huomanneet, vai vääriä positiivisia tuloksia.

Hyödyntämisasetuksessa on myös rakenteellisia rajoituksia. Transaktiot toistetaan peräkkäin arviointisäiliössä, joten tarkasta ajoituksesta riippuvat toiminnot eivät kuulu soveltamisalaan. Ketjutila on puhdas paikallinen Anvil-instanssi pikemminkin kuin mainnet-verkon haaroitus, ja tuemme tällä hetkellä vain yhden ketjun ympäristöjä. Joissakin tapauksissa tämä edellyttää kuvitteellisia sopimuksia mainnet-verkon käyttöönoton sijaan.

Miksi tällä on merkitystä?

Älysopimukset turvaavat miljardien dollarien arvosta varoja, ja tekoälyagentit tulevat todennäköisesti olemaan mullistavia sekä hyökkääjille että puolustajille. Mallin kyvykkyyden mittaaminen tässä kontekstissa auttaa seuraamaan uusia kyberriskejä ja korostaa tekoälyjärjestelmien puolustuksellisen käytön tärkeyttä käyttöön otettujen sopimusten auditoinnissa ja vahvistamisessa.

EVMbench on tarkoitettu sekä mittaustyökaluksi että toimintakehotteeksi. Agenttien kehittyessä kehittäjille ja tietoturvatutkijoille on yhä tärkeämpää sisällyttää tekoälyavusteinen auditointi työnkulkuihinsa.

Viime kuukausien aikana olemme havainneet merkittäviä parannuksia mallin suorituskyvyssä kyberturvallisuustehtävissä, mikä hyödyttää sekä kehittäjiä että tietoturva-asiantuntijoita. Samanaikaisesti olemme valmistelleet vahvempia kyberturvatoimia tukemaan puolustuksellista käyttöä ja laajemman ekosysteemin kestävyyttä.

Koska kyberturvallisuus on luonteeltaan kaksoiskäyttöinen, noudatamme näyttöön perustuvaa, iteratiivista lähestymistapaa, joka nopeuttaa puolustajien kykyä löytää ja korjata haavoittuvuuksia samalla väärinkäyttöä hidastaen. Lieventämistoimiimme kuuluvat turvallisuuskoulutus, automaattinen valvonta, luotettu pääsy edistyneisiin ominaisuuksiin sekä täytäntöönpanoprosessit, joihin sisältyy uhkatiedustelu.

Investoimme ekosysteemin suojatoimiin, kuten tietoturvatutkimusagenttimme Aardvarkin yksityisen beetaversion laajentamiseen ja yhteistyöhön avoimen lähdekoodin ylläpitäjien kanssa tarjotaksemme maksutonta koodikannan skannausta laajasti käytetyille projekteille.

Vuonna 2023 käynnistetyn kyberturvallisuusapurahaohjelmamme pohjalta sitoudumme myös myöntämään 10 miljoonan dollarin arvosta API-krediittejä nopeuttaaksemme kyberpuolustusta tehokkaimmilla malleillamme, erityisesti avoimen lähdekoodin ohjelmistojen ja kriittisten infrastruktuurijärjestelmien osalta. Vilpittömässä mielessä tietoturvatutkimusta tekevät organisaatiot voivat hakea API-krediittejä ja tukea kyberturvallisuusapurahaohjelmamme kautta.

Julkaisemme EVMbenchin tehtävä-, työkalu- ja arviointikehyksen tukeaksemme jatkuvaa tutkimusta uusien tekoälyn kyberkyvykkyyksien mittaamisesta ja hallinnasta.