Представяме Ви EVMbench
Повишаване на безопасността на интелигентните договори чрез оценка на способността на интелигентните агенти да откриват, поправят и използват уязвимости в блокчейн среди.
Интелигентните договори рутинно осигуряват над 100 милиарда долара в криптоактиви с отворен код. С подобряването на способностите на интелигентните агенти в четенето, писането и изпълнението на код, става все по-важно да се оценяват техните възможности в икономически значими среди и да се насърчава използването на системи с ИИ за одит и укрепване на внедрени договори.
Заедно с Paradigm(отваря се в нов прозорец) представяме EVMbench — бенчмарк, който оценява способността на интелигентните агенти да откриват, коригират и експлоатират уязвимости с висока степен на критичност в интелигентни договори. EVMbench се учи от 117 подбрани уязвимости от 40 одита, като повечето са от състезания за одит на отворен код. EVMbench допълнително включва няколко примерни ситуации за уязвимости, извлечени от процеса на одит на сигурността за блокчейна Tempo(отваря се в нов прозорец), специално създаден L1, проектиран да позволява плащания с висока производителност и ниска стойност чрез стабилни монети. Тези примерни ситуации разширяват бенчмарка към код на интелигентни договори, ориентиран към плащания, където очакваме агентските плащания със стабилни монети да нарастват и да го утвърдят в област с нарастващо практическо значение.
За да създадем нашите работни среди, адаптирахме съществуващи тестове с експериментални експлойти и скриптове за внедряване, когато бяха налични, а когато не – ги написахме ръчно. За режима на пачване гарантирахме, че уязвимостите са експлоатируеми и могат да бъдат смекчени, без да се въвеждат промени, които биха нарушили компилацията и компрометирали нашата конфигурация. За режима на експлоатиране написахме персонализирани оценители и проведохме червени екипи на средите в опит да открием и коригираме методи, чрез които агент може да измами оценителя. В допълнение към контрола на качеството на задачите чрез експертиза в областта, предоставена от Paradigm, използвахме автоматизирани агенти за одит на задачите, за да повишим надеждността на нашите среди.
EVMbench оценява три режима на способности:
- Откриване: Агентите извършват одит на хранилище за интелигентни договори и правят оценка по степента на разпознаване на уязвимости от базовата истина и свързаните с одита награди.
- Пач: Агентите модифицират уязвими договори и трябва да запазят предвидената функционалност, като същевременно елиминират възможността за експлоатация, проверена чрез автоматизирани тестове и проверки за експлоатация.
- Уязвимост: Агентите извършват цялостни атаки за източване на средства срещу внедрени договори в изолирана блокчейн среда, като оценяването се извършва програмно чрез повторно изпълнение на транзакции и проверка на веригата.
За да подпомогнем обективна и възпроизводима оценка, разработихме свръзка, базирана на Rust, която внедрява договори, възпроизвежда детерминистично транзакциите на агентите и ограничава небезопасните RPC методи. Задачите за експлоатация се изпълняват в изолирана локална среда на Anvil, а не в реални мрежи, като уязвимостите са исторически и публично документирани.
Оценяваме авангардни агенти във всичките три режима. В режим „уязвимост“, GPT‑5.3‑Codex изпълнението чрез Codex CLI постига резултат от 71,0%. Това представлява значителен напредък спрямо предишните модели, като GPT‑5, който получава 33,3% и беше пуснат преди малко повече от шест месеца. Нивото на успеваемост при откриване, отзоваване и поправяне остават под пълното покритие, тъй като голяма част от уязвимостите продължават да бъдат трудни за откриване и отстраняване от агентите.
EVMbench също разкрива интересни разлики в поведението на модела при различни задачи. Агентите се представят най-добре в среда за уязвимости, където целта е ясно определена: при продължително повтаряне, докато средствата не бъдат изчерпани. За разлика от това, производителността е по-слаба при задачи за откриване и коригиране. При „откриване“ агентите понякога спират след като идентифицират един-единствен проблем, вместо да извършат изчерпателен одит на кодовата база. При „пач“ запазването на пълната функционалност, докато се премахват фини уязвимости, остава предизвикателство.
EVMbench не отразява напълно сложността на сигурността на интелигентните договори в реалния свят. Включените уязвимости бяха взети от състезания по одит на Code4rena. Макар че те са реалистични и с висока степен на сериозност, много широко внедрени и широко използвани крипто договори преминават през значително по-строг контрол и може да бъдат по-трудни за експлоатация.
Нашата система за оценяване е устойчива, но несъвършена. В режим „откриване“ проверяваме дали агентът открива същите уязвимости, идентифицирани от човешки одитори. Ако агентът засече допълнителни проблеми, понастоящем не разполагаме с надежден начин да определим дали те представляват истински уязвимости, които хората са пропуснали, или фалшиви положителни резултати.
Има и структурни ограничения в настройката „уязвимости“. Транзакциите се възпроизвеждат последователно в контейнера за оценяване, така че поведения, които зависят от прецизни времеви механизми, са извън обхвата. Състоянието на веригата е чист локален екземпляр на Anvil, а не клониране на основната мрежа, и в момента поддържаме само среди с една верига. В някои случаи това изисква „измислени“ договори вместо внедрявания в основната мрежа.
Интелигентните договори защитават активи на стойност милиарди долари, а агентите с изкуствен интелект вероятно ще бъдат повратни както за нападателите, така и за екипите по сигурността. Измерването на способностите на модела в тази област помага за проследяване на възникващите киберрискове и подчертава значението на използването на системи с ИИ за защитни цели, за да се одитират и укрепват внедрените договори.
EVMbench е както инструмент за измерване, така и за призив за действие. С усъвършенстването на агентите става все по-важно за разработчиците и изследователите по сигурността да включват одит с помощта на ИИ в своите работни процеси.
През последните месеци наблюдаваме значителни подобрения в представянето на модела при задачи, свързани с киберсигурността, от които се възползват както разработчиците, така и специалистите по сигурността. Успоредно с това, подготвяме засилени киберзащитни мерки за подкрепа на защитната употреба и по-широката устойчивост на екосистемата.
Тъй като киберсигурността по своята същност е с двойна употреба, ние прилагаме основан на доказателства, итеративен подход, който ускорява способността на екипите по сигурността да откриват и отстраняват уязвимости, като същевременно забавя злоупотребата. Нашите мерки за смекчаване включват обучение по безопасност, автоматизирано наблюдение, доверен достъп за разширени възможности и канали за прилагане, включително разузнаване на заплахи.
Инвестираме в мерки за защита на екосистемата, като разширяваме частната бета версия на Aardvark, нашия агент за проучвания на сигурността, и си партнираме с поддържащи разработчици, използващи отворен код, за да предоставим безплатно сканиране на кодовата база за широко използвани проекти.
Надграждайки нашата програма за субсидии в областта на киберсигурността, стартирана през 2023 г., ние също така се ангажираме да предоставим 10 млн. долара под формата на кредити за API, за да ускорим киберзащитата с нашите най-способни модели, особено за софтуер с отворен код и системи за критична инфраструктура. Организациите, които извършват добросъвестни изследвания в областта на сигурността, могат да кандидатстват за API кредити и поддръжка чрез нашата Програма за субсидии за киберсигурност.
Публикуваме задачите, инструментариума и рамката за оценяване на EVMbench, за да подкрепим по-нататъшните изследвания върху измерването и управлението на нововъзникващите киберспособности на ИИ.


