Представляем EVMbench
Повышение безопасности смарт-контрактов путем оценки способности ИИ-агентов обнаруживать, устранять и использовать уязвимости в блокчейн-средах.
Смарт-контракты регулярно обеспечивают безопасность более 100 млрд долларов в криптоактивах с открытым исходным кодом. Агенты ИИ постоянно совершенствуются в чтении, написании и выполнении кода, и становится всё важнее измерять их возможности в экономически значимых условиях и поощрять использование систем ИИ для аудита и укрепления развернутых контрактов.
Совместно с Paradigm(открывается в новом окне) мы представляем EVMbench — бенчмарк, оценивающий способность ИИ-агентов обнаруживать, устранять и эксплуатировать критические уязвимости смарт-контрактов. EVMbench основан на 117 тщательно отобранных уязвимостях из 40 аудитов, большинство из них взяты из открытых соревнований по аудиту кода. EVMbench дополнительно включает несколько сценариев уязвимостей, взятых из процесса аудита безопасности для блокчейна Tempo(открывается в новом окне) — специализированного L1, разработанного для обеспечения высокой пропускной способности и низкой стоимости платежей с использованием стейблкойнов. Эти сценарии расширяют бенчмарк на область кода смарт-контрактов, ориентированных на платежи, где мы ожидаем роста агентных платежей в стейблкойнах, и помогают закрепить его в области новой практической значимости.
Для создания рабочих сред мы адаптировали тесты эксплойтов и скрипты развертывания, если таковые существовали (в противном случае — писали их вручную). Для режима исправлений мы убедились, что уязвимости могут быть использованы и что их можно устранить без внесения изменений, нарушающих компиляцию, что поставило бы под угрозу нашу конфигурацию. Для режима использования уязвимостей мы написали пользовательские программы оценки и провели тестирование сред на угрозу извне (red teaming), пытаясь найти и устранить методы, с помощью которых агент мог бы обмануть программу оценки. В дополнение к контролю качества задач с использованием предметной экспертизы, предоставляемой Paradigm, мы использовали автоматизированных агентов аудита задач, чтобы повысить надежность наших сред.
EVMbench оценивает три режима работы:
- Обнаружение: Агенты проводят аудит репозитория смарт-контрактов и оцениваются по полноте выявления реальных уязвимостей и соответствующим вознаграждениям за аудит.
- Исправление: Агенты модифицируют уязвимые контракты и должны сохранять их предполагаемую функциональность, устраняя возможность использования уязвимостей, что подтверждается автоматизированными тестами и проверками на наличие эксплойтов.
- Использование уязвимостей: Агенты проводят атаки по полному выводу средств, направленные на развернутые контракты в изолированной среде блокчейна, при этом программно проводится оценка (через воспроизведение транзакций и проверку на блокчейне).
Для обеспечения объективной и воспроизводимой оценки мы разработали harness на базе Rust, который развертывает контракты, детерминированно воспроизводит транзакции агентов и ограничивает небезопасные RPC-методы. Задачи по использованию уязвимостей выполняются в изолированной локальной среде Anvil, а не в рабочих сетях; далее уязвимости архивируются и открыто документируются.
Мы оцениваем передовых агентов по всем трём режимам. В режиме «использования уязвимостей» GPT‑5.3‑Codex, запущенный через Codex CLI, обеспечивает результат 71,0%. Это значительный прирост по сравнению с предыдущими моделями, такими как GPT‑5, которая набрала 33,3% и была выпущена чуть более шести месяцев назад. Показатели успешности обнаружения и исправления остаются ниже полного охвата, так как значительная часть уязвимостей остается сложной для обнаружения и устранения агентами.
EVMbench также выявляет интересные различия в поведении модели при выполнении различных задач. Наилучшие результаты агенты показывают в условиях эксплойта, где есть четкая цель: продолжать итерации, пока не будут выведены все средства. При выполнении задач по обнаружению и исправлению производительность ниже. В режиме «обнаружения» агенты иногда останавливаются после выявления одной проблемы, вместо того чтобы провести комплексный аудит всей кодовой базы. В режиме «исправления» сложной задачей остаётся поддержание полной функциональности при устранении скрытых уязвимостей.
EVMbench не отражает всей сложности реальной безопасности смарт-контрактов. Включённые уязвимости были взяты из аудиторских конкурсов Code4rena. Хотя они реалистичны и имеют высокую степень серьезности, многие широко развернутые и часто используемые криптоконтракты проходят значительно более тщательную проверку и могут быть сложнее для эксплойта.
Наша система оценок надежна, но несовершенна. В режиме «обнаружения» мы проверяем, находит ли агент те же уязвимости, которые выявили аудиторы. Если агент выявляет дополнительные проблемы, мы (пока что) не имеем надежного способа определить, истинные ли это уязвимости, пропущенные аудиторами-людьми, или ложные срабатывания.
В режиме «использования уязвимостей» также присутствуют структурные ограничения. Транзакции воспроизводятся последовательно в контейнере оценивания, поэтому поведение, зависящее от точных временных механизмов, не рассматривается. Блокчейн — чистый локальный экземпляр Anvil, а не форк основной сети; к тому же, в настоящее время мы поддерживаем только односетевые среды. В некоторых случаях вместо развертываний в основной сети для этого требуется создание пробных контрактов.
Смарт-контракты обеспечивают безопасность активов на миллиарды долларов, а агенты ИИ, скорее всего, со временем станут ключевыми помощниками как для злоумышленников, так и для защитников. Анализ возможностей модели в этой области помогает отслеживать возникающие киберриски и подчёркивает важность использования систем ИИ в оборонительных целях для аудита и укрепления надежности развернутых контрактов.
EVMbench был создан как для измерения, так и в качестве призыва к действию. По мере совершенствования агентов разработчикам и исследователям в области безопасности становится всё важнее включать в свои рабочие процессы аудит с использованием ИИ.
В последние месяцы мы наблюдали значительные улучшения в производительности моделей при выполнении задач кибербезопасности, что приносит пользу как разработчикам, так и специалистам по безопасности. Параллельно мы готовили усиленные меры киберзащиты, чтобы поддержать оборонительное использование и повысить устойчивость экосистемы.
Кибербезопасность по своей природе является технологией двойного назначения, поэтому мы применяем основанный на доказательствах итеративный подход, который ускоряет способность защитников находить и устранять уязвимости, одновременно препятствуя их использованию во вред. Наши меры по снижению рисков включают обучение по безопасности, автоматизированный мониторинг, доверенный доступ к расширенным возможностям и механизмы правоприменения, включая анализ угроз.
Мы инвестируем в защиту экосистемы, включая расширение закрытой бета-версии Aardvark, нашего агента по исследованию безопасности, и сотрудничаем со специалистами по проектам с открытым исходным кодом, чтобы предоставлять бесплатное сканирование кодовой базы для широко используемых проектов.
В рамках развития нашей программы грантов по кибербезопасности, запущенной в 2023 году, мы также выделяем 10 млн долларов США в виде API-кредитов, чтобы оптимизировать киберзащиту с помощью наших самых мощных моделей, в особенности для программного обеспечения с открытым исходным кодом и систем критической инфраструктуры. Организации, занимающиеся добросовестными исследованиями в области безопасности, могут подать заявку на кредиты API и поддержку через нашу программу грантов по кибербезопасности.
Мы выпускаем задачи, инструменты и оценочную платформу EVMbench для поддержки дальнейших исследований по измерению и управлению новыми кибервозможностями ИИ.


