Представляємо EVMbench
Підвищення безпеки смарт-контрактів шляхом оцінки здатності ШІ-агентів виявляти, усувати та використовувати вразливості у блокчейн-середовищах.
Смарт-контракти регулярно забезпечують безпеку понад 100 млрд доларів у криптоактивах із відкритим вихідним кодом. Агенти ШІ постійно вдосконалюються у читанні, написанні та виконанні коду, і стає все важливіше вимірювати їх можливості в економічно значущих умовах та заохочувати використання систем ШІ для аудиту та зміцнення розгорнутих контрактів.
Спільно з Paradigm(відкривається у новому вікні) ми представляємо EVMbench — еталонний тест для оцінки здатності агентів ШІ виявляти, усувати та використовувати серйозні вразливості смарт-контрактів. EVMbench спирається на 117 типів уразливостей, відібраних у рамках 40 аудитів, причому більшість із них було взято з відкритих змагань з аудиту коду. EVMbench додатково включає кілька сценаріїв уразливостей, взятих з процесу аудиту безпеки для блокчейна Tempo(відкривається у новому вікні) — спеціалізованого L1, розробленого для забезпечення високої пропускної спроможності та низької вартості платежів з використанням стейблкойнів. Ці сценарії розширюють тест в область коду смарт-контрактів, орієнтованих на платежі, де ми очікуємо зростання агентних платежів у стейблкойнах, і допомагають закріпити його в області, що набуває практичної значущості.
Для створення робочих середовищ ми адаптували тести експлойтів і скрипти розгортання, якщо вони існували (інакше — писали їх вручну). Для режиму виправлень ми переконалися, що вразливості можуть бути використані і що їх можна усунути без внесення змін, що порушують компіляцію, адже це поставило б під загрозу нашу конфігурацію. Для режиму використання вразливостей ми написали програми оцінки і провели тестування середовищ на загрозу ззовні (red teaming), намагаючись знайти і усунути методи, за допомогою яких агент міг би обдурити програму оцінки. Крім контролю якості завдань із використанням предметної експертизи, що надається Paradigm, ми використовували автоматизованих агентів аудиту завдань, щоб підвищити надійність наших середовищ.
EVMbench оцінює три режими роботи:
- Виявлення: Агенти проводять аудит репозиторію смарт-контрактів та оцінюються за повнотою виявлення реальних уразливостей та відповідною винагородою за аудит.
- Виправлення: Агенти модифікують уразливі контракти, зберігаючи при цьому їхню передбачувану функціональність, та усуваючи можливість використання вразливостей, що підтверджується автоматизованими тестами та перевірками на наявність експлойтів.
- Використання вразливостей: Агенти проводять атаки з повним виведенням коштів, спрямовані на розгорнуті контракти в ізольованому середовищі блокчейну, при цьому програмно проводиться оцінка (через відтворення транзакцій та перевірку на блокчейні).
Для забезпечення об'єктивної та відтворюваної оцінки ми розробили harness на базі Rust, який розгортає контракти, детерміновано відтворює транзакції агентів та обмежує небезпечні RPC-методи. Завдання з використання уразливостей виконуються в ізольованому локальному середовищі Anvil, а не в робочих мережах; далі вразливості архівуються та відкрито документуються.
Ми оцінюємо передових агентів за всіма трьома режимами. У режимі використання вразливостей GPT‑5.3‑Codex, запущений через Codex CLI, забезпечує результат 71,0%. Це значний приріст порівняно з попередніми моделями, такими як GPT‑5 (випущена трохи більше ніж півроку тому), яка набрала 33,3%. Показники виявлення та успішності виправлення залишаються нижчими за повне покриття, оскільки значну частину вразливостей агентам все ще важко виявити та усунути.
EVMbench також виявляє цікаві відмінності у поведінці моделі під час виконання різних завдань. Найкращі результати агенти показують в умовах експлойту, де є чітка мета: продовжувати ітерації доти, доки не будуть виведені всі кошти. При виконанні завдань із виявлення та виправлення продуктивність нижче. У режимі виявлення агенти іноді зупиняються після виявлення однієї проблеми, замість того щоб провести комплексний аудит всієї кодової бази. У режимі виправлення складним завданням залишається підтримка повної функціональності при усуненні прихованих уразливостей.
EVMbench не відбиває всієї складності реальної безпеки смарт-контрактів. Включені вразливості було взято з аудиторських конкурсів Code4rena. Хоча вони реалістичні і мають високий ступінь серйозності, багато широко розгорнутих і часто використовуваних криптоконтрактів проходять значно ретельнішу перевірку і можуть бути складнішими для експлойту.
Наша система оцінок надійна, але недосконала. У режимі виявлення ми перевіряємо, чи знаходить агент ті ж вразливості, які виявили аудитори. Якщо агент виявляє додаткові проблеми, ми (поки що) не маємо надійного способу визначити, чи це справжні вразливості, пропущені аудиторами-людьми, чи помилкові спрацьовування.
У режимі використання вразливостей також наявні структурні обмеження. Транзакції відтворюються послідовно в контейнері оцінювання, тому поведінка, що залежить від точних часових механізмів, не розглядається. Блокчейн — чистий локальний екземпляр Anvil, а не форк основної мережі; до того ж, нині ми підтримуємо лише одномережеві середовища. У деяких випадках замість розгортань в основній мережі для цього потрібне створення пробних контрактів.
Смарт-контракти забезпечують безпеку активів на мільярди доларів, а ШІ-агенти, швидше за все, із часом стануть ключовими помічниками як для зловмисників, так і для захисників. Аналіз можливостей моделі в цій галузі допомагає відстежувати кіберризики, що регулярно виникають, і підкреслює важливість використання систем ШІ в цілях захисту для аудиту й зміцнення надійності розгорнутих контрактів.
EVMbench був створений як для вимірювання, так і як заклик до дії. У міру вдосконалення агентів розробникам та дослідникам у галузі безпеки стає все важливіше включати у свої робочі процеси аудит із використанням ШІ.
За останні місяці ми спостерігали значні покращення у продуктивності моделей на завданнях з кібербезпеки, що приносить користь як розробникам, так і фахівцям з безпеки. Паралельно ми готували посилені заходи кіберзахисту, щоб підтримати захисне використання та підвищити стійкість ширшої екосистеми.
Оскільки кібербезпека за своєю природою є дисципліною подвійного призначення, ми застосовуємо підхід, заснований на доказах, що прискорює здатність захисників знаходити та виправляти вразливості, водночас уповільнюючи зловживання. Наші заходи з пом’якшення ризиків включають навчання з безпеки, автоматизований моніторинг, довірений доступ до розширених можливостей і механізми забезпечення виконання, зокрема з використанням розвідки про загрози.
Ми інвестуємо в захист екосистеми, включаючи розширення закритої бета-версії Aardvark, нашого агента з дослідження безпеки, та співпрацюємо з фахівцями з проєктів з відкритим вихідним кодом, щоб надавати безкоштовне сканування кодової бази для широко використовуваних проєктів.
У рамках нашої програми грантів із кібербезпеки, запущеної у 2023 році, ми також виділяємо 10 млн дол. США у вигляді кредитів для API, щоб прискорити кіберзахист за допомогою наших найпотужніших моделей, особливо для програмного забезпечення з відкритим кодом і систем критичної інфраструктури. Організації, які займаються добросовісними дослідженнями безпеки, можуть подати заявку на кредити API та підтримку через нашу Програму грантів із кібербезпеки.
Ми випускаємо завдання, інструменти та оцінювальну платформу EVMbench для підтримки подальших досліджень щодо вимірювання та управління новими кіберможливостями ШІ.


