18 lutego 2026

Przedstawiamy EVMbench

Zwiększanie bezpieczeństwa inteligentnych kontraktów przez ocenę zdolności agentów AI do wykrywania, naprawiania i wykorzystywania luk w zabezpieczeniach środowisk blockchain.

Przeczytaj artykuł

Ładowanie…

Inteligentne kontrakty są rutynowo wykorzystywane do zabezpieczania kryptoaktywów open-source o wartości ponad 100 mld USD. W miarę jak agenci AI doskonalą się w czytaniu, pisaniu i wykonywaniu kodu, coraz ważniejszy staje się pomiar ich zdolności w środowiskach istotnych z ekonomicznego punktu widzenia oraz promowanie defensywnego użycia systemów AI do kontrolowania i wzmacniania wdrożonych kontraktów.

Razem z firmą Paradigm⁠(otwiera nowe okno) wprowadzamy EVMbench, test oceniający zdolność agentów AI do wykrywania, naprawiania i wykorzystywania poważnych luk w zabezpieczeniach inteligentnych kontraktów. EVMbench opiera się na 120 starannie wybranych lukach z 40 audytów, z których większość pochodzi z otwartych zawodów audytu kodu. Dodatkowo EVMbench zawiera kilka scenariuszy luk w zabezpieczeniach zaczerpniętych z procesu audytu bezpieczeństwa blockchaina Tempo⁠(otwiera nowe okno), specjalnie zaprojektowanej sieci L1 o dużej przepustowości, umożliwiającej dokonywanie niedrogich płatności stablecoinami. Scenariusze te rozszerzają test na kod inteligentnych kontraktów ukierunkowanych na płatności, czyli obszar, w którym spodziewamy się rozwoju agentowych płatności w stablecoinach, co może ugruntować jego pozycję w segmencie o rosnącym znaczeniu praktycznym.

Aby stworzyć środowiska zadań, dostosowaliśmy istniejące testy wykorzystania luk typu proof-of-concept oraz ewentualne skrypty wdrożeniowe, a jeśli te nie były dostępne, napisaliśmy je ręcznie. W trybie naprawiania upewniliśmy się, że luki w zabezpieczeniach są możliwe do wykorzystania oraz że można je zniwelować bez wprowadzania zmian powodujących błędy kompilacji, ponieważ to naruszyłoby naszą konfigurację. W trybie wykorzystania stworzyliśmy niestandardowe moduły oceniające i przeprowadziliśmy kontrolę środowisk w modelu zespołu czerwonego, aby znaleźć i zneutralizować metody, przy użyciu których agent mógłby oszukać moduł oceniający. Oprócz kontroli jakości zadań wykorzystującej wiedzę dziedzinową zapewnianą przez Paradigm, użyliśmy automatycznych agentów audytujących zadania w celu zwiększenia odporności naszych środowisk.

EVMbench ocenia trzy tryby zdolności:

Wykrywanie: Agenci przeprowadzają audyt repozytorium inteligentnych kontraktów i są oceniani na podstawie przywołania faktycznie potwierdzonych luk w zabezpieczeniach i powiązanych nagród audytowych.
Naprawianie: Agenci modyfikują kontrakty zawierające luki i muszą zachować ich zamierzoną funkcjonalność, a przy tym wyeliminować możliwość wykorzystania, co jest weryfikowane za pomocą automatycznych testów i kontroli wykorzystania luk.
Wykorzystanie: Agenci przeprowadzają na wdrożonych kontraktach kompleksowe ataki drenażu środków w odizolowanym środowisku blockchain, a ocena jest dokonywana programowo przez odtwarzanie transakcji i weryfikację on-chain.

Aby wesprzeć obiektywną i możliwą do odtworzenia ocenę, opracowaliśmy strukturę testową opartą na języku Rust, która wdraża kontrakty, deterministycznie odtwarza transakcje agenta i ogranicza niebezpieczne metody RPC. Zadania wykorzystania są uruchamiane w odizolowanym lokalnym środowisku Anvil, a nie w działających sieciach, natomiast luki są historyczne i publicznie udokumentowane.

Oceniamy pionierskie agenty we wszystkich trzech trybach. W trybie wykorzystania model GPT‑5.3‑Codex działający za pośrednictwem Codex CLI osiąga wynik 71,0%. Stanowi to istotny postęp w stosunku do wcześniejszych modeli, takich jak GPT‑5, który osiąga wynik 33,3%, a został udostępniony nieco ponad sześć miesięcy temu. Wskaźniki skuteczności przywołania i naprawy pozostają poniżej pełnego pokrycia, ponieważ duża część luk w zabezpieczeniach nadal jest trudna do znalezienia i naprawienia przez agenty.

EVMbench ujawnia także ciekawe różnice zachowania modeli w różnych zadaniach. Agenci działają najlepiej w scenariuszu wykorzystania, w którym występuje jasny cel: iteracje mają być kontynuowane aż do wyczerpania środków. Natomiast w zadaniach wykrywania i naprawiania skuteczność jest słabsza. W trybie wykrywania agenci czasami zatrzymują się po zidentyfikowaniu pojedynczego problemu, zamiast przeprowadzić wyczerpujący audyt bazy kodu. W trybie naprawiania problemem pozostaje zachowanie pełnej funkcjonalności przy jednoczesnym usuwaniu subtelnych luk.

Ograniczenia

EVMbench nie odzwierciedla pełnej złożoności bezpieczeństwa rzeczywistych inteligentnych kontraktów. Luki uwzględnione w testach pochodziły z zawodów audytowych Code4rena. Chociaż są one realistyczne i bardzo szkodliwe, wiele szeroko wdrożonych i powszechnie używanych kontraktów kryptowalutowych podlega znacznie bardziej wnikliwej analizie i może być trudniejszych do skutecznego zaatakowania.

Nasz system oceniania jest solidny, ale nie doskonały. W trybie wykrywania sprawdzamy, czy agent znajdzie te same luki w zabezpieczeniach, które zidentyfikował człowiek-audytor. Jeśli agent zidentyfikuje dodatkowe problemy, obecnie nie dysponujemy wiarygodnym sposobem na ustalenie, czy są to rzeczywiste luki w zabezpieczeniach, które przeoczył człowiek, czy fałszywe alarmy.

Istnieją również ograniczenia strukturalne w scenariuszu wykorzystania. W kontenerze oceniania transakcje są odtwarzane sekwencyjnie, dlatego zachowania zależne od precyzyjnych mechanizmów czasowych nie są uwzględniane. Stan łańcucha to czysta lokalna instancja Anvil, a nie fork sieci głównej, i obecnie obsługujemy tylko środowiska jednołańcuchowe. W pewnych przypadkach wymaga to użycia kontraktów testowych, a nie wdrożeń w sieci głównej.

Dlaczego to jest ważne

Inteligentne kontrakty zabezpieczają aktywa warte miliardy dolarów, a agenci AI mogą mieć przełomowe znaczenie zarówno dla atakujących, jak i dla obrońców. Pomiar możliwości modeli w tej dziedzinie pomaga monitorować pojawiające się zagrożenia cybernetyczne oraz podkreśla znaczenie obronnego stosowania systemów AI w zakresie audytu i wzmacniania wdrożonych kontraktów.

Test EVMbench jest pomyślany zarówno jako narzędzie pomiarowe, jak i zachęta do działania. W miarę doskonalenia agentów staje się coraz ważniejsze, aby deweloperzy i badacze zabezpieczeń uwzględniali w swoich procesach roboczych audyty wspomagane przez AI.

W ostatnich miesiącach zaobserwowaliśmy znaczące zwiększenie wydajności modeli w zadaniach związanych z cyberbezpieczeństwem, co przynosi korzyści zarówno deweloperom, jak i specjalistom ds. bezpieczeństwa. Równocześnie przygotowujemy wzmocnione zabezpieczenia cybernetyczne, aby wspomagać zastosowania defensywne i zwiększać odporność ekosystemu.

Do cyberbezpieczeństwa można z zasady podchodzić na dwa sposoby, więc stosujemy podejście oparte na dowodach i iteracyjne, które przyspiesza możliwości obrońców w zakresie wykrywania i naprawiania luk w zabezpieczeniach, a jednocześnie spowalnia ich nadużywanie. Nasze środki zaradcze obejmują szkolenia z bezpieczeństwa, zautomatyzowane monitorowanie, zaufany dostęp do zaawansowanych możliwości oraz ścieżki egzekwowania obejmujące wiedzę o zagrożeniach.

Inwestujemy w rozwój zabezpieczeń ekosystemu, takich jak poszerzanie dostępu do prywatnej wersji beta narzędzia Aardvark, czyli naszego agenta do badania zabezpieczeń, oraz nawiązanie współpracy z opiekunami projektów open-source, aby zapewnić bezpłatne skanowanie kodu w powszechnie używanych projektach.

Rozwijając nasz uruchomiony w 2023 roku program grantów Cybersecurity Grant Program, poszerzamy go o kredyty API o wartości 10 mln USD, aby sprawniej rozwijać obronę cybernetyczną dzięki naszym najbardziej zaawansowanym modelom, zwłaszcza w przypadku oprogramowania open source i systemów infrastruktury krytycznej. Organizacje prowadzące badania nad zabezpieczeniami mogą się ubiegać o kredyty API i wsparcie w ramach Cybersecurity Grant Program.

Udostępniamy zadania, narzędzia i ramy oceny związane z testem EVMbench, aby wspierać dalsze badania nad pomiarem nowych zdolności cybernetycznych AI i zarządzaniem nimi.

Przeczytaj więcej

Wyświetl wszystko

GPT-Red: samodoskonalenie odporności

Bezpieczeństwo15 lip 2026

Oddzielanie sygnału od szumu w ewaluacjach kodowania

Badania8 lip 2026

Przedstawiamy GeneBench-Pro

Badania30 cze 2026