Bỏ qua nội dung chính
OpenAI

18 tháng 2, 2026

Nghiên cứuẤn phẩm

Giới thiệu về EVMbench

Giúp hợp đồng thông minh an toàn hơn bằng cách đánh giá khả năng của các tác nhân AI trong việc phát hiện, vá và khai thác lỗ hổng trong môi trường blockchain.

Đang tải…

Các hợp đồng thông minh thường xuyên đảm bảo hơn 100 tỷ USD tài sản tiền mã hóa mã nguồn mở. Khi các tác nhân AI cải thiện khả năng đọc, viết và thực thi mã, việc đo lường năng lực của chúng trong các môi trường có ý nghĩa kinh tế trở nên quan trọng hơn, và khuyến khích sử dụng các hệ thống AI một cách phòng thủ để kiểm toán và củng cố các hợp đồng đã triển khai.

Cùng với Paradigm(mở trong cửa sổ mới), chúng tôi ra mắt EVMbench, một tiêu chuẩn đánh giá khả năng của các tác nhân AI trong việc phát hiện, vá và khai thác các lỗ hổng nghiêm trọng trong hợp đồng thông minh. EVMbench dựa trên 117 lỗ hổng bảo mật được tuyển chọn từ 40 cuộc kiểm toán, với phần lớn được lấy từ các cuộc thi kiểm toán mã nguồn mở.  EVMbench cũng bao gồm một số kịch bản lỗ hổng được rút ra từ quy trình kiểm tra bảo mật cho blockchain Tempo(mở trong cửa sổ mới) , một L1 được xây dựng có mục đích được thiết kế để cho phép thanh toán thông lượng cao, chi phí thấp thông qua stablecoin. Các kịch bản này mở rộng chuẩn mực sang mã hợp đồng thông minh định hướng thanh toán, nơi chúng tôi kỳ vọng thanh toán stablecoin tác nhân sẽ phát triển, và giúp đặt nó trong một lĩnh vực có tầm quan trọng thực tiễn đang nổi lên.

Để tạo ra các môi trường tác vụ của chúng tôi, chúng tôi đã điều chỉnh các bài kiểm tra khai thác bằng chứng khái niệm và các kịch bản triển khai hiện có khi chúng tồn tại, và nếu không, chúng tôi đã tự viết chúng. Đối với chế độ vá lỗi, chúng tôi đã đảm bảo rằng các lỗ hổng có thể bị khai thác và có thể được giảm thiểu mà không cần đưa vào các thay đổi làm hỏng quá trình biên dịch, điều này sẽ làm ảnh hưởng đến cấu hình của chúng tôi. Đối với chế độ khai thác, chúng tôi đã viết các trình chấm điểm tùy chỉnh và thực hiện tấn công mô phỏng các môi trường nhằm cố gắng tìm và vá các phương thức mà theo đó một tác nhân có thể gian lận trình chấm điểm. Ngoài việc kiểm soát chất lượng tác vụ thông qua chuyên môn theo lĩnh vực do Paradigm cung cấp, chúng tôi đã sử dụng các tác nhân kiểm toán tác vụ tự động để giúp tăng cường tính ổn định của các môi trường của chúng tôi.

EVMbench đánh giá ba chế độ khả năng:

  • Phát hiện: Các đại lý kiểm tra một kho lưu trữ hợp đồng thông minh và được chấm điểm dựa trên khả năng phát hiện các lỗ hổng thực tế và các phần thưởng thẩm định liên quan.
  • Bản vá: Các tác nhân sửa đổi các hợp đồng dễ bị tấn công và phải bảo toàn chức năng dự kiến trong khi loại bỏ khả năng bị khai thác, được xác minh thông qua các bài kiểm thử tự động và kiểm tra khai thác.
  • Khai thác: Các tác nhân thực hiện các cuộc tấn công rút cạn quỹ từ đầu đến cuối nhằm vào các hợp đồng đã được triển khai trong một môi trường blockchain dạng hộp cát, với việc chấm điểm được thực hiện tự động thông qua phát lại giao dịch và xác minh trên chuỗi.

Để hỗ trợ đánh giá khách quan và có thể tái lập, chúng tôi đã phát triển một công cụ dựa trên Rust, triển khai các hợp đồng, phát lại các giao dịch của tác nhân một cách xác định và hạn chế các phương thức RPC không an toàn. Các tác vụ khai thác chạy trong một môi trường Anvil cục bộ tách biệt thay vì trên các mạng đang hoạt động, và các lỗ hổng là những lỗ hổng đã xảy ra trong quá khứ và đã được công khai ghi nhận.

Chúng tôi đánh giá các tác nhân tiên phong trên cả ba phương thức. Trong chế độ 'khai thác', GPT‑5.3‑Codex chạy qua Codex CLI đạt số điểm là 71.0%. Điều này thể hiện sự cải thiện đáng kể so với các mô hình trước đó, chẳng hạn như GPT‑5, đạt 33,3% và được phát hành chỉ hơn sáu tháng trước. Tỷ lệ thành công trong việc phát hiện, thu hồi và vá lỗi vẫn dưới mức bao phủ đầy đủ, vì một phần lớn các lỗ hổng vẫn khó để các tác nhân phát hiện và khắc phục.

EVMbench cũng tiết lộ những khác biệt thú vị trong hành vi của mô hình qua các nhiệm vụ. Các tác nhân hoạt động tốt nhất trong môi trường khai thác, nơi mục tiêu được nêu rõ: tiếp tục lặp lại cho đến khi cạn kiệt nguồn vốn. Ngược lại, hiệu suất yếu hơn trong các nhiệm vụ phát hiện và sửa chữa. Trong ‘detect’, các tác nhân đôi khi dừng lại sau khi xác định một vấn đề duy nhất thay vì kiểm tra toàn bộ cơ sở mã một cách kỹ lưỡng. Trong ‘patch’, việc duy trì đầy đủ chức năng trong khi loại bỏ các lỗ hổng tinh vi vẫn là một thách thức.

Hạn chế

EVMbench không thể hiện đầy đủ độ khó của bảo mật hợp đồng thông minh trong thế giới thực. Các lỗ hổng được đưa vào được lấy từ các cuộc thi kiểm toán của Code4rena. Mặc dù những điều này là thực tế và có mức độ nghiêm trọng cao, nhiều hợp đồng tiền điện tử được triển khai rộng rãi và sử dụng phổ biến phải trải qua sự xem xét kỹ lưỡng hơn đáng kể và có thể khó khai thác hơn.

Hệ thống chấm điểm của chúng tôi rất vững chắc nhưng vẫn còn thiếu sót. Trong chế độ “detect”, chúng tôi kiểm tra xem tác nhân có tìm thấy các lỗ hổng giống như những lỗ hổng được các kiểm toán viên con người xác định hay không. Nếu tác nhân xác định các vấn đề bổ sung, hiện tại chúng tôi không có cách đáng tin cậy để xác định liệu chúng có phải là các lỗ hổng thực sự mà con người đã bỏ sót hay chỉ là các kết quả dương tính giả.

Ngoài ra còn có các hạn chế về cấu trúc trong cài đặt ‘khai thác’. Các giao dịch được phát lại theo thứ tự trong vùng chứa chấm điểm, do đó các hành vi phụ thuộc vào cơ chế thời gian chính xác không nằm trong phạm vi. Trạng thái chuỗi là một phiên bản Anvil cục bộ sạch thay vì một tạo nhánh của mạng chính, và hiện tại chúng tôi chỉ hỗ trợ các môi trường đơn chuỗi. Trong một số trường hợp, điều này yêu cầu các hợp đồng mô phỏng thay vì triển khai trên mạng chính.

Tại sao điều này quan trọng

Các hợp đồng thông minh bảo vệ hàng tỷ USD tài sản, và các tác nhân AI có khả năng sẽ mang tính cách mạng đối với cả kẻ tấn công lẫn người phòng thủ. Việc đo lường khả năng của mô hình trong lĩnh vực này giúp theo dõi các rủi ro mạng mới nổi và nhấn mạnh tầm quan trọng của việc sử dụng các hệ thống AI một cách phòng thủ để kiểm tra và củng cố các hợp đồng đã triển khai.

EVMbench vừa là một công cụ đo lường vừa là một lời kêu gọi hành động. Khi các tác nhân ngày càng được cải thiện, việc các nhà phát triển và các nhà nghiên cứu bảo mật tích hợp kiểm toán có hỗ trợ AI vào quy trình làm việc của họ trở nên ngày càng quan trọng.

Trong những tháng gần đây, chúng tôi đã thấy những cải thiện đáng kể về hiệu suất mô hình đối với các tác vụ an ninh mạng, mang lại lợi ích cho cả nhà phát triển và các chuyên gia bảo mật. Song song đó, chúng tôi đang chuẩn bị các biện pháp bảo vệ mạng tăng cường để hỗ trợ việc sử dụng phòng thủ và khả năng phục hồi hệ sinh thái rộng lớn hơn.

Bởi vì an ninh mạng vốn dĩ là sử dụng kép, chúng tôi đang áp dụng phương pháp tiếp cận lặp đi lặp lại dựa trên bằng chứng để tăng tốc khả năng tìm và sửa chữa các lỗ hổng của những người bảo vệ trong khi làm chậm việc lạm dụng. Các biện pháp giảm thiểu của chúng tôi bao gồm đào tạo an toàn, giám sát tự động, truy cập đáng tin cậy cho các khả năng nâng cao và các đường ống thực thi bao gồm thông tin tình báo về mối đe dọa.

Chúng tôi đang đầu tư vào các biện pháp bảo vệ hệ sinh thái như mở rộng bản beta riêng tư của Aardvark, tác nhân nghiên cứu bảo mật của chúng tôi, và hợp tác với các nhà bảo trì mã nguồn mở để cung cấp dịch vụ quét mã miễn phí cho các dự án được sử dụng rộng rãi.

Dựa trên Chương trình Tài trợ An ninh mạng trị giá 1 triệu USD của chúng tôi được ra mắt vào năm 2023, chúng tôi cũng cam kết tín dụng API 10 triệu USD để tăng tốc phòng thủ mạng với các mô hình có khả năng nhất của chúng tôi, đặc biệt là đối với phần mềm nguồn mở và các hệ thống cơ sở hạ tầng quan trọng. Các tổ chức tham gia vào nghiên cứu bảo mật thiện chí có thể đăng ký tín dụng API và hỗ trợ thông qua Chương trình Tài trợ An ninh mạng của chúng tôi.

Chúng tôi phát hành các nhiệm vụ, công cụ và khung đánh giá của EVMbench để hỗ trợ nghiên cứu liên tục về việc đo lường và quản lý các khả năng không gian mạng AI mới nổi.