معرفی EVMbench
ایمنسازی قراردادهای هوشمند از طریق ارزیابی توانایی عاملهای هوش مصنوعی در شناسایی، اصلاح و بهرهبرداری از آسیبپذیریها در محیطهای بلاکچین.
قراردادهای هوشمند بهطور معمول بیش از ۱۰۰ میلیارد دلار داراییهای رمز ارزی منبعباز را ایمن میکنند. با بهبود عاملهای هوش مصنوعی در خواندن، نوشتن و اجرای کد، اهمیت سنجش توانمندیهای آنها در محیطهای اقتصادی معنادار و تشویق به استفاده دفاعی از سیستمهای هوش مصنوعی برای ممیزی و تقویت قراردادهای مستقر، بهطور فزآیندهای افزایش مییابد.
به همراه Paradigm(در یک پنجره جدید باز میشود)، ما EVMbench را معرفی میکنیم؛ معیاری برای ارزیابی توانایی عاملهای هوش مصنوعی در شناسایی، اصلاح و بهرهبرداری از آسیبپذیریهای شدید در قراردادهای هوشمند. EVMbench بر ۱۱۷ آسیبپذیری گزینششده از ۴۰ ممیزی کد تکیه دارد که بیشتر آنها از مسابقات عمومی ممیزی کدِ متنباز گردآوری شدهاند. EVMbench همچنین چندین سناریوی آسیبپذیری را که از فرایند ممیزی امنیتی بلاکچین Tempo(در یک پنجره جدید باز میشود) استخراج شدهاند در بر میگیرد؛ یک بلاکچین لایهٔ اول (L1) که بهطور هدفمند برای امکانپذیر کردن پرداختهای پرحجم و کمهزینه از طریق استیبلکوینها طراحی شده است. این سناریوها معیار سنجش را به حوزهٔ کد قراردادهای هوشمندِ مرتبط با پرداخت گسترش میدهند؛ جایی که انتظار میرود پرداختهای استیبلکوینی عاملمحور رشد کنند و به تثبیت آن در حوزهای با اهمیت عملی روبهافزایش کمک میکنند.
برای ایجاد محیطهای وظیفهای خود، آزمونهای بهرهبرداری اثبات مفهوم و اسکریپتهای استقرار موجود را، در صورت وجود، اقتباس کردیم و در غیر این صورت، آنها را بهصورت دستی نوشتیم. برای حالت وصله، اطمینان حاصل کردیم که آسیبپذیریها قابل بهرهبرداری هستند و میتوان آنها را بدون ایجاد تغییراتی که باعث شکست در کامپایل میشوند، کاهش داد، زیرا این کار تنظیمات ما را به خطر میاندازد. برای حالت بهرهبرداری، ارزیابهای سفارشی نوشتیم و محیطها را بهصورت تیم قرمز بررسی کردیم تا روشهایی را که ممکن است یک عامل از طریق آنها ارزیاب را فریب دهد، پیدا و اصلاح کنیم. علاوه بر کنترل کیفیت وظایف از طریق تخصص دامنهای که Paradigm ارائه میدهد، از عاملهای خودکار ممیزی وظایف استفاده کردیم تا به افزایش استحکام محیطهای خود کمک کنیم.
EVMbench سه حالت قابلیت را ارزیابی میکند:
- شناسایی: عاملها یک محل نگهداری قرارداد هوشمند را ممیزی میکنند و بر اساس بازیابی آسیبپذیریهای واقعی و پاداشهای مرتبط با ممیزی امتیازدهی میشوند.
- پچ: عاملها قراردادهای آسیبپذیر را اصلاح میکنند و باید ضمن حذف قابلیت بهرهبرداری، کارکرد مورد نظر را حفظ کنند؛ این امر از طریق آزمونهای خودکار و بررسیهای بهرهبرداری تأیید میشود.
- استفاده: عاملها حملات سرتاسری تخلیه وجوه را علیه قراردادهای مستقر در یک محیط بلاکچین سند باکسشده اجراء میکنند، و ارزیابی بهصورت برنامهوار از طریق بازپخش تراکنش و تأیید درونزنجیرهای انجام میشود.
برای پشتیبانی از ارزیابی عینی و قابلبازتولید، ما یک چارچوب مبتنی بر Rust توسعه دادیم که قراردادها را مستقر میکند، تراکنشهای عامل را بهصورت قطعی بازپخش میکند و روشهای ناامن RPC را محدود میکند. وظایف بهرهبرداری در یک محیط محلی ایزوله Anvil اجراء میشوند، نه روی شبکههای زنده، و آسیبپذیریها تاریخی و بهصورت عمومی مستند شدهاند.
ما عاملهای پیشرو را در هر سه حالت ارزیابی میکنیم. در حالت «بهرهبرداری» ، GPT‑5.3‑Codex اجرای Codex CLI امتیاز ۷۱.۰٪ را کسب میکند. این نشاندهنده یک پیشرفت قابل توجه نسبت به مدلهای قبلی است، مانند GPT‑5، که امتیاز ۳۳.۳٪ را کسب کرده و کمی بیش از شش ماه پیش منتشر شده است. نرخهای موفقیت در شناسایی، یادآوری و اصلاح همچنان کمتر از پوشش کامل است، زیرا بخش بزرگی از آسیبپذیریها برای عاملها همچنان دشوار است که آنها را پیدا و رفع کنند.
EVMbench همچنین تفاوتهای جالبی را در رفتار مدل در میان وظایف مختلف نشان میدهد. عاملها در محیط بهرهبرداری بهترین عملکرد را دارند، جایی که هدف مشخص است: به تکرار ادامه دهید تا زمانی که منابع مالی به پایان برسند. در مقابل، عملکرد در وظایف شناسایی و وصلهکردن ضعیفتر است. در ‘detect’، عاملها گاهی پس از شناسایی یک مشکل واحد متوقف میشوند، بهجای اینکه بهطور جامع پایگاه کد را ممیزی کنند. در ‘پچ’، حفظ عملکرد کامل در عین حذف آسیبپذیریهای ظریف، همچنان چالشبرانگیز است.
EVMbench نمایانگر تمام پیچیدگیهای امنیت قراردادهای هوشمند در دنیای واقعی نیست. آسیبپذیریهای گنجاندهشده از رقابتهای حسابرسی Code4rena استخراج شده بودند. در حالی که اینها واقعگرایانه و با شدت بالا هستند، بسیاری از قراردادهای رمز ارزی که بهطور گسترده مستقر شدهاند و بهطور وسیع استفاده میشوند، تحت بررسیهای بسیار دقیقتری قرار میگیرند و ممکن است بهرهبرداری از آنها دشوارتر باشد.
سیستم درجهبندی ما قوی است اما بینقص نیست. در حالت ‘detect’ ، بررسی میکنیم که آیا عامل میتواند همان آسیبپذیریهایی را که ممیزان انسانی شناسایی کردهاند، پیدا کند یا خیر. اگر عامل مسائل اضافی را شناسایی کند، در حال حاضر راه قابلاعتمادی برای تعیین اینکه آیا آنها آسیبپذیریهای واقعی هستند که انسانها از قلم انداختهاند یا مثبتهای کاذب، نداریم.
همچنین محدودیتهای ساختاری در تنظیمات ‘استفاده’ وجود دارد. تراکنشها بهصورت ترتیبی در کانتینر ارزیابی بازپخش میشوند، بنابراین رفتارهایی که به مکانیزمهای دقیق زمانبندی وابستهاند خارج از محدوده هستند. وضعیت زنجیره یک نمونه محلی تمیز از Anvil است و نه یک فورک از شبکه اصلی، و ما در حال حاضر فقط از محیطهای تکزنجیرهای پشتیبانی میکنیم. در برخی موارد، این نیازمند قراردادهای آزمایشی بهجای استقرارهای شبکه اصلی است.
قراردادهای هوشمند میلیاردها دلار دارایی را ایمن میکنند و عاملهای هوش مصنوعی احتمالاً برای هر دو گروه مهاجمان و مدافعان تحولآفرین خواهند بود. سنجش قابلیت مدل در این حوزه به ردیابی ریسکهای سایبری نوظهور کمک میکند و اهمیت استفادهٔ دفاعی از سیستمهای هوش مصنوعی برای ممیزی و تقویت قراردادهای اجراء شده را برجسته میکند.
EVMbench هم بهعنوان یک ابزار اندازهگیری و هم بهعنوان یک دعوت به اقدام در نظر گرفته شده است. با پیشرفت عاملها، برای توسعهدهندگان و پژوهشگران امنیتی اهمیت فزآیندهای پیدا میکند که ممیزی با کمک هوش مصنوعی را در فرآیندهای کاری خود بگنجانند.
در ماههای اخیر، شاهد پیشرفتهای معناداری در عملکرد مدلها در وظایف امنیت سایبری بودهایم که هم به نفع توسعهدهندگان و هم به نفع متخصصان امنیت بوده است. بهطور همزمان، ما در حال آمادهسازی تدابیر حفاظتی سایبری تقویتشده بودهایم تا از استفادهٔ دفاعی و تابآوری گستردهتر اکو سیستم پشتیبانی کنیم.
از آنجا که امنیت سایبری ذاتاً دارای استفاده دوگانه است، ما رویکردی مبتنی بر شواهد و تکرارشونده را اتخاذ کردهایم که توانایی مدافعان را برای یافتن و رفع آسیبپذیریها تسریع میکند و در عین حال سوء استفاده را کاهش میدهد. اقدامات کاهشدهنده ما شامل آموزش ایمنی، نظارت خودکار، دسترسی مطمئن برای قابلیتهای پیشرفته، و خطوط اجرایی که شامل اطلاعات تهدید است.
ما در حال سرمایهگذاری در تدابیر حفاظتی اکوسیستم هستیم، مانند گسترش بتای خصوصی Aardvark، پژوهشگر امنیتی عامل ما، و همکاری با نگهدارندگان نرمافزارهای منبعباز برای ارائه اسکن رایگان کد بیس برای پروژههای پرکاربرد.
با تکیه بر برنامه کمکهزینه امنیت سایبری ما که در سال ۲۰۲۳ راهاندازی شد، ما همچنین متعهد به ارائه ۱۰ میلیون دلار اعتبار API هستیم تا با توانمندترین مدلهای خود، بهویژه برای نرمافزارهای متنباز و سامانههای زیرساخت حیاتی، دفاع سایبری را تسریع کنیم. سازمانهایی که در پژوهش امنیتی با نیت خیر فعالیت میکنند میتوانند از طریق برنامه کمکهزینه امنیت سایبری برای دریافت اعتبار API و پشتیبانی درخواست دهند.
ما وظایف، ابزارها و چارچوب ارزیابی EVMbench را منتشر میکنیم تا از تداوم پژوهش درباره سنجش و مدیریت قابلیتهای نوظهور سایبری هوش مصنوعی پشتیبانی کنیم.


