۲۹ بهمن ۱۴۰۴

معرفی EVMbench

ایمن‌سازی قراردادهای هوشمند از طریق ارزیابی توانایی عامل‌های هوش مصنوعی در شناسایی، اصلاح و بهره‌برداری از آسیب‌پذیری‌ها در محیط‌های بلاک‌چین.

مقاله را مطالعه کنید

در حال بارگذاری…

قراردادهای هوشمند به‌طور معمول بیش از ۱۰۰ میلیارد دلار دارایی‌های رمز ارزی منبع‌باز را ایمن می‌کنند. با بهبود عامل‌های هوش مصنوعی در خواندن، نوشتن و اجرای کد، اهمیت سنجش توانمندی‌های آن‌ها در محیط‌های اقتصادی معنادار و تشویق به استفاده دفاعی از سیستم‌های هوش مصنوعی برای ممیزی و تقویت قراردادهای مستقر، به‌طور فزآینده‌ای افزایش می‌یابد.

به همراه Paradigm⁠(در یک پنجره جدید باز می‌شود)، ما EVMbench را معرفی می‌کنیم؛ معیاری برای ارزیابی توانایی عامل‌های هوش مصنوعی در شناسایی، اصلاح و بهره‌برداری از آسیب‌پذیری‌های شدید در قراردادهای هوشمند. EVMbench بر ۱۱۷ آسیب‌پذیری گزینش‌شده از ۴۰ ممیزی کد تکیه دارد که بیشتر آن‌ها از مسابقات عمومی ممیزی کدِ متن‌باز گردآوری شده‌اند. EVMbench همچنین چندین سناریوی آسیب‌پذیری را که از فرایند ممیزی امنیتی بلاکچین Tempo⁠(در یک پنجره جدید باز می‌شود) استخراج شده‌اند در بر می‌گیرد؛ یک بلاکچین لایهٔ اول (L1) که به‌طور هدفمند برای امکان‌پذیر کردن پرداخت‌های پرحجم و کم‌هزینه از طریق استیبل‌کوین‌ها طراحی شده است. این سناریوها معیار سنجش را به حوزهٔ کد قراردادهای هوشمندِ مرتبط با پرداخت گسترش می‌دهند؛ جایی که انتظار می‌رود پرداخت‌های استیبل‌کوینی عامل‌محور رشد کنند و به تثبیت آن در حوزه‌ای با اهمیت عملی رو‌به‌افزایش کمک می‌کنند.

برای ایجاد محیط‌های وظیفه‌ای خود، آزمون‌های بهره‌برداری اثبات مفهوم و اسکریپت‌های استقرار موجود را، در صورت وجود، اقتباس کردیم و در غیر این صورت، آن‌ها را به‌صورت دستی نوشتیم. برای حالت وصله، اطمینان حاصل کردیم که آسیب‌پذیری‌ها قابل بهره‌برداری هستند و می‌توان آن‌ها را بدون ایجاد تغییراتی که باعث شکست در کامپایل می‌شوند، کاهش داد، زیرا این کار تنظیمات ما را به خطر می‌اندازد. برای حالت بهره‌برداری، ارزیاب‌های سفارشی نوشتیم و محیط‌ها را به‌صورت تیم قرمز بررسی کردیم تا روش‌هایی را که ممکن است یک عامل از طریق آن‌ها ارزیاب را فریب دهد، پیدا و اصلاح کنیم. علاوه بر کنترل کیفیت وظایف از طریق تخصص دامنه‌ای که Paradigm ارائه می‌دهد، از عامل‌های خودکار ممیزی وظایف استفاده کردیم تا به افزایش استحکام محیط‌های خود کمک کنیم.

EVMbench سه حالت قابلیت را ارزیابی می‌کند:

شناسایی: عامل‌ها یک محل نگهداری قرارداد هوشمند را ممیزی می‌کنند و بر اساس بازیابی آسیب‌پذیری‌های واقعی و پاداش‌های مرتبط با ممیزی امتیازدهی می‌شوند.
پچ: عامل‌ها قراردادهای آسیب‌پذیر را اصلاح می‌کنند و باید ضمن حذف قابلیت بهره‌برداری، کارکرد مورد نظر را حفظ کنند؛ این امر از طریق آزمون‌های خودکار و بررسی‌های بهره‌برداری تأیید می‌شود.
استفاده: عامل‌ها حملات سرتاسری تخلیه وجوه را علیه قراردادهای مستقر در یک محیط بلاک‌چین سند باکس‌شده اجراء می‌کنند، و ارزیابی به‌صورت برنامه‌وار از طریق بازپخش تراکنش و تأیید درون‌زنجیره‌ای انجام می‌شود.

برای پشتیبانی از ارزیابی عینی و قابل‌بازتولید، ما یک چارچوب مبتنی بر Rust توسعه دادیم که قراردادها را مستقر می‌کند، تراکنش‌های عامل را به‌صورت قطعی بازپخش می‌کند و روش‌های ناامن RPC را محدود می‌کند. وظایف بهره‌برداری در یک محیط محلی ایزوله Anvil اجراء می‌شوند، نه روی شبکه‌های زنده، و آسیب‌پذیری‌ها تاریخی و به‌صورت عمومی مستند شده‌اند.

ما عامل‌های پیشرو را در هر سه حالت ارزیابی می‌کنیم. در حالت «بهره‌برداری» ، GPT‑5.3‑Codex اجرای Codex CLI امتیاز ۷۱.۰٪ را کسب می‌کند. این نشان‌دهنده یک پیشرفت قابل توجه نسبت به مدل‌های قبلی است، مانند GPT‑5، که امتیاز ۳۳.۳٪ را کسب کرده و کمی بیش از شش ماه پیش منتشر شده است. نرخ‌های موفقیت در شناسایی، یادآوری و اصلاح همچنان کمتر از پوشش کامل است، زیرا بخش بزرگی از آسیب‌پذیری‌ها برای عامل‌ها همچنان دشوار است که آن‌ها را پیدا و رفع کنند.

EVMbench همچنین تفاوت‌های جالبی را در رفتار مدل در میان وظایف مختلف نشان می‌دهد. عامل‌ها در محیط بهره‌برداری بهترین عملکرد را دارند، جایی که هدف مشخص است: به تکرار ادامه دهید تا زمانی که منابع مالی به پایان برسند. در مقابل، عملکرد در وظایف شناسایی و وصله‌کردن ضعیف‌تر است. در ‘detect’، عامل‌ها گاهی پس از شناسایی یک مشکل واحد متوقف می‌شوند، به‌جای اینکه به‌طور جامع پایگاه کد را ممیزی کنند. در ‘پچ’، حفظ عملکرد کامل در عین حذف آسیب‌پذیری‌های ظریف، همچنان چالش‌برانگیز است.

محدودیت‌ها

EVMbench نمایانگر تمام پیچیدگی‌های امنیت قراردادهای هوشمند در دنیای واقعی نیست. آسیب‌پذیری‌های گنجانده‌شده از رقابت‌های حسابرسی Code4rena استخراج شده بودند. در حالی که این‌ها واقع‌گرایانه و با شدت بالا هستند، بسیاری از قراردادهای رمز ارزی که به‌طور گسترده مستقر شده‌اند و به‌طور وسیع استفاده می‌شوند، تحت بررسی‌های بسیار دقیق‌تری قرار می‌گیرند و ممکن است بهره‌برداری از آن‌ها دشوارتر باشد.

سیستم درجه‌بندی ما قوی است اما بی‌نقص نیست. در حالت ‘detect’ ، بررسی می‌کنیم که آیا عامل می‌تواند همان آسیب‌پذیری‌هایی را که ممیزان انسانی شناسایی کرده‌اند، پیدا کند یا خیر. اگر عامل مسائل اضافی را شناسایی کند، در حال حاضر راه قابل‌اعتمادی برای تعیین اینکه آیا آن‌ها آسیب‌پذیری‌های واقعی هستند که انسان‌ها از قلم انداخته‌اند یا مثبت‌های کاذب، نداریم.

همچنین محدودیت‌های ساختاری در تنظیمات ‘استفاده’ وجود دارد. تراکنش‌ها به‌صورت ترتیبی در کانتینر ارزیابی بازپخش می‌شوند، بنابراین رفتارهایی که به مکانیزم‌های دقیق زمان‌بندی وابسته‌اند خارج از محدوده هستند. وضعیت زنجیره یک نمونه محلی تمیز از Anvil است و نه یک فورک از شبکه اصلی، و ما در حال حاضر فقط از محیط‌های تک‌زنجیره‌ای پشتیبانی می‌کنیم. در برخی موارد، این نیازمند قراردادهای آزمایشی به‌جای استقرارهای شبکه اصلی است.

چرا این موضوع مهم است

قراردادهای هوشمند میلیاردها دلار دارایی را ایمن می‌کنند و عامل‌های هوش مصنوعی احتمالاً برای هر دو گروه مهاجمان و مدافعان تحول‌آفرین خواهند بود. سنجش قابلیت مدل در این حوزه به ردیابی ریسک‌های سایبری نوظهور کمک می‌کند و اهمیت استفادهٔ دفاعی از سیستم‌های هوش مصنوعی برای ممیزی و تقویت قراردادهای اجراء شده را برجسته می‌کند.

EVMbench هم به‌عنوان یک ابزار اندازه‌گیری و هم به‌عنوان یک دعوت به اقدام در نظر گرفته شده است. با پیشرفت عامل‌ها، برای توسعه‌دهندگان و پژوهشگران امنیتی اهمیت فزآینده‌ای پیدا می‌کند که ممیزی با کمک هوش مصنوعی را در فرآیندهای کاری خود بگنجانند.

در ماه‌های اخیر، شاهد پیشرفت‌های معناداری در عملکرد مدل‌ها در وظایف امنیت سایبری بوده‌ایم که هم به نفع توسعه‌دهندگان و هم به نفع متخصصان امنیت بوده است. به‌طور همزمان، ما در حال آماده‌سازی تدابیر حفاظتی سایبری تقویت‌شده بوده‌ایم تا از استفادهٔ دفاعی و تاب‌آوری گسترده‌تر اکو سیستم پشتیبانی کنیم.

از آن‌جا که امنیت سایبری ذاتاً دارای استفاده دوگانه است، ما رویکردی مبتنی بر شواهد و تکرارشونده را اتخاذ کرده‌ایم که توانایی مدافعان را برای یافتن و رفع آسیب‌پذیری‌ها تسریع می‌کند و در عین حال سوء استفاده را کاهش می‌دهد. اقدامات کاهش‌دهنده ما شامل آموزش ایمنی، نظارت خودکار، دسترسی مطمئن برای قابلیت‌های پیشرفته، و خطوط اجرایی که شامل اطلاعات تهدید است.

ما در حال سرمایه‌گذاری در تدابیر حفاظتی اکوسیستم هستیم، مانند گسترش بتای خصوصی Aardvark، پژوهشگر امنیتی عامل ما، و همکاری با نگهدارندگان نرم‌افزارهای منبع‌باز برای ارائه اسکن رایگان کد بیس برای پروژه‌های پرکاربرد.

با تکیه بر برنامه کمک‌هزینه امنیت سایبری ما که در سال ۲۰۲۳ راه‌اندازی شد، ما همچنین متعهد به ارائه ۱۰ میلیون دلار اعتبار API هستیم تا با توانمندترین مدل‌های خود، به‌ویژه برای نرم‌افزارهای متن‌باز و سامانه‌های زیرساخت حیاتی، دفاع سایبری را تسریع کنیم. سازمان‌هایی که در پژوهش امنیتی با نیت خیر فعالیت می‌کنند می‌توانند از طریق برنامه کمک‌هزینه امنیت سایبری برای دریافت اعتبار API و پشتیبانی درخواست دهند.

ما وظایف، ابزارها و چارچوب ارزیابی EVMbench را منتشر می‌کنیم تا از تداوم پژوهش درباره سنجش و مدیریت قابلیت‌های نوظهور سایبری هوش مصنوعی پشتیبانی کنیم.

به خواندن ادامه بده

مشاهده همه

GPT-Red: فعال‌سازی خودبهبودی برای افزایش استحکام

ایمنی۲۴ تیر ۱۴۰۵

جدا کردن سیگنال از نویز در ارزیابی‌های کدنویسی

تحقیق۱۷ تیر ۱۴۰۵

معرفی GeneBench-Pro

تحقیق۹ تیر ۱۴۰۵