18 فبراير 2026

إطلاق أداة EVMbench

نحو عقود ذكية أكثر أمانًا: تقييم كفاءة وكلاء الذكاء الاصطناعي في اكتشاف نقاط الضعف وإصلاحها واختبار قابليتها للاختراق داخل بيئات سلاسل البلوكتشين.

اقرأ البحث

جاري التحميل...

تؤمّن العقود الذكية بشكل روتيني أصولًا مشفرة مفتوحة المصدر تتجاوز قيمتها 100 مليار دولار. ومع تطور قدرات وكلاء الذكاء الاصطناعي في قراءة الأكواد البرمجية وكتابتها وتنفيذها، تزداد أهمية قياس إمكانات هذه الأنظمة في بيئات ذات مغزى اقتصادي، وتشجيع استخدام أنظمة الذكاء الاصطناعي لأغراض دفاعية لتدقيق العقود المنشورة وتعزيز حصانتها.

لقد طرحنا، بالتعاون مع شركة Paradigm⁠(يفتح في نافذة جديدة)، نظام EVMbench، وهو معيار مرجعي لتقييم كفاءة وكلاء الذكاء الاصطناعي في رصد ثغرات العقود الذكية الجسيمة وإصلاحها واختبار تعرضها للاختراق. ويستند نظام EVMbench إلى قاعدة بيانات تضم 117 ثغرة أمنية مختارة بعناية من واقع 40 مراجعة فنية، استُخلص أغلبها من منافسات الأكواد البرمجية المفتوحة. كما يشتمل النظام على نماذج لثغرات مستمدة من إجراءات الفحص الأمني لشبكة Tempo⁠(يفتح في نافذة جديدة)؛ وهي بلوكتشين من الطبقة الأولى (L1) مخصصة لتسهيل عمليات الدفع بالعملات المستقرة بسرعة فائقة ورسوم ضئيلة. وتعمل هذه النماذج على تمديد معايير التقييم لتشمل برمجيات العقود الذكية الخاصة بالمدفوعات، حيث نتنبأ بازدهار حلول الدفع الذاتية بالعملات المستقرة، مما يسهم في ربط هذا المعيار بمجالات تطبيقية حيوية ومتطورة.

لتصميم البيئات المخصصة لمهامنا، قمنا بتعديل الاختبارات الموجودة حاليًا والخاصة ببراعة استغلال الثغرات ونصوص البرمجة المرتبطة بالنشر، وإلا فقد باشرنا كتابتها بأنفسنا. وفي "وضع الإصلاح"، عملنا على ضمان أن الثغرات ليست حقيقية وقابلة للتنفيذ فحسب، بل يمكن معالجتها أيضًا دون التسبب في أخطاء برمجية تمنع تجميع الكود، مما قد يعرض بنيتنا التحتية للخلل. أما في "وضع التنفيذ الحقيقي"، فقد وضعنا معايير تقييم مفصلة وأخضعنا البيئات لاختبارات تحدي المخاطر بهدف كشف وتعطيل أي طرق قد يسلكها الوكيل للتحايل على نظام التقييم. وإلى جانب توظيف الخبرات التخصصية من جانب شركة Paradigm لضبط جودة المهام، استخدمنا وكلاء تدقيق آليين للمساهمة في تعزيز سلامة هذه البيئات الاختبارية وصحتها.

يختبر نظام EVMbench مستويات الكفاءة عبر ثلاثة أوضاع:

الرصد: يتولى الوكلاء مهمة فحص مستودعات الأكواد البرمجية الخاصة بالعقود الذكية، وتُحتسب نتائجهم وفقًا لمدى نجاحهم في تحديد الثغرات الأمنية المثبتة وقيمة الجوائز التقديرية لعمليات التدقيق.
الإصلاح: يُطلب من الوكلاء إجراء تعديلات على العقود الضعيفة أمنيًا بحيث يتم تحصينها ضد الاستغلال دون المساس بالأداء الوظيفي الأصلي للعقد، ويجري التأكد من النجاح من خلال اختبارات آلية وفحوصات اختراق تجريبية.
الاختراق: يقوم الوكلاء بشن هجمات متكاملة لسحب السيولة المالية من عقود مفعلة داخل بيئة بلوكتشين تجريبية محمية، ويتم تصحيح النتائج آليًا عن طريق محاكاة المعاملات والتحقق من صحتها داخل الشبكة.

ومن أجل توفير تقييم محايد ومنهجي يمكن تكرار نتائجه، طورنا منظومة اختبار بلغة Rust تقوم بنشر العقود الذكية وإعادة محاكاة معاملات الوكيل بأسلوب حتمي يضمن ثبات النتائج، بالإضافة إلى تقييد استخدام وظائف RPC التي قد تمثل تهديدًا أمنيًا. ويتم تشغيل مهام استغلال الثغرات في بيئة Anvil افتراضية ومحلية لضمان العزل التام عن الشبكات الفعلية، مع الاعتماد على ثغرات سبق توثيقها ونشرها للعموم.

لقد أخضعنا الوكلاء الرائدين للتقييم ضمن كافة الأنماط الثلاثة؛ ففي وضع " الاختراق "، أحرز نموذج GPT‑5.3‑Codex العامل عبر Codex CLI درجة بلغت 71.0% . وتشكل هذه النتيجة تحسنًا هائلًا عن النماذج السابقة مثل GPT‑5 الذي سجل 33.3% وصدر منذ ما يزيد عن ستة أشهر بقليل. وبخلاف ذلك، تظل معدلات الرصد ونجاح الإصلاح البرمجي دون التغطية الشاملة، إذ لا تزال نسبة كبيرة من الثغرات الفنية مستعصية على الوكلاء من حيث رصدها وتصحيحها.

يسلط EVMbench الضوء على تباينات جوهرية في سلوكيات النماذج؛ إذ تبرز براعة الوكلاء القصوى في وضع "الاختراق" لأن الغاية هناك معلنة ومباشرة: المضي قدمًا في الخطوات التكرارية حتى إفراغ الأرصدة. بينما يتراجع مستوى الإنجاز في مهام "الرصد" و"الإصلاح"؛ ففي حالة "الرصد"، يكتفي الوكلاء أحيانًا برصد ثغرة منفردة ثم يتوقفون، بدلًا من إجراء مراجعة نهائية ودقيقة لقاعدة الأكواد البرمجية. أما في وضع "الإصلاح"، فيبقى التحدي قائمًا في كيفية معالجة نقاط الضعف الدقيقة والغامضة مع الالتزام الصارم بعدم المساس بسلامة الأداء الوظيفي الكلي للنظام.

القيود

إن مقياس EVMbench لا يجسد المدى الكامل للصعوبات التي يواجهها أمن العقود الذكية في الواقع العملي؛ فالشواهد المتعلقة بالثغرات المعتمدة هنا مأخوذة من مسابقات التدقيق الخاصة بمنصة Code4rena. وبالرغم من كونها ثغرات حقيقية وذات خطورة بالغة، فإن هناك العديد من العقود المشفرة المنشورة والمستخدمة بشكل مكثف تمر بعمليات تدقيق وفحص تفوق ذلك بكثير، مما يرفع من مستوى صعوبة اختراقها أو استغلال ثغراتها مقارنة بما هو متاح في بيئة الاختبار.

ويتميز نظام التقييم المتبع لدينا بالمتانة، ومع ذلك فإنه يشوبه بعض النقص؛ إذ نركز في وضع "الرصد" على التأكد مما إذا كان نظام الذكاء الاصطناعي قادرًا على إيجاد ذات الثغرات التي استخرجها المدققون البشريون. أما إذا أبلغ النظام عن مشكلات برمجية إضافية، فنحن لا نمتلك في الوقت الحالي أداة يعتد بها للتأكد مما إذا كانت تلك "ثغرات حقيقية" تجاوزها التدقيق البشري، أم أنها مجرد "إيجابيات كاذبة" لا تمثل تهديدًا أمنيًا فعليًا.

علاوة على ما سبق، يواجه وضع "الاختراق" بعض القصور الهيكلي؛ فالمعاملات تُعاد محاكاتها تتابعيًا في حاوية التقييم، ولذا فإن الاستراتيجيات التي ترتهن لعنصر التوقيت الدقيق لا تقع ضمن اختصاص المقياس. كما أن حالة السلسلة هي مجرد نسخة Anvil محلية أولية وليست "تفريعًا" من الشبكة الرئيسية، مع اقتصار الدعم الحالي على البيئات ذات السلسلة الواحدة فقط. ويؤدي هذا في حالات معينة إلى ضرورة توظيف عقود تجريبية كبديل عن عمليات النشر الحية على الشبكة الرئيسية.

أهمية هذه المرحلة ودلالاتها

في ظل تأمين العقود الذكية لمليارات الدولارات من الأصول، يُنتظر أن يغير وكلاء الذكاء الاصطناعي قواعد اللعبة للمهاجمين والمدافعين. لذا، فإن قياس إمكانات النماذج في هذا الميدان يدعم جهود تتبع المخاطر السيبرانية الواعدة، ويبرز مدى أهمية استغلال تقنيات الذكاء الاصطناعي في الأغراض الدفاعية لغرض تدقيق العقود المنشورة وزيادة حصانتها.

ويهدف EVMbench إلى أن يكون أداة للتقييم وحافزًا للتحرك الفعلي؛ ففي ظل التحسن المستمر في أداء الوكلاء، بات من الضروري للمطورين والباحثين في مجال الأمن إدراج التدقيق المعتمد على الذكاء الاصطناعي ضمن إجراءات عملهم المعتادة.

خلال الأشهر الماضية، شهدنا تحسّنًا ملموسًا في أداء النماذج على مهام الأمن السيبراني، بما يفيد المطوّرين ومتخصّصي الأمن على حدّ سواء. وبالتوازي، عملنا على إعداد ضوابط سيبرانية معزّزة لدعم الاستخدام الدفاعي وتعزيز مرونة المنظومة ككل.

وبما أن الأمن السيبراني بطبيعته ثنائي الاستخدام، فإننا نعتمد نهجًا تكراريًا قائمًا على الأدلة يسرّع قدرة المدافعين على اكتشاف الثغرات ومعالجتها، مع إبطاء إساءة الاستخدام. وتشمل إجراءات التخفيف التدريب على السلامة، والمراقبة الآلية، والوصول الموثوق للقدرات المتقدّمة، وخطوط إنفاذ تتضمن استخبارات التهديدات.

كما نستثمر في ضوابط على مستوى المنظومة، بما في ذلك توسيع النسخة التجريبية الخاصة من Aardvark، وهو وكيل أبحاث الأمن لدينا، إلى جانب الشراكة مع القائمين على صيانة المصادر المفتوحة لتقديم فحص مجاني لقواعد الأكواد البرمجية لمشاريع واسعة الانتشار.

وبناءً على برنامج منح الأمن السيبراني الذي أطلقناه في عام 2023، نلتزم أيضًا بتقديم 10 ملايين دولار من أرصدة واجهات البرمجة (API) لتسريع الدفاع السيبراني باستخدام أقوى نماذجنا، لا سيما لمشاريع المصادر المفتوحة وأنظمة البنية التحتية الحيوية. ويمكن للجهات المنخرطة في أبحاث أمنية بحسن نية التقدّم بطلب للحصول على أرصدة API ودعم عبر برنامج منح الأمن السيبراني لدينا.

نضع اليوم بين أيدي المجتمع البحثي كافة المهام والأدوات البرمجية ومنظومة التقييم EVMbench، وذلك لتعزيز البحوث المتواصلة حول سبل قياس وتنظيم القدرات السيبرانية الصاعدة التي يكتسبها الذكاء الاصطناعي.

متابعة القراءة

عرض الكل

GPT-Red: تفعيل التحسين الذاتي للمتانة

السلامة15 يوليو 2026

فصل الإشارة عن الضجيج في تقييمات البرمجة

البحث8 يوليو 2026

التعريف بـ GeneBench-Pro

البحث30 يونيو 2026