۱۸ فروری، ۲۰۲۶

EVMbench کا تعارف

بلاک چین ماحول میں AI ایجنٹوں کی کمزوریوں کا پتہ لگانے، پیچ کرنے اور ان کا استحصال کرنے کی صلاحیت کا جائزہ لے کر سمارٹ معاہدوں کو محفوظ تر بنانا.

کاغذ کو پڑھیں

لوڈ ہو رہا ہے…

اسمارٹ کنٹریکٹس معمول کے مطابق اوپن سورس کرپٹو اثاثوں میں $100B+ کو محفوظ کرتے ہیں. جیسے جیسے AI ایجنٹس پڑھنے، لکھنے اور کوڈ چلانے میں بہتر ہوتے جاتے ہیں، یہ معاشی طور پر بامعنی ماحول میں ان کی صلاحیتوں کی پیمائش کرنے اور تعینات شدہ معاہدوں کا آڈٹ کرنے اور انہیں مضبوط بنانے کے لیے دفاعی طور پر AI سسٹمز کے استعمال کی حوصلہ افزائی کرنا زیادہ اہم ہوتا جا رہا ہے.

Paradigm⁠(نئی ونڈو میں کھلتا ہے) کے ساتھ مل کر، ہم EVMbench متعارف کرا رہے ہیں، جو ایک ایسا بینچ مارک ہے جو AI ایجنٹس کی اس صلاحیت کا جائزہ لیتا ہے کہ وہ ہائی سیویریٹی اسمارٹ کانٹریکٹ کمزوریوں کو شناخت کریں، انہیں درست (patch) کریں، اور ان کا فائدہ (exploit) اٹھا سکیں. EVMbench میں 40 آڈٹس سے منتخب کی گئی 117 مرتب شدہ کمزوریاں (vulnerabilities) شامل ہیں، جن میں سے زیادہ تر اوپن کوڈ آڈٹ مقابلوں سے حاصل کی گئی ہیں. EVMbench میں اضافی طور پر Tempo⁠(نئی ونڈو میں کھلتا ہے) بلاک چین کے لیے سیکیورٹی آڈٹنگ کے عمل سے اخذ کیے گئے کئی کمزوری کے منظرنامے شامل ہیں، جو ایک مقصد کے لیے تیار کردہ L1 ہے جسے اسٹیبل کوائن کے ذریعے ہائی تھروپٹ، کم لاگت ادائیگیوں کو ممکن بنانے کے لیے ڈیزائن کیا گیا ہے. یہ منظرنامے بینچ مارک کو ادائیگی پر مبنی اسمارٹ کنٹریکٹ کوڈ تک توسیع کرتے ہیں، جہاں ہمیں توقع ہے کہ ایجنٹک اسٹیبل کوائن ادائیگیاں بڑھیں گی اور یہ ابھرتی ہوئی عملی اہمیت کے ایک شعبے میں مضبوط بنیاد فراہم کرنے میں مدد کرتے ہیں.

اپنے ٹاسک ماحول بنانے کے لیے، ہم نے موجودہ پروف آف کانسیپٹ ایکسپلائٹ ٹیسٹس اور ڈپلائمنٹ اسکرپٹس کو جہاں موجود تھے، ڈھالا اور بصورت دیگر انہیں دستی طور پر لکھا. پیچ موڈ کے لیے، ہم نے یہ یقینی بنایا کہ کمزوریاں قابلِ استحصال ہیں اور انہیں ایسی تبدیلیاں متعارف کرائے بغیر کم کیا جا سکتا ہے جو کمپائلیشن کو توڑ دیں اور ہمارے سیٹ اپ کو متاثر کریں. ایکسپلائٹ موڈ کے لیے، ہم نے کسٹم گریڈرز لکھے اور ماحول کو ریڈ-ٹیم کیا تاکہ ایسے طریقے تلاش کیے جا سکیں اور انہیں پیچ کیا جا سکے جن کے ذریعے کوئی ایجنٹ گریڈر کو دھوکہ دے سکتا ہو. Paradigm کی فراہم کردہ ڈومین مہارت کے ذریعے ٹاسک کے معیار کے کنٹرول کے علاوہ، ہم نے اپنے ماحول کی مضبوطی بڑھانے میں مدد کے لیے خودکار ٹاسک آڈٹنگ ایجنٹس کو استعمال کیا.

EVMbench تین صلاحیتوں کے موڈز کا جائزہ لیتا ہے:

پتہ لگائیں: ایجنٹس ایک اسمارٹ کنٹریکٹ ریپوزٹری کا آڈٹ کرتے ہیں اور انہیں گراؤنڈ ٹروتھ کمزوریوں کی یادداشت اور متعلقہ آڈٹ انعامات کی بنیاد پر اسکور کیا جاتا ہے.
پیچ: ایجنٹس کمزور معاہدوں میں ترمیم کرتے ہیں اور استحصال کی صلاحیت کو ختم کرتے ہوئے مطلوبہ فعالیت کو برقرار رکھنا ضروری ہے، جس کی تصدیق خودکار ٹیسٹس اور استحصال کی جانچ کے ذریعے کی جاتی ہے.
استحصال: ایجنٹس سینڈباکسڈ بلاک چین ماحول میں تعینات معاہدوں کے خلاف اختتام سے آخر تک فنڈز نکالنے کے حملے کرتے ہیں اور گریڈنگ لین دین کے دوبارہ چلانے اور آن چین تصدیق کے ذریعے پروگراماتی طور پر کی جاتی ہے.

معروضی اور قابلِ تکرار تجزیہ کی حمایت کے لیے، ہم نے Rust پر مبنی ایک ہارنس تیار کیا جو معاہدے تعینات کرتا ہے، ایجنٹ کے لین دین کو تعیناتی طور پر دوبارہ چلاتا ہے اور غیر محفوظ RPC طریقوں کو محدود کرتا ہے. استحصال کے کام لائیو نیٹ ورکس کے بجائے ایک الگ تھلگ مقامی Anvil ماحول میں انجام دیے جاتے ہیں اور کمزوریاں تاریخی اور عوامی طور پر دستاویزی ہیں.

ہم تینوں طریقوں میں جدید ترین ایجنٹس کا جائزہ لیتے ہیں. ‘Exploit’ موڈ میں، GPT‑5.3‑Codex جب Codex CLI کے ذریعے چلایا گیا تو اس نے 71.0٪ اسکور حاصل کیا. یہ پچھلے ماڈلز کے مقابلے میں ایک نمایاں بہتری کی نمائندگی کرتا ہے، جیسے GPT‑5، جس نے 33.3% اسکور حاصل کیا تھا اور جسے صرف چھ ماہ سے کچھ زیادہ عرصہ پہلے جاری کیا گیا تھا. ِیٹیکٹ ریکال اور پیچ کامیابی کی شرحیں ابھی مکمل کوریج تک نہیں پہنچیں، کیونکہ بڑی تعداد میں کمزوریاں اب بھی ایجنٹس کے لیے تلاش کرنا اور درست کرنا مشکل رہتی ہیں.

EVMbench مختلف ٹاسکس میں ماڈل کے رویے میں دلچسپ فرق بھی ظاہر کرتا ہے. ایجنٹس بہترین کارکردگی ایکسپلائٹ سیٹنگ میں دکھاتے ہیں، جہاں مقصد واضح ہے: فنڈز ختم ہونے تک تکرار جاری رکھیں. اس کے برعکس، ڈیٹیکٹ اور پیچ ٹاسکس پر کارکردگی کمزور ہے. 'ڈٹیکٹ' میں، ایجنٹس بعض اوقات کوڈ بیس کا مکمل آڈٹ کرنے کے بجائے ایک ہی مسئلہ کی شناخت کے بعد رک جاتے ہیں. 'پیچ' میں، مکمل فعالیت کو برقرار رکھتے ہوئے باریک کمزوریوں کو دور کرنا اب بھی مشکل ہے.

حدود

EVMbench حقیقی دنیا کے اسمارٹ کنٹریکٹ سیکیورٹی کی مکمل مشکل کی نمائندگی نہیں کرتا. شامل کردہ کمزوریاں Code4rena کے آڈٹ مقابلوں سے لی گئی تھیں. اگرچہ یہ حقیقت پسندانہ اور زیادہ شدت کے ہیں، لیکن بہت سے بڑے پیمانے پر تعینات اور وسیع پیمانے پر استعمال ہونے والے کرپٹو معاہدے نمایاں طور پر زیادہ جانچ پڑتال سے گزرتے ہیں اور ان کو بروئے کار لانا زیادہ مشکل ہو سکتا ہے.

ہمارا گریڈنگ سسٹم مضبوط ہے لیکن کامل نہیں ہے. 'پتہ پلگائیں' موڈ میں، ہم یہ جانچتے ہیں کہ آیا ایجنٹ وہی کمزوریاں تلاش کرتا ہے جو انسانی آڈیٹرز نے شناخت کی ہیں. اگر ایجنٹ اضافی مسائل کی نشاندہی کرتا ہے، تو ہمارے پاس فی الحال یہ تعین کرنے کا کوئی قابل اعتماد طریقہ نہیں ہے کہ آیا وہ حقیقی کمزوریاں ہیں جنہیں انسانوں نے نظر انداز کیا تھا یا غلط مثبت ہیں.

'بروئے کار لائیں' کی ترتیب میں بھی ساختی حدود موجود ہیں. گریڈنگ کنٹینر میں ٹرانزیکشنز کو ترتیب وار دوبارہ چلائے جاتے ہیں، اس لیے وہ رویے جو درست وقت کے میکینکس پر منحصر ہوں، دائرہ کار سے باہر ہیں. چین کی حالت ایک صاف مقامی Anvil مثال ہے نہ کہ مین نیٹ کا فورک، اور ہم فی الحال صرف سنگل چین ماحول کی حمایت کرتے ہیں. کچھ معاملات میں اس کے لیے مین نیٹ تعیناتیوں کے بجائے ماک معاہدے درکار ہوتے ہیں.

یہ کیوں اہم ہے

اسمارٹ معاہدے اربوں ڈالر کے اثاثوں کو محفوظ بناتے ہیں اور AI ایجنٹس ممکنہ طور پر حملہ آوروں اور محافظوں دونوں کے لیے تبدیلی کا سبب بن سکتے ہیں. اس ڈومین میں ماڈل کی صلاحیت کی پیمائش ابھرتے ہوئے سائبر خطرات کو ٹریک کرنے میں مدد دیتی ہے اور تعینات کردہ معاہدوں کا آڈٹ کرنے اور انہیں مضبوط بنانے کے لیے AI سسٹمز کو دفاعی طور پر استعمال کرنے کی اہمیت کو اجاگر کرتی ہے.

EVMbench کا مقصد ایک پیمائشی ٹول اور عمل کی دعوت دونوں کے طور پر ہے. جیسے جیسے ایجنٹس بہتر ہوتے جاتے ہیں، ڈویلپرز اور سیکیورٹی محققین کے لیے اپنے ورک فلو میں AI کی مدد سے آڈٹنگ کو شامل کرنا زیادہ اہم ہوتا جا رہا ہے.

حالیہ مہینوں میں، ہم نے سائبر سیکیورٹی کے کاموں پر ماڈل کی کارکردگی میں اہم پیشرفت دیکھی ہے، جس سے ڈویلپرز اور سیکیورٹی ماہرین دونوں کو فائدہ پہنچا ہے. اسی دوران، ہم نے دفاعی استعمال اور وسیع تر ماحولیاتی نظام کی لچک کی حمایت کے لیے مضبوط سائبر حفاظتی اقدامات تیار کیے ہیں .

چونکہ سائبر سیکیورٹی فطری طور پر دوہری استعمال کی حامل ہے، ہم شواہد پر مبنی، تکراری طریقہ کار اختیار کر رہے ہیں جو مدافعین کی کمزوریوں کو تلاش کرنے اور انہیں درست کرنے کی صلاحیت کو تیز کرتا ہے جبکہ غلط استعمال کو سست کرتا ہے. ہماری تخفیفی تدابیر میں حفاظتی تربیت، خودکار نگرانی، جدید صلاحیتوں کے لیے قابل اعتماد رسائی ، اور نفاذ کے عمل شامل ہیں جن میں خطرے کی انٹیلیجنس شامل ہے.

ہم ماحولیاتی نظام کے تحفظات میں سرمایہ کاری کر رہے ہیں، جیسا کہ Aardvark کے نجی بیٹا کو وسعت دینا، جو ہمارا سیکیورٹی ریسرچ ایجنٹ ہے اور اوپن سورس مینٹینرز کے ساتھ شراکت داری کرنا تاکہ وسیع پیمانے پر استعمال ہونے والے پروجیکٹس کے لیے مفت کوڈبیس اسکیننگ فراہم کی جا سکے.

2023 میں شروع کیے گئے ہمارے $1M سائبر سیکیورٹی گرانٹ پروگرام کی بنیاد پر، ہم اپنے سب سے طاقتور ماڈلز کے ساتھ سائبر دفاع کو تیز کرنے کے لیے API کریڈٹس میں $10M دینے کا بھی عہد کر رہے ہیں، خاص طور پر اوپن سورس سافٹ ویئر اور اہم انفراسٹرکچر سسٹمز کے لیے. نیک نیتی کے ساتھ سیکیورٹی تحقیق میں مشغول تنظیمیں ہمارے سائبر سیکیورٹی گرانٹ پروگرام کے ذریعے API کریڈٹس اور معاونت کے لیے درخواست دے سکتی ہیں.

ہم EVMbench کے ٹاسک، ٹولنگ اور ایویلیوایشن فریم ورک کو جاری کرتے ہیں تاکہ ابھرتی ہوئی AI سائبر صلاحیتوں کی پیمائش اور ان کے انتظام پر مسلسل تحقیق کی معاونت کی جا سکے.

پڑھتے رہیں

سب دیکھیں

GPT-Red: مضبوطی کے لیے خود بہتری کو کھولنا

حفاظت۱۵ جولائی، ۲۰۲۶

کوڈنگ جائزوں میں سگنل کو شور سے الگ کرنا

تحقیق۸ جولائی، ۲۰۲۶

GeneBench-Pro کا تعارف

تحقیق۳۰ جون، ۲۰۲۶