EVMbench-এর পরিচিতি
ব্লকচেইন পরিবেশে দুর্বলতা সনাক্ত, প্যাচ এবং কাজে লাগানোর ক্ষেত্রে AI এজেন্টদের সক্ষমতা মূল্যায়নের মাধ্যমে স্মার্ট কন্ট্র্যাক্টকে আরও নিরাপদ করা.
স্মার্ট কন্ট্র্যাক্টগুলি নিয়মিতভাবে ওপেন-সোর্স ক্রিপ্টো সম্পদে 100 বিলিয়ন ডলারেরও বেশি সুরক্ষিত রাখে. যেহেতু AI এজেন্টরা পড়া, লেখা এবং কোড নির্বাহে উন্নতি করছে, অর্থনৈতিকভাবে অর্থবহ পরিবেশে তাদের সক্ষমতা পরিমাপ করা ক্রমবর্ধমান গুরুত্বপূর্ণ হয়ে উঠছে এবং স্থাপিত চুক্তিগুলো অডিট ও শক্তিশালী করতে AI সিস্টেম প্রতিরক্ষামূলকভাবে ব্যবহারে উৎসাহ দেওয়া উচিত.
Paradigm(একটি নতুন উইন্ডোতে খোলে)-এর সাথে যৌথভাবে, আমরা EVMbench নিয়ে আসছি; এটি এমন একটি বেঞ্চমার্ক যা AI এজেন্টদের উচ্চ-মাত্রার স্মার্ট কন্ট্রাক্ট দুর্বলতাগুলো শনাক্ত করার, সেগুলো প্যাচ করার এবং সেগুলোর সুযোগ নেওয়ার সক্ষমতা মূল্যায়ন করে. EVMbench 40-টি অডিট থেকে নির্বাচিত 117-টি দুর্বলতার উপর ভিত্তি করে তৈরি, যার বেশিরভাগই ওপেন কোড অডিট প্রতিযোগিতা থেকে সংগৃহীত. EVMbench অতিরিক্তভাবে Tempo(একটি নতুন উইন্ডোতে খোলে) ব্লকচেইনের নিরাপত্তা নিরীক্ষণ প্রক্রিয়া থেকে নেওয়া বেশ কয়েকটি দুর্বলতা দৃশ্য অন্তর্ভুক্ত করে, যা স্টেবলকয়েনের মাধ্যমে উচ্চ থ্রুপুট, কম খরচের পেমেন্ট সক্ষম করতে ডিজাইন করা একটি উদ্দেশ্য-নির্মিত L1. এই পরিস্থিতিগুলি বেঞ্চমার্ককে পেমেন্ট-কেন্দ্রিক স্মার্ট কন্ট্র্যাক্ট কোডে প্রসারিত করে, যেখানে আমরা আশা করি এজেন্টিক স্টেবলকয়েন পেমেন্ট বৃদ্ধি পাবে এবং এটি উদীয়মান বাস্তব গুরুত্বের একটি ক্ষেত্রে ভিত্তি স্থাপন করতে সাহায্য করবে.
আমাদের টাস্ক পরিবেশ তৈরি করতে, আমরা বিদ্যমান প্রুফ-অফ-কনসেপ্ট এক্সপ্লয়েট টেস্ট এবং ডিপ্লয়মেন্ট স্ক্রিপ্টগুলো অভিযোজিত করেছি যখন সেগুলো ছিল এবং অন্যথায় সেগুলো ম্যানুয়ালি লিখেছি. প্যাচ মোডের জন্য, আমরা নিশ্চিত করেছি যে দুর্বলতাগুলি শোষণযোগ্য এবং কম্পাইলেশন-ভাঙা পরিবর্তন ছাড়াই সেগুলি প্রশমিত করা যায়, যা আমাদের সেটআপকে ক্ষতিগ্রস্ত করবে না. এক্সপ্লয়েট মোডের জন্য, আমরা কাস্টম গ্রেডার লিখেছি এবং এজেন্ট কিভাবে গ্রেডারকে ফাঁকি দিতে পারে তা খুঁজে বের করে প্যাচ করার জন্য এনভায়রনমেন্টগুলো রেড-টিম করেছি. Paradigm প্রদত্ত ডোমেইন বিশেষজ্ঞতার মাধ্যমে টাস্কের গুণমান নিয়ন্ত্রণের পাশাপাশি, আমরা আমাদের পরিবেশের স্থায়িত্ব বাড়াতে সহায়তা করার জন্য স্বয়ংক্রিয় টাস্ক অডিটিং এজেন্ট ব্যবহার করেছি.
EVMbench তিনটি সক্ষমতা মোড মূল্যায়ন করে:
- ডিটেক্ট: এজেন্টরা একটি স্মার্ট কন্ট্র্যাক্ট রিপোজিটরি অডিট করে এবং গ্রাউন্ড-ট্রুথ দুর্বলতা এবং সংশ্লিষ্ট অডিট পুরস্কারের পুনরুদ্ধারের ভিত্তিতে স্কোর পায়.
- প্যাচ: এজেন্টরা ত্রুটিপূর্ণ কন্ট্রাক্টগুলো সংশোধন করে এবং তাদের অবশ্যই মূল কার্যকারিতা ঠিক রেখে নিরাপত্তার ঝুঁকি দূর করতে হয়, যা স্বয়ংক্রিয় পরীক্ষা এবং এক্সপ্লোয়েট চেকের মাধ্যমে যাচাই করা হয়.
- এক্সপ্লয়েট: এজেন্টরা স্যান্ডবক্সড ব্লকচেইন পরিবেশে ডিপ্লয় করা কন্ট্রাক্টগুলোর বিরুদ্ধে সম্পূর্ণ ফান্ড-ড্রেইনিং আক্রমণ চালায়, যেখানে ট্রানজ্যাকশন রিপ্লে এবং অন-চেইন ভেরিফিকেশনের মাধ্যমে প্রোগ্রাম্যাটিকভাবে গ্রেডিং করা হয়.
উদ্দেশ্যপূর্ণ এবং পুনরুত্পাদনযোগ্য মূল্যায়নকে সমর্থন করার জন্য, আমরা একটি রাস্ট-ভিত্তিক হারনেস তৈরি করেছি যা চুক্তি স্থাপন করে, এজেন্ট লেনদেনগুলি নির্ধারিতভাবে পুনরায় চালায় এবং অনিরাপদ RPC পদ্ধতিগুলি সীমাবদ্ধ করে. এক্সপ্লয়ট কাজগুলো লাইভ নেটওয়ার্কের পরিবর্তে একটি বিচ্ছিন্ন স্থানীয় Anvil পরিবেশে পরিচালিত হয় এবং দুর্বলতাগুলো ঐতিহাসিক এবং সর্বজনীনভাবে নথিভুক্ত.
আমরা তিনটি মোডের সবগুলোতে অত্যাধুনিক এজেন্টদের মূল্যায়ন করি. ‘এক্সপ্লয়েট’ মোডে, GPT‑5.3‑Codex Codex CLI দিয়ে চালালে 71.0% স্কোর পাওয়া যায়. এটি আগের মডেলগুলোর তুলনায় একটি উল্লেখযোগ্য উন্নতি নির্দেশ করে, যেমন GPT‑5, যার স্কোর 33.3% এবং যা মাত্র ছয় মাসের কিছু বেশি আগে প্রকাশিত হয়েছিল. ডিটেক্ট রিকল এবং প্যাচ সাফল্যের হার পূর্ণ কভারেজের নিচে থাকে, কারণ দুর্বলতাগুলোর একটি বড় অংশ এজেন্টদের জন্য খুঁজে বের করা এবং ঠিক করা কঠিন রয়ে গেছে.
EVMbench বিভিন্ন কাজের মধ্যে মডেলের আচরণের আকর্ষণীয় পার্থক্য প্রকাশ করে. এজেন্টরা এক্সপ্লয়েট সেটিং-এ সবচেয়ে ভালো কাজ করে, যেখানে উদ্দেশ্যটি স্পষ্ট: তহবিল নিঃশেষ না হওয়া পর্যন্ত পুনরাবৃত্তি চালিয়ে যান. বিপরীতে, সনাক্তকরণ এবং প্যাচ কাজগুলিতে কর্মক্ষমতা দুর্বল. In ‘ডিটেক্ট’, এজেন্টরা কখনও কখনও কোডবেসটি সম্পূর্ণভাবে নিরীক্ষণ করার পরিবর্তে একটি মাত্র সমস্যা শনাক্ত করার পরই থেমে যায়. ‘প্যাচ’-এ, সূক্ষ্ম দুর্বলতাগুলি অপসারণের সময় পূর্ণ কার্যকারিতা বজায় রাখা চ্যালেঞ্জিং থাকে.
EVMbench বাস্তব-বিশ্বের স্মার্ট কন্ট্র্যাক্ট নিরাপত্তার সম্পূর্ণ জটিলতাকে উপস্থাপন করে না. অন্তর্ভুক্ত দুর্বলতাগুলি Code4rena অডিটিং প্রতিযোগিতাগুলি থেকে নেওয়া হয়েছে. যদিও এগুলি বাস্তবসম্মত এবং উচ্চ-গুরুত্বপূর্ণ, অনেক ব্যাপকভাবে ডিপ্লয় করা এবং বহুল ব্যবহৃত ক্রিপ্টো কন্ট্র্যাক্ট উল্লেখযোগ্যভাবে আরও বেশি যাচাই-বাছাইয়ের মধ্য দিয়ে যায় এবং সেগুলোকে এক্সপ্লয়েট করা আরও কঠিন হতে পারে.
আমাদের গ্রেডিং সিস্টেম মজবুত কিন্তু ত্রুটিপূর্ণ. ‘ডিটেক্ট’ মোডে, আমরা পরীক্ষা করি এই এজেন্ট মানব অডিটরদের দ্বারা শনাক্ত করা একই দুর্বলতাগুলি খুঁজে পায় কিনা. যদি এজেন্ট অতিরিক্ত সমস্যা শনাক্ত করে, তাহলে সেগুলো মানুষ যে সত্যিকারের দুর্বলতাগুলো মিস করেছে তা প্রতিনিধিত্ব করে নাকি মিথ্যা ইতিবাচক—তা নির্ধারণ করার জন্য বর্তমানে আমাদের কাছে কোনো নির্ভরযোগ্য উপায় নেই.
‘এক্সপ্লয়েট’ সেটিংয়েও কাঠামোগত সীমাবদ্ধতা রয়েছে. গ্রেডিং কন্টেইনারে লেনদেনগুলো ধারাবাহিকভাবে পুনরায় চালানো হয়, তাই সুনির্দিষ্ট সময় নির্ধারণের যান্ত্রিকতার উপর নির্ভরশীল আচরণগুলো এই পরিসরের বাইরে. চেইন স্টেটটি মেইননেটের কোনো ফর্ক নয়, বরং একটি ক্লিন লোকাল অ্যানভিল (Anvil) ইনস্ট্যান্স; এবং আমরা বর্তমানে শুধুমাত্র সিঙ্গেল-চেইন এনভায়রনমেন্ট বা একক-চেইন পরিবেশ সমর্থন করি. কিছু ক্ষেত্রে মেইননেট ডিপ্লয়মেন্টের পরিবর্তে মক কন্ট্র্যাক্টের প্রয়োজন হয়.
স্মার্ট কন্ট্র্যাক্টগুলি বিলিয়ন ডলারের সম্পদ সুরক্ষিত করে এবং AI এজেন্টগুলি আক্রমণকারী ও প্রতিরক্ষাকারী উভয়ের জন্যই পরিবর্তনশীল হতে পারে. এই ক্ষেত্রে মডেলের সক্ষমতা পরিমাপ করা উদীয়মান সাইবার ঝুঁকি ট্র্যাক করতে সহায়তা করে এবং মোতায়েনকৃত চুক্তিগুলো অডিট ও শক্তিশালী করতে AI সিস্টেম প্রতিরক্ষামূলকভাবে ব্যবহারের গুরুত্ব তুলে ধরে.
EVMbench একই সঙ্গে একটি পরিমাপের সরঞ্জাম এবং একটি কর্মের আহ্বান হিসেবে উদ্দেশ্যপ্রণোদিত. এজেন্ট উন্নত হওয়ার সাথে সাথে, ডেভেলপার এবং নিরাপত্তা গবেষকদের জন্য তাদের কর্মপ্রবাহে AI-সহায়তাপ্রাপ্ত নিরীক্ষা অন্তর্ভুক্ত করা ক্রমবর্ধমান গুরুত্বপূর্ণ হয়ে উঠছে.
সাম্প্রতিক মাসগুলোতে, আমরা সাইবারসিকিউরিটি কাজগুলোতে মডেলের পারফরম্যান্সে উল্লেখযোগ্য উন্নতি দেখেছি, যা ডেভেলপার এবং নিরাপত্তা পেশাজীবী উভয়ের জন্যই উপকারী. একইসাথে, আমরা প্রতিরক্ষামূলক ব্যবহারের জন্য এবং বিস্তৃত বাস্তুতন্ত্রের স্থিতিস্থাপকতাকে সমর্থন করতে শক্তিশালী সাইবার সুরক্ষা প্রস্তুত করছি.
সাইবার নিরাপত্তা স্বভাবগতভাবে দ্বৈত-ব্যবহারযোগ্য হওয়ায়, আমরা একটি প্রমাণভিত্তিক, পুনরাবৃত্তিমূলক পদ্ধতি গ্রহণ করছি যা প্রতিরক্ষাকারীদের দুর্বলতা খুঁজে বের করা এবং ঠিক করার সক্ষমতাকে দ্রুততর করে, একই সঙ্গে অপব্যবহারকে ধীর করে. আমাদের প্রশমন ব্যবস্থার মধ্যে রয়েছে নিরাপত্তা প্রশিক্ষণ, স্বয়ংক্রিয় পর্যবেক্ষণ, উন্নত সক্ষমতার জন্য বিশ্বস্ত অ্যাক্সেস এবং থ্রেট ইন্টেলিজেন্সসহ প্রয়োগকারী পাইপলাইন.
আমরা ইকোসিস্টেম সুরক্ষায় বিনিয়োগ করছি, যেমন আমাদের নিরাপত্তা গবেষণা এজেন্ট Aardvark-এর প্রাইভেট বেটা সম্প্রসারণ এবং ওপেন-সোর্স মেইনটেইনারদের সঙ্গে অংশীদারিত্ব করে ব্যাপকভাবে ব্যবহৃত প্রজেক্টগুলোর জন্য বিনামূল্যে কোডবেস স্ক্যানিং প্রদান.
2023 সালে চালু করা আমাদের সাইবারসিকিউরিটি গ্র্যান্ট প্রোগ্রামের ভিত্তিতে, আমরা আমাদের সবচেয়ে সক্ষম মডেলগুলির মাধ্যমে সাইবার প্রতিরক্ষা ত্বরান্বিত করতে API ক্রেডিটে 10 মিলিয়ন ডলার প্রতিশ্রুতি দিচ্ছি, বিশেষ করে ওপেন সোর্স সফটওয়্যার এবং গুরুত্বপূর্ণ অবকাঠামো সিস্টেমের জন্য. যেসব সংস্থা সরল বিশ্বাসে নিরাপত্তা গবেষণায় নিয়োজিত, তারা আমাদের সাইবারসিকিউরিটি অনুদান প্রোগ্রাম এর মাধ্যমে API ক্রেডিট এবং সহায়তার জন্য আবেদন করতে পারে.
আমরা উদীয়মান AI সাইবার সক্ষমতা পরিমাপ ও ব্যবস্থাপনা নিয়ে চলমান গবেষণাকে সমর্থন করতে EVMbench-এর টাস্ক, টুলিং এবং মূল্যায়ন কাঠামো প্রকাশ করছি.


