2026 ഫെബ്രുവരി 18

EVMbench-നെ അവതരിപ്പിക്കുന്നു

ബ്ലോക്ക്ചെയിൻ പരിതസ്ഥിതികളിലേ ദുർബലതകൾ കണ്ടെത്തി, പാച്ച് ചെയ്ത്, ദുർബലതകൾ അനുകൂലമായി ഉപയോഗപ്പെടുത്തുന്നതിനുള്ള AI ഏജന്റുകളുടെ കഴിവ് വിലയിരുത്തി സ്മാർട്ട് കോൺട്രാക്റ്റുകൾ കൂടുതൽ സുരക്ഷിതമാക്കുന്നു.

പത്രം വായിക്കുക

ലോഡിംഗ്…

സ്മാർട്ട് കരാറുകൾ പതിവായി ഓപ്പൺ-സോഴ്‌സ് ക്രിപ്റ്റോ ആസ്തികളിൽ $100B+ സുരക്ഷിതമാക്കുന്നു. AI ഏജന്റുകൾ കോഡ് വായിക്കാനും എഴുതാനും നടപ്പിലാക്കാനും കൂടുതൽ കഴിവുള്ളതായി മാറുന്നതിനു അനുസരിച്ച്, സാമ്പത്തിക പരിതസ്ഥിതികളിൽ അവരുടെ കഴിവുകൾ അളക്കുന്നതും കൂടുതൽ പ്രധാനമാകുന്നു. കൂടാതെ, നടപ്പാക്കിയ കരാറുകൾ ഓഡിറ്റ് ചെയ്യാനും ശക്തിപ്പെടുത്താനും AI സിസ്റ്റങ്ങളെ പ്രതിരോധപരമായി ഉപയോഗിക്കാൻ പ്രോത്സാഹിപ്പിക്കേണ്ടതുണ്ട്.

പാരഡൈമിനൊപ്പം⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), AI ഏജന്റുകൾക്ക് ഉയർന്ന തീവ്രതയുള്ള സ്മാർട്ട് കോൺട്രാക്റ്റ് ദൗർബല്യങ്ങൾ കണ്ടെത്താനും, പാച്ച് ചെയ്യാനും, ചൂഷണം ചെയ്യാനും ഉള്ള കഴിവ് വിലയിരുത്തുന്ന ഒരു ബെഞ്ച്മാർക്ക് ആയ EVMbench-നെ ഞങ്ങൾ അവതരിപ്പിക്കുന്നു. EVMbench 40 ഓഡിറ്റുകളിൽ നിന്നുള്ള 117 ക്യൂറേറ്റ് ചെയ്ത ദൗർബല്യങ്ങളെ ആശ്രയിക്കുന്നു, അവയിൽ ഭൂരിഭാഗവും ഓപ്പൺ കോഡ് ഓഡിറ്റ് മത്സരങ്ങളിൽ നിന്നാണ് ലഭിച്ചത്. EVMbench ടെമ്പോ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ബ്ലോക്ക്‌ചെയിനിന്റെ സുരക്ഷാ ഓഡിറ്റിംഗ് പ്രക്രിയയിൽ നിന്ന് എടുത്ത നിരവധി ദുര്‍ബലതാ സീനാരിയോകളും അധികമായി ഉൾക്കൊള്ളുന്നു, ഇത് സ്റ്റേബിൾകോയിനുകൾ വഴി ഉയർന്ന-ത്രൂപുട്ട്, കുറഞ്ഞ-ചെലവുള്ള പേയ്മെന്റുകൾ സാധ്യമാക്കാൻ രൂപകൽപ്പന ചെയ്ത ഒരു പ്രത്യേക-ഉദ്ദേശ്യ L1 ആണ്. ഈ സാഹചര്യങ്ങൾ ബെഞ്ച്മാർക്കിനെ പേയ്മെന്റ്-കേന്ദ്രിത സ്മാർട്ട് കോൺട്രാക്റ്റ് കോഡിലേക്കു വ്യാപിപ്പിക്കുന്നു, ഏജന്റിക് സ്റ്റേബിൾകോയിൻ പേയ്മെന്റുകൾ വളരുമെന്ന് പ്രതീക്ഷിക്കുന്നു, കൂടാതെ ഉയർന്നുവരുന്ന പ്രായോഗിക പ്രാധാന്യമുള്ള ഒരു ഡൊമെയിനിൽ അതിനെ ഉറച്ച അടിത്തറയിൽ സ്ഥാപിക്കാൻ സഹായിക്കുന്നു.

ഞങ്ങളുടെ പ്രവർത്തന പരിസരങ്ങൾ സൃഷ്ടിക്കുന്നതിനായി, നിലവിലുള്ള പ്രൂഫ്‌ ഓഫ് കണ്സെപ്റ്റ് എക്സ്പ്ലോയിറ്റ് പരിശോധനകളും വിന്യാസത്തിനുള്ള സ്ക്രിപ്റ്റുകളും തയാറാക്കി, മുന്‍പേ ഉണ്ടായിരുന്നവ അനുയോജ്യമായി രൂപാന്തരപ്പെടുത്തി ഉപയോഗിക്കുകയും അവ ലഭ്യമല്ലാത്ത സാഹചര്യങ്ങളിൽ ഞങ്ങള്‍ തന്നെ എഴുതിയും ആണ് ഇത് സാധിച്ചത്. പാച്ച് മോഡിനായി, ഞങ്ങൾ ഈ ദുർബലതകൾ ചൂഷണം ചെയ്യാവുന്നതും, ഞങ്ങളുടെ സജ്ജീകരണത്തെ ബാധിക്കുന്ന കമ്പൈലേഷൻ-ബ്രേക്കിംഗ് മാറ്റങ്ങൾ വരുത്താതെ സൂക്ഷിക്കാന്‍ കഴിയുന്നതും ആണെന്നുള്ളത് ഉറപ്പാക്കി. എക്സ്പ്ലോയിറ്റ് മോഡിനായി, ഞങ്ങൾ ഇഷ്ടാനുസൃത ഗ്രേഡറുകള്‍ തയ്യാറാക്കി, ഒരു ഏജന്റ് ഗ്രേഡറെ ചതിക്കാനായി ഉപയോഗിക്കാവുന്ന രീതികൾ കണ്ടെത്തി പാച്ച് ചെയ്യുന്നതിനായി പരിതസ്ഥിതികളെ റെഡ്-ടീം ചെയ്തു. ഞങ്ങളുടെ പരിസ്ഥിതികളുടെ വിശ്വാസ്യത വർദ്ധിപ്പിക്കാൻ സഹായിക്കുന്നതിനായി, Paradigm നൽകുന്ന ഡൊമെയ്ൻ വിദഗ്ധതയിലൂടെ ടാസ്ക്കുകളുടെ ഗുണനിലവാര നിയന്ത്രണത്തിന് പുറമേ, ഞങ്ങൾ ഓട്ടോമേറ്റുചെയ്ത ടാസ്ക് ഓഡിറ്റിംഗ് ഏജന്റുകളെയും ഉപയോഗിച്ചു.

EVMbench ശേഷിയുടെ മൂന്ന് മോഡുകൾ വിലയിരുത്തുന്നു:

ഡിറ്റക്റ്റ്: ഏജന്റുമാർ ഒരു സ്മാർട്ട് കോൺട്രാക്റ്റ് റിപ്പോസിറ്ററി ഓഡിറ്റ് ചെയ്യുകയും ഗ്രൗണ്ട്-ട്രൂത്ത് വൾണറബിലിറ്റികളും ബന്ധപ്പെട്ട ഓഡിറ്റ് റിവാർഡുകളും തിരിച്ചറിയുന്നതിൽ അവരെ സ്കോർ ചെയ്യുകയും ചെയ്യുന്നു.
പാച്ച്: ഏജൻ്റുകൾ ദുർബലമായ കരാറുകൾ പരിഷ്‌കരിക്കുകയും, ചൂഷണയോഗ്യത ഇല്ലാതാക്കുന്നതിനൊപ്പം ഉദ്ദേശിച്ച പ്രവർത്തനക്ഷമത സംരക്ഷിക്കുകയും വേണം. ഇത് ഓട്ടോമേറ്റഡ് ടെസ്റ്റുകളും ചൂഷണ പരിശോധനകളും വഴി സ്ഥിരീകരിക്കുന്നു.
എക്സ്പ്ലോയിറ്റ്: ഏജൻ്റുകൾ സാൻഡ്ബോക്സ്ഡ് ബ്ലോക്ക്ചെയിൻ പരിതസ്ഥിതിയിൽ വിന്യസിച്ചിരിക്കുന്ന കോൺട്രാക്റ്റുകൾക്കെതിരെ എൻഡ്-ടു-എൻഡ് ഫണ്ട്-ഡ്രെയിനിംഗ് ആക്രമണങ്ങൾ നടത്തുന്നു, ട്രാൻസാക്ഷൻ റീപ്ലേയും ഓൺ-ചെയിൻ വെരിഫിക്കേഷനും വഴി ഗ്രേഡിംഗ് പ്രോഗ്രാമാറ്റിക്കായി നടത്തപ്പെടുന്നു.

വസ്തുനിഷ്ഠവും പുനരുത്പാദിപ്പിക്കാന്‍ കഴിയുന്നതുമായ വിലയിരുത്തലിനെ പിന്തുണയ്ക്കുന്നതിനായി, കരാറുകൾ വിന്യസിക്കുകയും, ഏജന്റ് ഇടപാടുകൾ നിർണായകമായി പുനഃപ്രവർത്തിപ്പിക്കുകയും, സുരക്ഷിതമല്ലാത്ത RPC രീതികളെ നിയന്ത്രിക്കുകയും ചെയ്യുന്ന ഒരു Rust-അടിസ്ഥാനത്തിലുള്ള ഹാർനെസ് ഞങ്ങൾ വികസിപ്പിച്ചു. ചൂഷണ പ്രവർത്തനങ്ങൾ ലൈവ് നെറ്റ്‌വർക്കുകളിൽ അല്ല, മറിച്ച് ഒറ്റപ്പെട്ട ഒരു ലോക്കൽ Anvil പരിതസ്ഥിതിയിലാണ് പ്രവർത്തിക്കുന്നത്, കൂടാതെ ദൗർബല്യങ്ങൾ ചരിത്രപരവും പൊതുവായി രേഖപ്പെടുത്തിയവയുമാണ്.

ഞങ്ങൾ മൂന്ന് മോഡുകളിലും ഉടനീളം അത്യാധുനിക ഏജന്റുകളെ വിലയിരുത്തുന്നു. ‘exploit’ മോഡിൽ, GPT‑5.3‑Codex Codex CLI വഴി പ്രവർത്തിപ്പിക്കുന്നത് 71.0% എന്ന സ്കോർ നേടുന്നു. ഇത് മുൻ മോഡലുകളായ GPT‑5 പോലുള്ളവയെക്കാൾ ഗണ്യമായ നേട്ടമാണ്, GPT‑5 33.3% സ്കോർ നേടി, വെറും ആറുമാസത്തിലധികം മുമ്പാണ് അത് പുറത്തിറക്കിയത്. കണ്ടെത്തൽ, റിക്കാൾ, പാച്ച് വിജയനിരക്കുകൾ പൂർണ്ണ കവറേജിൽ താഴെയാണെന്ന് തുടരുന്നു, കാരണം ഏജന്റുകൾക്ക് കണ്ടെത്താനും പരിഹരിക്കാനും പ്രയാസമുള്ളഒരുപാട് ദുർബലതകൾ ഇപ്പോഴും നിലനിൽക്കുന്നു.

EVMbench മോഡലിന്റെ പെരുമാറ്റത്തിൽ ടാസ്കുകൾക്കിടയിൽ രസകരമായ വ്യത്യാസങ്ങൾ വെളിപ്പെടുത്തുന്നു. ഏജൻ്റുകൾ എക്സ്പ്ലോയിറ്റ് സജ്ജീകരണത്തിൽ ഏറ്റവും മികച്ച പ്രകടനം കാഴ്ചവെക്കുന്നു, അവിടെ ലക്ഷ്യം വ്യക്തമാണ്: ഫണ്ടുകൾ മുഴുവൻ തീരുന്നതുവരെ ആവർത്തനം തുടരുക. അതിന് വിപരീതമായി, കണ്ടെത്തൽ, പാച്ച് ചെയ്യൽ ടാസ്കുകളിൽ പ്രകടനം ദുർബലമാണ്. ‘detect’, ഏജന്റുകളില്‍ ചിലപ്പോൾ കോഡ്ബേസ് സമഗ്രമായി ഓഡിറ്റ് ചെയ്യുന്നതിനുപകരം ഒരു ഒറ്റ പ്രശ്നം തിരിച്ചറിഞ്ഞതിന് ശേഷം തന്നെ നിർത്താറുണ്ട്. ‘പാച്ച്’ പ്രക്രിയയിൽ, സൂക്ഷ്മമായ ദുർബലതകൾ നീക്കം ചെയ്യുന്നതിനൊപ്പം പൂർണ്ണ പ്രവർത്തനക്ഷമത നിലനിർത്തുന്നത് വെല്ലുവിളിയാകുന്നു.

പരിമിതികൾ

EVMbench യഥാർത്ഥ ലോകത്തിലെ സ്മാർട്ട് കോൺട്രാക്റ്റ് സുരക്ഷയുടെ മുഴുവൻ ബുദ്ധിമുട്ടിനെയും പ്രതിനിധീകരിക്കുന്നില്ല. ഇവിടെ ഉൾപ്പെടുത്തിയിരുന്ന ദുർബലതകൾ Code4rena ഓഡിറ്റിംഗ് മത്സരങ്ങളിൽ നിന്ന് എടുത്തതാണ്. ഇ ദുര്‍ബലതകള്‍ യഥാർത്ഥവും ഉയർന്ന തീവ്രതയുള്ളതുമാണെങ്കിലും, വ്യാപകമായി വിന്യസിക്കപ്പെടുന്നതും വ്യാപകമായി ഉപയോഗിക്കപ്പെടുന്നതുമായ ക്രിപ്റ്റോ കരാറുകൾ കൂടുതൽ ശക്തമായ സൂക്ഷ്മമായ നിരീക്ഷണത്തിന് വിധേയമാകുന്നതും അവയെ ചൂഷണം ചെയ്യാൻ കൂടുതൽ പ്രയാസവുമാണ്.

ഞങ്ങളുടെ ഗ്രേഡിംഗ് സിസ്റ്റം ശക്തമാണെങ്കിലും അപൂർണ്ണമാണ്. ‘ഡിറ്റക്റ്റ്’ മോഡിൽ, മനുഷ്യ ഓഡിറ്റർമാർ തിരിച്ചറിഞ്ഞ അതേ ദുർബലതകൾ ഏജന്റ്ന് കണ്ടെത്താന്‍ കഴിയുന്നുണ്ടോ എന്ന് ഞങ്ങൾ പരിശോധിക്കുന്നു. ഏജന്റ് അധിക പ്രശ്നങ്ങൾ കണ്ടെത്തിയാൽ, അവ മനുഷ്യർ കാണാതെ പോയ യഥാർത്ഥ സുരക്ഷാ ദുര്‍ബലതകളാണോ, അല്ലെങ്കിൽ തെറ്റായ പോസിറ്റീവുകളാണോ എന്ന് തിരിച്ചറിയാൻ ഞങ്ങൾക്ക് നിലവിൽ വിശ്വസനീയമായ മാർഗമില്ല.

‘എക്സ്പ്ലോയിറ്റ്’ ക്രമീകരണത്തിലും ഘടനാപരമായ പരിമിതികൾ ഉണ്ട്. ഗ്രേഡിംഗ് കണ്ടെയ്‌നറിൽ ഇടപാടുകൾ ക്രമാനുസൃതമായി വീണ്ടും പ്രവർത്തിപ്പിക്കപ്പെടുന്നു, അതിനാൽ കൃത്യമായ സമയ ക്രമീകരണ മെക്കാനിസങ്ങളിലധികം ആശ്രയിക്കുന്ന പെരുമാറ്റങ്ങൾ പരിധിയിൽപ്പെടുന്നില്ല. ചെയിൻ സ്റ്റേറ്റ് ഒരു ശുദ്ധമായ ലോക്കൽ Anvil ഇൻസ്റ്റൻസ് ആണ്, mainnet-ന്റെ ഫോർക്ക് അല്ല, കൂടാതെ ഞങ്ങൾ നിലവിൽ ഒറ്റ-ചെയിൻ പരിതസ്ഥിതികൾക്ക് മാത്രമാണ് പിന്തുണ നൽകുന്നത്. ചില സാഹചര്യങ്ങളിൽ, മെയിൻനെറ്റ് ഡിപ്ലോയ്മെന്റുകൾക്ക് പകരം മോക്ക് കോൺട്രാക്റ്റുകൾ ആവശ്യമാണ്.

എന്താണ് ഇതിന്റെ പ്രാധാന്യം

സ്മാർട്ട് കോൺട്രാക്റ്റുകൾ ബില്യൺ കണക്കിന് ഡോളര്‍ വരുന്ന ആസ്തികളെ സുരക്ഷിതമാക്കുന്നു, AI ഏജന്റുകൾ ആക്രമണകാരികൾക്കും പ്രതിരോധകരർക്കും സ്വന്തം താല്പര്യം അനുസരിച്ച് മാറ്റം വരുത്താം എന്ന സാധ്യതയുമുണ്ട്. ഈ ഡൊമെയ്‌നിൽ മോഡലിന്റെ കഴിവ് അളക്കുന്നത് ഉയർന്നുവരുന്ന സൈബർ അപകടസാധ്യതകൾ നിരീക്ഷിക്കാൻ സഹായിക്കുകയും, വിന്യസിച്ച കരാറുകൾ ഓഡിറ്റ് ചെയ്യാനും ശക്തിപ്പെടുത്താനും AI സംവിധാനങ്ങളെ പ്രതിരോധപരമായി ഉപയോഗിക്കുന്നതിന്റെ പ്രാധാന്യം എടുത്തുകാണിക്കുകയും ചെയ്യുന്നു.

EVMbench ഇത് അളക്കാനുള്ള ഒരു ഉപകരണമായും നടപടിക്കുള്ള ഒരു ആഹ്വാനമായും ഉദ്ദേശിച്ചിരിക്കുന്നു. ഏജൻ്റുകൾ മെച്ചപ്പെടുമ്പോൾ, ഡെവലപ്പർമാർക്കും സുരക്ഷാ ഗവേഷകർക്കും അവരുടെ പ്രവാഹങ്ങളിൽ AI-സഹായിത ഓഡിറ്റിംഗ് ഉൾപ്പെടുത്തുന്നത് അത്യാവശ്യമാകുന്നു.

കഴിഞ്ഞ മാസങ്ങളിൽ, സൈബർസുരക്ഷാ ടാസ്കുകളിൽ മോഡലിന്റെ പ്രകടനത്തിൽ നാം അർത്ഥവത്തായ പുരോഗതി കണ്ടിട്ടുണ്ട്, ഇത് ഡെവലപ്പർമാർക്കും സുരക്ഷാ പ്രൊഫഷണലുകൾക്കും പ്രയോജനകരമാണ്. സമാന്തരമായി, പ്രതിരോധപരമായ ഉപയോഗത്തിനും വിശാലമായ ആവാസവ്യവസ്ഥയുടെ പ്രതിരോധശേഷിക്കും പിന്തുണ നൽകുന്നതിനായി ഞങ്ങൾ ശക്തിപ്പെടുത്തിയ സൈബർ സുരക്ഷാ മുൻകരുതലുകൾ തയ്യാറാക്കിയിട്ടുണ്ട്.

സൈബർസുരക്ഷയുടെ സ്വഭാവം ഇരുതല മൂര്‍ച്ചയുള്ളത് ആയതിനാല്‍ ദുരുപയോഗം മന്ദഗതിയിലാക്കുന്നതിനൊപ്പം പ്രതിരോധ പ്രവര്‍ത്തകര്‍ക്ക് ബലഹീനതകള്‍ കണ്ടെത്താനും പരിഹരിക്കാനും ഉള്ള കഴിവ് വേഗത്തിലാക്കുന്ന തെളിവ്-അടിസ്ഥാനത്തിലുള്ള, ആവർത്തനപരമായ ഒരു സമീപനമാണ് ഞങ്ങൾ സ്വീകരിക്കുന്നത്. ഞങ്ങളുടെ ലഘൂകരണങ്ങളിൽ സുരക്ഷാ പരിശീലനം, ഓട്ടോമേറ്റഡ് മോണിറ്ററിംഗ്, നൂതന കഴിവുകൾക്കായുള്ള വിശ്വസനീയമായ ആക്സസ്, ഭീഷണി ഇന്റലിജൻസ് ഉൾപ്പെടുന്ന നിർബന്ധന പൈപ്പ്ലൈനുകൾ എന്നിവ ഉൾപ്പെടുന്നു.

ഞങ്ങൾ ഇക്കോസിസ്റ്റം സുരക്ഷാ സംരക്ഷണങ്ങളിൽ നിക്ഷേപിക്കുന്നു, ഉദാഹരണത്തിന്, ഞങ്ങളുടെ സുരക്ഷാ ഗവേഷണ ഏജന്റ് ആർഡ്വാർക്-ന്റെ സ്വകാര്യ ബീറ്റ വിപുലീകരണം, കൂടാതെ വ്യാപകമായി ഉപയോഗിക്കുന്ന പ്രോജക്റ്റുകൾക്കായി സൗജന്യ കോഡ്ബേസ് സ്കാനിംഗ് നൽകാൻ ഓപ്പൺ-സോഴ്‌സ് മെയിന്റെയ്‌നർമാരുമായി പങ്കാളിത്തം സ്ഥാപിക്കുന്നു.

2023-ൽ ആരംഭിച്ച ഞങ്ങളുടെ Cybersecurity Grant Program-നെ അടിസ്ഥാനമാക്കി, ഓപ്പൺ സോഴ്‌സ് സോഫ്റ്റ്വെയറിനും നിർണായക ഇൻഫ്രാസ്ട്രക്ചർ സിസ്റ്റങ്ങൾക്കും സൈബർ പ്രതിരോധം ത്വരിതപ്പെടുത്തുന്നതിനായി, പ്രത്യേകിച്ച്, ഞങ്ങളുടെ ഏറ്റവും കഴിവുള്ള മോഡലുകൾ ഉപയോഗിച്ച് API ക്രെഡിറ്റുകളായി $10M ഞങ്ങൾ പ്രതിജ്ഞാബദ്ധമാക്കുന്നു. നല്ല വിശ്വാസത്തിലുള്ള സുരക്ഷാ ഗവേഷണത്തിൽ ഏർപ്പെട്ടിരിക്കുന്ന സംഘടനകൾക്ക് ഞങ്ങളുടെ സൈബർസുരക്ഷാ ഗ്രാന്റ് പ്രോഗ്രാം വഴി API ക്രെഡിറ്റുകൾക്കും പിന്തുണക്കും അപേക്ഷിക്കാം.

ഉയർന്നുവരുന്ന AI സൈബർ കഴിവുകൾ അളക്കുന്നതിനും നിയന്ത്രിക്കുന്നതിനുമുള്ള തുടർ ഗവേഷണത്തെ പിന്തുണയ്ക്കുന്നതിനായി ഞങ്ങൾ EVMbench-ന്റെ ടാസ്കുകൾ, ടൂളിംഗ്, മൂല്യനിർണ്ണയ ചട്ടക്കൂട് എന്നിവ പുറത്തിറക്കുന്നു.

വായന തുടരുക

എല്ലാം കാണുക

GPT-Red: ദൃഢതയ്ക്കായി സ്വയം മെച്ചപ്പെടുത്തൽ തുറക്കുന്നു

സുരക്ഷ2026 ജൂലൈ 15

കോഡിംഗ് വിലയിരുത്തലുകളിൽ ശബ്ദത്തിൽ നിന്ന് സിഗ്നൽ വേർതിരിക്കൽ

ഗവേഷണം2026 ജൂലൈ 8

GeneBench-Pro അവതരിപ്പിക്കുന്നു

ഗവേഷണം2026 ജൂൺ 30