18 თებერვალი, 2026

EVMbench-ის წარდგენა

სმარტ კონტრაქტების უსაფრთხოების გაუმჯობესება ბლოკჩეინის გარემოში მოწყვლადობების აღმოჩენა, შესწორება და ექსპლუატაცია AI აგენტების უნარის შეფასებით.

ნაშრომის წაკითხვა

იტვირთება…

სმარტ კონტრაქტები რეგულარულად იცავს $100B+-ზე მეტ ღია კოდის კრიპტოაქტივებს. რადგან AI აგენტები კოდის კითხვაში, წერასა და შესრულებაში უმჯობესდებიან, სულ უფრო მნიშვნელოვანი ხდება მათი შესაძლებლობების გაზომვა ეკონომიკურად მნიშვნელოვანი გარემოებში და AI სისტემების თავდაცვითი გამოყენების წახალისება, რათა მოხდეს გაშვებული კონტრაქტების აუდიტი და გამყარება.

Paradigm⁠(იხსნება ახალ ფანჯარაში)-თან ერთად წარმოგიდგენთ EVMbench-ს — ბენჩმარკს, რომელიც აფასებს AI აგენტების უნარს, აღმოაჩინონ, შეასწორონ და გამოიყენონ მაღალი სიმძიმის სმარტ კონტრაქტების მოწყვლადობები. EVMbench ეყრდნობა 40 აუდიტიდან შერჩეულ 117 მოწყვლადობას, რომელთა უმეტესობა მიღებულია ღია კოდის აუდიტის კონკურსებიდან. EVMbench დამატებით მოიცავს მოწყვლადობის რამდენიმე სცენარს, რომლებიც აღებულია Tempo⁠(იხსნება ახალ ფანჯარაში) ბლოკჩეინის უსაფრთხოების აუდიტის პროცესიდან — სპეციალურად შექმნილი L1, რომელიც სტეიბლკოინების მეშვეობით მაღალი მწარმოებლურობისა და დაბალი ღირებულების გადახდების მხარდაჭერას ისახავს მიზნად. ეს სცენარები ბენჩმარკს აფართოებს გადახდებზე ორიენტირებული სმარტ კონტრაქტების კოდის მიმართულებით, სადაც მოველით, რომ აგენტური სტეიბლკოინ გადახდები გაიზრდება, და ეხმარება მის დაფუძნებას პრაქტიკული მნიშვნელობის მზარდ დომენში.

ამოცანების გარემოების შესაქმნელად, ჩვენ მოვარგეთ არსებული proof-of-concept ექსპლოიტ-ტესტები და გაშვების სკრიპტები, როცა ისინი არსებობდა, ხოლო სხვა შემთხვევებში ხელით დავწერეთ. patch რეჟიმისთვის დავრწმუნდით, რომ მოწყვლადობები ექსპლუატირებადია და მათი შემსუბუქება შესაძლებელია კომპილაციის დამრღვევი ცვლილებების გარეშე, რაც ჩვენს კონფიგურაციას დააზიანებდა. exploit რეჟიმისთვის დავწერეთ მორგებული შემფასებლები და გარემოები red-team მეთოდით გამოვცადეთ, რათა გვეპოვა და აღმოგვეფხვრა ის გზები, რომლითაც აგენტს შემფასებლის მოტყუება შეეძლო. Paradigm-ის მიერ მოწოდებული დომენური ექსპერტიზით უზრუნველყოფილი ამოცანების ხარისხის კონტროლის გარდა, გარემოების სანდოობის გასაზრდელად გამოვიყენეთ ავტომატური ამოცანების აუდიტის აგენტები.

EVMbench აფასებს შესაძლებლობების სამ რეჟიმს:

აღმოჩენა: აგენტები აუდიტს უტარებენ სმარტ კონტრაქტის რეპოზიტორიუმს და ფასდებიან დადასტურებული მოწყვლადობების სრულობისა და შესაბამისი აუდიტის ჯილდოების მიხედვით.
შესწორება: აგენტები ცვლიან მოწყვლად კონტრაქტებს და ექსპლუატაციის შესაძლებლობის აღმოფხვრისას უნდა შეინარჩუნონ განზრახული ფუნქციონალი, რაც მოწმდება ავტომატური ტესტებითა და ექსპლოიტ-შემოწმებებით.
ექსპლუატაცია: აგენტები ასრულებენ თავიდან ბოლომდე ფონდების დაცლის შეტევებს გაშვებული კონტრაქტების წინააღმდეგ იზოლირებულ ბლოკჩეინ გარემოში, ხოლო შეფასება პროგრამულად ხდება ტრანზაქციების გამეორებითა და on-chain ვერიფიკაციით.

ობიექტური და გამეორებადი შეფასების მხარდასაჭერად, ჩვენ შევიმუშავეთ Rust-ზე დაფუძნებული harness, რომელიც შლის კონტრაქტებს, დეტერმინისტურად იმეორებს აგენტის ტრანზაქციებს და ზღუდავს არაუსაფრთხო RPC მეთოდებს. exploit ამოცანები სრულდება იზოლირებულ ლოკალურ Anvil გარემოში და არა ცოცხალ ქსელებზე, ხოლო მოწყვლადობები ისტორიულია და საჯაროდ დოკუმენტირებული.

ჩვენ ყველა სამ რეჟიმში ვაფასებთ მოწინავე აგენტებს. „exploit“ რეჟიმში Codex CLI-ით გაშვებული GPT‑5.3‑Codex აღწევს 71.0%-იან ქულას. ეს წარმოადგენს მნიშვნელოვან წინსვლას წინა მოდელებთან შედარებით, როგორიცაა GPT‑5, რომელიც 33.3%-ს იღებს და სულ რაღაც ექვსი თვის წინ გამოვიდა. detect-ის სრულობის მაჩვენებელი და patch-ის წარმატების მაჩვენებლები ჯერ კიდევ სრულ დაფარვას ქვემოთ რჩება, რადგან მოწყვლადობების დიდი ნაწილი აგენტებისთვის კვლავ რთულად აღმოსაჩენი და შესასწორებელია.

EVMbench ასევე ავლენს საინტერესო განსხვავებებს მოდელის ქცევაში სხვადასხვა ამოცანაზე. აგენტები ყველაზე კარგად exploit გარემოში მუშაობენ, სადაც მიზანი მკაფიოა: გააგრძელე იტერაცია, სანამ ფონდები არ დაიცლება. ამის საპირისპიროდ, detect და patch ამოცანებზე შედეგები უფრო სუსტია. „detect“-ში აგენტები ზოგჯერ ჩერდებიან ერთი პრობლემის იდენტიფიცირების შემდეგ და კოდბაზას სრულ აუდიტს აღარ აგრძელებენ. „patch“-ში სრული ფუნქციონალის შენარჩუნება დახვეწილი მოწყვლადობების მოცილებასთან ერთად კვლავ რთულ ამოცანად რჩება.

შეზღუდვები

EVMbench არ წარმოადგენს რეალურ სამყაროში სმარტ კონტრაქტების უსაფრთხოების სრულ სირთულეს. მასში შემავალი მოწყვლადობები აღებულია Code4rena-ის აუდიტის კონკურსებიდან. მიუხედავად იმისა, რომ ისინი რეალისტური და მაღალი სიმძიმისაა, მრავალი ფართოდ გამოყენებადი და მასშტაბურად გაშვებული კრიპტო კონტრაქტი გაცილებით უფრო სიღრმისეულ შემოწმებას გადის და მათი ექსპლუატაცია შესაძლოა უფრო რთული იყოს.

ჩვენი შეფასების სისტემა მტკიცეა, მაგრამ არასრულყოფილი. „detect“ რეჟიმში ვამოწმებთ, პოულობს თუ არა აგენტი იმავე მოწყვლადობებს, რომლებიც ადამიანმა აუდიტორებმა გამოავლინეს. თუ აგენტი დამატებით პრობლემებს ამოიცნობს, ამჟამად არ გვაქვს საიმედო გზა იმის დასადგენად, ისინი მართლა ისეთი მოწყვლადობებია, რომლებიც ადამიანებს გამორჩათ, თუ ცრუ დადებითი შედეგებია.

სტრუქტურული შეზღუდვებიც არსებობს „exploit“ გარემოში. ტრანზაქციები შეფასების კონტეინერში თანმიმდევრულად მეორდება, ამიტომ ქცევები, რომლებიც ზუსტი დროითი მექანიკაზეა დამოკიდებული, ამ ფარგლებს გარეთ რჩება. ჩეინის მდგომარეობა სუფთა ლოკალური Anvil ინსტანციაა და არა mainnet-ის fork, და ამჟამად მხოლოდ ერთჩეინიან გარემოებს ვუჭერთ მხარს. ზოგ შემთხვევაში ეს mainnet გაშვებების ნაცვლად mock კონტრაქტების გამოყენებას მოითხოვს.

რატომ არის ეს მნიშვნელოვანი

სმარტ კონტრაქტები მილიარდობით დოლარის აქტივებს იცავს და AI აგენტები, სავარაუდოდ, გარდამტეხი იქნება როგორც თავდამსხმელებისთვის, ისე დამცველებისთვის. ამ დომენში მოდელის შესაძლებლობების გაზომვა გვეხმარება განვითარებადი კიბერრისკების თვალყურის დევნებაში და უსვამს ხაზს AI სისტემების თავდაცვითი გამოყენების მნიშვნელობას გაშვებული კონტრაქტების აუდიტისა და გამყარებისთვის.

EVMbench განკუთვნილია როგორც საზომი ინსტრუმენტი, ასევე როგორც მოქმედებისკენ მოწოდება. აგენტების გაუმჯობესებასთან ერთად, სულ უფრო მნიშვნელოვანი ხდება, რომ დეველოპერებმა და უსაფრთხოების მკვლევრებმა თავიანთ სამუშაო პროცესებში AI-დახმარებული აუდიტი ჩართონ.

ბოლო თვეებში ვიხილეთ მოდელის შედეგების მნიშვნელოვანი გაუმჯობესება კიბერუსაფრთხოების ამოცანებზე, რაც სარგებელს აძლევს როგორც დეველოპერებს, ისე უსაფრთხოების პროფესიონალებს. პარალელურად, ჩვენ ვამზადებდით გაძლიერებულ კიბერუსაფრთხოების დამცავ მექანიზმებს, რათა მხარი დაგვეჭირა თავდაცვითი გამოყენებისა და ეკოსისტემის უფრო ფართო მდგრადობისთვის.

იმის გამო, რომ კიბერუსაფრთხოება ბუნებით ორმაგი დანიშნულების სფეროა, ვიყენებთ მტკიცებულებებზე დაფუძნებულ, იტერაციულ მიდგომას, რომელიც აჩქარებს დამცველების უნარს, იპოვონ და გამოასწორონ მოწყვლადობები, ხოლო ბოროტად გამოყენებას ანელებს. ჩვენი შემსუბუქების ზომები მოიცავს უსაფრთხოების ტრენინგს, ავტომატურ მონიტორინგს, მოწინავე შესაძლებლობებზე სანდო წვდომას და აღსრულების მილსადენებს, მათ შორის საფრთხის დაზვერვას.

ჩვენ ვახორციელებთ ინვესტიციას ეკოსისტემის დაცვის მექანიზმებში, მაგალითად, ვაფართოებთ Aardvark-ის, ჩვენი უსაფრთხოების კვლევის აგენტის, კერძო ბეტას და ვთანამშრომლობთ ღია კოდის მხარდამჭერებთან, რათა ფართოდ გამოყენებული პროექტებისთვის უფასო კოდბაზის სკანირება უზრუნველვყოთ.

2023 წელს დაწყებულ ჩვენს Cybersecurity Grant Program-ზე დაყრდნობით, ასევე ვალდებულებას ვიღებთ $10M-ის API კრედიტების გამოყოფაზე, რათა დავაჩქაროთ კიბერთავდაცვა ჩვენი ყველაზე ძლიერი მოდელებით, განსაკუთრებით ღია კოდის პროგრამული უზრუნველყოფისა და კრიტიკული ინფრასტრუქტურის სისტემებისთვის. ორგანიზაციებს, რომლებიც კეთილსინდისიერ უსაფრთხოების კვლევაში არიან ჩართული, შეუძლიათ API კრედიტებსა და მხარდაჭერაზე განაცხადის შეტანა ჩვენი Cybersecurity Grant Program-ის მეშვეობით.

ჩვენ ვაქვეყნებთ EVMbench-ის ამოცანებს, ხელსაწყოებსა და შეფასების ჩარჩოს, რათა ხელი შევუწყოთ განვითარებადი AI კიბერშესაძლებლობების გაზომვასა და მართვაზე შემდგომ კვლევას.

განაგრძეთ კითხვა

ყველას ნახვა

GPT-Red: თვითგაუმჯობესება სიმტკიცისთვის

უსაფრთხოება15 ივლ. 2026

კოდის შეფასებებში სიგნალის გამიჯვნა ხმაურისგან

კვლევა8 ივლ. 2026

გაიცანით GeneBench-Pro

კვლევა30 ივნ. 2026