EVMbench ile tanışın
Yapay zeka ajanlarının blok zinciri ortamlarındaki güvenlik açıklarını tespit etme, düzeltme ve istismar etme yeteneklerini değerlendirerek akıllı sözleşmeleri daha güvenli hale getiriyor.
Akıllı sözleşmeler, açık kaynaklı kripto varlıklarda rutin olarak 100 milyar dolardan fazla güvence sağlar. Yapay zekâ ajanları kod okuma, yazma ve çalıştırma yeteneklerini geliştirdikçe, bu yetenekleri ekonomik açıdan anlamlı ortamlarda ölçmek ve devreye alınmış sözleşmeleri denetleyip güçlendirmek için yapay zekâ sistemlerinin savunma amaçlı kullanımını teşvik etmek giderek daha önemli hale geliyor.
Paradigm(yeni bir pencerede açılır) ile birlikte, yapay zeka otonom ajanlarının son derece ciddi akıllı sözleşme güvenlik açıklarını tespit etme, yamama ve istismar etme yeteneğini değerlendiren bir kıyaslama standardı olan EVMbench'i tanıtıyoruz. EVMbench, 40 denetimden özenle seçilmiş 117 güvenlik açığını kullanır; bunların çoğu açık kod denetim yarışmalarından elde edilmiştir. EVMbench ayrıca sabit değerli kripto paralar (stablecoin'ler) üzerinden yüksek işlem hacmi ve düşük maliyetli ödemeleri mümkün kılmak amacıyla tasarlanmış özel bir L1 blok zinciri olan Tempo(yeni bir pencerede açılır)'nun güvenlik denetimi sürecinden türetilmiş çeşitli güvenlik açığı senaryolarını da içerir. Bu senaryolar, kıyaslamanın kapsamını ödeme odaklı akıllı sözleşme koduna doğru genişletir; otonom ajan tabanlı stablecoin ödemelerinin büyümesini beklediğimiz bir alana uzanır ve değerlendirme setini pratik açıdan giderek daha önemli hale gelen bir alana dayandırır.
Görev ortamlarımızı oluşturmak için, mevcut kavram kanıtı istismar testlerini ve dağıtım komut dosyalarını, varsa bunları uyarladık, yoksa manuel olarak yazdık. Yama modunda, güvenlik açıklarının istismar edilebilir olduğunu ve derlemeyi bozan değişiklikler yapmadan azaltılabileceğini, böylece kurulumumuzu tehlikeye atmadığımızı sağladık. Exploit modu için özel değerlendiriciler yazdık ve bir otonom ajanın değerlendiriciyi kandırabileceği yöntemleri bulup yamamak amacıyla ortamlarda kırmızı ekip testleri yaptık. Paradigm tarafından sağlanan alan uzmanlığı ile görev kalite kontrolüne ek olarak, ortamlarımızın sağlamlığını artırmak için otomatik görev denetim ajanları kullandık.
EVMbench üç yetenek modunu değerlendirir:
- Tespit etme: Ajanlar akıllı sözleşme deposunu denetler ve gerçek güvenlik açıklarını hatırlama ve ilgili denetim ödülleri üzerinden puanlanır.
- Yamama: Ajanlar, savunmasız sözleşmeleri değiştirir ve otomatik testler ve istismar kontrolleriyle doğrulanarak, istismar edilebilirliği ortadan kaldırırken amaçlanan işlevselliği korumalıdır.
- İstismar etme: Ajanlar, sanal bir blok zinciri ortamında dağıtılmış sözleşmelere karşı uçtan uca fon boşaltma saldırıları gerçekleştirir ve derecelendirme, işlem tekrarı ve zincir üzerinde doğrulama yoluyla programlı olarak yapılır.
Nesnel ve tekrarlanabilir değerlendirmeyi desteklemek amacıyla, sözleşmeleri dağıtan, otonom ajan işlemlerini deterministik bir şekilde yeniden oynatan ve güvenli olmayan RPC yöntemlerini kısıtlayan Rust tabanlı bir araç geliştirdik. Suistimal görevleri, canlı ağlar yerine yalıtılmış yerel bir Anvil ortamında yürütülür ve güvenlik açıkları geçmişte kalmış ve kamuya açık şekilde belgelenmiştir.
Üç modun tamamında en üst seviye otonom ajanları değerlendiriyoruz. "İstismar etme" modunda GPT‑5.3‑Codex Codex CLI üzerinden çalıştırıldığında %71.0 puan elde edilir. Bu sonuç, yalnızca altı ay önce yayınlanan ve %33,3 puan alan GPT‑5 gibi önceki modellere kıyasla önemli bir ilerlemeye işaret etmektedir. Bununla birlikte, tespit geri çağırım oranı ve yama başarı oranları henüz tam kapsama düzeyine ulaşmış değildir; çünkü güvenlik açıklarının önemli bir bölümü, otonom ajanlar için halen tespit edilmesi ve düzeltilmesi zor niteliktedir.
EVMbench ayrıca, görevler arasında model davranışında ilginç farklılıklar ortaya koymaktadır. Ajanlar, hedefin net olduğu sömürü ortamında en iyi performansı gösterir: fonlar tükenene kadar yinelemeye devam ederler. Buna karşılık, performans tespit ve yama görevlerinde daha zayıf. ‘Tespit etme’ modunda, ajanlar bazen kod tabanını kapsamlı bir şekilde denetlemek yerine tek bir sorunu tespit ettikten sonra dururlar. ‘Yama’ modunda, ince güvenlik açıklarını ortadan kaldırırken tam işlevselliği korumak zorlayıcı olmaya devam ediyor.
EVMbench, gerçek dünyadaki akıllı sözleşme güvenliğinin tüm zorluklarını tam olarak yansıtmaz. Dahil edilen güvenlik açıkları, Code4rena denetim yarışmalarından alınmıştır. Bunlar gerçekçi ve ciddi sorunlar olsa da, yaygın olarak kullanılan ve geniş çapta uygulanan birçok kripto sözleşmesi çok daha fazla incelemeye tabi tutulur ve istismar edilmesi daha zor olabilir.
Notlandırma sistemimiz sağlam ancak kusurludur. ‘Tespit’ modunda, otonom ajanın insan denetçiler tarafından tespit edilen aynı güvenlik açıklarını bulup bulmadığını kontrol ederiz. Otonom ajan ek sorunlar tespit ederse, bunların insanların gözden kaçırdığı gerçek güvenlik açıklarını mı yoksa yanlış pozitifleri mi temsil ettiğini belirlemek için şu anda güvenilir bir yöntemimiz yok.
‘İstismar etme’ modunda ayrıca yapısal sınırlamalar da vardır. İşlemler değerlendirme kapsayıcısında ardışık olarak yeniden oynatılır, bu yüzden hassas zamanlama mekaniklerine bağlı davranışlar kapsam dışındadır. Zincir durumu, ana ağın çatallaması değil, temiz bir yerel Anvil örneğidir ve şu anda yalnızca tek zincirli ortamları destekliyoruz. Bazı durumlarda bu, ana ağ dağıtımları yerine deneme sözleşmeleri gerektirir.
Akıllı sözleşmeler milyarlarca dolarlık varlığı güvence altına alıyor ve yapay zeka ajanlarının hem saldırganlar hem de savunucular için dönüştürücü olması bekleniyor. Bu alanda model yetkinliğini ölçmek, ortaya çıkan siber riskleri izlemeye yardımcı olur ve devreye alınmış sözleşmeleri denetlemek ve güçlendirmek amacıyla yapay zeka sistemlerini savunma amaçlı kullanmanın önemini vurgular.
EVMbench hem bir ölçüm aracı hem de bir harekete geçirme çağrısı olarak tasarlanmıştır. Ajanlar geliştikçe, geliştiriciler ve güvenlik araştırmacıları için iş akışlarına yapay zeka destekli denetimi dahil etmek giderek daha önemli hale geliyor.
Son aylarda, modelin siber güvenlik görevlerindeki performansında hem geliştiricilere hem de güvenlik uzmanlarına fayda sağlayan anlamlı gelişmelere tanık olduk. Buna paralel olarak, savunma amaçlı kullanımı ve daha geniş ekosistem dayanıklılığını desteklemek için güçlendirilmiş siber güvenlik önlemleri hazırlıyoruz.
Siber güvenliğin doğası gereği çift kullanımlı olması sebebiyle, kanıta dayalı ve yinelemeli bir yaklaşım benimsiyoruz; bu sayede savunucuların güvenlik açıklarını bulup düzeltme sürecine hız kazandırırken kötüye kullanımı yavaşlatıyoruz. Önlemlerimiz arasında güvenlik eğitimi, otomatik izleme, gelişmiş özellikler için güvenilir erişim ve tehdit istihbaratı dahil olmak üzere uygulama süreçleri bulunmaktadır.
Güvenlik araştırma aracımız olan Aardvark'ın özel beta sürümünü genişletmek ve yaygın olarak kullanılan projeler için ücretsiz kod tabanı taraması sağlamak üzere açık kaynak kodlu yazılım geliştiricileriyle iş birliği yapmak gibi ekosistem koruma önlemlerine yatırım yapıyoruz.
2023 yılında başlattığımız Siber Güvenlik Hibe Programı'nı temel alarak, özellikle açık kaynaklı yazılımlar ve kritik altyapı sistemleri için en yetenekli modellerimizle siber savunmayı hızlandırmak amacıyla 10 milyon dolarlık API kredisi taahhüdünde bulunuyoruz. İyi niyetli güvenlik araştırmaları yapan kuruluşlar, Siber Güvenlik Hibe Programı aracılığıyla API kredisi ve destek başvurusunda bulunabilirler.
Ortaya çıkan yapay zeka siber yeteneklerini ölçme ve yönetmeye yönelik devam eden araştırmaları desteklemek amacıyla EVMbench'in görevlerini, araçlarını ve değerlendirme çerçevesini yayımlıyoruz.


