ขอแนะนำ EVMbench
เสริมความปลอดภัยของสัญญาอัจฉริยะโดยประเมินความสามารถของ AI ในการค้นหา อุดช่องโหว่ และทดสอบการเจาะระบบในระบบบล็อกเชน
สมาร์ตคอนแทรกต์ทำหน้าที่ปกป้องสินทรัพย์คริปโตแบบโอเพนซอร์สมูลค่ากว่า 100 พันล้านดอลลาร์เป็นประจำ เมื่อเอเจนต์ AI มีความสามารถในการอ่าน เขียน และรันโค้ดดีขึ้น การประเมินความสามารถในบริบทที่มีผลทางเศรษฐกิจจริงจึงมีความสำคัญมากขึ้น และควรผลักดันให้ใช้ AI ในเชิงป้องกันเพื่อตรวจสอบและเสริมความปลอดภัยของสัญญาที่ถูกใช้งานแล้ว
เราได้เปิดตัว EVMbench ร่วมกับ Paradigm(เปิดในหน้าต่างใหม่) ซึ่งเป็นเกณฑ์มาตรฐานในการประเมินความสามารถของเอเจนต์ AI ในการตรวจจับ แก้ไข และใช้ประโยชน์จากช่องโหว่ของ smart contract ที่มีความรุนแรงสูง EVMbench รวบรวมช่องโหว่ที่ผ่านการคัดเลือกมาแล้ว 117 รายการจากการตรวจสอบ 40 ครั้ง โดยส่วนใหญ่มาจากการแข่งขันตรวจสอบโค้ดแบบเปิด นอกจากนี้ EVMbench ยังรวมสถานการณ์ช่องโหว่บางส่วนที่มาจากกระบวนการตรวจสอบความปลอดภัยของบล็อกเชน Tempo(เปิดในหน้าต่างใหม่) ซึ่งเป็น L1 ที่ออกแบบมาโดยเฉพาะเพื่อรองรับการชำระเงินผ่าน stablecoin ในปริมาณมากและมีค่าธรรมเนียมต่ำ สถานการณ์เหล่านี้ต่อยอดเกณฑ์มาตรฐานไปสู่โค้ด smart contract ที่เกี่ยวข้องกับระบบการชำระเงิน โดยเราคาดว่าการชำระเงินด้วย stablecoin ผ่านเอเจนต์จะเติบโตขึ้นเรื่อยๆ และทำให้การประเมินตั้งอยู่บนการใช้งานจริงที่กำลังมีบทบาทสำคัญมากขึ้น
เพื่อสร้างสภาพแวดล้อมของงาน เราปรับใช้ชุดทดสอบการใช้ประโยชน์จากช่องโหว่แบบพิสูจน์แนวคิดและสคริปต์การติดตั้งที่มีอยู่ และเมื่อขาดส่วนไหน เราก็เขียนเพิ่มเอง เมื่อทำงานในโหมดการอุดช่องโหว่ เราตรวจสอบว่าช่องโหว่ใช้งานโจมตีได้จริง และสามารถแก้ไขโดยไม่ทำให้การคอมไพล์เกิดปัญหา ซึ่งจะส่งผลให้การตั้งค่าของเราไม่สมบูรณ์ สำหรับโหมดการใช้ประโยชน์จากช่องโหว่ เราได้เขียนเครื่องมือให้คะแนนแบบกำหนดเองและทำการทดสอบสภาพแวดล้อมต่างๆ เพื่อพยายามค้นหาและอุดช่องโหว่วิธีการที่เอเจนต์อาจใช้เพื่อโกงเครื่องมือให้คะแนน นอกจากการควบคุมคุณภาพงานโดยผู้เชี่ยวชาญด้านสาขาจาก Paradigm แล้ว เรายังใช้เอเจนต์ตรวจสอบงานอัตโนมัติเพื่อช่วยเพิ่มความมั่นคงของสภาพแวดล้อมของเราอีกด้วย
EVMbench ประเมินโหมดความสามารถทั้งหมด 3 โหมด
- ตรวจจับ: เอเจนต์ตรวจสอบคลังสมาร์ตคอนแทรกต์ และเราคิดคะแนนจากความสามารถในการระบุช่องโหว่ตามข้อมูลความจริงพื้นฐานได้ครบถ้วน รวมถึงรางวัลการตรวจสอบที่เกี่ยวข้อง
- แพตช์: เอเจนต์แก้ไขสมาร์ตคอนแทรกต์ที่มีช่องโหว่ โดยต้องรักษาฟังก์ชันการทำงานเดิมให้ครบถ้วน พร้อมทั้งตัดความสามารถในการโจมตีออก โดยเราตรวจสอบด้วยการทดสอบอัตโนมัติและการตรวจเช็กการโจมตี
- การใช้ประโยชน์จากช่องโหว่: เอเจนต์ทำการโจมตีดึงเงินแบบครบวงจรบนสมาร์ตคอนแทรกต์ที่ดีพลอยแล้วในสภาพแวดล้อมบล็อกเชนแบบแซนด์บ็อกซ์ และระบบให้คะแนนด้วยการรีเพลย์ธุรกรรมและการตรวจสอบบนเชนแบบอัตโนมัติ
เพื่อให้การประเมินเป็นกลางและทำซ้ำได้ เราสร้างชุดเครื่องมือที่เขียนด้วยภาษา Rust สำหรับนำสัญญาไปใช้งาน รวมถึงการทำธุรกรรมซ้ำโดยเอเจนต์แบบกำหนดผลล่วงหน้า และจำกัดวิธีเรียกใช้งาน RPC ที่ไม่ปลอดภัย งานทดสอบช่องโหว่ทำงานในสภาพแวดล้อม Anvil แบบแยกเฉพาะเครื่อง ไม่ทำงานบนเครือข่ายจริง และช่องโหว่ทั้งหมดเป็นเหตุการณ์เก่าที่มีข้อมูลเผยแพร่ต่อสาธารณะอยู่แล้ว
เราประเมินเอเจนต์ระดับแนวหน้าครอบคลุมทั้งสามโหมด ในโหมด ‘ใช้ประโยชน์จากช่องโหว่’ GPT‑5.3‑Codex ที่รันผ่าน Codex CLI ทำคะแนนได้ 71.0% ผลลัพธ์นี้แสดงให้เห็นถึงความก้าวหน้าอย่างชัดเจนเมื่อเทียบกับโมเดลก่อนหน้าอย่าง GPT‑5 ซึ่งทำคะแนนได้ 33.3% และเปิดตัวเมื่อประมาณหกเดือนก่อน อัตราการตรวจพบและอัตราความสำเร็จในการแก้ไขช่องโหว่ยังไม่ครอบคลุมทั้งหมด เนื่องจากยังมีช่องโหว่จำนวนมากที่เอเจนต์ตรวจพบและแก้ไขได้ยาก
EVMbench ยังเผยให้เห็นความแตกต่างที่น่าสนใจในพฤติกรรมของโมเดลในงานต่างๆ เอเจนต์ทำผลงานดีที่สุดในโหมดการใช้ประโยชน์จากช่องโหว่ ซึ่งกำหนดเป้าหมายชัดเจนว่าให้ทำซ้ำต่อเนื่องจนเงินถูกดึงออกหมด ในทางกลับกัน เอเจนต์แสดงประสิทธิภาพต่ำกว่าในงานตรวจจับและแก้แพตช์ช่องโหว่ ในโหมด ‘ตรวจจับ’ บางครั้งเอเจนต์หยุดทำงานหลังจากระบุปัญหาแค่จุดเดียว แทนที่จะตรวจสอบโค้ดเบสอย่างละเอียด สำหรับโหมด ‘แพตช์’ การคงฟังก์ชันทั้งหมดไว้พร้อมจัดการช่องโหว่ที่ซ่อนอยู่ยังคงมีความท้าทายอยู่มาก
EVMbench ไม่ครอบคลุมระดับความซับซ้อนทั้งหมดของการรักษาความปลอดภัยในสมาร์ตคอนแทรกต์ที่ใช้ในสถานการณ์จริง ช่องโหว่ที่ใช้มาจากการแข่งขันตรวจสอบความปลอดภัยของ Code4rena แม้ช่องโหว่เหล่านี้จะสมจริงและมีความรุนแรงสูง แต่สัญญาเงินดิจิทัลที่คนใช้เยอะและใช้งานหนักมักโดนตรวจเข้มกว่า เลยอาจเจาะได้ยากกว่า
ระบบการให้คะแนนของเรามีความแข็งแกร่งแต่ไม่สมบูรณ์แบบ ในโหมด ‘ตรวจจับ’ เราตรวจสอบว่าเอเจนต์พบช่องโหว่เดียวกันกับที่ผู้ตรวจสอบมนุษย์ระบุไว้หรือไม่ ถ้าเอเจนต์เจอปัญหาเพิ่ม เรายังไม่มีวิธีที่เชื่อถือได้ในการบอกว่าปัญหานั้นเป็นช่องโหว่จริงที่มนุษย์พลาด หรือเป็นการแจ้งเตือนผิดพลาด
นอกจากนี้ยังมีข้อจำกัดด้านโครงสร้างในการตั้งค่า ‘การใช้ประโยชน์จากช่องโหว่’ ด้วย ธุรกรรมถูกจำลองซ้ำแบบเรียงตามลำดับในคอนเทนเนอร์ประเมินผล ทำให้พฤติกรรมที่ต้องการความแม่นยำด้านเวลาไม่ได้อยู่ในขอบเขตการทดสอบ สถานะของเชนคืออินสแตนซ์ Anvil ภายในเครื่องที่เป็นสภาพเริ่มต้น ไม่ใช่การฟอร์กจากเมนเน็ต และตอนนี้เราสนับสนุนเฉพาะสภาพแวดล้อมเชนเดียวเท่านั้น ในบางกรณี จำเป็นต้องใช้สัญญาจำลองแทนการปรับใช้บนเมนเน็ต
สมาร์ตคอนแทรกต์รักษาความปลอดภัยให้กับสินทรัพย์มูลค่าหลายพันล้านดอลลาร์ และเอเจนต์ AI มีแนวโน้มที่จะเปลี่ยนเกมทั้งฝ่ายโจมตีและฝ่ายป้องกัน การวัดขีดความสามารถของโมเดลในโดเมนนี้ช่วยให้เราติดตามความเสี่ยงไซเบอร์ที่กำลังเกิดขึ้น และเน้นย้ำความสำคัญของการใช้ระบบ AI ในเชิงป้องกันเพื่อตรวจสอบและเพิ่มความมั่นคงให้สัญญาที่ใช้งานจริง
EVMbench ถูกสร้างขึ้นเพื่อใช้วัดผล และเพื่อกระตุ้นให้เกิดการลงมือปฏิบัติ เมื่อเอเจนต์มีความสามารถมากขึ้น นักพัฒนาและนักวิจัยด้านความปลอดภัยจึงควรรวมการตรวจสอบด้วย AI เข้าไว้ในขั้นตอนการทำงาน
ในช่วงหลายเดือนที่ผ่านมา เราได้เห็นความสามารถของโมเดลในงานด้านความปลอดภัยไซเบอร์พัฒนาขึ้นอย่างชัดเจน ซึ่งเป็นประโยชน์ทั้งต่อนักพัฒนาและผู้เชี่ยวชาญด้านความปลอดภัย ในขณะเดียวกัน เราได้เตรียมกลไกความปลอดภัยด้านไซเบอร์ที่เข้มแข็งยิ่งขึ้น เพื่อรองรับการใช้งานเชิงป้องกันและเสริมความยืดหยุ่นให้กับระบบนิเวศโดยรวม
เนื่องจากงานด้านความปลอดภัยไซเบอร์สามารถนำไปใช้ได้ทั้งในทางป้องกันและในทางที่ผิด เราจึงใช้แนวทางที่อ้างอิงหลักฐานและมีการปรับปรุงอย่างต่อเนื่อง เพื่อช่วยให้ผู้ป้องกันภัยไซเบอร์ค้นหาและแก้ไขช่องโหว่ได้รวดเร็วขึ้น พร้อมทั้งชะลอการนำไปใช้ในทางที่ไม่เหมาะสม มาตรการบรรเทาความเสี่ยงของเราประกอบด้วยการเทรนด้านความปลอดภัย การตรวจสอบอัตโนมัติ การเข้าถึงที่เชื่อถือได้ สำหรับความสามารถขั้นสูง และกระบวนการบังคับใช้ที่รวมถึงข้อมูลข่าวกรองด้านภัยคุกคาม
เรากำลังเพิ่มการลงทุนในกลไกป้องกันระดับระบบนิเวศ เช่น การขยายช่วงทดสอบเบต้าแบบปิดของ Aardvark เอเจนต์วิจัยด้านความปลอดภัยของเรา และการร่วมมือกับผู้ดูแลโครงการโอเพนซอร์สเพื่อให้บริการสแกนโค้ดเบสฟรีสำหรับโครงการที่มีการใช้งานอย่างแพร่หลาย
หลังจากการเปิดตัวโครงการ Cybersecurity Grant Program ในปี 2566 เราได้มอบเครดิต API เพิ่มอีก 10 ล้านเหรียญสหรัฐ เพื่อสนับสนุนการป้องกันภัยไซเบอร์ด้วยโมเดลที่มีความสามารถสูงที่สุดของเรา โดยมุ่งเน้นเป็นพิเศษไปที่ซอฟต์แวร์โอเพนซอร์สและระบบโครงสร้างพื้นฐานที่มีความสำคัญ องค์กรที่ทำการวิจัยด้านความปลอดภัยด้วยความสุจริต สามารถสมัครขอรับเครดิต API และการสนับสนุนเพิ่มเติมได้ผ่านโครงการสนับสนุนด้านความปลอดภัยทางไซเบอร์ของเรา
เราเผยแพร่งาน เครื่องมือ และกรอบการประเมินของ EVMbench เพื่อสนับสนุนการวิจัยอย่างต่อเนื่องในการวัดและจัดการความสามารถด้านไซเบอร์ของ AI ที่กำลังเติบโต


