18 Φεβρουαρίου 2026

Παρουσίαση του EVMbench

Παροχή μεγαλύτερης ασφάλειας στις έξυπνες συμβάσεις μέσω της αξιολόγησης της ικανότητας των πρακτόρων ΤΝ να ανιχνεύουν, να επιδιορθώνουν και να εκμεταλλεύονται ευπάθειες σε περιβάλλοντα blockchain.

Διαβάστε τη μελέτη

Φόρτωση…

Οι έξυπνες συμβάσεις διασφαλίζουν τακτικά πάνω από 100 δισ. δολάρια σε κρυπτογραφικά περιουσιακά στοιχεία ανοιχτού κώδικα. Καθώς οι πράκτορες τεχνητής νοημοσύνης βελτιώνονται στην ανάγνωση, τη γραφή και την εκτέλεση κώδικα, γίνεται όλο και πιο σημαντικό να μετρώνται οι δυνατότητές τους σε περιβάλλοντα οικονομικής σημασίας και να ενθαρρύνεται η χρήση συστημάτων τεχνητής νοημοσύνης με αμυντικό τρόπο, για να ελέγχονται και να ενισχύονται οι αναπτυγμένες συμβάσεις.

Μαζί με την Paradigm⁠(ανοίγει σε νέο παράθυρο), παρουσιάζουμε το EVMbench, ένα πρότυπο αξιολόγησης που εξετάζει την ικανότητα των πρακτόρων ΤΝ να ανιχνεύουν, να επιδιορθώνουν και να εκμεταλλεύονται ευπάθειες έξυπνων συμβάσεων υψηλής σοβαρότητας. Το EVMbench αντλεί από 117 επιμελημένες ευπάθειες από 40 ελέγχους, με τις περισσότερες να προέρχονται από διαγωνισμούς ελέγχου ανοικτού κώδικα. Το EVMbench περιλαμβάνει επίσης διάφορα σενάρια ευπαθειών που προέρχονται από τη διαδικασία ελέγχου ασφαλείας για το Tempo⁠(ανοίγει σε νέο παράθυρο) blockchain, ένα L1 που έχει σχεδιαστεί ειδικά για να επιτρέπει πληρωμές υψηλής ρυθμαπόδοσης και χαμηλού κόστους μέσω stablecoin. Αυτά τα σενάρια επεκτείνουν το πρότυπο αξιολόγησης σε κώδικα έξυπνων συμβάσεων με προσανατολισμό στις πληρωμές, όπου αναμένουμε να αυξηθούν οι πληρωμές stablecoin μέσω πρακτόρων, και βοηθούν να το θεμελιώσουν σε έναν τομέα αναδυόμενης πρακτικής σημασίας.

Για να δημιουργήσουμε τα περιβάλλοντα εργασιών μας, προσαρμόσαμε υπάρχουσες δοκιμές εκμετάλλευσης πιλοτικής εφαρμογής και σενάρια ανάπτυξης, όταν υπήρχαν, και διαφορετικά τα γράψαμε χειροκίνητα. Για τη λειτουργία επιδιόρθωσης, διασφαλίσαμε ότι οι ευπάθειες είναι εκμεταλλεύσιμες και ότι μπορούν να μετριαστούν χωρίς να εισαχθούν αλλαγές που θα διακόψουν τη μεταγλώττιση και θα έθεταν σε κίνδυνο τη ρύθμισή μας. Για τη λειτουργία εκμετάλλευσης, δημιουργήσαμε προσαρμοσμένους βαθμολογητές και πραγματοποιήσαμε red-teaming στα περιβάλλοντα, προσπαθώντας να εντοπίσουμε και να επιδιορθώσουμε μεθόδους με τις οποίες ένας πράκτορας θα μπορούσε να εξαπατήσει τον βαθμολογητή. Εκτός από τον έλεγχο ποιότητας των εργασιών μέσω της εξειδίκευσης που παρέχει η Paradigm, χρησιμοποιήσαμε αυτοματοποιημένους πράκτορες ελέγχου εργασιών για να συμβάλουμε στην ενίσχυση της αξιοπιστίας των περιβαλλόντων μας.

Το EVMbench αξιολογεί τρεις τρόπους δυνατοτήτων:

Ανίχνευση: Οι πράκτορες ελέγχουν ένα αποθετήριο έξυπνων συμβάσεων και βαθμολογούνται με βάση την ανάκληση των ευπαθειών της εμπειρικά θεμελιωμένης αλήθειας και τις σχετικές ανταμοιβές ελέγχου.
Επιδιόρθωση: Οι πράκτορες τροποποιούν ευάλωτες συμβάσεις και πρέπει να διατηρούν την προβλεπόμενη λειτουργικότητα, εξαλείφοντας τη δυνατότητα εκμετάλλευσης, όπως επαληθεύεται μέσω αυτοματοποιημένων δοκιμών και ελέγχων εκμετάλλευσης.
Εκμετάλλευση: Οι πράκτορες εκτελούν επιθέσεις από άκρο σε άκρο για την εξάντληση κεφαλαίων σε αναπτυγμένες συμβάσεις σε ένα απομονωμένο περιβάλλον blockchain, με τη βαθμολόγηση να γίνεται προγραμματικά μέσω επανάληψης συναλλαγών και επαλήθευσης στην αλυσίδα.

Για να υποστηρίξουμε αντικειμενική και αναπαραγώγιμη αξιολόγηση, αναπτύξαμε ένα μηχανισμό βασισμένο στη Rust που αναπτύσσει συμβάσεις, αναπαράγει ντετερμινιστικά τις συναλλαγές του πράκτορα και περιορίζει μη ασφαλείς μεθόδους RPC. Οι εργασίες εκμετάλλευσης εκτελούνται σε ένα απομονωμένο τοπικό περιβάλλον Anvil αντί για ζωντανά δίκτυα, ενώ οι ευπάθειες είναι ιστορικές και τεκμηριωμένες δημόσια.

Αξιολογούμε κορυφαίους πράκτορες και στις τρεις λειτουργίες. Στη λειτουργία «εκμετάλλευση», το GPT‑5.3‑Codex που τρέχει μέσω του Codex CLI επιτυγχάνει βαθμολογία 71%. Αυτό αντιπροσωπεύει ένα σημαντικό κέρδος σε σχέση με τα προηγούμενα μοντέλα, όπως το GPT‑5, το οποίο έχει βαθμολογία 33,3% και κυκλοφόρησε πριν από λίγο περισσότερο από έξι μήνες. Τα ποσοστά επιτυχίας εντοπισμού, ανάκλησης και επιδιόρθωσης παραμένουν κάτω από την πλήρη κάλυψη, καθώς για ένα μεγάλο ποσοστό ευπαθειών οι πράκτορες ακόμα δυσκολεύονται να το εντοπίσουν και να το διορθώσουν.

Το EVMbench αποκαλύπτει επίσης ενδιαφέρουσες διαφορές στη συμπεριφορά του μοντέλου σε διάφορες εργασίες. Οι πράκτορες αποδίδουν καλύτερα στο περιβάλλον εκμετάλλευσης, όπου ο στόχος είναι σαφής: συνεχίστε να επαναλαμβάνετε μέχρι να εξαντληθούν τα κεφάλαια. Αντίθετα, η απόδοση είναι πιο αδύναμη σε εργασίες ανίχνευσης και επιδιόρθωσης. Στην «ανίχνευση», οι πράκτορες μερικές φορές σταματούν αφού εντοπίσουν ένα μόνο ζήτημα αντί να ελέγξουν εξαντλητικά τη βάση κώδικα. Στην «επιδιόρθωση», η διατήρηση της πλήρους λειτουργικότητας ενώ αφαιρούνται ανεπαίσθητες ευπάθειες παραμένει πρόκληση.

Περιορισμοί

Το EVMbench δεν αποτυπώνει πλήρως τη δυσκολία της ασφάλειας των έξυπνων συμβάσεων στον πραγματικό κόσμο. Οι ευπάθειες που συμπεριλήφθηκαν προέρχονταν από διαγωνισμούς ελέγχου της Code4rena. Παρόλο που αυτές είναι ρεαλιστικές και υψηλής σοβαρότητας, πολλές ευρέως αναπτυγμένες και ευρέως χρησιμοποιούμενες έξυπνες συμβάσεις υποβάλλονται σε σημαντικά πιο ενδελεχή έλεγχο και μπορεί να είναι πιο δύσκολο να προκύψει πρόβλημα εκμετάλλευσης.

Το σύστημα βαθμολόγησής μας είναι ισχυρό αλλά όχι τέλειο. Στη λειτουργία «ανίχνευσης», ελέγχουμε αν ο πράκτορας εντοπίζει τις ίδιες ευπάθειες που έχουν εντοπιστεί από ανθρώπους ελεγκτές. Εάν ο πράκτορας εντοπίσει επιπλέον ζητήματα, προς το παρόν δεν έχουμε αξιόπιστο τρόπο να καθορίσουμε αν αντιπροσωπεύουν πραγματικές ευπάθειες που διέφυγαν από τους ανθρώπους ή ψευδώς θετικά.

Υπάρχουν επίσης δομικοί περιορισμοί στη ρύθμιση «εκμετάλλευσης». Οι συναλλαγές αναπαράγονται διαδοχικά στο κοντέινερ βαθμολόγησης, οπότε οι συμπεριφορές που εξαρτώνται από ακριβείς μηχανισμούς χρονισμού είναι εκτός πεδίου εφαρμογής. Η κατάσταση της αλυσίδας είναι μια καθαρή τοπική παρουσία του Anvil αντί για ένα παρακλάδι του κύριου δικτύου, και προς το παρόν υποστηρίζουμε μόνο περιβάλλοντα μίας αλυσίδας. Σε ορισμένες περιπτώσεις, αυτό απαιτεί εικονικές συμβάσεις αντί για αναπτύξεις στο κύριο δίκτυο.

Γιατί αυτό έχει σημασία

Οι έξυπνες συμβάσεις διασφαλίζουν περιουσιακά στοιχεία αξίας δισεκατομμυρίων δολαρίων, και οι πράκτορες τεχνητής νοημοσύνης είναι πιθανό να είναι μετασχηματιστικοί τόσο για τους επιτιθέμενους όσο και για τους υπεύθυνους ασφάλειας. Η μέτρηση της ικανότητας του μοντέλου σε αυτόν τον τομέα βοηθά στην παρακολούθηση των αναδυόμενων κυβερνοκινδύνων και αναδεικνύει τη σημασία της αμυντικής χρήσης συστημάτων τεχνητής νοημοσύνης για τον έλεγχο και την ενίσχυση των αναπτυγμένων συμβάσεων.

Το EVMbench προορίζεται τόσο ως εργαλείο μέτρησης όσο και ως πρόσκληση για δράση. Καθώς οι πράκτορες βελτιώνονται, γίνεται όλο και πιο σημαντικό για τους προγραμματιστές και τους ερευνητές ασφάλειας να ενσωματώνουν τον έλεγχο με τη βοήθεια της ΤΝ στις ροές εργασίας τους.

Τους τελευταίους μήνες έχουμε παρατηρήσει ουσιαστικές βελτιώσεις στην απόδοση των μοντέλων σε εργασίες κυβερνοασφάλειας, προς όφελος τόσο των προγραμματιστών όσο και των επαγγελματιών ασφάλειας. Παράλληλα, προετοιμάζουμε ενισχυμένους μηχανισμούς κυβερνοασφάλειας για να υποστηρίξουμε την αμυντική χρήση και την ανθεκτικότητα του ευρύτερου οικοσυστήματος.

Επειδή η κυβερνοασφάλεια είναι εκ φύσεως διπλής χρήσης, ακολουθούμε μια τεκμηριωμένη, επαναληπτική προσέγγιση που επιταχύνει τη δυνατότητα των υπεύθυνων ασφάλειας να εντοπίζουν και να διορθώνουν ευπάθειες, ενώ ταυτόχρονα επιβραδύνει την κακόβουλη χρήση. Τα μέτρα μας περιλαμβάνουν εκπαίδευση ασφάλειας, αυτοματοποιημένη παρακολούθηση, αξιόπιστη πρόσβαση σε προηγμένες δυνατότητες και αγωγούς επιβολής που ενσωματώνουν πληροφορίες απειλών.

Επενδύουμε σε μηχανισμούς προστασίας του οικοσυστήματος, όπως η επέκταση του ιδιωτικού beta του Aardvark, του πράκτορα έρευνας ασφάλειας μας, και συνεργαζόμαστε με συντηρητές έργων ανοιχτού κώδικα για να παρέχουμε δωρεάν σάρωση βάσης κώδικα για ευρέως χρησιμοποιούμενα έργα.

Βασιζόμενοι στο πρόγραμμα Cybersecurity Grant Program που ξεκινήσαμε το 2023, δεσμευόμαστε επιπλέον για 10 εκατ. δολάρια σε μονάδες API ώστε να επιταχύνουμε την κυβερνοάμυνα με τα πιο ικανά μας μοντέλα, ιδίως για λογισμικό ανοιχτού κώδικα και συστήματα κρίσιμων υποδομών. Οργανισμοί που συμμετέχουν σε έρευνα ασφάλειας με καλή πίστη μπορούν να υποβάλουν αίτηση για μονάδες API και υποστήριξη μέσω του προγράμματος Cybersecurity Grant Program.

Δημοσιεύουμε τις εργασίες, τα εργαλεία και το πλαίσιο αξιολόγησης του EVMbench για να υποστηρίξουμε τη συνεχιζόμενη έρευνα σχετικά με τη μέτρηση και τη διαχείριση των αναδυόμενων κυβερνοδυνατοτήτων της τεχνητής νοημοσύνης.

Συνεχίστε να διαβάζετε

Εμφάνιση όλων

GPT-Red: Ξεκλειδώνοντας την αυτοβελτίωση για ανθεκτικότητα

Ασφάλεια15 Ιουλ 2026

Διαχωρισμός σήματος από θόρυβο στις αξιολογήσεις προγραμματισμού

Έρευνα8 Ιουλ 2026

Ανακαλύψτε το GeneBench-Pro

Έρευνα30 Ιουν 2026