Μετάβαση στο κύριο περιεχόμενο
OpenAI

29 Μαΐου 2026

Ασφάλεια

Ένα κοινό εγχειρίδιο για αξιόπιστες αξιολογήσεις από τρίτα μέρη

Τι έχει σημασία για αποτελεσματικές ανεξάρτητες αξιολογήσεις δικλίδων ασφαλείας και ικανοτήτων για μοντέλα αιχμής.

Φόρτωση…

Ανεξάρτητες, αξιόπιστες αξιολογήσεις από έμπιστα τρίτα μέρη διαδραματίζουν κρίσιμο ρόλο στην ενίσχυση του οικοσυστήματος ασφάλειας. Αυτές οι αξιολογήσεις διεξάγονται σε μοντέλα αιχμής για να παρέχουν πρόσθετα στοιχεία για ισχυρισμούς σχετικά με κρίσιμες ικανότητες και μέτρα μετριασμού κινδύνων ασφαλείας. Σε αυτή την ανάρτηση, μοιραζόμαστε τα διδάγματα που έχουμε αποκομίσει μέχρι στιγμής και προτείνουμε προσεγγίσεις για τον σχεδιασμό αξιολογήσεων που μπορούν να αποτιμήσουν έγκυρα μοντέλα αιχμής, οι οποίες ελπίζουμε να συμβάλουν στη διαμόρφωση αναδυόμενων προτύπων στον χώρο.

Νωρίτερα, πολλές αξιολογήσεις αντιμετώπιζαν τα μοντέλα σαν chatbot: η αξιολόγηση έδινε προτροπή σε ένα μοντέλο σαν να ήταν χρήστης που κάνει μια ερώτηση, το μοντέλο απαντούσε και ένας αξιολογητής έκρινε το αποτέλεσμα. Τα σημερινά μοντέλα αιχμής μπορούν να κάνουν πολύ περισσότερα: μπορούν να χρησιμοποιούν εργαλεία, να παρακολουθούν πληροφορίες σε πολλά βήματα και να δρουν μέσα σε μια ευρύτερη ροή εργασίας. Αυτό σημαίνει ότι η επίδοση δεν εξαρτάται μόνο από το μοντέλο, αλλά και από το περιβάλλον στο οποίο λαμβάνει χώρα η εργασία, καθώς και από τη διάταξη που διευκολύνει τις ενέργειές του. Αυτή η περιβάλλουσα διάταξη, την οποία αποκαλούμε «harness», μπορεί να αλλάξει βασικές πτυχές της επίδοσης του συστήματος, συμπεριλαμβανομένου του τρόπου με τον οποίο χρησιμοποιεί εργαλεία, παρακολουθεί πληροφορίες ή ανακάμπτει από λάθη.

Διάγραμμα που συγκρίνει μια ροή εργασίας προτροπής-απόκρισης με μια πρακτορική ροή εργασίας, δείχνοντας πώς οι βρόχοι ελέγχου, τα εργαλεία, το συμφραζόμενο, ο προϋπολογισμός και οι δικλίδες ασφαλείας επιτρέπουν την αυτόνομη εκτέλεση εργασιών.

Αυτό αλλάζει τον τρόπο με τον οποίο πρέπει να διεξάγονται οι αξιολογήσεις και τι πρέπει να αναζητούν οι αναγνώστες στις αναφορές αξιολόγησης. Κατά την άποψή μας, οι πιο χρήσιμες αναφορές περιγράφουν ρητά δύο πράγματα πέρα από το ίδιο το αποτέλεσμα: πρώτον, προσδιορίζουν ποιον ισχυρισμό σχεδιάστηκε να ελέγξει η διάταξη αξιολόγησης και, δεύτερον, κοινοποιούν τα διαθέσιμα στοιχεία ότι το αποτέλεσμα της αξιολόγησης είναι έγκυρο.

Οι ισχυρισμοί που ελέγχονται στις αξιολογήσεις συνήθως εμπίπτουν σε μία από τρεις κατηγορίες1:

  • Ανάδειξη ικανότητας: Μπορεί ένα μοντέλο να επιδείξει εύλογα την ικανότητα που αξιολογείται; 
  • Επίδοση δικλίδων ασφαλείας: Πόσο ανθεκτικές είναι οι δοκιμασμένες δικλίδες ασφαλείας απέναντι στη συμπεριφορά ή την επίθεση που αξιολογείται;
  • Σύγκριση: Πώς αποδίδουν διαφορετικά μοντέλα υπό ισοδύναμες συνθήκες;

Οι αναφορές αξιολόγησης πρέπει επίσης να εξηγούν πώς οι αξιολογητές έλεγξαν για επιδράσεις που θα μπορούσαν να επηρεάσουν την εγκυρότητα ενός αποτελέσματος. Αυτές περιλαμβάνουν:

  • Reward hacking: Εκμετάλλευση συντομεύσεων στην εργασία ή στον βαθμολογητή, ώστε το σύστημα να λαμβάνει εύσημα χωρίς να επιδεικνύει τη συμπεριφορά που η αξιολόγηση προορίζεται να μετρήσει.
  • Αρνήσεις: Άρνηση με τρόπους που αποκρύπτουν τη συμπεριφορά που δοκιμάζεται.
  • Μόλυνση: Υπεραπόδοση επειδή εργασίες αξιολόγησης, απαντήσεις ή κοντινές παραλλαγές εμφανίστηκαν στα δεδομένα εκπαίδευσης ή μπορούσαν να εντοπιστούν κατά την αξιολόγηση, όπως μέσω περιήγησης.
  • Ελαττωματικά προβλήματα: Υποαπόδοση επειδή οι εργασίες δεν είναι έγκυρες. Οι λόγοι μπορεί να περιλαμβάνουν άδικη βαθμολόγηση (π.χ. η σωστή απάντηση απαιτεί αδήλωτες λεπτομέρειες υλοποίησης) και μη επιλύσιμα περιβάλλοντα (π.χ. λείπουν κρίσιμα αρχεία ή τα εργαλεία είναι αναξιόπιστα).
  • Sandbagging: Σκόπιμη υποαπόδοση όταν δείχνουν επίγνωση ότι αξιολογούνται.

Η επιλογή του σωστού harness για μια αξιολόγηση είναι κρίσιμη για βέλτιστα αποτελέσματα

Έχουμε παρατηρήσει ότι ο ρόλος του harness είναι ιδιαίτερα σημαντικός για συστήματα που δρουν σε μεγαλύτερες τροχιές. Όταν τα μοντέλα μπορούν να χρησιμοποιούν εργαλεία, να διατηρούν κατάσταση και να ανακάμπτουν από λάθη σε πολλά βήματα, το harness μπορεί να αλλάξει το παρατηρούμενο επίπεδο επίδοσης και ακόμη και να καθορίσει αν η ικανότητα που αποτιμάται εμφανίζεται καθόλου στην αξιολόγηση. Για παράδειγμα, ένα harness που διατηρεί κατάσταση και επαναλαμβάνει αποτυχημένες ενέργειες μπορεί να επιτρέψει σε ένα μοντέλο να ολοκληρώσει μια εργασία πολλών βημάτων που το ίδιο μοντέλο δεν ολοκληρώνει ποτέ σε ένα απλούστερο harness.

Στον παρακάτω πίνακα, διαχωρίζουμε τρία είδη ισχυρισμών που μπορεί να θέλουν να διατυπώσουν οι αξιολογητές και το harness που πιστεύουμε ότι απαιτεί το κάθε είδος ισχυρισμού.

Ισχυρισμός που επιχειρεί να υποστηρίξει η αξιολόγηση

Κατάλληλη επιλογή harness

Στοιχεία προς αναφορά

Ικανότητα υπό ισχυρή ανάδειξη: Το Σύστημα A μπορεί να ολοκληρώνει εργασίες τύπου X όταν η διάταξη έχει σχεδιαστεί ώστε να αναδεικνύει την ισχυρότερη αξιόπιστη επίδοσή του.

Χρησιμοποιήστε την ισχυρότερη αξιόπιστη διάταξη ανάδειξης για το σύστημα, συμπεριλαμβανομένων του harness, των εργαλείων, της υποστηρικτικής δομής και του προϋπολογισμού που θα χρησιμοποιούσε εύλογα ένας ικανός χρήστης.

Η διάταξη harness και εργαλείων, η καθοδήγηση ανάδειξης, ο επιτρεπόμενος προϋπολογισμός/κόπος, τα token/το κόστος/ο χρόνος και γιατί η διάταξη αποτελεί αξιόπιστο υποκατάστατο της ισχυριζόμενης ικανότητας. Αν συγκρίνετε συστήματα υπό διαφορετικές βελτιστοποιημένες διατάξεις, επισημάνετέ το ως σύγκριση σύστημα-προς-σύστημα ή ισχυρής ανάδειξης.

Ελεγχόμενη σύγκριση: Το Σύστημα A υπερέχει του Συστήματος B υπό κοινή διάταξη αξιολόγησης.

Διατηρήστε σταθερές τις εργασίες, τη βαθμολόγηση και τον προϋπολογισμό. Χρησιμοποιήστε είτε κοινή διάταξη harness/εργαλείων είτε ένα σταθερό σύνολο τυποποιημένων harness που έχει επιλεγεί εκ των προτέρων ώστε να παρέχει εύλογη μέγιστη ανάδειξη για τα συστήματα που συγκρίνονται.

Το κοινό σύνολο εργασιών, τα εργαλεία, η μέθοδος βαθμολόγησης, το harness, ο προϋπολογισμός, η αποδοτικότητα/cost σε token και οι γνωστοί περιορισμοί. Για αξιολογήσεις πρακτόρων κώδικα, ένα harness ανοιχτού κώδικα όπως το Codex CLI μπορεί να παρέχει σταθερό βρόχο πράκτορα και διεπαφή εργαλείων σε όλα τα συστήματα. Η ιδανική προσέγγιση για μέγιστη ανάδειξη θα ήταν η βελτιστοποίηση ενός κατά παραγγελία harness για κάθε εργασία και σύστημα, αλλά αυτό είναι προς το παρόν μη πρακτικό στην πράξη.

Ανθεκτικότητα δικλίδων ασφαλείας υπό αναδειγμένη επίθεση: Οι δικλίδες ασφαλείας του Συστήματος A επαρκούν για τη σχετική συμπεριφορά του μοντέλου ή την αναδειγμένη επίθεση.

Χρησιμοποιήστε διάταξη δοκιμής δικλίδων ασφαλείας σχεδιασμένη να αναδεικνύει την ισχυρότερη αξιόπιστη επίθεση υπό το σχετικό μοντέλο αντιπάλου.

Πώς οι αξιολογητές χαρακτήρισαν τη σχετική συμπεριφορά του μοντέλου, τη διαμόρφωση δικλίδων ασφαλείας που δοκιμάστηκε, τη στρατηγική ανάδειξης, το harness που χρησιμοποιήθηκε για την εκτέλεσή της και τον επιτρεπόμενο προϋπολογισμό ή κόπο.

Οι ισχυρισμοί ικανότητας είναι τόσο ισχυροί όσο και η ανάδειξη που τους στηρίζει: οι αξιολογητές πρέπει να επιλέγουν το harness που ταιριάζει καλύτερα στην εργασία και στην ικανότητα που η αξιολόγηση προσπαθεί να μετρήσει. Ένα τυποποιημένο harness μπορεί να είναι σωστό για τη σύγκριση συστημάτων υπό πανομοιότυπες συνθήκες, αλλά μπορεί να υποτιμήσει την ικανότητα όταν παραλείπει συγκεκριμένα χαρακτηριστικά harness που βοηθούν το μοντέλο να εκτελέσει την εργασία. Για παράδειγμα, η επίδοση του GPT‑5.5 στα cyber ranges της OpenAI δείχνει πώς μια επιλογή harness μπορεί να αλλάξει ουσιωδώς τη μετρούμενη ικανότητα σε εργασίες που απαιτούν μακρά, πολυβηματική χρήση εργαλείων: το μοντέλο αποδίδει καλύτερα όταν το harness χρησιμοποιεί compaction για να διατηρεί το σχετικό με την εργασία συμφραζόμενο καθώς η αλληλεπίδραση επιμηκύνεται. Αυτό δείχνει ότι, για ορισμένα μοντέλα, ένα harness που παραλείπει το compaction θα ανέδειχνε ανεπαρκώς την επίδοση.

Τα υψηλότερα ποσοστά επιτυχίας είναι καλύτερα

Άλλες δημοσιευμένες αξιολογήσεις2 δείχνουν επίσης ότι οι επιλογές harness και προϋπολογισμού αλλάζουν τα αποτελέσματα αξιολόγησης. Η αύξηση του υπολογισμού κατά τον χρόνο δοκιμής μπορεί να αλλάξει σημαντικά ποια ικανότητα αναδεικνύει μια αξιολόγηση, ιδίως σε τομείς όπου η επιτυχία επαληθεύεται εύκολα, όπως πολλές cyber εργασίες. Στην αξιολόγηση cyber range του UK AISI(ανοίγει σε νέο παράθυρο), η αύξηση του προϋπολογισμού από 10M σε 100M token βελτίωσε την επίδοση έως και κατά 59%, και η επίδοση εξακολουθούσε να αυξάνεται στον υψηλότερο προϋπολογισμό που δοκιμάστηκε. Η λεπτομερής περιγραφή αυτού καθιστά την αξιολόγηση πιο ερμηνεύσιμη: δείχνει στους αναγνώστες πώς το αποτέλεσμα εξαρτάται από τη δοκιμασμένη διάταξη ανάδειξης. Όταν η επίδοση εξακολουθεί να βελτιώνεται με πρόσθετο προϋπολογισμό, η βαθμολογία θα πρέπει να περιγράφεται ως επίδοση υπό εκείνο το harness και εκείνον τον προϋπολογισμό, όχι ως μετρημένο ανώτατο όριο ικανότητας. Η ικανότητα συχνά εξαρτάται από τους πόρους αντί να είναι μια σταθερή ποσότητα που μπορεί να μετρηθεί καθαρά μία και καλή. Όπου η επιτυχία μπορεί να μετρηθεί σε επαναλαμβανόμενες προσπάθειες, οι αναφορές θα πρέπει επίσης να εξετάζουν το αναμενόμενο κόστος ανά επιτυχή επίλυση, όχι μόνο το ποσοστό επιτυχίας σε σταθερό προϋπολογισμό token. Αυτό μπορεί να κάνει τη σοβαρότητα ευκολότερη στην ερμηνεία: ένα χαμηλό ποσοστό επιτυχίας μπορεί παρ’ όλα αυτά να είναι πρακτικά σημαντικό αν το κόστος επαναλαμβανόμενων προσπαθειών βρίσκεται εντός του σχετικού μοντέλου απειλής. Για ισχυρισμούς ικανότητας, η αποτρέψιμη ανεπαρκής ανάδειξη είναι αποτυχία μέτρησης: αν το harness ή ο προϋπολογισμός εμποδίζει το σύστημα να επιδείξει συμπεριφορά που διαφορετικά θα μπορούσε να παράγει, η βαθμολογία δεν μετρά την ικανότητα που ισχυρίζεται ότι μετρά. Όπου οι αξιολογητές έχουν ωθήσει την ανάδειξη όσο είναι εφικτό και η επίδοση εξακολουθεί να βελτιώνεται, οι αναφορές θα πρέπει να το δηλώνουν καθαρά και να καθιστούν σαφές ότι το αποτέλεσμα είναι μόνο εκτίμηση κατώτερου ορίου.

Η δοκιμή δικλίδων ασφαλείας μπορεί να υποτιμήσει το αν μια επίθεση μπορεί να πετύχει και πόσο σοβαρή θα μπορούσε να είναι, όταν δεν λαμβάνει υπόψη τους πόρους που έχουν στη διάθεσή τους οι επιτιθέμενοι, συμπεριλαμβανομένων προσαρμοσμένων harness. Στην cyber αξιολόγηση του GPT‑5.5 από το UK AISI(ανοίγει σε νέο παράθυρο), η εξειδικευμένη red teaming ομάδα τους βρήκε ένα καθολικό jailbreak που ανέδειξε παραβατικό cyber περιεχόμενο σε όλα τα κακόβουλα ερωτήματα που παρείχε η OpenAI, συμπεριλαμβανομένων πολυγυρικών πρακτορικών ρυθμίσεων. Χρησιμοποίησαν το Codex για να δημιουργήσουν ένα προσαρμοσμένο harness ώστε να ενισχύσουν την επιθετική επίδοση του μοντέλου: ενσωμάτωνε ένα επαναχρησιμοποιήσιμο μοτίβο παράκαμψης δικλίδων ασφαλείας στην αλληλεπίδραση, διατηρούσε αυτό το μοτίβο σε διαδοχικούς γύρους και μπλοκ και το εφάρμοζε στα κακόβουλα cyber ερωτήματα που παρείχε η OpenAI. Η δοκιμή δικλίδων ασφαλείας πρέπει να ταιριάζει με τον αντίπαλο. Αν ο ισχυρισμός αφορά ανθεκτικότητα σε κακή χρήση από ειδικούς, η δοκιμή θα πρέπει να αξιολογεί την ισχυρότερη αξιόπιστη στρατηγική επίθεσης από άκρο σε άκρο εντός καθορισμένου προϋπολογισμού, συμπεριλαμβανομένου οποιουδήποτε harness απαιτείται για τη διατήρηση και επαναχρησιμοποίηση αυτής της στρατηγικής. Διαφορετικά, τα αποτελέσματα κινδυνεύουν να είναι κακώς βαθμονομημένα: θα μπορούσαν να στηρίζουν μόνο έναν στενότερο ισχυρισμό για αντοχή σε απλούστερες προτροπές, να μην αποτυπώνουν τόσο το πόσο σοβαρή γίνεται η επίθεση όσο και την πιθανότητα επιτυχίας της μόλις η μέθοδος ανάδειξης καταστεί λειτουργική, και επίσης να υπερεκτιμούν το πόσο πιθανό ή σοβαρό είναι ένα πρόβλημα αν δοθεί υπερβολικός προϋπολογισμός.

Υπάρχει χρόνος και τόπος για συγκρίσεις με τυποποιημένα harness, αλλά οι αξιολογητές θα πρέπει να είναι σαφείς ως προς το γιατί η χρήση ενός συνεπούς συνόλου harness είναι κατάλληλη και ποιον ισχυρισμό μπορεί να υποστηρίξει. Η αξιολόγηση χρονικού ορίζοντα του METR(ανοίγει σε νέο παράθυρο) είναι παράδειγμα μιας ευρύτερης, κατάλληλα σταθερής διάταξης αξιολόγησης: έχει σχεδιαστεί ώστε να παράγει συγκρίσιμα αποτελέσματα στα συστήματα που αξιολογεί. Το METR ορίζει ένα κοινό αποτέλεσμα, την τυπική διάρκεια μιας ανθρώπινης εργασίας στην οποία προβλέπεται ότι ένας TN πράκτορας θα επιτύχει σε δεδομένο επίπεδο αξιοπιστίας. Εφαρμόζει κοινή δέσμη εργασιών, μέθοδο βαθμολόγησης, μέθοδο προσαρμογής και ένα μικρό σύνολο επαναχρησιμοποιήσιμων scaffolds όπως τα Triframe και ReAct(ανοίγει σε νέο παράθυρο) μέσα σε κάθε παρτίδα εκτιμήσεων που αναφέρονται μαζί. Όταν το METR επέκτεινε τη δέσμη εργασιών και μετέφερε την υποδομή αξιολόγησης από ένα framework που ονομαζόταν Vivaria σε ένα που ονομαζόταν Inspect, ανέφερε την αλλαγή (ενημέρωση Time Horizon 1.1(ανοίγει σε νέο παράθυρο)) και επαναξιολόγησε μοντέλα υπό τη νέα διάταξη αξιολόγησης. Αυτή είναι η αξία μιας τυποποιημένης διάταξης αξιολόγησης, συμπεριλαμβανομένου ενός συνεπούς συνόλου harness: μπορεί να κάνει τους αναγνώστες να είναι βέβαιοι ότι μια διαφορά στις βαθμολογίες αντανακλά πράγματι διαφορά μεταξύ των συστημάτων που συγκρίνονται και όχι αλλαγή στη διάταξη μέτρησης.

Συνιστούμε οι αναφορές αξιολόγησης από τρίτα μέρη να δηλώνουν τι είδους ισχυρισμό προορίζεται να υποστηρίξει η διάταξη αξιολόγησής τους· να περιγράφουν πόσο στενά αυτό που δοκιμάστηκε αντανακλά αυτόν τον ευρύτερο ισχυρισμό· να περιγράφουν τις επιλογές harness που διαμόρφωσαν το αποτέλεσμα· να διευκρινίζουν πότε αυτές οι επιλογές αλλάζουν μεταξύ αξιολογήσεων· και να περιλαμβάνουν υποστηρικτικά στοιχεία που δείχνουν πώς παρήχθη το αποτέλεσμα και πόσο καλά γενικεύεται στον ισχυρισμό.

Αξιολογήστε την εγκυρότητα ελέγχοντας γνωστούς κινδύνους που μπορούν να παραμορφώσουν τα αποτελέσματα

Καθώς τα μοντέλα γίνονται πιο ικανά, οι βαθμολογίες αξιολόγησης γίνονται πιο εύκολες να παρερμηνευθούν. Σε σχέση με τις πραγματικές ικανότητες, οι βαθμολογίες αξιολόγησης μπορούν να μειωθούν τεχνητά αν ένα μοντέλο αναγνωρίσει ότι αξιολογείται και υποαποδώσει στρατηγικά. Μπορούν να διογκωθούν αν το μοντέλο εκμεταλλευτεί μια συντόμευση στην εργασία, την προτροπή, τον βαθμολογητή ή το harness. Μπορούν επίσης να παραμορφωθούν από μόλυνση (όταν ένα μοντέλο ήδη γνωρίζει ή μπορεί να βρει μια απάντηση χωρίς να λύσει την εργασία) ή από «ελαττωματικά» προβλήματα που είναι αμφίσημα, βαθμολογούνται λανθασμένα, δεν επιλύονται ή είναι ευάλωτα σε ακούσιες συντομεύσεις. Οι αναφορές αξιολόγησης θα πρέπει επομένως να συνοδεύουν τις βασικές βαθμολογίες με συζήτηση αυτών των κινδύνων, ώστε οι αναγνώστες να μπορούν να εκτιμήσουν αν οι βαθμολογίες αντανακλούν την επιδιωκόμενη συμπεριφορά.

Τα harness, οι προϋπολογισμοί, τα εργαλεία, οι κανόνες βαθμολόγησης, οι μηχανισμοί παρακολούθησης και οι διαδικασίες ανασκόπησης επηρεάζουν όλα το αν ένας πράκτορας λύνει την επιδιωκόμενη εργασία, την αποφεύγει, την απομνημονεύει ή βρίσκει μια διαδρομή γύρω από αυτήν. Μια αξιόπιστη αναφορά καθιστά αυτούς τους ελέγχους ορατούς: οι αξιολογητές θα πρέπει να εξετάζουν δείγματα για αυτές τις συμπεριφορές κάθε φορά που εκτελείται μια αποτίμηση.

Reward hacking

Reward hacking σημαίνει επίτευξη υψηλών βαθμολογιών αξιολόγησης με τρόπους που δεν αντανακλούν την επιδιωκόμενη ικανότητα. Εδώ, η ανησυχία είναι ότι το σύστημα λαμβάνει εύσημα εκμεταλλευόμενο την εργασία, τον βαθμολογητή, την προτροπή ή το harness αντί να κάνει τη δουλειά που η αξιολόγηση προοριζόταν να μετρήσει. Η αξιολόγηση του GPT 5.4 από το METR(ανοίγει σε νέο παράθυρο) δείχνει γιατί αυτό έχει σημασία: παρότι το μοντέλο πετύχαινε σε εργασίες με ρυθμό που αρχικά θα καταγραφόταν ως χρονικός ορίζοντας περίπου 13 ωρών, η ανθρώπινη ανασκόπηση έδειξε ότι ορισμένες από αυτές τις επιτυχίες προέρχονταν από reward hacking, και η αναθεώρηση των αποτελεσμάτων ώστε να ληφθούν υπόψη μόνο οι περιπτώσεις χωρίς reward hacking μείωσε την εκτίμηση σε περίπου 6 ώρες. Οι αξιολογητές θα πρέπει να εκτιμούν την ανάγκη για τέτοιες προσαρμογές και, όταν χρειάζονται, να τις αναφέρουν καθαρά: μια εκτίμηση ικανότητας είναι πολύ πιο χρήσιμη όταν οι αναγνώστες μπορούν να δουν ποιες φαινομενικές επιτυχίες αποκλείστηκαν, γιατί αποκλείστηκαν και πόσο εξαρτάται το αποτέλεσμα από αυτή την κρίση.

Διάγραμμα που δείχνει την επίδοση μοντέλου TN με την πάροδο του χρόνου, με γραμμή τάσης και διαστήματα εμπιστοσύνης.

Αρνήσεις

Τα μοντέλα μπορούν επίσης να υποαποδώσουν σε αξιολογήσεις ικανότητας λόγω δικλίδων ασφαλείας. Ένα μοντέλο μπορεί να έχει χαμηλότερη επίδοση αξιολόγησης από αυτήν που είναι ικανό να επιτύχει επειδή αρνείται εργασίες αξιολόγησης αντί να τις ολοκληρώνει. Οι αναφορές θα πρέπει επομένως να εξηγούν αν οι αρνήσεις αποτέλεσαν μέρος των αποτελεσμάτων αξιολόγησης και, αν ναι, πόσα δείγματα επηρεάστηκαν εξαιτίας τους.

Μόλυνση

Η μόλυνση έχει τη μεγαλύτερη σημασία για δημόσια ή επαναχρησιμοποιημένα benchmark. Αν εργασίες, απαντήσεις ή κοντινές παραλλαγές εμφανίζονται στα δεδομένα εκπαίδευσης ή μπορούν να βρεθούν από έναν πράκτορα με περιήγηση, η επίδοση μπορεί να αντανακλά απομνημόνευση ή ανάκτηση αντί για επίδοση του μοντέλου. Οι αξιολογητές θα πρέπει να προτιμούν ιδιωτικές ή νέες εργασίες που έχουν δημιουργηθεί για αυτόν τον σκοπό, όπου είναι δυνατόν, και να ελέγχουν αν τα μοντέλα αναπαράγουν ειδικές για την εργασία λεπτομέρειες πριν την επίλυση.

Ελαττωματικά προβλήματα

Τα ελαττωματικά προβλήματα περιλαμβάνουν καταστάσεις όπως ένα πρόβλημα που κατά λάθος δεν μπορεί να λυθεί. Τα ελαττωματικά προβλήματα είναι αρκετά συχνά(ανοίγει σε νέο παράθυρο) ώστε να πρέπει να αντιμετωπίζονται ως τυπικός κίνδυνος εγκυρότητας. Περιλαμβάνουν λανθασμένο γνωστό σωστό αποτέλεσμα (ground truth), αμφίσημες προτροπές, αρχεία που λείπουν, ασταθείς υπηρεσίες, άδικα κριτήρια βαθμολόγησης και περιβάλλοντα που εκθέτουν συντομεύσεις όπως κρυφά αρχεία απαντήσεων ή ιστορικό αποθετηρίου που περιέχει το patch με τη διόρθωση κατά το γνωστό σωστό αποτέλεσμα.

Sandbagging

Sandbagging από ένα μοντέλο ή σύστημα σημαίνει στρατηγική υποαπόδοση όταν η ισχυρή επίδοση θα ερχόταν σε σύγκρουση με κάποιον στόχο. Η αξιολόγηση του GPT‑5.5 από την Apollo(ανοίγει σε νέο παράθυρο) το δοκίμασε αυτό δημιουργώντας ένα πλαίσιο όπου το μοντέλο κατανοούσε ότι οι υψηλές βαθμολογίες αξιολόγησης μπορεί να ενεργοποιούσαν unlearning ή να εμπόδιζαν την ανάπτυξη. Το GPT‑5.5 εξακολουθούσε να απαντά σωστά, υποδηλώνοντας λίγα συμπεριφορικά στοιχεία στρατηγικής υποαπόδοσης3. Όμως η ανασκόπηση των ιχνών συλλογιστικής πρόσθεσε σημαντικό πλαίσιο: η Apollo βρήκε μέτρια ή υψηλότερα σημάδια επίγνωσης αξιολόγησης ευθυγράμμισης στο 52% των δειγμάτων υπό συνθήκη sandbagging, σε σύγκριση με 0% στα αντιπαραδείγματα. Αυτά τα στοιχεία περιπλέκουν την ερμηνεία του αποτελέσματος, αλλά τελικά δίνουν στους αναγνώστες περισσότερο σήμα: μπορούν να δουν τόσο το καθησυχαστικό συμπεριφορικό αποτέλεσμα όσο και τον λόγο να είναι προσεκτικοί ώστε να μην το υπερερμηνεύσουν.

Πώς υποστηρίζουμε ισχυρότερες αξιολογήσεις

Οι ισχυροί ισχυρισμοί απαιτούν τόσο το σωστό harness για να αναδειχθεί η συμπεριφορά όσο και ελέγχους εγκυρότητας για να αποδειχθεί ότι το αποτέλεσμα είναι αξιόπιστο. Η άποψή μας ότι τα harness και οι έλεγχοι εγκυρότητας αποτελούν μέρος του αποτελέσματος της αξιολόγησης διαμορφώνει τον τρόπο με τον οποίο υποστηρίζουμε στην πράξη αξιολογήσεις από τρίτα μέρη: 

  • Μοιραζόμαστε με τους αξιολογητές συγκεκριμένη καθοδήγηση για μέγιστη ανάδειξη.
  • Ζητούμε από τους αξιολογητές ικανοτήτων να χρησιμοποιούν το Codex ως κοινή ελάχιστη βάση για τα μοντέλα OpenAI: οι δοκιμές θα πρέπει τουλάχιστον να εκτελούν μια βασική γραμμή μέσω της ίδιας πρακτορικής διεπαφής στην οποία είναι πιθανό να βασίζονται οι χρήστες, αντί μόνο μέσω μιας απογυμνωμένης διεπαφής μοντέλου.
  • Παρέχουμε επίσης ίχνη συλλογιστικής και άλλα ενδιάμεσα τεκμήρια όπου χρειάζονται για την αποτίμηση εξαπάτησης, sandbagging ή επίγνωσης αξιολόγησης. Το METR και η Apollo χρησιμοποιούν αυτή την πρόσβαση σε αξιολογήσεις της OpenAI από το GPT‑5. 
  • Τέλος, δίνουμε προτεραιότητα στην έρευνα για να κατανοήσουμε βαθύτερα πότε και πώς οι επιλογές harness αλλάζουν ουσιωδώς τα αποτελέσματα, από τη διαχείριση συμφραζομένου και την πρόσβαση σε εργαλεία έως τη συμπεριφορά επανάληψης, τη βαθμολόγηση και τους προϋπολογισμούς πόρων.

Τι σημαίνει αυτό για τα πρότυπα αξιολόγησης και τις μελλοντικές κατευθύνσεις έρευνας 

Αυτές οι συστάσεις αποσκοπούν όχι μόνο στη βελτίωση μεμονωμένων αναφορών αξιολόγησης, αλλά και στην ενημέρωση αναδυόμενων εθνικών (ανοίγει σε νέο παράθυρο)και διεθνών (ανοίγει σε νέο παράθυρο)προτύπων για την αξιολόγηση και αναφορά TN αιχμής. Στο εξής, τα πρότυπα αξιολόγησης από τρίτα μέρη θα πρέπει να απαιτούν αρκετή λεπτομέρεια ώστε οι υπεύθυνοι λήψης αποφάσεων να κατανοούν ποιους ισχυρισμούς υποστηρίζουν οι συγκεκριμένες αξιολογήσεις, ποιο σύστημα δοκιμάστηκε, πώς αναδείχθηκε το αποτέλεσμα και πώς οι αξιολογητές έλεγξαν την εγκυρότητά του. Για συστήματα αιχμής που δοκιμάζονται σε εργασίες όπου οι πρακτορικές ικανότητες έχουν σημασία, οι λεπτομέρειες θα πρέπει να περιλαμβάνουν (με την επιφύλαξη τυχόν ανησυχιών ασφάλειας ή εμπιστευτικότητας):

  • Ο ισχυρισμός: αν η αξιολόγηση συγκρίνει συστήματα, εκτιμά ανώτατο όριο ικανότητας ή δοκιμάζει δικλίδες ασφαλείας.
  • Περιεχόμενο αξιολόγησης: αρκετή λεπτομέρεια για τις εργασίες ή την κατανομή εργασιών ώστε οι αναγνώστες να κατανοούν ποιες δεξιότητες, συμπεριφορές ή τρόπους αστοχίας δοκιμάζει πραγματικά η αξιολόγηση.
  • Το δοκιμασμένο σύστημα: το μοντέλο, η ρύθμιση συλλογιστικής, η πρόσβαση σε εργαλεία, το harness και οι δικλίδες ασφαλείας.
  • Ο προϋπολογισμός: γύροι, token, προσπάθειες/επαναλήψεις, πραγματικός χρόνος, κόστος inference και, όπου εφαρμόζεται, αναμενόμενο κόστος ανά επιτυχή επίλυση.
  • Μέθοδοι ανάδειξης: οι επιλογές harness που χρησιμοποιήθηκαν για να αναδειχθεί το αποτέλεσμα και πόσο στενά αυτό που δοκιμάστηκε αντανακλά τον ευρύτερο ισχυρισμό που διατυπώνεται.
  • Έλεγχοι εγκυρότητας: πώς οι αξιολογητές αναζήτησαν reward hacking, επίγνωση αξιολόγησης, μόλυνση, αρνήσεις, sandbagging και άλλες συμπεριφορές που θα μπορούσαν να υπονομεύσουν το αποτέλεσμα, συμπεριλαμβανομένου του πώς οι επιβεβαιωμένες περιπτώσεις επηρέασαν τη βαθμολόγηση ή την ερμηνεία.

Πρότυπα που παραλείπουν επιλογές harness ή ελέγχους εγκυρότητας μπορούν να υποτιμήσουν τι μπορεί να κάνει ένα σύστημα ή να υπερεκτιμήσουν την εμπιστοσύνη σε έναν ισχυρισμό ασφάλειας. Η δημιουργία ισχυρών harness και μεθόδων ανάδειξης παραμένει ανοικτό ερευνητικό πεδίο και θα πρέπει να αποτελέσει επίκεντρο περαιτέρω διερεύνησης και επένδυσης.

Συντάκτης

OpenAI

Γλωσσάρι

Επειδή χρησιμοποιούμε αρκετούς εξειδικευμένους όρους σε αυτή την ανάρτηση, παραθέτουμε παρακάτω ένα γλωσσάρι με απλή εξήγηση του τι εννοούμε:

  • Πρακτορικό σύστημα: Σύστημα που μπορεί να εκτελεί μια εργασία σε πολλαπλά βήματα, χρησιμοποιώντας εργαλεία, διατηρώντας την κατάσταση της εργασίας και δρώντας σε ένα περιβάλλον, αντί να επιστρέφει μόνο μία απάντηση σε μια προτροπή.

  • Αποτίμηση: Ευρύτερη κρίση για το αν τα στοιχεία υποστηρίζουν έναν ισχυρισμό, ένα συμπέρασμα κινδύνου ή μια θέση διασφάλισης, η οποία μπορεί να βασίζεται σε δεδομένα αξιολόγησης, ανασκόπηση εγγράφων, συνέντευξη, ανασκόπηση διαδικασιών και άλλα σχετικά τεκμήρια.

  • Compaction: Μέθοδος διατήρησης του σχετικού με την εργασία συμφραζομένου κατά τη διάρκεια μακρών εκτελέσεων.

  • Διαμόρφωση: Οι ακριβείς συνθήκες συστήματος και αξιολόγησης που δοκιμάστηκαν, πέρα από το όνομα του μοντέλου.

  • Μόλυνση: Όταν εργασίες αξιολόγησης, απαντήσεις ή πολύ κοντινές παραλλαγές εμφανίζονται στα δεδομένα εκπαίδευσης ενός μοντέλου ή μπορούν να εντοπιστούν κατά την αξιολόγηση (π.χ. μέσω εργαλείων όπως η περιήγηση), με αποτέλεσμα η επίδοση να υπερεκτιμά την πραγματική ικανότητα γενίκευσης του μοντέλου.

  • Ανάδειξη: Διαδικασία προσπάθειας να αναδειχθεί μια ικανότητα ή συμπεριφορά από ένα σύστημα κατά τη διάρκεια μιας αποτίμησης.

  • Περιβάλλον: Το πλαίσιο εργασίας μέσα στο οποίο δοκιμάζεται ένα σύστημα. Αυτό περιλαμβάνει πράγματα όπως η εξωτερική κατάσταση με την οποία αλληλεπιδρά και την οποία τροποποιεί ο πράκτορας κατά τη διάρκεια μιας αξιολόγησης, όπως ένα περιβάλλον τερματικού ή ένα βιντεοπαιχνίδι.

  • Αξιολόγηση: Συγκεκριμένη δοκιμή ή μέτρηση μέσα σε μια αποτίμηση.

  • Επίγνωση αξιολόγησης: Η επίγνωση αξιολόγησης αναφέρεται στο ότι ένα μοντέλο αναγνωρίζει, ή φαίνεται να αναγνωρίζει, ότι αξιολογείται και ενδέχεται να προσαρμόζει τη συμπεριφορά του ως απόκριση σε αυτό το πλαίσιο. Αυτό μπορεί να φαίνεται ως ρητή συλλογιστική του μοντέλου σχετικά με το ότι δοκιμάζεται, ως συμπέρασμα για τον σκοπό της αξιολόγησης ή ως αλλαγή της συμπεριφοράς του επειδή αναμένει ότι το αποτέλεσμα θα επηρεάσει τον τρόπο με τον οποίο θα κριθεί ή θα αναπτυχθεί.

  • Harness: Δομή που απευθύνεται στο μοντέλο και του επιτρέπει να εκτελεί μια εργασία: προτροπές, εργαλεία, διεπαφές, λογική ελέγχου, μνήμη, επαναλήψεις, επικυρωτές και άλλες υποστηρικτικές δομές γύρω από το μοντέλο.

  • Μέγιστη ανάδειξη: Δοκιμή που στοχεύει να εντοπίσει την ισχυρότερη αξιόπιστη επίδοση ή τον τρόπο αστοχίας που μπορεί να παρουσιάσει ένα σύστημα εντός καθορισμένου προϋπολογισμού, αντί απλώς να εκτελεί το σύστημα μία φορά μέσω ενός τυποποιημένου harness.

  • Ίχνη συλλογιστικής: Καταγραφές της ενδιάμεσης συλλογιστικής του μοντέλου κατά τη διάρκεια μιας δοκιμής.

  • Reward hacking: Επίτευξη υψηλής βαθμολογίας μέσω συντόμευσης ή συμπεριφοράς εκτός της πρόθεσης του αξιολογητή.

  • Δικλίδες ασφαλείας: Φίλτρα, μηχανισμοί παρακολούθησης, συστήματα αποκλεισμού και άλλες προστασίες που εφαρμόζονται γύρω από ένα μοντέλο ή προϊόν.

  • Sandbagging: Στρατηγική υποαπόδοση σε μια αξιολόγηση με τρόπο που υπονομεύει το αποτέλεσμα.

  • Βαθμολόγηση: Μέθοδος που χρησιμοποιείται για να αποφασιστεί πώς μετριέται η επίδοση ή αν μια εργασία πέτυχε.

  • Τυποποιημένο harness: Harness που παραμένει ίδιο σε όλα τα συστήματα αντί να προσαρμόζεται σε συγκεκριμένο μοντέλο ή εργασία, ώστε οι διαφορές στα αποτελέσματα να αποδίδονται ευκολότερα στο μοντέλο που δοκιμάζεται.

  • Χρονικός ορίζοντας: Διάρκεια εργασίας που ένα σύστημα μπορεί να ολοκληρώσει με καθορισμένη αξιοπιστία, συχνά εκφρασμένη ως ο χρόνος που θα χρειαζόταν ένας άνθρωπος για την ίδια εργασία.

  • Πρόσβαση σε εργαλεία: Εξωτερικά εργαλεία διαθέσιμα στο μοντέλο κατά τη διάρκεια της αποτίμησης.

  • Τροχιές: Οι διαδρομές βήμα προς βήμα που ακολουθεί ένα σύστημα ενώ εκτελεί μια εργασία.

  • Καθολικό jailbreak: Ενιαίο μοτίβο επίθεσης που κάνει ένα σύστημα να παρακάμπτει τις δικλίδες ασφαλείας σε πολλές προτροπές ή εργασίες.

Υποσημειώσεις

  1. 1

    Αυτή η ανάρτηση δεν επιχειρεί να επιλύσει το πώς θα πρέπει τρίτα μέρη να αξιολογούν ισχυρισμούς που σχετίζονται με κακή ευθυγράμμιση ή ροπές συμπεριφοράς. Χρειάζεται περισσότερη δουλειά για να κατανοήσουμε πώς οι επιλογές harness επηρεάζουν αυτές τις αξιολογήσεις, ιδίως επειδή τα harness που υποστηρίζουν συμπεριφορά μεγαλύτερου χρονικού ορίζοντα μπορεί επίσης να αλλάζουν τα είδη ακούσιας συμπεριφοράς που πρέπει να παρακολουθούν οι αξιολογητές.

  2. 2

    Το HAL(ανοίγει σε νέο παράθυρο) παρέχει ένα επιπλέον παράδειγμα από αξιολογήσεις πρακτόρων: στο CORE-Bench(ανοίγει σε νέο παράθυρο), η αλλαγή του harness σε Claude Code άλλαξε τόσο τη μετρούμενη επίδοση όσο και το προφίλ κόστους στο ίδιο benchmark. Άλλα δημόσια παραδείγματα περιλαμβάνουν τα SWE-agent(ανοίγει σε νέο παράθυρο), SeeAct(ανοίγει σε νέο παράθυρο), ScienceAgentBench(ανοίγει σε νέο παράθυρο), CORE-Bench(ανοίγει σε νέο παράθυρο) και Inspect Cyber(ανοίγει σε νέο παράθυρο)· το καθένα ενημερώνει τους αναγνώστες ποια διεπαφή ή ποιο harness παρήγαγε τη βαθμολογία.

  3. 3

    Βαθμολογία 100% και στις δύο παραλλαγές Sandbagging QA και 99,6% στην εργασία sandbagging στρατηγικής εξαπάτησης.