Μετάβαση στο κύριο περιεχόμενο
OpenAI

16 Ιουνίου 2026

Έρευνα

Πρόβλεψη συμπεριφοράς μοντέλου πριν από την κυκλοφορία μέσω προσομοίωσης της ανάπτυξης

Χρήση ρεαλιστικών πλαισίων συνομιλίας για καλύτερη εκτίμηση ανεπιθύμητης συμπεριφοράς μοντέλου πριν από την κυκλοφορία.

Εισαγωγή

Πριν από την κυκλοφορία ενός νέου μοντέλου, τα εργαστήρια πρέπει να κατανοήσουν όχι μόνο τι μπορεί να κάνει, αλλά και πώς είναι πιθανό να συμπεριφερθεί σε πραγματική χρήση, συμπεριλαμβανομένων των σημείων όπου μπορεί να εισαγάγει νέους κινδύνους. Αυτό γίνεται ακόμη πιο σημαντικό καθώς αυξάνονται οι δυνατότητες. Στο πλαίσιο του ελέγχου ασφάλειας πριν από την ανάπτυξη, αξιοποιούμε στοχευμένες αξιολογήσεις, αντιπαραθετικό έλεγχο ασφάλειας (red-teaming) και άλλους ελέγχους για να κατανοήσουμε τη συμπεριφορά του μοντέλου. Έχουμε πλέον αρχίσει να χρησιμοποιούμε μια μέθοδο για την προσομοίωση αναπτύξεων μοντέλων πριν καν συμβούν, η οποία προσθέτει ένα συμπληρωματικό σήμα: μια προεπισκόπηση τύπου ανάπτυξης για το πώς μπορεί να συμπεριφερθεί ένα υποψήφιο μοντέλο προτού φτάσει στους χρήστες.

Η Προσομοίωση ανάπτυξης αποτελεί μέθοδο για την προσομοίωση μιας μελλοντικής ανάπτυξης προτού συμβεί. Το κάνουμε αναπαράγοντας προηγούμενες συνομιλίες με τρόπο που διαφυλάσσει το απόρρητο, χρησιμοποιώντας ένα νέο υποψήφιο μοντέλο. Αυτό μας επιτρέπει να μελετήσουμε πώς αποκρίνεται το νέο μοντέλο σε ρεαλιστικά περιβάλλοντα πριν από την κυκλοφορία, συμπεριλαμβανομένου του αν εμφανίζονται νέες ανεπιθύμητες συμπεριφορές και πόσο συχνά μπορεί να παρουσιαστούν.

Σε πολλαπλές αναπτύξεις μοντέλων Συλλογισμού της σειράς GPT‑5, η Προσομοίωση ανάπτυξης βελτίωσε τις εκτιμήσεις μας για τα ποσοστά ανεπιθύμητης συμπεριφοράς μοντέλων, βοήθησε να αναδειχθούν νέες μορφές μη ευθυγράμμισης πριν από την κυκλοφορία και βοήθησε να μειωθεί ο κίνδυνος τα μοντέλα να μπορούν να καταλάβουν ότι υποβάλλονται σε δοκιμή. Εφαρμόσαμε επίσης τη μέθοδο σε δύσκολες κυκλοφορίες βάσει πράκτορα, δείχνοντας ότι μπορεί να επεκταθεί πέρα από την τυπική συνομιλία σε πιο σύνθετα περιβάλλοντα πράκτορα που περιλαμβάνουν χρήση εργαλείων, και επιπλέον πως μπορεί επίσης να χρησιμοποιηθεί για αξιολόγηση κινδύνου πριν από εσωτερικές αναπτύξεις μοντέλων.

Έχουμε ήδη χρησιμοποιήσει ευρήματα από την Προσομοίωση ανάπτυξης κατά την ανάπτυξη μοντέλων, για να εντοπίζουμε τυφλά σημεία σε παραδοσιακές αξιολογήσεις και να ενημερώνουμε μέτρα μετριασμού και αποφάσεις ανάπτυξης. Καθώς κάνουμε πιο εύκολη την εκτέλεση της ροής επεξεργασίας, αναμένουμε ότι θα διαδραματίσει μεγαλύτερο ρόλο στη μελλοντική διαδικασία ανάπτυξης μοντέλων.

Πώς λειτουργεί η Προσομοίωση ανάπτυξης

Οι αξιολογήσεις πριν από την ανάπτυξη που χρησιμοποιούνται στον κλάδο αποτελούνται γενικά από έναν συνδυασμό συνθετικών, μη αυτόματα γραμμένων ή παραγωγικών προτροπών, που επιλέγονται σκόπιμα ώστε να είναι δύσκολες, υψηλής σοβαρότητας ή ανταγωνιστικές. Αυτές οι αξιολογήσεις είχαν γενικά δύο αλληλένδετους στόχους: να αξιολογήσουν πώς αποκρίνεται το μοντέλο όταν δοκιμάζεται υπό πίεση σε καταστάσεις με πολύ μικρή πιθανότητα εμφάνισης στην κίνηση ανάπτυξης, και να αποκτήσουν μια γενική κατανόηση των ανεπιθύμητων συμπεριφορών μοντέλων, συμπεριλαμβανομένης της εύρεσης νέων ανεπιθύμητων συμπεριφορών και της πρόβλεψης των συχνοτήτων τους κατά την ανάπτυξη.

Ενώ οι παραδοσιακές αξιολογήσεις παραμένουν κρίσιμες για τον πρώτο στόχο, η Προσομοίωση ανάπτυξης αποτελεί σημαντικό βήμα προόδου ως προς τον δεύτερο στόχο για μη ακραίους κινδύνους (στα πειράματά μας, η προσέγγισή μας δεν μπορεί να αναμένεται ότι θα μετρήσει συμπεριφορές που εμφανίζονται με συχνότητα μικρότερη από 1 στα 200.000 μηνύματα). Η ισχύς της Προσομοίωσης ανάπτυξης προκύπτει από την παράκαμψη ορισμένων βασικών προκλήσεων των παραδοσιακών αξιολογήσεων:

  • Κάλυψη: είναι δύσκολο να υπάρχει βεβαιότητα ότι οι προτροπές αξιολόγησης θα καλύψουν όλους τους πιθανούς τύπους ανεπιθύμητης συμπεριφοράς μοντέλου. Η μέτρηση νέων τύπων ανεπιθύμητης συμπεριφοράς απαιτεί τη δημιουργία νέων αξιολογήσεων και τη γνώση των βλαβών που πρέπει να μετρηθούν. Αυτό μπορεί να απαιτεί πολύ χρόνο και εργασία, ενώ οι αξιολογήσεις μπορούν να κορεστούν με την πάροδο του χρόνου.
  • Μεροληψίες επιλογής: οι παραδοσιακές αξιολογήσεις κατασκευάζονται γενικά με συγκεκριμένες ανεπιθύμητες συμπεριφορές μοντέλων κατά νου, επιλεγμένες με τρόπους που μεροληπτούν προς περιβάλλοντα τα οποία έχουν εμφανιστεί στο παρελθόν. Αυτό μπορεί να κάνει τις εκτιμήσεις τους λιγότερο πληροφοριακές για τη συχνότητα τέτοιων συμπεριφορών σε όλο το εύρος της κατανομής ανάπτυξης.
  • Αναγνωρισιμότητα ως δοκιμές από τα μοντέλα: τα μοντέλα έχουν ολοένα μεγαλύτερη ικανότητα να διαπιστώνουν ότι δοκιμάζονται, κάτι που μπορεί να παραμορφώσει τη συμπεριφορά τους και τις επακόλουθες μετρήσεις μας για την ασφάλειά τους. Παρότι πολλές από τις παραδοσιακές αξιολογήσεις που χρησιμοποιούμε στην OpenAI αντλούνται επίσης από παραγωγική κίνηση και δεν επηρεάζονται από αυτό το ζήτημα, αποτελεί κοινή ανησυχία για πολλές παραδοσιακές αξιολογήσεις που χρησιμοποιούνται στον κλάδο.

Η κύρια τεχνική πίσω από την Προσομοίωση ανάπτυξης είναι απλή: παίρνουμε πρόσφατες συνομιλίες από την ανάπτυξη, αφαιρούμε την αρχική απόκριση του βοηθού από το παλαιότερο μοντέλο και την αναδημιουργούμε με ένα υποψήφιο μοντέλο που πρόκειται να κυκλοφορήσει. Αξιολογούμε τις ολοκληρώσεις αναζητώντας νέους τρόπους αποτυχίας και εκτιμούμε τη συχνότητα ανεπιθύμητης συμπεριφοράς κατά την ανάπτυξη με βάση τη συχνότητα σε αυτήν την κατανομή τύπου ανάπτυξης. Μπορούμε να εκτελέσουμε τις ίδιες μετρήσεις μετά την κυκλοφορία σε πραγματική κίνηση ανάπτυξης, επιτρέποντάς μας να επικυρώσουμε τις προβλέψεις μας πριν από την ανάπτυξη.

Η Προσομοίωση ανάπτυξης μετριάζει σημαντικά τους τρεις παραπάνω περιορισμούς: η μεροληψία δειγματοληψίας αντιμετωπίζεται χρησιμοποιώντας κατανομή προτροπών αξιολόγησης αντιπροσωπευτική της πρόσφατης χρήσης. Η Προσομοίωση ανάπτυξης με αντιπροσωπευτικές προτροπές μπορεί επίσης να μετριάσει ανησυχίες σχετικά με την κάλυψη: αποκτούμε μεγαλύτερη κάλυψη ανεπιθύμητων συμπεριφορών μοντέλου προσομοιώνοντας απλώς περισσότερη κίνηση. Αυτή η αντιστάθμιση μεταξύ υπολογιστικής ισχύος και κάλυψης είναι σημαντική, επειδή καθιστά την ποιότητα αυτού του άξονα αξιολόγησης κινδύνου να κλιμακώνεται με την υπολογιστική ισχύ, αντί με τη χειροκίνητη προσπάθεια που απαιτείται για δημιουργία περισσότερων αξιολογήσεων. Τα μοντέλα δεν φαίνεται επίσης να μπορούν να διακρίνουν μεταξύ συνομιλιών που λαμβάνονται μέσω προσομοίωσης ανάπτυξης και πραγματικής κίνησης ανάπτυξης.

Διάγραμμα που δείχνει τη ροή επεξεργασίας Εκ νέου δειγματοληψίας παραγωγής από παραγωγικές συνομιλίες μέσω εκ νέου δειγματοληψίας που διαφυλάσσει το απόρρητο, παραγωγής ολοκληρώσεων μοντέλου, αξιολόγησης και εκτιμήσεων κατά την ανάπτυξη.

Σχήμα 1: Επισκόπηση της ροής επεξεργασίας Προσομοίωσης ανάπτυξης

Έκταση

Παραδοσιακές αξιολογήσεις

Προσομοίωση ανάπτυξης

Κάλυψη

Καλύτερο για κινδύνους χαμηλής επιπολασμού αλλά υψηλής σοβαρότητας, για τους οποίους θέλουμε να βεβαιωθούμε ότι έχουμε κάλυψη

Καλύτερο για την κατανόηση του φάσματος των κινδύνων που είναι πιθανό να δούμε στην κυκλοφορία ανάπτυξης

Αντιπροσωπευτικότητα/μεροληψία

Εστιάζοντας στην αξιολόγηση στοχευμένων παρελθοντικών ή προβλεπόμενων κινδύνων, ακόμη και για συμπεριφορές που έχουν εξαιρετικά χαμηλή συχνότητα εμφάνισης κατά την ανάπτυξη

Αντιπροσωπευτικό των κινδύνων που εμφανίζονται πάνω από ένα ορισμένο ποσοστό συχνότητας εμφάνισης στην τρέχουσα κυκλοφορία ανάπτυξης

Ευαισθητοποίηση σχετικά με την αξιολόγηση

Δυνητικά προφανείς ενδείξεις δοκιμής (π.χ., με συνθετικά δεδομένα), εκτός εάν δημιουργηθούν αξιολογήσεις με δεδομένα ανάπτυξης

Το περιβάλλον ανάπτυξης φαίνεται να μετριάζει σημαντικά την επίγνωση της αξιολόγησης

Προσπάθεια

Οι προσαρμοσμένες διανομές και ρυθμίσεις προτροπών απαιτούν σημαντικά περισσότερη χειροκίνητη προσπάθεια

Απαιτεί ένα εφάπαξ κόστος υποδομής και στη συνέχεια επαναχρησιμοποιεί προθέματα από την ανάπτυξη και βαθμολογητές από γνωστές ανεπιθύμητες συμπεριφορές.

Σύγκριση υψηλού επιπέδου μεταξύ παραδοσιακών αξιολογήσεων και Προσομοίωσης ανάπτυξης

Πώς δοκιμάσαμε την Προσομοίωση ανάπτυξης

Για να αξιολογήσουμε την Προσομοίωση ανάπτυξης, προεγγράψαμε προβλέψεις για τη συχνότητα κατά την ανάπτυξη 20 τύπων ανεπιθύμητης συμπεριφοράς για το μοντέλο Συλλογισμού GPT‑5.4. Πραγματοποιήσαμε επίσης αναδρομικές μελέτες σε άλλες αναπτύξεις μοντέλων Συλλογισμού της σειράς GPT‑5. Οι συμπεριφορές μοντέλου που αναλύουμε καλύπτουν τόσο κατηγορίες μη ευθυγράμμισης όσο και μη επιτρεπόμενου περιεχομένου, τις οποίες αναφέρουμε σε κάρτες συστήματος (π.χ. το μοντέλο ψεύδεται για εργαλεία ή παράγει μη επιτρεπόμενο σεξουαλικό περιεχόμενο). Παρότι γι' αυτά τα αποτελέσματα παρακολουθούμε μόνο 20 κατηγορίες ανεπιθύμητης συμπεριφοράς μοντέλου και αναζητούμε μόνο νέες μη ευθυγραμμισμένες συμπεριφορές, η Προσομοίωση ανάπτυξης αποτελεί μια γενική τεχνική που θα μπορούσε να εφαρμοστεί για την προσομοίωση οποιασδήποτε ιδιότητας μοντέλου κατά την ανάπτυξη.

Η παραγωγική κίνηση που αξιοποιήσαμε προερχόταν επίσης από μοντέλα Συλλογισμού της σειράς GPT‑5. Προτού εκτελέσουμε τις αξιολογήσεις μας, αφαιρέσαμε αυτόματα αναγνωριστικά συνδεδεμένα με λογαριασμούς και ταυτοποιήσιμες πληροφορίες. Σύμφωνα με την πολιτική απορρήτου μας, αναλύσαμε μόνο κίνηση ChatGPT από χρήστες που επιτρέπουν τη χρήση των δεδομένων τους για βελτιώσεις μοντέλων. Αναφέρουμε μόνο συγκεντρωτικά ευρήματα από αυτές τις αξιολογήσεις. Συνολικά, αναλύσαμε περίπου 1,3 εκατομμύρια αποταυτοποιημένες συνομιλίες σε αναπτύξεις από το μοντέλο Συλλογισμού GPT‑5 έως το GPT‑5.4, τα οποία καλύπτουν την περίοδο από Αύγουστο 2025 έως Μάρτιο 2026.

Εκτιμούμε την ποιότητα της αξιολόγησης κινδύνου πριν από την ανάπτυξη που παράγει η Προσομοίωση ανάπτυξης με τρεις κύριους τρόπους:

  • Κάλυψη ταξινομίας: ανέδειξε ο έλεγχος μετά την κυκλοφορία σημαντικές μη ευθυγραμμισμένες συμπεριφορές που έλειπαν από την αρχική ταξινομία ανεπιθύμητης συμπεριφοράς μας;
  • Κατευθυντική ακρίβεια: προέβλεψε σωστά η προσομοίωση αν η επικράτηση στην ανάπτυξη θα αυξανόταν ή θα μειωνόταν για γνωστές συμπεριφορές;
  • Βαθμονόμηση ποσοστών: ήταν οι εκτιμήσεις μας πριν από την ανάπτυξη κοντά στα ποσοστά που παρατηρήσαμε αργότερα στην ανάπτυξη; Η επίτευξη καλής βαθμονόμησης ποσοστών απαιτεί περισσότερα από απλά κατευθυντική ακρίβεια, καθιστώντας αυτό το υψηλότερο δυνατό πρότυπο ποιότητας.

Μετράμε επίσης κατά πόσο τα μοντέλα μπορούν να κατανοήσουν ότι βρίσκονται σε αξιολόγηση κατά την Προσομοίωση ανάπτυξης, και δοκιμάζουμε πόσο ανθεκτική είναι η μέθοδος σε διαφορετικές μορφές κίνησης ανάπτυξης και σε δύσκολα περιβάλλοντα χρήσης εργαλείων.

Η Προσομοίωση Ανάπτυξης επεκτείνει σημαντικά την αξιολόγηση κινδύνου πριν από την ανάπτυξη

Σε αναπτύξεις του μοντέλου Συλλογισμού της σειράς GPT‑5, η Προσομοίωση ανάπτυξης ξεπέρασε γραμμές βάσης δύσκολων προτροπών στον προσδιορισμό του πραγματικού ποσοστού κινδύνου, μπόρεσε να αναδείξει το calculator hacking πριν από την κυκλοφορία και φάνηκε δυνητικά αδιαχώριστη από την ανάπτυξη για το μοντέλο.

Επισκόπηση των προβλέψεών μας. Για οπτικοποίηση όλων των προβλέψεων για αναπτύξεις μοντέλων Συλλογισμού της σειράς GPT‑5, δείτε το Σχήμα 2. Οι προβλέψεις για το μοντέλο Συλλογισμού GPT‑5.4 είχαν προεγγραφεί, ενώ οι υπόλοιπες ήταν αναδρομικές προβλέψεις. Συγκεντρωτικά, οι προβλέψεις μας είχαν διάμεσο πολλαπλασιαστικό σφάλμα 1,5x (π.χ. αν το ποσοστό ανεπιθύμητης συμπεριφοράς είναι 10 ανά 100.000, αυτό θα αντιστοιχούσε σε εκτίμηση ποσοστού 15 ή 6,67 ανά 100.000). Παρότι τα σφάλματα ουράς της μεθόδου μας μπορεί να είναι περίπου 10x μεγαλύτερα, αναμένουμε ότι μπορούν να μειωθούν σημαντικά με περαιτέρω βελτιώσεις στη ροή επεξεργασίας προσομοίωσης, όπως συζητείται παρακάτω.

Γράφημα που δείχνει προβλέψεις ακριβών ποσοστών από την Προσομοίωση ανάπτυξης για ανεπιθύμητη συμπεριφορά κατά την ανάπτυξη, με βάση προηγούμενα δεδομένα ανάπτυξης.

Σχήμα 2. Προβλέψεις συχνότητας της Προσομοίωσης ανάπτυξης για ανεπιθύμητη συμπεριφορά κατά την ανάπτυξη, με βάση προηγούμενα δεδομένα ανάπτυξης. Η σημειογραφία 5.1 → 5 δείχνει ότι επαναδειγματοληπτούμε προθέματα από το GPT‑5 με το GPT‑5.1, δηλαδή προσομοιώνουμε την ανάπτυξη του GPT‑5.1 με βάση δεδομένα από το GPT‑5. Το υψηλότερο ποσοστό μη ευθυγραμμισμένης συμπεριφοράς ήταν το «calculator hacking» στο GPT‑5.1, το οποίο έχουμε συζητήσει προηγουμένως(ανοίγει σε νέο παράθυρο).

Σύγκριση των προβλέψεων της Προσομοίωσης ανάπτυξης με γραμμές βάσης. Οι σημαντικότερες κατηγορίες που πρέπει να εκτιμηθούν σωστά για αξιολογήσεις κινδύνου πριν από την ανάπτυξη είναι εκείνες που έχουν μεγάλες αλλαγές στη συχνότητα μετά την ανάπτυξη του μοντέλου (π.χ. >= 1,5x). Σε αυτό το υποσύνολο, η Προσομοίωση ανάπτυξης είναι ουσιαστικά καλύτερη από τις γραμμές βάσης τόσο στην πρόβλεψη του αν μια συγκεκριμένη ανεπιθύμητη συμπεριφορά θα αυξηθεί ή θα μειωθεί σε επικράτηση με την ανάπτυξη ενός μοντέλου (Σχήμα 3, αριστερά), όσο και στην εκτίμηση της ακριβούς συχνότητάς της κατά την ανάπτυξη (Σχήμα 3, δεξιά). Χρησιμοποιούμε δύο κύριες γραμμές βάσης: μια γραμμή βάσης Δύσκολων προτροπών, την οποία χρησιμοποιούμε επί του παρόντος για κάρτες συστήματος και αποφάσεις κυκλοφορίας, και μια αφελή γραμμή βάσης που χρησιμοποιεί ποσοστά από την προηγούμενη ανάπτυξη ως εκτιμήσεις για το νέο μοντέλο.

Σχήμα 3. Η Προσομοίωση ανάπτυξης προβλέπει τόσο την κατεύθυνση των αλλαγών στη συχνότητα (αριστερά) όσο και τα ακριβή ποσοστά παραγωγής (δεξιά) καλύτερα από τις στατικές αξιολογήσεις.

Πηγές σφάλματος προσομοίωσης στη ροή επεξεργασίας μας. Μελετήσαμε επίσης τις τρέχουσες πηγές σφάλματος στη ροή επεξεργασίας μας. Συγκεκριμένα, τα μεγάλα σφάλματα ουράς καθιστούν τη ροή επεξεργασίας λιγότερο αξιόπιστη για αποφάσεις ανάπτυξης: για παράδειγμα, όταν παρατηρείται μεγάλη προβλεπόμενη αύξηση σε ανεπιθύμητη συμπεριφορά ορισμένου τύπου, αν είναι γνωστό ότι η ροή επεξεργασίας έχει έστω και περιστασιακά μεγάλα σφάλματα, δημιουργείται αμφιβολία για το αν πρόκειται για αξιόπιστη εκτίμηση ή τεχνούργημα της ροής επεξεργασίας. Υπάρχουν δύο κύριες πηγές πιθανού σφάλματος:

  • Σφάλμα πιστότητας περιβάλλοντος εκ νέου δειγματοληψίας: για να εκτιμήσει με ακρίβεια τα ποσοστά παραγωγής, η ροή επεξεργασίας προσομοίωσής μας πρέπει να είναι όσο το δυνατόν πιο ρεαλιστική. Αυτό είναι εν μέρει μηχανικό πρόβλημα (δειγματοληψία από το μοντέλο με τις ίδιες ροές επεξεργασίας που χρησιμοποιούνται για την παραγωγική κίνηση) και εν μέρει μια ενδιαφέρουσα πρόκληση για εργαλεία που χρειάζονται πρόσβαση ανάγνωσης/εγγραφής σε εξωτερικούς πόρους που αλλάζουν συνεχώς (π.χ. αναζητήσεις στον ιστό ή αλληλεπίδραση με τοπικά αρχεία). Μπορούμε να απομονώσουμε το σφάλμα πιστότητας προσομοίωσης συγκρίνοντας προβλέψεις από μια πραγματική ανάπτυξη και την προσομοίωσή της (δηλαδή, προσομοιώνοντας την ανάπτυξη του ήδη ανεπτυγμένου μοντέλου).
  • Σφάλμα μετατόπισης κατανομής προτροπών: μια σημαντική ανησυχία με την Προσομοίωση ανάπτυξης είναι ότι η ανάπτυξη οποιουδήποτε μοντέλου θα προκαλέσει μετατόπιση κατανομής στις εισόδους, ειδικά αν οι χρήστες προσαρμοστούν στις νέες δυνατότητες του μοντέλου. Απομονώνουμε το σφάλμα κατανομής προτροπών συγκρίνοντας εκτιμήσεις όταν προσομοιώνουμε την ανάπτυξη χρησιμοποιώντας πρόσφατες προτροπές σε σχέση με προτροπές από την υλοποιημένη ανάπτυξη.

Όπως φαίνεται στο Σχήμα 4, διαπιστώνουμε ότι μεγάλο μέρος του σφάλματος στη ροή επεξεργασίας μας—ιδίως για σφάλματα ουράς—οφείλεται επί του παρόντος στην πιστότητα προσομοίωσης. Αυτό αποτελεί καλό νέο, καθώς αναμένουμε ότι η πιστότητα προσομοίωσης θα είναι γενικά ευκολότερο να βελτιωθεί από τη μείωση της μετατόπισης κατανομής προτροπών. Διαπιστώνουμε επίσης ότι το σφάλμα μετατόπισης κατανομής προτροπών μπορεί να μειωθεί χρησιμοποιώντας τα πιο πρόσφατα δεδομένα από την προηγούμενη ανάπτυξη. Περισσότερες λεπτομέρειες βρίσκονται στην ερευνητική εργασία.

Σχήμα 4: Η πιστότητα του περιβάλλοντος εκ νέου δειγματοληψίας φαίνεται να είναι η μεγαλύτερη πηγή σφάλματος στις εκτιμήσεις μας, ειδικά για τα πιο ακραία σφάλματα.

Ο αυτοματοποιημένος έλεγχος εντόπισε τη μία νέα μη ευθυγράμμιση που εισήχθη σε αυτές τις αναπτύξεις. Στο παράθυρο ανάπτυξης που μελετήσαμε, η αυτοματοποιημένη ροή επεξεργασίας ελέγχου μας, βασισμένη σε προσομοιωμένες αναπτύξεις, θα είχε αναδείξει το «calculator hacking» πριν από την κυκλοφορία, το οποίο ήταν η μόνη νέα μη ευθυγράμμιση που εντοπίσαμε στην αναλυθείσα κίνηση ChatGPT. Το calculator hacking αποτελεί μορφή reward hacking που περιλαμβάνει χρήση ενός εργαλείου περιήγησης από το μοντέλο ως αριθμομηχανή, ενώ παρουσιάζει την ενέργεια ως αναζήτηση. Αυτό δεν σημαίνει ότι ο έλεγχος μεγάλης κλίμακας θα εντοπίζει κάθε νέα αποτυχία, αλλά δείχνει γιατί έχουν σημασία τα ρεαλιστικά περιβάλλοντα: μπορούν να προκαλέσουν συμπεριφορές που μπορεί να μην αναδείξουν ποτέ άμεσα πιο στενά σύνολα αξιολόγησης, ακόμη κι αν δεν υπήρχαν στην αρχική κίνηση που χρησιμοποιήθηκε για εκκίνηση της προσομοίωσης.

Μείωση της επίγνωσης αξιολόγησης

Ένα άλλο πλεονέκτημα της χρήσης περιβαλλόντων τύπου ανάπτυξης είναι ότι μπορεί να μειώσουν τις παραμορφώσεις που προκύπτουν όταν τα μοντέλα αναγνωρίζουν πως δοκιμάζονται. Σε προηγούμενη έρευνα, τόσο εμείς όσο και άλλοι(ανοίγει σε νέο παράθυρο) έχουμε διαπιστώσει ότι τα μοντέλα συχνά γνωρίζουν πότε υποβάλλονται σε δοκιμή. Για παράδειγμα, τα μοντέλα μπορεί να συλλογίζονται στην αλληλουχία σκέψεών τους σχετικά με το σε τι δοκιμάζονται, τι μπορεί να αρέσει σε έναν αξιολογητή και —αν συμπεριφέρονται άσχημα— αν θα «πιαστούν». Αυτό δημιουργεί πρόβλημα για τις αξιολογήσεις ευθυγράμμισης: αν ένα μοντέλο συμπεριφέρεται καλά μόνο επειδή πιστεύει ότι δοκιμάζεται, πώς αποκτούμε βεβαιότητα ότι θα συμπεριφέρεται με ασφάλεια μόλις μάθει πως έχει αναπτυχθεί;

Δείχνουμε ότι η Προσομοίωση ανάπτυξης μειώνει ουσιαστικά τα επίπεδα επίγνωσης αξιολόγησης που εμφανίζουν τα μοντέλα σε σχέση με παραδοσιακές αξιολογήσεις που δεν βασίζονται σε πραγματικά δεδομένα ανάπτυξης. Μετράμε την επίγνωση αξιολόγησης με τρεις τρόπους: ζητώντας από ένα μοντέλο να ταξινομήσει αν μια τροχιά προήλθε από παραγωγή ή από αξιολόγηση, παρακολουθώντας την αλληλουχία σκέψεων για ρητές δηλώσεις ότι αξιολογείται ως προς την ευθυγράμμιση, καθώς και για metagaming(ανοίγει σε νέο παράθυρο): οποιαδήποτε συλλογιστική σχετικά με την εποπτεία. Η προσομοιωμένη κίνηση ανάπτυξης ταίριαξε σε εξαιρετικό βαθμό με την πραγματική κίνηση ανάπτυξης και στα τρία μέτρα. Για παράδειγμα, το GPT‑5.2 χαρακτήρισε την πραγματική παραγωγική κίνηση ως παρόμοια με αξιολόγηση στο 5,4% των περιπτώσεων και την προσομοιωμένη κίνηση στο 5,1% των περιπτώσεων, ενώ οι παραδοσιακές αξιολογήσεις (όπως το SWE-Bench ή το MonorepoBench, που αποτελούνται κυρίως από συνθετικά παραδείγματα) ταξινομήθηκαν ως αξιολογήσεις σχεδόν στο 100% των περιπτώσεων.

Σχήμα 5. Σύγκριση επίγνωσης αξιολόγησης: η πραγματική παραγωγική κίνηση και η προσομοιωμένη κίνηση εμφανίζουν παρόμοια ποσοστά για ανίχνευση αξιολόγησης, επίγνωση αξιολόγησης λεκτικής ευθυγράμμισης και metagaming, ενώ τα παραδοσιακά σύνολα δεδομένων αξιολόγησης αναφέρουν πολύ υψηλότερα ποσοστά.

Προσομοίωση εργαλείων για τροχιές βάσει πράκτορα

Για να δοκιμάσουμε αν η μέθοδος μπορούσε να επεκταθεί πέρα από τις τυπικές λειτουργίες συνομιλίας, μελετήσαμε επίσης την προσομοίωση αναπτύξεων για δύσκολα περιβάλλοντα προγραμματισμού βάσει πράκτορα. Συγκεκριμένα, χρησιμοποιούμε 120.000 εσωτερικές τροχιές βάσει πράκτορα από εργαζομένους από το GPT‑5.4 για να προσομοιώσουμε την εσωτερική ανάπτυξη πρακτόρων προγραμματισμού βασισμένων στο GPT‑5.5. Αυτό εξυπηρετεί δύο σκοπούς: δείχνει πώς η προσομοίωση ανάπτυξης μπορεί επίσης να χρησιμοποιηθεί για αξιολόγηση κινδύνου σε εσωτερικές αναπτύξεις, και αποδεικνύει ότι είναι δυνατόν να επιτευχθεί υψηλή πιστότητα προσομοίωσης ακόμη και σε περιβάλλοντα πράκτορα μέσω προσεκτικής προσομοίωσης εργαλείων.

Παραπάνω συζητήσαμε ότι η πιστότητα προσομοίωσης αποτελεί μία από τις κύριες πηγές σφάλματος στην τρέχουσα ροή επεξεργασίας μας. Μία από τις προκλήσεις στο να γίνουν οι προσομοιώσεις ανάπτυξης ρεαλιστικές είναι πως απαιτεί από τα εργαλεία να ενεργούν με ρεαλιστικούς τρόπους, ακόμη και όταν χρειάζονται πρόσβαση ανάγνωσης/εγγραφής σε εξωτερικούς πόρους που αλλάζουν συνεχώς (π.χ. αναζητήσεις στον ιστό ή αλληλεπίδραση με τοπικά αρχεία).

Αυτό είναι ιδιαίτερα δύσκολο για περιβάλλοντα όπως οι αναπτύξεις βάσει πράκτορα: μια μόνο τροχιά πράκτορα μπορεί να εξαρτάται από εκατοντάδες κλήσεις εργαλείων, κατάσταση αποθετηρίου, αποκρίσεις δικτύου ή παροδικές αποτυχίες. Αυτό καθιστά την επαναδειγματοληψία με πραγματική πρόσβαση σε εργαλεία τόσο δύσκολη όσο και δυνητικά επικίνδυνη. Υπό αυτό το πρίσμα, αντί να εφαρμόζουμε κλήσεις εργαλείων σε ζωντανά συστήματα, τις προσομοιώνουμε με ένα άλλο LLM. Δείχνουμε ότι η παροχή επιπλέον δυνατοτήτων σε αυτό το LLM είναι απαραίτητη για τον ρεαλισμό και επομένως για την ποιότητα της εκτίμησης.

Παρέχουμε στο μοντέλο προσομοιωτή εργαλείων την αρχική κυκλοφορία του τελικού γύρου, το αποθετήριο από τον χρόνο της συνομιλίας, μια βάση δεδομένων ζευγών κλήσεων/αποκρίσεων εργαλείων και συνδέσμους μόνο για ανάγνωση. Σε μια δοκιμή όπου ένας διακριτής προσπάθησε να ξεχωρίσει προσομοιωμένες από πραγματικές κυκλοφορίες, ο ρεαλισμός βελτιώθηκε από ποσοστό νίκης 11,6% σε 49,5%, κοντά στο επίπεδο τύχης 50%.

Σχήμα 6: Μπορεί κανείς να καταστήσει τον ρεαλισμό εκ νέου δειγματοληψίας σχεδόν αδιαχώριστο από την πραγματική δειγματοληψία, ακόμη και σε περιβάλλοντα με έντονη χρήση εργαλείων, όταν προσομοιώνει κλήσεις εργαλείων με αυξημένες δυνατότητες.

Ως πρόσθετη ένδειξη πιστότητας προσομοίωσης, όταν προσομοιώνουμε κίνηση συλλογισμού του GPT‑5.4 Codex με GPT‑5.4, τα ποσοστά μη ευθυγράμμισης είναι, λίγο-πολύ, εντός των περιθωρίων σφάλματος. Αντίθετα, στις δοκιμές μας πριν από την ανάπτυξη, το GPT‑5.5 ήταν πιο μη ευθυγραμμισμένο στις περισσότερες κατηγορίες.

Σχήμα 7: Με προσομοίωση εργαλείων, τα ποσοστά συμπεριφοράς για συνομιλίες που δειγματοληπτήθηκαν εκ νέου με GPT‑5.4 και η πραγματική παραγωγική κίνηση GPT‑5.4 είναι αρκετά παρόμοια – υποδεικνύοντας υψηλή πιστότητα περιβάλλοντος εκ νέου δειγματοληψίας. Δείτε την κάρτα συστήματος GPT‑5.5(ανοίγει σε νέο παράθυρο) για περισσότερο πλαίσιο σχετικά με τις κατηγορίες.

Αυτά τα αποτελέσματα υποδηλώνουν ότι η Προσομοίωση ανάπτυξης μπορεί να επεκταθεί σε σύνθετα περιβάλλοντα πρακτόρων όταν το περιβάλλον εργαλείων που την περιβάλλει προσομοιώνεται με επαρκή πιστότητα.

WildChat και εξωτερικός έλεγχος

Ένα φυσικό ερώτημα είναι αν οι εξωτερικοί ελεγκτές μπορούν να αποκομίσουν ορισμένα από τα ίδια οφέλη χωρίς πρόσβαση σε ιδιωτική παραγωγική κίνηση. Το δοκιμάσαμε αυτό με 100.000 συνομιλίες WildChat που χρησιμοποιήθηκαν ως προθέματα. Το WildChat ήταν λιγότερο ακριβές από τα πρόσφατα παραγωγικά δεδομένα της OpenAI, ωστόσο παρέμεινε πληροφοριακό: τα πρόσφατα παραγωγικά δεδομένα είχαν χαμηλότερο μέσο πολλαπλασιαστικό σφάλμα από το WildChat (1,75× έναντι 2,44×), ενώ το WildChat συχνά παρέμενε εντός περίπου 3× των ποσοστών παραγωγής και εντόπιζε το καλύτερο μοντέλο σε ποσοστά πάνω από την τύχη. Βλέπουμε τις αξιολογήσεις τύπου WildChat ως ένα πολλά υποσχόμενο συμπλήρωμα στην Προσομοίωση ανάπτυξης που εκτελείται από προγραμματιστές. Δείτε αυτήν τη συνοδευτική ανάρτηση ιστολογίου για την Ευθυγράμμιση(ανοίγει σε νέο παράθυρο) για περισσότερα αποτελέσματα σχετικά με αυτό το σημείο.

Περιορισμοί

Η Προσομοίωση ανάπτυξης είναι συμπλήρωμα, όχι αντικατάσταση, των ανταγωνιστικών αξιολογήσεων, του αντιπαραθετικού έλεγχου ασφαλείας (red teaming) και της στοχευμένης ανάλυσης κινδύνων ουράς. Η ανίχνευση ορισμένων ανεπιθύμητων συμπεριφορών μοντέλων βασίζεται στην παρακολουθησιμότητα της αλληλουχίας σκέψεων: αν τα μελλοντικά μοντέλα συλλογίζονται λιγότερο ευανάγνωστα, παραλείπουν βασικά βήματα ή μαθαίνουν να αποκρύπτουν την πρόθεση, ενδέχεται να μην μπορούμε να ανιχνεύσουμε αυτές τις μορφές ανεπιθύμητης συμπεριφοράς. Επιπλέον, επειδή τα παραγωγικά δεδομένα είναι ιδιωτικά, οι προγραμματιστές έχουν επί του παρόντος ισχυρότερη πρόσβαση σε αντιπροσωπευτικά περιβάλλοντα από τους εξωτερικούς ελεγκτές. Καλύτερα δημόσια σύνολα δεδομένων θα μπορούσαν να περιορίσουν αυτό το χάσμα.

Η Προσομοίωση ανάπτυξης είναι πιο χρήσιμη για συμπεριφορές που εμφανίζονται αρκετά συχνά ώστε να παρουσιαστούν σε δειγματοληπτούμενα προθέματα. Μια αποτυχία που εμφανίζεται μία φορά σε δέκα εκατομμύρια συνομιλίες είναι απίθανο να ανακαλυφθεί σε μια εκτέλεση ενός εκατομμυρίου δειγμάτων, επομένως οι ανταγωνιστικές αξιολογήσεις, ο αντιπαραθετικός έλεγχος ασφαλείας (red teaming) και η στοχευμένη ανάλυση κινδύνων ουράς παραμένουν απαραίτητα. Επί του παρόντος εστιάζουμε στην προσομοίωση μίας μόνο απόκρισης βοηθού, καθώς σε προκαταρκτικά πειράματα δεν βρήκαμε ουσιαστικές βελτιώσεις στις εκτιμήσεις μας προσομοιώνοντας πολλαπλούς γύρους. Αυτό μπορεί να αποτελεί σημαντικό τομέα για τη βελτίωση της πιστότητας προσομοίωσης στο μέλλον.

Η μέθοδος εξαρτάται επίσης από την κατανομή προθεμάτων—το μείγμα συνομιλιών πουδειγματοληπτούνται εκ νέου. Η ιστορική κίνηση μπορεί να μην ταιριάζει με τον τρόπο που αλληλεπιδρούν οι χρήστες με ένα πιο ικανό μοντέλο έπειτα από μια σημαντική αλλαγή προϊόντος, νέα κυκλοφορία εργαλείου, παγκόσμιο γεγονός ή εποχική μετατόπιση. Η ανάλυση στο πλήρες έγγραφο υποδηλώνει ότι αυτό το ζήτημα μπορεί να μετριαστεί χρησιμοποιώντας τα πιο πρόσφατα διαθέσιμα δεδομένα.

Συμπέρασμα

Η προσομοίωση ανάπτυξης είναι μια νέα προσέγγιση στην αξιολόγηση κινδύνου πριν από την ανάπτυξη, η οποία βοηθά εργαστήρια αιχμής και αξιολογητές να προβλέψουν πώς μπορεί να συμπεριφερθούν τα γλωσσικά μοντέλα στον πραγματικό κόσμο και να κατανοήσουν τους κινδύνους που θέτουν πριν από την ανάπτυξη. Συμπληρώνει τις υπάρχουσες αξιολογήσεις ασφάλειας, τον αντιπαραθετικό έλεγχο ασφαλείας (red teaming) και τη στοχευμένη ανάλυση, προσθέτοντας ένα πιο παραγωγικό επίπεδο πρόβλεψης που μπορεί να βελτιώσει τις εκτιμήσεις της συμπεριφοράς κατά την ανάπτυξη, να μειώσει τα αποτελέσματα επίγνωσης αξιολόγησης και να κάνει τις προβλέψεις πριν από την ανάπτυξη ελέγξιμες μετά την κυκλοφορία. Όταν χρησιμοποιείται μαζί με παραδοσιακές αξιολογήσεις, η Προσομοίωση ανάπτυξης μπορεί να βοηθήσει να γίνει η αξιολόγηση κινδύνου μοντέλων πιο ρεαλιστική, πιο ποσοτική και πιο χρήσιμη για αποφάσεις ανάπτυξης.

Συντάκτης

OpenAI