Μετάβαση στο κύριο περιεχόμενο
OpenAI

29 Απριλίου 2026

Δημοσίευση

Πώς προέκυψαν τα γκόμπλιν

Φόρτωση…

Ξεκινώντας με το GPT‑5.1, τα μοντέλα μας άρχισαν να αναπτύσσουν μια παράξενη συνήθεια: ανέφεραν όλο και περισσότερο γκόμπλιν, γκρέμλιν και άλλα πλάσματα στις μεταφορές τους. Σε αντίθεση με σφάλματα μοντέλων που εμφανίζονται μέσα από μια κατακόρυφη πτώση στις αξιολογήσεις ή μια απότομη αύξηση σε κάποια μετρική εκπαίδευσης και παραπέμπουν σε μια συγκεκριμένη αλλαγή, αυτό πέρασε ύπουλα και σταδιακά. Ένα μόνο «μικρό γκόμπλιν» σε μια απάντηση θα μπορούσε να είναι ακίνδυνο, ακόμη και χαριτωμένο. Ωστόσο, στις γενιές μοντέλων, η συνήθεια έγινε αδύνατο να αγνοηθεί: τα γκόμπλιν συνέχιζαν να πολλαπλασιάζονται και έπρεπε να καταλάβουμε από πού προέκυψαν.

«»

Στις αρχικές δοκιμές, το GPT‑5.5 στο Codex έδειξε μια παράξενη προτίμηση για μεταφορές με γκόμπλιν.

Η σύντομη απάντηση είναι ότι η συμπεριφορά του μοντέλου διαμορφώνεται από πολλά μικρά κίνητρα. Σε αυτή την περίπτωση, ένα από αυτά τα κίνητρα προήλθε από την εκπαίδευση του μοντέλου για τη λειτουργία προσαρμογής προσωπικότητας(ανοίγει σε νέο παράθυρο), και ειδικότερα για την προσωπικότητα Εξυπνοπούλι. Χωρίς να το γνωρίζουμε, δώσαμε ιδιαίτερα υψηλές επιβραβεύσεις για μεταφορές με πλάσματα. Από εκεί και μετά, τα γκόμπλιν εξαπλώθηκαν.

«»

Τα γκόμπλιν ήταν αστεία στην αρχή, αλλά ο αυξανόμενος αριθμός αναφορών από εργαζομένους έγινε ανησυχητικός.

«»

Μια ενδιαφέρουσα αλληλεπίδραση που είχε ο Επικεφαλής Επιστήμονάς μας με το GPT‑5.5.

Τα πρώτα σημάδια πλασμάτων

Η πρώτη φορά που είδαμε καθαρά το μοτίβο ήταν τον Νοέμβριο, μετά την κυκλοφορία του GPT‑5.1, αν και μπορεί να είχε ξεκινήσει νωρίτερα(ανοίγει σε νέο παράθυρο). Οι χρήστες παραπονέθηκαν ότι το μοντέλο ήταν παραδόξως υπερβολικά οικείο στη συζήτηση, κάτι που οδήγησε σε έρευνα για συγκεκριμένα λεκτικά τικ. Ένας ερευνητής ασφάλειας είχε συναντήσει μερικά «γκόμπλιν» και «γκρέμλιν» και ζήτησε να συμπεριληφθούν στον έλεγχο. Όταν το εξετάσαμε, η χρήση του «γκόμπλιν» στο ChatGPT είχε αυξηθεί κατά 175% μετά την κυκλοφορία του GPT‑5.1, ενώ η χρήση του «γκρέμλιν» είχε αυξηθεί κατά 52%.

Μια μετρήσιμη μικρή λεξική ιδιορρυθμία στο GPT‑5.1.

Τότε, η επικράτηση των γκόμπλιν δεν φαινόταν ιδιαίτερα ανησυχητική. Λίγους μήνες αργότερα, τα γκόμπλιν επέστρεψαν για να μας στοιχειώσουν σε μια πολύ πιο συγκεκριμένη και αναπαραγώγιμη μορφή.

Λύνοντας το μυστήριο των γκόμπλιν

Με το GPT‑5.4, εμείς και οι χρήστες μας(ανοίγει σε νέο παράθυρο) παρατηρήσαμε μια ακόμη μεγαλύτερη αύξηση στις αναφορές σε αυτά τα πλάσματα. Αυτό προκάλεσε μια ακόμη εσωτερική ανάλυση και έφερε στην επιφάνεια την πρώτη σύνδεση με τη βασική αιτία: η γλώσσα με πλάσματα ήταν ιδιαίτερα συχνή στην κίνηση παραγωγής από χρήστες που είχαν επιλέξει την προσωπικότητα «Εξυπνοπούλι». Η προσωπικότητα «Εξυπνοπούλι» χρησιμοποιούσε την ακόλουθη προτροπή συστήματος, η οποία εξηγούσε εν μέρει αυτή την ιδιορρυθμία:

You are an unapologetically nerdy, playful and wise AI mentor to a human. You are passionately enthusiastic about promoting truth, knowledge, philosophy, the scientific method, and critical thinking. [...] You must undercut pretension through playful use of language. The world is complex and strange, and its strangeness must be acknowledged, analyzed, and enjoyed. Tackle weighty subjects without falling into the trap of self-seriousness. [...]

Αν αυτή η συμπεριφορά ήταν απλώς μια ευρύτερη τάση του διαδικτύου, θα περιμέναμε να εξαπλωθεί πιο ομοιόμορφα. Αντί γι’ αυτό, ήταν συγκεντρωμένη στο τμήμα του συστήματος που είχε βελτιστοποιηθεί ρητά για ένα παιχνιδιάρικο ύφος που έχει συνήθως ένα εξυπνοπούλι. Η προσωπικότητα «Εξυπνοπούλι» αντιστοιχούσε μόλις στο 2,5% όλων των απαντήσεων του ChatGPT, αλλά στο 66,7% όλων των αναφορών σε «γκόμπλιν» στις απαντήσεις του ChatGPT.

Η συμπεριφορά ήταν ιδιαίτερα συγκεντρωμένη στην προσωπικότητα «Εξυπνοπούλι».

Επειδή η επικράτηση του «γκόμπλιν» φαινόταν να αυξάνεται στις κυκλοφορίες των μοντέλων μας, υποψιαστήκαμε ότι κάτι στην εκπαίδευσή μας για τήρηση των οδηγιών προσωπικότητας ενίσχυε αυτό το φαινόμενο.

Το Codex μάς βοήθησε να συγκρίνουμε αποτελέσματα μοντέλων που δημιουργήθηκαν κατά την εκπαίδευση RL και περιείχαν γκόμπλιν ή γκρέμλιν με αποτελέσματα από την ίδια εργασία που δεν περιείχαν. Μια επισήμανση επιβράβευσης ξεχώρισε αμέσως: εκείνη που είχε σχεδιαστεί αρχικά για να ενθαρρύνει την προσωπικότητα Εξυπνοπούλι ήταν σταθερά πιο ευνοϊκή προς τα αποτελέσματα με λέξεις για πλάσματα. Σε όλα τα σύνολα δεδομένων του ελέγχου, η επιβράβευση της προσωπικότητας Εξυπνοπούλι έδειξε σαφή τάση να βαθμολογεί αποτελέσματα στο ίδιο πρόβλημα με «γκόμπλιν» ή «γκρέμλιν» υψηλότερα από αποτελέσματα χωρίς αυτά, με θετική αύξηση στο 76,2% των συνόλων δεδομένων.

Αυτό εξηγούσε γιατί η συμπεριφορά ενισχυόταν με την προτροπή προσωπικότητας «Εξυπνοπούλι», αλλά όχι γιατί εμφανιζόταν και χωρίς αυτήν την προτροπή. Για να ελέγξουμε αν το ύφος μεταφερόταν, παρακολουθήσαμε τα ποσοστά αναφορών κατά την εκπαίδευση τόσο με όσο και χωρίς την προτροπή «Εξυπνοπούλι».

Καθώς οι αναφορές σε γκόμπλιν και γκρέμλιν αυξάνονταν υπό την προσωπικότητα Εξυπνοπούλι, αυξάνονταν σχεδόν κατά την ίδια σχετική αναλογία και σε δείγματα χωρίς αυτήν. Συνολικά, τα στοιχεία υποδηλώνουν ότι η ευρύτερη συμπεριφορά προέκυψε μέσω μεταφοράς από την εκπαίδευση της προσωπικότητας Εξυπνοπούλι.

Οι επιβραβεύσεις εφαρμόζονταν μόνο στη συνθήκη «Εξυπνοπούλι», αλλά η ενισχυτική μάθηση δεν εγγυάται ότι οι συμπεριφορές που μαθαίνονται παραμένουν τακτοποιημένα περιορισμένες στη συνθήκη που τις παρήγαγε. Μόλις ένα στιλιστικό τικ επιβραβευτεί, η μεταγενέστερη εκπαίδευση μπορεί να το διαδώσει ή να το ενισχύσει και αλλού, ειδικά αν αυτά τα αποτελέσματα επαναχρησιμοποιηθούν σε προσαρμογή με επίβλεψη (SFT) ή σε δεδομένα προτιμήσεων.

Αυτό δημιουργεί έναν βρόχο ανατροφοδότησης:

  1. Το παιχνιδιάρικο ύφος επιβραβεύεται
  2. Ορισμένα επιβραβευμένα παραδείγματα περιέχουν ένα χαρακτηριστικό λεξικό τικ.
  3. Το τικ εμφανίζεται συχνότερα στις δοκιμαστικές εκτελέσεις του μοντέλου.
  4. Οι δοκιμαστικές εκτελέσεις που δημιουργούνται από το μοντέλο χρησιμοποιούνται για προσαρμογή με επίβλεψη (SFT).
  5. Το μοντέλο νιώθει ακόμη πιο άνετα να παράγει αυτό το τικ.

Μια αναζήτηση στα δεδομένα SFT του GPT‑5.5 βρήκε πολλά σημεία δεδομένων που περιείχαν «γκόμπλιν» και «γκρέμλιν». Περαιτέρω διερεύνηση αποκάλυψε μια ολόκληρη οικογένεια από άλλα παράξενα πλάσματα: τα ρακούν, τρολ, τέρατα και περιστέρια αναγνωρίστηκαν ως άλλες λέξεις-τικ, ενώ οι περισσότερες χρήσεις της λέξης «βάτραχος» αποδείχθηκαν ταιριαστές.

Μέσος όρος μίας εβδομάδας της επικράτησης των γκόμπλιν και γκρέμλιν στην παραγωγή. Η πτώση στο GPT‑5.4 Thinking ήταν αποτέλεσμα της απόσυρσης της προσωπικότητας «Εξυπνοπούλι» στα μέσα Μαρτίου. Το GPT‑5.5 δεν κυκλοφόρησε ποτέ με την προσωπικότητα «Εξυπνοπούλι» και έδειξε άλλη μία αύξηση σε σχέση με το GPT‑5.4 (ακόμη και χωρίς το «Εξυπνοπούλι»).

Το τέλος των γκόμπλιν

Αποσύραμε την προσωπικότητα «Εξυπνοπούλι» τον Μάρτιο μετά την κυκλοφορία του GPT‑5.4. Στην εκπαίδευση, αφαιρέσαμε την επισήμανση επιβράβευσης που ευνοούσε τα γκόμπλιν και φιλτράραμε δεδομένα εκπαίδευσης που περιείχαν λέξεις για πλάσματα, κάνοντας έτσι τα γκόμπλιν λιγότερο πιθανό να εμφανίζονται υπερβολικά ή σε ακατάλληλα συμφραζόμενα. Δυστυχώς, η εκπαίδευση του GPT‑5.5 είχε ξεκινήσει πριν εντοπίσουμε τη βασική αιτία των γκόμπλιν. Όταν αρχίσαμε να δοκιμάζουμε το GPT‑5.5 στο Codex, οι εργαζόμενοι της OpenAI παρατήρησαν αμέσως την παράξενη προτίμηση για μεταφορές με γκόμπλιν και προσθέσαμε μια οδηγία προτροπής προγραμματιστή(ανοίγει σε νέο παράθυρο) για μετριασμό. Το Codex είναι, άλλωστε, αρκετά «εξυπνοπούλι».

Αν θέλετε να αφήσετε τα πλάσματα να κυκλοφορούν ελεύθερα στο Codex, μπορείτε να εκτελέσετε αυτή την εντολή για να εκκινήσετε το Codex με αφαιρεμένες τις οδηγίες καταστολής γκόμπλιν:

Απλό κείμενο

1
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3
~/.codex/models_cache.json | \
4
grep -vi 'goblins' > "$instructions" && \
5
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Γιατί έχει σημασία

Ανάλογα με το ποιον θα ρωτήσετε, τα γκόμπλιν είναι μια απολαυστική ή εκνευριστική ιδιορρυθμία του μοντέλου. Αλλά είναι επίσης ένα ισχυρό παράδειγμα του πώς οι επισημάνσεις επιβράβευσης μπορούν να διαμορφώνουν τη συμπεριφορά του μοντέλου με απρόσμενους τρόπους και του πώς τα μοντέλα μπορούν να μάθουν να γενικεύουν επιβραβεύσεις σε ορισμένες καταστάσεις προς άσχετες άλλες. Το να αφιερώνουμε χρόνο για να κατανοούμε γιατί ένα μοντέλο συμπεριφέρεται με παράξενο τρόπο, και να αναπτύσσουμε τρόπους για να διερευνούμε γρήγορα αυτά τα μοτίβα, είναι σημαντική ικανότητα για την ερευνητική μας ομάδα. Αυτή η διερεύνηση οδήγησε σε νέα εργαλεία για την ερευνητική ομάδα, ώστε να ελέγχει τη συμπεριφορά των μοντέλων και να διορθώνει προβλήματα συμπεριφοράς στη ρίζα τους.

Συντάκτης

OpenAI