Da dove sono arrivati i goblin
A partire da GPT‑5.1, i nostri modelli hanno iniziato a sviluppare una strana abitudine: menzionavano sempre più spesso goblin, gremlin e altre creature nelle loro metafore. A differenza dei bug del modello che si manifestano con un crollo nelle eval o un picco nelle metriche di addestramento e che possono essere ricondotti a un cambiamento specifico, questo si è insinuato in modo sottile. Un singolo “piccolo goblin” in una risposta poteva essere innocuo, persino affascinante. Nell’arco delle generazioni di modelli, però, l’abitudine è diventata difficile da ignorare: i goblin continuavano a moltiplicarsi e dovevamo capire da dove venissero.

Nei primi test, GPT‑5.5 in Codex ha mostrato una strana predilezione per le metafore con i “goblin”.
La risposta breve è che il comportamento del modello è plasmato da molti piccoli incentivi. In questo caso, uno di questi incentivi derivava dall'addestramento del modello per la funzionalità di personalizzazione della personalità(si apre in una nuova finestra), in particolare per la personalità Nerd. Senza rendercene conto, abbiamo assegnato ricompense particolarmente elevate alle metafore con creature. Da lì, i goblin si diffusero.

All’inizio i goblin facevano sorridere, ma il numero crescente di segnalazioni da parte dei dipendenti ha iniziato a destare preoccupazione.

Un’interessante interazione del nostro Chief Scientist con GPT‑5.5.
La prima volta in cui abbiamo osservato chiaramente lo schema è stata a novembre, dopo il lancio di GPT‑5.1, anche se potrebbe essere iniziato prima(si apre in una nuova finestra). Gli utenti si sono lamentati del fatto che il modello risultasse stranamente troppo confidenziale nelle conversazioni, il che ha spinto a indagare su specifici tic verbali. Un ricercatore della sicurezza aveva notato alcuni “goblin” e “gremlin” e ha chiesto che venissero inclusi nel controllo. Quando abbiamo controllato, l’uso di “goblin” in ChatGPT era aumentato del 175% dopo il lancio di GPT‑5.1, mentre quello di “gremlin” era aumentato del 52%.
Una piccola particolarità lessicale misurabile in GPT‑5.1.
All’epoca, la prevalenza dei goblin non sembrava particolarmente allarmante. Pochi mesi dopo, però, i goblin sono tornati a perseguitarci in una forma molto più specifica e riproducibile.
Con GPT‑5.4, noi e i nostri utenti(si apre in una nuova finestra) abbiamo notato un aumento ancora più marcato dei riferimenti a queste creature. Questo ha innescato un’altra analisi interna e fatto emergere il primo collegamento con la causa principale: il linguaggio legato alle creature era particolarmente comune nel traffico di produzione degli utenti che avevano selezionato la personalità Nerd. “Nerd” utilizzava il seguente prompt di sistema, che spiegava in parte questa eccentricità:
Sei un mentore IA nerd, giocoso e saggio per un essere umano. Sei appassionatamente entusiasta di promuovere la verità, la conoscenza, la filosofia, il metodo scientifico e il pensiero critico. [...] Devi smontare la pretenziosità attraverso un uso giocoso del linguaggio. Il mondo è complesso e strano, e la sua stranezza va riconosciuta, analizzata e apprezzata. Affronta temi complessi senza cadere nella trappola dell’eccessiva seriosità. [...]
Se il comportamento fosse stato semplicemente una tendenza diffusa su internet, ci saremmo aspettati una diffusione più uniforme. Invece, era concentrato nella parte del sistema esplicitamente ottimizzata per uno stile giocoso e nerd. La personalità Nerd rappresentava solo il 2,5% di tutte le risposte di ChatGPT, ma il 66,7% di tutte le menzioni di “goblin”.
Il comportamento era fortemente concentrato nella personalità Nerd.
Poiché la prevalenza di “goblin” sembrava aumentare nel corso delle versioni del nostro modello, sospettavamo che qualcosa nel nostro addestramento al rispetto delle istruzioni della personalità stesse amplificando questo fenomeno.
Codex ci ha aiutato a confrontare gli output del modello generati durante l’addestramento RL contenenti goblin o gremlin con quelli della stessa attività che non li contenevano. Un segnale di ricompensa si è distinto subito: quello originariamente progettato per incentivare la personalità Nerd era costantemente più favorevole agli output contenenti parole legate alle creature. Considerando tutti i dataset dell’audit, il reward della personalità Nerd ha mostrato una chiara tendenza ad assegnare punteggi più alti agli output relativi allo stesso problema contenenti “goblin” o “gremlin” rispetto a quelli che non li contenevano, con un uplift positivo nel 76,2% dei dataset.
Questo spiegava perché il comportamento fosse rafforzato dal prompt della personalità Nerd, ma non perché comparisse anche senza quel prompt. Per verificare se lo stile si stesse trasferendo, abbiamo monitorato i tassi di menzione durante l’addestramento sia con sia senza il prompt Nerd.
Man mano che le menzioni di goblin e gremlin aumentavano con la personalità Nerd, aumentavano in proporzione quasi identica anche nei campioni senza di essa. Nel complesso, le prove suggeriscono che questo comportamento più ampio sia emerso tramite trasferimento dall’addestramento della personalità Nerd.
Le ricompense venivano applicate solo nella condizione Nerd, ma l’apprendimento per rinforzo non garantisce che i comportamenti appresi rimangano nettamente circoscritti alla condizione che li ha prodotti. Una volta che un tic stilistico viene ricompensato, l’addestramento successivo può diffonderlo o rafforzarlo altrove, soprattutto se quegli output vengono riutilizzati nel fine-tuning supervisionato o nei dati di preferenza.
Questo crea un ciclo di feedback:
- Lo stile giocoso viene ricompensato
- Alcuni esempi ricompensati contengono un tic lessicale distintivo.
- Il tic compare più spesso nei rollout.
- I rollout generati dal modello vengono usati per il fine-tuning supervisionato (SFT).
- Il modello acquisisce ancora più familiarità nel produrre il tic.
Una ricerca tra i dati di GPT‑5.5 nei dati SFT ha individuato numerosi datapoint contenenti “goblin” e “gremlin”. Un’ulteriore indagine ha rivelato un’intera famiglia di altre creature insolite: procioni, troll, orchi e piccioni sono stati identificati come altre parole-tic, mentre la maggior parte degli usi di “frog” si è rivelata legittima.
Media settimanale della prevalenza in produzione di goblin e gremlin. Il calo di GPT‑5.4 Thinking è stato il risultato del ritiro della personalità Nerd a metà marzo. GPT‑5.5 non è mai stato lanciato con la personalità Nerd e ha mostrato un ulteriore aumento rispetto a GPT‑5.4, anche senza Nerd.
Abbiamo ritirato la personalità Nerd a marzo, dopo il lancio di GPT‑5.4. Durante l’addestramento, abbiamo rimosso il segnale di ricompensa associato ai goblin e filtrato i dati di addestramento contenenti parole legate alle creature, rendendo meno probabile che i goblin comparissero troppo spesso o in contesti inappropriati. Purtroppo, l’addestramento di GPT‑5.5 è iniziato prima che trovassimo la causa principale dei goblin. Quando abbiamo iniziato a testare GPT‑5.5 in Codex, i dipendenti di OpenAI hanno subito notato la strana affinità per i goblin e abbiamo aggiunto un’ istruzione nel prompt per sviluppatori(si apre in una nuova finestra) per mitigarla. Codex è, dopotutto, piuttosto nerd.
Se vuoi lasciare le creature libere di scorrazzare in Codex, puoi eseguire questo comando per avviare Codex senza le istruzioni che limitano i goblin:
A seconda di chi lo giudica, i goblin sono una deliziosa o fastidiosa eccentricità del modello. Ma rappresentano anche un esempio efficace di come i segnali di ricompensa possano plasmare il comportamento del modello in modi inattesi e di come i modelli possano imparare a generalizzare le ricompense da determinate situazioni ad altre non correlate. Dedicare tempo a capire perché un modello si comporti in modo insolito e sviluppare strumenti per indagare rapidamente questi pattern è una capacità importante per il nostro team di ricerca. Questa indagine ha portato a nuovi strumenti che consentono al team di ricerca di analizzare il comportamento del modello e risolvere i problemi comportamentali alla radice.


