Hvor goblinene kom fra
Fra og med GPT‑5.1 begynte modellene våre å utvikle en merkelig vane: De nevnte stadig oftere gobliner, gremliner og andre skapninger i metaforene sine. I motsetning til modellfeil som viser seg gjennom en kraftig eval-nedgang eller en treningsmåling som skyter i været og peker tilbake på en bestemt endring, snek denne seg inn subtilt. En enkelt «liten goblin» i et svar kunne være ufarlig, til og med sjarmerende. På tvers av modellgenerasjoner ble vanen likevel vanskelig å overse: Goblinene bare fortsatte å bli flere, og vi måtte finne ut hvor de kom fra.

I tidlig testing viste GPT‑5.5 i Codex en merkelig tilbøyelighet til goblin-metaforer.
Det korte svaret er at modellens atferd formes av mange små insentiver. I dette tilfellet kom ett av disse insentivene fra treningen av modellen for funksjonen for personlighetstilpasning(åpnes i et nytt vindu), særlig Nerdy-personligheten. Uten å vite det ga vi særlig høye belønninger for metaforer med skapninger. Derfra spredte goblinene seg.

Goblinene var morsomme i starten, men det økende antallet rapporter fra ansatte ble bekymringsfullt.

En interessant interaksjon vår sjefsforsker hadde med GPT‑5.5.
Første gang vi tydelig så mønsteret, var i november, etter lanseringen av GPT‑5.1, selv om det kan ha startet tidligere(åpnes i et nytt vindu). Brukere klaget over at modellen var påfallende familiær i samtaler, noe som førte til en undersøkelse av spesifikke språklige tics. En sikkerhetsforsker hadde opplevd noen «gobliner» og «gremliner» og ba om at de ble tatt med i kontrollen. Da vi undersøkte det, hadde bruken av «goblin» i ChatGPT økt med 175 % etter lanseringen av GPT‑5.1, mens «gremlin» hadde økt med 52 %.
Et målbart lite leksikalsk særtrekk i GPT‑5.1.
På det tidspunktet så ikke forekomsten av gobliner spesielt alarmerende ut. Noen måneder senere kom goblinene tilbake for å hjemsøke oss i en langt mer spesifikk og reproduserbar form.
Med GPT‑5.4 la vi og brukerne våre(åpnes i et nytt vindu) merke til en enda større økning i referanser til disse skapningene. Det utløste en ny intern analyse og avdekket den første forbindelsen til rotårsaken: språk om skapninger var spesielt vanlig i produksjonstrafikk fra brukere som hadde valgt personligheten «Nerdy». «Nerdy» brukte følgende system prompt, som delvis forklarte særegenheten:
Du er en uhemmet nerdete, leken og klok AI-mentor for et menneske. Du er brennende engasjert i å fremme sannhet, kunnskap, filosofi, den vitenskapelige metoden og kritisk tenkning. [...] Du må punktere jåleri gjennom leken språkbruk. Verden er kompleks og underlig, og det underlige ved den må erkjennes, analyseres og nytes. Ta opp tunge temaer uten å gå i fellen og bli selvhøytidelig. [...]
Hvis atferden bare var en bred internettrend, ville vi forventet at den spredte seg jevnere. I stedet var den samlet i den delen av systemet som eksplisitt var optimalisert for en leken, nerdete stil. Nerdy sto for bare 2,5 % av alle ChatGPT‑svar, men 66,7 % av alle omtaler av «goblin» i ChatGPT‑svar.
Atferden var sterkt konsentrert i personligheten «Nerdy».
Fordi forekomsten av gobliner så ut til å øke gjennom modellutgivelsene våre, mistenkte vi at noe i treningen vår for å følge personlighetinstruksjoner forsterket dette.
Codex hjalp oss med å sammenligne modell-utdata generert under RL-trening som inneholdt goblin eller gremlin, med utdata fra den samme oppgaven som ikke inneholdt disse ordene. Ett belønningssignal skilte seg umiddelbart ut: det som opprinnelig var utformet for å oppmuntre Nerdy-personligheten, var konsekvent mer gunstig for utdataene med skapningsord. På tvers av alle datasettene i revisjonen viste belønningen for Nerdy-personligheten en klar tendens til å gi utdata for det samme problemet med «goblin» eller «gremlin» høyere poengsum enn utdata uten, med en positiv økning i 76,2 % av datasettene.
Det forklarte hvorfor atferden ble forsterket med Nerdy-personlighetsprompten, men ikke hvorfor den også dukket opp uten denne prompten. For å teste om stilen ble overført, sporet vi omtaler gjennom treningen både med og uten Nerdy-prompten.
Etter hvert som omtaler av gobliner og gremliner økte under Nerdy-personligheten, økte de med nesten samme relative andel i utvalg uten den. Samlet tyder bevisene på at den bredere atferden oppsto gjennom overføring fra trening på Nerdy-personligheten.
Belønningene ble bare brukt i Nerdy-betingelsen, men forsterkende læring garanterer ikke at innlært atferd holder seg pent avgrenset til betingelsen som skapte den. Når et stiltrekk først belønnes, kan senere trening spre eller forsterke det andre steder, særlig hvis slike utdata gjenbrukes i overvåket finjustering eller preferansedata.
Det skaper en tilbakemeldingssløyfe:
- Leken stil belønnes
- Noen belønnede eksempler inneholder et særpreget leksikalsk tic.
- Tic-en dukker oftere opp i rollouts.
- Modellgenererte rollouts brukes til overvåket finjustering (SFT).
- Modellen blir enda mer komfortabel med å produsere tic-en.
I et søk gjennom GPT‑5.5s SFT-data ble det funnet mange datapunkter som inneholdt «goblin» og «gremlin». Videre undersøkelser avdekket en hel familie av andre rare skapninger: vaskebjørner, troll, uhyrer og duer ble identifisert som andre tic-ord, mens de fleste bruksområdene av frosk viste seg å være legitime.
Gjennomsnittlig forekomst av gobliner og gremliner i produksjon over én uke. Nedgangen i GPT‑5.4 Thinking var et resultat av at «Nerdy»-personligheten ble avviklet i midten av mars. GPT‑5.5 ble aldri lansert med «Nerdy»-personligheten og viste nok en økning sammenlignet med GPT‑5.4 (selv uten «Nerdy»).
Vi avviklet «Nerdy»-personligheten i mars etter lanseringen av GPT‑5.4. Under treningen fjernet vi det goblin-affine belønningssignal og filtrerte treningsdata som inneholdt skapningsord, noe som gjorde det mindre sannsynlig at gobliner dukket opp for ofte eller i upassende kontekster. Dessverre begynte GPT‑5.5 treningen før vi fant rotårsaken til goblinene. Da vi begynte å teste GPT‑5.5 i Codex, la OpenAI-ansatte umiddelbart merke til den merkelige forkjærligheten for gobliner, og vi la til en instruksjon for developer-prompt(åpnes i et nytt vindu) for å begrense dette. Codex er tross alt ganske nerdete.
Hvis du vil slippe skapningene løs i Codex, kan du kjøre denne kommandoen for å starte Codex med instruksjonene som undertrykker gobliner fjernet:
Alt etter hvem du spør, er goblinene et herlig eller irriterende særtrekk ved modellen. Men de er også et kraftig eksempel på hvordan belønningssignaler kan forme modellatferd på uventede måter, og hvordan modeller kan lære å generalisere belønninger i visse situasjoner til ubeslektede situasjoner. Å bruke tid på å forstå hvorfor en modell oppfører seg på en merkelig måte, og å bygge metoder for raskt å undersøke slike mønstre, er en viktig kapasitet for forskningsteamet vårt. Denne undersøkelsen resulterte i nye verktøy for forskningsteamet slik at de kan revidere modellatferd og løse atferdsproblemer ved roten.


