Hvor goblins kom fra
Fra og med GPT‑5.1 begyndte vores modeller at udvikle en mærkelig vane: De nævnte i stigende grad goblins, gremlins og andre væsner i deres metaforer. I modsætning til modelbugs, der viser sig gennem en eval, der styrtdykker, eller en træningsmetrik, der pludselig stiger og peger tilbage på en bestemt ændring, sneg denne sig ind mere subtilt. En enkelt „lille goblin“ i et svar kunne være harmløs, endda charmerende. På tværs af modelgenerationer blev vanen dog svær at overse: Goblins blev ved med at formere sig, og vi var nødt til at finde ud af, hvor de kom fra.

I tidlige tests viste GPT‑5.5 i Codex en mærkelig forkærlighed for goblinmetaforer.
Det korte svar er, at modellens adfærd formes af mange små incitamenter. I dette tilfælde kom et af disse incitamenter fra træningen af modellen til funktionen til personlighedstilpasning(åbner i et nyt vindue), især Nerdy-personligheden. Vi gav ubevidst særligt høje belønninger for metaforer, hvor der indgik skabninger. Derfra spredte goblins sig.

Disse goblins var først sjove, men det stigende antal medarbejderrapporter blev bekymrende.

En interessant interaktion, som vores Chief Scientist havde med GPT‑5.5.
Første gang vi tydeligt så mønsteret, var i november, efter lanceringen af GPT‑5.1, selvom det kan være startet tidligere(åbner i et nyt vindue). Brugerne klagede over, at modellen var mærkeligt overfamiliær i samtaler, hvilket førte til en undersøgelse af specifikke sproglige tics. En sikkerhedsforsker havde oplevet nogle få “gobliner” og “gremlins” og bad om, at de blev medtaget i tjekket. Da vi undersøgte det, var brugen af “goblin” i ChatGPT steget med 175 % efter lanceringen af GPT‑5.1, mens “gremlin” var steget med 52 %.
En målbar lille leksikalsk særhed i GPT‑5.1.
På det tidspunkt så udbredelsen af goblins ikke særligt alarmerende ud. Et par måneder senere kom goblins tilbage for at hjemsøge os i en langt mere specifik og reproducerbar form.
Med GPT‑5.4 bemærkede vi og vores brugere(åbner i et nyt vindue) en endnu større stigning i omtaler af disse væsner. Det udløste endnu en intern analyse og afslørede den første sammenhæng med årsagen: "Creature Language" var særligt udbredt i produktionstrafikken fra brugere, der havde valgt personlighedstypen "Nerdy". “Nerdy” brugte følgende system prompt, som delvist forklarede det finurlige præg:
Du er en uforbeholdent nørdet, legesyg og vis AI-mentor for et menneske. Du brænder virkelig for at fremme sandhed, viden, filosofi, den videnskabelige metode og kritisk tænkning. [...] Du skal punktere prætentiøsitet med legende sprogbrug. Verden er kompleks og mærkelig, og dens mærkelighed må anerkendes, analyseres og nydes. Tag fat på tunge emner uden at falde i selvhøjtidelighedens fælde. [...]
Hvis adfærden blot var en bred internettendens, ville vi forvente, at den spredte sig mere jævnt. I stedet var den koncentreret i den del af systemet, der eksplicit var optimeret til en legende, nørdet stil. Nerdy stod kun for 2,5 % af alle ChatGPT‑svar, men for 66,7 % af alle omtaler af "goblin“ i ChatGPT‑svar.
Adfærden var stærkt koncentreret i personligheden "Nerdy".
Fordi udbredelsen af goblins så ud til at stige på tværs af vores modeludgivelser, havde vi en mistanke om, at noget i vores træning af modellens efterlevelse af personlighedsinstruktioner forstærkede dette.
Codex hjalp os med at sammenligne model output genereret under RL-træning, som indeholdt goblin eller gremlin, med output fra den samme opgave, som ikke gjorde. Ét belønningssignal skilte sig straks ud: Det, der oprindeligt var designet til at fremme Nerdy-personligheden, favoriserede konsekvent outputtene med skabningsord. På tværs af alle datasæt i auditten viste Nerdy-personlighedsbelønningen en klar tendens til at give output til det samme problem med “goblin” eller “gremlin” en højere score end output uden, med en positiv stigning i 76,2 % af datasættene.
Det forklarede, hvorfor adfærden blev forstærket med prompten for personligheden Nerdy, men ikke hvorfor den også dukkede op uden den prompt. For at teste, om stilen blev overført, trackede vi omtaleomfang under træningen både med og uden Nerdy-prompten.
Efterhånden som omtaler af goblin og gremlin steg under personligheden Nerdy, steg de med næsten samme relative andel i prøver uden den. Samlet tyder evidensen på, at den bredere adfærd opstod gennem overførsel fra træningen af personligheden Nerdy.
Belønningerne blev kun anvendt i Nerdy-betingelsen, men forstærkende læring garanterer ikke, at indlært adfærd forbliver pænt afgrænset til den betingelse, der frembragte den. Når en stilistisk tic først belønnes, kan senere træning sprede eller forstærke den andre steder, især hvis disse output genbruges i overvåget finjustering eller præferencedata.
Det skaber et feedbackloop:
- Legende stil belønnes
- Nogle belønnede eksempler indeholder et karakteristisk leksikalsk tic.
- Tic'et optræder oftere i rollouts.
- Modelgenererede rollouts bruges til overvåget finjustering (SFT).
- Modellen bliver endnu mere fortrolig med at producere tic'et.
En søgning i GPT‑5.5's SFT-data fandt mange datapunkter, der indeholdt "goblin“ og "gremlin“. Yderligere undersøgelse afslørede en hel familie af andre mærkelige væsner: vaskebjørne, trolde og duer blev identificeret som andre tic-ord, mens de fleste anvendelser af frog viste sig at være legitime.
Gennemsnit over én uge for produktionsprævalensen af gobliner og gremliner. Faldet i GPT‑5.4 Thinking var et resultat af, at “Nerdy”-personligheden blev udfaset i midten af marts. GPT‑5.5 blev aldrig lanceret med personligheden “Nerdy” og viste endnu en stigning i forhold til GPT‑5.4 (selv uden “Nerdy”).
Vi udfasede “Nerdy”-personligheden i marts efter lanceringen af GPT‑5.4. Under træningen fjernede vi det goblin-affine belønningssignal og bortfiltrerede træningsdata, der indeholdt væsenord, hvilket gjorde gobliner mindre tilbøjelige til at optræde for ofte eller dukke op i upassende kontekster. Desværre begyndte træningen af GPT‑5.5, før vi fandt grundårsagen til goblinerne. Da vi begyndte at teste GPT‑5.5 i Codex, bemærkede OpenAI-medarbejdere straks den mærkelige forkærlighed for gobliner, og vi tilføjede en developer-prompt-instruktion(åbner i et nyt vindue) for at afbøde det. Codex er trods alt ret nørdet.
Hvis du vil lade væsnerne løbe frit i Codex, kan du køre denne kommando for at starte Codex med de goblin-undertrykkende instruktioner fjernet:
Alt efter hvem man spørger, er goblins en charmerende eller irriterende særhed ved modellen. Men de er også et stærkt eksempel på, hvordan belønningssignaler kan forme modeladfærd på uventede måder, og hvordan modeller kan lære at generalisere belønninger i bestemte situationer til ikke-relaterede situationer. At bruge tid på at forstå, hvorfor en model opfører sig mærkeligt, og at opbygge måder hurtigt at undersøge de mønstre på, er en vigtig kapacitet for vores forskningsteam. Denne undersøgelse førte til nye værktøjer, som forskningsteamet kan bruge til at revidere modeladfærd og løse adfærdsproblemer ved roden.


