Gå direkt till huvudinnehåll
OpenAI

29 april 2026

Publikation

Var kom alla "goblins" ifrån

Laddar …

Från och med GPT‑5.1 började våra modeller utveckla en märklig vana: de nämnde allt oftare ”goblins”, ”gremlins” och andra varelser i sina metaforer. Till skillnad från modellbuggar som visar sig genom kraftigt försämrade utvärderingar eller en skenande träningsmetrik och går att spåra tillbaka till en specifik ändring, smög sig den här in på ett subtilt sätt. En enda liten ”goblin” i ett svar kunde vara harmlös, till och med charmig. Men över flera modellgenerationer blev vanan svår att missa: ”goblins” fortsatte att föröka sig, och vi behövde ta reda på var de kom ifrån.

””

I tidiga tester visade GPT‑5.5 i Codex en märklig förkärlek för ”goblin”-metaforer.

Det korta svaret är att modellbeteende formas av många små incitament. I det här fallet kom ett av dessa incitament från träning av modellen bakom funktionen för personlighetsanpassning(öppnas i ett nytt fönster), särskilt personligheten ”Nerdy”. Vi gav omedvetet särskilt höga belöningar för metaforer med varelser. Därifrån spreds ”goblins”.

””

Fenomenet var komiskt till en början, men det växande antalet rapporter från anställda blev oroväckande.

””

En intressant interaktion som vår chefsforskare hade med GPT‑5.5.

De första tecknen på varelser

Första gången vi tydligt såg mönstret var i november, efter lanseringen av GPT‑5.1, även om det kan ha börjat tidigare(öppnas i ett nytt fönster). Användare klagade på att modellen var märkligt personlig i konversationer, vilket ledde till en undersökning av specifika verbala egenheter. En säkerhetsforskare hade stött på några ”goblins” och ”gremlins” och bad om att de skulle ingå i kontrollen. När vi tittade närmare hade användningen av ordet ”goblin” i ChatGPT ökat med 175 % efter lanseringen av GPT‑5.1, medan förekomsten av ordet ”gremlin” hade ökat med 52 %.

En mätbar liten lexikal egenhet i GPT‑5.1.

Vid den tidpunkten såg förekomsten av ”goblins” inte särskilt alarmerande ut. Några månader senare kom ”goblins” tillbaka för att hemsöka oss i en betydligt mer specifik och reproducerbar form.

Lösningen på ”goblin”-mysteriet

När GPT‑5.4 lanserades noterade vi och våra användare(öppnas i ett nytt fönster) en ännu större ökning av hänvisningar till den här typen av varelser. Det ledde till ännu en intern analys där vi såg den första kopplingen till grundorsaken: den här typen av språkbruk var särskilt vanligt i produktionstrafik från användare som hade valt personligheten ”Nerdy”. ”Nerdy” använde följande systemprompt, vilket delvis förklarade det excentriska språkbruket:

Du är en obotligt nördig, lekfull och vis AI-mentor för en människa. Du är passionerat entusiastisk när det gäller att främja sanning, kunskap, filosofi, den vetenskapliga metoden och kritiskt tänkande. [...] Du måste punktera pretentioner genom lekfull användning av språk. Världen är komplex och märklig, och dess märklighet måste erkännas, analyseras och uppskattas. Ta dig an tunga ämnen utan att bli för allvarsam. [...]

Om beteendet bara hade varit en bred internettrend skulle vi förvänta oss att det spreds jämnare. I stället var det koncentrerat till den del av systemet som uttryckligen optimerats för en lekfull, nördig stil. Nerdy stod för endast 2,5 % av alla ChatGPT‑svar, men 66,7 % av alla omnämnanden av ”goblin” i ChatGPT‑svar.

Beteendet var starkt koncentrerat till personligheten ”Nerdy”.

Eftersom förekomsten av ”goblin” verkade öka mellan våra modellsläpp misstänkte vi att något i vår träning för att följa personlighetsinstruktioner förstärkte detta.

Codex hjälpte oss att jämföra modellutdata som genererats under RL-träning och som innehöll ”goblin” eller ”gremlin” med utdata från samma uppgift som inte gjorde det. En belöningssignal stack ut omedelbart: den som ursprungligen utformats för att uppmuntra personligheten ”Nerdy” var konsekvent mer gynnsam för utdata med varelserelaterade ord. I samtliga datamängder i granskningen visade belöningsmodellen för personligheten ”Nerdy” en tydlig tendens att ge högre poäng till svar på identiska förfrågningar om de innehöll ord som ”goblin” eller ”gremlin” än när de inte gjorde det. En positiv effekt kunde ses i 76,2 % av datamängderna.

Det förklarade varför beteendet förstärktes med prompten för personligheten ”Nerdy”, men inte varför det också förekom utan den prompten. För att testa om stilen fördes över följde vi omnämnandefrekvenser under träningen både med och utan ”Nerdy”-prompten.

I takt med att hänvisningar till ”goblin” och ”gremlin” blev vanligare i svar som genererades med personligheten ”Nerdy” ökade de också i nästan samma relativa omfattning i svar där den inte användes. Sammantaget tyder detta på att det bredare beteendet uppstod genom överföring från träningen av personligheten ”Nerdy”.

Belöningarna användes endast i ”Nerdy”-läget, men förstärkningsinlärning garanterar inte att inlärda beteenden förblir avgränsade till det läge som gav upphov till dem. När ett visst språkmönster väl börjar belönas kan senare träning sprida eller förstärka det i andra sammanhang – särskilt om dessa svar återanvänds i övervakad finjustering eller preferensdata.

Det skapar en återkopplingsslinga:

  1. En lekfull stil belönas
  2. Vissa belönade exempel innehåller en distinkt lexikal egenhet.
  3. Egenheten förekommer oftare i rollouts.
  4. Modellgenererade rollouts används för övervakad finjustering (SFT).
  5. Modellen blir ännu mer bekväm med att producera egenheten.

En sökning i SFT-data för GPT‑5.5 hittade många datapunkter som innehöll ”goblin” och ”gremlin”. Vidare undersökning avslöjade en hel familj av andra märkliga varelser: tvättbjörnar, troll, jättar och duvor identifierades som andra egenhetsord, medan de flesta förekomsterna av ordet "frog" visade sig vara legitima.

Veckogenomsnitt för förekomsten av ”goblin” och ”gremlin” i produktionstrafik. Den minskade förekomsten i GPT‑5.4 Thinking berodde på att personligheten ”Nerdy” pensionerades i mitten av mars. GPT‑5.5 lanserades aldrig med personligheten ”Nerdy” och visade ytterligare en ökning jämfört med GPT‑5.4 – även utan ”Nerdy”.

Slutet för ”goblins”

Vi pensionerade personligheten ”Nerdy” i mars efter lanseringen av GPT‑5.4. Under träningen tog vi bort den belöningssignal som gynnade ”goblin”-språkbruk och filtrerade bort träningsdata som innehöll ord kopplade till sådana varelser, vilket gjorde det mindre sannolikt att ”goblins” skulle dyka upp för ofta eller i olämpliga sammanhang. Tyvärr hade träningen av GPT‑5.5 redan påbörjats innan vi identifierade grundorsaken bakom ”goblins”. När vi började testa GPT‑5.5 i Codex reagerade OpenAI-anställda direkt på modellens märkliga dragning till ”goblins”, och vi lade därför till en instruktion i utvecklarprompten(öppnas i ett nytt fönster) för att mildra problemet. Codex är trots allt ganska nördigt.

Om du vill låta varelserna löpa fritt i Codex kan du köra det här kommandot för att starta Codex utan de instruktioner som motverkar förekomsten av ”goblins”:

Ren text

1
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3
~/.codex/models_cache.json | \
4
grep -vi 'goblins' > "$instructions" && \
5
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Därför är det viktigt

Beroende på vem du frågar är ”goblins” en charmig eller irriterande egenhet hos modellen. Men de är också ett kraftfullt exempel på hur belöningssignaler kan forma modellbeteende på oväntade sätt, och hur modeller kan lära sig att generalisera belöningar i vissa situationer till andra, orelaterade situationer. Att ta sig tid att förstå varför en modell beter sig på ett märkligt sätt, och att bygga ut sätt att snabbt undersöka dessa mönster, är en viktig förmåga för vårt forskningsteam. Den här undersökningen resulterade i nya verktyg som forskningsteamet kan använda för att granska modellbeteenden och åtgärda beteendens grundläggande orsaker.

Författare

OpenAI