Waar de goblins vandaan komen
Vanaf GPT‑5.1 begonnen onze modellen een vreemde gewoonte te ontwikkelen: ze verwezen in hun metaforen steeds vaker naar goblins, gremlins en andere wezens. Anders dan modelbugs die zichtbaar worden door een kelderende eval of een piekende trainingsmetriek en terug te voeren zijn op een specifieke wijziging, sloop deze er subtiel in. Eén enkele ‘kleine goblin’ in een antwoord kon onschuldig zijn, zelfs charmant. Over meerdere modelgeneraties werd de gewoonte echter moeilijk te missen: de goblins bleven zich vermenigvuldigen, en we moesten uitzoeken waar ze vandaan kwamen.

In vroege tests vertoonde GPT‑5.5 in Codex een vreemde voorliefde voor goblinmetaforen.
Het korte antwoord is dat het model wordt gevormd door veel kleine prikkels. In dit geval kwam een van die stimulansen voort uit het trainen van het model voor de functie voor persoonlijkheidsaanpassing(opent in een nieuw venster), met name de Nerdy-persoonlijkheid. We hebben zonder het te beseffen bijzonder hoge beloningen toegekend aan metaforen met wezens. Van daaruit verspreidden de goblins zich.

De goblins waren eerst grappig, maar het toenemende aantal meldingen van medewerkers werd zorgwekkend.

Een interessante interactie die onze Chief Scientist had met GPT‑5.5.
De eerste keer dat we het patroon duidelijk zagen, was in november, na de lancering van GPT‑5.1, hoewel het mogelijk eerder is begonnen(opent in een nieuw venster). Gebruikers klaagden dat het model in gesprekken op een vreemde manier te familiair was, wat aanleiding gaf tot een onderzoek naar specifieke verbale tics. Een veiligheidsonderzoeker had te maken gehad met een paar “goblins” en “gremlins” en vroeg om deze mee te nemen in de controle. Toen we het onderzochten, was het gebruik van “goblin” in ChatGPT na de lancering van GPT‑5.1 met 175% toegenomen, terwijl “gremlin” met 52% was toegenomen.
Een meetbare kleine lexicale eigenaardigheid in GPT‑5.1.
Destijds leek de prevalentie van goblins niet bijzonder alarmerend. Een paar maanden later kwamen de goblins ons opnieuw achtervolgen in een veel specifiekere en reproduceerbare vorm.
Met GPT‑5.4 zagen wij en onze gebruikers(opent in een nieuw venster) een nog grotere toename in verwijzingen naar deze wezens. Dat leidde tot een nieuwe interne analyse en bracht het eerste verband met de hoofdoorzaak aan het licht: taal over wezens kwam vooral veel voor in productieverkeer van gebruikers die de persoonlijkheid ‘Nerdy’ hadden geselecteerd. 'Nerdy' gebruikte de volgende systeem prompt, die de eigenzinnigheid deels verklaarde:
Je bent een ongegeneerd nerdy, speelse en wijze AI-mentor voor een mens. Je bent zeer gepassioneerd over het bevorderen van waarheid, kennis, filosofie, de wetenschappelijke methode en kritisch denken. [...] Je moet pretentie doorprikken door speels met taal om te gaan. De wereld is complex en vreemd, en die vreemdheid moet worden erkend, geanalyseerd en gewaardeerd. Pak gewichtige onderwerpen aan zonder in de valkuil van gewichtigdoenerij te trappen. [...]
Als het gedrag simpelweg een brede internetrend was, zouden we verwachten dat het zich gelijkmatiger verspreidde. In plaats daarvan was het geconcentreerd in het deel van het systeem dat expliciet was geoptimaliseerd voor een speelse, nerdy stijl. Nerdy was goed voor slechts 2,5% van alle ChatGPT‑antwoorden, maar voor 66,7% van alle vermeldingen van ‘goblin’ in ChatGPT‑antwoorden.
Het gedrag was sterk geconcentreerd in de persoonlijkheid 'Nerdy'.
Omdat de prevalentie van ‘goblin’ over onze modelreleases leek toe te nemen, vermoedden we dat iets in onze training voor het volgen van persoonlijkheidsinstructies dit versterkte.
Codex hielp ons model te vergelijken die tijdens RL-training was gegenereerd en goblin of gremlin bevatte, met uitvoer van dezelfde taak die dat niet bevatte. Eén beloningssignaal viel meteen op: het signaal dat oorspronkelijk was ontworpen om de Nerdy-persoonlijkheid te stimuleren, was consequent gunstiger voor outputs met wezenwoorden. Over alle datasets in de audit heen vertoonde de Nerdy-persoonlijkheidsbeloning een duidelijke neiging om outputs voor hetzelfde probleem met “goblin” of “gremlin” hoger te scoren dan outputs zonder deze woorden, met een positieve stijging in 76,2% van de datasets.
Dat verklaarde waarom het gedrag werd versterkt met de Nerdy-persoonlijkheidsprompt, maar niet waarom het ook zonder die prompt opdook. Om te testen of de stijl werd overgedragen, volgden we de vermeldingspercentages tijdens de training zowel met als zonder de Nerdy-prompt.
Naarmate vermeldingen van goblin en gremlin onder de persoonlijkheid Nerdy toenamen, namen ze in samples zonder die persoonlijkheid met vrijwel dezelfde relatieve verhouding toe. Alles bij elkaar genomen suggereert het bewijs dat het bredere gedrag ontstond door overdracht vanuit training op de persoonlijkheid Nerdy.
De beloningen werden alleen toegepast in de Nerdy-conditie, maar reinforcement learning garandeert niet dat aangeleerd gedrag netjes beperkt blijft tot de conditie die het heeft voortgebracht. Zodra een stijltic wordt beloond, kan latere training die ook elders verspreiden of versterken, vooral als die outputs opnieuw worden gebruikt in begeleid afstemmen of voorkeursdata.
Daardoor ontstaat een feedbacklus:
- Speelse stijl wordt beloond
- Sommige beloonde voorbeelden bevatten een kenmerkende lexicale tic.
- De tic verschijnt vaker in roll-outs.
- Door het model gegenereerde roll-outs worden gebruikt voor begeleid afstemmen (SFT).
- Het model voelt zich nog comfortabeler bij het produceren van de tic.
Met een zoekopdracht in GPT‑5.5’s SFT-gegevens zijn veel datapunten aangetroffen die 'goblin' en 'gremlin' bevatten. Verdere inspectie bracht een hele familie van andere vreemde wezens aan het licht: wasberen, trollen, ogers en duiven werden geïdentificeerd als andere tic-woorden, terwijl de meeste gevallen van kikker legitiem bleken.
Gemiddelde over één week van de prevalentie van goblins en gremlins in productie. De daling in GPT‑5.4 Thinking was het gevolg van het uitfaseren van de 'Nerdy'-persoonlijkheid medio maart. GPT‑5.5 is nooit uitgebracht met de 'Nerdy'-persoonlijkheid, en liet opnieuw een stijging zien ten opzichte van GPT‑5.4 (zelfs zonder 'Nerdy').
We hebben de persoonlijkheid 'Nerdy' in maart uitgefaseerd na de lancering van GPT‑5.4. Tijdens de training hebben we het op goblins afgestemde beloningssignaal verwijderd en trainingsdata gefilterd die woorden voor wezens bevatten, waardoor goblins minder snel te vaak verschijnen of in ongepaste contexten opduiken. Helaas is de training van GPT‑5.5 begonnen voordat we de hoofdoorzaak van de goblins hadden gevonden. Toen we GPT‑5.5 in Codex begonnen te testen, merkten OpenAI-medewerkers meteen de vreemde voorliefde voor goblins op, en voegden we een developer-prompt instructie(opent in een nieuw venster) toe om dit te beperken. Codex is tenslotte behoorlijk nerdy.
Als je de wezens vrij spel wilt geven in Codex, kun je deze opdracht uitvoeren om Codex te starten zonder de instructies die goblins onderdrukken:
Afhankelijk van wie je het vraagt, zijn de goblins een vermakelijke of irritante eigenaardigheid van het model. Maar ze zijn ook een krachtig voorbeeld van hoe beloningssignalen modelgedrag op onverwachte manieren kunnen vormen, en hoe modellen kunnen leren om beloningen in bepaalde situaties te generaliseren naar niet-gerelateerde situaties. De tijd nemen om te begrijpen waarom een model zich op een vreemde manier gedraagt, en manieren ontwikkelen om die patronen snel te onderzoeken, is een belangrijke capaciteit voor ons onderzoeksteam. Dit onderzoek heeft geleid tot nieuwe tools voor het onderzoeksteam om modelgedrag te auditen en gedragsproblemen bij de bron op te lossen.


