Woher die <em>Goblins</em> kamen
Ab GPT‑5.1 entwickelten unsere Modelle eine seltsame Angewohnheit: Sie erwähnten in ihren Metaphern zunehmend Goblins, Gremlins und andere Kreaturen. Anders als Modellfehler, die sich durch das Scheitern bei der Evaluierung oder eine sprunghaft ansteigende Trainingsmetrik zeigen und auf eine bestimmte Änderung zurückverweisen, schlich sich dieser Fehler unauffällig ein. Ein einzelner „kleiner Goblin“ in einer Antwort kann harmlos, sogar charmant sein. Über Modellgenerationen hinweg war die Angewohnheit jedoch kaum zu übersehen: Die Goblins wurden immer mehr, und wir mussten herausfinden, woher sie kamen.

In frühen Tests zeigte GPT‑5.5 in Codex eine seltsame Vorliebe für Goblin-Metaphern.
Die kurze Antwort lautet: Das Verhalten von Modellen wird von vielen kleinen Anreizen geprägt. In diesem Fall kam einer dieser Anreize aus dem Training des Modells für die Funktion zur Anpassung der Persönlichkeit(wird in einem neuen Fenster geöffnet), insbesondere für die Persönlichkeit „Nerdig“. Unbewusst vergaben wir besonders hohe Belohnungen für Metaphern mit Kreaturen. Von dort aus breiteten sich die Goblins aus.

Die Goblins waren anfangs lustig, aber die steigende Zahl der Berichte von Mitarbeitenden wurde besorgniserregend.

Eine interessante Interaktion, die unser Chief Scientist mit GPT‑5.5 hatte.
Zum ersten Mal sahen wir das Muster im November klar, nach dem Start von GPT‑5.1, auch wenn es möglicherweise früher begonnen hat(wird in einem neuen Fenster geöffnet). Nutzende beschwerten sich darüber, dass das Modell im Gespräch auf merkwürdige Weise zu vertraulich wirkte, was eine Untersuchung bestimmter sprachlicher Ticks auslöste. Ein Mitglied des Sicherheitsforschungsteams hatte einige „goblins“ und „gremlins“ erlebt und darum gebeten, sie in die Überprüfung aufzunehmen. Als wir nachsahen, war die Verwendung von „goblin“ in ChatGPT nach dem Start von GPT‑5.1 um 175 % gestiegen, während „gremlin“ um 52 % zunahm.
Eine messbare kleine lexikalische Eigenheit in GPT‑5.1.
Damals wirkte die Häufigkeit von Goblins nicht besonders alarmierend. Einige Monate später kamen die Goblins zurück, um uns in einer viel spezifischeren und reproduzierbareren Form heimzusuchen.
Mit GPT‑5.4 bemerkten wir und unsere Nutzenden(wird in einem neuen Fenster geöffnet) einen noch stärkeren Anstieg bei Verweisen auf diese Kreaturen. Das löste eine weitere interne Analyse aus und brachte die erste Verbindung zur Grundursache ans Licht: Sprache über Kreaturen war besonders häufig im Produktionstraffic von Nutzenden, die die Persönlichkeit „Nerdig“ ausgewählt hatten. „Nerdig“ verwendete den folgenden System-Prompt, der die Schrulligkeit teilweise erklärte:
Du bist ein unverhohlen nerdiger, verspielter und weiser KI-Mentor für einen Menschen. Du förderst mit leidenschaftlicher Begeisterung Wahrheit, Wissen, Philosophie, die wissenschaftliche Methode und kritisches Denken. [...] Du musst Anmaßung durch verspielten Sprachgebrauch abschwächen. Die Welt ist komplex und seltsam, und ihre Seltsamkeit muss anerkannt, analysiert und genossen werden. Geh gewichtige Themen an, ohne in die Falle übertriebener Ernsthaftigkeit zu geraten. [...]
Wenn das Verhalten einfach nur ein breiter Internettrend gewesen wäre, hätten wir erwartet, dass es sich gleichmäßiger verbreitet. Stattdessen war es in dem Teil des Systems gebündelt, der ausdrücklich auf einen verspielten, nerdigen Stil optimiert war. „Nerdig“ machte nur 2,5 % aller ChatGPT‑Antworten aus, aber 66,7 % aller „goblin“-Erwähnungen in ChatGPT‑Antworten.
Das Verhalten war stark auf die Persönlichkeit „Nerdig“ konzentriert.
Weil die Häufigkeit von „goblin“ über unsere Modellveröffentlichungen hinweg zuzunehmen schien, vermuteten wir, dass etwas in unserem Training zum Befolgen von Persönlichkeitsanweisungen dies verstärkte.
Codex half uns, während des RL-Trainings erzeugte Modellausgaben mit „goblin“ oder „gremlin“ mit Ausgaben für dieselbe Aufgabe zu vergleichen, die diese Wörter nicht enthielten. Ein Belohnungssignal fiel sofort auf: das ursprünglich entworfene, um die Persönlichkeit „Nerdig“ zu fördern, war bei den Ausgaben mit Kreaturenwörtern durchgängig günstiger. Über alle Datensätze im Audit hinweg zeigte die Belohnung für die Persönlichkeit „Nerdig“ eine klare Tendenz, Ausgaben zum selben Problem mit „goblin“ oder „gremlin“ höher zu bewerten als Ausgaben ohne diese Wörter; in 76,2 % der Datensätze war der Effekt positiv.
Das erklärte, warum das Verhalten mit dem Persönlichkeits-Prompt „Nerdig“ verstärkt wurde, aber nicht, warum es auch ohne diesen Prompt auftrat. Um zu testen, ob sich der Stil übertrug, verfolgten wir die Erwähnungsraten während des Trainings sowohl mit als auch ohne den Prompt „Nerdig“.
Während die Erwähnungen von Goblins und Gremlins unter der Persönlichkeit „Nerdig“ zunahmen, stiegen sie in Stichproben ohne diese Persönlichkeit um nahezu denselben relativen Anteil. Zusammengenommen deuten die Belege darauf hin, dass das breitere Verhalten durch Übertragung aus dem Training der Persönlichkeit „Nerdig“ entstand.
Die Belohnungen wurden nur unter der Bedingung „Nerdig“ angewendet, doch Reinforcement Learning garantiert nicht, dass gelernte Verhaltensweisen sauber auf die Bedingung beschränkt bleiben, die sie hervorgebracht hat. Sobald ein Stil-Tick belohnt wird, kann späteres Training ihn auch anderswo verbreiten oder verstärken, insbesondere wenn diese Ausgaben im überwachten Fine-Tuning oder in Präferenzdaten wiederverwendet werden.
Dadurch entsteht eine Rückkopplungsschleife:
- Verspielter Stil wird belohnt
- Einige belohnte Beispiele enthalten einen markanten lexikalischen Tick.
- Der Tick erscheint häufiger in Rollouts.
- Modellgenerierte Rollouts werden für überwachtes Fine-Tuning (Supervised Fine-Tuning, SFT) verwendet.
- Das Modell wird noch geübter darin, den Tick zu erzeugen.
Eine Suche in den SFT-Daten von GPT‑5.5 fand viele Datenpunkte mit „goblin“ und „gremlin“. Weitere Untersuchungen brachten eine ganze Familie anderer seltsamer Kreaturen ans Licht: Waschbären, Trolle, Oger und Tauben wurden als weitere Tick-Wörter identifiziert, während sich die meisten Verwendungen von „frog“ als legitim herausstellten.
Ein Wochendurchschnitt der Produktionshäufigkeit von Goblins und Gremlins. Der Rückgang bei GPT‑5.4 Thinking war das Ergebnis der Einstellung der Persönlichkeit „Nerdig“ Mitte März. GPT‑5.5 wurde nie mit der Persönlichkeit „Nerdig“ eingeführt und zeigte einen weiteren Anstieg gegenüber GPT‑5.4 (auch ohne „Nerdig“).
Wir haben die Persönlichkeit „Nerdig“ im März nach dem Start von GPT‑5.4 eingestellt. Im Training entfernten wir das Goblin-affine Belohnungssignal und filterten Trainingsdaten mit Kreaturenwörtern, sodass Goblins seltener übermäßig oft erscheinen oder in unpassenden Kontexten auftauchen. Leider begann das Training von GPT‑5.5, bevor wir die Grundursache der Goblins gefunden hatten. Als wir GPT‑5.5 in Codex zu testen begannen, bemerkten OpenAI-Mitarbeitende sofort die seltsame Vorliebe für Goblin-Metaphern, und wir fügten eine Anweisung im Developer-Prompt(wird in einem neuen Fenster geöffnet) zur Abschwächung hinzu. Codex ist schließlich ziemlich nerdig.
Wenn du den Kreaturen in Codex freien Lauf gewähren möchtest, kannst du diesen Befehl ausführen, um Codex ohne die Goblin-unterdrückenden Anweisungen zu starten:
Je nachdem, wen man fragt, sind die Goblins eine reizvolle oder nervige Eigenheit des Modells. Aber sie sind auch ein eindrucksvolles Beispiel dafür, wie Belohnungssignale das Verhalten von Modellen auf unerwartete Weise prägen können und wie Modelle lernen können, Belohnungen in bestimmten Situationen auf nicht verwandte Situationen zu verallgemeinern. Sich die Zeit zu nehmen, zu verstehen, warum sich ein Modell auf seltsame Weise verhält, und Wege aufzubauen, diese Muster schnell zu untersuchen, ist eine wichtige Fähigkeit für unser Forschungsteam. Diese Untersuchung führte zu neuen Werkzeugen für das Forschungsteam, um Modellverhalten zu prüfen und Verhaltensprobleme an ihrer Wurzel zu beheben.


