Odkiaľ sa vzali goblini
Počnúc GPT‑5.1 si naše modely začali vytvárať zvláštny zvyk: čoraz častejšie vo svojich metaforách spomínali goblinov, gremlinov a iné tvory. Na rozdiel od chýb modelu, ktoré sa prejavia prudkým poklesom hodnotení alebo skokom v tréningovej metrike a ukazujú späť na konkrétnu zmenu, táto sa vkrádala nenápadne. Jeden „malý goblin“ v odpovedi mohol byť neškodný, dokonca pôvabný. Naprieč generáciami modelov sa však tento zvyk už nedal prehliadnuť: goblinov stále pribúdalo a my sme potrebovali zistiť, odkiaľ sa vzali.

V ranom testovaní GPT‑5.5 v Codex vykazoval zvláštnu náklonnosť ku gobliním metaforám.
Krátka odpoveď znie, že správanie modelu formuje mnoho malých podnetov. V tomto prípade jeden z týchto podnetov pochádzal z trénovania modelu pre funkciu prispôsobenia osobnosti(otvorí sa v novom okne), konkrétne pre osobnosť Nerdy. Nevedomky sme priraďovali obzvlášť vysoké odmeny metaforám s tvormi. Odtiaľ sa goblini rozšírili.

Goblini boli spočiatku zábavní, ale rastúci počet hlásení od zamestnancov začal byť znepokojujúci.

Zaujímavá interakcia nášho hlavného výskumníka s GPT‑5.5.
Prvýkrát sme tento vzorec jasne zaznamenali v novembri po uvedení GPT‑5.1, hoci sa možno začal už skôr(otvorí sa v novom okne). Používatelia sa sťažovali, že model je v konverzácii zvláštne príliš familiárny, čo podnietilo skúmanie konkrétnych slovných tikov. Výskumník v oblasti bezpečnosti zažil niekoľko „goblinov“ a „gremlinov“ a požiadal, aby boli zahrnuté do kontroly. Keď sme sa pozreli na dáta, používanie slova „goblin“ v ChatGPT po uvedení GPT‑5.1 vzrástlo o 175 %, zatiaľ čo „gremlin“ vzrástlo o 52 %.
Merateľná drobná lexikálna zvláštnosť v GPT‑5.1.
V tom čase nevyzeral výskyt goblinov ako niečo zvlášť alarmujúce. O niekoľko mesiacov neskôr sa nám však goblini vrátili strašiť v oveľa konkrétnejšej a reprodukovateľnejšej podobe.
Pri GPT‑5.4 sme si my aj naši používatelia(otvorí sa v novom okne) všimli ešte väčší nárast odkazov na tieto tvory. To spustilo ďalšiu internú analýzu a odhalilo prvé prepojenie na hlavnú príčinu: jazyk o tvoroch bol obzvlášť bežný v produkčnej prevádzke od používateľov, ktorí si zvolili osobnosť „Nerdy“. „Nerdy“ používala nasledujúci systémový príkaz, ktorý čiastočne vysvetľoval túto zvláštnosť:
i bezvýhradne nerdský, hravý a múdry AI mentor človeka. S nadšením podporuješ pravdu, poznanie, filozofiu, vedeckú metódu a kritické myslenie. [...] Musíš podkopávať okázalosť hravým používaním jazyka. Svet je zložitý a zvláštny a jeho zvláštnosť treba uznať, analyzovať a užívať si ju. Vážnym témam sa venuj bez toho, aby si padol do pasce prehnanej vážnosti. [...]
Keby toto správanie bolo len všeobecným internetovým trendom, očakávali by sme, že sa rozšíri rovnomernejšie. Namiesto toho bolo sústredené v časti systému, ktorá bola explicitne optimalizovaná pre hravý, nerdský štýl. Nerdy tvorila len 2,5 % všetkých odpovedí ChatGPT, ale 66,7 % všetkých zmienok o „goblin“ v odpovediach ChatGPT.
Toto správanie bolo silne sústredené v osobnosti „Nerdy“.
Keďže sa zdalo, že výskyt slova „goblin“ rastie naprieč našimi verziami modelov, mali sme podozrenie, že to zosilňuje niečo v našom trénovaní modelu na nasledovanie pokynov pre osobnosti.
odex nám pomohol porovnať výstupy modelu vytvorené počas RL trénovania, ktoré obsahovali slová „goblin“ alebo „gremlin“, s výstupmi z tej istej úlohy, ktoré ich neobsahovali. Jeden signál odmeny okamžite vynikol: ten, ktorý bol pôvodne navrhnutý na podporu osobnosti Nerdy, bol konzistentne priaznivejší pre výstupy so slovami označujúcimi tvory. Naprieč všetkými dátovými množinami v audite vykazovala odmena pre osobnosť Nerdy jasnú tendenciu hodnotiť výstupy pre ten istý problém s výrazmi „goblin“ alebo „gremlin“ vyššie než výstupy bez nich, s pozitívnym nárastom v 76,2 % datasetov.
To vysvetľovalo, prečo bolo toto správanie posilnené príkazom pre osobnosť Nerdy, ale nie prečo sa objavovalo aj bez tohto príkazu. Aby sme otestovali, či sa štýl prenáša, sledovali sme mieru zmienok počas trénovania s príkazom osobnosti Nerdy aj bez neho.
Keď sa pri osobnosti Nerdy zvyšoval počet zmienok o goblinoch a gremlinoch, v ukážkach bez nej rástol takmer v rovnakom relatívnom pomere. Súhrnne teda dôkazy naznačujú, že širšie správanie vzniklo prenosom z trénovania osobnosti Nerdy.
Odmeny sa uplatňovali len v podmienke Nerdy, no učenie posilňovaním nezaručuje, že naučené správanie zostane úhľadne obmedzené na podmienku, ktorá ho vytvorila. Keď je určitý štýlový tik odmeňovaný, neskoršie trénovanie ho môže rozšíriť alebo posilniť aj inde, najmä ak sa tieto výstupy znovu používajú pri dolaďovaní pod dohľadom alebo v preferenčných dátach.
Tým vzniká spätnoväzbová slučka:
- Hravý štýl je odmeňovaný
- Niektoré odmeňované príklady obsahujú výrazný lexikálny tik.
- Tik sa vo výstupoch objavuje častejšie.
- Výstupy generované modelom sa používajú na dolaďovanie pod dohľadom (SFT).
- Model si na vytváranie tohto tiku zvyká ešte viac.
Vyhľadávanie v dátach SFT pre GPT‑5.5 našlo mnoho dátových bodov obsahujúcich „goblin“ a „gremlin“. Ďalšie skúmanie odhalilo celú rodinu iných zvláštnych tvorov: ako ďalšie tikové slová boli identifikované raccoons, trolls, ogres a pigeons, zatiaľ čo väčšina použití slova frog sa ukázala ako legitímna.
Jednotýždňový priemer produkčného výskytu goblinov a gremlinov. Pokles pri GPT‑5.4 Thinking bol dôsledkom vyradenia osobnosti „Nerdy“ v polovici marca. GPT‑5.5 nikdy nebol spustený s osobnosťou „Nerdy“ a zaznamenal ďalší nárast oproti GPT‑5.4 (aj bez „Nerdy“).
Osobnosť „Nerdy“ sme vyradili v marci po uvedení GPT‑5.4. V trénovaní sme odstránili signál odmeny náchylný ku goblinom a odfiltrovali tréningové dáta obsahujúce slová označujúce tvory, čím sme znížili pravdepodobnosť, že sa goblini budú objavovať príliš často alebo v nevhodných kontextoch. GPT‑5.5 sa, žiaľ, začal trénovať ešte predtým, než sme našli hlavnú príčinu goblinov. Keď sme začali testovať GPT‑5.5 v Codex, zamestnanci OpenAI si okamžite všimli zvláštnu náklonnosť ku goblinom a na zmiernenie problému sme pridali pokyn v developer príkaze(otvorí sa v novom okne). Codex je napokon celkom nerdský.
Ak chcete nechať tvory voľne sa pohybovať v Codex, môžete spustiť tento príkaz a otvoriť Codex bez pokynov potláčajúcich goblinov:
Podľa toho, koho sa spýtate, sú goblini buď milou, alebo nepríjemnou zvláštnosťou modelu. Sú však aj silným príkladom toho, ako môžu signály odmeny nečakane formovať správanie modelu a ako sa modely môžu naučiť zovšeobecňovať odmeny z určitých situácií na situácie, ktoré s nimi nesúvisia. Venovať čas pochopeniu, prečo sa model správa zvláštne, a budovať spôsoby, ako tieto vzorce rýchlo skúmať, je dôležitá schopnosť nášho výskumného tímu. Toto vyšetrovanie viedlo k novým nástrojom, ktoré výskumnému tímu umožňujú auditovať správanie modelu a riešiť problémy so správaním pri ich samotnej príčine.


