29. dubna 2026

Odkud se vzali goblini?

Načítání…

Počínaje GPT‑5.1 si naše modely začaly osvojovat zvláštní návyk: ve svých metaforách stále častěji zmiňovaly gobliny, gremliny a další tvory. Na rozdíl od chyb modelu, které se projeví propadem v evaluačních výsledcích nebo skokem v tréninkových metrikách a ukazují zpět na konkrétní změnu, se tato chyba vkrádala nenápadně. Jeden „malý goblin“ v odpovědi mohl být neškodný, dokonce roztomilý. Díky výskytu v různých generacích modelů však tenhle návyk začal být nepřehlédnutelný: goblinů neustále přibývalo a my jsme potřebovali zjistit, odkud se vzali.

Při raném testování vykazoval GPT‑5.5 v Codexu podivnou náklonnost k metaforám s gobliny.

Stručně se dá říct, že chování modelu formuje mnoho drobných pobídek. V tomto případě jedna z těchto pobídek pocházela z tréninku modelu pro funkci přizpůsobení osobnosti, konkrétně pro osobnost Nerd. Nevědomky jsme dávali zvlášť vysoké odměny za metafory s nestvůrami. Tím se pak goblini rozšířili.

Goblini byli zpočátku zábavní, ale rostoucí počet hlášení od zaměstnanců začal být znepokojivý.

Zajímavá interakce šéfa našeho vědeckého týmu s GPT‑5.5.

První známky nestvůr

Poprvé jsme tento vzorec jasně zaznamenali v listopadu, po uvedení GPT‑5.1, ačkoli mohl začít už dříve⁠(otevře se v novém okně). Uživatelé si stěžovali, že model v konverzaci působí podivně familiárně, což vedlo k prošetření konkrétních řečových tiků. Výzkumník v oblasti bezpečnosti se setkal s několika „skřítky“ a „gremliny“ a požádal, aby byli zahrnuti do kontroly. Když jsme se podívali, používání výrazu „goblin“ v ChatGPT po uvedení GPT‑5.1 vzrostlo o 175 %, zatímco používání výrazu „gremlin“ vzrostlo o 52 %.

Měřitelná drobná lexikální zvláštnost v GPT‑5.1.

V té době nevypadal výskyt goblinů nijak zvlášť znepokojivě. O několik měsíců později se nám ale goblini vrátili strašit v mnohem konkrétnější a reprodukovatelnější podobě.

Vyřešení záhady goblinů

V případě modelu GPT‑5.4 jsme si my i naši uživatelé⁠(otevře se v novém okně) všimli ještě většího nárůstu odkazů na tyto netvory. To dalo vzniknout další interní analýze a odhalilo první spojení s hlavní příčinou: mluvení o netvorech bylo obzvlášť běžné v produkčním provozu u uživatelů, kteří si zvolili osobnost typu „Nerd“. Osobnost „Nerd“ používala následující systémový prompt, který tuto zvláštnost částečně vysvětloval:

Jsi neomluvitelně nerdovský, hravý a moudrý AI mentor člověka. S nadšením podporujete pravdu, poznání, filozofii, vědecké metody. [...] Musíš shazovat patos hravým jazykem. Svět je složitý a podivný – a tu jeho podivnost je třeba uznat, analyzovat a taky si ji užít. Věnuj se závažným tématům, ale nenech se přitom chytit do pasti přehnané vážnosti. [...]

Kdyby toto chování bylo jen širokým internetovým trendem, očekávali bychom, že se bude šířit rovnoměrněji. Místo toho bylo soustředěné v části systému, která byla výslovně optimalizovaná pro hravý, nerdovský styl. Osobnost Nerd tvořila jen 2,5 % všech odpovědí ChatGPT, ale 66,7 % všech zmínek o „goblinovi“ v odpovědích ChatGPT.

Toto chování bylo silně soustředěné v rámci osobnosti „Nerd“.

Protože se zdálo, že výskyt goblinů s našimi vydáními modelů roste, měli jsme podezření, že to zesiluje něco v našem tréninku sledování instrukcí osobnosti.

Codex nám pomohl porovnat výstupy modelu vygenerované během RL tréninku obsahující goblina nebo gremlina s výstupy ze stejného úkolu, které je neobsahovaly. Jeden signál odměny okamžitě vyčníval: ten, který byl původně navržen k podpoře osobnosti Nerd, byl soustavně příznivější pro výstupy se slovy označujícími netvory. Ve všech datových sadách v auditu vykazovala odměna osobnosti Nerd jasnou tendenci hodnotit výstupy ke stejnému problému, které obsahovaly slova „goblin“ nebo „gremlin“ výše než výstupy bez těchto slov; pozitivní nárůst se projevil u 76,2 % datových sad.

To vysvětlovalo, proč bylo toto chování posilováno promptem osobnosti Nerd, ale ne proč se objevovalo i bez tohoto promptu. Abychom otestovali, zda se styl přenáší, sledovali jsme míru zmínek v průběhu tréninku se zadáním osobnosti Nerd i bez něj.

Tím, jak se v rámci osobnosti Nerd zvyšoval počet zmínek o goblinech a gremlínech, rostl téměř ve stejném relativním poměru i ve vzorcích bez ní. Dohromady tyto důkazy naznačují, že širší chování vzniklo přenosem z tréninku osobnosti Nerd.

Odměny se uplatňovaly pouze v podmínkách osobnosti Nerd, ale učení posilováním nezaručuje, že se naučené chování udrží úhledně omezené na podmínku, která je vytvořila. Jakmile systém začne odměňovat určitý stylistický zlozvyk, následný trénink ho může rozšířit nebo posílit i jinde, zvlášť pokud jsou tyto výstupy znovu použity při vylaďování pod dohledem nebo v preferenčních datech.

Tím vzniká zpětnovazební smyčka:

Hravý styl je odměňován
Některé odměňované příklady obsahují výrazný lexikální návyk.
Tento slovní návyk se ve výstupech objevuje častěji.
Modelem generované návyky se používají pro vylaďování pod dohledem (SFT).
Model si na vytváření tohoto návyku zvyká ještě víc.

Vyhledávání v datech SFT pro GPT‑5.5 našlo mnoho datových bodů obsahujících „goblin“ a „gremlin“. Další zkoumání odhalilo celou rodinu dalších podivných tvorů: jako další slovní návyky byly identifikovány mývalové, trollové, zlobři a holubi, zatímco většina použití slova frog (žába) se ukázala jako legitimní.

Týdenní průměr produkčního výskytu goblinů a gremlinů. Pokles u GPT‑5.4 Thinking byl důsledkem vyřazení osobnosti „Nerd“ v polovině března. GPT‑5.5 nikdy nebyla spuštěna s osobností „Nerd“ a zaznamenala další nárůst oproti GPT‑5.4 (i bez osobnosti „Nerd“).

Konec goblinů

Osobnost „Nerd“ jsme v březnu po spuštění GPT‑5.4 vyřadili. Z tréninku jsme odstranili signál odměny nadržující goblinům a odfiltrovali tréninková data obsahující slova označující netvory, takže bylo méně pravděpodobné, že se goblini budou objevovat příliš často nebo v nevhodných kontextech. GPT‑5.5 bohužel začala trénovat dříve, než jsme hlavní příčinu goblinů našli. Když jsme začali GPT‑5.5 testovat v Codexu, zaměstnanci OpenAI si této podivné náklonnosti ke goblinům okamžitě všimli a přidali jsme instrukci v promptu pro vývojáře⁠(otevře se v novém okně), která tuto náklonnost zmírňuje. Codex je přece jen docela nerdovský.

Pokud chcete nechat netvory v Codexu běhat napospas, můžete spustit tento příkaz a otevřít Codex bez instrukcí potlačujících gobliny:

Prostý text

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Proč na tom záleží

Podle toho, koho se zeptáte, mohou být goblini okouzlující nebo otravnou zvláštností modelu. Jsou ale také významným příkladem toho, jak mohou signály odměn formovat chování modelu nečekanými způsoby a jak se modely mohou naučit zobecňovat odměny z určitých situací na nesouvisející. Věnovat čas pochopení toho, proč se model chová zvláštním způsobem, a budovat způsoby, jak tyto vzorce rychle zkoumat, je pro náš výzkumný tým důležitá schopnost. Toto šetření vedlo k novým nástrojům pro výzkumný tým, které umožňují auditovat chování modelu a řešit problémy s chováním u jejich kořene.

2026

Autor

OpenAI

Pokračuj ve čtení

Zobrazit vše

GPT-Red: Sebezlepšování pro robustnost

Bezpečnost15. 7. 2026

Oddělování signálu od šumu v hodnocení programování

Výzkum8. 7. 2026

Představujeme GeneBench-Pro

Výzkum30. 6. 2026