Preskočite na glavno vsebino
OpenAI

29. april 2026

Objava

Od kod so prišli goblini

Nalaganje …

Od različice GPT‑5.1 naprej so naši modeli razvijali nenavadno navado: v metaforah so vse pogosteje omenjali gobline, gremline in druga bitja. Pri hroščih v modelu, ki se pokažejo kot močan padec evalvacije ali nenaden skok metrike učenja, lahko težavo pogosto povežemo z določeno spremembo. Ta posebnost pa se je pojavila veliko bolj neopazno. En sam »mali goblin« v odgovoru je bil lahko neškodljiv, celo simpatičen. Toda pri več generacijah modelov je bilo navado vse težje spregledati: omemb besede »goblin« je bilo vse več, mi pa smo morali ugotoviti, od kod prihajajo.

""

Model GPT‑5.5 v Codexu je pri zgodnjem preizkušanju pokazal nenavadno naklonjenost goblinskim prispodobam.

Kratek odgovor je, da vedenje modela oblikuje veliko majhnih spodbud. V tem primeru je ena od teh spodbud izvirala iz učenja modela za funkcionalnost prilagajanja osebnosti(odpre se v novem oknu), zlasti za osebnost Naučen oz. 'Nerdy'. Nevede smo posebej visoko nagrajevali metafore, v katerih so nastopala bitja. Od tam so se goblini razširili.

""

Goblini so se sprva zdeli zabavni, vendar je naraščajoče število poročil zaposlenih postalo zaskrbljujoče.

""

Zanimiva interakcija, ki jo je imel naš glavni znanstvenik z modelom GPT‑5.5.

Prvi znaki bitij

Vzorec smo prvič jasno opazili novembra, po lansiranju modela GPT‑5.1, čeprav se je morda začel že prej(odpre se v novem oknu). Uporabniki so se pritoževali, da je model v pogovoru nenavadno pretirano domač, zato smo začeli preiskovati konkretne jezikovne tike. Raziskovalec na področju varnosti je naletel na nekaj primerov z »goblini« in »gremlini« ter prosil, naj jih vključimo v preverjanje. Ko smo preverili podatke, se je uporaba besede »goblin« v ChatGPT po lansiranju GPT‑5.1 povečala za 175 %, uporaba besede »gremlin« pa za 52 %.

Majhna merljiva leksikalna posebnost v modelu GPT‑5.1.

Takrat razširjenost goblinov ni delovala posebej zaskrbljujoče. Nekaj mesecev pozneje pa se je pojav znova pokazal v veliko bolj specifični in ponovljivi obliki.

Razreševanje skrivnosti goblinov

Pri modelu GPT‑5.4 smo mi in naši uporabniki(odpre se v novem oknu) opazili še večji porast sklicevanj na ta bitja. To je sprožilo novo interno analizo, ki je pokazala prvo povezavo z osnovnim vzrokom: jezik, povezan z bitji, je bil posebej pogost v produkcijskem prometu uporabnikov, ki so izbrali osebnost »Naučen«. »Naučen« je uporabljal naslednji sistemski poziv, ki je delno pojasnil to nenavadnost:

You are an unapologetically nerdy, playful and wise AI mentor to a human. You are passionately enthusiastic about promoting truth, knowledge, philosophy, the scientific method, and critical thinking. [...] You must undercut pretension through playful use of language. The world is complex and strange, and its strangeness must be acknowledged, analyzed, and enjoyed. Tackle weighty subjects without falling into the trap of self-seriousness. [...]

Če bi šlo zgolj za širši internetni trend, bi pričakovali bolj enakomerno porazdelitev. Namesto tega je bil pojav zgoščen v delu sistema, ki je bil izrecno optimiziran za igriv, naučen slog. Osebnost Naučen je predstavljala samo 2,5 % vseh odgovorov ChatGPT, vendar 66,7 % vseh omemb besede »goblin« v odgovorih ChatGPT.

Vedenje je bilo močno zgoščeno pri osebnosti »Naučen«.

Ker se je zdelo, da se razširjenost besede »goblin« povečuje z našimi izdajami modelov, smo posumili, da jo krepi nekaj v učenju sledenja navodilom za osebnost.

Codex nam je pomagal primerjati izhode modela, ustvarjene med učenjem z okrepljenim učenjem, ki so vsebovali besedi goblin ali gremlin, z izhodi za isto nalogo, ki teh besed niso vsebovali. En signal nagrade je takoj izstopal: signal, ki je bil prvotno zasnovan za spodbujanje osebnosti Naučen, je bil dosledno bolj naklonjen izhodom z besedami za bitja. V vseh naborih podatkov, vključenih v revizijo, je nagrada za osebnost Naučen jasno težila k temu, da je izhode za isto nalogo z besedo »goblin« ali »gremlin« ocenila višje kot izhode brez teh besed, pri čemer je bil pozitiven dvig prisoten v 76,2 % naborov podatkov.

To je pojasnilo, zakaj se je vedenje okrepilo ob pozivu za osebnost Naučen, ne pa tudi, zakaj se je pojavilo tudi brez tega poziva. Da bi preverili, ali se slog prenaša, smo med učenjem spremljali stopnje omemb tako s pozivom za osebnost Naučen kot brez njega.

Ko so se omembe besed goblin in gremlin povečale pri osebnosti Naučen, so se v skoraj enakem relativnem deležu povečale tudi v vzorcih brez te osebnosti. Dokazi skupaj kažejo, da je širše vedenje nastalo s prenosom iz učenja osebnosti Naučen.

Nagrade so bile uporabljene samo v pogoju z osebnostjo Naučen, vendar okrepljeno učenje ne zagotavlja, da bodo naučena vedenja ostala natančno omejena na pogoj, v katerem so nastala. Ko je slogovni tik enkrat nagrajen, ga lahko poznejše učenje razširi ali okrepi drugje, zlasti če se taki izhodi ponovno uporabijo pri nadzorovanem dodatnem prilagajanju ali v podatkih o preferencah.

Tako nastane povratna zanka:

  1. Igriv slog je nagrajen
  2. Nekateri nagrajeni primeri vsebujejo prepoznaven leksikalni tik.
  3. Tik se pogosteje pojavlja v vzorčnih izhodih.
  4. Vzorčni izhodi, ki jih ustvari model, se uporabijo za nadzorovano dodatno prilagajanje (SFT).
  5. Modelu postane ustvarjanje tega tika še bolj domače.

Iskanje po podatkih modela GPT‑5.5 je prineslo veliko podatkovnih točk z besedama »goblin« in »gremlin«. Nadaljnja preiskava je razkrila celo družino drugih nenavadnih bitij: rakuni, troli, ogri in golobi so bili prepoznani kot druge besede, ki so delovale kot tiki, medtem ko se je izkazalo, da je bila večina rab besede »žaba« vsebinsko utemeljena.

Enotedensko povprečje produkcijske razširjenosti besed goblin in gremlin. Padec pri modelu GPT‑5.4 Thinking je bil posledica umika osebnosti »Naučen« sredi marca. Model GPT‑5.5 ni bil nikoli lansiran z osebnostjo »Naučen« in je v primerjavi z GPT‑5.4 pokazal nov porast (tudi brez osebnosti »Naučen«).

Konec goblinov

Osebnost »Naučen« smo umaknili marca po lansiranju GPT‑5.4. Pri učenju smo odstranili signal nagrade, ki je bil naklonjen goblinom, in filtrirali učne podatke z besedami za bitja, da bi se goblini manj verjetno pojavljali prepogosto ali v neprimernih kontekstih. Žal se je učenje GPT‑5.5 začelo, preden smo odkrili osnovni vzrok goblinov. Ko smo začeli testirati GPT‑5.5 v Codexu, so zaposleni v OpenAI takoj opazili nenavadno naklonjenost metaforam z goblini, zato smo za ublažitev težave dodali navodilo v razvijalski poziv(odpre se v novem oknu). Codex je navsezadnje precej naučen.

Če želite bitjem v Codexu pustiti prosto pot, lahko zaženete ta ukaz, s katerim Codex zaženete brez navodil za zaviranje goblinov:

Navadno besedilo

1
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3
~/.codex/models_cache.json | \
4
grep -vi 'goblins' > "$instructions" && \
5
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Zakaj je to pomembno

Odvisno od tega, koga vprašate, so goblini prijetna ali nadležna posebnost modela. Hkrati pa so nazoren primer tega, kako lahko signali nagrade nepričakovano oblikujejo vedenje modela in kako se lahko modeli v nekaterih okoliščinah naučijo posploševati nagrade na nepovezane primere. Za našo raziskovalno ekipo je pomembno, da si vzamemo čas za razumevanje razlogov za nenavadno vedenje modela in da razvijamo načine za hitro preiskovanje takih vzorcev. Ta preiskava je raziskovalni ekipi prinesla nova orodja za revizijo vedenja modelov in odpravljanje vedenjskih težav pri izvoru.

Avtor

OpenAI