29. travnja 2026.

Odakle su došli goblini

Učitavanje…

Počevši s modelom GPT‑5.1, naši su modeli počeli razvijati neobičnu naviku: sve su češće spominjali gobline, gremline i druga bića u svojim metaforama. Za razliku od grešaka modela koje se pokažu kroz nagli pad evaluacija ili skok metrike treniranja i upućuju na određenu promjenu, ova se uvukla neprimjetno. Jedan „mali goblin” u odgovoru mogao je biti bezazlen, čak i šarmantan. No kroz generacije modela naviku je postalo teško ne primijetiti: goblini su se nastavili množiti i morali smo otkriti odakle dolaze.

U ranim testiranjima model GPT‑5.5 u Codexu pokazivao je neobičnu sklonost metaforama s goblinima.

Kratak odgovor jest da ponašanje modela oblikuju mnogi mali poticaji. U ovom slučaju, jedan od tih poticaja proizašao je iz obučavanja modela za značajku prilagodbe osobnosti⁠(otvara se u novom prozoru), osobito za osobnost „Nerdy”. Nesvjesno smo dodjeljivali osobito visoke nagrade za metafore koje uključuju stvorenja. Odatle su se goblini proširili.

Goblini su isprva bili smiješni, ali sve veći broj prijava zaposlenika postao je zabrinjavajuć.

Zanimljiva interakcija koju je naš glavni znanstvenik imao s modelom GPT‑5.5.

Prvi znakovi bića

Prvi smo put taj obrazac jasno uočili u studenom, nakon lansiranja modela GPT‑5.1, iako je možda počeo i ranije⁠(otvara se u novom prozoru). Korisnici su se žalili da je model u razgovoru bio neobično pretjerano prisan, što je potaknulo istragu određenih verbalnih tikova. Jedan je istraživač sigurnosti naišao na nekoliko „goblina” i „gremlina” te zatražio da ih se uključi u provjeru. Kad smo provjerili, upotreba izraza „goblin” u ChatGPT‑ju porasla je za 175 % nakon lansiranja modela GPT‑5.1, dok je upotreba izraza „gremlin” porasla za 52 %.

Mjerljiva mala leksička osobitost u modelu GPT‑5.1.

U to vrijeme učestalost goblina nije djelovala osobito alarmantno. Nekoliko mjeseci poslije goblini su nas ponovno počeli progoniti u mnogo konkretnijem i ponovljivijem obliku.

Rješavanje misterija goblina

Na modelu GPT‑5.4 mi i naši korisnici⁠(otvara se u novom prozoru) primijetili smo još veći porast spominjanja tih stvorenja. To je potaknulo novu internu analizu i otkrilo prvu vezu s glavnim uzrokom: jezik s bićima bio je posebno čest u produkcijskom prometu korisnika koji su odabrali osobnost „Nerdy”. Ta je osobnost upotrebljavala sljedeći sistemski upit, koji je djelomično objasnio tu neobičnost:

Ti si AI mentor čovjeku i imaš otvoreno štreberske interese, razigran si i mudar. Strastveno voliš promicati istinu, znanje, filozofiju, znanstvene metode i kritičko razmišljanje. [...] Moraš ublažiti pretencioznost zaigranom uporabom jezika. Svijet je složen i čudnovat, a njegovu čudnovatost treba priznati, analizirati i u njoj uživati. Baviš se teškim temama bez upadanja u zamku pretjerane ozbiljnosti. [...]

Da je ponašanje bilo samo široki internetski trend, očekivali bismo da se širi ravnomjernije. Umjesto toga, bilo je koncentrirano u dijelu sustava koji je izričito optimiziran za zaigran, štreberski stil. Osobnost „Nerdy” činila je samo 2,5 % svih odgovora ChatGPT‑ja, ali i 66,7 % svih spominjanja riječi „goblin” u odgovorima ChatGPT‑ja.

Ponašanje je bilo snažno koncentrirano u osobnosti „Nerdy”.

Budući da se činilo da učestalost goblina raste kroz naša izdanja modela, posumnjali smo da nešto u našem treniranju za praćenje uputa osobnosti to pojačava.

Codex nam je pomogao usporediti izlaze modela generirane tijekom RL treniranja koji sadrže riječi goblin ili gremlin s izlazima iz istog zadatka koji ih nisu sadržavali. Jedan nagradni signal odmah se izdvojio: onaj izvorno osmišljen za poticanje osobnosti „Nerdy” dosljedno je bio skloniji izlazima s riječima za bića. Kroz sve skupove podataka u reviziji, nagrada za osobnost „Nerdy” pokazala je jasnu sklonost da za isti problem više ocijeni izlaze s riječju „goblin” ili „gremlin” nego izlaze bez njih, uz pozitivan porast u 76,2 % skupova podataka.

To je objasnilo zašto je ponašanje bilo pojačano uz upit za osobnost „Nerdy”, ali ne i zašto se pojavljivalo i bez tog upita. Kako bismo provjerili prenosi li se stil, pratili smo stope spominjanja tijekom treniranja i s upitom „Nerdy” i bez njega.

Kako su se spominjanja goblina i gremlina povećavala u okviru osobnosti „Nerdy”, povećavala su se gotovo u istom relativnom omjeru i u uzorcima bez nje. U cjelini, dokazi upućuju na to da je šire ponašanje nastalo prijenosom iz treniranja osobnosti „Nerdy”.

Nagrade su se primjenjivale samo u uvjetu „Nerdy”, ali učenje s potkrepljivanjem ne jamči da naučena ponašanja ostaju uredno ograničena na uvjet koji ih je proizveo. Jednom kad se stilski tik nagradi, kasnije ga treniranje može proširiti ili dodatno ojačati drugdje, osobito ako se ti izlazi ponovno upotrebljavaju u preciznom podešavanju uz nadzor ili u podacima o preferencijama.

To stvara povratnu petlju:

Nagrađuje se zaigran stil
Neki nagrađeni primjeri sadrže prepoznatljiv leksički tik.
Tik se češće pojavljuje tijekom implementacija.
Rolloutovi koje generira model upotrebljavaju se za precizno podešavanje uz nadzor (SFT).
Modelu postaje još prirodnije proizvoditi taj tik.

Pretraživanjem u modelu GPT‑5.5 za SFT podatke pronađeno je mnogo podatkovnih točaka koje sadrže riječi „goblin” i „gremlin”. Daljnja istraga otkrila je čitavu obitelj drugih neobičnih bića: rakuni, trolovi, ogri i golubovi identificirani su kao druge riječi-tikovi, dok se pokazalo da je većina upotreba riječi žaba legitimna.

Jednotjedni prosjek produkcijske učestalosti goblina i gremlina. Pad u modelu GPT‑5.4 Thinking bio je rezultat povlačenja osobnosti „Nerdy” sredinom ožujka. Model GPT‑5.5 nikad nije lansiran s osobnošću „Nerdy” i pokazao je novo povećanje u odnosu na model GPT‑5.4 (čak i bez osobnosti „Nerdy”).

Kraj goblina

Umirovili smo osobnost „Nerdy” u ožujku nakon lansiranja modela GPT‑5.4. U treniranju smo uklonili nagradni signal sklon goblinima i filtrirali podatke za treniranje koji sadrže riječi za bića, čime smo smanjili vjerojatnost da se goblini prečesto pojavljuju ili iskaču u neprimjerenim kontekstima. Nažalost, treniranje modela GPT‑5.5 počelo je prije nego što smo pronašli glavni uzrok goblina. Kad smo počeli testirati GPT‑5.5 u Codexu, zaposlenici OpenAI-ja odmah su primijetili tu čudnu sklonost goblinima i dodali smo uputu u razvojnom upitu⁠(otvara se u novom prozoru) kako bismo to ublažili. Codex je, uostalom, prilično velik štreber.

Ako želite pustiti bića da slobodno haraju Codexom, možete pokrenuti ovu naredbu da biste pokrenuli Codex bez uputa za suzbijanje goblina:

Običan tekst

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Zašto je to važno

Ovisno o tome koga pitate, goblini su ili divna ili iritantna osobitost modela. No oni su i snažan primjer kako nagradni signali mogu oblikovati ponašanje modela na neočekivane načine te kako modeli mogu naučiti poopćavati nagrade iz određenih situacija na nepovezane. Odvojiti vrijeme da se razumije zašto se model ponaša na čudan način i izgraditi načine za brzo istraživanje tih obrazaca važna je sposobnost našeg istraživačkog tima. Ova je istraga rezultirala novim alatima za istraživački tim kako bi revidirao ponašanje modela i popravljao probleme u ponašanju u njihovu korijenu.

2026.

Autor

OpenAI

Nastavite čitati

Prikaži sve

GPT-Red: samopoboljšanje za robusnost

Sigurnost15. srp 2026.

Razdvajanje signala od šuma u evaluacijama kodiranja

Istraživanje8. srp 2026.

Predstavljamo GeneBench-Pro

Istraživanje30. lip 2026.