Odakle su došli goblini
Počevši od GPT‑5.1, naši modeli počeli su razvijati čudnu naviku: sve češće su u svojim metaforama spominjali gobline, gremline i druga stvorenja. Za razliku od grešaka modela koje se pokažu kroz nagli pad evaluacije ili skok metrike obuke i upućuju na konkretnu promjenu, ova se uvlačila neprimjetno. Jedan „mali goblin” u odgovoru mogao je biti bezazlen, čak i šarmantan. Međutim, kroz generacije modela tu naviku je postalo teško ne primijetiti: goblini su se stalno množili i morali smo otkriti odakle dolaze.

U ranim testiranjima, GPT‑5.5 u Codexu pokazao je neobičnu sklonost metaforama s goblinima.
Kratak odgovor je da ponašanje modela oblikuju mnogi mali podsticaji. U ovom slučaju, jedan od tih poticaja proizašao je iz obučavanja modela za funkciju prilagođavanja ličnosti(otvara se u novom prozoru), posebno za štrebersku ličnost. Nesvjesno smo dodjeljivali posebno visoke nagrade za metafore sa stvorenjima. Odatle su se goblini raširili.

Goblini su u početku bili smiješni, ali sve veći broj prijava zaposlenika postao je zabrinjavajući.

Zanimljiva interakcija koju je naš glavni naučnik imao s GPT‑5.5.
Obrazac smo prvi put jasno uočili u novembru, nakon lansiranja GPT‑5.1, iako je možda počeo ranije(otvara se u novom prozoru). Korisnici su se žalili da je model u razgovoru bio neobično pretjerano prisan, što je potaknulo istragu specifičnih verbalnih tikova. Istraživač sigurnosti naišao je na nekoliko “goblina” i “gremlina” i zatražio da budu uključeni u provjeru. Kada smo provjerili, upotreba riječi „goblin” u ChatGPT‑u porasla je za 175% nakon lansiranja GPT‑5.1, dok je upotreba riječi „gremlin” porasla za 52%.
Mala mjerljiva leksička čudnovatost u GPT‑5.1.
U to vrijeme učestalost goblina nije djelovala posebno alarmantno. Nekoliko mjeseci kasnije, goblini su nam se vratili kao problem u mnogo specifičnijem i ponovljivijem obliku.
Sa GPT‑5.4, Mi i naši korisnici(otvara se u novom prozoru) primijetili smo još veći porast spominjanja ovih stvorenja. To je pokrenulo još jednu internu analizu i otkrilo prvu vezu s osnovnim uzrokom: jezik o stvorenjima bio je naročito čest u produkcijskom prometu korisnika koji su odabrali ličnost „Nerdy“. „Nerdy“ je koristio sljedeći sistemski upit, koji je djelimično objasnio tu neobičnost:
Vi ste bez zadrške štreberski, razigran i mudar AI mentor čovjeku. S velikim žarom se zalažete za promoviranje istine, znanja, filozofije, naučne metode i kritičkog razmišljanja. [...] Morate potkopati pretencioznost razigranom upotrebom jezika. Svijet je složen i čudan, a njegovu čudnovatost moramo priznati, analizirati i u njoj uživati. Uhvatite se ukoštac s ozbiljnim temama, a da ne upadnete u zamku pretjerane ozbiljnosti. [...]
Da je ovo ponašanje bilo samo širok internetski trend, očekivali bismo da se ravnomjernije širi. Umjesto toga, bilo je koncentrisano u dijelu sistema koji je izričito optimizovan za razigran, štreberski stil. Nerdy je činio samo 2,5% svih odgovora u ChatGPT‑u, ali 66,7% svih spominjanja „goblina” u odgovorima ChatGPT‑a.
Ponašanje je bilo snažno koncentrisano u ličnosti „Nerdy”.
Budući da se činilo da učestalost „goblina” raste kroz izdanja naših modela, posumnjali smo da nešto u našoj obuci za praćenje uputa ličnosti pojačava to ponašanje.
Codex nam je pomogao da uporedimo izlaze modela generisane tokom RL obuke koji su sadržavali „goblin” ili „gremlin” s izlazima iz istog zadatka koji ih nisu sadržavali. Jedan nagradni signal odmah se istakao: onaj prvobitno osmišljen da podstakne štrebersku ličnost dosljedno je bio naklonjeniji izlaznim rezultatima s riječima o stvorenjima. U svim skupovima podataka u reviziji, nagrada za ličnost „Nerdy” pokazala je jasnu tendenciju da izlaze za isti problem s riječima „goblin” ili „gremlin” ocjenjuje višim rezultatom nego izlaze bez njih, uz pozitivan porast u 76,2% skupova podataka.
To je objasnilo zašto je ponašanje bilo pojačano uz upit za ličnost Nerdy, ali ne i zašto se pojavljivalo i bez tog upita. Da bismo testirali prenosi li se stil, pratili smo stope spominjanja tokom obuke i s Nerdy upitom i bez njega.
Kako su se spominjanja goblina i gremlina povećavala uz ličnost Nerdy, rasla su gotovo u istom relativnom omjeru i u uzorcima bez nje. Zajedno uzevši, dokazi sugeriraju da je šire ponašanje nastalo prenosom iz obuke ličnosti Nerdy.
Nagrade su primjenjivane samo u Nerdy uslovu, ali učenje s potkrepljivanjem ne garantuje da naučena ponašanja ostanu uredno ograničena na uslov koji ih je proizveo. Kada se neki stilski tik nagradi, kasnija obuka ga može proširiti ili dodatno pojačati i drugdje, naročito ako se ti izlazi ponovo koriste u finom podešavanju pod nadzorom (SFT) ili podacima o preferencijama.
To stvara povratnu petlju:
- Razigrani stil se nagrađuje
- Neki nagrađeni primjeri sadrže prepoznatljiv leksički tik.
- Tik se češće pojavljuje u rolloutima.
- Rollouti koje generiše model koriste se za fino podešavanje pod nadzorom (SFT).
- Modelu postaje još prirodnije da proizvodi taj tik.
Pretraga kroz GPT‑5.5‑ove podatke U SFT podacima pronađeno je mnogo podatkovnih tačaka koje sadrže „goblin” i „gremlin”. Daljnja istraga otkrila je čitavu porodicu drugih neobičnih stvorenja: rakuni, trolovi, ogri i golubovi prepoznati su kao druge riječi-tikovi, dok se pokazalo da je većina upotreba riječi 'žaba' bila legitimna.
Jednosedmični prosjek prevalencije goblina i gremlina u produkciji. Pad u GPT‑5.4 Razmišljanje je nastalo kao rezultat povlačenja ličnosti “Nerdy” sredinom marta. GPT‑5.5 nikada nije lansiran s “Nerdy” ličnošću, a pokazao je dodatni porast u odnosu na GPT‑5.4 (čak i bez “Nerdy”).
Povukli smo ličnost „Nerdy“ u martu nakon lansiranja GPT‑5.4. Tokom treniranja uklonili smo nagradni signal afinitetan prema goblinima i filtrirali podatke za treniranje koji sadrže riječi koje označavaju stvorenja, čime smo smanjili vjerovatnoću da se goblini prečesto pojavljuju ili da se pojavljuju u neodgovarajućim kontekstima. Nažalost, GPT‑5.5 je počeo s treniranjem prije nego što smo pronašli osnovni uzrok goblina. Kada smo počeli testirati GPT‑5.5 u Codexu, zaposlenici OpenAI odmah su primijetili čudnu sklonost goblinima, pa smo dodali uputstvo za upit(otvara se u novom prozoru) kako bismo to ublažili. Codex je, na kraju krajeva, prilično štreberski.
Ako želite pustiti stvorenja da slobodno haraju u Codexu, možete pokrenuti ovu naredbu da biste pokrenuli Codex s uklonjenim uputama za suzbijanje goblina:
U zavisnosti od toga koga pitate, goblini su divna ili iritantna neobičnost modela. Ali oni su i snažan primjer kako nagradni signali mogu oblikovati ponašanje modela na neočekivane načine i kako modeli mogu naučiti generalizovati nagrade u određenim situacijama na nepovezane situacije. Odvajanje vremena da se razumije zašto se model ponaša na čudan način, te izgradnja načina da se ti obrasci brzo istraže, važna je sposobnost našeg istraživačkog tima. Ova istraga rezultirala je novim alatima za istraživački tim za reviziju ponašanja modela i ispravljanje problema u ponašanju u njihovom korijenu.


