29. април 2026.

Одакле су дошли гоблини

Учитавање…

Почевши од GPT‑5.1, наши модели су почели да развијају чудну навику: све чешће су у својим метафорама помињали гоблине, гремлине и друга створења. За разлику од грешака у моделу које се испоље кроз нагли пад резултата евалуације или нагли скок показатеља обуке и упућују на конкретну измену, ова се увукла неприметно. Један једини „мали гоблин“ у одговору могао би да буде безазлен, чак и симпатичан. Међутим, кроз генерације модела, тај образац је постало тешко не приметити: гоблини су се непрестано множили, а ми смо морали да утврдимо одакле потичу.

Током раног тестирања, GPT‑5.5 у Codex показао је необичну склоност ка метафорама о гоблинима.

Кратак одговор је да понашање модела обликују многи мали подстицаји. У овом случају, један од тих подстицаја потекао је од обучавања модела за функцију прилагођавања личности⁠(отвара се у новом прозору), конкретно за Nerdy личност. Несвесно смо додељивали посебно високе награде за метафоре са створењима. Одатле су се гоблини проширили.

Гоблини су у почетку били смешни, али је све већи број пријава запослених постао забрињавајући.

Занимљива интеракција коју је наш главни научник имао са GPT‑5.5.

Први знаци створења

Први пут смо јасно уочили образац у новембру, након лансирања GPT‑5.1, иако је можда започео раније⁠(отвара се у новом прозору). Корисници су се жалили да је модел у разговору чудно претерано присан, што је подстакло истрагу конкретних вербалних тикова. Један истраживач безбедности имао је искуства са неколико „гоблина” и „гремлина” и затражио је да буду укључени у проверу. Када смо проверили, употреба речи „гоблин” у ChatGPT‑у порасла је за 175% након лансирања GPT‑5.1, док је употреба речи „гремлин” порасла за 52%.

Мала мерљива лексичка особеност у GPT‑5.1.

У то време распрострањеност гоблина није изгледала посебно алармантно. Неколико месеци касније гоблини су се вратили да нас прогоне у много конкретнијем и поновљивом облику.

Решавање мистерије гоблина

Уз GPT‑5.4, ми и наши корисници⁠(отвара се у новом прозору) приметили смо још већи пораст броја помињања ових створења. То је покренуло још једну интерну анализу и указало на прву везу са основним узроком: језик створења био је посебно чест у продукционом саобраћају корисника који су изабрали „Nerdy“ личност. „Nerdy” је користио следећу системску инструкцију, која је делимично објаснила ту необичност:

Ти сте без извињења штреберски, разигран и мудар AI ментор за људе. С великим жаром и ентузијазмом промовишеш истину, знање, филозофију, научни метод и критичко мишљење. [...] Мораш да разбијеш претенциозност разиграном употребом језика. Свет је сложен и чудан, а његова чудноватост мора бити призната, анализирана и у њој се мора уживати. Бави се озбиљним темама, а да не упаднеш у замку претеране озбиљности. [...]

Ако би то понашање било напросто општи тренд на интернету, очекивали бисмо да се шири равномерније. Уместо тога, било је груписано у делу система изричито оптимизованом за разигран, штреберски стил. Nerdy је чинио само 2,5% свих одговора услуге ChatGPT, али 66,7% свих помињања речи „гоблин” у одговорима услуге ChatGPT.

Понашање је било изразито концентрисано код „Nerdy” личности.

Пошто се чинило да се заступљеност термина „гоблин“ повећава током издања наших модела, посумњали смо да нешто у нашој обуци за праћење упутстава у вези са личношћу то појачава.

Codex нам је помогао да упоредимо резултате модела генерисане током RL обуке који су садржали „гоблин” или „гремлин” са резултатима из истог задатка који их нису садржали. Један сигнал награде одмах се издвојио: онај који је првобитно осмишљен да подстакне Nerdy личност био је доследно наклоњенији излазима са речима које означавају створења. У свим скуповима података у оквиру ревизије, награда за Nerdy личност показала је јасну тенденцију да резултате за исти проблем који садрже „гоблин“ или „гремлин“ оцењује више од резултата који их не садрже, уз позитиван пораст у 76,2% скупова података.

То је објаснило зашто је понашање појачано инструкцијом Nerdy личности, али не и зашто се појавило и без те инструкције. Да бисмо тестирали да ли се стил преноси, пратили смо стопе помињања током обуке, и уз инструкцију Nerdy личности и без ње.

Како су се помињања гоблина и гремлина повећавала у оквиру Nerdy личности, повећала су се за готово исти релативни проценат и у узорцима без ње. Посматрани заједно, докази указују на то да је шире понашање настало путем преноса из обуке за Nerdy личност.

Награде су примењене само у Nerdy услову, али подстицајно учење не гарантује да научена понашања остају јасно ограничена на услов који их је произвео. Када се неки стилски тик награди, каснија обука може да га прошири или ојача на другим местима, посебно ако се ти излазни резултати поново користе у фином подешавању под надзором или у подацима о преференцијама.

То ствара повратну петљу:

Разиграни стил се награђује
Неки награђени примери садрже препознатљив лексички тик.
Тик се чешће појављује током увођења.
Резултати које генерише модел користе се за фино подешавање под надзором (SFT).
Модел постаје још више самопоуздан у производњи тика.

Претрага кроз GPT‑5.5 У SFT подацима пронађено је много тачака података које садрже „гоблин” и „гремлин”. Даља истрага открила је читаву породицу других необичних створења: ракуни, тролови, огри и голубови идентификовани су као друге речи тикове, док се испоставило да је већина употреба речи жаба била оправдана.

Просечна недељна заступљеност гоблина и гремлина у продукцији. Пад GPT‑5.4 Размишљање је било резултат повлачења „Nerdy” личности средином марта. GPT‑5.5 никада није покренут са „Nerdy“ личности и показао је још једно повећање у односу на GPT‑5.4 (чак и без „Nerdy“).

Крај гоблина

Повукли смо „Nerdy“ личност из употребе у марту, након објављивања GPT‑5.4. Током обучавања уклонили смо сигнал награде наклоњен гоблинима и филтрирали податке за обучавање који садрже речи о створењима, због чега је мање вероватно да ће се гоблини прекомерно појављивати или појављивати у неприкладним контекстима. Нажалост, GPT‑5.5 је почео да се обучава пре него што смо пронашли основни узрок гоблина. Када смо почели да тестирамо GPT‑5.5 у Codex, запослени у компанији OpenAI су одмах приметили чудну склоност ка гоблинима, па смо додали програмерску инструкцију⁠(отвара се у новом прозору) како бисмо то ублажили. Codex је, на крају крајева, прилично штреберски.

Ако желите да пустите створења да се слободно крећу у Codex, можете покренути ову команду како бисте стартовали Codex без упутстава за сузбијање гоблина:

Обичан текст

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Зашто је то важно

У зависности од тога кога питате, гоблини су симпатична или досадна особеност модела. Али они су такође моћан пример тога како сигнал награде може да обликује понашање модела на неочекиване начине и како модели могу да науче да генерализују награде из одређених ситуација на неповезане. Одвајање времена да се разуме зашто се модел понаша на необичан начин и развијање начина да се ти обрасци брзо истраже важна је способност за наш истраживачки тим. Ово истраживање је довело до нових алата помоћу којих истраживачки тим може да врши ревизију понашања модела и отклања проблеме у понашању у самом корену.

2026.

Аутор

OpenAI

Наставите са читањем

Прикажи све

GPT-Red: Откључавање самопобољшања за робусност

Безбедност15. јул 2026.

Раздвајање сигнала од шума у проценама програмирања

Истраживање8. јул 2026.

Представљамо GeneBench-Pro

Истраживање30. јун 2026.