Откуда взялись гоблины
Начиная с GPT‑5.1, у наших моделей начала проявляться странная привычка: они всё чаще упоминали гоблинов, гремлинов и других существ в своих метафорах. В отличие от ошибок модели, которые проявляются в резком падении показателей системы оценки (eval) или скачке обучающей метрики и указывают на конкретное изменение, эта проблема подкралась незаметно. Один «маленький гоблин» в ответе мог быть безобидным, даже обаятельным. Но в разных поколениях моделей эту привычку уже трудно было не заметить: гоблинов становилось всё больше, и нам нужно было понять, откуда они взялись.

В раннем тестировании GPT‑5.5 в Codex показала странную склонность к метафорам с гоблинами.
Краткий ответ заключается в том, что поведение модели формируется множеством небольших стимулов. В этом случае одним из таких стимулов стало обучение модели для функции настройки личности(открывается в новом окне), в частности для характера «Гиковский» (Nerdy). Мы, сами того не осознавая, назначали особенно высокие вознаграждения за метафоры с существами. С этого момента гоблины начали распространяться.

Поначалу гоблины были забавными, но растущее число сообщений от сотрудников стало вызывать беспокойство.

Любопытное взаимодействие нашего главного научного сотрудника с GPT‑5.5.
Впервые мы отчетливо увидели эту закономерность в ноябре, после запуска GPT‑5.1, хотя она могла начаться раньше(открывается в новом окне). Пользователи жаловались, что модель была странно фамильярна в разговоре, что послужило поводом для расследования конкретных речевых тиков. Исследователь в области безопасности столкнулся с несколькими «гоблинами» и «гремлинами» и попросил включить их в проверку. Когда мы проверили, использование слова «гоблин» в ChatGPT выросло на 175% после запуска GPT‑5.1, а «гремлин» — на 52%.
Измеримая небольшая лексическая причуда в GPT‑5.1.
В то время распространённость гоблинов не выглядела особенно тревожной. Но несколько месяцев спустя гоблины вернулись и начали преследовать нас в гораздо более конкретной и воспроизводимой форме.
Благодаря GPT‑5.4, мы и наши пользователи(открывается в новом окне) заметили еще более сильный рост количества упоминаний этих существ. Это запустило ещё один внутренний анализ и позволило выявить первую связь с первопричиной: язык с существами был особенно распространён в трафике реальных пользователей, выбравших характер «Гиковский». Для характера «Гиковский» использовался следующий системный промпт, который частично объяснял эту причудливость:
Ты — беззастенчиво гиковский, озорной и мудрый ИИ-наставник для человека. Ты с искренним энтузиазмом продвигаешь истину, знания, философию, научный метод и критическое мышление. [...] Ты должен сбивать спесь игривым использованием языка. Мир сложен и странен, и эту его странность нужно признавать, анализировать и ею наслаждаться. Берись за серьёзные темы, не попадая в ловушку чрезмерной серьёзности. [...]
Если бы это поведение было просто широким интернет-трендом, мы ожидали бы, что оно распространится более равномерно. Вместо этого оно было сосредоточено в той части системы, которая явно оптимизировалась под игривый, гиковатый стиль. На «Гиковский» приходилось лишь 2,5% всех ответов ChatGPT, но 66,7% всех упоминаний «гоблинов» в ответах ChatGPT.
Это поведение было в основном сосредоточено в характере «Гиковский».
Поскольку распространённость «гоблинов», по-видимому, росла по мере выхода новых версий наших моделей, у нас возникло подозрение, что что-то в нашем обучении следованию личностным инструкциям усиливает этот эффект.
Codex помог нам сравнить ответы модели, сгенерированные в ходе обучения с подкреплением (RL) и содержащие «гоблин» или «гремлин», с ответами по той же задаче без этих слов. Один сигнал вознаграждения сразу выделился: тот, что изначально был разработан для поощрения характера «Гиковский», стабильно оказывался более благоприятным для ответов со словами о существах. Во всех наборах данных в рамках аудита сигнал вознаграждения для характера «Гиковский» демонстрировал явную склонность оценивать ответы на одну и ту же задачу с «гоблин» или «гремлин» выше, чем ответы без них; положительный прирост наблюдался в 76,2% наборов данных.
Это объясняло, почему поведение усиливалось при характере «Гиковский», но не объясняло, почему оно проявлялось и без него. Чтобы проверить, переносится ли этот стиль, мы отслеживали частоту упоминаний в ходе обучения как с промптом «Гиковский», так и без него.
По мере того как упоминания «гоблин» и «гремлин» росли при характере «Гиковский», они увеличивались почти в той же относительной пропорции и в выборках без него. В совокупности эти данные указывают на то, что более широкое поведение возникло за счёт переноса из обучения характеру «Гиковский».
Сигналы вознаграждения применялись только в условии характера «Гиковский», однако обучение с подкреплением не гарантирует, что усвоенное поведение останется строго ограниченным этим условием. Как только стилевой тик получает вознаграждение, последующее обучение может распространить или усилить его в других контекстах, особенно если такие ответы затем повторно используются в контролируемой тонкой настройке или в данных предпочтений.
Это создаёт петлю обратной связи:
- Вознаграждается игривый стиль
- Некоторые примеры вознаграждений содержат характерный лексический тик.
- Тик чаще появляется в сгенерированных вариантах (rollouts).
- Сгенерированные моделью варианты (rollouts) используются для контролируемой тонкой настройки (SFT).
- Модель становится ещё увереннее в воспроизведении этого тика.
Поиск по SFT-данным GPT‑5.5 выявил множество примеров с «гоблин» и «гремлин». Дальнейший анализ показал целое семейство других странных существ: еноты, тролли, огры и голуби также выступали словами-тиками, тогда как большинство случаев использования лягушек оказалось корректным.
Среднее значение распространенности гоблинов и гремлинов в рабочей среде за одну неделю. Снижение в GPT‑5.4 Thinking стало результатом вывода характера «Гиковский» из обращения в середине марта. GPT‑5.5 не запускалась с характером «Гиковский» и показала ещё один рост по сравнению с GPT‑5.4 (даже без него).
Мы вывели характер «Гиковский» из обращения в марте после запуска GPT‑5.4. В обучении мы убрали сигнал вознаграждения, тяготеющий к гоблинам, и отфильтровали обучающие данные, содержащие слова о существах, чтобы снизить вероятность того, что гоблины будут появляться слишком часто или в неподходящих контекстах. К сожалению, обучение GPT‑5.5 началось до того, как мы нашли первопричину появления гоблинов. Когда мы начали тестировать GPT‑5.5 в Codex, сотрудники OpenAI сразу заметили странную склонность к гоблинским метафорам, и мы добавили инструкцию в системный промпт (developer-prompt)(открывается в новом окне) для смягчения эффекта. Codex всё-таки довольно гиковский.
Если вы хотите дать существам полную свободу в Codex, можно выполнить эту команду, чтобы запустить Codex без инструкций, подавляющих упоминания гоблинов:
В зависимости от того, кого спросить, гоблины — это либо очаровательная, либо раздражающая причуда модели. Но это также наглядный пример того, как сигналы вознаграждения могут неожиданно формировать поведение модели и как модели могут обобщать вознаграждение из одних ситуаций на другие, не связанные с ними. Понять, почему модель ведёт себя странно, и выстроить способы быстро исследовать такие паттерны — важная задача для нашей исследовательской команды. Это исследование привело к созданию новых инструментов, позволяющих анализировать поведение модели и устранять проблемы на уровне первопричины.


