29 апреля 2026 г.

Откуда взялись гоблины

Загрузка…

Начиная с GPT‑5.1, у наших моделей начала проявляться странная привычка: они всё чаще упоминали гоблинов, гремлинов и других существ в своих метафорах. В отличие от ошибок модели, которые проявляются в резком падении показателей системы оценки (eval) или скачке обучающей метрики и указывают на конкретное изменение, эта проблема подкралась незаметно. Один «маленький гоблин» в ответе мог быть безобидным, даже обаятельным. Но в разных поколениях моделей эту привычку уже трудно было не заметить: гоблинов становилось всё больше, и нам нужно было понять, откуда они взялись.

В раннем тестировании GPT‑5.5 в Codex показала странную склонность к метафорам с гоблинами.

Краткий ответ заключается в том, что поведение модели формируется множеством небольших стимулов. В этом случае одним из таких стимулов стало обучение модели для функции настройки личности⁠(открывается в новом окне), в частности для характера «Гиковский» (Nerdy). Мы, сами того не осознавая, назначали особенно высокие вознаграждения за метафоры с существами. С этого момента гоблины начали распространяться.

Поначалу гоблины были забавными, но растущее число сообщений от сотрудников стало вызывать беспокойство.

Любопытное взаимодействие нашего главного научного сотрудника с GPT‑5.5.

Первые признаки существ

Впервые мы отчетливо увидели эту закономерность в ноябре, после запуска GPT‑5.1, хотя она могла начаться раньше⁠(открывается в новом окне). Пользователи жаловались, что модель была странно фамильярна в разговоре, что послужило поводом для расследования конкретных речевых тиков. Исследователь в области безопасности столкнулся с несколькими «гоблинами» и «гремлинами» и попросил включить их в проверку. Когда мы проверили, использование слова «гоблин» в ChatGPT выросло на 175% после запуска GPT‑5.1, а «гремлин» — на 52%.

Измеримая небольшая лексическая причуда в GPT‑5.1.

В то время распространённость гоблинов не выглядела особенно тревожной. Но несколько месяцев спустя гоблины вернулись и начали преследовать нас в гораздо более конкретной и воспроизводимой форме.

Разгадка тайны гоблинов

Благодаря GPT‑5.4, мы и наши пользователи⁠(открывается в новом окне) заметили еще более сильный рост количества упоминаний этих существ. Это запустило ещё один внутренний анализ и позволило выявить первую связь с первопричиной: язык с существами был особенно распространён в трафике реальных пользователей, выбравших характер «Гиковский». Для характера «Гиковский» использовался следующий системный промпт, который частично объяснял эту причудливость:

Ты — беззастенчиво гиковский, озорной и мудрый ИИ-наставник для человека. Ты с искренним энтузиазмом продвигаешь истину, знания, философию, научный метод и критическое мышление. [...] Ты должен сбивать спесь игривым использованием языка. Мир сложен и странен, и эту его странность нужно признавать, анализировать и ею наслаждаться. Берись за серьёзные темы, не попадая в ловушку чрезмерной серьёзности. [...]

Если бы это поведение было просто широким интернет-трендом, мы ожидали бы, что оно распространится более равномерно. Вместо этого оно было сосредоточено в той части системы, которая явно оптимизировалась под игривый, гиковатый стиль. На «Гиковский» приходилось лишь 2,5% всех ответов ChatGPT, но 66,7% всех упоминаний «гоблинов» в ответах ChatGPT.

Это поведение было в основном сосредоточено в характере «Гиковский».

Поскольку распространённость «гоблинов», по-видимому, росла по мере выхода новых версий наших моделей, у нас возникло подозрение, что что-то в нашем обучении следованию личностным инструкциям усиливает этот эффект.

Codex помог нам сравнить ответы модели, сгенерированные в ходе обучения с подкреплением (RL) и содержащие «гоблин» или «гремлин», с ответами по той же задаче без этих слов. Один сигнал вознаграждения сразу выделился: тот, что изначально был разработан для поощрения характера «Гиковский», стабильно оказывался более благоприятным для ответов со словами о существах. Во всех наборах данных в рамках аудита сигнал вознаграждения для характера «Гиковский» демонстрировал явную склонность оценивать ответы на одну и ту же задачу с «гоблин» или «гремлин» выше, чем ответы без них; положительный прирост наблюдался в 76,2% наборов данных.

Это объясняло, почему поведение усиливалось при характере «Гиковский», но не объясняло, почему оно проявлялось и без него. Чтобы проверить, переносится ли этот стиль, мы отслеживали частоту упоминаний в ходе обучения как с промптом «Гиковский», так и без него.

По мере того как упоминания «гоблин» и «гремлин» росли при характере «Гиковский», они увеличивались почти в той же относительной пропорции и в выборках без него. В совокупности эти данные указывают на то, что более широкое поведение возникло за счёт переноса из обучения характеру «Гиковский».

Сигналы вознаграждения применялись только в условии характера «Гиковский», однако обучение с подкреплением не гарантирует, что усвоенное поведение останется строго ограниченным этим условием. Как только стилевой тик получает вознаграждение, последующее обучение может распространить или усилить его в других контекстах, особенно если такие ответы затем повторно используются в контролируемой тонкой настройке или в данных предпочтений.

Это создаёт петлю обратной связи:

Вознаграждается игривый стиль
Некоторые примеры вознаграждений содержат характерный лексический тик.
Тик чаще появляется в сгенерированных вариантах (rollouts).
Сгенерированные моделью варианты (rollouts) используются для контролируемой тонкой настройки (SFT).
Модель становится ещё увереннее в воспроизведении этого тика.

Поиск по SFT-данным GPT‑5.5 выявил множество примеров с «гоблин» и «гремлин». Дальнейший анализ показал целое семейство других странных существ: еноты, тролли, огры и голуби также выступали словами-тиками, тогда как большинство случаев использования лягушек оказалось корректным.

Среднее значение распространенности гоблинов и гремлинов в рабочей среде за одну неделю. Снижение в GPT‑5.4 Thinking стало результатом вывода характера «Гиковский» из обращения в середине марта. GPT‑5.5 не запускалась с характером «Гиковский» и показала ещё один рост по сравнению с GPT‑5.4 (даже без него).

Конец гоблинов

Мы вывели характер «Гиковский» из обращения в марте после запуска GPT‑5.4. В обучении мы убрали сигнал вознаграждения, тяготеющий к гоблинам, и отфильтровали обучающие данные, содержащие слова о существах, чтобы снизить вероятность того, что гоблины будут появляться слишком часто или в неподходящих контекстах. К сожалению, обучение GPT‑5.5 началось до того, как мы нашли первопричину появления гоблинов. Когда мы начали тестировать GPT‑5.5 в Codex, сотрудники OpenAI сразу заметили странную склонность к гоблинским метафорам, и мы добавили инструкцию в системный промпт (developer-prompt)⁠(открывается в новом окне) для смягчения эффекта. Codex всё-таки довольно гиковский.

Если вы хотите дать существам полную свободу в Codex, можно выполнить эту команду, чтобы запустить Codex без инструкций, подавляющих упоминания гоблинов:

Простой текст

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Почему это имеет значение

В зависимости от того, кого спросить, гоблины — это либо очаровательная, либо раздражающая причуда модели. Но это также наглядный пример того, как сигналы вознаграждения могут неожиданно формировать поведение модели и как модели могут обобщать вознаграждение из одних ситуаций на другие, не связанные с ними. Понять, почему модель ведёт себя странно, и выстроить способы быстро исследовать такие паттерны — важная задача для нашей исследовательской команды. Это исследование привело к созданию новых инструментов, позволяющих анализировать поведение модели и устранять проблемы на уровне первопричины.

2026

Автор

OpenAI

Читать далее

Просмотреть все

GPT-Red: самоулучшение ради устойчивости

Безопасность15 июл. 2026 г.

Отделяя сигнал от шума в оценках кода

Исследования8 июл. 2026 г.

Представляем GeneBench-Pro

Исследования30 июн. 2026 г.