Звідки взялися гобліни
Починаючи з GPT‑5.1, у наших моделей почала з’являтися дивна звичка: вони дедалі частіше згадували гоблінів, гремлінів та інших істот у своїх метафорах. На відміну від багів моделі, які проявляються через провалені оцінки або різкий стрибок метрик навчання й указують на конкретну зміну, цей випадок підкрадався непомітно. Один «маленький гоблін» у відповіді міг бути нешкідливим, навіть милим. Але від покоління до покоління моделей цю звичку ставало дедалі важче не помічати: гоблінів більшало, і нам потрібно було з’ясувати, звідки вони взялися.

Під час раннього тестування GPT‑5.5 у Codex виявляв дивну прихильність до метафор із гоблінами.
Коротка відповідь полягає в тому, що поведінка моделі формується багатьма невеликими стимулами. У цьому випадку один із таких стимулів виник під час навчання моделі для функції налаштування особистості(відкривається у новому вікні), зокрема для особистості Nerdy. Ми несвідомо призначили особливо високі винагороди за метафори з істотами. Звідти й з’явилися натовпи гоблінів.

Спочатку це здавалося кумедним, але зростання кількості повідомлень від працівників зі згадкою про гоблінів із часом почало викликати занепокоєння.

Цікава взаємодія нашого головного науковця з GPT‑5.5.
Уперше ми чітко побачили цю закономірність у листопаді, після запуску GPT‑5.1, — хоча, імовірно, це могло початися й раніше(відкривається у новому вікні). Користувачі скаржилися, що модель у розмові поводиться надто фамільярно, і це спонукало до розслідування конкретних мовних тиків. Один дослідник безпеки вже стикався з кількома «гоблінами» й «гремлінами», тож він попросив включити слова «goblin» та «gremlin» до перевірки. І з’ясувалося, що вживання слова «goblin» у ChatGPT після запуску GPT‑5.1 зросло на 175%, а «gremlin» — на 52%.
Вимірювана лексична особливість GPT‑5.1.
На той момент поширеність гоблінів не виглядала особливо тривожною. За кілька місяців гобліни знову дали про себе знати — уже в набагато конкретнішій і відтворюваній формі.
Починаючи з GPT‑5.4, ми разом із нашими користувачами(відкривається у новому вікні) помічали все більше згадок про цих істот. Це підштовхнуло нас до проведення ще одного внутрішнього аналізу та дозволило виявити першу зачіпку: згадки істот особливо часто траплялися в робочому трафіку від користувачів, які вибрали особистість «Nerdy». Для Nerdy використовувався такий системний запит, що частково пояснює цю химерність:
Ти — безкомпромісний ботанік і нерд, кумедний і мудрий ШІ-наставник для людини. Ти прагнеш поширювати істину, знання, філософію, науковий метод і критичне мислення. [...] Ти маєш підривати претензійність грайливим використанням мови. Світ складний і химерний, і цю химерність варто визнавати, аналізувати й отримувати від неї задоволення. Берися за серйозні теми, не потрапляючи в пастку надмірної серйозності. [...]
Якби ця поведінка була просто широким Інтернет-трендом, ми очікували б, що вона поширюватиметься рівномірніше. Натомість вона зосередилася в тій частині системи, яку явно оптимізували під грайливий, nerdy-стиль. На Nerdy припадало лише 2,5% усіх відповідей ChatGPT, але 66,7% усіх згадок слова «goblin» у відповідях ChatGPT.
Ця поведінка була значною мірою зосереджена в особистості «Nerdy».
Оскільки поширеність слова «goblin», здавалося, зростала від одного релізу моделі до іншого, ми запідозрили, що щось у нашому навчанні виконання інструкцій для особистостей посилює цей ефект.
Codex допоміг нам порівняти відповіді моделі, згенеровані під час RL-навчання, які містили слова «goblin» та «gremlin», з відповідями для того самого завдання, де їх не було. Один сигнал винагороди одразу впав в око: той, який спочатку розробляли для заохочення особистості Nerdy, стабільно був прихильнішим до виходів зі словами про істот. У всіх наборах даних аудиту винагорода за особистість Nerdy чітко демонструвала схильність оцінювати відповіді на ту саму проблему з «goblin» або «gremlin» вище, ніж відповіді без них; позитивне зростання спостерігалося в 76,2% наборів даних.
Це пояснювало, чому поведінка посилилася із запитом особистості Nerdy, але не пояснювало, чому вона з’являлася і без цього запиту. Щоб перевірити, чи переноситься стиль, ми відстежували частоту згадок протягом навчання як із запитом Nerdy, так і без нього.
Коли згадки гоблінів і гремлінів зростали в межах особистості Nerdy, вони збільшувалися майже в тій самій відносній пропорції і в зразках без неї. У сукупності ці докази свідчать, що ширша поведінка виникла через перенесення з навчання особистості Nerdy.
Винагороди застосовувалися лише в умові Nerdy, але навчання з підкріпленням не гарантує, що засвоєна поведінка залишатиметься чітко обмеженою умовою, яка її породила. Щойно стильовий тик отримує винагороду, подальше навчання може поширити або підсилити його деінде, особливо якщо ці відповіді потім повторно використовують у керованому донавчанні або в даних уподобань.
Це створює петлю зворотного зв’язку:
- Більша винагорода за грайливий стиль
- Деякі винагороджені приклади містять виразний лексичний тик.
- Тик частіше з’являється в rollout-відповідях.
- Згенеровані моделлю rollout-відповіді використовуються для керованого донавчання (SFT).
- Моделі стає ще комфортніше продукувати цей тик.
Пошук у даних SFT для GPT‑5.5 виявив багато прикладів даних, що містили «goblin» і «gremlin». Подальше розслідування виявило цілу родину інших дивних істот: єноти, тролі, огри й голуби також були ідентифіковані як слова-тики, тоді як більшість уживань слова «frog» (жаба) виявилися цілком легітимними.
Середнє тижневе значення виробничої поширеності гоблінів і гремлінів. Зменшення кількості в GPT‑5.4 Thinking стало наслідком відмови від особистості «Nerdy» у середині березня. GPT‑5.5 ніколи не запускали з особистістю «Nerdy», але він знову показав зростання порівняно з GPT‑5.4 (навіть без «Nerdy»).
Ми відмовилися від особистості «Nerdy» у березні після запуску GPT‑5.4. Під час навчання ми прибрали сигнал винагороди, пов’язаний із гоблінами, і відфільтрували навчальні дані, що містили слова про істот, зробивши появу гоблінів рідшою та менш імовірною в недоречних контекстах. На жаль, навчання GPT‑5.5 почалося ще до того, як ми знайшли першопричину появи гоблінів. Коли ми почали тестувати GPT‑5.5 у Codex, працівники OpenAI одразу помітили цю дивну прихильність до «гоблінських» метафор, і ми додали інструкцію в developer prompt(відкривається у новому вікні) для пом’якшення ефекту. Зрештою, Codex і сам — ще той нерд.
Якщо ви хочете дати істотам повну свободу в Codex, можете виконати цю команду, щоб запустити Codex без інструкцій, які пригнічують гоблінів:
Для когось гобліни — чарівна, а для когось — дратівлива особливість моделі. Але якщо без жартів, то це також яскравий приклад того, як сигнали винагороди можуть формувати поведінку моделі неочікуваними способами і як моделі можуть навчатися узагальнювати винагороди з одних ситуацій на зовсім не пов’язані інші. Розуміння того, чому модель поводиться дивно, і створення способів швидко досліджувати такі закономірності — важлива спроможність для нашої дослідницької команди. Це розслідування привело до створення нових інструментів для дослідницької команди, які дають змогу перевіряти поведінку моделей і виправляти проблеми поведінки в корені.


