Откъде се появиха гоблините
Започвайки с GPT‑5.1, нашите модели започнаха да развиват странен навик: все по-често споменаваха гоблини, грeмлини и други създания в метафорите си. За разлика от бъговете в моделите, които се проявяват чрез сриваща се оценка или рязко покачване на метрика при обучението и сочат към конкретна промяна, този се промъкна неусетно. Един-единствен „малък гоблин“ в отговор може да е безобиден, дори чаровен. Но в различните поколения модели навикът стана труден за пренебрегване: гоблините продължаваха да се множат и трябваше да разберем откъде идват.

При ранните тестове GPT‑5.5 в Codex показа странен афинитет към метафори с гоблини.
Краткият отговор е, че поведението на модела се оформя от множество малки стимули. В този случай един от тези стимули произтичаше от обучението на модела за функцията за персонализиране на личността(отваря се в нов прозорец), по-специално за „Задълбочения стил на личност“ („Nerdy“). Без да знаем, давахме особено високи награди за метафори със същества. Оттам нататък гоблините се разпространиха.

В началото гоблините бяха забавни, но нарастващият брой сигнали на служители започна да буди тревога.

Интересно взаимодействие на нашия главен научен ръководител с GPT‑5.5.
Първият път, когато ясно забелязахме тази закономерност, беше през ноември след спускането на GPT‑5.1, макар че е възможно да е започнала по-рано(отваря се в нов прозорец). Потребители се оплакваха, че моделът е странно фамилиарен в разговор, което предизвика разследване на конкретни словесни тикове. Изследовател по безопасност беше срещнал няколко споменавания на „гоблини“ и „гремлини“ и поиска те да бъдат включени в проверката При проверката установихме, че употребата на думата „гоблин“ в ChatGPT се беше увеличила със 175% след пускането на GPT‑5.1, докато тази на думата „гремлин“ – с 52%.
Измерима малка лексикална особеност в GPT‑5.1.
По това време разпространението на гоблините не изглеждаше особено тревожно. Няколко месеца по-късно те отново се завърнаха, за да ни преследват в много по-конкретна и възпроизводима форма.
В модела GPT‑5.4 ние и нашите потребители(отваря се в нов прозорец) забелязахме още по-честото споменаване на тези същества. Това предизвика нов вътрешен анализ и разкри първата връзка с първопричината: езикът със същества беше особено често срещан в продукционния трафик от потребители, които бяха избрали „Задълбочения стил на личност“. „Задълбочения стил на личност“ използваше следната системна подкана, която отчасти обясняваше странностите:
Ти си безкомпромисно задълбочен, игрив и мъдър наставник с изкуствен интелект на човек. Имаш пламенен ентусиазъм за истината, знанието, философията, научния метод и критичното мислене. [...] Трябва да неутрализираш претенциозността чрез игрива употреба на езика. Светът е сложен и странен и тази странност трябва да бъде призната, анализирана и оценена. Подхождай към тежки теми, без да попадаш в капана на прекалената сериозност. [...]
Ако поведението беше просто широко разпространена интернет тенденция, бихме очаквали то да се разпространи по-равномерно. Вместо това то беше концентрирано в частта от системата, изрично оптимизирана за игрив, интелектуално задълбочен стил. „Задълбоченият стил на личност“ съставляваше само 2,5% от всички отговори в ChatGPT, но при него се наблюдават 66,7% от всички споменавания на думата „гоблин“ в отговорите на ChatGPT.
Поведението беше силно концентрирано в „Задълбочения стил на личност“.
Тъй като честотата на думата „гоблин“ изглежда се увеличаваше с излизането на новите версии на модела, възникна подозрението, че нещо в обучението ни за спазване на инструкциите за различните видове личности усилваше този ефект.
Codex ни помогна да сравним резултатите от модела, генерирани по време на RL обучение, които съдържаха думите „гоблин“ или „гремлин“, с резултатите от същата задача, в които те липсваха. Един сигнал за награда веднага се открои: този, който първоначално беше създаден, за да насърчава „Задълбочения стил на личност“, беше неизменно по-благосклонен към резултатите, включващи думи за създания. Във всички набори от данни в одита наградата за „Задълбочения стил на личност“ показа ясна тенденция да оценява по-високо резултатите за същия проблем, съдържащи думата „гоблин“ или „гремлин“, в сравнение с резултатите без тях, с положително увеличение в 76,2% от наборите от данни.
Това обясняваше защо поведението се засилваше с подканата за „Задълбочения стил на личност“, но не и защо се появяваше и без тази подкана. За да проверим дали стилът се пренася, проследихме честотата на споменаване по време на обучението както със, така и без подканата за „Задълбочения стил на личност“.
Тъй като честотата на споменаване на думите „гоблин“ и „гремлин“ се увеличи при „Задълбочения стил на личност“, тя нарасна с почти същия относителен дял и в извадки без него. Като цяло доказателствата подсказват, че по-широкото поведение е възникнало чрез пренос от обучението за „Задълбочения стил на личност“.
Наградите се прилагаха само при условието „Задълбочен стил на личност“, но обучението с утвърждение не гарантира, че научените поведения ще останат строго ограничени до условието, което ги е породило. След като даден стилов тик бъде възнаграден, последващото обучение може да го разпространи или подсили и другаде, особено ако тези изходи бъдат използвани повторно при контролирано прецизиране или в данни за предпочитания.
Това създава обратна връзка:
- Игривият стил се възнаграждава
- Някои възнаградени примери съдържат отличителен лексикален тик.
- Тикът се появява по-често в генерираните отговори.
- Генерираните отговори от модела се използват за контролирано прецизиране (SFT).
- Моделът става още по-уверен в създаването на този тик.
Търсене в SFT данните на GPT‑5.5 открити много точки от данни, съдържащи думите „гоблин“ и „гремлин“. По-нататъшното разследване разкри цяло семейство от други странни създадния: миещи мечки, тролове, огри и гълъби бяха идентифицирани като други думи-тикове, докато повечето употреби на думата „жаба“ се оказаха легитимни.
Средна седмична честота на „гоблини“ и „гремлини“ в продукционна среда. Спадът на честотата при GPT‑5.4 Thinking беше резултат от пенсионирането на „Задълбочения стил на личност“ в средата на март. GPT‑5.5 никога не беше пуснат със „Задълбочения стил на личност“ и показа ново увеличение спрямо GPT‑5.4 (дори и без „Задълбочения стил на личност“).
Пенсионирахме „Задълбочения стил на личност“ през март след пускането на GPT‑5.4. В обучението премахнахме сигнала за награда, благоприятстващ гоблините, и филтрирахме обучителните данни, съдържащи думи за създания, като така направихме по-малко вероятно гоблините да се появяват прекомерно или в неподходящ контекст. За съжаление, GPT‑5.5 започна обучението си, преди да открием първопричината за появата на гоблините. Когато започнахме да тестваме GPT‑5.5 в Codex, служителите на OpenAI веднага забелязаха странния афинитет към гоблините и добавихме инструкция в подканата за разработчиците(отваря се в нов прозорец), за да отстраним проблема. В края на краищата, Codex е доста „задълбочен“ по същността си.
Ако искате да оставите създанията да се развихрят свободно в Codex, можете да изпълните тази команда, за да стартирате Codex с премахнати инструкции за потискане на гоблините:
В зависимост от това кого питате, гоблините са очарователна или дразнеща странност на модела. Но те са и силен пример за това как сигналите за награда могат да оформят поведението на модела по неочаквани начини и как моделите могат да се научат да обобщават наградите от определени ситуации към несвързани такива. Да отделяме време, за да разберем защо един модел се държи по странен начин, и да изграждаме начини за бързо разследване на тези модели е важна способност за нашия изследователски екип. Това разследване доведе до нови инструменти за изследователския екип, с които да одитира поведението на моделите и да поправя поведенческите проблеми в корена им.


