Од каде дојдоа гоблините
Почнувајќи со GPT‑5.1, нашите модели почнаа да развиваат чудна навика: сè почесто спомнуваа гоблини, гремлини и други суштества во своите метафори. За разлика од грешките во моделот што се појавуваат преку нагло паѓање на евалуацијата или скок на метриката за обука и укажуваат на конкретна промена, оваа се вовлече незабележливо. Еден „мал гоблин“ во одговор можеше да биде безопасен, дури и шармантен. Но низ генерациите модели, навиката стана тешко да се игнорира: гоблините продолжија да се множат и требаше да откриеме од каде доаѓаат.

Во раното тестирање, GPT‑5.5 во Codex покажа чудна наклонетост кон гоблински метафори.
Краткиот одговор е дека однесувањето на моделот го обликуваат многу мали стимули. Во овој случај, еден од тие стимули произлезе од обучувањето на модел за функцијата за приспособување на карактерот(се отвора во нов прозорец), особено за карактерот Nerdy. Несвесно доделивме особено високи награди за метафори со суштества. Оттаму, гоблините се раширија.

Гоблините на почетокот беа смешни, но растечкиот број пријави од вработени стана загрижувачки.

Интересна интеракција што нашиот главен научник ја имаше со GPT‑5.5.
Првиот пат кога јасно го забележавме образецот беше во ноември, по лансирањето на GPT‑5.1, иако можеби започнал порано(се отвора во нов прозорец). Корисниците се пожалија дека моделот во разговорот е чудно премногу фамилијарен, што поттикна истрага за конкретни вербални тикови. Еден истражувач за безбедност имал искуство со неколку „гоблини“ и „гремлини“ и побарал тие да бидат вклучени во проверката. Кога проверивме, употребата на „гоблин“ во ChatGPT се имаше зголемено за 175% по лансирањето на GPT‑5.1, додека употребата на „гремлин“ се имаше зголемено за 52%.
Мерлива мала лексичка необичност во GPT‑5.1.
Во тоа време, зачестеноста на гоблините не изгледаше особено алармантно. Неколку месеци подоцна, гоблините повторно нè прогонуваа во многу поконкретна и повторлива форма.
Со GPT‑5.4, ние и нашите корисници(се отвора во нов прозорец) забележавме уште поголем пораст во споменувањата на овие суштества. Тоа предизвика уште една внатрешна анализа и ја откри првата врска со коренската причина: јазикот со суштества беше особено чест во продукцискиот сообраќај од корисници што ја имаа избрано личноста „Nerdy“. „Nerdy“ го користеше следниов системски промпт, кој делумно ја објаснуваше необичноста:
Ти си нескриено „бубалица“, разигран и мудар ментор со вештачка интелигенција за човек. Со голем жар и ентузијазам се залагаш за промовирање на вистината, знаењето, филозофијата, научниот метод и критичкото размислување. [...] Мора да ја поткопаш претенциозноста преку разиграна употреба на јазикот. Светот е сложен и чуден, а неговата чудност мора да се признае, анализира и во неа да се ужива. Обработувај теми со тежина без да западнеш во стапицата на претераната самосериозност. [...]
Ако однесувањето беше едноставно широк интернет-тренд, ќе очекувавме да се шири порамномерно. Наместо тоа, беше групирано во делот од системот што беше експлицитно оптимизиран за разигран, стил на „бубалица“. Nerdy учествуваше со само 2,5% од сите одговори на ChatGPT, но со 66,7% од сите спомнувања на „гоблин“ во одговорите на ChatGPT.
Ова однесување беше силно концентрирано во личноста „Nerdy“.
Бидејќи зачестеноста на „гоблин“ изгледаше како да расте низ нашите изданија на модели, се посомневавме дека нешто во нашата обука за следење инструкции за личности го засилува ова.
Codex ни помогна да ги споредиме резултатите на моделот генерирани за време на RL-обуката што содржеа „гоблин“ или „гремлин“ со резултатите од истата задача што не ги содржеа. Еден сигнал за награда веднаш се издвои: оној што првично беше дизајниран да ја поттикнува личноста „Nerdy“ постојано беше поповолен кон резултатите со зборови за суштества. Низ сите податочни множества во ревизијата, наградата за личноста „Nerdy“ покажа јасна тенденција да ги оценува повисоко резултатите за истиот проблем што содржат „гоблин“ или „гремлин“ отколку резултатите што не ги содржат, со позитивно зголемување во 76,2 % од збировите податоци.
Тоа објасни зошто однесувањето беше засилено со промптот за личноста Nerdy, но не и зошто се појавуваше и без тој промпт. За да тестираме дали стилот се пренесува, ги следевме стапките на спомнување низ обуката и со и без промптот Nerdy.
Како што спомнувањата на гоблин и гремлин се зголемуваа кај личноста Nerdy, тие се зголемуваа со речиси истиот релативен процент и кај примероците без неа. Земени заедно, доказите сугерираат дека поширокото однесување се појавило преку пренос од обуката за личноста Nerdy.
Наградите беа применети само во условот Nerdy, но зајакнување на учењето не гарантира дека научените однесувања ќе останат уредно ограничени на условот што ги произвел. Штом некој стилски тик ќе биде награден, подоцнежната обука може да го прошири или зацврсти и на други места, особено ако тие резултати повторно се користат во надгледувано фино прилагодување или во податоци за преференции.
Тоа создава круг на повратни информации:
- Разиграниот стил е награден
- Некои наградени примери содржат препознатлив лексички тик.
- Тикот се појавува почесто во пуштањата во употреба.
- Пуштањата во употреба создадени од модел се користат за надгледувано фино прилагодување (SFT).
- На моделот му станува уште поприродно да го произведува тикот.
Пребарување низ GPT‑5.5 Во податоците за SFT беа пронајдени многу податочни точки што содржат „гоблин“ и „гремлин“. Понатамошната истрага откри цело семејство други чудни суштества: ракуни, тролови, огри и гулаби беа идентификувани како други тик-зборови, додека повеќето употреби на жаба се покажаа како легитимни.
Еднонеделен просек на преваленцијата на гоблини и гремлини во продукција. Падот кај GPT‑5.4 Размислувањето беше резултат на повлекувањето на личноста „Nerdy“ во средината на март. GPT‑5.5 никогаш не беше лансиран со личноста „Nerdy“ и покажа уште едно зголемување во однос на GPT‑5.4 (дури и без „Nerdy“).
Ја повлековме личноста „Nerdy“ во март, по лансирањето на GPT‑5.4. За време на обуката, го отстранивме сигналот за награда наклонет кон гоблини и ги филтриравме податоците за обука што содржеа зборови за суштества, со што ја намаливме веројатноста гоблините прекумерно да се појавуваат или да се јавуваат во несоодветни контексти. За жал, GPT‑5.5 почна да се обучува пред да ја најдеме основната причина за гоблините. Кога почнавме да го тестираме GPT‑5.5 во Codex, вработените во OpenAI веднаш ја забележаа чудната наклонетост кон гоблини, па додадовме инструкција за програмерски промпт(се отвора во нов прозорец) за да го ублажиме тоа. Codex е, на крајот на краиштата, прилично како „бубалица“.
Ако сакате да им дозволите на суштествата слободно да дивеат во Codex, можете да ја извршите оваа команда за да го стартувате Codex со отстранети инструкции за потиснување на гоблините:
Во зависност од тоа кого прашувате, гоблините се шармантна или иритирачка необичност на моделот. Но тие се и моќен пример за тоа како сигналите за награда можат да го обликуваат однесувањето на моделот на неочекувани начини, и како моделите можат да научат да ги генерализираат наградите во одредени ситуации кон неповрзани други. Одвојувањето време за да се разбере зошто моделот се однесува на чуден начин, и градењето начини за брзо истражување на тие шеми, е важна способност за нашиот истражувачки тим. Оваа истрага резултираше со нови алатки за истражувачкиот тим за ревизија на однесувањето на моделот и поправање на проблемите во однесувањето во нивниот корен.


