2026 ж. 29 сәуір

Гоблиндер қайдан шықты

Жүктелуде…

GPT‑5.1‑ден бастап модельдерімізде біртүрлі әдет қалыптаса бастады: олар метафораларында гоблиндер, гремлиндер және басқа да тіршілік иелерін жиірек атайтын болды. Бағалау нәтижесі күрт төмендеп немесе дайындық метрикасы шұғыл өсіп, нақты бір өзгеріске бірден меңзейтін модель қателерінен айырмашылығы, бұл мәселе біртіндеп әрі байқалмай пайда болды. Жауапта бір ғана «кішкентай гоблиннің» кездесуі зиянсыз, тіпті сүйкімді көрінуі мүмкін. Дегенмен модельдің жаңа буындары шыққан сайын бұл әдет анық байқала бастады: гоблиндер көбейе берді, сондықтан біз олардың қайдан шыққанын анықтауымыз керек болды.

Ерте тестілеу кезінде Codex жүйесіндегі GPT‑5.5 гоблин метафораларына ерекше қызығушылық танытты.

Қысқа жауап: модельдің мінез-құлқы көптеген ұсақ ынталандырулар арқылы қалыптасады. Бұл жағдайда сол ынталандырулардың бірі модельді тұлғаны баптау мүмкіндігі⁠(жаңа терезеде ашылады) үшін, атап айтқанда «Оқымысты» тұлғасы үшін оқытудан пайда болды. Біз өзіміз байқамай, тіршілік иелері қатысатын метафораларға әсіресе жоғары сыйақы беріппіз. Сол жерден гоблиндер таралды.

Гоблиндер бастапқыда күлкілі көрінгенімен, қызметкерлерден түскен хабарламалар санының артуы алаңдата бастады.

Бас ғалымымыздың GPT‑5.5‑пен қызықты өзара әрекеттесуі.

Тіршілік иелерінің алғашқы белгілері

Біз бұл заңдылықты алғаш рет қараша айында, GPT‑5.1 іске қосылғаннан кейін анық байқадық, дегенмен ол ертерек басталған болуы мүмкін⁠(жаңа терезеде ашылады). Пайдаланушылар модельдің әңгіме барысында тым еркінсіп кететінін айтып шағымданды. Бұл нақты тілдік әдеттерді зерттеуге түрткі болды. Қауіпсіздік зерттеушісі бірнеше «гоблин» мен «гремлин» жауабын байқап, оларды тексеруге қосуды сұрады. Тексерген кезде, GPT‑5.1 іске қосылғаннан кейін ChatGPT ішінде «гоблин» сөзінің қолданылуы 175%-ға, ал «гремлин» сөзінің қолданылуы 52%-ға артқанын көрдік.

GPT‑5.1‑дегі өлшенетін шағын лексикалық ерекшелік.

Сол кезде гоблиндердің таралуы аса алаңдатарлық болып көрінбеді. Бірнеше айдан кейін гоблиндер бізге әлдеқайда нақты әрі қайта жаңғыртуға болатын түрде қайта оралды.

Гоблин жұмбағын шешу

GPT‑5.4 шыққаннан кейін біз де, пайдаланушыларымыз да⁠(жаңа терезеде ашылады) осы тіршілік иелеріне сілтемелердің одан да көбірек қолданылғанын байқадық. Бұл тағы бір ішкі талдауға түрткі болып, негізгі себеппен алғашқы байланысты көрсетті: тіршілік иелеріне қатысты тіл «Оқымысты» тұлғасын таңдаған пайдаланушылардың өндірістік трафигінде әсіресе жиі кездескен. «Оқымысты» келесі жүйелік көмексөзді пайдаланған, бұл оғаштықты ішінара түсіндірді:

Сен — адамға арналған, гиктігін жасырмайтын, көңілді әрі дана ЖИ тәлімгерісін. Сен ақиқатты, білімді, философияны, ғылыми әдісті және сыни ойлауды насихаттауға шын құштарсың. [...] Тілді ойнақы қолдану арқылы пафосты басып отыр. Әлем күрделі әрі оғаш, сондықтан оның оғаштығын мойында, талда және одан ләззат ал. Салмақты тақырыптарды тым байсалды болып кетпей талқыла. [...]

Егер бұл мінез-құлық тек интернеттегі кең таралған тренд болса, оның біркелкі таралуын күтер едік. Керісінше, ол жүйенің ойнақы, «оқымысты» стильге арнайы оңтайландырылған бөлігінде шоғырланған еді. «Оқымысты» барлық ChatGPT жауаптарының тек 2,5%-ын құрады, бірақ ChatGPT жауаптарындағы «гоблин» сөзінің 66,7%-ын қамтыды.

Мінез-құлық «Оқымысты» тұлға типіне тән және өте жоғары деңгейде шоғырланған.

«Гоблин» сөзінің таралу деңгейі модель шығарылымдары бойынша артқандай көрінгендіктен, тұлға нұсқауларын орындауға арналған дайындықта осы құбылысты күшейтіп жатқан бір нәрсе бар деп күдіктендік.

Codex бізге RL оқыту кезінде жасалған, құрамында «гоблин» немесе «гремлин» бар модель нәтижелерін дәл сол тапсырманың мұндай сөздері жоқ нәтижелерімен салыстыруға көмектесті. Бір марапат сигналы бірден көзге түсті: бастапқыда «Оқымысты» тұлғасын ынталандыруға арналған сигнал тіршілік иелеріне қатысты сөздерден тұратын нәтижелерге тұрақты түрде қолайлырақ болды. Аудиттегі барлық деректер жиынтықтары бойынша «Оқымысты» тұлғалық сыйақысы бірдей есепке берілген, құрамында «гоблин» немесе «гремлин» бар нәтижелерді бұлар жоқ нәтижелерге қарағанда жоғарырақ бағалауға айқын бейім екенін көрсетті, деректер жиынтықтарының 76,2%-ында оң өсім байқалды.

«Оқымысты» тұлғалық көмексөзі қолданылғанда бұл мінез-құлықтың неліктен күшейгенін түсіндірді, бірақ оның көмексөзсіз де неге байқалғанын түсіндірмеді. Стильдің беріліп жатқанын тексеру үшін біз оқыту барысында «Оқымысты» көмексөзімен де, онсыз да аталу жиілігін бақыладық.

«Оқымысты» тұлғасында «гоблин» және «гремлин» сөздерінің қолданылуы артқан сайын, «Оқымысты» қолданылмаған үлгілерде де олардың жиілігі шамамен сондай салыстырмалы мөлшерде өсті. Жалпы алғанда, дәлелдер бұл кеңірек мінез-құлықтың «Оқымысты» тұлғасын оқыту арқылы пайда болғанын көрсетеді.

Сыйақылар тек «Оқымысты» жағдайында ғана қолданылды, бірақ күшейтпелі оқыту үйренілген мінез-құлықтар оларды қалыптастырған жағдайдың аясында ұқыпты түрде шектеліп қалады деп кепілдік бермейді. Стильдік бір ерекшелік марапатталса, кейінгі оқыту оны басқа жерлерге таратуы немесе күшейтуі мүмкін, әсіресе бұл нәтижелер қадағаланатын баптауда немесе артықшылық деректерінде қайта пайдаланылса.

Бұл кері байланыс циклін қалыптастырады:

Ойнақы стиль марапатталады
Сыйақы берілген кейбір мысалдарда ерекше лексикалық ерекшелік байқалады.
Ерекшелік қайталауларда жиірек байқалады.
Модель генерациялаған жауап үлгілері қадағаланатын баптауда (SFT) қолданылады.
Модель бұл әдетті шығаруға одан да бейім бола түседі.

GPT‑5.5 арқылы жүргізілген іздеу SFT деректерінен «гоблин» және «гремлин» сөздері кездесетін көптеген дерек нүктесі табылды. Одан әрі жүргізілген зерттеу тағы басқа оғаш «жаратылыстардың» тұтас тобын ашты: «еноттар», «тролльдер», «огрлар» және «көгершіндер» басқа әдет сөздері ретінде белгіленді, ал «бақа» сөзінің қолданылуының басым бөлігі қалыпты болып шықты.

Гоблиндер мен гремлиндердің өндірістегі таралуының бір апталық орташа көрсеткіші. GPT‑5.4‑тегі төмендеу «Ойлау» наурыздың ортасында «Оқымысты» тұлғасын қолданыстан шығарудың нәтижесі болды. GPT‑5.5 «Оқымысты» тұлғасымен ешқашан іске қосылған жоқ, бірақ GPT‑5.4‑пен салыстырғанда тағы бір өсім көрсетті (тіпті «Оқымысты» болмаса да).

Гоблиндердің соңы

GPT‑5.4‑ті іске қосқаннан кейін, наурыз айында «Оқымысты» тұлғасын қолданыстан шығардық. Оқыту барысында гоблиндерге бейім марапат сигналын алып тастап, мақұлық атаулары бар оқыту деректерін сүзгіден өткіздік. Нәтижесінде, гоблиндердің шамадан тыс жиі пайда болуы немесе орынсыз контексттерде көрінуі ықтималдығы төмендеді. Өкінішке қарай, гоблиндердің түпкі себебін таппай тұрып, GPT‑5.5 оқытыла бастады. Codex жүйесінде GPT‑5.5‑ті сынауды бастағанымызда, OpenAI қызметкерлері гоблиндерге деген оғаш әуестікті бірден байқады. Сондықтан оны бәсеңдету үшін әзірлеуші көмексөз нұсқауын⁠(жаңа терезеде ашылады) қостық. Codex, сайып келгенде, аса беріліп кеткен.

Егер Codex ішінде тіршілік иелерін еркін жібергіңіз келсе, гоблиндерді басуға арналған нұсқауларды алып тастап, Codex-ті іске қосу үшін мына пәрменді орындаңыз:

Қарапайым мәтін

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Неліктен бұл маңызды

Кімнен сұрағаныңызға байланысты, гоблиндер модельдің жағымды немесе тітіркендіргіш ерекшелігі болып саналады. Алайда олар марапат сигналдары модельдің мінез-құлқын күтпеген жолдармен қалыптастыра алатынын және модельдер белгілі бір жағдайлардағы марапаттарды байланысы жоқ жағдайларға жалпылауды оқыта алатынын көрсететін айқын мысал болып табылады. Модельдің неліктен әдеттен тыс әрекет ететінін түсінуге уақыт бөлу және мұндай заңдылықтарды жылдам зерттеу жолдарын әзірлеу — біздің зерттеу тобымыз үшін маңызды мүмкіндік. Бұл зерттеудің нәтижесінде зерттеу тобы модельдің мінез-құлқына аудит жүргізіп, оның мәселелерін түпкі себебінен түзетуге арналған жаңа құралдарға ие болды.

2026

Автор

OpenAI

Оқуды жалғастырыңыз

Барлығын қарау

GPT-Red: Unlocking Self-Improvement for Robustness

Қауіпсіздік2026 ж. 15 шіл.

Бағдарламалау бағалауларында сигналды шудан ажырату

Зерттеу2026 ж. 8 шіл.

GeneBench-Pro-ны таныстырамыз

Зерттеу2026 ж. 30 мау.