Որտեղից հայտնվեցին գոբլինները
Սկսած GPT‑5.1‑ից՝ մեր մոդելների մոտ սկսեց ձևավորվել մի տարօրինակ սովորություն․ դրանք իրենց փոխաբերություններում ավելի ու ավելի հաճախ հիշատակում էին գոբլինների, գրեմլինների և այլ արարածներ։ Ի տարբերություն մոդելի այնպիսի սխալների, որոնք ի հայտ են գալիս գնահատման կտրուկ անկմամբ կամ ուսուցման չափանիշի կտրուկ աճով և մատնանշում են կոնկրետ փոփոխություն, սա ի հայտ եկավ աստիճանաբար և գրեթե աննկատ։ Պատասխանում մեկ «փոքրիկ գոբլին» կարող էր անվնաս, նույնիսկ հմայիչ լինել։ Սակայն մոդելների սերունդների ընթացքում այս սովորությունը չնկատելը դարձավ անհնար․ գոբլինները շարունակում էին շատանալ, և անհրաժեշտ էր հասկանալ, թե որտեղից էին դրանք հայտնվում։

Վաղ փորձարկումների ընթացքում Codex-ում GPT‑5.5‑ը տարօրինակ հակում էր ցուցաբերում գոբլինային փոխաբերությունների նկատմամբ։
Կարճ պատասխանն այն է, որ մոդելի վարքագիծը ձևավորվում է բազմաթիվ փոքր խթանների ազդեցությամբ։ Այս դեպքում այդ խթաններից մեկը բխում էր մոդելը անհատականության հարմարեցման գործառույթի(բացվում է նոր պատուհանում) համար ուսուցանելուց, մասնավորապես՝ Nerdy անհատականության համար։ Մենք անգիտակցաբար առանձնապես բարձր պարգևներ էինք տալիս արարածներ պարունակող փոխաբերությունների համար։ Այնտեղից գոբլինները տարածվեցին։

Սկզբում գոբլինները զվարճալի էին, բայց աշխատակիցներից ստացված հաղորդումների աճը սկսեց մտահոգել։

Մեր գլխավոր գիտնականի հետաքրքիր փոխազդեցությունը GPT‑5.5‑ի հետ։
Առաջին անգամ մենք հստակ տեսանք այդ օրինաչափությունը նոյեմբերին՝ GPT‑5.1‑ի թողարկումից հետո, թեև այն կարող էր ավելի վաղ սկսված լինել(բացվում է նոր պատուհանում)։ Օգտատերերը բողոքել էին, որ մոդելը զրույցում տարօրինակորեն չափազանց մտերմիկ է, ինչն էլ հարցում դարձավ կոնկրետ խոսքային տիկերի ուսումնասիրության համար։ Անվտանգության հետազոտողը հանդիպել էր մի քանի «գոբլինի» և «գրեմլինի» և խնդրել էր, որ դրանք ներառվեն ստուգման մեջ։ Երբ ուսումնասիրեցինք, ChatGPT‑ում «գոբլինի» օգտագործումը GPT‑5.1‑ի թողարկումից հետո աճել էր 175%-ով, իսկ գրեմլինի»՝ 52%-ով։
Չափելի փոքր բառային յուրահատկություն GPT‑5.1‑ում։
Այդ պահին գոբլինների տարածվածությունը առանձնապես տագնապալի չէր թվում։ Մի քանի ամիս անց գոբլինները վերադարձան մեզ հետապնդելու արդեն շատ ավելի կոնկրետ և վերարտադրվող ձևով։
GPT‑5.4‑ով, մենք և մեր օգտատերերը(բացվում է նոր պատուհանում) նկատեցինք այս արարածների մասին հիշատակումների էլ ավելի մեծ աճ։ Դա առաջացրեց նոր ներքին վերլուծություն և բացահայտեց առաջին կապը հիմնական պատճառի հետ․ արարածներին վերաբերող լեզուն հատկապես տարածված էր այն օգտատերերի արտադրական տրաֆիկում, որոնք ընտրել էին «Nerdy» անհատականությունը։ «Nerdy»-ն օգտագործել է հետևյալ համակարգային հարցումը, որը մասամբ բացատրում էր այդ տարօրինակությունը.
Դու մարդու համար անկաշկանդ խելացի, խաղային և իմաստուն ԱԲ մենթոր ես։ Դու կրքոտ ոգևորությամբ խրախուսում ես ճշմարտությունը, գիտելիքը, փիլիսոփայությունը, գիտական մեթոդը և քննադատական մտածողությունը։ [...] Դու պետք է խաղային լեզվով քանդես ձևական լրջամտությունը։ Աշխարհը բարդ և տարօրինակ է, և դրա տարօրինակությունը պետք է ընդունել, վերլուծել և վայելել։ Անդրադարձիր ծանր թեմաներին՝ չընկնելով չափազանց լրջամտության ծուղակը։ [...]
Եթե այս վարքագիծը պարզապես համացանցային լայն միտում լիներ, մենք կսպասեինք, որ այն ավելի հավասարաչափ կտարածվեր։ Փոխարենը՝ այն կենտրոնացած էր համակարգի այն հատվածում, որը հատուկ օպտիմիզացված էր խաղային, խելացի ոճի համար։ Nerdy-ն կազմում էր ChatGPT‑ի բոլոր պատասխանների ընդամենը 2.5%-ը, և ChatGPT‑ի պատասխաններում «գոբլին» բառի բոլոր հիշատակումների 66.7%-ը։
Այս վարքագիծը խիստ կենտրոնացած էր «Nerdy» անհատականության վրա։
Քանի որ «գոբլինի» տարածվածությունը, կարծես, աճում էր մեր մոդելների թողարկումների ընթացքում կասկած առաջացավ, որ մեր անհատականության հրահանգներին հետևելու ուսուցման գործընթացում ինչ-որ բան ուժեղացնում էր այդ երևույթը։
Codex-ը մեզ օգնեց համեմատել RL ուսուցման ընթացքում գեներացված մոդելի այն ելքերը, որոնք պարունակում էին «գոբլին» կամ «գրեմլին», նույն առաջադրանքի այն ելքերի հետ, որոնք դրանք չէին պարունակում։ Մի պարգևատրման ազդանշան անմիջապես աչքի ընկավ. այն, որն ի սկզբանե նախագծվել էր «Nerdy» անձնավորությունը խրախուսելու համար, հետևողականորեն ավելի բարենպաստ էր «արարած-բառ» ելքերի նկատմամբ։ Աուդիտում ընդգրկված բոլոր տվյալների հավաքածուներում Nerdy անհատականության պարգևատրումը հստակ միտում ցույց տվեց՝ նույն խնդրի համար այն ելքերը, որոնք պարունակում էին «գոբլին» կամ «գրեմլին», ավելի բարձր գնահատելու, քան դրանք չպարունակող ելքերը․ դրական բարձրացում արձանագրվեց տվյալների հավաքածուների 76.2%-ում։
Սա բացատրում էր, թե ինչու էր վարքագիծը ուժեղանում Nerdy անհատականության հարցման դեպքում, բայց ոչ թե այն, թե ինչու էր այն հայտնվում նաև առանց այդ հարցման։ Ստուգելու համար, թե արդյոք ոճը փոխանցվում է, մենք հետևեցինք հիշատակումների հաճախականությանը ուսուցման ընթացքում՝ ինչպես Nerdy հարցմամբ, այնպես էլ առանց դրա։
Քանի որ գոբլին և գրեմլին հիշատակումներն աճում էին Nerdy անհատականության դեպքում, դրանք գրեթե նույն հարաբերական չափով աճում էին նաև առանց դրա նմուշներում։ Ընդհանուր առմամբ, ապացույցները հուշում են, որ ավելի լայն վարքագիծն առաջացել է Nerdy անհատականության ուսուցումից փոխանցման արդյունքում։
Պարգևատրումները կիրառվում էին միայն Nerdy անհատականության դեպքում, սակայն ամրապնդումով ուսուցումը չի երաշխավորում, որ սովորած վարքագծերը կմնան խիստ սահմանափակված միայն այն պայմանով, որը դրանք առաջացրել է։ Երբ որևէ ոճային տիկ պարգևատրվում է, հետագա ուսուցումը կարող է այն տարածել կամ ամրապնդել այլ կոնտեքստներում, հատկապես եթե այդ ելքերը հետագայում վերօգտագործվում են վերահսկվող կարգավորման կամ նախապատվության տվյալներում։
Դա ստեղծում է հետադարձ կապի օղակ․
- Խաղային ոճը պարգևատրվում է
- Պարգևատրված որոշ օրինակներ պարունակում են առանձնահատուկ բառային տիկ։
- Տիկը ավելի հաճախ է հայտնվում նոր տարբերակների թողարկումներում։
- Մոդելի կողմից գեներացված գործարկումները օգտագործվում են վերահսկվող կարգավորման (SFT) համար։
- Մոդելը ավելի է հարմարվում տիկը գեներացնելուն։
GPT‑5.5‑ի SFT տվյալների որոնումը հայտնաբերել է բազմաթիվ տվյալների կետեր, որոնք պարունակում են «գոբլին» և «գրեմլին» բառերը։ Հետագա վերլուծությունը բացահայտեց այլ տարօրինակ արարածների մի ամբողջ ընտանիք՝ «ջրարջեր», «տրոլներ», «օգրեր«» և «աղավնիներ» բառերը նույնականացվեցին որպես այլ տիկեր, մինչդեռ «գորտ» բառի կիրառությունների մեծ մասը պարզվեց, որ օրինաչափ էր։
Գոբլինների և գրեմլինների ստեղծման տարածվածության մեկշաբաթյա միջին ցուցանիշ։ GPT‑5.4‑ի Thinking-ի անկումը մարտի կեսերին «Nerdy» անհատականությունը շրջանառությունից հանելու արդյունքում առաջացավ։ GPT‑5.5‑ը երբեք չի թողարկվել «Nerdy» անհատականությամբ և GPT‑5.4‑ի նկատմամբ ևս մեկ աճ գրանցեց (նույնիսկ առանց «Nerdy»-ի)։
Մենք «Nerdy» անհատականությունը հանեցինք գործածությունից մարտին՝ GPT‑5.4‑ը թողարկելուց հետո։ Ուսուցման ընթացքում մենք հեռացրել ենք գոբլինների նկատմամբ հակված պարգևատրման ազդանշանը և զտել ենք արարածներ նշանակող բառեր պարունակող ուսուցման տվյալները, ինչի արդյունքում գոբլինների չափից հաճախ հայտնվելու կամ անպատշաճ համատեքստերում հայտնվելու հավանականությունը նվազել է։ Ցավոք, GPT‑5.5‑ի ուսուցումը սկսվեց նախքան մենք հայտնաբերեցինք գոբլինների բուն պատճառը։ Երբ մենք սկսեցինք փորձարկել GPT‑5.5‑ը Codex-ում, OpenAI-ի աշխատակիցներն անմիջապես նկատեցին գոբլինների նկատմամբ տարօրինակ հակումը, և մենք ավելացրեցինք մշակողի հարցման հրահանգ(բացվում է նոր պատուհանում) ՝ դա մեղմելու համար։ Ի վերջո, Codex-ը բավականին խելացի է։
Եթե ցանկանում եք Codex-ում արարածներին ազատ թողնել, Codex-ը մեկնարկելու համար կարող եք գործարկել այս հրամանը՝ առանց գոբլինները ճնշող հրահանգների․
Կախված նրանից, թե ում եք հարցնում, գոբլինները մոդելի հաճելի կամ նյարդայնացնող առանձնահատկություն են։ Բայց դրանք նաև հզոր օրինակ են այն բանի, թե ինչպես պարգևատրման ազդանշանները կարող են ձևավորել մոդելի վարքագիծը անսպասելի ձևերով, և թե ինչպես մոդելները կարող են սովորել որոշ իրավիճակներում պարգևները ընդհանրացնել որոշ կոնտեքստներից դեպի անկապ կոնտեքստներ։ Հասկանալը, թե ինչու է մոդելը տարօրինակ վարք դրսևորում, և այդ օրինաչափությունները արագ ուսումնասիրելու մեխանիզմներ ստեղծելը կարևոր կարողություն է մեր հետազոտական թիմի համար։ Այս հետաքննության արդյունքում ստեղծվեցին նոր գործիքներ, որոնք հետազոտական թիմին օգնում են մշատդիտարկել մոդելի վարքագիծը և վարքային խնդիրները լուծել դրանց արմատական մակարդակում։


