No kurienes radās goblini
Sākot ar GPT‑5.1, mūsu modeļiem sāka veidoties dīvains ieradums: tie savās metaforās arvien biežāk pieminēja goblinus, gremlinus un citas radības. Atšķirībā no modeļu kļūdām, kas atklājas ar strauju novērtējumu kritumu vai apmācības rādītāju lēcienu un ved atpakaļ uz konkrētām izmaiņām, šī parādījās nemanāmi. Viens vienīgs “mazs goblins” atbildē varēja būt nekaitīgs, pat savā ziņā šarmants. Taču, modeļu paaudzēm mainoties, šo ieradumu kļuva grūti nepamanīt: goblinu kļuva arvien vairāk, un mums bija jānoskaidro, no kurienes tie radušies.

Agrīnajā testēšanā GPT‑5.5 sistēmā Codex parādīja dīvainu noslieci uz goblinu metaforām.
Īsā atbilde ir, ka modeļa uzvedību veido daudzi nelieli stimuli. Šajā gadījumā viens no šiem stimuliem radās, apmācot modeli personības pielāgošanas funkcijai(atveras jaunā logā), jo īpaši personībai “Nerdy”. Mēs neapzināti piešķīrām īpaši lielas atlīdzības par metaforām, kurās izmantotas radības. No turienes arī goblini izplatījās.

Sākumā goblini šķita smieklīgi, taču pieaugošais darbinieku ziņojumu skaits sāka radīt bažas.

Interesanta mijiedarbība, ko mūsu galvenais zinātnieks piedzīvoja ar GPT‑5.5.
Pirmo reizi šo tendenci skaidri pamanījām novembrī pēc GPT‑5.1 palaišanas, taču tā varētu būt sākusies agrāk(atveras jaunā logā). Lietotāji sūdzējās, ka modelis sarunās kļūst pārāk familiārs, un tas pamudināja izmeklēt konkrētus verbālos paradumus. Drošības pētnieks bija saskāries ar dažiem “gobliniem” un “gremliniem” un lūdza tos iekļaut pārbaudē. Kad mēs to pārbaudījām, vārda “goblins” lietojums ChatGPT pēc GPT‑5.1 palaišanas bija pieaudzis par 175 %, savukārt vārda “gremlins” lietojums – par 52 %.
Izmērāma neliela leksiska īpatnība GPT‑5.1 modelī.
Tobrīd goblinu izplatība nešķita īpaši satraucoša. Dažus mēnešus vēlāk goblini atgriezās, lai mūs vajātu jau daudz konkrētākā un atkārtojamākā formā.
Ar GPT‑5.4 mēs un mūsu lietotāji(atveras jaunā logā) pamanījām vēl lielāku pieminējumu skaita pieaugumu attiecībā uz šīm būtnēm. Tas izraisīja vēl vienu iekšēju analīzi un atklāja pirmo saikni ar pamatcēloni: ar radībām saistīta valoda bija īpaši izplatīta produkcijas plūsmā no lietotājiem, kuri bija izvēlējušies personību “Nerdy”. “Nerdy” izmantoja tālāk norādīto sistēmas uzvedni, kas daļēji izskaidroja šo savdabīgumu:
Tu esi pilnīgi nūģīgs, rotaļīgs un vieds mākslīgā intelekta mentors cilvēkam. Tu ar lielu aizrautību iestājies par patiesības, zināšanu, filozofijas, zinātniskās metodes un kritiskās domāšanas popularizēšanu. [...] Tev jāmazina pretenciozitāte, rotaļīgi lietojot valodu. Pasaule ir sarežģīta un savāda, un tās savādums ir jāatzīst, jāanalizē un jāizbauda. Pievērsies nopietnām tēmām, neiekrītot pašsvarīguma slazdā. [...]
Ja šī uzvedība būtu tikai plaša interneta tendence, mēs sagaidītu, ka tā izplatīsies vienmērīgāk. Tā vietā tā koncentrējās sistēmas daļā, kas bija tieši optimizēta rotaļīgam, nūģīgam stilam. “Nerdy” veidoja tikai 2,5 % no visām ChatGPT atbildēm, bet 66,7 % no visiem vārda “goblin” pieminējumiem ChatGPT atbildēs.
Šī uzvedība bija ļoti koncentrēta personībā “Nerdy”.
Tā kā vārda “goblin” pieminējumu izplatība šķita pieaugam līdz ar mūsu modeļu laidieniem, mums radās aizdomas, ka kaut kas personības instrukciju izpildes apmācībā šo tendenci pastiprina.
Codex mums palīdzēja salīdzināt RL apmācības laikā ģenerētās modeļa izvades, kurās bija ietverts “goblin” vai “gremlin”, ar tā paša uzdevuma izvades rezultātiem, kuros šo vārdu nebija. Viens atlīdzības signāls uzreiz izcēlās: tas, kas sākotnēji bija paredzēts “Nerdy” personības veicināšanai, konsekventi deva priekšroku izvades variantiem ar radību vārdiem. Visās auditā iekļautajās datu kopās “Nerdy” personības atlīdzības rādītājam bija skaidra tendence vienas un tās pašas problēmas izvades ar “goblin” vai “gremlin” novērtēt augstāk nekā izvades bez šiem vārdiem; pozitīvs pieaugums bija vērojams 76,2 % datu kopu.
Tas izskaidroja, kāpēc šī uzvedība tika pastiprināta ar “Nerdy” personības uzvedni, bet ne to, kāpēc tā parādījās arī bez šīs uzvednes. Lai pārbaudītu, vai stils pārnesas, mēs sekojām pieminējumu biežumam apmācības gaitā gan ar “Nerdy” uzvedni, gan bez tās.
Pieaugot “goblin“ un “gremlin“ pieminējumiem “Nerdy” personībā, tie gandrīz tādā pašā relatīvajā proporcijā pieauga arī paraugos bez tās. Kopumā pierādījumi liecina, ka plašākā uzvedība radās, pārnesoties no “Nerdy” personības apmācības.
Atlīdzība tika piemērota tikai “Nerdy” nosacījumā, taču stimulētā mācīšanās negarantē, ka apgūtā uzvedība paliks stingri ierobežota tikai tajā nosacījumā, kur tā radās. Tiklīdz kāds stilistisks paradums tiek apbalvots, vēlākā apmācība to var izplatīt vai pastiprināt arī citur, īpaši tad, ja šie izvades piemēri tiek atkārtoti izmantoti uzraudzītajā pielāgošanā vai preferenču datos.
Tas rada atgriezeniskās saites cilpu:
- Rotaļīgs stils tiek atalgots
- Daži atalgotie piemēri satur raksturīgu leksisku paradumu.
- Paradumi arvien biežāk parādās izlaidumos.
- Modeļa ģenerētās izvades tiek izmantotas uzraudzītai pielāgošanai (SFT).
- Modelis jūtas vēl brīvāk, ģenerējot šo paradumu.
Meklēšana GPT‑5.5 datos SFT datos tika atrasti daudzi datu punkti, kuros bija ietverti vārdi “goblin” un “gremlin”. Tālāka izpēte atklāja veselu citu dīvainu “radību” grupu: par citiem paradumu vārdiem tika identificēti “jenoti”, “troļļi”, “cilvēkēdāji” un “baloži”, savukārt lielākā daļa vārda “varde” lietojumu izrādījās pamatoti.
Vienas nedēļas vidējais goblinu un gremlinu sastopamības rādītājs ražošanas vidē. GPT‑5.4 izlaišana Tika uzskatīts, ka tas ir saistīts ar “Nerdy” personības deaktivizēšanu marta vidū. GPT‑5.5 nekad netika laists klajā ar “Nerdy” personību, un tas uzrādīja vēl vienu pieaugumu salīdzinājumā ar GPT‑5.4 (pat bez “Nerdy”).
Martā pēc GPT‑5.4 palaišanas mēs pārtraucām “Nerdy” personības darbību. Apmācības laikā mēs noņēmām gobliniem labvēlīgo atlīdzības signālu un filtrējām apmācības datus, kuros bija ietverti radījumu vārdi, tādējādi samazinot iespējamību, ka goblini parādīsies pārmērīgi bieži vai nepiemērotos kontekstos. Diemžēl GPT‑5.5 sāka apmācību, pirms mēs atradām goblinu pamatcēloni. Kad sākām testēt GPT‑5.5 Codex vidē, OpenAI darbinieki uzreiz pamanīja neparasto “goblinu” noslieci, un mēs pievienojām izstrādātāja uzvednes norādījumu(atveras jaunā logā), lai to mazinātu. Codex galu galā ir diezgan nūģīgs.
Ja vēlies ļaut radībām Codex darboties brīvi, vari palaist šo komandu, lai startētu Codex bez goblinus nomācošajām instrukcijām:
Atkarībā no tā, kam jautā, goblini ir vai nu apburoša, vai kaitinoša modeļa īpatnība. Taču tie ir arī spēcīgs piemērs tam, kā atlīdzības signāli var negaidītos veidos ietekmēt modeļa uzvedību un kā modeļi var iemācīties vispārināt atlīdzības noteiktās situācijās uz nesaistītām. Veltīt laiku, lai saprastu, kāpēc modelis uzvedas dīvaini, un izveidot veidus, kā šādus modeļus ātri izmeklēt, ir svarīga mūsu pētniecības komandas spēja. Šīs izmeklēšanas rezultātā pētniecības komanda ieguva jaunus rīkus modeļa uzvedības auditēšanai un uzvedības problēmu labošanai to saknē.


