Minn fejn ġew il-goblins
Minn GPT‑5.1 ’il quddiem, il-mudelli tagħna bdew jiżviluppaw drawwa stramba: bdew isemmu dejjem aktar goblins, gremlins u ħlejjaq oħra fil-metafori tagħhom. B’differenza minn żbalji fil-mudell li jidhru permezz ta’ evalwazzjoni li tonqos drastikament jew metrika tat-taħriġ li tiżdied f’daqqa u jindikaw bidla speċifika, dan daħal b’mod sottili. “Goblin ċkejken” wieħed fi tweġiba jista’ jkun bla ħsara, saħansitra ħelu. Madankollu, tul il-ġenerazzjonijiet tal-mudelli, id-drawwa saret diffiċli biex ma tinnotahiex: il-goblins baqgħu jiżdiedu u kellna nsibu minn fejn kienu ġejjin.

Fl-ittestjar bikri, GPT‑5.5 f’Codex wera affinità stramba għal metafori dwar il-goblin.
It-tweġiba qasira hija li l-imġiba tal-mudell tiġi ffurmata minn ħafna inċentivi żgħar. F’dan il-każ, wieħed minn dawk l-inċentivi kien ġej mit-taħriġ tal-mudell għall-karatteristika tal-personalizzazzjoni tal-personalità(jinfetaħ f’tieqa ġdida), b’mod partikolari l-personalità Nerdy. Bla ma konna nafu, tajna premjijiet partikolarment għoljin għal metafori li jinvolvu ħlejjaq. Minn hemm, il-goblins infirxu.

Il-goblins għall-ewwel kienu divertenti, iżda ż-żieda fir-rapporti mill-impjegati bdiet tqajjem tħassib.

Interazzjoni interessanti li kellu x-Xjenzat Ewlieni tagħna ma’ GPT‑5.5.
L-ewwel darba li rajna ċar ix-xejra kienet f’Novembru, wara t-tnedija ta’ GPT‑5.1, għalkemm setgħet bdiet qabel(jinfetaħ f’tieqa ġdida). L-utenti ilmentaw li l-mudell kien familjari żżejjed b’mod stramb fil-konverżazzjoni u dan wassal għal investigazzjoni dwar tikijiet verbali speċifiċi. Riċerkatur tas-sigurtà kien iltaqa’ ma’ xi “goblins” u “gremlins” u talab li dawn jiġu inklużi fil-verifika. Meta ċċekkjajna, l-użu ta’ “goblin” f’ChatGPT kien żdied b’175% wara t-tnedija ta’ GPT‑5.1, filwaqt li “gremlin” kien żdied bi 52%.
Partikolarità lessikali żgħira li tista’ titkejjel f’GPT‑5.1.
Dak iż-żmien, il-prevalenza tal-goblins ma dehritx partikolarment allarmanti. Ftit xhur wara, il-goblins reġgħu lura biex jippersegwitawna f’forma ferm aktar speċifika u riproduċibbli.
B'GPT‑5.4, aħna u l-utenti tagħna(jinfetaħ f’tieqa ġdida) innutajna żieda saħansitra akbar fir-referenzi għal dawn il-ħlejjaq. Dan wassal għal analiżi interna oħra u żvela l-ewwel rabta mal-kawża fundamentali: il-lingwaġġ tal-kreaturi kien partikolarment komuni fit-traffiku tal-produzzjoni minn utenti li kienu għażlu l-personalità “Nerdy”. “Nerdy” uża l-prompt tas-sistema li ġej, li kien jispjega parzjalment l-eċċentriċità:
Inti mentor tal-IA għan-nies, nerd u kburi, divertenti u għaref. Għandek entużjażmu passjonat għall-promozzjoni tal-verità, tal-għarfien, tal-filosofija, tal-metodu xjentifiku u tal-ħsieb kritiku. [...] Għandek tnaqqas mill-pretensjoni permezz ta’ użu divertenti tal-lingwa. Id-dinja hija kumplessa u stramba u l-istramberija tagħha trid tiġi rikonoxxuta, analizzata u apprezzata. Indirizza suġġetti ta’ piż mingħajr ma taqa’ fin-nassa li tieħu lilek innifsek bis-serjetà żżejjed. [...]
Kieku l-imġiba kienet sempliċement tendenza mifruxa fuq l-internet, konna nistennew li tinfirex b’mod aktar uniformi. Minflok, kien ikkonċentrat fil-parti tas-sistema ottimizzata b’mod espliċitu għal stil ferrieħi u ta’ nerds. L-istil nerdy kien jammonta għal 2.5% biss tar-risponsi kollha ta’ ChatGPT, iżda għal 66.7% tal-aċċennijiet kollha għal “goblin” fir-risponsi ta’ ChatGPT.
L-imġiba kienet ikkonċentrata ħafna fil-personalità Nerdy.
Minħabba li l-prevalenza ta’ “goblin” dehret li kienet qed tiżdied matul ir-rilaxxi tal-mudelli tagħna, kellna suspett li xi ħaġa fit-taħriġ tagħna dwar is-segwitu tal-istruzzjonijiet tal-personalità kienet qed tkabbar dan.
Codex għenna nqabblu r-riżultati tal-mudell iġġenerati waqt it-taħriġ tar-RL li kienu jinkludu goblin jew gremlin ma’ riżultati mill-istess kompitu li ma kinux jinkluduhom. Sinjal ta' premju wieħed spikka minnufih: dak li oriġinarjament kien imfassal biex iħeġġeġ il-personalità Nerdy kien konsistentement aktar favorevoli għall-outputs tal-kliem-kreatura. Fis-settijiet kollha tad-data fl-awditjar, il-premju tal-personalità Nerdy wera tendenza ċara li jagħti punteġġ ogħla lir-riżultati għall-istess problema li kien fihom “goblin” jew “gremlin” milli lir-riżultati mingħajrhom, b’titjib pożittiv f’76.2% tas-settijiet tad-data.
Dan spjega għaliex l-imġiba ttejbet bil-prompt tal-personalità Nerdy, iżda mhux għaliex dehret ukoll mingħajr dak il-prompt. Biex nittestjaw jekk l-istil kienx qed jiġi trasferit, segwejna r-rati ta’ semmija matul it-taħriġ kemm bil-prompt Nerdy kif ukoll mingħajru.
Hekk kif ir-referenzi għal 'goblin' u 'gremlin' żdiedu taħt il-personalità Nerdy, dawn żdiedu b'kważi l-istess proporzjon relattiv fil-kampjuni mingħajrha. Meta meqjusa flimkien, l-evidenza tissuġġerixxi li l-imġiba usa’ ħarġet permezz ta’ trasferiment mit-taħriġ tal-personalità Nerdy.
Il-premjijiet ġew applikati biss fil-kundizzjoni Nerdy, iżda l-apprendiment ta’ tisħiħ ma jiggarantixxix li l-imġibiet mgħallma jibqgħu limitati b’mod ċar għall-kundizzjoni li wasslet għalihom. Ladarba tik stilistiku jiġi ppremjat, taħriġ sussegwenti jista’ jxerrdu jew isaħħu band’ oħra, speċjalment jekk dawk l-outputs jerġgħu jintużaw fl-irfinar issorveljat jew fid-dejta ta’ preferenza.
Dan joħloq ċiklu ta’ feedback:
- L-istil ferrieħi jiġi ppremjat
- Xi eżempji ppremjati fihom karatteristika lessikali distintiva.
- It-tik jidher aktar ta’ spiss fir-rollouts.
- Rollouts iġġenerati mill-mudell jintużaw għall-irfinar issorveljat (SFT).
- Il-mudell isir saħansitra aktar komdu biex jipproduċi t-tic.
Tiftixa permezz ta’ GPT‑5.5 Fid-dejta SFT instabu ħafna punti tad-dejta li kienu fihom “goblin” u “gremlin”. Investigazzjoni ulterjuri żvelat familja sħiħa ta’ kreaturi strambi oħra: ir-rakkuni, it-troll, l-ogri u l-ħamiem ġew identifikati bħala kliem “tic” ieħor, filwaqt li l-biċċa l-kbira tal-użi ta’ “frog” irriżultaw li kienu leġittimi.
Medja fuq ġimgħa tal-prevalenza fil-produzzjoni ta’ goblins u gremlins. It-tnaqqis f’GPT‑5.4 Il-ħsieb kien riżultat tal-irtirar tal-personalità “Nerdy” f’nofs Marzu. GPT‑5.5 qatt ma tnieda bil-personalità “Nerdy” u wera żieda oħra fuq GPT‑5.4 (anke mingħajr “Nerdy”).
Irtirajna l-personalità “Nerdy” f’Marzu wara li nedejna GPT‑5.4. Fit-taħriġ, neħħejna s-sinjal ta' premju affini għall-goblins u ffiltrajna d-dejta tat-taħriġ li kienet fiha kliem relatat mal-kreaturi u b’hekk il-goblins huma inqas probabbli li jidhru b’mod eċċessiv jew li jitfaċċaw f’kuntesti mhux xierqa. Sfortunatament, GPT‑5.5 beda jitħarreġ qabel ma sibna l-kawża ewlenija tal-goblins. Meta bdejna nittestjaw GPT‑5.5 f’Codex, l-impjegati ta’ OpenAI nnutaw minnufih l-affinità stramba lejn il-goblins u żidna istruzzjoni żviluppatur-prompt(jinfetaħ f’tieqa ġdida) biex nimmitigaw. Codex huwa, wara kollox, pjuttost intellettwali.
Jekk trid tħalli lill-ħlejjaq jiġru ħielsa f’Codex, tista’ tħaddem dan il-kmand biex tniedi Codex mingħajr l-istruzzjonijiet li jrażżnu lill-goblins:
Skont lil min tistaqsi, il-goblins huma partikolarità pjaċevoli jew tedjanti tal-mudell. Iżda huma wkoll eżempju qawwi ta’ kif is-sinjal ta’ premju jista’ jsawwar l-imġiba tal-mudelli b’modi mhux mistennija u kif il-mudelli jistgħu jitgħallmu jiġġeneralizzaw il-premjijiet f’ċerti sitwazzjonijiet għal oħrajn mhux relatati. Li nieħdu l-ħin biex nifhmu għaliex mudell qed iġib ruħu b’mod stramb u niżviluppaw modi kif ninvestigaw dawk ix-xejriet malajr, jikkostitwixxi kapaċità importanti għat-tim tar-riċerka tagħna. Din l-investigazzjoni wasslet għal għodod ġodda għat-tim tar-riċerka biex jawditja l-imġiba tal-mudell u jsewwi l-problemi fl-imġiba mill-għeruq tagħhom.


