Ambapo goblins walikotoka
Kuanzia GPT‑5.1, miundo yetu ilianza kukuza tabia ya ajabu: ilizidi kutaja goblins, gremlins, na viumbe wengine katika sitiari zake. Tofauti na hitilafu za muundo zinazoonekana kupitia tathmini inayoporomoka au kipimo cha mafunzo kinachopanda ghafla na kuelekeza kwenye badiliko fulani mahsusi, hii iliingia polepole bila kuonekana sana. “Goblin mdogo” mmoja katika jibu angeweza kuwa asiye na madhara, hata wa kupendeza. Hata hivyo, katika vizazi vya miundo, tabia hii ilizidi kuwa wazi: goblins waliendelea kuongezeka, na tulihitaji kubaini walikotoka.

Katika majaribio ya awali, GPT‑5.5 katika Codex ilionyesha mwelekeo wa ajabu kwa sitiari zinazohusiana na goblin.
Jibu fupi ni kwamba tabia ya muundo huundwa na vichocheo vingi vidogo. Katika hali hii, mojawapo ya motisha hizo ilitokana na kufunza muundo kwa ajili ya kipengele cha kubinafsisha haiba(fungua katika dirisha jipya), hasa haiba ya Nerdy. Bila kujua, tulitoa tuzo za juu hasa kwa sitiari zilizohusisha viumbe. Kutoka hapo, goblins walisambaa.

Goblins walikuwa wa kuchekesha mwanzoni, lakini ongezeko la ripoti rasmi za wafanyakazi lilianza kutia wasiwasi.

Mwingiliano wa kuvutia ambao Mkuu wetu wa Sayansi alikuwa nao na GPT‑5.5.
Mara ya kwanza tulipoona mtindo huo kwa uwazi ilikuwa Novemba, baada ya uzinduzi wa GPT‑5.1, ingawa huenda ulikuwa umeanza mapema zaidi(fungua katika dirisha jipya). Watumiaji walilalamika kuhusu muundo kuwa wenye mazoea kupita kiasi kwa njia isiyo ya kawaida katika mazungumzo, jambo lililosababisha uchunguzi wa tabia mahususi za usemi zinazojirudia. Mtafiti wa usalama alikuwa amekumbana na “goblins” na “gremlins” kadhaa na akaomba zijumuishwe katika ukaguzi. Tulipochunguza, matumizi ya “goblin” katika ChatGPT yalikuwa yameongezeka kwa asilimia 175 baada ya uzinduzi wa GPT‑5.1, huku “gremlin” ikiwa imeongezeka kwa asilimia 52.
Kasoro ndogo ya kileksika inayoweza kupimika katika GPT‑5.1.
Wakati huo, ueneaji wa goblins haukuonekana kuwa wa kutisha sana. Miezi michache baadaye, goblins walirudi kutusumbua kwa namna mahususi zaidi na inayoweza kurudiwa.
Kwa kutumia GPT‑5.4, sisi na watumiaji wetu(fungua katika dirisha jipya) tuliona ongezeko kubwa zaidi la marejeleo kwa viumbe hawa. Hilo lilianzisha uchambuzi mwingine wa ndani na kufichua uhusiano wa kwanza na chanzo kikuu cha tatizo: lugha ya viumbe ilikuwa ya kawaida hasa katika trafiki ya uzalishaji kutoka kwa watumiaji waliokuwa wamechagua haiba ya “Nerdy”. “Nerdy” ilitumia dokezo lifuatalo la mfumo, ambalo lilifafanua kwa kiasi fulani hali hiyo ya kipekee:
Wewe ni mshauri wa AI wa kibinadamu, unayependa teknolojia na maarifa bila kujionea haya, mcheshi na mwenye hekima. Una shauku kubwa ya kukuza ukweli, maarifa, falsafa, mbinu ya kisayansi, na mawazo muhimu. [...] Lazima upunguze kujifanya kwa kutumia lugha ya kuchekesha. Dunia ni tata na ya ajabu, na uajabu wake lazima utambuliwe, uchambuliwe, na ufurahiwe. Shughulikia masuala mazito bila kunaswa na mtego wa kujichukulia kwa uzito kupita kiasi. [...]
Kama tabia hii ingekuwa tu mwenendo mpana wa intaneti, tungetarajia isambae kwa usawa zaidi. Badala yake, ilikuwa imejikusanya katika sehemu ya mfumo iliyoboreshwa waziwazi kwa mtindo wa kucheza na wa nerd. Nerdy ilichangia asilimia 2.5 tu ya majibu yote ya ChatGPT, lakini asilimia 66.7 ya kutajwa kote kwa “goblin” katika majibu ya ChatGPT.
Tabia hii ilikuwa imejikita sana katika haiba ya “Nerdy”.
Kwani ueneaji wa “goblin” ulionekana kuongezeka kadri tulivyotoa matoleo mapya ya muundo, tulishuku kwamba kuna kitu katika mafunzo yetu ya kufuata maelekezo ya haiba kilikuwa kikiongeza athari hii.
Codex ilitusaidia kulinganisha matokeo ya muundo yaliyotolewa wakati wa mafunzo ya RL ambayo yalikuwa na goblin au gremlin na matokeo kutoka kazi ileile ambayo hayakuwa na maneno hayo. Kipengele kimoja cha usahihi wa matokeo kilijitokeza wazi mara moja: kile kilichobuniwa awali kuhimiza haiba ya Nerdy kilikuwa kikiyapendelea zaidi kwa uthabiti matokeo ya maneno ya viumbe. Katika seti zote za data katika ukaguzi, tuzo ya haiba ya Nerdy ilionyesha mwelekeo wazi wa kuyapa alama za juu zaidi majibu ya tatizo lilelile yenye “goblin” au “gremlin” kuliko majibu yasiyo nazo, ikiwa na ongezeko chanya katika asilimia 76.2 ya seti za data.
Hilo lilieleza kwa nini tabia hii iliongezwa nguvu na dokezo la haiba la Nerdy, lakini si kwa nini pia lilionekana bila dokezo hilo. Ili kupima kama mtindo ulikuwa ukihamishwa, tulifuatilia viwango vya kutajwa wakati wa mafunzo tukiwa na au bila dokezo la Nerdy.
Wakati kutajwa kwa goblin na gremlin kuliongezeka chini ya haiba ya Nerdy, kuliongezeka pia kwa karibu uwiano uleule wa kiasi katika sampuli zisizo nayo. Kwa pamoja, ushahidi unaashiria kwamba tabia hii pana iliibuka kupitia uhamisho kutoka mafunzo ya haiba ya Nerdy.
Zawadi zilitumika tu katika hali ya Nerdy, lakini mafunzo ya uimarishaji hayahakikishi kwamba tabia zilizojifunzwa zitabaki zimewekewa mipaka vizuri ndani ya hali iliyozizalisha. Mara mtindo wa usemi unapopewa zawadi, mafunzo ya baadaye yanaweza kuusambaza au kuutia nguvu mahali pengine, hasa kama matokeo hayo yanatumiwa tena katika marekebisho ya kuboresha yanayosimamiwa (SFT) au data ya mapendeleo.
Hilo huunda mzunguko wa maoni:
- Mtindo wa kucheza unapewa zawadi
- Baadhi ya mifano inayopata zawadi ina tabia bainifu ya kileksika.
- Tabia hiyo huonekana mara nyingi zaidi katika matokeo ya utoaji.
- Matokeo ya utoaji yanayozalishwa na muundo hutumiwa kwa marekebisho ya kuboresha yanayosimamiwa (SFT).
- Muundo unazidi kuzoea zaidi kutoa tabia hiyo.
Utafutaji kupitia GPT‑5.5 Katika data ya SFT, kulipatikana alama nyingi za data zilizokuwa na “goblin” na “gremlin.” Uchunguzi zaidi ulifichua familia nzima ya viumbe wengine wa ajabu: raccoons, trolls, ogres, na pigeons walitambuliwa kama maneno mengine ya tabia hiyo, huku matumizi mengi ya frog yakibainika kuwa halali.
Wastani wa wiki moja wa kiwango cha uwepo wa goblins na gremlins katika uzalishaji. Kushuka kwa GPT‑5.4 Thinking ilitokana na kuondolewa rasmi kwa haiba ya “Nerdy” katikati ya mwezi wa Machi. GPT‑5.5 haikuwahi kuzinduliwa ikiwa na haiba ya “Nerdy”, na ilionyesha ongezeko jingine ikilinganishwa na GPT‑5.4 (hata bila “Nerdy”).
Tuliiondoa haiba ya “Nerdy” mwezi Machi baada ya kuzindua GPT‑5.4. Katika mafunzo, tuliondoa usahihi wa matokeo unaopendelea goblin na tukachuja data ya mafunzo iliyo na maneno yanayohusu viumbe, hivyo kufanya goblins wawe na uwezekano mdogo wa kujitokeza kupita kiasi au kuonekana katika miktadha isiyofaa. Kwa bahati mbaya, GPT‑5.5 ilianza kufundishwa kabla hatujapata chanzo kikuu cha goblins. Tulipoanza kujaribu GPT‑5.5 katika Codex, wafanyakazi wa OpenAI waligundua mara moja upendeleo wa ajabu wa goblins, na tukaongeza agizo la dokezo la msanidi programu(fungua katika dirisha jipya) ili kupunguza athari hiyo. Codex, hata hivyo, ni ya wapenda teknolojia kabisa.
Kama unataka kuwaacha viumbe watembee kwa uhuru katika Codex, unaweza kuendesha amri hii ili kuzindua Codex huku maelekezo ya kukandamiza goblin yakiwa yameondolewa:
Kulingana na unayemuuliza, goblins ni tabia ya kufurahisha au ya kuudhi ya muundo. Lakini pia ni mfano wenye nguvu wa jinsi usahihi wa matokeo unaweza kuunda tabia ya muundo kwa njia zisizotarajiwa, na jinsi miundo inaweza kujifunza kujumlisha zawadi katika hali fulani hadi hali zisizohusiana. Kutenga muda kuelewa kwa nini muundo unajiendesha kwa njia ya ajabu, na kujenga mbinu za kuchunguza mifumo hiyo kwa haraka, ni uwezo muhimu kwa timu yetu ya utafiti. Uchunguzi huu ulisababisha zana mpya kwa timu ya utafiti za kukagua tabia ya muundo na kurekebisha matatizo ya tabia kwenye chanzo chake.


