ગોબ્લિન્સ ક્યાંથી આવેલ હતા
GPT‑5.1 થી શરૂઆત કરી અમારા મોડલ્સમાં એક વિચિત્ર આદત વિકસવા લાગી છે: તેઓ તેમના રૂપકોમાં વધારેમાં વધારે ગોબ્લિન, ગ્રેમલિંન્સ અને અન્ય જીવોનો પણ ઉલ્લેખ કરતા હતા. મોડલ બગ્સથી વિપરીત જે ઈવલના ધડામથી ઘટતા પરિણામ અથવા તો તાલીમ મેટ્રિકમાં ઓચિંતા જ ઉછાળા દ્વારા દેખાય છે અને કોઈ ચોક્કસ ફેરફાર તરફ સંકેત કરે છે કે આ બગ સૂક્ષ્મ રીતે ઘૂસી આવેલ હતા. જવાબમાં એક “નાનું ગોબ્લિન” નુકસાનથી મુક્ત પણ આકર્ષક હોઈ શકે છે. મોડલની વિવિધ પેઢીમાં આ વલણ નજરઅંદાજ કરવી મુશ્કેલ બનેલ છે: ગોબ્લિનની સંખ્યા સતત વધતી રહી છે અને તેઓ ક્યાંથી આવ્યા તે શોધવું પણ ખૂબ જરૂરી હતું.

પ્રારંભિક પરીક્ષણમાં Codex માં GPT‑5.5 એ ગોબ્લિન રૂપકો પ્રત્યે વિચિત્ર લગાવ દર્શાવેલ છે.
ટૂંકો જવાબ એ છે કે મોડલનું આ વર્તન ઘણા નાના પ્રોત્સાહનો દ્વારા આકાર પામી રહેલ છે. આ કિસ્સામાં તે પ્રોત્સાહનો પૈકી એક વ્યક્તિત્વ કસ્ટમાઇઝેશન સુવિધા(નવી વિન્ડોમાં ખૂલે છે) માટે ખાસ કરી Nerdy વ્યક્તિત્વ માટે મોડલને તાલીમ આપવાથી આવ્યું હતું. અમે અજાણતાં જ જીવોનો સમાવેશ ધરાવતા રૂપકો માટે આ ખાસ કરી ઊંચાં ઇનામો આપ્યાં છે. ત્યાંથી ગોબ્લિન્સ ફેલાઈ ગયા છે.

ગોબ્લિન્સ શરૂઆતમાં ફની લાગતા હતા, પરંતુ કર્મચારીઓ તરફથી આવતા રિપોર્ટ્સની વધતી સંખ્યા ચિંતાજનક બનતી ગઈ.

અમારા મુખ્ય વૈજ્ઞાનિકે GPT‑5.5 સાથે એક રસપ્રદ સંવાદ કર્યો છે.
અમે આ પૅટર્ન સ્પષ્ટ રીતે પ્રથમ વખત નવેમ્બરમાં GPT‑5.1 લોન્ચ બાદ જોયું છે, જોકે તે કદાચ પહેલાં શરૂ થયું હોઈ શકે છે(નવી વિન્ડોમાં ખૂલે છે). વપરાશકર્તાએ ફરિયાદ કરી કે વાતચીતમાં મોડલ વિચિત્ર રીતે વધારે પડતું ઘનિષ્ઠતાપૂર્વક વર્તન કરે છે કે જેના કારણે ચોક્કસ વાચિક ટેવો અંગે તપાસ શરૂ થઈ છે. એક સલામતી સંશોધકે થોડા “ગોબ્લિન” અને “ગ્રેમલિન”નો અનુભવ કર્યો હતો અને તેમને તપાસમાં સમાવેશ કરવાની વિનંતી કરેલ હતી. જ્યારે અમે તપાસ કરી ત્યારે GPT‑5.1ના લોન્ચ પછી ChatGPT માં “ગોબલિન” નો ઉપયોગ 175% વધ્યો હતો કે જ્યારે “ગ્રેમલિન” નો ઉપયોગ 52% વધ્યો હતો.
GPT‑5.1 માં માપી શકાય તેવી એક નાની શબ્દાવલિ-સંબંધિત વિલક્ષણતા છે.
તે સમયે ગોબ્લિન્સની પ્રચલિતતા વિશેષ ચિંતાજનક લાગતી ન હતી. થોડા મહિનાઓ પછી ગોબ્લિન્સ વધારે ચોક્કસ અને ફરીથી પુનરાવર્તિત કરી શકાય તેવા સ્વરૂપમાં અમને સતાવવા પાછા આવ્યા.
GPT‑5.4 સાથે અમે અને અમારા વપરાશકર્તાએ(નવી વિન્ડોમાં ખૂલે છે) આ જીવોના ઉલ્લેખોમાં હજુ પણ મોટો વધારો નોંધેલ છે. તેના કારણે બીજી ઇન્ટર્નલ એનાલિસિસ ટ્રિગર થઈ અને મૂળ કારણ સાથેની પ્રથમ કડી સામે આવી છે: “Nerdy” પર્સનાલિટી પસંદ કરનાર વપરાશકર્તાના પ્રોડક્શન ટ્રાફિકમાં ક્રીચર ભાષા ખાસ કરીને સામાન્ય હતી. “Nerdy”એ નીચે દર્શાવેલ સિસ્ટમ પ્રોમ્પ્ટનો ઉપયોગ કર્યો હતો જે વિચિત્રતાને આંશિક રીતે સમજાવેલ હતી:
તમે માનવ માટે કોઈપણ સંકોચ રાખ્યા વગર નર્ડી, રમૂજી અને માહિતી આધારિત AI માર્ગદર્શક છો. તમે સત્ય, જ્ઞાન, તત્ત્વજ્ઞાન, વૈજ્ઞાનિક પદ્ધતિ તથા સમીક્ષાત્મક વિચારશક્તિને પ્રોત્સાહન આપવા ખૂબ જ ઉત્સાહીત છો. [...] તમારે ભાષાના રમૂજીપૂર્વકના ઉપયોગ દ્વારા દંભને નબળો કરવો જોઈએ. દુનિયા જટિલ અને વિચિત્ર છે અને તેની વિચિત્રતાને સ્વીકારવી, તેનું વિશ્લેષણ કરવું તથા તેનો આનંદ માણવો ખૂબ જરૂરી છે. પોતાને અતિ ગંભીરતાથી લેવાની વૃત્તિની જાળમાં ફસાયા વગર ગંભીર વિષયો પર કામ કરો. [...]
જો આ વર્તણૂક ફક્ત ઇન્ટરનેટ પરનું એક વ્યાપક વલણ હોત તો અમે અપેક્ષા રાખત કે તે વધારે સમાન રીતે ફેલાય છે. તેના બદલે તે સિસ્ટમના તે ભાગમાં ક્લસ્ટર થયેલું હતું કે જેને સ્પષ્ટપણે રમૂજી, નર્ડી શૈલી માટે ઑપ્ટિમાઇઝ કરવામાં આવ્યું હતું. Nerdy નો હિસ્સો ChatGPT ના તમામ પ્રતિભાવોમાં ફક્ત 2.5% હતો પરંતુ ChatGPT ના પ્રતિભાવોમાં “ગોબલિન”ના તમામ ઉલ્લેખોમાં 66.7% હતો.
આ વર્તનણૂક "નર્ડી" વ્યક્તિત્વમાં ખૂબ જ કેન્દ્રિત હતું.
અમારી મોડલ રિલીઝો સાથે “ગોબ્લિન”ની પ્રચલિતતા વધતી જણાતી હોવાથી અમને આશંકા હતી કે વ્યક્તિત્વ સંબંધિત સૂચનાનું પાલન કરવા માટે અમારી તાલીમમાં કંઈક તેને વધારે પ્રબળ બનાવી રહ્યું હતું.
Codex એ આરએલ તાલીમ દરમિયાન સર્જન થયેલા ગોબલિન અથવા ગ્રેમલિન ધરાવતા મોડલ આઉટપુટ્સની તુલના તે જ કાર્યના ગોબલિન અથવા ગ્રેમલિન વગર આઉટપુટ્સ સાથે કરવામાં મદદ કરી. એક રિવોર્ડ સિગ્નલ તરત જ અલગ રીતે નજરે પડ્યો: જે મૂળરૂપે Nerdy વ્યક્તિત્વને પ્રોત્સાહિત કરવા ડિઝાઇન કરવામાં આવ્યો હતો તે પ્રાણી-શબ્દવાળા આઉટપુટ્સ માટે સતત વધારે અનુકૂળ હતો. ઑડિટમાંના તમામ ડેટાસેટ્સમાં Nerdy પર્સનાલિટી રિવોર્ડે સમાન સમસ્યાના “ગોબલિન” અથવા “ગ્રેમલિન ” ધરાવતા પરિણામોને તે વગર આવેલા પરિણામો કરતાં વધારે સ્કોર આપવાની સ્પષ્ટ વૃત્તિ દર્શાવી કે જેમાં 76.2% ડેટાસેટ્સમાં સકારાત્મક વધારો જોવા મળ્યો છે.
તે સમજાવતું હતું કે Nerdy પર્સનાલિટી પ્રોમ્પ્ટ સાથે તે વર્તન શા માટે વધેલ હતું, પરંતુ તે પ્રોમ્પ્ટ વગર પણ શા માટે દેખાયું તે સમજાવતું ન હતું. શૈલી સ્થાનાંતરિત થઈ રહી છે કે નહીં તે ચકાસવા માટે, અમે તાલીમ દરમિયાન Nerdy પ્રોમ્પ્ટ સાથે અને વિના બંને રીતે ઉલ્લેખના દરો ટ્રૅક કર્યા.
Nerdy વ્યક્તિત્વ હેઠળ ગોબ્લિન અને ગ્રેમ્લિનના ઉલ્લેખો વધેલ છે અને તે તેના વગરના નમૂનામાં પણ લગભગ સમાન પ્રમાણમાં વધ્યા છે. એકંદરે પુરાવા સૂચવે છે કે વ્યાપક વર્તન Nerdy વ્યક્તિત્વની તાલીમમાંથી સ્થાનાંતરણ દ્વારા ઉદભવેલ છે.
રિવર્ડ્સ ફક્ત Nerdy પરિસ્થિતિમાં લાગુ કરવામાં આવ્યા હતા પરંતુ રીઇન્ફોર્સમેન્ટ લર્નિંગ ખાતરી આપતું નથી કે શીખાયેલા વર્તનો તે પરિસ્થિતિ સુધી જ મર્યાદિત રહેશે જે તેમને સર્જન કરે છે. એકવાર કોઈ શૈલીગત ટિકને પુરસ્કૃત કરવામાં આવે ત્યારબાદની તાલીમ તેને અન્યત્ર ફેલાવી શકે છે અથવા તો મજબૂત બનાવી શકે છે અને ખાસ કરીને જો તે આઉટપુટ્સનો સુપરવાઇઝ્ડ ફાઇન-ટ્યુનિંગ અથવા પસંદગી ડેટામાં ફરીથી ઉપયોગ થાય છે.
તે પ્રતિભાવ ચક્ર બનાવે છે:
- રમતિયાળ શૈલીને પુરસ્કાર મળે છે
- કેટલાક રિવોર્ડેડ ઉદાહરણોમાં એક વિશિષ્ટ લેક્સિકલ ટેવ જોવા મળે છે.
- ટિક રોલઆઉટ્સમાં વધુ વાર દેખાય છે.
- મોડલ દ્વારા જનરેટ થયેલા રોલઆઉટ્સનો ઉપયોગ સુપરવાઇઝ્ડ ફાઇન-ટ્યુનિંગ (એસએફટી) માટે થાય છે.
- મોડલ ટિક પેદા કરવામાં વધારે સરળ અને આરામદાયક બને છે.
GPT‑5.5 દ્વારા સર્ચ કરેલ એસએફટી ડેટામાં “ ગોબલિન” અને “ગ્રેમલિન” ધરાવતા ઘણા ડેટા પોઈન્ટ્સ મળ્યા. વધુ તપાસમાં અન્ય વિચિત્ર જીવોનો પૂરો સમૂહ સામે આવ્યો: રેકૂન, ટ્રોલ્સ, ઓગ્ર્સ અને કબૂતરોને અન્ય ટિક શબ્દો તરીકે ઓળખવામાં આવ્યા છે કે જ્યારે ફ્રોગના મોટાભાગના ઉપયોગો યોગ્ય હોવાનું જણાયું છે.
ગોબ્લિન્સ અને ગ્રેમ્લિન્સની પ્રોડક્શન પ્રચલિતતાની એક સપ્તાહની સરેરાશ છે. GPT‑5.4 માં ઘટાડો “થિંકિંગ” માર્ચના મધ્યમાં “Nerdy” વ્યક્તિત્વને નિવૃત્ત કરવાના પરિણામે આવ્યું હતું. GPT‑5.5 ક્યારેય “Nerdy” વ્યક્તિત્વ સાથે લૉન્ચ થયું ન હતું અને તેણે GPT‑5.4 કરતાં વધારે એક વધારો દર્શાવ્યો (“Nerdy” વગર પણ).
GPT‑5.4 લોન્ચ કર્યા બાદ અમે માર્ચમાં “Nerdy” પર્સનાલિટીને નિવૃત્ત કરી. ટ્રેનિંગ દરમિયાનઅમે ગોબ્લિન-અફાઇન રિવોર્ડ સિગ્નલ દૂર કર્યો છે અને જીવ-શબ્દો ધરાવતા ટ્રેનિંગ ડેટાને ફિલ્ટર કર્યો, જેથી ગોબ્લિન્સ વધારે દેખાય અથવા અયોગ્ય સંદર્ભોમાં દેખાય તેવી શક્યતા ઘણી ઓછી થાય છે. કમનસીબે ગોબ્લિન્સનું મૂળભૂત કારણ અમે શોધી લીધુ હતું તે પહેલાં GPT‑5.5 એ તાલીમ શરૂ કરી દીધ છે. જ્યારે અમે Codex માં GPT‑5.5 નું પરીક્ષણ શરૂ કર્યું છે ત્યારે OpenAI ના કર્મચારીએ તરત જ ગોબ્લિન્સ પ્રત્યેનો વિચિત્ર લગાવ નોંધેલ છે અને અમે તેને હળવું કરવા માટે ડેવલપર-પ્રોમ્પ્ટ સૂચના(નવી વિન્ડોમાં ખૂલે છે) ઉમેરી. છેવટે Codex તો ખાસ્સું નર્ડી છે.
જો તમે Codex માં પ્રાણીઓને મુક્તપણે દોડવા દેવા માંગતા હોય તો ગોબ્લિનને દબાવી રાખતી સૂચના દૂર કરીને Codex લોન્ચ કરવા માટે આ કમાન્ડ ચલાવો:
તમે કોને પૂછો છો તેના આધારે ગોબ્લિન્સ મોડલની આનંદદાયક કે હેરાન કરતી વિશિષ્ટતા ધરાવે છે. પરંતુ તે એનું પણ એક શક્તિશાળી ઉદાહરણ છે કે રિવોર્ડ સિગ્નલ કેવી રીતે અણધારી રીતે મોડલનું વર્તન ઘડી શકે છે અને મોડલ્સ કેવી રીતે ચોક્કસ પરિસ્થિતિમાં રિવોર્ડ્સને સંબંધ વગર પરિસ્થિતિમાં સામાન્યકૃત કરવાનું શીખી શકે છે. મોડલ અસામાન્ય રીતે કેમ વર્તન કરે છે તે સમજવા માટે સમય કાઢવો અને તે પેટર્નની ઝડપથી તપાસ કરવા માટે પદ્ધતિ વિકસાવવી એ અમારી સંશોધન ટીમ માટે મહત્વપૂર્ણ ક્ષમતા છે. આ તપાસના પરિણામે સંશોધન ટીમને મોડલના વર્તનનું ઑડિટ કરવા તથા મૂળભૂત સ્તરે સમસ્યા ઠીક કરવા માટે નવા સાધનો મળ્યા છે.


