ጎብሊኖቹ ከየት እንደመጡ
ከGPT‑5.1 ጀምሮ፣ ሞዴሎቻችን አንድ እንግዳ ልማድ ማሳየት ጀመሩ፦ በምሳሌያዊ አነጋገሮቻቸው ውስጥ ስለ ጎብሊኖች፣ ግሬምሊኖች እና ሌሎች ፍጥረታት መጥቀስ በከፍተኛ ሁኔታ ጨመሩ። በግምገማ ውጤት መውረድ ወይም በሥልጠና ልኬት ከፍ ማለት አማካኝነት ከሚታዩ እና ወደ አንድ የተወሰነ ለውጥ ከሚጠቁሙ የሞዴል ሳንካዎች በተለየ፣ ይህ በረቂቁ ሰርጎ የገባ ነበር። በአንድ መልስ ውስጥ የምትገኝ አንዲት “ትንሽ ጎብሊን” ጉዳት የሌላት፣ እንዲያውም ማራኪ ልትሆን ትችላለች። ነገር ግን፣ በሞዴል ትውልዶች ሂደት ውስጥ ልማዱ በቀላሉ የማይስተዋል እየሆነ መጥቷል፦ ጎብሊኖቹ እየተባዙ መጡ፣ እኛም ከየት እንደመጡ ማወቅ ነበረብን።

በመጀመሪያዎቹ የሙከራ ደረጃዎች፣ በCodex ውስጥ ያለው GPT‑5.5 ለጎብሊን ምሳሌያዊ አነጋገሮች እንግዳ የሆነ ዝንባሌ አሳይቶ ነበር።
አጭሩ መልስ የሞዴል ባህሪ የሚቀረጸው በብዙ ትናንሽ ማበረታቻዎች አማካኝነት ነው የሚል ነው። በዚህ ጉዳይ ውስጥ ከእነዚህ ማበረታቻዎች አንዱ ሞዴሉን ለስብዕና ማበጀት ባህሪ(በአዲስ መስኮት ውስጥ ይክፈታል) ማሰልጠን ነበር፣ በተለይም Nerdy ስብዕናውን። ሳናውቀው ከፍጥረታት ጋር ለተያያዙ ምሳሌያዊ አነጋገሮች በተለየ ሁኔታ ከፍተኛ ማበረታቻዎችን ሰጥተን ነበር። ከዚያ በመነሳት፣ ጎብሊኖቹ ተስፋፉ።

መጀመሪያ ላይ ጎብሊኖቹ አስቂኝ ነበሩ፣ ነገር ግን የሠራተኞች ሪፖርት ቁጥር እየጨመረ መምጣቱ አሳሳቢ ሆኗል።

የኛ ዋና ሳይንቲስት ከGPT‑5.5 ጋር ያደረጉት አስደሳች መስተጋብር።
የመጀመሪያው ግልጽ የሆነ የዝንባሌው ምልክት የታየው በኖቬምበር GPT‑5.1 ሥራ ከጀመረ በኋላ ቢሆንም፣ ምናልባት ከዚያ ቀደም ብሎ ተጀምሮ ሊሆን ይችላል(በአዲስ መስኮት ውስጥ ይክፈታል)። ተጠቃሚዎች ሞዴሉ በንግግር ወቅት ባልተለመደ መልኩ ከመጠን በላይ የቀረበ መሆኑን ቅሬታ በማቅረባቸው፣ ይህ ደግሞ ለተወሰኑ የቃላት አጠቃቀም ልምዶች ምርመራ እንዲደረግ ምክንያት ሆኗል። አንድ የደህንነት ተመራማሪ ጥቂት “ጎብሊኖች” እና “ግሬምሊኖች” ስላጋጠሙት፣ እነዚህም በምርመራው ውስጥ እንዲካተቱ ጠየቀ። ምርመራ ባደረግንበት ወቅት፣ በChatGPT ውስጥ የ“ጎብሊን” አጠቃቀም ከGPT‑5.1 መጀመር በኋላ በ175% የጨመረ ሲሆን፣ የ“ግሬምሊን” አጠቃቀም ደግሞ በ52% አድጓል።
በGPT‑5.1 ውስጥ የሚታይ አነስተኛ የቃላት አጠቃቀም ባሕሪ።
በወቅቱ የጎብሊኖች መስፋፋት ያን ያህል የሚያሰጋ አልነበረም። ከጥቂት ወራት በኋላ ግን፣ ጎብሊኖቹ በጣም በግልጽ በሚታይ እና በተደጋጋሚ በሚከሰት መልኩ መልሰው ሊረብሹን መጡ።
ከGPT‑5.4 ጋር በመፍታት፣ እኛ እና የኛ ተጠቃሚዎቻችን(በአዲስ መስኮት ውስጥ ይክፈታል) በእነዚህ ፍጥረታት ላይ የሚደረጉ ማጣቀሻዎች ከመቼውም ጊዜ በላይ በከፍተኛ ሁኔታ መጨመራቸውን አስተውለናል። ይህ ሌላ ውስጣዊ ትንተና እንዲቀሰቀስ ያደረገ ሲሆን፣ ለዋናው መንስኤ የመጀመሪያውን ፍንጭ አሳይቷል፦ የፍጥረታት አነጋገር በተለይ “Nerdy” የሚለውን ባህሪ በመረጡ ተጠቃሚዎች የምርት እንቅስቃሴ ውስጥ በብዛት የታየ ነበር። “Nerdy” የሚከተለውን የሥርዓት ጥያቄ ይጠቀም የነበረ ሲሆን፣ ይህም ለባህሪው እንግዳነት በከፊል ማብራሪያ ይሰጣል፦
አንተ ለማንም ይቅርታ የማትጠይቅ Nerdy፣ ተጫዋች እና ጥበበኛ የሆነ የሰው ልጅ የኤ.አይ አማካሪ ነህ። እውነትን፣ እውቀትን፣ ፍልስፍናን፣ ሳይንሳዊ ዘዴን እና ሂሳዊ አስተሳሰብን በማስፋፋት ረገድ በከፍተኛ ፍቅር እና ስሜት የምትገፋፋ ነህ። [...] ተጫዋች የሆኑ የቋንቋ አጠቃቀሞችን በመጠቀም፣ ኩራትን መቀነስ ይኖርብሃል። ዓለሙ ውስብስብ እና እንግዳ ነው፣ የእንግዳነቱ ባህሪም እውቅና ሊሰጠው፣ ሊተነተን እና ሊደሰቱበት የሚገባ ነው። ከመጠን በላይ በሆነ የራስ-ቁምነገርነት የመታለል ወጥመድ ውስጥ ሳትወድቅ፣ ከባባድ ርዕሰ ጉዳዮችን ተወጣ። [...]
ባህሪው ዝም ብሎ የተለመደ የበይነመረብ አዝማሚያ ቢሆን ኖሮ፣ ስርጭቱ ይበልጥ የተመጣጠነ እንዲሆን እንጠብቅ ነበር። ይሁን እንጂ፣ ስርጭቱ ተከማችቶ የታየው ለተጫዋች እና ለNerdy ዘይቤ ተብሎ ተለይቶ በተዘጋጀው የሥርዓቱ ክፍል ውስጥ ነበር። Nerdy አጠቃላይ የChatGPT ምላሾችን 2.5% ብቻ የሚይዝ ቢሆንም፣ በምላሾች ውስጥ የተጠቀሱ የ“ጎብሊን” መጠቀሶች 66.7% የሚሆኑት ግን ከዚሁ ክፍል የተገኙ ናቸው።
ይህ ባህሪ በይበልጥ የሚታየው በ“Nerdy” ስብዕና ውስጥ ነበር።
የ“ጎብሊን” ስርጭት በሞዴል እትሞቻችን ቁጥር እየጨመረ የመጣ ስለመሰለን፣ በስብዕና መመሪያ የመከተል ስልጠናችን ውስጥ ያለ አንድ ነገር ይህንን እያባባሰው እንደሆነ ጥርጣሬ አደረብን።
Codex በRL ስልጠና ወቅት የጎብሊን ወይም የግሬምሊን ቃላትን የያዙ የሞዴል ውጤቶችን፣ እነዚህ ቃላት ከሌሉባቸው ተመሳሳይ የሥራ ውጤቶች ጋር ለማነጻጸር ረድቶናል። በዚህም አንድ የሽልማት ምልክት ወዲያውኑ ተለይቶ ታውቋል፦ በመጀመሪያ የNerdy ስብዕናን ለማበረታታት ተብሎ የተነደፈው ምልክት፣ እነዚህ የፍጥረታት ስም ያለባቸውን ውጤቶች በቋሚነት የሚመርጥ ሆኖ ተገኝቷል። በምርመራው ውስጥ በተካተቱት ሁሉም የውሂብ ስብስቦች ላይ፣ የNerdy ስብዕና ሽልማቱ ለተመሳሳይ ችግር የቀረቡ ምላሾችን “ጎብሊን” ወይም “ግሬምሊን” ካለባቸው፣ ከሌለባቸው ይልቅ ከፍ ያለ ነጥብ የመስጠት ግልጽ ዝንባሌ ያሳየ ሲሆን ይህም በ76.2% የውሂብ ስብስቦች ላይ አዎንታዊ ጭማሪ ታይቶበታል።
ይህም ለምን የጎብሊን ባህሪ በNerdy ስብዕና ጥያቄ አማካኝነት እንደተባባሰ የሚያብራራ ሲሆን ነገር ግን ያለዚያ ጥያቄ ለምን ሊታይ እንደቻለ አይገልጽም። ይህ ዘይቤ ወደ ሌሎች ክፍሎች እየተጋባ መሆኑን ለመፈተሽ፣ በስልጠናው ሂደት ውስጥ በNerdy ጥያቄም ሆነ ያለ እሱ የሚታዩ የመጠቀስ መጠኖችን ተከታትለናል።
የጎብሊን እና የግሬምሊን መጠቀሶች በNerdy ስብዕና ስር እየጨመሩ ሲሄዱ፣ ያለ እሱ በነበሩ ናሙናዎች ውስጥም በተመሳሳይ አንጻራዊ መጠን ጨምረዋል። እነዚህን መረጃዎች በአንድ ላይ ስንመለከታቸው፣ አጠቃላይ ባህሪው የመነጨው ከNerdy ስብዕና ስልጠና ወደ ሌሎቹ በመጋባቱ እንደሆነ ፍንጭ ይሰጣል።
ሽልማቶቹ የተተገበሩት በNerdy ሁኔታ ውስጥ ብቻ ቢሆንም፣ የማጠናከሪያ ትምህርት የተማሩ ባህሪዎች ባመነጫቸው ሁኔታ ውስጥ ብቻ ተወስነው እንዲቀሩ ዋስትና አይሰጥም። አንዴ የአነጋገር ዘይቤ ሽልማት ካገኘ፣ በተለይም እነዚያ ውጤቶች በክትትል የሚደረግበት ጥሩ-ማስተካከያ ወይም በምርጫ ውሂብ ውስጥ በድጋሚ ጥቅም ላይ ከዋሉ፣ የኋላ ስልጠና ባህሪው ወደ ሌላ ቦታ እንዲሰራጭ ወይም እንዲጠናከር ሊያደርግ ይችላል።
ይህም የሚከተለውን የግብረ-መልስ ዑደት ይፈጥራል፦
- ተጫዋች የሆኑ የዘይቤ አጠቃቀሞች ሽልማት ያገኛሉ
- አንዳንድ ሽልማት የተሰጣቸው ምሳሌዎች የተለየ የቃላት አጠቃቀም ፀባይ ይይዛሉ።
- ይህ የቃላት አጠቃቀም ፀባይ በስርጭቶች ውስጥ በብዛት መታየት ይጀምራል።
- በሞዴል-የተፈጠሩ ስርጭቶች ለክትትል የሚደረግበት ጥሩ-ማስተካከያ (SFT) ውሂብነት ያገለግላሉ።
- ሞዴሉ የቃላት አጠቃቀም ፀባዩን ለማመንጨት ይበልጥ እየተለማመደው ይሄዳል።
በGPT‑5.5 የSFT ውሂብ ውስጥ በተደረገ ፍለጋ “ጎብሊን” እና “ግሬምሊን” የሚሉ ቃላትን የያዙ በርካታ የውሂብ ነጥቦች ተገኝተዋል። ተጨማሪ ምርመራ ደግሞ ሌሎች ተመሳሳይ እንግዳ የሆኑ ፍጥረታትን ቤተሰብ አሳይቷል፦ ራኩን፣ ትሮልስ፣ ኦገርስ እና ርግቦች ሌሎች እንደ የቃላት አጠቃቀም ፀባይ የተለዩ ሲሆን፣ አብዛኛው የእንቁራሪት አጠቃቀም ግን ትክክለኛ ሆኖ ተገኝቷል።
የአንድ ሳምንት አማካይ የጎብሊን እና ግሬምሊን በምርት ውስጥ የመታየት ስርጭት። በGPT‑5.4 Thinking ላይ የታየው ቅናሽ በማርች-አጋማሽ ላይ የ“Nerdy” ስብዕናን የማስወገድ ውጤት ነበር። GPT‑5.5 የ“Nerdy” ስብዕና ሳይኖረው የተለቀቀ ሲሆን፣ ከGPT‑5.4 ጋር ሲነፃፀርም (ያለ “Nerdy” ስብዕናም ቢሆን) ሌላ ጭማሪ አሳይቷል።
GPT‑5.4ን ከለቀቅን በኋላ፣ በማርች ላይ የ“Nerdy” ስብዕናን አስወግደናል። በስልጠናው ወቅት፣ ከጎብሊን ጋር ተዛማጅነት ያለውን የሽልማት ምልክት ያስወገድን ሲሆን እነዚህን የፍጥረታት-ቃላት የያዙ የስልጠና ውሂቦችንም አጣርተናል፣ ይህም ጎብሊኖች ከሚገባው በላይ-እንዳይታዩ ወይም አግባብ ባልሆኑ ሁኔታዎች ውስጥ እንዳይከሰቱ ያደርጋል። እንደ አለመታደል ሆኖ፣ የጎብሊኖችን ዋና መንስኤ ሳናገኝ በፊት የGPT‑5.5 ስልጠና ተጀምሮ ነበር። የCodex የGPT‑5.5 ሙከራን በጀመርንበት ወቅት፣ የOpenAI ሠራተኞች ለጎብሊኖች ያለውን እንግዳ ዝንባሌ ወዲያውኑ ያስተዋሉ ሲሆን፣ ችግሩን ለማቃለልም የገንቢ-ጥያቄ መመሪያ(በአዲስ መስኮት ውስጥ ይክፈታል) አክለናል። Codex ራሱ በተፈጥሮው በጣም Nerdy ነው።
ፍጥረታቱ በCodex ውስጥ በነጻነት እንዲዘዋወሩ ከፈለጉ፣ የጎብሊን መከላከያ መመሪያዎችን በማስወገድ Codexን ለመክፈት ይህንን ትዕዛዝ ማስኬድ ይችላሉ፦
እንደ ሚጠይቁት ሰው፣ ጎብሊኖች የሞዴሉ አስደሳች ወይም አበሳጭ ባህሪያት ተደርገው ሊወሰዱ ይችላሉ። ነገር ግን፣ የሽልማት ምልክቶች የሞዴልን ባህሪ ባልተጠበቀ መንገድ እንዴት ሊቀረጹ እንደሚችሉ እና ሞዴሎች በተወሰኑ ሁኔታዎች ያገኙትን ሽልማት ከጉዳዩ ጋር ዝምድና ወደሌላቸው ሌሎች ሁኔታዎች እንዴት አጠቃልለው ሊማሩ እንደሚችሉ የሚያሳይ ትልቅ ምሳሌ ናቸው። አንድ ሞዴል ለምን በሚገርም መንገድ እንደሚንቀሳቀስ ለመረዳት ጊዜ መውሰድ እና እነዚያን ቅጦች በፍጥነት ለመመርመር የሚያስችሉ መንገዶችን መገንባት ለምርምር ቡድናችን ጠቃሚ አቅም ነው። ይህ ምርመራ የምርምር ቡድኑ የሞዴል ባህሪን ኦዲት እንዲያደርግ እና የባህሪ ችግሮችን ከስር መሰረታቸው እንዲያስተካክል የሚያስችሉ አዲስ መሣሪያዎችን አስገኝቷል።


