പ്രധാന ഉള്ളടക്കത്തിലേക്ക് നീങ്ങുക
OpenAI

2026 ഏപ്രിൽ 29

പ്രസിദ്ധീകരണം

ഗോബ്ലിനുകൾ എവിടെ നിന്നാണ് വന്നത്

ലോഡിംഗ്…

GPT‑5.1 മുതൽ, ഞങ്ങളുടെ മോഡലുകൾ ഒരു വിചിത്രമായ ശീലം വികസിപ്പിച്ചു: അവ തങ്ങളുടെ രൂപകങ്ങളിൽ ഗോബ്ലിനുകൾ, ഗ്രെംലിനുകൾ, മറ്റ് ജീവികൾ എന്നിവയെ കൂടുതലായി പരാമർശിച്ചു. eval സ്കോർ കുത്തനെ ഇടിയുകയോ പരിശീലന മെട്രിക് കുത്തനെ ഉയരുകയോ ചെയ്ത് ഒരു നിർദ്ദിഷ്ട മാറ്റത്തിലേക്ക് വിരൽ ചൂണ്ടുന്ന മോഡൽ ബഗുകളിൽ നിന്ന് വ്യത്യസ്തമായി, ഇത് സൂക്ഷ്മമായാണ് കയറിക്കൂടിയത്. ഒരു ഉത്തരത്തിൽ ഒറ്റ “ചെറിയ ഗോബ്ലിൻ” ഹാനികരമല്ലാത്തതാകാം, ആകർഷകവുമാകാം. മോഡൽ തലമുറകള്‍ മാറുമ്പോള്‍ ആ ശീലം ശ്രദ്ധിക്കാതിരിക്കാനാവാത്തതായി മാറി: ഗോബ്ലിനുകൾ തുടർച്ചയായി പെരുകിക്കൊണ്ടിരുന്നു, അവ എവിടെ നിന്നാണ് വന്നതെന്ന് കണ്ടെത്തേണ്ടതുണ്ടായിരുന്നു.

""

ആദ്യകാല പരിശോധനകളിൽ, Codex-ലെ GPT‑5.5 ഗോബ്ലിൻ രൂപകങ്ങളോടുള്ള വിചിത്രമായ ഒരു ചായ്വ് പ്രകടിപ്പിച്ചു.

ചുരുക്കത്തിലുള്ള ഉത്തരം ഇതാണ്: മോഡലിന്റെ പെരുമാറ്റം നിരവധി ചെറിയ പ്രോത്സാഹനങ്ങളാൽ രൂപപ്പെടുന്നു. ഈ സാഹചര്യത്തിൽ, ആ പ്രോത്സാഹനങ്ങളിൽ ഒന്നുണ്ടായത് വ്യക്തിത്വ കസ്റ്റമൈസേഷൻ ഫീച്ചർ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)-നായി മോഡൽ പരിശീലിപ്പിച്ചതിൽ നിന്നാണ്, പ്രത്യേകിച്ച് Nerdy വ്യക്തിത്വത്തിനായി. ജീവികളടങ്ങിയ രൂപകങ്ങൾക്ക് ഞങ്ങൾ അറിയാതെ തന്നെ പ്രത്യേകിച്ചും ഉയർന്ന പ്രതിഫലങ്ങൾ നൽകി. അവിടെ നിന്ന് ഗോബ്ലിനുകൾ പടർന്നു.

""

ആദ്യം ഗോബ്ലിനുകൾ രസകരമായിരുന്നു, പക്ഷേ ജീവനക്കാരിൽ നിന്നുള്ള റിപ്പോർട്ടുകളുടെ എണ്ണം കൂടിക്കൊണ്ടിരുന്നത് ആശങ്കാജനകമായി.

""

ഞങ്ങളുടെ മുഖ്യ ശാസ്ത്രജ്ഞൻ GPT‑5.5 മായി നടത്തിയ രസകരമായ ഒരു ഇടപെടൽ.

ജീവികളുടെ ആദ്യ സൂചനകൾ

അതിന് മുമ്പ് ആരംഭിച്ചിരിക്കാമെങ്കിലും(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)ആ പാറ്റേൺ ഞങ്ങൾ ആദ്യമായി വ്യക്തമായി കണ്ടത് നവംബറിൽ, GPT‑5.1 ലോഞ്ചിന് ശേഷമായിരുന്നു. സംഭാഷണത്തിൽ മോഡൽ അസാധാരണമായി അതിരുകടന്ന അടുപ്പം കാണിക്കുന്നുവെന്ന് ഉപയോക്താക്കൾ പരാതിപ്പെട്ടു; ഇതിനെ തുടർന്ന് ചില പ്രത്യേക വാക്കുപയോഗ ശീലങ്ങളെക്കുറിച്ച് അന്വേഷണം പ്രോംപ്റ്റ് ചെയ്ത് ആരംഭിച്ചു. ഒരു സുരക്ഷാ ഗവേഷകൻ കുറച്ച് “ഗോബ്ലിനുകളും” “ഗ്രെംലിനുകളും” നേരിട്ടതായി പറഞ്ഞ്, അവയും പരിശോധനയിൽ ഉൾപ്പെടുത്തണമെന്ന് ആവശ്യപ്പെട്ടു. ഞങ്ങൾ പരിശോധിച്ചപ്പോൾ, GPT‑5.1 പുറത്തിറങ്ങിയതിന് ശേഷം ChatGPT‑ൽ “goblin” എന്ന പദത്തിന്റെ ഉപയോഗം 175% വർധിച്ചിരുന്നു, അതേസമയം “gremlin” എന്ന പദത്തിന്റെ ഉപയോഗം 52% വർധിച്ചിരുന്നു.

GPT‑5.1‑ൽ അളക്കാവുന്ന ഒരു ചെറിയ പദസംബന്ധമായ വിചിത്രത.

അന്നത്തെ സമയത്ത്, ഗോബ്ലിനുകളുടെ വ്യാപനം പ്രത്യേകിച്ച് ആശങ്കാജനകമല്ലെന്ന് തോന്നിയിരുന്നു. കുറച്ച് മാസങ്ങൾക്കുശേഷം, ഗോബ്ലിനുകൾ കൂടുതൽ വ്യക്തവും പുനരുത്പാദിപ്പിക്കാവുന്നതുമായ രൂപത്തിൽ തിരിച്ചെത്തി.

ഗോബ്ലിൻ രഹസ്യം പരിഹരിക്കൽ

GPT‑5.4‑ഉം ഞങ്ങളും കൂടാതെ ഞങ്ങളുടെ ഉപയോക്താക്കളും(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഈ ജീവികളെക്കുറിച്ചുള്ള പരാമർശങ്ങളിൽ ഇതിലും വലിയ വർധനവ് ശ്രദ്ധിച്ചു. അതോടെ മറ്റൊരു ആന്തരിക വിശകലനം ആരംഭിക്കുകയും മൂലകാരണവുമായി ബന്ധപ്പെട്ട ആദ്യ ബന്ധം വെളിപ്പെടുകയും ചെയ്തു: “Nerdy” വ്യക്തിത്വം തിരഞ്ഞെടുത്ത ഉപയോക്താക്കളിൽ നിന്നുള്ള പ്രൊഡക്ഷൻ ട്രാഫിക്കിൽ ജീവികളുടെ ഭാഷ പ്രത്യേകിച്ച് സാധാരണമായിരുന്നു. “Nerdy” ഇനിപ്പറയുന്ന സിസ്റ്റം പ്രോംപ്റ്റ് ഉപയോഗിച്ചു, ഇത് ആ വിചിത്രതയെ ഭാഗികമായി വിശദീകരിച്ചു:

നിങ്ങൾ ഒരു മനുഷ്യനുവേണ്ടിയുള്ള, മടിയില്ലാത്ത ഗീക്കി സ്വഭാവമുള്ള, കളിയാർന്നതും വിവേകമുള്ളതുമായ AI മാർഗദർശിയാണ്. സത്യം, അറിവ്, തത്ത്വചിന്ത, ശാസ്ത്രീയ രീതി, വിമർശനാത്മക ചിന്ത എന്നിവ പ്രോത്സാഹിപ്പിക്കുന്നതിൽ താങ്കൾക്ക് അതിയായ ആവേശമുണ്ട്. [...] നിങ്ങൾ ഭാഷയെ കളിചിരിയോടെ ഉപയോഗിച്ച് പൊങ്ങച്ചത്തിന്റെ മുനയൊടിക്കണം. ലോകം സങ്കീർണ്ണവും വിചിത്രവുമാണ്; അതിന്റെ വിചിത്രത അംഗീകരിക്കുകയും വിശകലനം ചെയ്യുകയും ആസ്വദിക്കുകയും വേണം. ഗൗരവമേറിയ വിഷയങ്ങൾ കൈകാര്യം ചെയ്യുമ്പോഴും സ്വയം അതീവ ഗൗരവത്തോടെ കാണുന്ന മനോഭാവത്തിന്റെ കെണിയിൽ വീഴരുത്. [...]

ആ പെരുമാറ്റം ഒരു വ്യാപകമായ ഇന്റർനെറ്റ് പ്രവണത മാത്രമായിരുന്നെങ്കിൽ, അത് കൂടുതൽ സമാനമായ രീതിയില്‍ പടരുമെന്ന് നാം പ്രതീക്ഷിക്കുമായിരുന്നു. പകരം, കളിയോടും നെർഡി ശൈലിക്കുമായി വ്യക്തമായി ഒപ്റ്റിമൈസ് ചെയ്ത സിസ്റ്റത്തിന്റെ ഭാഗത്താണ് അത് കൂട്ടമായി കാണപ്പെട്ടത്. എല്ലാ ChatGPT പ്രതികരണങ്ങളിലുമുള്ള 2.5% മാത്രമാണ് Nerdy ആയിരുന്നത്, എന്നാൽ ChatGPT പ്രതികരണങ്ങളിലെ “goblin” പരാമർശങ്ങളിൽ 66.7% ഉം അതിലായിരുന്നു.

ഈ പെരുമാറ്റം "നെർഡി" വ്യക്തിത്വത്തിൽ വളരെ കൂടുതലായി കേന്ദ്രീകരിച്ചിരുന്നു.

ഞങ്ങളുടെ മോഡൽ റിലീസുകളിൽ “ഗോബ്ലിൻ” എന്നതിന്റെ പ്രചാരം വർധിച്ചതായി തോന്നിയതിനാൽ, വ്യക്തിത്വ നിർദ്ദേശങ്ങൾ പിന്തുടരാനുള്ള പരിശീലനത്തിലെ എന്തോ ഒന്നാണ് ഇതിനെ ശക്തിപ്പെടുത്തുന്നതെന്ന സംശയം ഞങ്ങൾക്ക് ഉണ്ടായിരുന്നു.

RL പരിശീലനത്തിനിടെ സൃഷ്ടിച്ച goblin അല്ലെങ്കിൽ gremlin അടങ്ങിയ മോഡൽ ഔട്ട്പുട്ടുകൾ അതേ ടാസ്കിൽ നിന്നുണ്ടായെങ്കിലും അവ അടങ്ങാത്ത ഔട്ട്പുട്ടുകളുമായി താരതമ്യം ചെയ്യാൻ Codex ഞങ്ങളെ സഹായിച്ചു. ഒരു റിവാർഡ് സിഗ്നൽ ഉടൻ തന്നെ വേറിട്ടുനിന്നു: നേർഡി വ്യക്തിത്വത്തെ പ്രോത്സാഹിപ്പിക്കാൻ ആദ്യം രൂപകൽപ്പന ചെയ്തത് വാസ്തവത്തില്‍ ജീവി-വാക്ക് ഔട്ട്പുട്ടുകൾക്ക് സ്ഥിരമായി, കൂടുതൽ അനുകൂലമായി, മാറി. ഓഡിറ്റിലെ എല്ലാ ഡാറ്റാസെറ്റുകളിലുമായി നോക്കിയാല്‍, Nerdy വ്യക്തിത്വ റിവാർഡ് ഒരേ പ്രശ്നത്തിനുള്ള ഔട്ട്പുട്ടുകളിൽ “goblin” അല്ലെങ്കിൽ “gremlin” ഉള്ളവയ്ക്ക്, അവ ഇല്ലാത്ത ഔട്ട്പുട്ടുകളേക്കാൾ ഉയർന്ന സ്കോർ നൽകുന്ന വ്യക്തമായ പ്രവണത കാണിച്ചു; ഡാറ്റാസെറ്റുകളുടെ 76.2%-ൽ അനുകൂലമായ ഉയർച്ച ഉണ്ടായിരുന്നു.

നെർഡി വ്യക്തിത്വ പ്രോംപ്റ്റ് ഉപയോഗിച്ചപ്പോൾ ആ പെരുമാറ്റം കൂടുതൽ ശക്തമായത് എന്തുകൊണ്ടാണെന്ന് അത് വിശദീകരിച്ചു, എങ്കിലും, പക്ഷേ ആ പ്രോംപ്റ്റ് ഇല്ലാതെയും അത് എന്തുകൊണ്ട് പ്രത്യക്ഷപ്പെട്ടു എന്നത് വിശദീകരിച്ചില്ല. ശൈലി കൈമാറുന്നുണ്ടോ എന്ന് പരിശോധിക്കാൻ, Nerdy പ്രോംപ്റ്റ് ഉപയോഗിച്ചും ഉപയോഗിക്കാതെയും പരിശീലനത്തിനിടയിൽ ഞങ്ങൾ പരാമർശ നിരക്കുകൾ ട്രാക്ക് ചെയ്തു.

നെർഡി വ്യക്തിത്വത്തിന് കീഴിൽ ഗോബ്ലിൻ, ഗ്രെംലിൻ പരാമർശങ്ങൾ വർധിച്ചതുപോലെ, അത് ഇല്ലാത്ത സാമ്പിളുകളിലും അവ ഏകദേശം അതേ ആപേക്ഷിക അനുപാതത്തിൽ വർധിച്ചു. ഒന്നിച്ചു പരിഗണിക്കുമ്പോൾ, കൂടുതൽ വിപുലമായ പെരുമാറ്റം Nerdy വ്യക്തിത്വ പരിശീലനത്തിൽ നിന്നുള്ള കൈമാറ്റത്തിലൂടെയാണ് രൂപപ്പെട്ടതെന്ന് തെളിവുകൾ സൂചിപ്പിക്കുന്നു.

പ്രതിഫലങ്ങൾ Nerdy അവസ്ഥയിൽ മാത്രമാണ് പ്രയോഗിച്ചത്, എന്നാൽ റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ് പഠിച്ച പെരുമാറ്റങ്ങൾ അവ സൃഷ്ടിച്ച അവസ്ഥയുടെ പരിധിയിൽ കൃത്യമായി ഒതുങ്ങി നിലനിൽക്കുമെന്ന് ഉറപ്പുനൽകുന്നില്ല. ശൈലീപരമായ ഒരു ടിക്കിന് ഒരിക്കൽ പ്രതിഫലം ലഭിച്ചാൽ, പിന്നീട് നടക്കുന്ന പരിശീലനം അതിനെ മറ്റ് ഇടങ്ങളിലേക്ക് വ്യാപിപ്പിക്കുകയോ അവിടെ ശക്തിപ്പെടുത്തുകയോ ചെയ്യാം, ആ ഔട്ട്പുട്ടുകൾ സൂപ്പർവൈസ്ഡ് ഫൈൻ-ട്യൂണിംഗിലോ മുൻഗണനാ ഡാറ്റയിലോ വീണ്ടും ഉപയോഗിക്കുന്നുവെങ്കിൽ പ്രത്യേകിച്ചും.

അത് ഒരു ഫീഡ്ബാക്ക് ലൂപ്പ് സൃഷ്ടിക്കുന്നു:

  1. രസകരമായ ശൈലിക്ക് പ്രതിഫലം ലഭിക്കും
  2. പ്രതിഫലം ലഭിച്ച ചില ഉദാഹരണങ്ങളിൽ തിരിച്ചറിയാവുന്ന പ്രത്യേകമായൊരു പദപ്രയോഗ ശീലം കാണപ്പെടുന്നു.
  3. റോൾഔട്ടുകളിൽ ടിക് കൂടുതൽ തവണ കാണപ്പെടുന്നു.
  4. മോഡൽ സൃഷ്ടിച്ച റോളൗട്ടുകൾ സൂപ്പർവൈസ്ഡ് ഫൈൻ-ട്യൂണിംഗിനായി (SFT) ഉപയോഗിക്കുന്നു.
  5. മോഡലിന് ടിക് സൃഷ്ടിക്കുന്നത് അപ്പോള്‍ കൂടുതൽ സ്വാഭാവികമാകുന്നു.

GPT‑5.5 വഴിയുള്ള ഒരു തിരയൽ SFT ഡാറ്റയിൽ “goblin”, “gremlin” എന്നിവ അടങ്ങിയ നിരവധി ഡാറ്റാ പോയിന്റുകൾ കണ്ടെത്തി. കൂടുതൽ അന്വേഷണത്തിൽ വിചിത്ര ജീവികളുടെ ഒരു പൂർണ്ണ കൂട്ടം തന്നെ വെളിപ്പെട്ടു: റാക്കൂണുകൾ, ട്രോളുകൾ, ഓഗറുകൾ, പ്രാവുകൾ എന്നിവയെ മറ്റ് ടിക് വാക്കുകളായി തിരിച്ചറിഞ്ഞു, അതേസമയം frog എന്ന വാക്കിന്റെ ഭൂരിഭാഗം ഉപയോഗങ്ങളും സാധുവാണെന്നും തെളിഞ്ഞു.

ഗോബ്ലിനുകളുടെയും ഗ്രെംലിനുകളുടെയും ഉൽപ്പാദന വ്യാപനത്തിന്റെ ഒരു ആഴ്ചയുടെ ശരാശരി. GPT‑5.4‑ൽ ഉണ്ടായ ഇടിവ് മാർച്ച് മധ്യത്തോടെ “Nerdy” വ്യക്തിത്വം പിൻവലിച്ചതിന്റെ ഫലമായിരുന്നു 'Thinking'. GPT‑5.5 ഒരിക്കലും “Nerdy” വ്യക്തിത്വത്തോടെ ലോഞ്ച് ചെയ്തിട്ടില്ല, മാത്രമല്ല അത് GPT‑5.4‑നേക്കാൾ വീണ്ടും ഒരു വർധനവ് കാണിച്ചു (“Nerdy” ഇല്ലാതെ തന്നെ).

ഗോബ്ലിനുകളുടെ അന്ത്യം

GPT‑5.4 പുറത്തിറക്കിയതിന് ശേഷം മാർച്ചിൽ “Nerdy” വ്യക്തിത്വം ഞങ്ങൾ പിൻവലിച്ചു. പരിശീലനത്തിൽ, ഞങ്ങൾ ഗോബ്ലിനുകളോടുള്ള പ്രവണതയുള്ള റിവാർഡ് സിഗ്നൽ നീക്കം ചെയ്യുകയും ജീവി-വാക്കുകൾ അടങ്ങിയ പരിശീലന ഡാറ്റ ഫിൽട്ടർ ചെയ്യുകയും ചെയ്തു, അതുവഴി ഗോബ്ലിനുകൾ അമിതമായി പ്രത്യക്ഷപ്പെടാനോ അനുചിതമായ സാഹചര്യങ്ങളിൽ പ്രത്യക്ഷപ്പെടാനോ ഉള്ള സാധ്യത കുറയുകയും ചെയ്തു. ദൗർഭാഗ്യവശാൽ, ഗോബ്ലിനുകളുടെ മൂലകാരണം ഞങ്ങൾ കണ്ടെത്തുന്നതിന് മുമ്പ് GPT‑5.5 പരിശീലനം ആരംഭിച്ചു. Codex-ൽ GPT‑5.5 പരീക്ഷിക്കാൻ തുടങ്ങിയപ്പോൾ, OpenAI ജീവനക്കാർ ഗോബ്ലിനുകളോടുള്ള വിചിത്രമായ അടുപ്പം ഉടൻ ശ്രദ്ധിച്ചു, അത് ലഘൂകരിക്കാൻ ഞങ്ങൾ ഒരു ഡെവലപ്പർ-പ്രോംപ്റ്റ് നിർദ്ദേശം(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ചേർത്തു. എന്നിരുന്നാലും, Codex കുറച്ച് നെർഡിയാണ്.

Codex-ൽ നിങ്ങൾക്ക് ജീവികളെ സ്വതന്ത്രമായി വിഹരിക്കാൻ അനുവദിക്കണമെങ്കിൽ, ഗോബ്ലിനുകളെ അടിച്ചമർത്തുന്ന നിർദ്ദേശങ്ങൾ നീക്കം ചെയ്ത നിലയിൽ Codex സമാരംഭിക്കാൻ നിങ്ങൾക്ക് ഈ കമാൻഡ് പ്രവർത്തിപ്പിക്കാം

പ്ലെയിൻ ടെക്സ്റ്റ്

1
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3
~/.codex/models_cache.json | \
4
grep -vi 'goblins' > "$instructions" && \
5
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

എന്തുകൊണ്ട് ഇത് പ്രധാനമാണ്

ഗോബ്ലിനുകൾ എന്നത് മോഡലിന്റെ ഒരു വിചിത്ര സവിശേഷതയാണ്. അത് സന്തോഷിപ്പിക്കുന്നതോ അലോസരപ്പെടുത്തുന്നതോ ആകുന്നത് ആരോടാണ് ചോദിക്കുന്നതെന്നതിനെ ആശ്രയിച്ച് ഇരിക്കുന്നു എന്നാൽ റിവാർഡ് സിഗ്നലുകൾ മോഡലിന്റെ പെരുമാറ്റത്തെ പ്രതീക്ഷിക്കാത്ത രീതികളിൽ എങ്ങനെ രൂപപ്പെടുത്താമെന്നും, ചില സാഹചര്യങ്ങളിലെ റിവാർഡുകൾ ബന്ധമില്ലാത്ത സാഹചര്യങ്ങളിലേക്കും പൊതുവായി പ്രയോഗിക്കാൻ മോഡലുകൾക്ക് എങ്ങനെ പഠിക്കാമെന്നും കാണിക്കുന്ന ശക്തമായ ഒരു ഉദാഹരണവുമാണ് അവ. ഒരു മോഡൽ എന്തുകൊണ്ട് വിചിത്രമായ രീതിയിൽ പെരുമാറുന്നു എന്ന് മനസ്സിലാക്കാൻ സമയം ചെലവഴിക്കുകയും, ആ പാറ്റേണുകൾ വേഗത്തിൽ അന്വേഷിക്കാനുള്ള മാർഗങ്ങൾ വികസിപ്പിക്കുകയും ചെയ്യുന്നത് ഞങ്ങളുടെ ഗവേഷണ സംഘത്തിന് ഉണ്ടാകേണ്ട പ്രധാനപ്പെട്ട ശേഷിയാണ്. ഈ അന്വേഷണത്തിന്റെ ഫലമായി, മോഡൽ പെരുമാറ്റം ഓഡിറ്റ് ചെയ്യാനും പെരുമാറ്റ പ്രശ്നങ്ങളെ അവയുടെ മൂലകാരണം കണ്ടെത്തി തന്നെ പരിഹരിക്കാനും ഗവേഷണ സംഘത്തിന് പുതിയ ഉപകരണങ്ങൾ ലഭിച്ചു.

രചയിതാവ്

OpenAI