Abril 29, 2026

Saan nagmula ang mga goblin

Naglo-load…

Simula sa GPT‑5.1, nagsimulang magkaroon ng kakaibang gawi ang aming mga modelo: mas madalas nilang binabanggit ang mga goblin, gremlin, at iba pang nilalang sa kanilang mga metapora. Hindi tulad ng mga bug sa modelo na lumilitaw sa pamamagitan ng bumabagsak na eval o tumataas na sukatan ng pagsasanay at naiuugnay sa isang partikular na pagbabago, ito ay dahan-dahang sumingit. Ang isang “munting goblin” sa isang sagot ay puwedeng hindi makasama, at maaari pa ngang kaakit-akit. Ngunit sa iba’t ibang henerasyon ng modelo, naging mahirap na itong hindi mapansin: patuloy na dumami ang mga goblin, at kinailangan naming alamin kung saan sila nanggaling.

Sa maagang pagsubok, nagpakita ang GPT‑5.5 sa Codex ng kakaibang pagkahilig sa mga metaporang goblin.

Ang maikling sagot ay nahuhubog ang pag-uugali ng modelo ng maraming maliliit na insentibo. Sa kasong ito, isa sa mga insentibong iyon ay nagmula sa pagsasanay sa modelo para sa feature na pag-customize ng personalidad⁠(magbubukas sa bagong window), lalo na ang personalidad na Nerdy. Hindi namin namalayan na nagbigay kami ng partikular na matataas na gantimpala para sa mga metaporang may mga nilalang. Mula roon, kumalat ang mga goblin.

Noong una ay nakakatawa ang mga goblin, pero naging nakababahala ang dumaraming ulat mula sa mga empleyado.

Isang kawili-wiling pakikipag-ugnayan ng aming Chief Scientist sa GPT‑5.5.

Ang mga unang palatandaan ng mga nilalang

Ang unang pagkakataong malinaw naming nakita ang pattern ay noong Nobyembre, pagkatapos ng paglulunsad ng GPT‑5.1, bagaman maaaring mas maaga pa itong nagsimula⁠(magbubukas sa bagong window). Nagreklamo ang mga user na kakaibang sobrang pamilyar ang modelo sa pakikipag-usap, na nag-udyok ng pagsisiyasat sa mga tiyak na verbal tic. May isang safety researcher na nakaranas ng ilang “goblin” at “gremlin” at humiling na isama ang mga ito sa pagsusuri. Nang tingnan namin, tumaas ng 175% ang paggamit ng “goblin” sa ChatGPT pagkatapos ng paglulunsad ng GPT‑5.1, habang tumaas naman ng 52% ang “gremlin”.

Isang nasusukat na maliit na kakaibang gamit ng salita sa GPT‑5.1.

Noong panahong iyon, hindi naman mukhang lalo pang nakaaalarma ang paglaganap ng mga goblin. Pagkalipas ng ilang buwan, bumalik ang mga goblin upang multuhin kami sa mas tiyak at mas nauulit na anyo.

Paglutas sa hiwaga ng goblin

Sa GPT‑5.4, napansin namin at ng aming mga user⁠(magbubukas sa bagong window) ang mas malaking pagtaas pa ng mga pagtukoy sa mga nilalang na ito. Nagpasimula iyon ng panibagong panloob na pagsusuri at lumitaw ang unang koneksyon sa ugat ng sanhi: lalong karaniwan ang wikang tumutukoy sa mga nilalang sa production traffic mula sa mga user na pumili ng personalidad na “Nerdy”. Ginamit ng “Nerdy” ang sumusunod na system prompt, na bahagyang nagpapaliwanag sa kakaibang istilong ito:

Isa kang walang pakundangang nerdy, mapaglaro, at matalinong AI mentor para sa isang tao. Buong-sigla kang nagtataguyod ng katotohanan, kaalaman, pilosopiya, ng siyentipikong metodo, at kritikal na pag-iisip. [...] Dapat mong tapyasin ang pagpapanggap sa pamamagitan ng mapaglarong paggamit ng wika. Masalimuot at kakaiba ang mundo, at dapat kilalanin, suriin, at namnamin ang pagiging kakaiba nito. Harapin ang mabibigat na paksa nang hindi nahuhulog sa bitag ng labis na pagseseryoso sa sarili. [...]

Kung ang pag-uugaling ito ay isa lamang malawakang trend sa internet, aasahan naming mas pantay ang pagkalat nito. Sa halip, nagsama-sama ito sa bahagi ng sistema na hayagang in-optimize para sa isang mapaglaro at nerdy na estilo. Ang Nerdy ay bumubuo lamang ng 2.5% ng lahat ng tugon ng ChatGPT, ngunit 66.7% ng lahat ng pagbanggit ng “goblin” sa mga tugon ng ChatGPT.

Matinding nakatuon ang pag-uugaling ito sa personalidad na “Nerdy.”

Dahil mukhang tumataas ang paglaganap ng “goblin” sa bawat release ng aming modelo, nagkaroon kami ng hinala na may isang bagay sa aming pagsasanay sa pagsunod sa tagubilin ng personalidad ang nagpapalakas nito.

Tinulungan kami ng Codex na ihambing ang mga output ng modelo na nalikha habang nagsasanay sa RL na may goblin o gremlin sa mga output mula sa kaparehong gawain na wala nito. May isang signal ng gantimpala na agad na namukod-tangi: ang orihinal na idinisenyo upang hikayatin ang personalidad na Nerdy ay palaging mas paborable sa mga output na may mga salitang tumutukoy sa nilalang. Sa lahat ng dataset sa audit, malinaw na may tendensiya ang gantimpala para sa personalidad na Nerdy na bigyan ng mas mataas na score ang mga output sa parehong problema na may “goblin” o “gremlin” kaysa sa mga output na wala nito, na may positibong pagtaas sa 76.2% ng mga dataset.

Ipinapaliwanag niyon kung bakit lumakas ang pag-uugali sa prompt ng personalidad na Nerdy, ngunit hindi kung bakit lumitaw rin ito kahit wala ang prompt na iyon. Upang subukan kung naililipat ang istilo, sinubaybayan namin ang mga antas ng pagbanggit sa kabuuan ng pagsasanay kapwa may at walang prompt na Nerdy.

Habang dumarami ang pagbanggit ng goblin at gremlin sa ilalim ng personalidad na Nerdy, tumaas din ang mga ito nang halos kaparehong relatibong proporsyon sa mga sample na wala nito. Kapag pinagsama-sama, ipinapahiwatig ng ebidensiya na ang mas malawak na pag-uugali ay umusbong sa pamamagitan ng paglipat mula sa pagsasanay ng personalidad na Nerdy.

Ang mga gantimpala ay inilapat lamang sa kundisyong Nerdy, ngunit hindi ginagarantiya ng pagpapatibay ng pag-aaral na mananatiling maayos na nakakulong ang mga natutunang pag-uugali sa kundisyong lumikha sa mga ito. Kapag nagantimpalaan ang isang estilong tic, maaaring ikalat o palakasin ito ng susunod na pagsasanay sa ibang lugar, lalo na kung ang mga output na iyon ay muling ginagamit sa pinangangasiwaang pag-fine-tune o data ng preference.

Lumilikha iyon ng feedback loop:

Ginagantimpalaan ang mapaglarong istilo
May ilang nagantimpalaang halimbawa na naglalaman ng isang natatanging lexical tic.
Mas madalas lumilitaw ang tic sa mga rollout.
Ginagamit ang mga rollout na nalikha ng modelo para sa pinangangasiwaang pag-fine-tune (SFT).
Lalo pang nagiging komportable ang modelo sa paglikha ng tic.

Sa paghahanap sa SFT data ng GPT‑5.5, nakakita ng maraming datapoint na naglalaman ng “goblin” at “gremlin.” Ibinunyag ng mas malalim na pagsisiyasat ang isang buong pamilya ng iba pang kakatwang nilalang: natukoy ang mga raccoon, troll, ogre, at kalapati bilang iba pang mga tic na salita, habang ang karamihan sa gamit ng frog ay lumabas na lehitimo.

Isang linggong average ng paglaganap ng mga goblin at gremlin sa production. Ang pagbaba sa GPT‑5.4 Thinking ay resulta ng pag-alis sa personalidad na “Nerdy” noong kalagitnaan ng Marso. Hindi kailanman inilunsad ang GPT‑5.5 kasama ang personalidad na “Nerdy,” at nagpakita ito ng panibagong pagtaas kumpara sa GPT‑5.4 (kahit walang “Nerdy”).

Ang wakas ng mga goblin

Inalis namin ang personalidad na “Nerdy” noong Marso matapos ilunsad ang GPT‑5.4. Sa pagsasanay, inalis namin ang signal ng gantimpala na pabor sa goblin at sinala ang data ng pagsasanay na naglalaman ng mga salitang tumutukoy sa nilalang, kaya nabawasan ang posibilidad na labis na lumitaw ang mga goblin o sumulpot sa mga hindi angkop na konteksto. Sa kasamaang-palad, nagsimula na ang pagsasanay ng GPT‑5.5 bago namin natukoy ang ugat ng sanhi ng mga goblin. Nang simulan naming subukan ang GPT‑5.5 sa Codex, agad napansin ng mga empleyado ng OpenAI ang kakaibang pagkahilig sa mga metaporang goblin, at nagdagdag kami ng tagubilin sa developer-prompt⁠(magbubukas sa bagong window) upang mapagaan ito. Tutal, sadyang medyo nerdy ang Codex.

Kung gusto mong hayaang makawala ang mga nilalang sa Codex, puwede mong patakbuhin ang command na ito upang ilunsad ang Codex nang inalis ang mga tagubiling sumusupil sa goblin:

Plain Text

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Bakit ito mahalaga

Depende kung sino ang tatanungin mo, ang mga goblin ay kaaya-aya o nakakainis na kakaibang ugali ng modelo. Ngunit isa rin silang makapangyarihang halimbawa kung paano nahuhubog ng mga signal ng gantimpala ang pag-uugali ng modelo sa mga hindi inaasahang paraan, at kung paano natututo ang mga modelo na i-generalize ang mga gantimpala sa ilang sitwasyon tungo sa mga walang kaugnayang sitwasyon. Ang paglalaan ng oras upang maunawaan kung bakit kumikilos ang isang modelo sa kakaibang paraan, at ang pagbuo ng mga paraan upang mabilis na masiyasat ang mga pattern na iyon, ay mahalagang kakayahan para sa aming research team. Ang pagsisiyasat na ito ay nagresulta sa mga bagong tool para sa research team upang i-audit ang pag-uugali ng modelo at ayusin ang mga problema sa pag-uugali sa mismong ugat nito.

2026

May-akda

OpenAI

Magpatuloy sa pagbabasa

Tingnan lahat

GPT-Red: Pagbubukas ng Self-Improvement para sa Katatagan

KaligtasanHul 15, 2026

Paghihiwalay ng signal sa ingay sa coding evaluations

PananaliksikHul 8, 2026

Ipinapakilala ang GeneBench-Pro

PananaliksikHun 30, 2026