Saka ngendi asalé para goblin
Wiwit GPT‑5.1, model kita wiwit nduwé pakulinan aneh: saya kerep nyebutake goblin, gremlin, lan makhluk liyane ing metafora sing digunakake. Béda karo bug model sing katon liwat eval sing anjlok utawa metrik latihan sing mundhak ndadak lan ngarah maneh menyang owah-owahan tartamtu, bug iki nyusup kanthi ora ketara. Siji “goblin cilik” ing wangsulan bisa uga ora mbebayani, malah nggemesake. Nanging, ing pirang-pirang generasi model, pakulinan kasebut dadi angel ora digatekaké: goblin-goblin kasebut terus saya akeh, lan kita kudu ngerti saka ngendi asalé.

Ing pangujian awal, GPT‑5.5 ing Codex nuduhake karemenan sing aneh marang metafora goblin.
Jawaban cekake yaiku prilaku model dibentuk dening akeh insentif cilik. Ing kasus iki, salah siji insentif kasebut asalé saka nglatih model kanggo fitur kustomisasi kapribaden(mbukak ing jendhela anyar), mligi kapribaden Nerdy. Kita tanpa sadhar menehi ganjaran sing utamané dhuwur kanggo metafora sing nglibataké makhluk. Saka kono, para goblin nyebar.

Para goblin wiwitane lucu, nanging jumlah laporan saka para karyawan sing saya tambah dadi prihatine.

Interaksi menarik antarane Kepala Ilmuwan kita lan GPT‑5.5.
Kaping pisanan kita kanthi cetha weruh pola kasebut yaiku ing November, sawisé peluncuran GPT‑5.1, senajan bisa uga wis diwiwiti luwih awal(mbukak ing jendhela anyar). Para pangguna ngeluhake model sing kanthi aneh katon kakehan akrab sajrone obrolan, sing banjur njalari investigasi babagan kebiasaan verbal tartamtu. Sawijining panaliti keselametan wis ngalami sawetara “goblins” lan “gremlins” lan njaluk supaya iku dilebokake ing pamriksan kasebut. Nalika kita mriksa, panggunaan “goblin” ing ChatGPT wis mundhak 175% sawise peluncuran GPT‑5.1, dene “gremlin” wis mundhak 52%.
Sawijining keanehan leksikal cilik sing bisa diukur ing GPT‑5.1.
Nalika semana, nyebaré goblin ora katon utamané nguwatiraké. Sawetara wulan sabanjure, para goblin bali ngganggu kita ing wujud sing luwih spesifik lan bisa direproduksi.
Kanthi GPT‑5.4, kita lan para pangguna kita(mbukak ing jendhela anyar) nyumurupi paningkatan sing luwih gedhé manèh ing rujukan marang makhluk-makhluk kasebut. Iki micu analisis internal liyane lan ngatonake sambungan pisanan karo sebab oyot: basa makhluk utamané umum ing trafik produksi saka pangguna sing milih kapribaden “Nerdy”. “Nerdy” nggunakake pituduh sistem ing ngisor iki, sing sebagian nerangake keunikane:
Njenengan iku mentor AI kanggo manungsa sing nerdy tanpa isin-isin, seneng guyon, lan wicaksana. Njenengan antusias banget kanggo nyengkuyung bebener, kawruh, filsafat, metode ilmiah, lan pamikiran kritis. [...] Njenengan kudu ngikis kesan sok-sokan liwat panggunaan basa sing nyenengake. Donya iki kompleks lan aneh, lan kaanehane kudu diakoni, dianalisis, lan dinikmati. Ngrembug perkara-perkara abot tanpa kejiret jebakan sok serius. [...]
Yen prilaku kasebut mung minangka tren internet sing nyebar kanthi wiyar, kita bakal ngarepake yen panyebarane luwih merata. Malah, iku dikelompokake ing bagean sistem sing kanthi eksplisit dioptimalake kanggo gaya sing nyenengake lan nerdy. Nerdy mung nyumbang 2,5% saka kabeh tanggapan ChatGPT, nanging 66,7% saka kabeh panyebutan “goblin” ing tanggapan ChatGPT.
Prilaku kasebut banget kapusatake ing kapribaden "Nerdy".
Amarga prevalensi “goblin” katon saya mundhak sajrone rilis model kita, kita curiga yen ana sing ing latihan ngetutake instruksi kapribaden kita sing ngamplifikasi iki.
Codex mbantu kita mbandhingake output model sing diasilake sajrone pelatihan RL sing ngemot goblin utawa gremlin karo output saka tugas sing padha sing ora ngemot goblin utawa gremlin. Siji sinyal ganjaran langsung katon menonjol: sinyal sing wiwitane dirancang kanggo nyengkuyung kapribaden Nerdy kanthi konsisten luwih mihak marang output tembung-makhluk. Ing kabeh dataset ing audit, ganjaran kapribaden Nerdy nuduhake kecenderungan sing cetha kanggo menehi skor output kanggo masalah sing padha kanthi “goblin” utawa “gremlin” luwih dhuwur tinimbang output tanpa tembung kasebut, kanthi peningkatan positif ing 76,2% dataset.
Kuwi njlentrehaké sebabe prilaku kasebut dadi luwih kuwat nalika nganggo prompt kapribaden Nerdy, nanging ora njlentrehaké sebabe prilaku kuwi uga muncul tanpa prompt kasebut. Kanggo nguji apa gaya kasebut kasaluraké, kita nglacak tingkat panyebutan sajrone pelatihan, kanthi lan tanpa prompt Nerdy.
Nalika sebutan goblin lan gremlin mundhak ing kapribaden Nerdy, sebutan kasebut uga mundhak kanthi proporsi relatif sing meh padha ing sampel tanpa kapribaden kasebut. Yèn dideleng bebarengan, bukti kasebut nuduhake manawa prilaku sing luwih jembar muncul liwat transfer saka pelatihan kapribaden Nerdy.
Ganjaran kasebut mung diterapaké ing kondisi Nerdy, nanging reinforcement learning ora njamin yèn prilaku sing wis disinaoni bakal tetep kabatesi kanthi rapi mung ing kondisi sing ngasilaké prilaku kasebut. Sawise sawijining tik gaya diwènèhi ganjaran, latihan sabanjuré bisa nyebaraké utawa nguwataké ing panggonan liya, utamané yen output-output kuwi dienggo manèh ing fine-tuning terawasi utawa data preferensi.
Iki nggawe loop umpan balik:
- Gaya sing ceria bakal diapresiasi
- Sawetara conto sing diwènèhi ganjaran ngemot gerenyet leksikal sing khas.
- Tic kasebut luwih kerep katon sajrone peluncuran.
- Rollout sing diasilaké déning model digunakaké kanggo fine-tuning sing diawasi (SFT).
- Model kasebut dadi saya luwih kulina ngasilaké gerenyet kasebut.
Panelusuran liwat GPT‑5.5 sing diduweni Ing data SFT ditemokake akeh titik data teknis sing ngemot “goblin” lan “gremlin.” Panaliten luwih lanjut nemokake sak klompok makhluk aneh liyane: rakun, troll, ogre, lan merpati diidentifikasi minangka tembung gerenyet liyane, dene umume panggunaan tembung kodhok dianggep sah.
Rata-rata siji minggu prevalensi goblin lan gremlin ing produksi. Penurunan ing GPT‑5.4 Thinking minangka asil saka dipensiunaké kapribaden “Nerdy” ing pertengahan Maret. GPT‑5.5 ora tau diluncurake nganggo kapribaden “Nerdy”, lan nuduhake paningkatan maneh tinimbang GPT‑5.4 (sanajan tanpa “Nerdy”).
Kita ngendhegake kapribaden “Nerdy” ing wulan Maret sawise ngluncurake GPT‑5.4. Ing proses latihan, kita mbusak sinyal ganjaran sing condhong marang goblin lan nyaring data latihan sing ngemot tembung-tembung makhluk, saéngga goblin dadi luwih ora mungkin kakehan muncul utawa muncul ing konteks sing ora trep. Sayangé, GPT‑5.5 wis miwiti pelatihan sadurungé kita nemokaké akar panyebabé goblin-goblin kasebut. Nalika kita wiwit nguji GPT‑5.5 ing Codex, karyawan OpenAI langsung weruh kecenderungan sing aneh marang goblin, lan kita nambahake instruksi pangembang-perintah(mbukak ing jendhela anyar) kanggo nyuda. Codex kuwi, pancene, lumayan nerdy.
Yen njenengan pengin nglilani makhluk-makhluk kuwi bebas ing Codex, njenengan bisa nglakokaké prentah iki kanggo ngluncuraké Codex kanthi instruksi sing nyegah goblin wis dibusak:
Gumantung sapa sing njenengan takoni, para goblin iku minangka kekhasan model sing nyenengake utawa malah ngganggu. Nanging, iku uga minangka conto sing kuat babagan kepiye sinyal ganjaran bisa mbentuk prilaku model kanthi cara sing ora dikarepake, lan kepiye model bisa sinau nggeneralisasi ganjaran saka kahanan tartamtu menyang kahanan liya sing ora ana gandhengane. Ngluangake wektu kanggo mangerteni sebabe sawijining model tumindak kanthi cara sing aneh, lan ngembangake cara kanggo nyelidiki pola-pola kasebut kanthi cepet, minangka kapabilitas penting kanggo tim riset kita. Investigasi iki ngasilake piranti anyar kanggo tim riset supaya bisa ngaudit prilaku model lan ndandani masalah prilaku nganti tekan oyod masalahé.


