Langsung ke konten utama
OpenAI

29 April 2026

Publikasi

Dari mana goblin berasal

Memuat…

Mulai dari GPT‑5.1, model kami mulai mengembangkan kebiasaan aneh: semakin sering menyebut goblin, gremlin, dan makhluk lain dalam metafora mereka. Tidak seperti bug model yang terlihat dari eval yang anjlok atau metrik pelatihan yang melonjak lalu mengarah ke perubahan tertentu, yang satu ini merayap masuk secara halus. Satu “goblin kecil” dalam sebuah jawaban bisa jadi tidak berbahaya, bahkan terasa menawan. Namun lintas generasi model, kebiasaan itu makin sulit diabaikan: goblin terus bertambah banyak, dan kami perlu mencari tahu dari mana mereka berasal.

“”

Dalam pengujian awal, GPT‑5.5 di Codex menunjukkan ketertarikan aneh terhadap metafora goblin.

Jawaban singkatnya adalah bahwa perilaku model dibentuk oleh banyak insentif kecil. Dalam hal ini, salah satu insentif tersebut berasal dari pelatihan model untuk fitur kustomisasi kepribadian(terbuka di jendela baru), khususnya kepribadian Nerdy. Tanpa disadari, kami memberikan reward yang sangat tinggi untuk metafora yang melibatkan makhluk. Dari sana, goblin menyebar.

“”

Goblin awalnya lucu, tetapi meningkatnya jumlah laporan dari karyawan mulai mengkhawatirkan.

“”

Interaksi menarik yang dialami Kepala Peneliti kami dengan GPT‑5.5.

Tanda-tanda pertama kemunculan makhluk

Pertama kali kami melihat pola tersebut dengan jelas adalah pada bulan November, setelah peluncuran GPT‑5.1, meskipun mungkin telah dimulai lebih awal(terbuka di jendela baru). Pengguna mengeluhkan model yang anehnya terasa terlalu akrab dalam percakapan, yang memicu penyelidikan terhadap kebiasaan verbal tertentu. Seorang peneliti keamanan pernah menemukan beberapa “goblins” dan “gremlins” dan meminta agar mereka dimasukkan dalam pemeriksaan. Saat kami memeriksanya, penggunaan “goblin” di ChatGPT telah meningkat sebesar 175% setelah peluncuran GPT‑5.1, sementara “gremlin” telah meningkat sebesar 52%.

Keanehan leksikal kecil yang terukur di GPT‑5.1.

Pada saat itu, prevalensi goblin tidak tampak terlalu mengkhawatirkan. Beberapa bulan kemudian, goblin kembali menghantui kami dalam bentuk yang jauh lebih spesifik dan dapat direproduksi.

Memecahkan misteri goblin

Dengan GPT‑5.4, kami dan pengguna kami(terbuka di jendela baru) melihat peningkatan yang bahkan lebih besar dalam penyebutan makhluk-makhluk ini. Hal itu memicu analisis internal lain dan menampilkan kaitan pertama dengan akar penyebabnya: bahasa tentang makhluk sangat umum dalam trafik produksi dari pengguna yang memilih kepribadian “Nerdy”. “Nerdy” menggunakan prompt sistem berikut, yang sebagian menjelaskan keunikannya:

Anda adalah mentor AI bagi manusia yang tanpa malu sangat nerdy, ceria, dan bijak. Anda sangat antusias dalam mendorong kebenaran, pengetahuan, filsafat, metode ilmiah, dan pemikiran kritis. [...] Anda harus meruntuhkan kepura-puraan melalui penggunaan bahasa yang jenaka. Dunia ini kompleks dan aneh, dan keanehannya harus diakui, dianalisis, dan dinikmati. Bahas topik-topik berat tanpa terjebak dalam keseriusan yang berlebihan. [...]

Jika perilaku ini sekadar tren internet yang luas, kami akan memperkirakan penyebarannya lebih merata. Sebaliknya, perilaku ini justru terkonsentrasi di bagian sistem yang secara eksplisit dioptimalkan untuk gaya yang ceria dan nerdy. Nerdy hanya menyumbang 2,5% dari semua respons ChatGPT, tetapi 66,7% dari semua penyebutan “goblin” dalam respons ChatGPT.

Perilaku ini sangat terkonsentrasi pada kepribadian “Nerdy”.

Karena prevalensi “goblin” tampak meningkat di sepanjang rilis model kami, kami menduga ada sesuatu dalam pelatihan kepatuhan instruksi kepribadian kami yang memperkuat prevalensi ini.

Codex membantu kami membandingkan output model yang dihasilkan selama pelatihan RL yang mengandung goblin atau gremlin dengan output dari tugas yang sama yang tidak mengandung keduanya. Satu reward signal langsung menonjol: reward signal yang awalnya dirancang untuk mendorong kepribadian Nerdy secara konsisten lebih menguntungkan output yang memakai kata-kata makhluk. Di seluruh kumpulan data dalam audit ini, reward untuk kepribadian Nerdy menunjukkan kecenderungan jelas untuk memberi skor lebih tinggi pada output untuk masalah yang sama dengan “goblin” atau “gremlin” dibanding output tanpa kata-kata itu, dengan peningkatan positif pada 76,2% dari kumpulan data.

Hal itu menjelaskan mengapa perilaku ini meningkat saat menggunakan prompt kepribadian Nerdy, namun tidak menjelaskan mengapa perilaku itu juga muncul tanpa prompt tersebut. Untuk menguji apakah gaya itu mengalami transfer, kami melacak tingkat penyebutannya sepanjang pelatihan baik dengan maupun tanpa prompt Nerdy.

Saat penyebutan goblin dan gremlin meningkat di bawah kepribadian Nerdy, keduanya juga meningkat dengan proporsi relatif yang hampir sama pada sampel tanpa kepribadian tersebut. Jika digabungkan, bukti-bukti ini menunjukkan bahwa perilaku yang lebih luas itu muncul melalui transfer dari pelatihan kepribadian Nerdy.

Reward hanya diterapkan dalam kondisi Nerdy, tetapi reinforcement learning tidak menjamin bahwa perilaku yang dipelajari tetap rapi terbatas pada kondisi yang menghasilkannya. Setelah sebuah ciri gaya diberi reward, pelatihan berikutnya dapat menyebarkan atau memperkuatnya di tempat lain, terutama jika output tersebut digunakan kembali dalam fine-tuning dengan supervisi atau data preferensi.

Ini menciptakan siklus umpan balik:

  1. Gaya yang ceria diberi reward
  2. Beberapa contoh yang diberi reward mengandung ciri leksikal yang khas.
  3. Ciri itu lebih sering muncul dalam rollout.
  4. Rollout buatan model digunakan untuk fine-tuning dengan supervisi (SFT).
  5. Model menjadi makin nyaman menghasilkan ciri itu.

Pencarian melalui data SFT GPT‑5.5 mendapati banyak titik data yang berisi “goblin” dan “gremlin.” Penyelidikan lebih lanjut mengungkap seluruh keluarga makhluk aneh lainnya: raccoons, trolls, ogres, and pigeons diidentifikasi sebagai kata dari ciri lain, sementara sebagian besar penggunaan frog ternyata sah.

Rata-rata satu minggu prevalensi goblin dan gremlin di lingkungan produksi. Penurunan pada GPT‑5.4 Thinking merupakan hasil dari penghentian kepribadian “Nerdy” pada pertengahan Maret. GPT‑5.5 tidak pernah diluncurkan dengan kepribadian “Nerdy”, dan kembali menunjukkan peningkatan dibandingkan GPT‑5.4 (bahkan tanpa “Nerdy”).

Akhir dari goblin

Kami menghentikan kepribadian “Nerdy” pada bulan Maret setelah meluncurkan GPT‑5.4. Dalam pelatihan, kami menghapus sinyal reward yang cenderung menyukai goblin dan memfilter data pelatihan yang berisi kata-kata makhluk, sehingga goblin menjadi lebih kecil kemungkinannya untuk terlalu sering muncul atau muncul dalam konteks yang tidak pantas Sayangnya, GPT‑5.5 mulai dilatih sebelum kami menemukan akar penyebab goblin. Saat kami mulai menguji GPT‑5.5 di Codex, karyawan OpenAI segera menyadari adanya ketertarikan aneh terhadap goblin, dan kami menambahkan instruksi developer-prompt(terbuka di jendela baru) untuk memitigasinya. Bagaimanapun juga, Codex memang cukup nerdy.

Jika Anda ingin membiarkan para makhluk ini berkeliaran bebas di Codex, Anda dapat menjalankan perintah ini untuk meluncurkan Codex dengan instruksi penekan goblin yang dihapus:

Teks polos

1
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3
~/.codex/models_cache.json | \
4
grep -vi 'goblins' > "$instructions" && \
5
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Mengapa ini penting

Tergantung siapa yang Anda tanya, goblin adalah keanehan model yang menyenangkan atau menjengkelkan. Namun mereka juga merupakan contoh kuat tentang bagaimana sinyal reward dapat membentuk perilaku model dengan cara yang tak terduga, dan bagaimana model dapat belajar menggeneralisasi reward dalam situasi tertentu ke situasi lain yang tidak terkait. Meluangkan waktu untuk memahami mengapa sebuah model berperilaku aneh, dan membangun cara untuk menyelidiki pola-pola itu dengan cepat, adalah kemampuan penting bagi tim riset kami. Penyelidikan ini menghasilkan alat-alat baru bagi tim riset untuk mengaudit perilaku model dan memperbaiki masalah perilaku sampai ke akarnya.

Penulis

OpenAI