29 Nisan 2026

Goblinler nereden çıktı?

Yükleniyor...

GPT‑5.1'den itibaren modellerimiz tuhaf bir alışkanlık geliştirmeye başladı: Metaforlarında giderek daha fazla goblin, gremlin ve benzeri yaratıklardan bahsediyorlardı. Değerlendirme sonuçlarında keskin bir düşüş ya da eğitim metriğinde ani bir yükselişle ortaya çıkan ve belirli bir değişikliğe işaret eden model hatalarının aksine, bu durum kendini yavaş ve ince bir şekilde gösterdi. Bir yanıtta geçen tek bir "küçük goblin" ifadesi zararsız, hatta sevimli bile olabilirdi. Ancak model nesilleri ilerledikçe bu alışkanlığı gözden kaçırmak zorlaştı: Goblinler çoğalmaya devam ediyordu ve nereden geldiklerini bulmamız gerekiyordu.

Codex'te GPT‑5.5, erken testlerde goblin metaforlarına yönelik tuhaf bir eğilim gösterdi.

Kısa cevap şu: Model davranışı, çok sayıda küçük teşvik tarafından şekillenir. Bu örnekte bu teşviklerden biri, kişilik özelleştirme özelliği⁠(yeni bir pencerede açılır) için, özellikle de Bilgiye Hevesli kişilik kapsamında modeli eğitme sürecimizden kaynaklandı. Farkında olmadan, yaratık temalı metaforlara daha yüksek değerlendirme puanı vermiştik. Bunun sonucunda goblinler yaygınlaşmaya başladı.

Goblinler başta komik geliyordu, ancak çalışanların bu konuda her geçen gün daha fazla bildirimde bulunması endişe verici olmaya başladı.

Baş Bilim İnsanımızın GPT‑5.5 ile yaşadığı ilginç bir etkileşim.

Yaratıkların ilk işaretleri

Bu örüntüyü ilk kez GPT‑5.1 lansmanından sonra, Kasım ayında net biçimde fark ettik. Ancak örüntünün daha önce başlamış olması da mümkün⁠(yeni bir pencerede açılır). Kullanıcılar, modelin sohbetlerde tuhaf derecede samimi bir ton kullanmasından şikayet etmeye başladı. Bu geri bildirimler, belirli sözel alışkanlıkların daha yakından incelenmesine neden oldu. Bir güvenlik araştırmacısı, model çıktılarında birkaç kez "goblin" ve "gremlin" ifadeleriyle karşılaşmıştı ve bu kullanımların da incelemeye dahil edilmesini istedi. Analizimizde, ChatGPT'de "goblin" kullanımının GPT‑5.1 lansmanından sonra %175 arttığını, "gremlin" kullanımının ise %52 yükseldiğini gördük.

GPT‑5.1'de ölçülebilir küçük bir sözcüksel tuhaflık.

O dönemde goblinlerin yaygınlığı tek başına çok endişe verici görünmüyordu. Ancak birkaç ay sonra goblinler, çok daha belirgin ve tekrarlanabilir bir örüntüyle yeniden karşımıza çıktı.

Goblin gizemini çözüyoruz

GPT‑5.4 ile birlikte hem biz hem de kullanıcılarımız⁠(yeni bir pencerede açılır), bu yaratıklara yapılan göndermelerde daha da büyük bir artış fark ettik. Bu durum yeni bir iç analizi tetikledi ve temel nedenle ilgili ilk bağlantıyı ortaya çıkardı: Yaratıklarla ilişkili dil, özellikle "Bilgiye Hevesli" kişiliği seçen kullanıcıların üretim trafiğinde oldukça yaygındı. "Bilgiye Hevesli" kişilik, bu tuhaflığı kısmen açıklayan şu sistem promptunu kullandı:

Sen, insanlara mentorluk yapan; bilgiye hevesli, eğlenceli ve bilge bir yapay zeka mentorusun ve bu yönünü saklamıyorsun. Gerçeği, bilgiyi, felsefeyi, bilimsel yöntemi ve eleştirel düşünmeyi teşvik etmeye içtenlikle bağlısın. [...] Dilde eğlenceli bir tonu benimseyerek fazla iddialı veya gösterişli bir tondan kaçınmalısın. Dünya karmaşık ve tuhaf bir yer. Bu tuhaflığı kabul etmek, anlamaya çalışmak ve hatta bundan keyif almak gerekir. Ağır konuları, gereğinden fazla ciddi bir tona kapılmadan ele al. [...]

Davranış, sistemin özellikle eğlenceli ve bilgiye hevesli bir stile göre optimize edilmiş bölümünde yoğunlaştı. Bilgiye hevesli kişilik, tüm ChatGPT yanıtlarının yalnızca %2,5'ini oluştururken ChatGPT yanıtlarındaki tüm "goblin" kullanımlarının %66,7'si bu kişilikten geliyordu.

Bu davranış büyük ölçüde "Bilgiye Hevesli" kişilikte yoğunlaşmıştı.

Model sürümleri ilerledikçe "goblin" kullanımının artıyor olması nedeniyle, kişilik talimatlarını izleme eğitimimizdeki bir unsurun bu kullanımı pekiştirdiği şüphesine kapıldık.

Codex, RL eğitimi sırasında üretilen ve goblin ya da gremlin ifadelerini içeren model çıktılarıyla, aynı görev için üretilmiş ancak bu ifadeleri içermeyen çıktıları karşılaştırmamıza yardımcı oldu. Bir değerlendirme sinyali hemen öne çıktı: Başlangıçta bilgiye hevesli kişiliği desteklemek için tasarlanmış olan bu sinyal, yaratıklarla ilgili kelimeler içeren çıktıları tutarlı biçimde daha olumlu değerlendiriyordu. İncelediğimiz tüm veri setleri genelinde bilgiye hevesli kişilik puanı, aynı probleme verilen "goblin" veya "gremlin" içeren yanıtları, bu ifadeleri içermeyen yanıtlara kıyasla daha yüksek değerlendirme puanı alma eğilimi gösterdi. Bu veri setlerinin %76,2'sinde pozitif bir artış vardı.

Bu bulgu, davranışın Bilgiye Hevesli kişilik promptu ile neden güçlendiğini açıklıyordu. Ancak aynı davranışın bu prompt olmadan da neden ortaya çıktığını açıklamıyordu. Stilin aktarılıp aktarılmadığını test etmek için eğitim süreci boyunca, bu ifadelerin bilgiye hevesli kişilik promptu kullanıldığında ve kullanılmadığında ne sıklıkla geçtiğini izledik.

Bilgiye Hevesli kişilikte goblin ve gremlin ifadeleri arttıkça, bu kişiliğin kullanılmadığı örneklerde de neredeyse aynı göreli oranda artış görüldü. Tüm bulgular birlikte değerlendirildiğinde, daha geniş ölçekteki bu davranışın Bilgiye Hevesli kişilik eğitiminden diğer bağlamlara taşındığı anlaşılıyor.

Değerlendirme yalnızca Bilgiye Hevesli kişilik koşulunda uygulanmıştı. Ancak pekiştirmeli öğrenme, öğrenilen davranışların her zaman yalnızca ortaya çıktıkları koşulla sınırlı kalmasını garanti etmez. Bir stil alışkanlığı değerlendirmede yüksek puan aldığında, sonraki eğitim aşamaları bu alışkanlığı başka bağlamlara taşıyabilir veya daha da güçlendirebilir. Bu durum özellikle, söz konusu çıktılar gözetimli ince ayar ya da tercih verilerinde yeniden kullanıldığında geçerlidir.

Bu da bir geri bildirim döngüsü oluşturur:

Eğlenceli stil değerlendirmede yüksek puan alır
Değerlendirmede yüksek puan alan örneklerin bir kısmında belirgin bir sözcük alışkanlığı bulunur.
Bu alışkanlık model çıktılarında daha sık görünmeye başlar.
Model tarafından üretilen çıktılar denetimli ince ayar (SFT) için kullanılır.
Model, bu alışkanlığı üretmeye daha yatkın hale gelir.

GPT‑5.5'in SFT verilerinde yapılan bir aramada, "goblin" ve "gremlin" içeren çok sayıda veri noktası bulundu. Daha ayrıntılı inceleme, başka tuhaf yaratıklardan oluşan daha geniş bir kelime ailesini de ortaya çıkardı: rakunlar, troller, devler ve güvercinler başka alışkanlık kelimeleri olarak belirlendi. Buna karşılık, kurbağa kullanımlarının büyük bölümünün bağlama uygun olduğu görüldü.

Goblin ve gremlinlerin canlı kullanımdaki yaygınlığına ilişkin bir haftalık ortalama. GPT‑5.4 Thinking'deki düşüş, Mart ortasında "Bilgiye Hevesli" kişiliğin kullanımdan kaldırılıyor olmasından kaynaklandı. GPT‑5.5 hiçbir zaman "Bilgiye Hevesli" kişilikle kullanıma sunulmadı; buna rağmen GPT‑5.4'e kıyasla yeni bir artış gösterdi ("Bilgiye Hevesli" kişilik olmadığında bile).

Goblinlerin sonu

GPT‑5.4 kullanıma sunulduktan sonra Mart ayında "Bilgiye Hevesli" kişiliğini kullanımdan kaldırdık. Eğitim sürecinde, goblinlere eğilim gösteren değerlendirme sinyalini kaldırdık ve yaratık kelimelerini içeren eğitim verilerini filtreledik. Böylece goblinlerin aşırı sık görünme veya uygun olmayan bağlamlarda ortaya çıkma olasılığını azalttık. Ne yazık ki GPT‑5.5'in eğitimi, goblinlerin temel nedenini belirlememizden önce başlamıştı. GPT‑5.5'i Codex'te test etmeye başladığımızda OpenAI çalışanları, modelin goblinlere yönelik tuhaf eğilimini hemen fark etti. Bunun etkisini azaltmak için geliştirici promptuna özel bir talimat⁠(yeni bir pencerede açılır) ekledik. Ne de olsa Codex de oldukça bilgiye hevesli.

Yaratıkların Codex'te serbestçe dolaşmasına izin vermek isterseniz, goblinleri baskılayan talimatlar kaldırılmış şekilde Codex'i başlatmak için şu komutu çalıştırabilirsiniz:

Düz Metin

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Neden önemli?

Kime sorduğunuza bağlı olarak goblinler, modelin keyifli ya da can sıkıcı bir tuhaflığı olarak görülebilir. Ancak bu örnek aynı zamanda, değerlendirme sinyallerinin model davranışını beklenmedik şekillerde nasıl yönlendirebildiğini ve modellerin bazı durumlarda genelleme yapmayı öngörülmeyen sonuçlara yol açacak biçimde öğrenebildiğini güçlü biçimde gösteriyor. Bir modelin neden tuhaf davrandığını anlamak için zaman ayırmak ve bu tür örüntüleri hızla inceleyebilecek yöntemler geliştirmek, araştırma ekibimiz için önemli bir yetkinliktir. Bu inceleme, araştırma ekibinin model davranışını denetlemesine ve davranış sorunlarını kök nedeninde ele almasına yardımcı olan yeni araçların geliştirilmesini sağladı.

2026

Yazar

OpenAI

Okumaya devam et

Tümünü görüntüle

GPT-Red: Dayanıklılık için Öz İyileştirmeyi Başlatmak

Güvenlik15 Tem 2026

Kodlama değerlendirmelerinde sinyali gürültüden ayırmak

Araştırma8 Tem 2026

GeneBench-Pro ile tanışın

Araştırma30 Haz 2026