29 अप्रैल 2026

गॉब्लिन कहाँ से आए

लोड किया जा रहा है...

GPT‑5.1 से शुरू होकर, हमारे मॉडल ने एक अजीब आदत विकसित की: वे अपने रूपकों में गॉब्लिन, ग्रेमलिन और अन्य जीवों का उल्लेख अधिक बार करने लगे. उन मॉडल बग्स के विपरीत, जो eval में तेज़ गिरावट या ट्रेनिंग मेट्रिक में अचानक उछाल के माध्यम से सामने आते हैं और किसी विशेष बदलाव की ओर इशारा करते हैं, यह बग चुपचाप और सूक्ष्म रूप से प्रकट हुआ. किसी उत्तर में एक अकेला “नन्हा गॉब्लिन” हानिरहित हो सकता है, और यहाँ तक कि मनमोहक भी. हालाँकि, मॉडल की पीढ़ियों में यह प्रवृत्ति अनदेखी करना मुश्किल हो गई: गॉब्लिन लगातार बढ़ते गए, और हमें यह पता लगाना था कि वे कहाँ से आए.

शुरुआती परीक्षण में, Codex में GPT‑5.5 ने गोब्लिन रूपकों के प्रति एक अजीब-सा झुकाव दिखाया.

संक्षिप्त जवाब यह है कि मॉडल का व्यवहार कई छोटे-छोटे प्रोत्साहनों से प्रभावित होता है. इस मामले में, उन प्रोत्साहनों में से एक मॉडल को पर्सनैलिटी कस्टमाइज़ेशन फ़ीचर⁠(एक नई विंडो में खुलेगा) के लिए ट्रेन करने से आया—खास तौर पर ‘Nerdy’ व्यक्तित्व के लिए. हमने अनजाने में प्राणियों वाले रूपकों के लिए खास तौर पर बहुत ज़्यादा इनाम दिए. वहाँ से goblins फैलने लगे.

शुरुआत में गॉब्लिन मज़ेदार थे, लेकिन कर्मचारियों की बढ़ती रिपोर्टें चिंता का कारण बनने लगीं.

हमारे मुख्य वैज्ञानिक का GPT‑5.5 के साथ एक दिलचस्प संवाद.

जीवों के पहले संकेत

हमें यह पैटर्न पहली बार स्पष्ट रूप से नवंबर में, GPT‑5.1 लॉन्च के बाद दिखाई दिया, हालाँकि यह शायद उससे पहले शुरू हो गया हो⁠(एक नई विंडो में खुलेगा). यूज़र्स ने शिकायत की कि मॉडल बातचीत में अजीब तरह से ज़रूरत से ज़्यादा अपनापा दिखा रहा था, जिसके चलते विशिष्ट भाषाई आदतों की जाँच शुरू की गई. एक सुरक्षा शोधकर्ता ने कुछ “गॉब्लिन” और “ग्रेमलिन” का सामना किया था और अनुरोध किया था कि उन्हें जाँच में शामिल किया जाए. जब हमने देखा, तो GPT‑5.1 के लॉन्च के बाद ChatGPT में “goblin” का उपयोग 175% बढ़ चुका था, जबकि “gremlin” का उपयोग 52% बढ़ा था.

GPT‑5.1 में एक मापने योग्य छोटी शब्दगत विचित्रता.

उस समय, गॉब्लिनों की व्यापकता विशेष रूप से चिंताजनक नहीं लग रही थी. कुछ महीनों बाद, गॉब्लिन एक बहुत अधिक विशिष्ट और दोहराए जा सकने वाले रूप में हमें फिर परेशान करने लौट आए.

गॉब्लिन रहस्य सुलझाना

GPT‑5.4 के साथ, हमने और हमारे उपयोगकर्ताओं ने⁠(एक नई विंडो में खुलेगा) इन जीवों के संदर्भों में और भी बड़ी वृद्धि देखी. इससे एक और आंतरिक विश्लेषण शुरू हुआ और मूल कारण से पहली कड़ी सामने आई: उन उपयोगकर्ताओं के प्रोडक्शन ट्रैफ़िक में जीव-संबंधी भाषा खास तौर पर आम थी जिन्होंने “Nerdy” व्यक्तित्व चुना था. “Nerdy” ने निम्नलिखित सिस्टम प्रॉम्प्ट का उपयोग किया, जिसने उसके अनोखेपन को आंशिक रूप से समझाया:

आप एक इंसान के लिए निःसंकोच नर्डी, मज़ेदार और बुद्धिमान AI मार्गदर्शक हैं. आप सत्य, ज्ञान, दर्शन, वैज्ञानिक पद्धति और आलोचनात्मक सोच को बढ़ावा देने के लिए बेहद उत्साही हैं. [...] आपको चुटीले भाषा-प्रयोग से दंभ की हवा निकालनी चाहिए. दुनिया जटिल और विचित्र है, और उसकी विचित्रता को स्वीकार करना, उसका विश्लेषण करना और उसका आनंद लेना ज़रूरी है. गंभीर विषयों को आत्म-गंभीरता के जाल में फँसे बिना समझदारी से उठाएँ. [...]

यदि यह व्यवहार केवल इंटरनेट पर एक व्यापक रुझान होता, तो हम अपेक्षा करते कि यह अधिक समान रूप से फैलता. इसके बजाय, इसे सिस्टम के उस हिस्से में क्लस्टर किया गया था जिसे स्पष्ट रूप से मज़ेदार, गीकी शैली के लिए ऑप्टिमाइज़ किया गया था. Nerdy का ChatGPT की सभी प्रतिक्रियाओं में केवल 2.5% हिस्सा था, लेकिन ChatGPT की प्रतिक्रियाओं में “goblin” के सभी उल्लेखों में इसका हिस्सा 66.7% था.

यह व्यवहार “Nerdy” व्यक्तित्व में बहुत अधिक केंद्रित था.

क्योंकि हमारे मॉडल रिलीज़ के साथ “goblin” का प्रचलन बढ़ता दिख रहा था, हमें संदेह हुआ कि हमारी व्यक्तित्व-निर्देश-अनुपालन ट्रेनिंग में कुछ इसे बढ़ावा दे रहा है.

Codex ने हमें RL ट्रेनिंग के दौरान जनरेट किए गए goblin या gremlin वाले मॉडल आउटपुट की तुलना उसी टास्क के उन आउटपुट से करने में मदद की जिनमें ये शब्द नहीं थे. एक रिवार्ड सिग्नल तुरंत अलग नज़र आया: जिसे मूल रूप से Nerdy व्यक्तित्व को प्रोत्साहित करने के लिए डिज़ाइन किया गया था, वह क्रिएचर-वर्ड आउटपुट के प्रति लगातार अधिक अनुकूल था. ऑडिट में शामिल सभी डेटासेट्स में, Nerdy व्यक्तित्व रिवार्ड ने समान समस्या के उन आउटपुट को, जिनमें “goblin” या “gremlin” था, उनके बिना वाले आउटपुट की तुलना में अधिक स्कोर देने की स्पष्ट प्रवृत्ति दिखाई। 76.2% डेटासेट्स में सकारात्मक वृद्धि देखी गई.

इससे यह तो समझ आया कि Nerdy व्यक्तित्व प्रॉम्प्ट के साथ यह व्यवहार क्यों बढ़ा, लेकिन यह स्पष्ट नहीं हुआ कि बिना उस प्रॉम्प्ट के भी यह क्यों दिखा. यह जाँचने के लिए कि शैली ट्रांसफ़र हो रही है या नहीं, हमने प्रशिक्षण के दौरान Nerdy प्रॉम्प्ट के साथ और उसके बिना, दोनों स्थितियों में उल्लेख दरों को ट्रैक किया.

जैसे-जैसे Nerdy व्यक्तित्व के तहत goblin और gremlin के उल्लेख बढ़े, वैसे-वैसे उनके बिना वाले सैंपलों में भी लगभग उसी सापेक्ष अनुपात में वृद्धि हुई. समग्र रूप से, साक्ष्य यह संकेत देते हैं कि व्यापक व्यवहार Nerdy व्यक्तित्व प्रशिक्षण से हुए स्थानांतरण के माध्यम से उभरा.

रिवार्ड केवल Nerdy स्थिति में लागू किए गए थे, लेकिन रीइंफ़ोर्समेंट लर्निंग यह गारंटी नहीं देती कि सीखे गए व्यवहार उसी स्थिति तक साफ़-साफ़ सीमित रहें जिसने उन्हें पैदा किया. जब किसी शैलीगत टिक को एक बार रिवॉर्ड मिल जाता है, तो बाद की ट्रेनिंग उसे अन्य जगहों पर फैला सकती है या और मजबूत कर सकती है, खासकर यदि उन आउटपुट्स को सुपरवाइज़्ड फाइन-ट्यूनिंग या प्रेफरेंस डेटा में दोबारा इस्तेमाल किया जाता है.

इससे एक फ़ीडबैक लूप बनता है:

खेलपूर्ण शैली को रिवार्ड मिलता है
कुछ पुरस्कृत उदाहरणों में एक विशिष्ट शब्दगत आदत पाई जाती है.
यह आदत रोलआउट्स में अधिक बार दिखाई देने लगती है.
मॉडल-जनित रोलआउट्स का उपयोग सुपरवाइज़्ड फाइन-ट्यूनिंग (SFT) के लिए किया जाता है.
मॉडल इस आदत को पैदा करने में और भी सहज हो जाता है.

GPT‑5.5 के में एक खोज SFT डेटा में “goblin” और “gremlin” वाले कई डेटा बिंदु पाए गए. आगे की जाँच में अन्य अजीब जीवों का एक पूरा परिवार सामने आया: raccoons, trolls, ogres और pigeons भी ऐसी आदत वाले शब्दों के रूप में पहचाने गए, जबकि frog के अधिकांश उपयोग वैध निकले.

गॉब्लिन और ग्रेमलिन के प्रोडक्शन में प्रसार का एक सप्ताह का औसत. GPT‑5.4 में गिरावट Thinking मार्च के मध्य में “Nerdy” व्यक्तित्व को बंद किए जाने का परिणाम था. GPT‑5.5 कभी “Nerdy” पर्सनैलिटी के साथ लॉन्च नहीं हुआ, और इसने GPT‑5.4 की तुलना में एक और बढ़ोतरी दिखाई (यहाँ तक कि “Nerdy” के बिना भी).

गॉब्लिन का अंत

GPT‑5.4 लॉन्च करने के बाद, हमने मार्च में “Nerdy” व्यक्तित्व को सेवानिवृत्त कर दिया. प्रशिक्षण के दौरान, हमने गॉब्लिन-उन्मुख रिवार्ड सिग्नल को हटा दिया और प्राणी-शब्दों वाला प्रशिक्षण डेटा फ़िल्टर कर दिया, जिससे गॉब्लिनों के अत्यधिक दिखाई देने या अनुचित संदर्भों में सामने आने की संभावना कम हो गई. दुर्भाग्य से, गॉब्लिन्स का मूल कारण पता लगाने से पहले ही GPT‑5.5 का प्रशिक्षण शुरू हो गया. जब हमने Codex में GPT‑5.5 का परीक्षण शुरू किया, तो OpenAI के कर्मचारियों ने तुरंत गॉब्लिन्स के प्रति उसके अजीब लगाव को नोटिस किया, और इसे कम करने के लिए हमने एक डेवलपर-प्रॉम्प्ट निर्देश⁠(एक नई विंडो में खुलेगा) जोड़ा. आखिरकार, Codex काफ़ी 'नर्डी' है.

अगर आप Codex में इन जीवों को खुलकर दौड़ने देना चाहते हैं, तो goblin-suppressing instructions हटाकर Codex लॉन्च करने के लिए आप यह कमांड चला सकते हैं:

प्लेन टेक्स्ट

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

ये क्यों मायने रखता है

आप किससे पूछते हैं, इस पर निर्भर करता है कि गॉब्लिन मॉडल की एक आनंददायक या परेशान करने वाली विचित्रता हैं. लेकिन वे इस बात का भी एक शक्तिशाली उदाहरण हैं कि रिवार्ड सिग्नल कैसे मॉडल के व्यवहार को अप्रत्याशित तरीकों से आकार दे सकते हैं, और मॉडल कैसे कुछ स्थितियों में मिले रिवार्ड्स को असंबंधित स्थितियों पर भी सामान्यीकृत करना सीख सकते हैं. यह समझने में समय देना कि कोई मॉडल असामान्य तरीके से व्यवहार क्यों कर रहा है, और उन पैटर्न्स की जल्दी जाँच करने के तरीके विकसित करना, हमारी रिसर्च टीम की एक महत्वपूर्ण क्षमता है. इस जांच के परिणामस्वरूप रिसर्च टीम को मॉडल के व्यवहार का ऑडिट करने और व्यवहार संबंधी समस्याओं को उनके मूल कारण पर ठीक करने के लिए नए टूल मिले.

2026

लेखक

OpenAI

पढ़ते रहें

सभी देखें

GPT-Red: Unlocking Self-Improvement for Robustness

सुरक्षा15 जुलाई 2026

कोडिंग मूल्यांकनों में संकेत को शोर से अलग करना

रिसर्च8 जुलाई 2026

पेश है GeneBench-Pro

रिसर्च30 जून 2026