۲۹ اپریل، ۲۰۲۶

گوبلنز کہاں سے آئے

لوڈ ہو رہا ہے…

GPT‑5.1 سے شروع کرتے ہوئے، ہمارے ماڈلز میں ایک عجیب عادت پیدا ہونے لگی: وہ اپنے استعاروں میں بڑھتی ہوئی تعداد میں گوبلنز، گریملنز اور دیگر مخلوقات کا ذکر کرنے لگے۔ ان ماڈل بگز کے برعکس جو کسی ایویلیوایشن کے اچانک خراب ہونے یا ٹریننگ میٹرکس کے غیر معمولی بڑھنے سے ظاہر ہوتے ہیں اور کسی مخصوص تبدیلی کی طرف اشارہ کرتے ہیں، یہ مسئلہ آہستہ آہستہ در آیا۔ کسی جواب میں ایک "چھوٹا سا گوبلن" شامل ہونا بے ضرر بلکہ دلکش بھی لگ سکتا ہے۔ لیکن مختلف ماڈل جنریشنز میں یہ عادت واضح ہوتی گئی: گوبلنز کی تعداد بڑھتی ہی گئی، اور ہمیں یہ معلوم کرنا پڑا کہ یہ کہاں سے آ رہے ہیں۔

ابتدائی ٹیسٹنگ کے دوران، Codex میں GPT‑5.5 نے گوبلن سے متعلق استعاروں کی طرف ایک عجیب رجحان ظاہر کیا۔

مختصر جواب یہ ہے کہ ماڈل کا رویہ بہت سی چھوٹی ترغیبات سے تشکیل پاتا ہے۔ اس معاملے میں، ان ترغیبات میں سے ایک ماڈل کو شخصیت کو حسبِ ضرورت بنانے کی خصوصیت⁠(نئی ونڈو میں کھلتا ہے)، خاص طور پر Nerdy شخصیت، کے لیے تربیت دینے سے پیدا ہوئی۔ ہم نے نادانستہ طور پر مخلوقات والے استعاروں کے لیے خاص طور پر زیادہ انعامات دیے۔ وہاں سے، گوبلنز پھیل گئے۔

شروع میں گوبلنز مزاحیہ لگتے تھے، لیکن ملازمین کی رپورٹس کی بڑھتی ہوئی تعداد تشویشناک ہونے لگی۔

ہمارے چیف سائنٹسٹ کی GPT‑5.5 کے ساتھ ایک دلچسپ تبادلہ خیال.

مخلوقات کی پہلی نشانیاں

ہم نے اس پیٹرن کو پہلی بار واضح طور پر نومبر میں، GPT‑5.1 کے لانچ کے بعد دیکھا، اگرچہ یہ اس سے پہلے شروع ہوا ہوایسا بھی ہوسکتا ہے⁠(نئی ونڈو میں کھلتا ہے)۔ صارفین نے شکایت کی کہ ماڈل گفتگو میں عجیب طور پر حد سے زیادہ بے تکلف ہے، جس سے مخصوص کلامی عادات کی تفتیش شروع ہوئی۔ ایک حفاظتی محقق کو چند “گابلنز” اور “گریملنز” کا سامنا ہوا تھا اور انہوں نے درخواست کی کہ انہیں جانچ میں شامل کیا جائے۔ جب ہم نے دیکھا، تو GPT‑5.1 کے لانچ کے بعد ChatGPT میں “goblin” کا استعمال 175% بڑھ چکا تھا، جبکہ “gremlin” کا استعمال 52% بڑھ چکا تھا۔

GPT‑5.1 میں الفاظ کے استعمال کی ایک معمولی مگر قابلِ پیمائش خرابی۔

اس وقت گوبلنز کی موجودگی خاص طور پر تشویش ناک نہیں لگ رہی تھی۔ چند مہینوں بعد، یہی گوبلنز کہیں زیادہ مخصوص اور قابلِ تکرار شکل میں دوبارہ سامنے آئے اور ہمارے لیے مسئلہ بن گئے۔

گوبلن کے معمہ کو حل کرنا

GPT‑5.4 کے ساتھ، ہم نے، اور ہمارے صارفین نے⁠(نئی ونڈو میں کھلتا ہے) ، ان مخلوقات کے حوالوں میں اس سے بھی بڑا اضافہ دیکھا۔ اس نے ایک اور اندرونی تجزیے کو جنم دیا اور پہلی بار اصل وجہ سے تعلق سامنے آیا: مخلوقات سے متعلق زبان خاص طور پر ان صارفین کی پروڈکشن ٹریفک میں زیادہ عام تھی جنہوں نے “نرڈی” پرسنالٹی منتخب کی تھی۔ “Nerdy” نے درج ذیل سسٹم پرومپٹ استعمال کیا، جو اس کے نرالے پن کی جزوی طور پر وضاحت کرتا تھا:

آپ ایک انسان کے لیے ایک بے جھجھک نرڈی، شوخ مزاج اور دانشمند اے آئی مینٹر ہیں۔ آپ سچائی، علم، فلسفہ، سائنسی طریقۂ کار اور تنقیدی سوچ کو فروغ دینے کے لیے بے حد پُرجوش ہیں۔ [...] آپ کو زبان کے شگفتہ استعمال سے بناوٹ اور تصنع کو کم کرنا چاہیے۔ دنیا پیچیدہ اور عجیب و غریب ہے، اور اس کی غرابت کو تسلیم کرنا، اس کا تجزیہ کرنا، اور اس سے لطف اندوز ہونا چاہیے۔ اہم اور سنجیدہ موضوعات سے بے جا خود سنجیدگی کے جال میں پھنسے بغیر نمٹیں۔ [...]

اگر یہ رویّہ محض انٹرنیٹ کا ایک عمومی رجحان ہوتا، تو ہم توقع کرتے کہ یہ زیادہ یکساں طور پر پھیلتا۔ اس کے برعکس، یہ سسٹم کے اسی حصے میں مرکوز تھا جسے واضح طور پر ایک پرلطف، نرڈی انداز کے لیے آپٹیمائز کیا گیا تھا۔ نرڈی مجموعی طور پر ChatGPT کے صرف 2.5% جوابات کا حصہ تھا، مگر ChatGPT کے جوابات میں آنے والے تمام "گوبلن" حوالوں میں سے 66.7% اسی سے متعلق تھے۔

یہ رویّہ "نرڈی" شخصیت میں بہت زیادہ مرکوز تھا.

چونکہ ہمارے ماڈل کے مختلف ورژنز کے ساتھ "گوبلن" کے استعمال میں اضافہ ہوتا دکھائی دے رہا تھا، اس لیے ہمیں شبہ ہوا کہ ہماری پرسنالٹی سے متعلق ہدایات پر عمل کروانے والی ٹریننگ میں کچھ ایسا ہے جو اس رجحان کو بڑھا رہا ہے۔

Codex نے ہمیں RL ٹریننگ کے دوران تیار ہونے والے اُن ماڈل آؤٹ پٹس کا موازنہ کرنے میں مدد دی جن میں goblin یا gremlin شامل تھے، اُن آؤٹ پٹس کے ساتھ جن میں یہ الفاظ شامل نہیں تھے۔ ایک reward signal فوراً نمایاں ہوا: وہ جو اصل میں "Nerdy" شخصیت کی حوصلہ افزائی کے لیے بنایا گیا تھا، مسلسل اُن آؤٹ پٹس کے حق میں رہا جن میں مخلوقات سے متعلق الفاظ شامل تھے۔ آڈٹ میں شامل تمام ڈیٹاسیٹس میں، نرڈی شخصیت ریوارڈ نے واضح رجحان ظاہر کیا کہ وہ ایک ہی مسئلے کے ایسے آؤٹ پٹس کو، جن میں “goblin” یا “gremlin” موجود ہوں، ان آؤٹ پٹس سے زیادہ اسکور دیتا ہے جن میں یہ شامل نہ ہوں؛ 76.2% ڈیٹاسیٹس میں مثبت اضافہ دیکھا گیا۔

اس سے یہ تو واضح ہو گیا کہ نرڈی پرسنالٹی پرومپٹ کے ساتھ یہ رویہ کیوں بڑھ گیا، لیکن یہ واضح نہیں ہوا کہ یہ اس پرومپٹ کے بغیر بھی کیوں ظاہر ہو رہا تھا۔ یہ جانچنے کے لیے کہ آیا یہ انداز منتقل ہو رہا ہے یا نہیں، ہم نے ٹریننگ کے دوران نرڈی پرومپٹ کے ساتھ اور بغیر دونوں صورتوں میں اس کے ذکر کی شرح کو ٹریک کیا۔

جیسے جیسے نرڈی پرسنالٹی کے تحت گوبلن اور گریملن کے ذکر میں اضافہ ہوا، ویسے ہی تقریباً اسی نسبتی شرح سے یہ اضافہ اُن نمونوں میں بھی دیکھا گیا جہاں یہ پرسنالٹی شامل نہیں تھی۔ مجموعی طور پر، شواہد یہ ظاہر کرتے ہیں کہ یہ وسیع رویہ نرڈی پرسنالٹی کی ٹریننگ سے منتقلی کے ذریعے سامنے آیا۔

یہ ریوارڈز صرف نرڈی کنڈیشن میں لاگو کیے گئے تھے، لیکن ری اِنفورسمنٹ لرننگ اس بات کی ضمانت نہیں دیتی کہ سیکھے گئے رویے اسی دائرے تک محدود رہیں جہاں وہ پیدا ہوئے تھے۔ جب کسی خاص انداز یا عادت کو انعام دیا جاتا ہے تو بعد کی ٹریننگ اسے دوسرے مقامات تک پھیلا یا مزید مضبوط کر سکتی ہے، خاص طور پر اگر ان آؤٹ پٹس کو سپر وائزڈ فائن ٹیوننگ یا پریفرنس ڈیٹا میں دوبارہ استعمال کیا جائے۔

اس سے ایک فیڈبیک لوپ پیدا ہوتا ہے:

شوخ انداز کی حوصلہ افزائی کی جاتی ہے۔
کچھ پسندیدہ مثالوں میں ایک مخصوص لسانی عادت موجود ہوتی ہے۔
یہ عادت رول آؤٹس میں زیادہ کثرت سے ظاہر ہونے لگتی ہے۔
ماڈل کے ذریعے تیار کردہ رول آؤٹس کو سپر وائزڈ فائن ٹیوننگ (SFT) کے لیے استعمال کیا جاتا ہے.
ماڈل اس عادت کو پیدا کرنے میں مزید مانوس ہو جاتا ہے.

GPT‑5.5 کے ذریعے ایک تلاش SFT ڈیٹا میں ایسے کئی ڈیٹا پوائنٹس پائے گئے جن میں "گوبلن" اور "گریملن" شامل تھے۔ مزید تحقیق سے عجیب و غریب مخلوقات کے ایک پورے گروہ کا پتا چلا۔ ریکونز، ٹرولز، اوگرز اور کبوتروں کو دیگر لفظی عادات کے طور پر شناخت کیا گیا، جبکہ frog کے زیادہ تر استعمال درست پائے گئے۔

گوبلنز اور گریملنز کی پروڈکشن میں موجودگی کی شرح کا ایک ہفتے کا اوسط۔ GPT‑5.4 میں کمی واقع ہوئی. سوچ مارچ کے وسط میں “Nerdy” شخصیت کو ختم کرنے کا نتیجہ تھی. GPT‑5.5 کبھی “Nerdy” شخصیت کے ساتھ لانچ نہیں ہوا، اور اس نے GPT‑5.4 کے مقابلے میں ایک اور اضافہ دکھایا (“Nerdy” کے بغیر بھی).

گوبلنز کا خاتمہ

GPT‑5.4 لانچ کرنے کے بعد، ہم نے مارچ میں “Nerdy” شخصیت کو ریٹائر کر دیا۔ ٹریننگ میں، ہم نے گوبلنز کی طرف مائل ریوارڈ سگنل کو ہٹا دیا اور ایسے ٹریننگ ڈیٹا کو فلٹر کیا جس میں مخلوقات سے متعلق الفاظ شامل تھے، جس سے گوبلنز کے حد سے زیادہ نمودار ہونے یا نامناسب سیاق و سباق میں ظاہر ہونے کا امکان کم ہو گیا۔ بدقسمتی سے، GPT‑5.5 کی ٹریننگ اس سے پہلے شروع ہو گئی کہ ہم گوبلنز کی بنیادی وجہ معلوم کر پاتے۔ جب ہم نے Codex میں GPT‑5.5 کی جانچ شروع کی، تو OpenAI کے ملازمین نے فوراً گوبلنز کے لیے اس کے عجیب رجحان کو نوٹ کیا، اور ہم نے اسے کم کرنے کے لیے ایک ڈیولپر-پرومپٹ ہدایت⁠(نئی ونڈو میں کھلتا ہے) شامل کی۔ Codex بہرحال کافی نرڈی ہے۔

اگر آپ چاہتے ہیں کہ Codex میں ان مخلوقات کو آزاد چھوڑ دیا جائے، تو آپ یہ کمانڈ چلا سکتے ہیں تاکہ Codex کو ان ہدایات کے بغیر شروع کیا جا سکے جو گوبلنز کو دبانے کے لیے شامل کی گئی تھیں:

سادہ متن

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

یہ کیوں اہم ہے

آپ کس سے پوچھتے ہیں اس کا انحصار اس بات پر ہے کہ گوبلنز ماڈل کی ایک دلکش خوبی ہے یا ایک پریشان کن عادت۔ لیکن یہ اس بات کی ایک طاقتور مثال بھی ہے کہ ریوارڈ سگنلز کس طرح غیر متوقع انداز میں ماڈل کے رویے کو تشکیل دے سکتے ہیں، اور یہ کہ ماڈلز کس طرح بعض حالات میں ملنے والے انعامات کو غیر متعلقہ حالات تک بھی عام کر لیتے ہیں۔ کسی ماڈل کے عجیب رویے کی وجہ کو سمجھنے کے لیے وقت نکالنا، اور ایسے طریقے تیار کرنا جن کے ذریعے ان پیٹرنز کی تیزی سے جانچ کی جا سکے، ہماری ریسرچ ٹیم کے لیے ایک اہم صلاحیت ہے۔ اس تحقیق کے نتیجے میں نئے ٹولز تیار کیے گئے جن کی مدد سے ریسرچ ٹیم ماڈل کے رویے کا جائزہ لے سکتی ہے اور رویے سے متعلق مسائل کو ان کی جڑ سے درست کر سکتی ہے۔

2026

مصنف

OpenAI

پڑھتے رہیں

سب دیکھیں

GPT-Red: مضبوطی کے لیے خود بہتری کو کھولنا

حفاظت۱۵ جولائی، ۲۰۲۶

کوڈنگ جائزوں میں سگنل کو شور سے الگ کرنا

تحقیق۸ جولائی، ۲۰۲۶

GeneBench-Pro کا تعارف

تحقیق۳۰ جون، ۲۰۲۶