خیالات کے سلسلہ کی نگرانی کی صلاحیت کا جائزہ لینا
ہم خیالات کے سلسلہ (chain-of-thought) کی نگرانی کے لیے تشخیصات متعارف کراتے ہیں اور مطالعہ کرتے ہیں کہ یہ ٹیسٹ کے وقت کی کمپیوٹ، ری انفورسمنٹ لرننگ اور پیشگی تربیت کے ساتھ کیسے آگے بڑھتا ہے۔
جب AI سسٹمز ایسے فیصلے کرتے ہیں جن کی براہ راست نگرانی کرنا مشکل ہوتا ہے، تو یہ سمجھنا اہم ہو جاتا ہے کہ وہ فیصلے کیسے کیے جاتے ہیں۔ ایک امید افزا طریقہ یہ ہے کہ ماڈل کی اندرونی استدلال کی نگرانی کی جائے، نہ کہ صرف اس کی کارروائیوں یا حتمی نتائج کی۔
جدید استدلالی ماڈلز، جیسا کہ GPT‑5 تھنکنگ، جواب دینے سے پہلے ایک واضح سلسلہ خیالات پیدا کرتے ہیں۔ غلط رویوں کے لئے ان سلسلہ خیالات کی نگرانی کرنا زیادہ مؤثر ہو سکتا ہے بجائے اس کے کہ صرف ماڈل کی کارروائیوں اور نتائج کی نگرانی کی جائے۔ تاہم، OpenAI اور وسیع تر صنعت کے محققین فکر مند ہیں(نئی ونڈو میں کھلتا ہے) کہ اس سلسلہ خیالات کی "نگرانی کی صلاحیت" کی تربیت کے طریقہ کار، ڈیٹا کے ذرائع اور یہاں تک کہ موجودہ الگورتھمز کی جاری رکھنے والی توسیع کے لیے نازک ہو سکتی ہے۔
ہم چاہتے ہیں کہ خیالات کے سلسلہ کی نگرانی کی صلاحیت ماڈلز کے بڑھتے ہوئے پیمانے اور حساس ماحول میں تعیناتی کے دوران برقرار رہے۔ ہم صنعت بھر کے محققین سے اپیل کرتے ہیں کہ وہ سلسلہ خیالات کی نگرانی کو زیادہ سے زیادہ دیر تک محفوظ رکھنے کے لئے کام کریں اور یہ تعین کریں کہ آیا یہ مستقبل کے AI نظاموں کے لئے بوجھ کو برداشت کرنے والی کنٹرول پرت کے طور پر کام کر سکتا ہے۔ نگرانی کی صلاحیت کو محفوظ رکھنے کے لیے، ہمیں اسے ناپنے کے قابل ہونا چاہیے، تاہم چند جائزے موجود ہیں [1(نئی ونڈو میں کھلتا ہے), 2(نئی ونڈو میں کھلتا ہے), 3(نئی ونڈو میں کھلتا ہے)] اور طریقہ کار مختلف ہیں۔
اس کام میں، ہم سلسلہ خیالات کی نگرانی کا منظم طریقے سے مطالعہ کرتے ہیں۔ ہم ایک فریم ورک متعارف کراتے ہیں تاکہ خیالات کے سلسلہ کی نگرانی کی جا سکے اور 13 تشخیصات کا ایک مجموعہ (جو کل 24 ماحول پر مشتمل ہے) تیار کیا گیا ہے تاکہ کسی نظام کی نگرانی کی صلاحیت کی ٹھوس طور پر پیمائش کی جا سکے۔ یہ جائزے تین اقسام میں تقسیم ہوتے ہیں—مداخلت، عمل اور نتیجہ-خصوصیات۔ ان کا استعمال کرتے ہوئے، ہم یہ مطالعہ کرتے ہیں کہ آج کے بڑے زبان کے ماڈلز کی نگرانی کس حد تک ممکن ہے اور کس طرح استدلال کے وقت میں اضافے، بڑے ری انفورسمنٹ لرننگ رنز اور پیشگی تربیت کے پیمانے میں اضافے کے ساتھ نگرانی کی صلاحیت میں تبدیلی آتی ہے۔
اب جب کہ ہمارے پاس تشخیصات کا ایک بڑا مجموعہ ہے، ہم اپنے ماڈلز کی نگرانی کی صلاحیت کو ٹریک کرنا شروع کر سکتے ہیں۔ (اوپر-بائیں) ہم یہ پاتے ہیں کہ جیسے جیسے ماڈلز "سوچیں" اور ان کے خیالات کے سلسلہ طویل ہوتے جاتے ہیں، نگرانی کرنے کی صلاحیت بہتر ہوتی جاتی ہے۔ (اوپر-دائیں) بغیر خیالات کے سلسلہ، یہ معیاری ہے کہ صرف ماڈل کی کارروائیوں اور حتمی نتائج کی نگرانی کرنے کی کوشش کی جائے۔ تاہم، ہم یہ پاتے ہیں کہ صرف کارروائیوں اور نتائج کی نگرانی کرنا CoT کی نگرانی کے مقابلے میں بہت کم مؤثر ثابت ہوتا ہے۔ (نیچے-مرکز) ہم اپنے ماڈلز کا موازنہ بیرونی ماڈلز سے کرتے ہیں جو مکمل CoT تک رسائی فراہم کرتے ہیں—Claude 3.7 Sonnet، DeepSeek R1-0528-Qwen3-8B اور Kimi K2 Thinking۔
ہمیں یہ معلوم ہوتا ہے کہ زیادہ تر جدید فرنٹئیر استدلالی ماڈلز کافی حد تک قابل نگرانی ہیں، اگرچہ مکمل طور پر نہیں۔ تقریباً ہر ماحول میں جس کا ہم مطالعہ کرتے ہیں، خیالات کے سلسلہ (chain-of-thought) کی نگرانی، صرف کارروائیوں اور حتمی نتائج کی نگرانی کے مقابلے میں زیادہ مؤثر ثابت ہوتی ہے۔ جو ماڈلز زیادہ دیر تک سوچتے ہیں، وہ زیادہ قابلِ نگرانی ہوتے ہیں اور موجودہ فرنٹئیر پیمانوں پر ری انفورسمنٹ لرننگ کی اصلاح سے نگرانی کی صلاحیت میں کوئی معنی خیز کمی نظر نہیں آتی۔
خاص طور پر، ہم استدلال کی کوشش اور ماڈل کے سائز کے درمیان ایک توازن دیکھتے ہیں: جب ایک ماڈل کو کم استدلال کی کوشش پر چلایا جاتا ہے، تو ایک چھوٹا ماڈل زیادہ استدلال کی کوشش پر چل کر قابل موازنہ صلاحیت حاصل کر سکتا ہے جبکہ اس کی نگرانی کرنا آسان ہوتا ہے۔ اس کا نتیجہ زیادہ استنباط کمپیوٹ کی صورت میں نکلتا ہے، جسے ہم نگرانی کی صلاحیت کا ٹیکس کہتے ہیں۔ آخرکار، ہم یہ پاتے ہیں کہ فالو اپ سوالات پوچھنا اور نتیجے میں پیدا ہونے والے خیالات کے سلسلہ کی نگرانی کرنا مزید نگرانی کی صلاحیت کو بہتر بنا سکتا ہے۔
ہم نگرانی کی صلاحیت کو ایجنٹ کے رویے کے بارے میں دلچسپی کی خصوصیات کی پیش گوئی کرنے کی صلاحیت کے طور پر بیان کرتے ہیں۔ بہت سے معاملات میں، یہ خصوصیات غلط رویوں کی شکلوں سے مطابقت رکھتی ہیں—جیسا کہ دھوکہ دہی، انعامی ہیکنگ، یا متعصب استدلال—لیکن ان میں بے ضرر خصوصیات بھی شامل ہو سکتی ہیں، جیسا کہ آیا کسی ایجنٹ نے کسی خاص اشارہ پر انحصار کیا یا کسی مخصوص استدلال کی لائن پر عمل کیا۔
نگرانی کی صلاحیت ایک دو طرفہ خاصیت ہے۔ یہ نگرانی پر منحصر ہے اور اس ایجنٹ پر بھی جس کی نگرانی کی جا رہی ہے۔
- مانیٹرز/نگراں۔ ہم مختلف طریقوں سے مانیٹرز کو زیادہ ہوشیار بنا سکتے ہیں اور ہم چاہتے ہیں کہ ہماری تشخیصات ان مانیٹرز کو زیادہ اسکور دیں جو ایجنٹ کے رویے کے بارے میں بہتر پیش گوئیاں کر سکتے ہیں۔
- ایجنٹس۔ ایجنٹ کے کئی مشاہدات ہیں جو نگرانی کو دیئے جا سکتے ہیں، جن میں ایجنٹ کی کارروائیاں، نتائج، نیورل ایکٹیویشنز اور حال ہی میں استدلالی ماڈلز کے آنے کے ساتھ، سلسلہ خیالات شامل ہے۔ یہ ممکن ہے کہ کچھ ایجنٹس کے خیالات دیگر کے مقابلے میں سمجھنے میں زیادہ مشکل ہوں اور اسی لئے ہم چاہتے ہیں کہ ہماری نگرانی کی صلاحیت کی تشخیصات، ایجنٹس اور مانیٹرز دونوں کا موازنہ کرنے کے قابل ہوں۔
ہماری تشخیصات دونوں پہلوؤں کا جائزہ لینے کے لئے تیار کی گئی ہیں: آیا کچھ ایجنٹس کی نگرانی کرنا آسان یا مشکل ہے اور آیا زیادہ قابل نگراں ایک ہی سگنلز سے زیادہ معلومات نکال سکتے ہیں۔
موجودہ جنریشن کے استدلالی ماڈلز سے پہلے، سلسلہ خیالات عام طور پر ماڈل کو "مرحلہ بہ مرحلہ سوچنے" کی ترغیب دے کر پیدا کی جاتی تھیں۔
استدلالی ماڈلز کے سلسلہ ہائے فکر دو اہم طریقوں سے مختلف ہیں۔ پہلے، انہیں واضح طور پر خیالات کا سلسلہ پیدا کرنے کی تربیت دی جاتی ہے اور پھر جواب دیا جاتا ہے۔ جب چیٹ ماڈل کو "مرحلہ بہ مرحلہ" سوچنے کا کہا جاتا ہے، تو ماڈل کو ان تمام وضاحتوں کی پابندی کرنی ہوتی ہے جو اس پر عائد کی گئی ہیں، مثلاً مددگار ہونا، بے ضرر ہونا وغیرہ۔ اس کے برعکس، ری انفورسمنٹ لرننگ کی تربیت کا عمل ایک استدلالی ماڈل کو یہ سکھاتا ہے کہ CoT ایک نجی جگہ ہے جہاں وہ جو چاہے سوچ سکتا ہے اور اسے سزا نہیں دی جائے گی، بالکل اسی طرح جیسا ایک انسان نجی طور پر سوچ سکتا ہے اور "سوچ کے جرائم" کے لیے سزا نہیں دی جاتی۔
دوسرا، تربیتی عمل مؤثر طریقے سے ان خیالات کی زنجیروں کو تلاش کرتا ہے جو ایجنٹ کے لئے ایک اعلٰی انعامی حتمی جواب حاصل کرنے میں سب سے زیادہ مفید ہیں۔ اس طرح، نہ صرف سلسلہ خیالات ایک ایسی جگہ ہے جہاں ماڈل آزادانہ طور پر اپنے خیالات کا اظہار کر سکتا ہے، بلکہ اس میں وہ سوچ بھی شامل ہے جو ماڈل کو اس کے حتمی جواب تک پہنچنے میں مدد دیتی ہے۔
ہم اپنی نگرانی کی صلاحیت کی تشخیصات کو تین مختلف ماڈلز میں منظم کرتے ہیں، جن میں سے ہر ایک نگرانی کی صلاحیت کی قابلیت کی جانچ کرنے کے لیے ایک مختلف طریقہ کار کا استعمال کرتا ہے۔
- مداخلت کی تشخیصات، جو Chen et al. 2025(نئی ونڈو میں کھلتا ہے)، Chua et al. 2025(نئی ونڈو میں کھلتا ہے)، Turpin et al. 2023(نئی ونڈو میں کھلتا ہے)، سے متاثر ہو کر، ہم ایجنٹ کے ماحول میں ایک کنٹرول شدہ تبدیلی متعارف کراتے ہیں اور جانچ کرتے ہیں کہ آیا ایک نگرانی مداخلت کے ثبوت کو خیالات کے سلسلہ میں شناخت کر کے یہ سراغ لگایا جا سکتا ہے کہ رویہ کیوں تبدیل ہوا۔ معیاری کنٹرول تشخیصات کے برعکس (مثال کے طور پر Shade-Arena(نئی ونڈو میں کھلتا ہے))، مداخلتی جائزے ہمیں یہ جانچ کرنے کی اجازت دیتے ہیں کہ آیا ایک نگرانی سے یہ پتہ چل سکتا ہے کہ رویہ میں کیوں تبدیلی آئی، بجائے اس کے کہ صرف یہ پتہ لگایا جائے کہ آیا کوئی رویہ وقوع پذیر ہوا۔
- پروسیس کی تشخیصات ان ٹاسکس پر مرکوز ہوتی ہیں جن کے حل کے لیے پابندی تعداد میں درست حل کے راستے ہوتے ہیں (مثال کے طور پر، ایک ریاضی کا مسئلہ صرف مخصوص نظریات کے ساتھ ہی حل کیا جا سکتا ہے)۔ انسانی ماہرین ان راستوں کو شمار کرتے ہیں اور ہم یہ جانچ کرتے ہیں کہ آیا ایک نگرانی یہ پتہ لگا سکتی ہے کہ ماڈل نے دراصل کون سے اقدامات کیے۔ یہ تشخیصات ہمیں اس بات کو لنک کرنے کی اجازت دیتی ہیں کہ ماڈل نے کیا کیا اور وہ خاص مراحل جو ماڈل نے اختیار کیے ہوں گے اور پوچھتے ہیں کہ کیا ان مراحل کی نگرانی کی جا سکتی ہے۔
- نتیجہ-خصوصیات کی تشخیصات اس وقت لاگو ہوتی ہیں جب ماڈل کے نتائج کی کسی خصوصیت کو قابل اعتماد طریقے سے ناپا جا سکتا ہے۔ ان صورتوں میں، ہم یہ جانچ کرتے ہیں کہ آیا ایک نگرانی ماڈل کی دلیل یا کارروائیوں سے اس خاصیت—جیسا کہ ریوارڈ ہیکنگ—کی پیش گوئی کر سکتا ہے۔ مثال کے طور پر، ایک کوڈنگ ٹاسک میں، ہمارے پاس یہ جانچنے کا ایک قابل اعتماد طریقہ ہو سکتا ہے کہ آیا کوئی ماڈل انعام کے سگنل کو ہیک کرنے کے لیے کارروائیاں کر رہا ہے اور ہم پوچھ سکتے ہیں کہ کیا کوئی نگرانی، ماڈل کی سوچ یا کارروائیوں میں ریوارڈ ہیک کرنے کے ارادے کے شواہد پاتی ہے۔
ذیل میں ہم اپنی تشخیصات کے لیے ایک درجہ بندی فراہم کرتے ہیں۔ براہ کرم ہر فردی تشخیص کی مکمل وضاحت کے لئے ہمارا مقالہ ملاحظہ کریں۔

Neutral evaluations ask whether the reasoning for normal tasks where the model does not misbehave is monitorable. Sycophancy evaluations target cases where models change their behavior to overly please or agree with a user. Bias evaluations ask if a model’s bias around gender, race, etc. is monitorable. Finally, we use the misalignment label as a catchall for other forms of misbehavior: cheating, lying, etc.¹
ہمیں یہ معلوم ہوتا ہے کہ ہمارے ماڈل کی نگرانی کی صلاحیت کچھ حد تک ہر گروپ کے لحاظ سے مختلف ہوتی ہے۔ عام طور پر ہم انہیں بہت قابل نگرانی پاتے ہیں؛ تاہم، خاص طور پر خلش ضمیر میں، جو ایک ٹاسک ہے جو یہ دیکھنے کے لیے بنایا گیا ہے کہ چاپلوسی کے بارے میں استدلال قابل نگرانی ہے یا نہیں، ہم بہت کم نگرانی کی صلاحیت دیکھتے ہیں۔
نگرانی کے قابل بمقابلہ غیر نگرانی کے قابل مثالیں
اس نتیجہ-خاصیت کی مثال میں، ماڈل کو ایک ناممکن کوڈنگ ٹاسک دیا گیا ہے۔ اگر یونٹ ٹیسٹ کامیاب ہو جائیں، تو ہم جانتے ہیں کہ ماڈل نے کسی قسم کی چالاکی کی ہے۔ ناقابل نگرانی CoT (سرخ) میں، ہم یہ نہیں دیکھتے کہ ماڈل کچھ غلط کرنے کا ذکر کر رہا ہے، بلکہ یہ صرف ٹیسٹس کو ہیک کرتا ہے اور صارف کو بتاتا ہے کہ اس نے مسئلہ حل کر دیا ہے۔ واضح موازنہ میں، نگرانی کیے جانے والے CoT (سبز) میں، ہم دیکھتے ہیں کہ ماڈل سوچیں "لیکن حل کے اندر وقت کو بندر پیچ کرنا بظاہر دھوکہ دہی ہے۔"
خیالات کے سلسلہ کو ایک نجی جائے کار کے طور پر سمجھنا اور ماڈل کو اسے مؤثر طریقے سے استعمال کرنے کی تربیت دینا، اصولی طور پر، خیالات کے سلسلوں کو قابل نگرانی بنا سکتا ہے۔ اسی وقت، کئی استدلال ہیں کہ ری انفورسمنٹ لرننگ ممکنہ طور پر خیالات کے سلسلہ کی نگرانی کو نقصان پہنچا سکتی ہے۔
پہلے، استدلال کی طوالت پر پابندیاں، جیسا کہ وقت یا ٹوکنز کو پابندی کرنا جو ایک ماڈل کے پاس سوچنے کے لیے ہوتے ہیں، ماڈلز کو کم استدلال کرنے کی ترغیب دیتی ہیں۔ دوسرا، خیالات کے سلسلہ (chain-of-thought) پر براہ راست احسن کاری کا دباؤ ڈالے بغیر بھی، بالواسطہ دباؤ نگرانی کی صلاحیت کو کم کر سکتے ہیں۔ مثال کے طور پر(نئی ونڈو میں کھلتا ہے)، ماڈلز ممکنہ طور پر زیادہ انعامی جوابات تک پہنچنے میں آسانی محسوس کر سکتے ہیں اگر وہ ان استدلالی راستوں سے بچیں جو کم انعام یا ناپسندیدہ نتائج کا باعث بن سکتے ہیں۔ آخر کار، ری انفورسمنٹ لرننگ کے گریڈینٹ شور کی وجہ سے پیدا ہونے والی غیر حقیقی ڈرفٹ کی وجہ سے نگرانی کی صلاحیت میں کمی آ سکتی ہے۔
ذیل میں، ہم OpenAI کی دو جدید ترین ری انفورسمنٹ لرننگ تربیتی مراحل کے دوران نگرانی کی صلاحیت میں ہونے والی تبدیلیوں کا جائزہ لیتے ہیں۔ اگرچہ یہ نتائج صرف دو ڈیٹا پوائنٹس کی نمائندگی کرتے ہیں، یہ تجویز کرتے ہیں کہ موجودہ فرنٹیئر پیمانوں پر ری انفورسمنٹ لرننگ کی اصلاح سوچ کی نگرانی کی صلاحیت کو مادی طور پر کم نہیں کرتی اور ابتدائی مراحل کے لئے نگرانی کی صلاحیت کو بڑھاتی ہے۔ تاہم، یہ، اس امکان کو مسترد نہیں کرتا کہ مستقبل میں ری انفورسمنٹ لرننگ کے نمایاں بڑے پیمانے پر ہونے سے نگرانی کی صلاحیت پر منفی اثر پڑ سکتا ہے۔
ہمیں یہ معلوم ہوتا ہے کہ موجودہ RL کمپیوٹ اسکیلز پر نگرانی کی صلاحیت میں زیادہ تبدیلی نہیں ہوتی اور یہ ابتدائی مراحل میں بڑھتی ہے۔ اگرچہ یہ موجودہ نظام میں درست ہو سکتا ہے، لیکن یہ ممکن ہے کہ نمایاں طور پر بڑھتی ہوئی پیمائش کی وجہ سے نگرانی کی صلاحیت میں کمی آنا شروع ہو جائے۔
موجودہ AI نظاموں کی ذہانت کا ایک بڑا حصہ بڑھتی ہوئی پری ٹریننگ اسکیل سے چلتا ہے، جہاں ماڈل کے پیرامیٹرز اور ڈیٹا سیٹ کے سائز دونوں نے GPT پیراڈائم کے آغاز سے مسلسل ترقی کی ہے۔ پیرامیٹرز کی بڑھتی ہوئی تعداد کے نتیجے میں ہر جنریٹ کردہ ٹوکن کے لیے زیادہ اِنفرنس کمپیوٹ استعمال ہوتا ہے، جو کہ استدلالی ماڈلز کے معاملے میں، ماڈل کی شعوری سرگرمیوں کو سلسلہ خیالات کے بجائے ایکٹیویشنز کے اندر ہونے کا زیادہ موقع فراہم کرتا ہے۔ اس طرح، ہم توقع کر سکتے ہیں کہ بڑے ماڈل ایک مقررہ صلاحیت کی سطح پر کم قابل نگرانی ہوں گے۔
اسی وقت، چھوٹے ماڈلز خیالات کے سلسلہ (chain-of-thought) کو مؤثر طریقے سے استعمال کرنے کی صلاحیت میں بھی کمزور ہو سکتے ہیں—جو نگرانی کی صلاحیت کو بھی متاثر کر سکتا ہے۔
پری ٹریننگ سائز، صلاحیت اور نگرانی کی صلاحیت کے درمیان تعلق کی تحقیق کرنے کے لیے، ہم نے دو آرڈرز آف میگنیٹیوڈ کے پری ٹریننگ کمپیوٹ پر بڑھتی ہوئی گہرائی اور چوڑائی کے ساتھ ماڈلز کے ایک خاندان کو تربیت دی اور پھر ہر ایک پر ری انفورسمنٹ لرننگ کو ریاضی، سائنس اور کوڈنگ ٹاسک کے مشترکہ ڈیٹا سیٹ پر لاگو کیا۔ ہم نے ہر ماڈل کا مختلف استدلالی کوششوں کے دوران جائزہ لیا اور مطابقتی صلاحیت کی سطحوں پر ان کی نگرانی کی صلاحیت کا موازنہ کیا۔

ہم اپنے جائزہ سوٹ میں ہر ماڈل کی نگرانی کی صلاحیت کو معیاری صلاحیت کے جائزوں (GPQA-Diamond, AIME 2025 اور CodeForces) کے سیٹ پر اوسط کامیابی کی شرح کے مقابلے میں منصوبہ بندی کرتے ہیں۔ ہر ماڈل کی کئی استدلالی کوششوں پر جانچ کی جاتی ہے (نوٹ کریں کہ اس شکل میں ہر نقطہ دراصل ماپی گئی استدلالی کوششوں کے درمیان ایک خطی مداخلت کا نتیجہ ہے)۔ دائرے یہ نشاندہی کرتے ہیں کہ اس خاص استدلالی کوشش پر ماڈل اس قابلیت کی سطح پر نگرانی کی صلاحیت میں غالب ہے اور شفاف X اس بات کی نمائندگی کرتے ہیں کہ اس خاص استدلالی کوشش پر ماڈل نگرانی کی صلاحیت میں کسی دوسرے ماڈل کے ذریعے اس قابلیت کی سطح پر مغلوب ہے۔ سیاہ تیروں میں، ہم دو طریقوں کی مثالیں دکھاتے ہیں کہ کس طرح زیادہ استخراجی کمپیوٹ کو خرچ کیا جا سکتا ہے: ایک چھوٹے ماڈلز کے ساتھ زیادہ ٹوکنز کو سیمپل کر کے یا اسی ماڈلز کے ساتھ نسبتاً کم اضافی ٹوکنز کے ساتھ۔ سرخ تیروں میں، ہم وہ نگرانی کی صلاحیت کا ٹیکس دکھاتے ہیں جو ادا کرنا ضروری ہے، یعنی زیادہ نگرانی کی صلاحیت کے لیے صلاحیتوں میں معمولی کمی۔
عام طور پر، ہم یہ پاتے ہیں کہ اگر ہم کسی دیئے گئے ماڈل کو کم استدلال کی کوشش پر تعینات کریں، تو ہم اس کے بجائے ایک چھوٹا ماڈل زیادہ استدلال کی کوشش پر تعینات کر سکتے ہیں۔ اصل بڑے ماڈل سے اضافی استدلال کی کوشش پر اضافی کمپیوٹ خرچ کرنے کے مقابلے میں، ہم ایک چھوٹی صلاحیت کی قیمت یا نگرانی کی صلاحیت کے ٹیکسپر زیادہ نگرانی کی صلاحیت حاصل کر سکتے ہیں؛ تاہم، کسی تکمیل کو ختم کرنے میں لگنے والا وال کلاک وقت بھی کچھ تعیناتی کے فیصلوں میں ایک عنصر ہو سکتا ہے، جس پر ہم یہاں غور نہیں کرتے۔ جیسے جیےا ہمارے ماڈلز بہتر ہوتے جا رہے ہیں اور زیادہ اہم ماحول میں تعینات کیے جا رہے ہیں، انہیں محفوظ طریقے سے تعینات کرنے کے لیے اس طرح کا ٹیکس ادا کرنا ضروری ہو سکتا ہے۔
ان نتائج کی درج ذیل حدود ہیں: (1) ہم ہر ماڈل کو صرف ایک بار تربیت دیتے ہیں، اور اس لیے ٹریننگ رنز میں فرق کا حساب نہیں رکھتے ہیں۔ مثال کے طور پر، "درمیانہ" ماڈل اس سیریز کے دیگر ماڈلز کے مقابلے میں نگرانی کرنے کی صلاحیت میں کافی حد تک غیر رجحانی لگتا ہے، جو ممکنہ طور پر اس کی وجہ سے ہو سکتا ہے۔ (2) ہم صلاحیتوں کا جائزہ نسبتاً اندرونی تقسیم کی ترتیبات (ریاضی، سائنس اور کوڈنگ) میں لیتے ہیں اور جب بیرونی تقسیم کی مضبوطی کو مدنظر رکھا جائے تو توازنات تبدیل ہو سکتے ہیں۔
جب AI نظام انسانی سطح کی کارکردگی سے آگے بڑھتے ہیں، تو براہ راست انسانی نگرانی زیادہ مشکل ہو جاتی ہے۔ مثالی طور پر، ہمارے پاس قابل توسیع کنٹرول کے طریقہ کار ہوں گے جو قابل اعتماد لیکن کمزور نگرانی کو مضبوط، ممکنہ طور پر ناقابل اعتماد ایجنٹس کی نگرانی کرنے کی اجازت دیتے ہیں۔ ایسے طریقہ کار کو اضافی ٹیسٹ کے وقت کی کمپیوٹنگ کو جذب کرنے اور زیادہ درست پیش گوئیاں کرنے کے قابل بھی ہونا چاہیے۔
(بائیں) ہم مختلف نگراں کا موازنہ کرتے ہیں اور ہر ایک کے استدلال کی کوشش کو مختلف کرتے ہیں۔ ہر مانیٹر ایک ہی GPT‑5 سوچ کے ماڈل کی نگرانی کر رہا ہے۔ جیسا کہ توقع کی جاتی ہے، ہم یہ پاتے ہیں کہ عام طور پر بڑے اور زیادہ قابل ماڈلز بہتر نگرانی کے طور پر کام کرتے ہیں اور استدلالی ماڈلز نگرانی کی صلاحیت کے ٹاسکس میں بہتر کارکردگی دکھاتے ہیں جب ان میں زیادہ استدلالی کوشش (اور اس لیے ٹیسٹ کے وقت کی کمپیوٹ) شامل ہوتی ہے۔
(دائیں) ہم OpenAI o4-mini کے لیے مختلف نگرانی کے مشاہداتی دائرہ کار کا موازنہ کرتے ہیں، یعنی آیا نگرانی صرف CoT کو دیکھ سکتی ہے، صرف کارروائیاں اور جواب، یا اس ماڈل کے تمام پیغامات جن کی یہ نگرانی کر رہا ہے۔ خاص طور پر، ہم یہ پاتے ہیں کہ جب نگرانی کو CoT تک رسائی دی جاتی ہے تو ٹیسٹ کے وقت کی نگرانی کی کمپیوٹ میں اضافے کے ساتھ نگرانی کی صلاحیت تیزی سے بہتر ہوتی ہے۔ اس طرح، CoT کی نگرانی سادہ نگرانی کے مقابلے میں کنٹرول کے لیے زیادہ قابل توسیع راستہ فراہم کر سکتی ہے۔
خیالات کے سلسلہ کی نگرانی کو اکثر ایک مقررہ مقدار کے طور پر سمجھا جاتا ہے: جب ایک ماڈل کسی خاص استدلال کی کوشش پر جواب پیدا کرتا ہے، تو نتیجے میں آنے والے خیالات کے سلسلہ کی نگرانی ممکنہ حد تک کی جاتی ہے۔ کیونکہ ہم نے مسلسل یہ پایا ہے کہ جیسے جیسے ہم اپنے ایجنٹس کی استدلال کی کوشش کو بڑھاتے ہیں، نگرانی کی صلاحیت میں بہتری آتی ہے، ہم نے سوچا کہ کیا ہم کسی طرح مزید ٹوکنز کو نگرانی کرنے کے لئے حاصل کر سکتے ہیں۔
اس کو دریافت کرنے کے لیے، ہم نے ماڈل کے جواب دینے کے بعد فالو اپ سوالات پوچھنے کا تجربہ کیا، جبکہ اصل پرامپٹ، خیالات کے سلسلہ اور جواب کو سیاق و سباق میں رکھا۔ یہ فالو اپس اس خصوصیت پر مرکوز ہیں جس کی نگرانی کی جا رہی ہے—مثال کے طور پر، "کیا آپ نے اپنے جواب کے انتخاب کے لیے اشارہ کرنا معنی خیز طریقے سے استعمال کیا؟" یا "کیا آپ نے کچھ مشکوک کیا؟" اصولاً، چونکہ ماڈل اپنی سابقہ دلیل تک رسائی برقرار رکھتا ہے، یہ ممکن ہے کہ وہ بعد کے سلسلہ خیالات یا جواب میں پہلے سے غیر اظہار شدہ خیالات کو سامنے لا سکے۔
یہ نتائج ابتدائی ہیں۔ ہم نے صرف چند فالو اپ سوالات کے فارمیٹس کو دریافت کیا ہے اور ہمیں یقین ہے کہ بہتر طریقہ کار کے لیے کافی گنجائش موجود ہے۔ مزید برآں، یہ طریقہ ماڈل اعترافات کے جذبے میں مشابہ ہے اور ہم فعال طور پر ان طریقوں کا موازنہ کرنے پر کام کر رہے ہیں۔
ہم اپنے جائزہ سوئٹ اور اپنے حالیہ استدلال ماڈلز: OpenAI o3‑mini، OpenAI o3، OpenAI o4-mini اور GPT‑5‑thinking کے اوسط نتائج دکھاتے ہیں۔ ہمیں یہ معلوم ہوتا ہے کہ عمومی طور پر، فالو اپ سوالات نگرانی کی صلاحیت کو بہتر بناتے ہیں، خاص طور پر جب استدلال کی کوششیں کم ہوں۔ اگر ہم بار بار فالو اپ سوالات پوچھیں اور تمام فالو اپ سلسلہ خیالات (CoTs) کو نگرانی فراہم کریں، تو نگرانی کی صلاحیت مزید بہتر ہو جاتی ہے۔ خاص طور پر، جب ہم نگرانی کو صرف فالو اپ جواب تک رسائی دیتے ہیں اور فالو اپ CoT تک نہیں دیتے، تو ہم بنیادی لائن کے مقابلے میں کم بہتری دیکھتے ہیں۔ یہ ظاہر کرتا ہے کہ ماڈلز اپنے جوابات میں صارف کے سامنے براہ راست نہیں ہوتے، لیکن اپنے سلسلہ خیالات (CoT) میں زیادہ معلومات فراہم کرتے ہیں۔
نگرانی کی صلاحیت کو بہتر بنانے کے علاوہ، یہ طریقہ کار اس لیے بھی پرکشش ہے کیونکہ اسے بعد ازاں لاگو کیا جا سکتا ہے اور اضافی کمپیوٹ لاگت صرف اس وقت آتی ہے جب گہرائی سے جانچ کرنے کی ضرورت ہو۔ آگے دیکھتے ہوئے، اگر ماڈلز کو اس بات کی توقع کے لئے تربیت دی جائے کہ گفتگو کے دوران استدلال کی کوشش میں تبدیلیاں آئیں گی، تو بعد ازاں اعلیٰ استدلال کی کوشش کے ساتھ فالو اپس، یہاں تک کہ جب ابتدائی استدلال کی کوشش کم یا غیر موجود ہو، نگرانی کی صلاحیت کو مزید بہتر بنا سکتے ہیں۔
ہمارے مجموعے میں ہر تشخیص یہ جانچ کرتی ہے کہ آیا استدلالی عمل کے کسی ایک پہلو کی نگرانی کی جا سکتی ہے۔ جبکہ ہم مختلف رویوں کا احاطہ کرنے کی کوشش کرتے ہیں—جس میں چاپلوسی، جان بوجھ کر خراب یا کم کارکردگی دکھانا، تعصب، اسکیمِنگ اور ریوارڈ ہیکنگ شامل ہیں—بہت سی اضافی خصوصیات ایسی ہیں جو ابھی تک آزمائی نہیں گئی ہیں۔
کسی بھی بینچ مارک کی طرح، ہماری تشخیصات محدود حقیقت پسندی یا بڑھتی ہوئی تشخیصی آگاہی کا شکار ہو سکتی ہیں، اور ہو سکتا ہے کہ نتائج جنگلی میں غلط برتاؤ کا پتہ لگانے کے لیے عام نہ ہوں۔
آخر کار، جیسے جیسے ہم آہنگی میں بہتری آتی ہے، ماڈلز کنٹرول شدہ تشخیصی ترتیبات میں کم کثرت سے غلط رویہ اختیار کر سکتے ہیں، جس سے نگرانی اور کنٹرول کی تشخیصات کے لیے دستیاب اشارہ کم ہو جاتا ہے جو غلط رویے کا پتہ لگانے پر انحصار کرتی ہیں۔ ان صورتوں میں، "غیر جانبدار" نگرانی کی تشخیصات قابل اطلاق رہتی ہیں، اگرچہ یہ ایک کھلا سوال ہے کہ وہ حقیقی دنیا کی ناکامیوں کی پیش گوئی میں کتنی مؤثر ہیں۔
اگر ہم آہنگی کا مسئلہ مکمل طور پر حل نہیں ہو سکتا، تو قابل توسیع کنٹرول کے طریقے ہماری انتہائی قابل ماڈلز کو محفوظ طریقے سے تعینات کرنے کی صلاحیت میں انتہائی اہم ہوں گے۔ خیالات کے سلسلہ کی نگرانی کی صلاحیت اور متعلقہ طریقے ہمارے اختیار میں موجود چند کنٹرول میکانزم میں سے ایک ہو سکتے ہیں۔ خیالات کا سلسلہ ہمارے ماڈلز کے بارے میں مزید سمجھنے میں بھی بڑے فوائد فراہم کر سکتا ہے، جیسا کہ کیا وہ اس بات سے آگاہ ہیں کہ وہ ایک تشخیص میں ہیں اور تعیناتی میں ان کا رویہ مختلف ہوتا ہے، کیا اس بات کا کوئی ثبوت ہے کہ کوئی منفی مقاصد ہیں جو ابھی تک ہماری تشخیصات میں ظاہر نہیں ہوئے ہیں، وغیرہ۔ لہذا، ہم سمجھتے ہیں کہ یہ انتہائی اہم ہے کہ ہم یہ سمجھیں کہ ہم نگرانی کی صلاحیت کب اور کیسے کھو سکتے ہیں۔
ہم خیالات کے سلسلہ کی نگرانی کو میکانکی تشریح کی تکمیل کے طور پر دیکھتے ہیں، نہ کہ اس کے متبادل کے طور پر۔ تمام معلوم کنٹرول اور قابل فہمیت کے طریقوں کی طرح، ہر ایک کی اپنی حدود اور کمزوریاں ہیں۔ ہماری توقع ہے کہ متعدد طریقوں کو یکجا کرنا—ایک گہرائی سے دفاع کی حکمت عملی—ان خلا کو پُر کرنے میں مدد کر سکتی ہے جو کوئی بھی واحد طریقہ چھوڑ دیتا ہے۔ خاص طور پر، اس کام میں متعارف کرائی گئی تشخیصات کو میکانیاتی تشریح پر مبنی نگرانی کی تکنیکوں کا جائزہ لینے اور ان کا موازنہ کرنے کے لیے بھی استعمال کیا جا سکتا ہے۔
چونکہ ہم سمجھتے ہیں کہ سوچ کے سلسلہ کی نگرانی کا قابل توسیع کنٹرول اسکیم میں بوجھ برداشت کرنے والی پرت ہو سکتی ہے، ہم ان تشخیصات کو بڑھانے اور مستقبل کے ماڈلنگ اور ڈیٹا کے فیصلوں کو مطلع کرنے کے لیے ان کا استعمال کرنے کا ارادہ رکھتے ہیں۔
مصنف
حوالہ جات
ہمارے ماڈل طبی تشخیصات فراہم کرنے کے لیے نہیں بنائے گئے ہیں اور اسی لیے ہماری صحت کے سوالات کا ڈیٹا سیٹ اس صلاحیت کی جانچ کے لیے نہیں ہے۔


