کنفیشنز کس طرح لینگویج ماڈلز کو ایماندار رکھ سکتی ہیں
ہم ایک ابتدائی، ثبوت کے طور پر پیش کیے جانے والے طریقہ کار کو شیئر کر رہے ہیں جو ماڈلز کو یہ رپورٹ کرنے پر تربیت دیتا ہے کہ کب وہ ہدایات کو توڑتے ہیں یا غیر ارادی شارٹ کٹس اختیار کرتے ہیں۔
AI سسٹمز زیادہ قابل بن رہے ہیں، اور ہم انہیں زیادہ سے زیادہ گہرائی سے سمجھنا چاہتے ہیں—جس میں یہ بھی شامل ہے کہ وہ جواب تک کیسے اور کیوں پہنچتے ہیں۔ کبھی کبھار ماڈل کوئی شارٹ کٹ لے لیتا ہے یا کسی غلط مقصد کے لیے بہتر کارکردگی دکھاتا ہے، لیکن اس کا آخری نتیجہ بظاہر درست لگتا ہے۔ اگر ہم اس کیفیت کو نمایاں کر سکیں، تو ہم تعینات شدہ سسٹمز کی بہتر نگرانی کر سکتے ہیں، تربیت بہتر کر سکتے ہیں اور نتائج پر اعتماد بڑھا سکتے ہیں۔
OpenAI اور دیگر اداروں کی تحقیق سے معلوم ہوا ہے کہ AI ماڈلز hallucinate کر سکتے ہیں، reward-hack کر سکتے ہیں یا بے ایمانی برت سکتے ہیں۔ فی الحال ہم سب سے زیادہ تشویش ناک طرزِ عمل—جیسے کہ scheming(نئی ونڈو میں کھلتا ہے)—صرف stress-tests اور adversarial evaluations میں دیکھتے ہیں۔ لیکن جیسے جیسے ماڈلز زیادہ قابل اور نسبتاً خود مختار ہوتے جائیں گے، حتیٰ کہ کم وقوع پذیر بے ہم آہنگیاں بھی زیادہ خطرناک ہو جائیں گی، جو ہمیں ایسے طریقوں میں سرمایہ کاری کی ترغیب دیتی ہیں جو ان خطرات کو بہتر طور پر شناخت، سمجھنے اور کم کرنے میں مدد دیں۔
یہ کام ایک ایسے طریقے کی کھوج کرتا ہے: ماڈلز کو واضح طور پر یہ اقرار کرانے کی تربیت دینا کہ کب انہوں نے ناپسندیدہ برتاؤ کیا—اس تکنیک کو ہم confessions کہتے ہیں۔
اعتراف ماڈل کے اصل جواب سے الگ ایک دوسرا آؤٹ پٹ ہوتا ہے۔ اصل جواب متعدد پہلوؤں پر جانچا جاتا ہے—درستگی، انداز، مددگاری، پابندی، حفاظت وغیرہ—اور یہی متنوع اشاریے ماڈلز کو بہتر جوابات کی تربیت دیتے ہیں۔ اس کے مقابلے میں، اعتراف کو صرف ایک چیز پر جانچا اور تربیت دیا جاتا ہے: دیانت داری۔ اعترافی ڈھانچے سے اخذ کردہ اصول کے مطابق، تربیت کے دوران ماڈل کے اعتراف میں کہی گئی بات اس کے خلاف استعمال نہیں کی جاتی۔ اگر ماڈل ایمانداری سے یہ بتاتا ہے کہ اس نے کوئی ٹیسٹ ہیک کیا، جان بوجھ کر خراب جواب دیا، یا ہدایات کی خلاف ورزی کی—تو اس اقرار سے اس کا reward بڑھتا ہے، کم نہیں ہوتا۔ مقصد یہ ہے کہ ماڈل وہی رپورٹ کرے جو اس نے حقیقت میں کیا۔
اپنی آزمائشوں میں ہمیں معلوم ہوا کہ confessions کی تکنیک ماڈل کے غلط برتاؤ کی نمایاں حد تک بصیرت فراہم کرتی ہے۔ Misbehavior induce کرنے کے لیے تیار کردہ evaluations میں اوسطاً “false negatives” (یعنی ماڈل نے ہدایات نہ مانیں اور پھر اس کا اعتراف بھی نہ کیا) کا امکان صرف 4.4% رہا۔
ہمارے “proof-of-concept” confession ماڈل کی درستگی مختلف adversarial datasets پر۔ نتائج کو اس طرح درجہ بند کیا جاتا ہے کہ complied and didn’t confess (true negative)، complied and confessed (false positive)، didn’t comply and didn’t confess (false negative)، اور didn’t comply and confessed (true positive)۔

کسی user prompt کے تحت چار outcomes اس بنیاد پر پیدا ہوتے ہیں کہ (1) ماڈل کا جواب compliant (“اچھا”) ہے یا non-compliant (“غلط”)، اور (2) کنفیشن compliance کا دعویٰ کر رہی ہے یا non-compliance کا۔ ہم عام طور پر دیکھتے ہیں کہ کنفیشنز بہت زیادہ درست ہوتی ہیں، اور اگر غلطی ہو بھی جائے تو وہ عام طور پر غیر نقصان دہ ہوتی ہے، اور اس کی وجہ جان بوجھ کر mislead کرنا نہیں بلکہ حقیقی کنفیوژن ہوتی ہے۔
اعتراف خود ایک رپورٹ ہوتا ہے جس میں ماڈل یہ بتاتا ہے کہ اس نے دی گئی صریح یا ضمنی ہدایات، پالیسیوں اور مقاصد کی “روح اور متن” کے اعتبار سے کتنی پابندی کی، اور کہاں اس نے “short-cuts” اختیار کیے، “ہیک” کیا، پالیسی کی خلاف ورزی کی یا کسی بھی صورت توقع سے کم تر کارکردگی دکھائی۔ تحقیق میں ہمیں معلوم ہوا کہ ماڈلز کو اپنے نقصانات candid طور پر رپورٹ کرنے کی تربیت دی جا سکتی ہے۔ ہم نے GPT‑5 Thinking کے ایک ورژن کو اعترافات پیدا کرنے پر تربیت دی، اور اسے out-of-distribution stress-test datasets پر جانچا، جن کا مقصد scheming، hacking، ہدایات سے انحراف اور hallucinations جیسے رویوں کو برانگیختہ کرنا تھا۔ ہمیں معلوم ہوا کہ جب ماڈل ان ناگوار رویوں میں ملوث ہوتا بھی ہے، تب بھی اس کے اعتراف کرنے کا امکان بہت زیادہ ہوتا ہے۔ اوپر دیا گیا جدول ظاہر کرتا ہے کہ اعترافی طریقہ مختلف النوع ڈیٹاسیٹس اور کاموں میں عمومی طور پر مؤثر ہے۔
جب صارف اور ماڈل کے درمیان ہونے والی کوئی بھی interaction ماڈل کے جواب پر ختم ہوتی ہے، تو ماڈل کو “system message” بھیج کر اعتراف طلب کیا جا سکتا ہے، جس میں ماڈل کو اعترافی رپورٹ فراہم کرنے کی ہدایت دی جاتی ہے۔ یہ رپورٹ ماڈل کے آخری جواب سے متعلق ہوتی ہے، اور اس میں شامل ہوتا ہے: (1) تمام صریح اور ضمنی ہدایات، حدود اور مقاصد کی فہرست جن کو اس جواب کو پورا کرنا چاہیے تھا، (2) یہ ایماندار اور معروضی تجزیہ کہ آیا جواب نے حقیقت میں ان میں سے ہر ایک مقصد کو پورا کیا یا نہیں، اور (3) کسی بھی قسم کے ابہامات، غیر یقینی صورتِ حال، یا “tough judgement calls” کی فہرست جن کا سامنا ماڈل کو جواب تیار کرتے وقت ہوا۔ تربیت کے دوران یہ اعتراف ایک الگ reward model کے ذریعے جانچا جاتا ہے جو صرف اعتراف کی تکمیل، تجزیاتی درستگی اور ابہامات کے احاطے پر اسے اسکور دیتا ہے۔ یہ انعامات صرف اعتراف پر لاگو ہوتے ہیں اور کبھی بھی اصل جواب کے انعام پر اثر انداز نہیں ہوتے۔ اس سے وہ خاصیت قائم رہتی ہے جس کا اوپر ذکر کیا گیا ہے کہ اعتراف میں کہی گئی بات اصل جواب پر نہ منفی اثر ڈالتی ہے اور نہ مثبت۔
اس نظریے کی بنیاد سادہ ہے۔ اکثر ناپسندیدہ ماڈل رویے اس لیے ظاہر ہوتے ہیں کہ ماڈل کو ایک ہی وقت میں کئی اہداف کے لیے optimize کرنے کا کہا جاتا ہے۔ Reinforcement learning کے دوران ماڈل کو prompt ملتا ہے، جواب دیتا ہے، اور پھر اسے reward ملتا ہے۔ وقت کے ساتھ، یہ اُن اقسام کے جوابات تیار کرنا سیکھ لیتا ہے جنہیں زیادہ اسکور ملتا ہے۔ چیلنج یہ ہے کہ reward signal کو ایک ہی وقت میں متعدد مختلف عوامل پر مشتمل ہونا پڑتا ہے: جواب کس حد تک درست ہے، کیا یہ مفید ہے، کیا یہ product اور policy specifications پر عمل کرتا ہے، کیا یہ safety constraints کو پورا کرتا ہے، اور کیا یہ اُن ترجیحات سے مطابقت رکھتا ہے جنہیں صارفین عام طور پر پسند کرتے ہیں۔ جب یہ signals آپس میں تعامل کرتے ہیں، تو یہ غیر ارادی طور پر ماڈل کو اُن رویّوں کی طرف مائل کر سکتے ہیں جنہیں ہم نہیں چاہتے۔
مثال کے طور پر، ہماری hallucinations پر تحقیق سے ظاہر ہوا کہ بعض datasets میں غیر یقینی صورتحال کا ایماندارانہ اعتراف کرنے کے مقابلے میں پُراعتماد اندازے کو زیادہ reward ملتا ہے۔ ہماری sycophancy پر تحقیق سے معلوم ہوا کہ جب preference signal بہت زیادہ ہو تو ماڈلز حد سے زیادہ موافق ہو سکتے ہیں۔ اور دیگر گروپوں کی work(نئی ونڈو میں کھلتا ہے) سے ثابت ہوا ہے کہ ماڈلز “reward hack” کر سکتے ہیں—یعنی training setup میں loopholes تلاش کر لیتے ہیں جن کے ذریعے وہ بلند اسکور حاصل کر لیتے ہیں بغیر اس کے کہ وہ حقیقتاً وہ کام کریں جو ہمارا مقصد تھا۔ کئی صورتوں میں، یہ shortcuts deployment کے دوران مزید نقصان دہ رویّوں تک generalize(نئی ونڈو میں کھلتا ہے) ہو سکتے ہیں۔
Confessions اس مسئلے کو مکمل طور پر اہداف کو الگ کرکے دور کرتے ہیں۔ اصل جواب تمام عمومی عوامل کے لیے optimize کرتا رہتا ہے۔ Confession کو صرف ایک چیز پر تربیت دی جاتی ہے: دیانتداری۔ Confession میں ماڈل جو کچھ بھی کہتا ہے وہ اُس کے خلاف استعمال نہیں ہوتا، اور confession اصل جواب کے reward پر اثر انداز نہیں ہوتی۔ اس کا مطلب ہے کہ اگر ماڈل اپنے اصل جواب میں دھوکہ دے یا shortcut اختیار کرے، تب بھی اسے confession میں اس کا اعتراف کرنے کی ترغیب ملتی ہے۔ عملی طور پر یہی دیکھا گیا ہے: ماڈلز confession میں غلط رویّوں کا اعتراف کرنے پر آمادہ ہوتے ہیں، حتیٰ کہ اُن صورتوں میں بھی جب وہ انہیں اصل جواب میں چھپا لیتے ہیں۔ اور جب confessions ناکام ہوتی ہیں تو عام طور پر اس کی وجہ یہ ہوتا ہے کہ ماڈل واقعی کنفیوژن میں ہوتا ہے—کیونکہ ہدایات مبہم تھیں یا کیونکہ اسے احساس نہیں ہوا کہ کوئی غلطی سرزد ہو گئی ہے—نہ کہ اس لیے کہ وہ جان بوجھ کر غلط راہ پر لگا رہا ہو۔ اہم بات یہ ہے کہ ابتدائی نتائج یہ ظاہر کرتے ہیں کہ confessions اُس وقت بھی مؤثر رہتی ہیں جب اصل جواب بالکل chain-of-thought کے بغیر تیار کیا جاتا ہے، جس سے یہ اشارہ ملتا ہے کہ confession کی صداقت داخلی reasoning کی قابلِ فہمیت پر منحصر نہیں ہوتی اور یہ مستقبل کی model architectures تک generalize ہو سکتی ہے۔
Confession training اُس وقت بھی کام کرتی ہے جب compliance کی ground-truth labels دستیاب نہ ہوں۔ “ground truth” سے مراد ایک حتمی، بیرونی طور پر فراہم کردہ label ہے جو یہ ظاہر کرے کہ آیا ماڈل نے واقعی کسی ہدایت پر عمل کیا یا اسے توڑا۔ بہت سے حقیقی حالات میں یہ labels دستیاب نہیں ہوتے—اگر ہمیں یقینی طور پر معلوم ہوتا کہ ماڈل نے کسی اصول کی خلاف ورزی کی ہے، تو ہم براہِ راست اس خلاف ورزی پر penalty لگا سکتے تھے بجائے اس کے کہ confession پر انحصار کریں۔ اس کے بجائے ماڈل کو اس بات پر reward دیا جاتا ہے کہ وہ ایک باقاعدہ ساختی، شواہد کی بنیاد رکھنے والی وضاحت پیش کرے کہ اس کے خیال میں اس نے کیا کیا۔ Paper یہ ظاہر کرتا ہے کہ اس setup میں honesty عام طور پر ظاہر ہو جاتی ہے۔ ہمارا خیال ہے کہ اس کی وجہ یہ ہے کہ سچّی اور شواہد پر مبنی وضاحت دینا ماڈل کے لیے بالعموم اُس من گھڑت اور مربوط کہانی بنانے سے آسان ہوتا ہے جو judge کے سامنے قابلِ قبول ہو سکے۔ یہ وہ بنیادی مفروضہ ہے جس کا paper میں جائزہ لیا گیا ہے، اور اس میں وہ صورتیں بھی شامل ہیں جن میں confessions ناکام ہوتی ہیں—یعنی false negatives اور false positives—اور یہ کیسے پیدا ہوتی ہیں۔
Paper ابتدائی شواہد فراہم کرتا ہے کہ confessions مؤثر ہیں، لیکن اسے کسی قطعی ثبوت کے طور پر نہیں لیا جانا چاہیے۔ اگرچہ ہم نے ایک فرنٹیئر ماڈل (GPT‑5 Thinking) استعمال کیا، تاہم ہمارے تجربات پیمانے کے لحاظ سے محدود تھے، جن میں نسبتاً کم computation اور data استعمال ہوا۔ ہم اس کام کو اگلے مرحلے تک لے جانے کے لیے پُرجوش ہیں، اور یہ دیکھنے کے لیے کہ جب ہم اس کی تربیت کو بڑھائیں گے تو کیا confessions کی امانت داری برقرار رہے گی۔
ماڈل اپنے main جواب میں جملوں کے ساتھ مبینہ word counts نوٹ کرکے grader کو دھوکہ دینے کے لیے "reward hack" کرتا ہے، لیکن بعد میں کنفیشن میں اس کا اعتراف کر لیتا ہے۔
اپنے تجربات کے ایک حصے کے طور پر ہم نے ماڈلز کو ایک “hackable” reward signal کے خلاف جان بوجھ کر تربیت دی، جو ایک کمزور ماڈل کے ذریعے compute کیا گیا تھا۔ یہ نظام اصلی reward اور confession reward دونوں پر لاگو کیا گیا۔ ماڈل نے اس کمزور reward signal سے فائدہ اٹھانا سیکھ لیا: اس کی ظاہری درستگی (جب کمزور ماڈل کے ذریعہ جانچی گئی) بہتر ہوئی، جبکہ اس کی اصل درستگی (جب ایک مضبوط evaluator کے ذریعہ جانچی گئی) کم ہو گئی۔
اگرچہ confession چینل کو بھی اسی کمزور signal پر تربیت دی گئی، لیکن اس کی درستگی مخالف سمت میں بڑھی۔ ماڈل نے یہ سیکھ لیا کہ confession reward کو بہتر بنانے کا بہترین طریقہ یہ تھا کہ جب وہ main reward کو hack کرے تو اس کا اعتراف کر لے۔ وقت کے ساتھ confessions زیادہ درست ہوتے گئے، حالانکہ اصل رویہ انحراف کا شکار تھا۔
تربیتی عمل کے دوران جب ماڈل compliance میں ناکام ہوتا ہے، تو کچھ مواقع پر وہ main reward جج کو “ہیک” کرنا سیکھ لیتا ہے، جس کے نتیجے میں جج کی درستگی کم ہوتی جاتی ہے۔ اس کے برعکس، اگرچہ کنفیشن reward جج بھی اسی طرح ہیک کیے جانے کے قابل ہے، لیکن تربیت کے دوران ماڈل اپنی کنفیشن میں زیادہ ایماندار ہوتا جاتا ہے، حتیٰ کہ عدم compliance کی صورت میں تقریباﹰ 100% سطح تک کنفیشن کرتا ہے۔
اس مقالہ(نئی ونڈو میں کھلتا ہے) میں مزید تجربات اور نتائج شامل ہیں۔ ہم نے confession پر تربیت یافتہ ماڈل کا موازنہ ایک control ماڈل کے ساتھ کیا جو اسی طریقے سے تربیت یافتہ تھا لیکن اس میں confession چینل موجود نہیں تھا۔ ہم نے وہ کیس بھی جانچے جن میں confessions ناکام ہو گئے۔ تقریباً تمام "misses" اس وقت پیش آئیں جب ماڈل واقعی کنفیوژن کا شکار تھا—جب ہدایات مبہم تھیں یا جب اسے احساس ہی نہیں ہوا کہ اس سے غلطی ہوئی ہے۔ (اوپر دی گئی false negative مثال ملاحظہ کریں۔)
confessions کی کچھ حدود موجود ہیں۔ یہ بُرے رویے کو روکتی نہیں بلکہ اسے نمایاں کرتی ہیں۔ ان کی اصل افادیت ایک مانیٹرنگ اور diagnostic ٹول کے طور پر ہے—تربیت کے دوران بھی اور deployment میں بھی۔ confessions کی حیثیت chain-of-thought monitoring جیسی ہے؛ دونوں پوشیدہ استدلالی عمل کو زیادہ نمایاں کرتی ہیں۔ confessions توجہ دیتی ہیں کہ آیا ماڈل نے ہدایات کی خلاف ورزی کی؛ جبکہ chain-of-thought یہ واضح کرتی ہے کہ ماڈل اُس مقام تک کیسے پہنچا۔
یہ کام ایک proof-of-concept بھی ہے۔ ہم نے confession میکانزمز کو بڑے پیمانے پر تربیت نہیں دی، اور confessions کی درستگی اب بھی غیر مکمل ہے۔ اس طریقے کو زیادہ قابلِ اعتماد، زیادہ مضبوط، اور مختلف ماڈل فیملیز اور ٹاسکس پر زیادہ وسیع اطلاق کے قابل بنانے کے لیے مزید کام درکار ہے۔
یہ کام ہمارے AI safety کے وسیع تر نقطۂ نظر کے اندر ہی فٹ بیٹھتا ہے۔ کنفیشنز ایک بڑے اسٹیک کا صرف ایک میکانزم ہیں، جس میں deliberative alignment، chain-of-thought monitoring، instruction hierarchy اور دیگر طریقے شامل ہیں۔ کوئی ایک طریقہ کافی نہیں؛ مقصد چیکز اور شفافیت پر مبنی ایسے layered نظام کا قیام ہے جو ایک دوسرے کو مضبوط بنائے۔ کنفیشنز تربیت اور evaluation کے دوران ماڈلز کے problematic رویّوں کی تشخیص میں معاون ہیں، اور deployment کے دوران نگرانی میں بھی مدد دیتی ہیں۔ کنفیشنز بذاتِ خود متعدد dimensions کے توازن کا مسئلہ حل نہیں کرتیں۔ لیکن “truth serum” موڈ بنا کر، جس میں ماڈلز صرف امانت داری پر توجّہ دیتے ہیں، یہ مکمل نظام میں ایمانداری اور safety کو بہتر بنانے کا ایک قیمتی ٹول فراہم کرتی ہیں۔
جیسے جیسے ماڈلز زیادہ صلاحیتوں کے حامل ہوتے جا رہے ہیں اور حساس ماحول میں تعینات کیے جا رہے ہیں، ہمیں بہتر ٹولز درکار ہیں تاکہ ہم سمجھ سکیں کہ وہ کیا کر رہے ہیں اور کیوں۔ کنفیشنز مکمل حل نہیں، لیکن یہ شفافیت اور oversight کے اسٹیک میں ایک اہم layer کا اضافہ کرتی ہیں۔ آئندہ تحقیق میں ہمارا منصوبہ کنفیشنز کے پیمانے کو بڑھانے کا ہے، اور انہیں شفافیت اور safety کی تکمیلی تکنیکوں—مثلاً chain-of-thought monitoring اور deliberative alignment—کے ساتھ جوڑنے کا ہے، تاکہ یہ یقینی بنایا جا سکے کہ ہمارے ماڈلز تمام ہدایات اور پالیسیوں (جیسے Model Spec(نئی ونڈو میں کھلتا ہے)) کی مکمل پیروی کریں، اور اپنی کارروائیوں کی سچی رپورٹنگ کریں۔


