۲۹ مئی، ۲۰۲۶

قابلِ اعتماد تیسرے فریق کی evaluations کے لیے ایک مشترک رہنما

فرنٹیئر ماڈلز کے لیے safeguards اور صلاحیتوں کی مؤثر آزاد evaluations میں کیا اہم ہے.

لوڈ ہو رہا ہے…

آزاد، قابلِ اعتماد تیسرے فریق کی evaluations حفاظتی نظام کے ماحولیے کو مضبوط بنانے میں اہم کردار⁠ ادا کرتی ہیں. یہ evaluations فرنٹیئر ماڈلز پر کی جاتی ہیں تاکہ اہم صلاحیتوں اور حفاظتی تخفیفات سے متعلق دعووں کے لیے اضافی شواہد فراہم کیے جا سکیں. اس پوسٹ میں، ہم اب تک سیکھے گئے اسباق شیئر کرتے ہیں، اور ایسی evaluations ڈیزائن کرنے کے طریقے تجویز کرتے ہیں جو فرنٹیئر ماڈلز کی معتبر جانچ کر سکیں، اور ہمیں امید ہے کہ یہ اس شعبے میں ابھرتے ہوئے معیارات کی تشکیل میں مدد دیں گے.

پہلے، بہت سی evaluations ماڈلز کو chatbots کی طرح سمجھتی تھیں: evaluation ماڈل کو ایسے پرومپٹ دیتی تھی جیسے کوئی صارف سوال پوچھ رہا ہو، ماڈل جواب دیتا تھا، اور evaluator آؤٹ پٹ کا فیصلہ کرتا تھا. آج کے فرنٹیئر ماڈلز اس سے کہیں زیادہ کر سکتے ہیں: وہ tools استعمال کر سکتے ہیں، کئی مراحل میں معلومات کا حساب رکھ سکتے ہیں، اور ایک بڑے workflow کے اندر عمل کر سکتے ہیں. اس کا مطلب ہے کہ کارکردگی صرف ماڈل پر نہیں بلکہ اس environment پر بھی منحصر ہے جس میں کام انجام پاتا ہے، اور اس setup پر بھی جو اس کے اعمال کو ممکن بناتا ہے. یہ گرد و پیش کا setup، جسے ہم “harness” کہتے ہیں، نظام کی کارکردگی کے اہم پہلو بدل سکتا ہے، جن میں tools کا استعمال، معلومات کا حساب رکھنا، یا غلطیوں سے سنبھلنا شامل ہے.

ایسا خاکہ جو prompt-response workflow کا agentic task workflow سے موازنہ کرتا ہے، اور دکھاتا ہے کہ control loops، tools، context، budget، اور safeguards خودکار task execution کو کیسے ممکن بناتے ہیں.

اس سے یہ بدل جاتا ہے کہ evaluations کیسے کی جانی چاہییں، اور evaluation reports میں قارئین کو کن چیزوں پر نظر رکھنی چاہیے. ہماری نظر میں، سب سے مفید reports خود نتیجے کے علاوہ دو چیزیں واضح طور پر بیان کرتی ہیں: اول، وہ بتاتی ہیں کہ evaluation setup کس دعوے کو جانچنے کے لیے بنایا گیا تھا، اور دوم، وہ دستیاب شواہد شیئر کرتی ہیں کہ evaluation کا نتیجہ معتبر ہے.

evaluations میں آزمائے جانے والے دعوے عموماً تین زمروں میں آتے ہیں¹:

Capability elicitation: کیا کوئی ماڈل معقول طور پر زیرِ جانچ صلاحیت پیدا کر سکتا ہے؟
Safeguard performance: زیرِ جانچ رویے یا حملے کے مقابلے میں آزمودہ safeguards کتنے مضبوط ہیں؟
Comparison: یکساں حالات میں مختلف ماڈلز کی کارکردگی کیسی ہے؟

evaluation reports کو یہ بھی بتانا چاہیے کہ evaluators نے ان اثرات کی جانچ کیسے کی جو کسی نتیجے کی درستی کو متاثر کر سکتے ہیں. ان میں شامل ہیں:

Reward hacking: کام یا scorer میں موجود شارٹ کٹس سے فائدہ اٹھانا، تاکہ نظام اس رویے کا مظاہرہ کیے بغیر کریڈٹ لے لے جسے evaluation ناپنے کے لیے بنائی گئی ہے.
Refusals: ایسے انکار کرنا جو زیرِ جانچ رویے کو دھندلا دیں.
Contamination: اس لیے حد سے زیادہ بہتر کارکردگی دکھانا کہ evaluation کے کام، جوابات، یا ان کے قریبی متبادل تربیتی ڈیٹا میں موجود تھے یا evaluation کے دوران، مثلاً browsing کے ذریعے، دریافت کیے جا سکتے تھے.
Broken problems: اس لیے کم کارکردگی دکھانا کہ کام ہی غیر معتبر ہوں. وجوہ میں غیر منصفانہ scoring شامل ہو سکتی ہے (مثلاً درست جواب کے لیے غیر مذکور implementation details درکار ہوں) اور ناقابلِ حل environments (مثلاً اہم files غائب ہوں یا tools ناقابلِ اعتماد ہوں).
Sandbagging: جب وہ جانچ سے آگاہی دکھائیں تو جان بوجھ کر کم کارکردگی دکھانا.

کسی evaluation کے لیے درست harness کا انتخاب بہترین نتائج کے لیے نہایت اہم ہے.

ہم نے دیکھا ہے کہ harness کا کردار خاص طور پر ان نظاموں کے لیے اہم ہے جو طویل trajectories پر عمل کرتے ہیں. جب ماڈلز tools استعمال کر سکتے ہوں، state برقرار رکھ سکتے ہوں، اور کئی مراحل میں غلطیوں سے سنبھل سکتے ہوں، تو harness مشاہدہ شدہ کارکردگی کی سطح بدل سکتا ہے، بلکہ یہ بھی طے کر سکتا ہے کہ زیرِ جانچ صلاحیت evaluation میں سرے سے ظاہر ہوتی ہے یا نہیں. مثلاً، ایسا harness جو state محفوظ رکھے اور ناکام اعمال کو دوبارہ آزمائے، ماڈل کو ایسا کثیر مرحلہ کام مکمل کرنے دے سکتا ہے جسے یہی ماڈل ایک سادہ harness میں کبھی مکمل نہ کرے.

نیچے دی گئی جدول میں، ہم ان تین قسم کے دعووں کو الگ کرتے ہیں جو evaluators کرنا چاہ سکتے ہیں، اور وہ harness بھی جس کی ہر قسم کے دعوے کو، ہمارے خیال میں، ضرورت ہوتی ہے.

وہ دعویٰ جس کی تائید کے لیے evaluation کی کوشش ہے	مناسب harness کا انتخاب	رپورٹ کرنے کے لیے شواہد
مضبوط elicitation کے تحت صلاحیت: نظام A قسم X کے کام مکمل کر سکتا ہے جب setup اس کی سب سے مضبوط قابلِ اعتبار کارکردگی ظاہر کروانے کے لیے بنایا گیا ہو.	نظام کے لیے سب سے مضبوط قابلِ اعتبار elicitation setup استعمال کریں، جس میں وہ harness، اوزار، scaffolding، اور بجٹ شامل ہوں جو ایک ماہر صارف معقول طور پر استعمال کرے گا.	harness اور tool setup، elicitation رہنمائی، اجازت یافتہ بجٹ/کوشش، tokens/لاگت/وقت، اور یہ کہ setup دعویٰ کردہ صلاحیت کے لیے قابلِ اعتبار proxy کیوں ہے. اگر مختلف بہتر بنائے گئے setups کے تحت نظاموں کا موازنہ کیا جا رہا ہو، تو اسے system-to-system یا strong-elicitation comparison کے طور پر لیبل کریں.
کنٹرول شدہ موازنہ: مشترک evaluation setup کے تحت نظام A، نظام B سے بہتر کارکردگی دکھاتا ہے.	کام، scoring، اور بجٹ کو مقرر رکھیں. یا تو مشترک harness/tool setup استعمال کریں یا standardized harnesses کا ایک مقررہ مجموعہ جو پہلے سے منتخب کیا گیا ہو تاکہ موازنہ کیے جانے والے نظاموں کے لیے معقول maximum elicitation فراہم ہو.	مشترک task set، tools، scoring method، harness، بجٹ، token efficiency/لاگت، اور معلوم حدود. coding-agent evaluations کے لیے، Codex CLI جیسا open-source harness مختلف نظاموں میں ایک مقررہ agent loop اور tool interface فراہم کر سکتا ہے. maximum elicitation کے لیے مثالی طریقہ یہ ہوگا کہ ہر کام اور ہر نظام کے لیے ایک مخصوص harness بہتر بنایا جائے، لیکن عملی طور پر یہ فی الحال غیر عملی ہے.
ظاہر کروائے گئے حملے کے تحت safeguard کی مضبوطی: نظام A کے safeguards متعلقہ ماڈل رویے یا ظاہر کروائے گئے حملے کے لیے کافی ہیں.	ایسا safeguard-testing setup استعمال کریں جو متعلقہ adversary model کے تحت سب سے مضبوط قابلِ اعتبار حملہ ظاہر کروانے کے لیے بنایا گیا ہو.	evaluators نے متعلقہ ماڈل رویے کو کیسے بیان کیا، آزمودہ safeguard configuration، elicitation strategy، اسے انجام دینے کے لیے استعمال شدہ harness، اور اجازت یافتہ بجٹ یا کوشش.

صلاحیت سے متعلق دعوے اتنے ہی مضبوط ہوتے ہیں جتنی ان کے پیچھے elicitation مضبوط ہو: evaluators کو ایسا harness چننا چاہیے جو کام اور اس صلاحیت دونوں سے بہترین مطابقت رکھتا ہو جسے evaluation ناپنے کی کوشش کر رہی ہے. یکساں حالات میں نظاموں کا موازنہ کرنے کے لیے standardized harness درست ہو سکتا ہے، لیکن اگر وہ مخصوص harness خصوصیات چھوڑ دے جو ماڈل کو کام انجام دینے میں مدد دیتی ہیں تو یہ صلاحیت کو کم ظاہر کر سکتا ہے. مثال کے طور پر، OpenAI کی cyber ranges پر GPT‑5.5 کی کارکردگی دکھاتی ہے کہ harness کا انتخاب ان کاموں میں ناپی گئی صلاحیت کو نمایاں طور پر بدل سکتا ہے جن میں طویل، کثیر مرحلہ tool use درکار ہو: جب harness تعامل کے طویل ہونے پر کام سے متعلق سیاق محفوظ رکھنے کے لیے compaction⁠ استعمال کرتا ہے تو ماڈل بہتر کارکردگی دکھاتا ہے. یہ ظاہر کرتا ہے کہ بعض ماڈلز کے لیے ایسا harness جو compaction کو چھوڑ دے، کارکردگی کو کم ظاہر کرے گا.

زیادہ کامیابی کی شرح بہتر ہے

دیگر شائع شدہ evaluations² بھی دکھاتی ہیں کہ harness اور بجٹ کے انتخاب evaluation کے نتائج بدل دیتے ہیں. ٹیسٹ کے وقت compute میں اضافہ اس صلاحیت کو نمایاں طور پر بدل سکتا ہے جسے evaluation ظاہر کرتی ہے، خاص طور پر ان شعبوں میں جہاں کامیابی کی تصدیق آسان ہو، جیسے بہت سے cyber tasks. UK AISI کی cyber range evaluation⁠(نئی ونڈو میں کھلتا ہے) میں، بجٹ کو 10M سے 100M tokens تک بڑھانے سے کارکردگی میں 59% تک بہتری آئی، اور آزمودہ سب سے زیادہ بجٹ پر بھی کارکردگی بڑھ رہی تھی. اس کی تفصیل evaluation کو زیادہ قابلِ فہم بناتی ہے: یہ قارئین کو دکھاتی ہے کہ نتیجہ آزمودہ elicitation setup پر کیسے منحصر ہے. جب اضافی بجٹ کے ساتھ کارکردگی اب بھی بہتر ہو رہی ہو، تو اسکور کو اسی harness اور بجٹ کے تحت کارکردگی کے طور پر بیان کیا جانا چاہیے، نہ کہ ناپی گئی صلاحیت کی آخری حد کے طور پر. صلاحیت اکثر وسائل پر منحصر ہوتی ہے، نہ کہ ایسی مقررہ مقدار جو ایک بار میں صاف طور پر ہمیشہ کے لیے ناپی جا سکے. جہاں بار بار کوششوں میں کامیابی ناپی جا سکتی ہو، reports کو صرف مقررہ token بجٹ پر کامیابی کی شرح نہیں بلکہ ہر کامیاب حل کی متوقع لاگت پر بھی غور کرنا چاہیے. اس سے شدت کو سمجھنا آسان ہو سکتا ہے: کم کامیابی کی شرح بھی عملی طور پر اہم ہو سکتی ہے اگر بار بار کوششوں کی لاگت متعلقہ threat model کے اندر ہو. صلاحیت سے متعلق دعووں کے لیے، قابلِ اجتناب کم elicitation ایک پیمائشی ناکامی ہے: اگر harness یا بجٹ نظام کو وہ رویہ دکھانے سے روکے جو وہ ورنہ پیدا کر سکتا تھا، تو اسکور دعویٰ کردہ صلاحیت کو نہیں ناپتا. جہاں evaluators نے elicitation کو ممکن حد تک آگے بڑھایا ہو اور کارکردگی پھر بھی بہتر ہو رہی ہو، reports کو یہ بات واضح طور پر کہنی چاہیے اور یہ بھی واضح کرنا چاہیے کہ نتیجہ صرف lower-bound اندازہ ہے.

Safeguard testing اس بات کو کم ظاہر کر سکتی ہے کہ کوئی حملہ کامیاب ہو سکتا ہے یا کتنا شدید ہو سکتا ہے، اگر حملہ آوروں کو دستیاب وسائل، بشمول custom harnesses، کو مدنظر نہ رکھا جائے. UK AISI کی GPT‑5.5 cyber evaluation میں، ان کی expert red teaming نے ایک universal jailbreak دریافت کیا جس نے OpenAI کی فراہم کردہ malicious queries میں، بشمول multi-turn agentic settings، خلافِ ضابطہ cyber مواد ظاہر کروایا. انہوں نے ماڈل کی حملہ آور کارکردگی مضبوط کرنے کے لیے Codex استعمال کر کے ایک custom harness بنایا: اس نے تعامل میں safeguard-bypass کا ایک دوبارہ استعمال ہونے والا pattern شامل کیا، اس pattern کو turns اور blocks میں محفوظ رکھا، اور اسے OpenAI کی فراہم کردہ malicious cyber queries پر لاگو کیا. Safeguard testing کو adversary سے مطابقت رکھنی چاہیے. اگر دعویٰ expert misuse کے مقابلے میں مضبوطی سے متعلق ہو، تو ٹیسٹ کو متعین بجٹ کے تحت سب سے مضبوط قابلِ اعتبار end-to-end attack strategy کی جانچ کرنی چاہیے، بشمول وہ harness جو اس strategy کو محفوظ رکھنے اور دوبارہ استعمال کرنے کے لیے درکار ہو. ورنہ، نتائج miscalibration کا خطرہ رکھتے ہیں: وہ صرف سادہ prompting کے مقابلے میں مزاحمت کے ایک تنگ دعوے کی تائید کر سکتے ہیں، یہ بھی چھوٹ سکتا ہے کہ elicitation طریقہ عملی بننے کے بعد حملہ کتنا شدید اور کتنا کامیاب ہو سکتا ہے، اور اگر بہت زیادہ بجٹ دے دیا جائے تو مسئلے کے امکان یا شدت کو بڑھا چڑھا کر بھی دکھا سکتے ہیں.⁠(نئی ونڈو میں کھلتا ہے)

standardized harness comparisons کے لیے بھی وقت اور جگہ ہے، لیکن evaluators کو واضح ہونا چاہیے کہ harnesses کے یکساں مجموعے کا استعمال کیوں مناسب ہے اور یہ کس دعوے کی تائید کر سکتا ہے. METR کی time-horizon evaluation⁠(نئی ونڈو میں کھلتا ہے) ایک وسیع تر، مناسب طور پر مقرر evaluation setup کی مثال ہے: اسے ان نظاموں میں قابلِ موازنہ نتائج پیدا کرنے کے لیے ڈیزائن کیا گیا ہے جن کی یہ جانچ کرتی ہے. METR ایک مشترک outcome متعین کرتا ہے، یعنی انسانی کام کی وہ معمول کی مدت جس پر پیش گوئی کی جاتی ہے کہ ایک AI ایجنٹ دی گئی reliability سطح پر کامیاب ہوگا. یہ ایک مشترک task suite، scoring method، fitting method، اور reusable scaffolds کے ایک چھوٹے مجموعے جیسے Triframe and ReAct⁠(نئی ونڈو میں کھلتا ہے) کو ان اندازوں کے ہر batch میں لاگو کرتا ہے جو ساتھ رپورٹ کیے جاتے ہیں. جب METR نے task suite کو وسعت دی اور evaluation infrastructure کو Vivaria نامی framework سے Inspect نامی framework میں منتقل کیا، تو اس نے اس تبدیلی کی رپورٹ دی (Time Horizon 1.1 update⁠(نئی ونڈو میں کھلتا ہے)) اور نئے evaluation setup کے تحت ماڈلز کی دوبارہ جانچ کی. standardized evaluation setup، بشمول یکساں harness set، کی یہی قدر ہے: یہ قارئین کو اعتماد دے سکتا ہے کہ اسکورز میں فرق واقعی موازنہ کیے جانے والے نظاموں کے فرق کو ظاہر کرتا ہے، نہ کہ پیمائش کے setup میں تبدیلی کو.

ہم تجویز کرتے ہیں کہ تیسرے فریق کی evaluation reports یہ بتائیں کہ ان کا evaluation setup کس قسم کے دعوے کی تائید کے لیے بنایا گیا ہے؛ یہ بیان کریں کہ جو چیز آزمائی گئی وہ اس وسیع تر دعوے کی کتنی نمائندگی کرتی ہے؛ ان harness choices کو بیان کریں جنہوں نے نتیجے کو شکل دی؛ یہ تفصیل دیں کہ evaluations کے درمیان وہ choices کب بدلتی ہیں؛ اور ایسے معاون شواہد شامل کریں جو دکھائیں کہ نتیجہ کیسے پیدا ہوا اور وہ دعوے پر کتنی اچھی طرح عمومی اطلاق رکھتا ہے.

معلوم خطرات کی جانچ کر کے درستی کا اندازہ لگائیں جو نتائج کو بگاڑ سکتے ہیں.

جوں جوں ماڈلز زیادہ باصلاحیت ہوتے جاتے ہیں، evaluation scores کو غلط سمجھنا آسان ہوتا جاتا ہے. حقیقی صلاحیتوں کے مقابلے میں، اگر ماڈل یہ پہچان لے کہ اس کی جانچ ہو رہی ہے اور حکمتِ عملی کے تحت کم کارکردگی دکھائے، تو evaluation scores مصنوعی طور پر کم ہو سکتے ہیں. اگر ماڈل کام، prompt، scorer، یا harness میں موجود کسی شارٹ کٹ سے فائدہ اٹھائے تو یہ بڑھ بھی سکتے ہیں. یہ contamination سے بھی بگڑ سکتے ہیں (جہاں ماڈل پہلے سے جواب جانتا ہو یا کام حل کیے بغیر اسے ڈھونڈ سکتا ہو) یا “broken” مسائل سے جو مبہم، غلط اسکور شدہ، ناقابلِ حل، یا غیر ارادی شارٹ کٹس کے لیے حساس ہوں. اس لیے evaluation reports کو سرخی والے scores کے ساتھ ان خطرات پر گفتگو بھی شامل کرنی چاہیے، تاکہ قارئین اندازہ لگا سکیں کہ آیا scores مطلوبہ رویے کی عکاسی کرتے ہیں.

Harnesses، budgets، tools، scoring rules، monitors، اور review procedures سب اس بات کو متاثر کرتے ہیں کہ آیا کوئی ایجنٹ مطلوبہ کام حل کر رہا ہے، اس سے بچ رہا ہے، اسے یاد سے دہرا رہا ہے، یا اس کے گرد کوئی راستہ نکال رہا ہے. ایک قابلِ اعتماد report ان جانچوں کو نمایاں بناتی ہے: evaluators کو ہر بار assessment چلنے پر ان رویوں کے لیے نمونوں کا جائزہ لینا چاہیے.

Reward hacking

Reward hacking کا مطلب یہ ہے کہ evaluation میں بلند scores ایسے طریقوں سے حاصل کیے جائیں جو مطلوبہ صلاحیت کی عکاسی نہ کرتے ہوں. یہاں تشویش یہ ہے کہ نظام کام، scorer، prompt، یا harness سے فائدہ اٹھا کر کریڈٹ لے لے، بجائے اس کام کے جو evaluation ناپنے کے لیے بنائی گئی تھی. GPT 5.4 کی METR evaluation⁠(نئی ونڈو میں کھلتا ہے) دکھاتی ہے کہ یہ کیوں اہم ہے: اگرچہ پہلے جائزے میں ماڈل ایسے کاموں پر اس شرح سے کامیاب ہوا جو تقریباً 13 گھنٹے کے time horizon کے طور پر درج ہوتی، انسانی جائزے نے دکھایا کہ ان میں سے کچھ کامیابیاں reward hacking سے آئی تھیں، اور صرف reward hacking سے پاک مثالوں کو شمار کرنے کے لیے نتائج میں ترمیم کرنے سے اندازہ تقریباً 6 گھنٹے رہ گیا. evaluators کو ایسی ترامیم کی ضرورت کا اندازہ لگانا چاہیے اور جب ان کی ضرورت ہو تو انہیں واضح طور پر رپورٹ کرنا چاہیے: صلاحیت کا اندازہ اس وقت کہیں زیادہ مفید ہوتا ہے جب قارئین دیکھ سکیں کہ کون سی ظاہری کامیابیاں خارج کی گئیں، کیوں خارج کی گئیں، اور نتیجہ اس فیصلے پر کتنا منحصر ہے.

ایسا چارٹ جو وقت کے ساتھ AI ماڈل کی کارکردگی کو trend line اور confidence intervals کے ساتھ دکھاتا ہے.

Refusals

Safeguards کی وجہ سے ماڈلز capability evaluations میں کم کارکردگی بھی دکھا سکتے ہیں. کوئی ماڈل evaluation tasks مکمل کرنے کے بجائے انکار کرنے کی وجہ سے اپنی اصل صلاحیت سے کم evaluation performance دکھا سکتا ہے. اس لیے reports کو یہ بتانا چاہیے کہ آیا refusals evaluation results کا حصہ تھیں، اور اگر ہاں، تو ان کی وجہ سے کتنے samples متاثر ہوئے.

Contamination

Contamination سب سے زیادہ عوامی یا دوبارہ استعمال ہونے والے benchmarks⁠ کے لیے اہم ہے. اگر tasks، answers، یا ان کے قریبی متبادل تربیتی ڈیٹا میں موجود ہوں یا browsing والا ایجنٹ انہیں تلاش کر سکے، تو کارکردگی ماڈل کی کارکردگی کے بجائے یادداشت یا retrieval کی عکاسی کر سکتی ہے. جہاں ممکن ہو evaluators کو نجی یا نئے بنائے گئے tasks کو ترجیح دینی چاہیے اور یہ جانچنا چاہیے کہ ماڈلز حل کرنے سے پہلے task-specific details دہرا تو نہیں رہے.

Broken problems

Broken problems میں ایسی صورتیں شامل ہیں جیسے کوئی مسئلہ جو غلطی سے حل ہی نہ ہو سکے. Broken problems اتنے عام⁠(نئی ونڈو میں کھلتا ہے) ہیں کہ انہیں درستی کے ایک معیاری خطرے کے طور پر لیا جانا چاہیے. ان میں غلط ground truth، مبہم prompts، غائب files، غیر مستحکم services، غیر منصفانہ scoring معیار، اور ایسے environments شامل ہیں جو hidden answer files یا ground-truth patch پر مشتمل repository history جیسے شارٹ کٹس ظاہر کرتے ہیں.

Sandbagging

کسی ماڈل یا نظام کی طرف سے Sandbagging کا مطلب ہے حکمتِ عملی کے تحت کم کارکردگی دکھانا جب مضبوط کارکردگی کسی مقصد سے ٹکراتی ہو. Apollo کی GPT‑5.5 evaluation⁠(نئی ونڈو میں کھلتا ہے) نے اس کی جانچ ایک ایسا سیاق بنا کر کی جس میں ماڈل سمجھتا تھا کہ بلند evaluation scores unlearning کو متحرک کر سکتی ہیں یا deployment روک سکتی ہیں. GPT‑5.5 نے پھر بھی درست جواب دیا، جس سے حکمتِ عملی کے تحت کم کارکردگی کے رویے کے کم شواہد ملے³. لیکن reasoning traces کے ان کے جائزے نے اہم سیاق شامل کیا: Apollo نے sandbagging-condition samples کے 52% میں alignment-evaluation awareness کی درمیانی یا اس سے زیادہ علامات پائیں، جبکہ counterfactuals میں یہ 0% تھیں. یہ شواہد نتیجے کی تشریح کو پیچیدہ بناتے ہیں، لیکن آخرکار قارئین کو زیادہ اشارہ دیتے ہیں: قارئین تسلی بخش رویہ جاتی نتیجہ بھی دیکھ سکتے ہیں اور اسے حد سے زیادہ معنی دینے میں احتیاط کی وجہ بھی.

ہم زیادہ مضبوط evaluations کی حمایت کیسے کر رہے ہیں.

مضبوط دعووں کے لیے درست harness بھی درکار ہے تاکہ رویہ ظاہر ہو، اور validity checks بھی تاکہ دکھایا جا سکے کہ نتیجہ درست ہے. یہ ہمارا مؤقف کہ harnesses اور validity checks evaluation result کا حصہ ہیں، اس بات کو شکل دیتا ہے کہ ہم عملی طور پر تیسرے فریق کی evaluations کی حمایت کیسے کرتے ہیں:

ہم evaluators کے ساتھ مخصوص maximum-elicitation رہنمائی شیئر کر رہے ہیں.
ہم capability evaluators سے کہہ رہے ہیں کہ OpenAI ماڈلز کے لیے Codex کو ایک مشترک کم از کم معیار کے طور پر استعمال کریں: tests کو کم از کم اسی agentic interface کے ذریعے ایک baseline چلانا چاہیے جس پر صارفین کے انحصار کا امکان ہے، نہ کہ صرف ایک محدود ماڈل interface کے ذریعے.
ہم reasoning traces اور دیگر درمیانی artifacts بھی وہاں دستیاب کر رہے ہیں جہاں deception، sandbagging، یا evaluation awareness کا اندازہ لگانے کے لیے ان کی ضرورت ہو. METR اور Apollo نے GPT‑5 کے بعد سے OpenAI evaluations میں اس رسائی کا استعمال کیا ہے.
آخر میں، ہم اس تحقیق کو ترجیح دے رہے ہیں کہ زیادہ گہرائی سے سمجھا جا سکے کہ harness choices کب اور کیسے نتائج کو نمایاں طور پر بدلتی ہیں، سیاق کے انتظام اور tool access سے لے کر retry behavior، scoring، اور resource budgets تک.

evaluation standards اور مستقبل کی تحقیق کی سمتوں کے لیے اس کے کیا معنی ہیں.

ان سفارشات کا مقصد صرف انفرادی evaluation reports کو بہتر بنانا نہیں، بلکہ فرنٹیئر AI evaluation اور reporting کے لیے ابھرتے ہوئے قومی ⁠(نئی ونڈو میں کھلتا ہے)اور بین الاقوامی ⁠(نئی ونڈو میں کھلتا ہے)معیارات کو بھی معلومات فراہم کرنا ہے. آگے چل کر، تیسرے فریق کے evaluation standards کو اتنی تفصیل درکار ہونی چاہیے کہ فیصلہ ساز سمجھ سکیں کہ مخصوص evaluations کن دعووں کی تائید کرتی ہیں، کون سا نظام آزمایا گیا، نتیجہ کیسے ظاہر کروایا گیا، اور evaluators نے اس کی درستی کیسے جانچی. ایسے فرنٹیئر نظاموں کے لیے جنہیں ان کاموں پر آزمایا جا رہا ہو جہاں agentic صلاحیتیں اہم ہوں، تفصیلات میں یہ شامل ہونا چاہیے (کسی بھی سکیورٹی یا رازداری کے خدشات کے تابع):

دعویٰ: آیا evaluation نظاموں کا موازنہ کرتی ہے، صلاحیت کی بالائی حد کا اندازہ لگاتی ہے، یا safeguards کی جانچ کرتی ہے.
Evaluation content: کاموں یا task distribution کے بارے میں اتنی تفصیل کہ قارئین سمجھ سکیں evaluation دراصل کن مہارتوں، رویوں، یا failure modes کی جانچ کر رہی ہے.
آزمودہ نظام: ماڈل، reasoning setting، tool access، harness، اور safeguards.
بجٹ: turns، tokens، attempts/retries، wall-clock time، inference cost، اور جہاں لاگو ہو ہر کامیاب حل کی متوقع لاگت.
Elicitation methods: نتیجہ ظاہر کروانے کے لیے استعمال ہونے والے harness choices، اور یہ کہ جو چیز آزمائی گئی وہ کیے جانے والے وسیع تر دعوے کی کتنی نمائندگی کرتی ہے.
Validity checks: assessors نے reward hacking، evaluation awareness، contamination، refusals، sandbagging اور دیگر ایسے رویوں کو کیسے تلاش کیا جو نتیجے کو کمزور کر سکتے تھے، بشمول یہ کہ تصدیق شدہ مثالوں نے scoring یا تشریح کو کیسے متاثر کیا.

وہ standards جو harness choices یا validity checks کو چھوڑ دیتے ہیں، کسی نظام کی صلاحیت کو کم ظاہر کر سکتے ہیں یا کسی حفاظتی دعوے پر اعتماد کو بڑھا چڑھا کر پیش کر سکتے ہیں. مضبوط harnesses اور elicitation methods بنانا اب بھی تحقیق کا ایک کھلا میدان ہے اور مزید تحقیق اور سرمایہ کاری کا مرکز ہونا چاہیے.

2026

مصنف

OpenAI

فرہنگ

چونکہ ہم اس پوسٹ میں کئی فنی اصطلاحات استعمال کرتے ہیں، اس لیے ہم نے نیچے ایک فرہنگ شامل کی ہے جو سادہ زبان میں بتاتی ہے کہ ہم کس چیز کی طرف اشارہ کر رہے ہیں:

Agentic system: ایسا نظام جو صرف ایک پرومپٹ کے جواب میں ایک ہی ردعمل دینے کے بجائے، اوزار استعمال کرتے ہوئے، کام کی حالت برقرار رکھتے ہوئے، اور ماحول میں عمل کرتے ہوئے، کئی مراحل میں کسی کام کو انجام دے سکتا ہو.
Assessment: اس بارے میں ایک وسیع تر فیصلہ کہ آیا شواہد کسی دعوے، خطرے کے نتیجے، یا یقین دہانی کی پوزیشن کی تائید کرتے ہیں، جو جانچ کے ڈیٹا، دستاویزات کے جائزے، انٹرویو، عمل کے جائزے، اور دیگر متعلقہ مواد پر مبنی ہو سکتا ہے.
Compaction: طویل رنز کے دوران کام سے متعلق سیاق محفوظ رکھنے کا طریقہ.
Configuration: ماڈل کے نام سے آگے بڑھ کر، عین آزمودہ نظام اور جانچ کی شرائط.
Contamination: جب جانچ کے کام، جوابات، یا ان کے قریبی متبادل کسی ماڈل کے تربیتی ڈیٹا میں موجود ہوں یا جانچ کے دوران دریافت کیے جا سکیں (مثلاً browsing جیسے اوزار کے ذریعے)، جس سے کارکردگی ماڈل کی حقیقی عمومی صلاحیت سے زیادہ دکھائی دے.
Elicitation: اسیسمنٹ کے دوران کسی نظام سے کسی صلاحیت یا رویے کو ظاہر کروانے کی کوشش کا عمل.
Environment: وہ کام کا ماحول جس میں کسی نظام کی جانچ کی جاتی ہے. اس میں وہ چیزیں شامل ہیں جیسے بیرونی حالت جس کے ساتھ ایجنٹ جانچ کے دوران تعامل کرتا ہے اور اسے بدلتا ہے، مثلاً terminal environment یا ویڈیو گیم.
Evaluation: کسی اسیسمنٹ کے اندر مخصوص ٹیسٹ یا پیمائش.
Evaluation awareness: evaluation awareness سے مراد یہ ہے کہ ماڈل یہ پہچان لے، یا ایسا معلوم ہو کہ وہ پہچان رہا ہے، کہ اس کی جانچ ہو رہی ہے اور ممکنہ طور پر اس سیاق کے جواب میں اپنا رویہ بدل دے. یہ اس صورت میں نظر آ سکتا ہے کہ ماڈل واضح طور پر اس بارے میں ریزننگ کرے کہ اس کا ٹیسٹ لیا جا رہا ہے، جانچ کے مقصد کا اندازہ لگائے، یا اپنا رویہ اس لیے بدلے کہ اسے توقع ہو کہ نتیجہ اس کے بارے میں فیصلے یا تعیناتی کو متاثر کرے گا.
Harness: ماڈل کے سامنے موجود وہ ساخت جو ماڈل کو کوئی کام انجام دینے دیتی ہے: پرومپٹس، اوزار، انٹرفیسز، کنٹرول لاجک، میموری، retries، validators، اور ماڈل کے گرد موجود دیگر معاون ڈھانچے.
Maximum elicitation: ایسی جانچ جس کا مقصد یہ معلوم کرنا ہو کہ متعین بجٹ کے اندر کوئی نظام کتنی مضبوط اور قابلِ اعتبار کارکردگی یا ناکامی کا انداز پیدا کر سکتا ہے، بجائے اس کے کہ نظام کو صرف ایک بار معیاری harness کے ذریعے چلایا جائے.
Reasoning traces: ٹیسٹ کے دوران ماڈل کی درمیانی ریزننگ کے ریکارڈ.
Reward hacking: evaluator کی نیت سے ہٹ کر کسی شارٹ کٹ یا رویے کے ذریعے بلند اسکور حاصل کرنا.
Safeguards: فلٹرز، مانیٹرز، بلاکنگ سسٹمز، اور دیگر تحفظات جو کسی ماڈل یا پروڈکٹ کے گرد لاگو کیے جاتے ہیں.
Sandbagging: جانچ میں حکمتِ عملی کے تحت کم کارکردگی دکھانا، اس طرح کہ نتیجہ کمزور ہو جائے.
Scoring: وہ طریقہ جس سے طے کیا جاتا ہے کہ کارکردگی کیسے ناپی جائے یا آیا کوئی کام کامیاب ہوا.
Standardized harness: ایسا harness جو مختلف نظاموں میں یکساں رکھا جائے، کسی خاص ماڈل یا کام کے مطابق ڈھالا نہ جائے، تاکہ نتائج کے فرق کو آزمودہ ماڈل سے منسوب کرنا آسان ہو.
Time horizon: کام کی وہ مدت جسے کوئی نظام متعین قابلِ اعتماد سطح کے ساتھ مکمل کر سکتا ہو، اور اسے اکثر اس طرح ظاہر کیا جاتا ہے کہ یہی کام انسان کو کتنا وقت لگے گا.
Tool access: اسیسمنٹ کے دوران ماڈل کو دستیاب بیرونی اوزار.
Trajectories: وہ مرحلہ وار راستے جن پر چلتے ہوئے کوئی نظام کسی کام کو انجام دیتا ہے.
Universal jailbreak: ایک ہی حملہ پیٹرن جو بہت سے پرومپٹس یا کاموں میں نظام کو safeguards بائی پاس کرنے پر مجبور کر دے.

حواشی

1
یہ پوسٹ اس بات کو حل کرنے کی کوشش نہیں کرتی کہ تیسرے فریق کو misalignment یا propensity سے متعلق دعووں کی جانچ کیسے کرنی چاہیے. یہ سمجھنے کے لیے مزید کام درکار ہے کہ harness کے انتخاب ان evaluations کو کیسے متاثر کرتے ہیں، خاص طور پر اس لیے کہ طویل time-horizon رویے کی حمایت کرنے والے harnesses غیر ارادی رویوں کی ان اقسام کو بھی بدل سکتے ہیں جن کی نگرانی evaluators کو کرنی پڑتی ہے.
2
HAL⁠(نئی ونڈو میں کھلتا ہے) ایجنٹ evaluations سے ایک اضافی مثال فراہم کرتا ہے: CORE-Bench⁠(نئی ونڈو میں کھلتا ہے) پر، harness کو Claude Code میں بدلنے سے اسی benchmark پر ناپی گئی کارکردگی اور لاگت کی پروفائل دونوں بدل گئیں. دیگر عوامی مثالوں میں SWE-agent⁠(نئی ونڈو میں کھلتا ہے), SeeAct⁠(نئی ونڈو میں کھلتا ہے), ScienceAgentBench⁠(نئی ونڈو میں کھلتا ہے), CORE-Bench⁠(نئی ونڈو میں کھلتا ہے)، اور Inspect Cyber⁠(نئی ونڈو میں کھلتا ہے) شامل ہیں؛ ہر ایک قارئین کو بتاتا ہے کہ اسکور کس انٹرفیس یا harness سے حاصل ہوا.
3
Sandbagging QA کی دونوں variants پر 100% اور strategic-deception sandbagging task پر 99.6% اسکور.

پڑھتے رہیں

سب دیکھیں

Safety and alignment in an era of long-horizon models

حفاظت۲۰ جولائی، ۲۰۲۶

Why teens deserve access to safe AI — card image

نوعمروں کو محفوظ اے آئی تک رسائی کیوں ملنی چاہیے

حفاظت۱۶ جولائی، ۲۰۲۶

GPT-Red: مضبوطی کے لیے خود بہتری کو کھولنا

حفاظت۱۵ جولائی، ۲۰۲۶