جدید ترین LLMs میں ہدایات کی درجہ بندی کو بہتر بنانا
IH-چیلنج متعارف کرایا جا رہا ہے، ایک تربیتی ڈیٹاسیٹ جو ہدایات کی درجہ بندی، حفاظتی اسٹیئریبلٹی اور پرومپٹ انجیکشن کے خلاف استحکام کو مضبوط بناتا ہے.
AI سسٹمز کو اکثر متعدد ذرائع سے ہدایات موصول ہوتی ہیں. ان میں سسٹم پیغامات سے حفاظتی پالیسیاں، ڈویلپرز کی جانب سے پروڈکٹ رہنمائی، صارفین کی درخواستیں اور آن لائن ملنے والی معلومات شامل ہو سکتی ہیں. ان ذرائع میں سے سب سے زیادہ قابلِ اعتماد ہدایات کو قابلِ بھروسا طور پر ترجیح دینے کے لیے ماڈلز کو تربیت دینا محفوظ تعیناتی کا ایک اہم حصہ ہے.
جب یہ ترجیح بندی ناکام ہو جاتی ہے، تو AI کی حفاظت اور قابل اعتمادیت سے متعلق بہت سے مسائل پیدا ہو سکتے ہیں. ماڈلز کو ممنوعہ مواد کے لیے درخواستیں، نجی معلومات ظاہر کرنے کی کوششیں، یا آن لائن ڈیٹا میں شامل پرومپٹ‑انجیکشن حملے موصول ہو سکتے ہیں. ان میں سے ہر ایک منظرنامے میں مناسب طور پر برتاؤ کرنے میں ناکامی کی بنیادی وجہ ایک ہی ہے: ماڈل غلط ہدایت پر عمل کر سکتا ہے.
جب یہ ہدایات متصادم ہوں، تو ماڈل کو یہ فیصلہ کرنا ہوگا کہ کن کو ترجیح دینی ہے. اگر یہ کسی ناقابلِ اعتماد ہدایت کو مستند سمجھ لے، تو ماڈل ایسے طریقوں سے برتاؤ کر سکتا ہے جو پالیسیوں یا ڈویلپر اور صارف کے ارادے کی خلاف ورزی کریں.
ہم یہ دکھاتے ہیں کہ مناسب طور پر ڈیزائن کیے گئے ہدایات کی درجہ بندی کے ٹاسکس، جو ماڈلز کو ان کے اعتماد کی سطح کے مطابق ہدایات کو ترجیح دینے کی تربیت دیتے ہیں، حقیقی دنیا کی کئی حفاظتی خصوصیات کو بہتر بناتے ہیں. ان ٹاسکس پر تربیت یافتہ ماڈلز سسٹم پرومپٹس میں حفاظتی وضاحتوں کے لیے زیادہ جواب دہ بن جاتے ہیں (حفاظتی اسٹیئریبلٹی میں بہتری) اور ٹول آؤٹ پٹس میں شامل پرومپٹ انجیکشن حملوں کے خلاف زیادہ مضبوط ہو جاتے ہیں.
تنازعات کو سنبھالنے کے لیے، OpenAI کے ماڈل کو ہدایات کی ایک واضح درجہ بندی کی پیروی کرنے کی تربیت دی گئی ہے.
سسٹم > ڈویلپر > صارف > ٹول
اعلٰی‑ترجیحی ہدایات زیادہ قابلِ اعتماد ہوتی ہیں. ماڈل کو کم‑ترجیحی ہدایات کی پیروی صرف اسی وقت کرنی چاہیے جب وہ اعلٰی‑ترجیحی پابندیوں سے متصادم نہ ہوں. یہ اصول OpenAI ماڈل اسپیک(نئی ونڈو میں کھلتا ہے) میں بیان کیے گئے ہیں.
مثال کے طور پر، اگر کسی سسٹم پیغام میں حفاظتی پالیسی شامل ہو اور کوئی صارف ماڈل سے اس کی خلاف ورزی کرنے کو کہے، تو ماڈل کو انکار کرنا چاہیے. اگر کسی ٹول آؤٹ پٹ میں بدنیتی پر مبنی ہدایات شامل ہوں، تو ماڈل کو انہیں کمانڈز سمجھنے کے بجائے نظر انداز کرنا چاہیے.
اسے درست کرنا حفاظت، سیکیورٹی اور بھروسے کے لیے بنیادی امر ہے.
دائیں جانب والا ماڈل درست طور پر ڈویلپر کی ہدایت پر عمل کرتا ہے، جو دونوں ہدایات کے ٹکراؤ کی صورت میں صارف کی ہدایت کے مقابلے میں زیادہ ترجیح رکھتی ہے.
ری اِنفورسمنٹ لرننگ ہدایات کی درجہ بندی سکھانے کے لیے قدرتی طور پر موزوں ہے. ہم متضاد ہدایات کے ساتھ بات چیت کو تیار کر سکتے ہیں، ماڈل کو جواب دینے کے لیے پرومپٹ کر سکتے ہیں اور جب وہ درست ہدایت پر عمل کرے تو اسے انعام دے سکتے ہیں.
ہم نے اس ترکیب کو سادہ طور پر لاگو کرنے کے تین نقصانات کی نشاندہی کی ہے:
- ہدایات پر عمل کرنے میں ناکامیاں ہدایات کی درجہ بندی میں ناکامیوں کے طور پر بھی سامنے آ سکتی ہیں: ماڈل ہدایات کے ٹکراؤ کو حل کرنے میں ناکام ہو سکتا ہے، اس لیے نہیں کہ وہ کرداروں کی درجہ بندی کو نہیں سمجھتا، بلکہ اس لیے کہ خود ہدایات بہت پیچیدہ ہیں.
- ہدایات کے درمیان تنازعات باریک ہو سکتے ہیں اور حتٰی کہ موضوعی بھی. ایک عمومی طریقہ یہ ہے کہ ایک الگ LLM جج تربیت دیے جا رہے LLM کو انعامات تفویض کرے، لیکن جج خود بھی غلطی کر سکتے ہیں.
- ماڈل عموماً ایسے شارٹ کٹس سیکھتے ہیں جن کے نتیجے میں زیادہ انعام ملتا ہے، لیکن عملی طور پر بے کار ہوتے ہیں(نئی ونڈو میں کھلتا ہے). کلاسیکی مثال بے جا انکار ہے: ماڈل حفاظت کو زیادہ سے زیادہ کرنے کے لیے حتیٰ کہ بے ضرر درخواستوں سے بھی انکار کرنا سیکھ سکتے ہیں.
ہم IH-چیلنج، ری اِنفورسمنٹ لرننگ کی تربیتی ڈیٹا سیٹ، کو ان میں سے ہر خامی سے نمٹنے کے لیے ڈیزائن کرتے ہیں. ہم درج ذیل اصولوں کی پابندی کرتے ہیں:
- ٹاسکس ہیں ہدایات پر عمل کرنا-سادہ
- وہ ایک سادہ Python اسکرپٹ کے ذریعے معروضی طور پر-درجہ بند کیے جا سکتے ہیں
- ایسے کوئی معمولی شارٹ کٹس نہیں ہیں جو تمام ٹاسکس میں اعلٰی انعام کی ضمانت دیں
IH-چیلنج میں ہر ٹاسک بنیادی طور پر درج ذیل پیغامات کے ساتھ ایک گفتگو ہے:
- اعلٰی مراعات یافتہ کردار کی جانب سے ایک ہدایتی پیغام، جیسا کہ "صرف 'جی ہاں' یا 'نہیں' میں جواب دیں."
- کم مراعات والے کردار کی طرف سے ایک ہدایتی پیغام، جو ماڈل کو زیادہ مراعات والے پیغام میں موجود ہدایات کی خلاف ورزی کرنے پر آمادہ کرنے کی کوشش کرتا ہے.
تربیت دیئے جا رہے ماڈل اگلا پیغام تیار کرتا ہے. ہم ٹاسکس/ماحول اس طرح لکھتے ہیں کہ یہ ممکن ہو کہ پروگراماتی طور پر جانچ کی جا سکے کہ آیا ماڈل کا جواب اعلٰی سطح کی پابندی کو پورا کرتا ہے یا نہیں.
ہم IH‑چیلنج پر ایک ماڈل کو تربیت دیتے ہیں اور ایک اندرونی ماڈل تیار کرتے ہیں، جسے ہم GPT‑5 Mini-R کہتے ہیں، درج ذیل بہتریوں کے ساتھ:
- ہدایات کی درجہ بندی‑بینچ مارکس پر بہتر کارکردگی دکھاتا ہے
- بہتر کارکردگی علیحدہ رکھے گئے اور مخالفانہ ہدایات کی درجہ بندی کے ٹیسٹس پر عمومی طور پر لاگو ہوتی ہے
- مجموعی افادیت برقرار رکھتا ہے، بے جا انکار میں تبدیل ہوئے بغیر
یہی وہ چیز ہے جو حفاظت کے لیے اس نقطہ نظر کو خاص طور پر پُرکشش بناتی ہے: IH-چیلنج ٹاسکس پر ہدایات کے تضادات کو درست طور پر حل کرنے کے لیے ماڈلز کو براہ راست تربیت دے کر، ہمیں IH میں ایسی بہتریاں ملتی ہیں جو نئے حملوں اور نئی صورتحالوں تک عمومی طور پر لاگو ہوتی ہیں.
علمی بینچ مارکس پر مضبوطی
ایوال | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf پاس ورڈ (سسٹم-صارف) | 0.99 | 0.99 (+0) |
Gandalf پاس ورڈ (ڈویلپر-صارف) | 0.98 | 1.00 (+0.02) |
TensorTrust (صارف) | 0.86 | 0.94 (+0.08) |
TensorTrust (ڈویلپر-صارف) | 0.76 | 0.91 (+0.15) |
RealGuardrails (توجہ ہٹانے والے عوامل) | 0.88 | 0.95 (+0.07) |
RealGuardrails (ہاتھ سے لکھا ہوا) | 0.82 | 0.89 (+0.07) |
سسٹم IFEval | 0.92 | 0.96 (+0.04) |
اندرونی بینچ مارکس پر مضبوطی
ایوال | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (سسٹم-صارف) | 0.96 | 0.99 (+0.03) |
Tutor Jailbreak (dev-user) | 0.97 | 0.99 (+0.02) |
سسٹم <> صارف تضاد | 0.84 | 0.95 (+0.11) |
سسٹم <> ڈویلپر تنازعہ | 0.86 | 0.86 (+0) |
ڈویلپر <> صارف تنازعہ | 0.83 | 0.95 (+0.12) |
صلاحیت میں کوئی کمی یا خرابی نہیں
ایوال | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-چیلنج (اضافی انکار) | 0.79 | 1.00 (+0.21) |
TensorTrust (اضافی انکار) | 0.91 | 0.90 (-0.01) |
GPQA ڈائمنڈ | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
چیٹ ون ریٹ بمقابلہ o1 | 0.71 | 0.66 (-0.05) |
ترجیحی اسکور | 0.46 | 0.40 (-0.06) |
زیادہ مضبوط ہدایات کی درجہ بندی ایک ساتھ متعدد حفاظتی فوائد فراہم کرتی ہے، جن میں سیفٹی اسٹیئریبلٹی اور پرومپٹ انجیکشن کے خلاف مضبوطی بھی شامل ہے.
ہم سسٹم پرومپٹ میں زمرہ-مخصوص حفاظتی وضاحتیں شامل کر کے اور OpenAI کے حفاظتی پروڈکشن بنچ مارکس (حفاظت سے حساس گفتگوؤں کا ایک مجموعہ جو پروڈکشن میں ChatGPT کی نمائندگی کرتا ہے) پر رویے کی پیمائش کر کے حفاظتی اسٹیرایبیلیٹی کا جائزہ لیتے ہیں.
IH-تربیت یافتہ ماڈل ایک مستقل بہتری دکھاتا ہے: حفاظتی اسپیسیفکیشن موجود ہونے کے ساتھ، یہ ممنوعہ زمروں میں انکار اور محفوظ تکمیل کی شرحیں زیادہ حاصل کرتا ہے، جو اس بات کی نشاندہی کرتا ہے کہ ہدایات کی درجہ بندی کے مضبوط رویے کی وجہ سے یہ تنازعات کو حل کرنے میں بہتر ہو جاتا ہے جب غیر محفوظ درخواستیں کم ترجیح والی ہدایات سے آتی ہیں. قابلِ ذکر طور پر، اس بہتری کے ساتھ مددگار ہونے کی شرح میں کوئی متناسب کمی نہیں آتی (جیسا کہ، یہ مجموعی طور پر زیادہ انکار کر کے محض کم "مددگار" نہیں ہو رہا).


یہ مثال IH-ٹرینڈ ماڈل کی ہے جو پرومپٹ انجیکشنز کے خلاف مزاحمت کرتا ہے جبکہ GPT‑5 Mini (بیس لائن) ان کے جھانسے میں آ جاتا ہے.
ہدایات کی درجہ بندی پرومپٹ انجیکشن کے خلاف مزاحمت میں بھی مرکزی حیثیت رکھتی ہے، جب نقصان دہ ہدایات ٹول آؤٹ پٹس میں شامل کی جاتی ہیں. ہم IH-تربیت یافتہ ماڈل کا جائزہ دو پرومپٹ انجیکشن بینچ مارکس پر لیتے ہیں—ایک تعلیمی بینچ مارک CyberSecEval 2 اور ایک OpenAI کا اندرونی پرومپٹ انجیکشن بینچ مارک جس میں ایسے حملے شامل ہیں جیسے کہ ChatGPT Atlas کے ایک پرانے ورژن پر دکھایا گیا تھا.
بیس لائن کے مقابلے میں، IH-تربیت یافتہ GPT‑5 Mini-R ماڈل دونوں بینچ مارکس پر پرومپٹ انجیکشن کے خلاف مضبوطی میں بہتری لاتا ہے اور ان تجربات میں ہماری داخلی جامد پرومپٹ انجیکشن ایویلیوایشن پر کارکردگی میں نمایاں طور پر بہتری لاتا ہے.
جیسے جیسے ماڈلز زیادہ ایجنٹک بنتے جاتے ہیں—ٹولز کو کال کرتے ہیں، ناقابل اعتماد دستاویزات پڑھتے ہیں اور دنیا میں کارروائیاں کرتے ہیں—قابل اعتماد ہدایات کو ناقابل اعتماد ہدایات پر مستقل طور پر ترجیح دینے کی صلاحیت ایک بنیادی حفاظتی خاصیت بن جاتی ہے.
اس کام میں یہ ظاہر ہوتا ہے کہ IH روبسٹنس ٹریننگ کی کئی عام خامیوں پر قابو پایا جا سکتا ہے، بشرطیکہ ایسے تربیتی ماحول ڈیزائن کیے جائیں جو ان خامیوں کو دور کریں. اگرچہ ہمارا IH-چیلنج ڈیٹا سیٹ سادہ لگتا ہے، ان ماحولیات سے IH رویہ جاتی ماڈل جو سیکھتے ہیں وہ زیادہ حقیقت پسندانہ اور اکثر غیر معروضی طور پر گریڈ ایبل بینچ مارکس تک عمومی طور پر لاگو ہو جاتا ہے.
ہدایت کی درجہ بندی کو مضبوط بنانا نہ صرف قابلِ اعتمادیت کو بہتر بناتا ہے، بلکہ ایک ہی وقت میں متعدد حفاظتی اور سیکیورٹی فوائد بھی کھول دیتا ہے—ایک ایسی بنیاد جو جیسے جیسے AI سسٹمز زیادہ قابل اور خود مختار ہوتے جاتے ہیں، مزید اہم ہوتی جاتی ہے.
اس شعبے میں مزید تحقیق کی معاونت کے لیے، ہم IH‑چیلنج ڈیٹاسیٹ یہاں(نئی ونڈو میں کھلتا ہے) جاری کر رہے ہیں.


