تحسين هرمية التعليمات في النماذج اللغوية الرائدة
نقدّم IH-Challenge، وهي مجموعة بيانات تدريبية تعزّز هرمية التعليمات، وقابلية توجيه السلامة، ومتانة النماذج في مواجهة حقن المطالبات.
غالبًا ما تتلقى أنظمة الذكاء الاصطناعي تعليمات من مصادر متعددة. وقد تشمل هذه المصادر سياسات السلامة الواردة في رسائل النظام، وإرشادات المنتجات الصادرة عن المطورين، وطلبات المستخدمين، والمعلومات المتاحة عبر الإنترنت. ويُعد تدريب النماذج على إعطاء الأولوية، بصورة موثوقة، للتعليمات الأكثر موثوقية بين هذه المصادر جزءًا أساسيًا من النشر الآمن.
وفي المقابل، يمكن أن تنشأ العديد من مشكلات سلامة الذكاء الاصطناعي وموثوقيته عندما ينهار هذا الترتيب في الأولوية. فقد تتلقى النماذج طلبات تتعلق بمحتوى غير مسموح به، أو محاولات لكشف معلومات خاصة، أو هجمات حقن مطالبات مضمّنة في بيانات منشورة على الإنترنت. ويشترك الإخفاق في التصرّف على النحو المناسب في كل واحد من هذه السيناريوهات في السبب الجذري نفسه: قد يتبع النموذج التعليمات الخاطئة.
وعندما تتعارض هذه التعليمات، يتعيّن على النموذج أن يقرر أيّها يعطيه الأولوية. وإذا تعامل مع تعليمات غير موثوقة على أنها تعليمات ذات سلطة، فقد يتصرّف بطرق تنتهك السياسات أو تتعارض مع نية المطوّر وقصد المستخدم.
ونُظهر أن مهام هرمية التعليمات، عندما تُصمَّم على نحو سليم، يمكنها تدريب النماذج على ترتيب التعليمات بحسب مستوى الثقة فيها، بما يحسّن عددًا من خصائص السلامة في تطبيقات العالم الحقيقي. فالنماذج المدرّبة على هذه المهام تصبح أكثر استجابة لمواصفات السلامة في مطالبات النظام، بما يحسّن قابلية توجيه السلامة، كما تصبح أكثر متانة في مواجهة هجمات حقن المطالبات المضمّنة في مخرجات الأدوات.
للتعامل مع حالات التعارض، تم تدريب نماذج OpenAI على اتباع تسلسل هرمي واضح للتعليمات:
النظام > المطور > المستخدم > الأداة
تحظى التعليمات الأعلى أولوية بدرجة أكبر من الثقة. ويجب أن يتبع النموذج التعليمات ذات الأولوية الأدنى فقط عندما لا تتعارض مع القيود ذات الأولوية الأعلى. تم توضيح هذه المبادئ في مواصفات نموذج OpenAI(يفتح في نافذة جديدة).
فعلى سبيل المثال، إذا تضمنت رسالة النظام سياسة سلامة وطلب المستخدم من النموذج انتهاكها، فينبغي للنموذج أن يرفض. وإذا كان ناتج أداةٍ ما يتضمن تعليمات خبيثة، فينبغي للنموذج أن يتجاهلها بدلًا من التعامل معها على أنها أوامر.
ويُعدّ ضبط هذا الأمر على نحو صحيح أمرًا أساسيًا للسلامة والأمن والموثوقية.
النموذج الموجود على اليمين يتّبع بشكل صحيح تعليمات المطوّر، ذات الأولوية الأعلى، بدلًا من تعليمات المستخدم عندما تتعارض التعليمات بين الطرفين.
يُعدّ التعلم بالتعزيز ملائمًا بطبيعته لتعليم التسلسل الهرمي للتعليمات. إذ يمكننا إنشاء محادثات تتضمن تعليمات متعارضة، ثم نطلب من النموذج الاستجابة، ونكافئه عندما يتبع التعليمات الصحيحة.
وقد حدّدنا ثلاثة جوانب قصور في التطبيق المباشر لهذا النهج:
- قد تتداخل إخفاقات اتباع التعليمات مع إخفاقات هرمية التعليمات: فقد يعجز النموذج عن حل تعارض بين التعليمات، ليس لأنه لا يفهم أدوار الهرمية، بل لأن التعليمات نفسها شديدة التعقيد.
- قد تكون تعارضات التعليمات معقّدة وتنطوي على فروق دقيقة، بل وحتى ذات طابع تفسيري يختلف الناس في تفسيرها أو تقييمها. ومن الأساليب الشائعة إسناد مهمة تحديد المكافآت إلى نموذج لغوي كبير منفصل يعمل كحَكَم للنموذج الجاري تدريبه، لكن هذه النماذج المُقيّمة نفسها ليست معصومة عن الخطأ.
- قد تتعلّم النماذج اختصارات تؤدي إلى مكافأة مرتفعة، لكنها تكون عديمة الفائدة في الممارسة.(يفتح في نافذة جديدة) والمثال التقليدي على ذلك هو الإفراط في الرفض: إذ قد تتعلّم النماذج تعظيم السلامة من خلال رفض حتى الطلبات غير الضارة.
نصمّم IH-Challenge، وهي مجموعة بيانات تدريبية للتعلّم المعزّز، لمعالجة كل واحدة من جوانب القصور هذه. ونلتزم بالمبادئ التالية:
- تكون المهام بسيطة من حيث اتّباع التعليمات.
- يمكن تقييمها بشكل موضوعي باستخدام برنامج نصي بسيط بلغة Python
- لا توجد اختصارات سهلة تضمن مكافأة عالية عبر جميع المهام
تُعدّ كل مهمة في IH-Challenge في الأساس محادثة تحتوي على المطالبات التالية:
- مطالبة تعليمات من دور ذي امتيازات عالية، مثل: “أجب فقط بـ'نعم' أو 'لا'”.
- مطالبة تعليمات من دور أقل امتيازًا، تحاول دفع النموذج إلى انتهاك التعليمات الواردة في المطالبة ذات الامتياز الأعلى.
بعد ذلك، يولّد النموذج الذي يجري تدريبه المطالبة التالية. ونكتب المهام/البيئات بحيث يكون من الممكن التحقق برمجيًا مما إذا كانت استجابة النموذج تفي بالقيد الأعلى مستوى.
ندرّب نموذجًا على IH-Challenge وننتج نموذجًا داخليًا نسمّيه GPT‑5 Mini-R، مع التحسينات التالية:
- يحقق أداءً أفضل على المقاييس المعيارية للتسلسل الهرمي للتعليمات
- يعمَّم تحسّن الأداء ليشمل اختبارات التسلسل الهرمي للتعليمات المحجوبة والاختبارات المضادّة.
- يحافظ على الفائدة العامة، من دون الانزلاق إلى الإفراط في الرفض.
وهذا ما يجعل هذا النهج مقنعًا بصورة خاصة من منظور السلامة: فمن خلال تدريب النماذج مباشرةً على حلّ تعارضات التعليمات على نحو صحيح في مهام IH-Challenge، نحصل على تحسينات في IH يمكن تعميمها على هجمات جديدة ومواقف جديدة.
المتانة على المعايير الأكاديمية
تقييم | GPT‑5‑Mini | GPT‑5 Mini-R |
كلمة مرور Gandalf (مستخدم النظام) | 0.99 | 0.99 (+0) |
كلمة مرور Gandalf (مستخدم المطور) | 0.98 | 1,00 (+0,02) |
TensorTrust (مستخدم النظام) | 0.86 | 0.94 (+0.08) |
TensorTrust (مستخدم-المطور) | 0,76 | 0.91 (+0.15) |
RealGuardrails (المشتتات) | 0,88 | 0.95 (+0.07) |
RealGuardrails (مكتوب بخط اليد) | 0.82 | 0.89 (+0.07) |
نظام IFEval | 0.92 | 0.96 (+0.04) |
المتانة وفقًا لمعاييرنا الداخلية
تقييم | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (مستخدم النظام) | 0.96 | 0.99 (+0.03) |
TutorJailbreak (مستخدم المطور) | 0.97 | 0.99 (+0.02) |
النظام <> تعارض المستخدم | 0.84 | 0,95 (+0,11) |
النظام <> تعارض المطور | 0.86 | 0,86 (+0) |
المطور <> تعارض المستخدم | 0.83 | 0.95 (+0.12) |
لا تراجع في الإمكانات
تقييم | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (الرفض المفرط) | ٠٫٧٩ | 1.00 (+0.21) |
TensorTrust (الرفض المفرط) | 0.91 | 0.90 (-0.01) |
ماسة GPQA | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
معدل الفوز في الدردشة مقابل o1 | 0.71 | 0.66 (-0.05) |
درجة التفضيل | 0.46 | 0.40 (-0.06) |
يوفّر تعزيز التسلسل الهرمي للتعليمات عدة فوائد متعلقة بالسلامة في آنٍ واحد، بما في ذلك قابلية التوجيه في سياق السلامة والمتانة في مواجهة حقن الأوامر.
نقيّم قابلية التوجيه في سياق السلامة من خلال إضافة مواصفات سلامة خاصة بكل فئة إلى موجّه النظام، ثم قياس السلوك على Production Benchmarks الخاصة بالسلامة لدى OpenAI (وهي مجموعة من المحادثات الحسّاسة أمنيًا، والممثّلة لما يظهر في ChatGPT في بيئة الإنتاج).
ويُظهر النموذج المدرَّب على IH تحسنًا متّسقًا: فعند وجود مواصفات السلامة، يحقق معدلات أعلى من الرفض والإنجاز الآمن عبر الفئات غير المسموح بها، مما يشير إلى أن الأداء الأقوى في التسلسل الهرمي للتعليمات يجعله أفضل في حلّ التعارضات عندما تأتي الطلبات غير الآمنة من تعليمات أقل أولوية. ومن اللافت أن هذا التحسّن لا يصاحبه انخفاض مماثل في معدل الفائدة (أي أنه لا يصبح أقل “فائدة” لمجرد أنه يرفض أكثر بشكل عام).


مثال يوضّح كيف يقاوم النموذج المُدرَّب وفق IH هجمات حقن المطالبات التي يقع فيها GPT‑5 Mini (Baseline).
يُعدّ التسلسل الهرمي للتعليمات أيضًا عنصرًا محوريًا في مقاومة حقن المطالبات، عندما تُدمَج تعليمات ضارة داخل مخرجات الأدوات. نقيّم النموذج المدرَّب باستخدام IH على معيارين مرجعيين لحقن المطالبات—معيار أكاديمي CyberSecEval 2 ومعيار OpenAI الداخلي لحقن المطالبات الذي يتألف من هجمات مثل الهجوم الموضح على إصدار أقدم من ChatGPT Atlas.
مقارنةً بالنموذج الأساسي، يعزّز نموذج GPT‑5 Mini-R المدرَّب على IH متانة مقاومته لحقن المطالبات على كلا المعيارين، كما يحقق تحسنًا ملحوظًا في الأداء على تقييمنا الداخلي الثابت لحقن المطالبات في هذه التجارب.
كلما أصبحت النماذج أكثر قدرة على التصرّف بوصفها وكلاء - فتستدعي الأدوات، وتقرأ مستندات غير موثوق بها، وتتخذ إجراءات في العالم - أصبحت القدرة على إعطاء الأولوية بصورة متسقة للتعليمات الموثوق بها على التعليمات غير الموثوق بها خاصية أساسية من خصائص السلامة.
يُظهر هذا العمل أن عدة جوانب قصور في تدريب متانة التسلسل الهرمي للتعليمات يمكن تجاوزها من خلال تصميم بيئات تدريب تعالج تلك الجوانب. ومع أن مجموعة بيانات IH-Challenge تبدو بسيطة، فإن نماذج سلوك التسلسل الهرمي للتعليمات التي تتعلم من هذه البيئات تُظهر قدرة على التعميم إلى معايير أكثر واقعية، وغالبًا غير قابلة للتقييم الموضوعي بصورة مباشرة.
إن تعزيز التسلسل الهرمي للتعليمات لا يحسّن الموثوقية فحسب، بل يحقق أيضًا مكاسب متعددة في السلامة والأمن في آنٍ واحد، وهو أساس تزداد أهميته مع ازدياد قدرات أنظمة الذكاء الاصطناعي واستقلاليتها.
لدعم المزيد من الأبحاث في هذا المجال، نُصدر مجموعة بيانات IH‑Challenge(يفتح في نافذة جديدة).


