الاعترافات كوسيلة لضمان مصداقية النماذج اللغوية
نقدّم أسلوبًا تجريبيًا أوليًا يدرّب النماذج على الإبلاغ عند خرق التعليمات أو اتباع طرق مختصرة غير مقصودة.
مع تزايد قدرات أنظمة الذكاء الاصطناعي، تزداد حاجتنا لفهمها بعمق، بما في ذلك كيفية الوصول إلى الإجابة ولماذا وصلت إليها. ففي بعض الأحيان، قد يسلك النموذج طريقًا مختصرًا أو يُحسّن هدفًا خاطئًا، ومع ذلك تبدو الإجابة النهائية صحيحة. وإذا استطعنا الكشف عن هذه الحالات عند حدوثها، فسنتمكن من مراقبة الأنظمة المستخدمة بشكل أفضل، وتحسين أساليب التدريب، ورفع مستوى الثقة في المخرجات.
أظهرت أبحاث OpenAI وجِهات أخرى أن النماذج اللغوية قد تصيبها نوبات من الهلوسة، أو تتلاعب بآليات المكافأة، أو تكون غير صادقة. في الوقت الحالي، نرى السلوكيات الأكثر إثارة للقلق، مثل التخطيط الماكر(يفتح في نافذة جديدة)، فقط في اختبارات الإجهاد والتقييمات العدائية. ولكن مع ازدياد قدرات النماذج وتحوّلها إلى أنظمة أكثر استقلالية، تصبح حتى حالات الانحراف النادرة أكثر تأثيرًا، مما يدفعنا إلى الاستثمار في أساليب تساعدنا على اكتشاف هذه المخاطر وفهمها والحدّ منها بشكل أفضل.
يستكشف هذا العمل أحد هذه الأساليب: تدريب النماذج على الإقرار صراحةً عندما تمارس سلوكًا غير مرغوب فيه، وهي تقنية نطلق عليها الاعترافات.
الاعتراف هو مخرجات ثانية، منفصلة عن الإجابة الأساسية التي يقدّمها النموذج للمستخدم. تُقيَّم الإجابة الأساسية عبر عدة أبعاد، مثل الدقة، والأسلوب، والفائدة، والالتزام، والسلامة، وغيرها. وتُستخدم هذه الإشارات المتعددة في تدريب النماذج على إنتاج إجابات أفضل. أما الاعتراف، فعلى العكس تمامًا، فيُقيَّم ويُدرَّب على عامل واحد فقط: الصدق. واستلهامًا من طبيعة "غرفة الاعتراف"، لا يُحتسب أي شيء يقوله النموذج في اعترافه ضده أثناء التدريب. فإذا أقرّ النموذج بصدق بأنه تحايل على اختبار، أو خفّض أداءه عمدًا، أو خالف التعليمات، فإن هذا الإقرار يزيد مكافأته بدلًا من أن يخفضها. والهدف هو تشجيع النموذج على الإبلاغ بأمانة عمّا فعله بالفعل.
في اختباراتنا، وجدنا أن منهج الاعترافات يحسّن بشكل كبير من قدرة النظام على كشف السلوكيات غير المرغوب فيها. وبناءً على متوسط نتائج التقييمات التي صُممت لاستثارة هذه السلوكيات، بلغت احتمالية ظهور "السلبيات الخاطئة" أي أن يخالف النموذج التعليمات ولا يقرّ بذلك لاحقًا، نسبة 4.4 في المئة فقط.
تعرض هذه النتائج دقة نموذج الاعترافات التجريبي في عدد من مجموعات البيانات العدائية. ويتم تصنيف المخرجات إلى أربع فئات وهي: امتثل ولم يعترف (سلبية صحيحة)، امتثل واعترف (إيجابية خاطئة)، لم يمتثل ولم يعترف (سلبية خاطئة)، ولم يمتثل واعترف (إيجابية صحيحة).

عند تقديم أي مطالبة من المستخدم، يمكن تصنيف النتائج المحتملة إلى أربعة مخرجات تعتمد على عاملين: أولًا، ما إذا كان ردّ النموذج مُطابقًا للتوجيهات (جيّد) أو غير مُطابق لها (سيّئ)، وثانيًا، ما إذا كانت الاعترافات تُقرّ بالامتثال أو بعدمه. وبصورة عامة، نلاحظ أنّ الاعترافات غالبًا ما تكون دقيقة بدرجة عالية، كما أنّ الأخطاء التي تظهر فيها تكون في الغالب طفيفة وتنشأ عن ارتباك حقيقي، وليس عن محاولة متعمّدة للتضليل.
الاعتراف هو تقرير ذاتي يقدمه النموذج حول مدى التزامه بالروح والنص للتعليمات أو السياسات الصريحة والضمنية التي تلقاها، إضافة إلى توضيح ما إذا كانت هناك حالات لجأ فيها إلى اختصار غير مناسب أو تحايل أو خرق للسياسات أو أي شكل من أشكال عدم الامتثال. وتشير أبحاثنا إلى أن النماذج يمكن تدريبها على الإبلاغ بصراحة عن أوجه قصورها. قمنا بتدريب نسخة من GPT‑5 Thinking لإنتاج اعترافات، وجرى تقييمها على عدد من مجموعات بيانات الضغط التي تقع خارج نطاق التدريب والمصممة لاستثارة سلوكيات مثل التخطيط الماكر، والتحايل، وخرق التعليمات، والهلوسة. ووجدنا أنه حتى عندما يمارس النموذج مثل هذه السلوكيات غير المرغوبة، فإنه غالبًا ما يقرّ بها. يوضح الشكل أعلاه أن نهج الاعتراف فعال بشكل عام على نطاق واسع عبر مجموعات بيانات ومهام متنوعة.
بعد أي تفاعل بين المستخدم والنموذج ينتهي بإجابة يقدمها النموذج، يمكن طلب اعتراف عبر إرسال "رسالة نظام" تطلب من النموذج تقديم تقرير اعتراف. ويتعلق التقرير بالإجابة الأخيرة التي قدّمها النموذج، ويتضمن ثلاثة عناصر تشمل (1) قائمة بجميع التعليمات والتوجيهات والقيود والأهداف الصريحة والضمنية التي كان ينبغي أن تلتزم بها تلك الإجابة. (2) تحليل صادق وموضوعي يوضح ما إذا كانت الإجابة قد استوفت بالفعل كل هدف من هذه الأهداف. (3) قائمة بأي حالات عدم يقين أو غموض أو نقاط تطلبت حكمًا دقيقًا واجهها النموذج أثناء إنتاج الإجابة. خلال التدريب، يجري تقييم الاعتراف بواسطة نموذج مكافأة منفصل يقيّم الاعتراف فقط، وذلك بناء على شمول الأهداف، ودقة تحليل الامتثال، ومدى تغطية نقاط عدم اليقين. وتُطبّق هذه المكافآت على مخرجات الاعتراف حصرًا، ولا تؤثر في مكافأة الإجابة الأساسية بأي شكل. ويساعد هذا التمييز في ضمان الخاصية التي تمت مناقشتها أعلاه، وهي أن ما يقوله النموذج في الاعتراف لا يمكن أن يؤثر سلبًا أو إيجابًا على المكافأة المخصّصة لإجابته الأساسية.
النظرية وراء أسلوب الاعترافات مباشرة وبسيطة. فالكثير من السلوكيات غير المرغوبة في النماذج تظهر لأننا نطلب من النموذج أن يوازن بين عدة أهداف في الوقت نفسه. وأثناء عملية التعلم المعزَّز، يرى النموذج الموجِّه، ويُنتج استجابة، ثم يحصل على مكافأة. ومع مرور الوقت، يتعلم النموذج إنتاج الأنماط من الإجابات التي تحقق درجات أعلى. والتحدّي أنّ إشارة المكافأة يجب أن تجمع بين عدد كبير من الاعتبارات دفعة واحدة، مثل مدى صحة الإجابة، ومدى فائدتها، ومدى التزامها بمواصفات المنتج والسياسات، ومدى تلبيتها لمتطلبات السلامة، ومدى توافقها مع تفضيلات المستخدمين. وعندما تتفاعل هذه الإشارات معًا، يمكن أن تدفع النموذج من غير قصد نحو سلوكيات لا نرغب فيها.
على سبيل المثال، أظهرت أبحاثنا حول نوبات الهلوسة أنّ بعض مجموعات البيانات تكافئ التخمين الواثق أكثر مما تكافئ الإقرار الصادق بوجود حالة من عدم اليقين. وكشفت أبحاثنا حول التملّق أنّ النماذج قد تصبح ميّالة للموافقة الزائدة عندما يكون إشعار التفضيل قويًا بشكل مبالَغ فيه. كما بيّنت أبحاث(يفتح في نافذة جديدة) أخرى أنّ النماذج يمكن أن تمارس ما يشبه "اختراق المكافأة"، وذلك عبر إيجاد ثغرات في بيئة التدريب تسمح لها بتحقيق درجة عالية من دون تنفيذ ما نريده فعليًا. وفي بعض الحالات، يمكن أن تعمم(يفتح في نافذة جديدة) هذه الاختصارات لتتحوّل إلى سلوكيات أشد ضررًا عند نشر النماذج في الاستخدام الفعلي.
تتجاوز الاعترافات هذه المشكلة من خلال فصل الأهداف فصلًا كاملًا. فالإجابة الأساسية تستمر في تحسين جميع العوامل المعتادة، بينما يُدرَّب الاعتراف على عامل واحد فقط، وهو الصدق. ولا يُحتسب أي شيء يقوله النموذج في الاعتراف ضده، كما أنّ الاعتراف لا يؤثر في المكافأة المخصّصة للإجابة الأساسية. وهذا يعني أنّ النموذج، حتى لو مارس الخداع أو اختصر الطريق في الإجابة الأصلية، تبقى لديه حافزية للإقرار بذلك في الاعتراف. وهذا ما نلاحظه عمليًا. فالنماذج تكون مستعدّة للاعتراف بالسلوكيات غير المرغوبة في الاعتراف، حتى في الحالات التي تخفيها في الإجابة الأساسية. وعندما تفشل الاعترافات، يكون السبب غالبًا هو ارتباك حقيقي لدى النموذج، مثل أن تكون التعليمات ملتبسة أو ألّا يدرك النموذج أنّ خطأ قد حدث، وليس بسبب محاولة متعمّدة للتضليل. وتُظهر النتائج الأولية أنّ الاعترافات تظل فعّالة حتى عندما تُنتج الإجابة الأساسية من دون أي سلسلة تفكير على الإطلاق، ممّا يشير إلى أنّ صدق الاعتراف لا يعتمد على قابلية قراءة الاستدلالات الداخلية، وقد يكون قادرًا على التعميم عبر أجيال مستقبلية من بنى النماذج.
تعمل آلية تدريب الاعترافات حتى في غياب بيانات حقيقة مرجعية حول الامتثال. ويُقصد "بالحقيقة المرجعية" وجود تصنيف خارجي قاطع يحدّد ما إذا كان النموذج قد اتبع التعليمات بالفعل أو خالفها. وفي كثير من المهام الواقعية، لا تتوفر مثل هذه التصنيفات. فلو كنا نعرف بيقين أنّ النموذج خرق قاعدة معيّنة، لأمكننا معاقبة هذا الخرق مباشرة بدلًا من الاعتماد على الاعتراف. وبدلًا من ذلك، يُكافأ النموذج على تقديم تفسير منظَّم يستند إلى أدلة لما يعتقد أنّه قام به. وتُظهِر الورقة البحثية أنّ الصدق يميل إلى الظهور في ظل هذا الإعداد. ونعتقد أنّ السبب هو أنّ تقديم رواية صادقة مدعّمة بالأدلة أسهل على النموذج عادةً من صياغة سرد مختلَق متماسك يمكنه اجتياز التقييم. وتتناول الورقة أيضًا الحالات التي تفشل فيها الاعترافات، أي السلبيات الخاطئة والإيجابيات الخاطئة، وتشرح كيف تنشأ هذه الحالات وما العوامل التي تؤثر فيها.
تقدّم الورقة البحثية أدلة أولية تشير إلى فعالية الاعترافات، إلا أنّه لا ينبغي التعامل معها على أنّها إثباتٌ قاطع. فعلى الرغم من استخدامنا نموذجًا متقدمًا مثل GPT‑5 Thinking، كانت تجاربنا محدودة من حيث الحجم، واعتمدت على قدر نسبي من الحوسبة والبيانات. ونحن متحمّسون للانتقال بهذه الدراسة إلى مرحلة أكثر تقدمًا، ومعرفة ما إذا كان مستوى صدق الاعترافات سيستمر بالثبات عند توسيع نطاق التدريب وزيادة موارده.
يقوم النموذج "بالتحايل على آلية المكافآت" في استجابته الرئيسية لخداع المُقيّم عن طريق إضافة تعليقات توضح عدد الكلمات المزعوم في الجمل، لكنه يعترف بذلك في الاعتراف.
كجزء من تجاربنا، قمنا عمدًا بتدريب نماذج تعتمد على إشارة مكافأة قابلة للتحايل، تُحتسب بواسطة نموذج أضعف. وقد طُبّق هذا الإعداد على كلٍّ من مكافأة الإجابة الأساسية ومكافأة الاعتراف. وتعلّم النموذج استغلال ضعف إشارة المكافأة، إذ ارتفعت دقته الظاهرية عند تقييمه بواسطة النموذج الضعيف، بينما انخفضت دقته الحقيقية عند تقييمه بواسطة مُقيّم أقوى.
ومع ذلك، وعلى الرغم من أنّ قناة الاعتراف خضعت للإشارة الضعيفة نفسها، فإن دقتها تحرّكت في الاتجاه المعاكس. فقد تعلّم النموذج أنّ أفضل طريقة لتحسين مكافأة الاعتراف هي الإقرار ببساطة عندما يقوم بالتحايل على مكافأة الإجابة الأساسية. ومع مرور الوقت أصبحت الاعترافات أكثر دقة، حتى في الوقت الذي بدأت فيه السلوكيات الأساسية بالانحراف.
على مدى فترة التدريب، يتعلّم النموذج في بعض الحالات، عندما يفشل في الامتثال، كيفية "التحايل" على مُقيّم مكافأة الإجابة الأساسية، ممّا يؤدي إلى تراجع دقة هذا المُقيّم. وفي المقابل، وعلى الرغم من أنّ مُقيّم مكافأة الاعتراف قابل للتحايل بالقدر نفسه، فإن النموذج يصبح أكثر صدقًا في اعترافاته مع استمرار التدريب، إلى أن يقترب في النهاية من نسبة مئوية شبه كاملة من الاعتراف عند عدم الامتثال.
تتضمّن الورقة البحثية(يفتح في نافذة جديدة) مزيدًا من التجارب والنتائج. وقد قمنا بمقارنة النموذج المدرَّب على الاعترافات بنموذج ضابط جرى تدريبه بالطريقة نفسها ولكن من دون قناة الاعتراف. كما درسنا الحالات التي فشلت فيها الاعترافات. وتبيّن أنّ معظم "حالات الإخفاق" حدثت عندما كان النموذج في حالة ارتباك حقيقي، سواء بسبب غموض التعليمات أو لعدم إدراكه ببساطة أنّه ارتكب خطأً. ويمكن الرجوع إلى مثال السلبية الخاطئة الوارد أعلاه.
للاعترافات حدود لا يمكن تجاوزها. فهي لا تمنع السلوكيات غير المرغوبة، وإنما تُظهرها وتكشفها. وتتمثل قيمتها الأساسية في كونها أداة للرصد والتشخيص، سواء أثناء التدريب أو عند نشر النموذج. وتؤدي الاعترافات دورًا مشابهًا لدور مراقبة سلسلة التفكير، إذ يساعد كلاهما في إظهار العمليات العقلية التي تجري في الخفاء. وتركّز الاعترافات على مسألة ما إذا كان النموذج قد خالف التعليمات، بينما تبرز سلسلة التفكير الكيفية التي أوصلته إلى تلك النتيجة.
يمثّل هذا العمل أيضًا نموذجًا أوليًّا لإثبات الفكرة. فلم نقُم بتدريب آليات الاعتراف على نطاق واسع بعد، وما زالت دقة الاعتراف غير مكتملة. وهناك الكثير من العمل المطلوب لجعل هذا النهج أكثر موثوقية، وأكثر صلابة، وقابلًا للتطبيق على نطاق أوسع عبر عائلات النماذج والمهام المختلفة.
يندرج هذا العمل ضمن نهجنا الأوسع لضمان سلامة الذكاء الاصطناعي. فالاعترافات هي إحدى الآليات ضمن منظومة أكبر تشمل المواءمة التأملية، ومراقبة تسلسل التفكير، وهرمية التعليمات، والمزيد. ولا تكفي أي وسيلة بمفردها، إذ يتمثّل الهدف في بناء نظام طبقي من أدوات الفحص والشفافية التي يعزّز بعضها بعضًا. ويمكن للاعترافات أن تساعد في تشخيص السلوكيات الإشكالية في النماذج أثناء التدريب والتقييم، بالإضافة إلى دورها في الرصد عند النشر. ومع ذلك، فهي لا تحلّ بمفردها مسألة موازنة الأبعاد المتعددة. ولكن من خلال إنشاء وضع يشبه "مصل الصدق"، يكون تركيز النموذج فيه منصبًّا على الصراحة فقط، تُضيف الاعترافات أداة قيّمة إلى منظومتنا لتعزيز الصدق والسلامة عبر مختلف المستويات.
مع ازدياد قدرات النماذج وانتشار استخدامها في سياقات عالية المخاطر، تصبح الحاجة أكبر إلى أدوات أكثر فاعلية لفهم ما تفعله هذه النماذج ولماذا تتصرّف بالطريقة التي تتصرّف بها. والاعترافات ليست حلًا كاملًا، لكنها تضيف طبقة ذات قيمة إلى منظومة الشفافية والرقابة التي نعتمد عليها. وفي أعمالنا المستقبلية، نخطّط لتوسيع نطاق تدريب الاعترافات، إضافة إلى دمجها مع تقنيات مكمّلة للشفافية والسلامة، بما في ذلك مراقبة سلسلة التفكير والمواءمة التأملية، بهدف إحراز تقدّم أكبر نحو ضمان التزام نماذجنا بجميع التعليمات والسياسات التزامًا أمينًا، مثل Model Spec(يفتح في نافذة جديدة)، وأن تقدّم تقارير صادقة عمّا تقوم به من إجراءات.


