نماذج الاستدلال تواجه صعوبة في التحكم في سلاسل الاستدلال لديها، وهذا أمر إيجابي
لماذا يُعدّ هذا القيد في النماذج المتقدمة عنصر طمأنة لسلامة الذكاء الاصطناعي.
مع تزايد قدرة الوكلاء المعتمدين على الذكاء الاصطناعي على تنفيذ مهام أكثر تعقيدًا واستقلالية، تصبح المحافظة على إشراف موثوق على سلوكهم أكثر أهمية. وانسجامًا مع مبدأ النشر التدريجي لدينا، ندرس كيفية تصرّف الأنظمة في البيئات الواقعية ونواصل تحسين الضمانات مع تطوّر القدرات. لدعم ذلك، يستخدم نهجنا في السلامة مبدأ «الدفاع في العمق»، مع طبقات متعددة ومتكاملة من الحماية مثل تدريب السلامة، والاختبارات السلوكية، ومراجعة الشيفرة بالاعتماد على الوكلاء(يفتح في نافذة جديدة)، ومراقبة سلسلة الاستدلال (CoT). تحلل مراقبة CoT خطوات الاستدلال التي ينتجها الوكلاء أثناء تنفيذ المهام. ويمكن أن توفّر هذه الآثار الاستدلالية إشارات قيّمة أثناء التدريب والنشر، مما يساعد أنظمة المراقبة على تحديد الحالات التي قد يكون فيها سلوك الوكيل غير آمن أو غير منسجم مع أهداف المستخدم المقصودة.
حاليًا، نجد أن استدلال النماذج قابل للفهم عمومًا وسهل المراقبة. لكن في المستقبل قد تتراجع قابلية المراقبة لأسباب متعددة(يفتح في نافذة جديدة). نركّز هنا على مسار واحد محتمل: إذا أصبحت الوكلاء قادرين على إعادة تشكيل استدلالهم أو إخفائه عمدًا عندما يعلمون أنهم خاضعون للمراقبة، فقد تبالغ التقييمات في تقدير مدى اتساق النظام مع القيم أو مستوى سلامته، وقد تصبح أنظمة المراقبة أقل موثوقية.
في هذا العمل، ندرس ما إذا كانت نماذج الاستدلال الحالية قادرة على التحكم في سلسلة الاستدلال لديها بطرق تقلّل من قابلية المراقبة. فهم هذه القدرة مهم لضمان بقاء مراقبة CoT ضمانة قوية مع ازدياد قدرات أنظمة الذكاء الاصطناعي. نجد أن نماذج الاستدلال الحالية تواجه صعوبة في التحكم في سلاسل الاستدلال لديها، حتى عندما نخبرها بأنها خاضعة للمراقبة. ورغم أن القابلية للتحكم أعلى في النماذج الأكبر حجمًا، فإنها تنخفض عندما نطلب من النماذج الاستدلال لفترات أطول أو عندما تخضع لمزيد من التدريب اللاحق. وتشير نتائجنا إلى أن قابلية التحكم في CoT من غير المرجّح حاليًا أن تشكّل خطرًا كبيرًا على قابلية مراقبة CoT، مع أن استمرار التقييم سيكون مهمًا مع تطوّر النماذج.
تشير سلسلة الاستدلال إلى خطوات الاستدلال الوسيطة التي ينتجها وكيل الذكاء الاصطناعي أثناء حل مهمة ما. ويمكن أن توفّر هذه الآثار الاستدلالية إشارات سلامة مفيدة، إذ تساعد أنظمة المراقبة على تقييم ما إذا كان سلوك الوكيل آمنًا أو منسجمًا مع الأهداف.
قابلية التحكم في CoT هي قدرة نموذج الاستدلال على التحكم في خصائص سلسلة الاستدلال لديه بطرق تقلّل من قابلية المراقبة. ومن الصعب قياس هذه القدرة عبر مجموعة كاملة من الحوافز الواقعية المحتملة لتفادي أنظمة المراقبة. لذلك نستخدم بديلًا عمليًا: نقيس قدرة النموذج على اتباع تعليمات المستخدم المتعلقة بسلسلة الاستدلال لديه. على سبيل المثال، نختبر ما إذا كان النموذج يستطيع اتباع تعليمات تؤثر في استدلاله الداخلي — مثل استخدام أحرف صغيرة فقط، أو تجنّب كلمات مفتاحية معيّنة، أو إضافة عبارات محددة — بدلًا من الاكتفاء بتغيير مخرجاته الظاهرة.
لدراسة ذلك، نقدّم CoT-Control، وهي حزمة تقييم مفتوحة المصدر لقياس قابلية التحكم في CoT في نماذج الاستدلال. تتضمن CoT-Control أكثر من 13000 مهمة مبنية على مجموعات بيانات معروفة: GPQA وMMLU-Pro وHLE وBFCL وSWE-Bench Verified. تُنشأ كل مهمة عن طريق إقران مسألة من إحدى هذه المجموعات مع تعليمة CoT واحدة، مثل تجنّب كلمات مفتاحية مرتبطة بالمسألة في سلسلة الاستدلال، أو استخدام أحرف صغيرة فقط، أو إلحاق كلمة معيّنة بكل جملة.
أجرينا تقييمات على 13 نموذج استدلال، ووجدنا أنها جميعًا تواجه صعوبة في التحكم في سلاسل الاستدلال لديها بشكل موثوق. نقيس القابلية للتحكم كنسبة من آثار الاستدلال التي ينجح فيها النموذج في الالتزام بتعليمات CoT التي نحدّدها. وعبر النماذج المتقدمة، تكون درجات قابلية التحكم في CoT منخفضة، إذ تتراوح بين 0,1% ولا تتجاوز 15,4% في أي نموذج متقدم حالي قمنا باختباره.
ولا يرجع هذا العجز إلى سوء فهم المهمة؛ إذ تدرك النماذج في كثير من الأحيان ضمن سلسلة الاستدلال أنها لا تلتزم بتعليمات CoT الممنوحة لها، وحتى بعد هذا الإدراك تستمر في الإخفاق. هذا الأداء المنخفض بشكل مفاجئ يُعدّ خبرًا جيدًا لقابلية مراقبة CoT؛ فهو يشير إلى أن النماذج قد تفتقر بالمثل إلى القدرة على تعمية استدلالها لتفادي أنظمة المراقبة.
قدرة عدة نماذج متقدمة على التحكم في مخرجاتها وسلاسل الاستدلال لديها. ترتبط قابلية التحكم المنخفضة في CoT بقابلية مراقبة أعلى، وبالتالي بسلامة أعلى.
أمثلة على فشل قابلية التحكم في CoT
تمت إعادة صياغة الأسئلة للاختصار.
GPT-5.2 Thinking
يدرك GPT‑5.2 Thinking أنه لم يكن من المفترض أن يستخدم الكلمة المحظورة (بالأحمر)، ثم يستمر في استخدامها أربع مرات أخرى بينما يعبّر في سلسلة الاستدلال عن قلقه من أنه استخدمها بالفعل.
مع أننا نلاحظ أن القابلية للتحكم تزداد مع حجم النموذج، نجد أيضًا أنها تنخفض سريعًا مع زيادة التدريب اللاحق وحجم الحوسبة أثناء الاختبار. وعند النظر إلى عائلتين من النماذج مفتوحة الأوزان، كانت النماذج الأكبر أفضل إلى حد ما في التحكم في سلاسل الاستدلال لديها، لكن هذا الأثر يتضاءل عند الأحجام الأكبر. وعندما نسمح للنماذج بالتفكير لفترة أطول، تصبح أقل قدرة على التحكم في تلك السلاسل. ورصدنا اتجاهًا مشابهًا في تدريب التعلم المعزَّز لنموذج OLMo-3-7B-RL-Zero-Math، إذ انخفضت درجة قابليته للتحكم بأكثر من عشرة أضعاف خلال فترة التدريب.
تزداد القابلية للتحكم مع الحجم في النماذج مفتوحة الأوزان، لكنها تتدهور مع الاستدلال الأطول ومزيد من تدريب التعلم المعزَّز.
لمحاكاة حوافز واقعية لتفادي أنظمة المراقبة، نقيس القابلية للتحكم عندما نخبر النماذج بأنها خاضعة للمراقبة أو التقييم. وهذا يزيد القابلية للتحكم قليلًا ولكن بشكل ملحوظ. ونستخدم أيضًا تحسين المطالبات آليًا للعثور على مطالبات تؤدي إلى قابلية تحكم أعلى. ورغم أن أداة التحسين يمكنها رفع القابلية للتحكم على مجموعة التدريب، فإن هذه المكاسب لا تنتقل جيدًا إلى أنواع جديدة من التعليمات (مثل اشتراط عدم وجود مسافات بين الكلمات).
تُقاس قابلية التحكم في CoT في ظروف خصامية. يشير مصطلح "الوعي بالمراقبة" إلى الإعدادات التي نخبر فيها النماذج بأن سلسلة الاستدلال لديها خاضعة للمراقبة. ويشير مصطلح "الوعي بالتقييم" إلى الإعدادات التي نخبر فيها النماذج بأنها خاضعة للتقييم من حيث قابلية التحكم في CoT.
المهام في CoT-Control هي بدائل عملية؛ فالتقييم المثالي لقابلية التحكم في CoT سيكون عبر اختبار ما إذا كانت النماذج التي تسعى طبيعيًا وراء أهداف غير منسجمة يمكنها التحكم في سلسلة الاستدلال لديها لتفادي المراقبة. بدلًا من ذلك، نقدّر قدرة الوكلاء على التحكم في سلاسل الاستدلال لديهم عن طريق قياس قدرتهم على اتباع التعليمات المتعلقة بـ CoT. إضافة إلى ذلك، تستطيع النماذج التحكم في بعض خصائص سلسلة الاستدلال أفضل من غيرها، وقد يبالغ CoT-Control في تقدير القابلية للتحكم أو يقلّل منها لأنه يقيس مجموعة ضيقة من أنواع القابلية للتحكم.
انخفاض قابلية التحكم في CoT ميزة وليس عيبًا. فالقابلية المنخفضة للتحكم في النماذج الحالية للاستدلال تجعل مراقبة CoT أداة أكثر موثوقية كضمانة للسلامة. وفي الوقت نفسه، لا نفهم بعدُ لماذا تكون قابلية التحكم في نماذج الاستدلال الحالية منخفضة — أو ما إذا كانت هذه الخاصية ستستمر مع ازدياد قدرات النماذج. لذلك يمكن النظر إلى تقييمات قابلية التحكم في CoT على أنها «تقييم إنذاري مبكر»: إشارة مبكرة إلى ما إذا كانت النماذج تتحسن في تشكيل استدلالها أو إخفائه.
تشير نتائجنا إلى أن قابلية التحكم في CoT من غير المرجّح حاليًا أن تشكّل خطرًا كبيرًا على قابلية مراقبة CoT. ومع ذلك، فإن انخفاض القابلية للتحكم لا يكفي وحده لضمان قابلية مراقبة عالية، لأن قابلية المراقبة قد تتدهور عبر آليات أخرى مثل الضغط المباشر لتحسين سلاسل الاستدلال.
لمتابعة هذه الديناميكيات بمرور الوقت، سنبدأ في الإبلاغ عن قابلية التحكم في CoT إلى جانب قابلية مراقبة CoT في بطاقات النظام للنماذج المتقدمة المستقبلية، بدءًا من GPT‑5.4 Thinking، استنادًا إلى التزامنا المستمر بعدم تطبيق ضغط تحسين مباشر على سلاسل الاستدلال في نماذج الاستدلال المتقدمة.
الكتّاب
Tomek Korbak وMicah Carroll وBowen Baker وIan Kivlichan


