تخطي إلى المحتوى الرئيسي
OpenAI

29 مايو 2026

السلامة

دليل مشترك لتقييمات الأطراف الثالثة الموثوقة

ما الذي يهم لإجراء تقييمات مستقلة فعّالة للضمانات الوقائية والقدرات في النماذج المتقدمة.

جاري التحميل...

تؤدي تقييمات الأطراف الثالثة المستقلة والموثوقة دورًا حاسمًا في تعزيز منظومة السلامة. تُجرى هذه التقييمات على النماذج المتقدمة لتوفير أدلة إضافية على الادعاءات المتعلقة بالقدرات الحرجة وتدابير التخفيف الخاصة بالسلامة. في هذا المنشور، نشارك الدروس التي تعلمناها حتى الآن، ونوصي بمقاربات لتصميم تقييمات يمكنها تقييم النماذج المتقدمة تقييمًا صحيحًا، ونأمل أن تساعد في توجيه المعايير الناشئة في هذا المجال.

في السابق، كانت كثير من التقييمات تتعامل مع النماذج كما لو كانت روبوتات دردشة: يوجّه التقييم مطالبة إلى نموذج كما لو كان مستخدمًا يطرح سؤالًا، فيجيب النموذج، ثم يحكم مقيِّم على المخرجات. أما نماذج اليوم المتقدمة فتستطيع فعل أكثر بكثير: يمكنها استخدام الأدوات، وتتبع المعلومات عبر خطوات كثيرة، والعمل ضمن سير عمل أوسع. وهذا يعني أن الأداء لا يعتمد على النموذج وحده، بل أيضًا على البيئة التي تجري فيها المهمة، وعلى الإعداد الذي يسهّل أفعاله. هذا الإعداد المحيط، الذي نسمّيه «الحاضنة»، يمكن أن يغيّر جوانب أساسية من أداء النظام، بما في ذلك كيفية استخدامه للأدوات، أو تتبعه للمعلومات، أو تعافيه من الأخطاء.

مخطط يقارن بين سير عمل مطالبة-استجابة وسير عمل مهمة وكيلية، موضحًا كيف تمكّن حلقات التحكم والأدوات والسياق والميزانية والضمانات الوقائية من تنفيذ المهام ذاتيًا.

وهذا يغيّر كيفية إجراء التقييمات، وما الذي ينبغي للقراء البحث عنه في تقارير التقييم. في رأينا، تصف التقارير الأكثر فائدة أمرين بوضوح إلى جانب النتيجة نفسها: أولًا، تحدد الادعاء الذي صُمم إعداد التقييم لاختباره، وثانيًا، تشارك الأدلة المتاحة على أن نتيجة التقييم صحيحة.

تقع الادعاءات المختبرة في التقييمات عادة ضمن واحدة من ثلاث فئات1:

  • استخراج القدرة: هل يمكن لنموذج أن يُظهر على نحو معقول القدرة الجاري تقييمها؟ 
  • أداء الضمانات الوقائية: ما مدى متانة الضمانات الوقائية المختبرة في مواجهة السلوك أو الهجوم الجاري تقييمه؟
  • المقارنة: كيف تؤدي النماذج المختلفة تحت شروط متكافئة؟

تحتاج تقارير التقييم أيضًا إلى شرح كيف تحقّق المقيّمون من الآثار التي قد تؤثر في صحة النتيجة. وتشمل هذه:

  • التحايل على المكافأة: استغلال اختصارات في المهمة أو أداة التنقيط، بحيث يحصل النظام على الفضل من دون إظهار السلوك الذي يُفترض أن يقيسه التقييم.
  • الرفض: الرفض بطرق تحجب السلوك الجاري اختباره.
  • التلوث: الأداء المفرط لأن مهام التقييم أو إجاباتها أو متغيرات قريبة منها ظهرت في بيانات التدريب أو أمكن اكتشافها أثناء التقييم، مثلًا عبر التصفح.
  • المشكلات المعطوبة: ضعف الأداء لأن المهام غير صالحة. وقد تشمل الأسباب تنقيطًا غير عادل (مثلًا، أن تتطلب الإجابة الصحيحة تفاصيل تنفيذ غير مذكورة) وبيئات غير قابلة للحل (مثلًا، ملفات حرجة مفقودة أو أدوات غير موثوقة).
  • التظاهر بضعف الأداء: خفض الأداء عمدًا عند إظهار وعي بالخضوع للتقييم.

اختيار الحاضنة المناسبة للتقييم أمر بالغ الأهمية لتحقيق أفضل النتائج

لقد لاحظنا أن دور الحاضنة مهم على نحو خاص للأنظمة التي تعمل عبر مسارات أطول. عندما تستطيع النماذج استخدام الأدوات، والحفاظ على الحالة، والتعافي من الأخطاء عبر خطوات كثيرة، يمكن للحاضنة أن تغيّر مستوى الأداء الملحوظ، بل وقد تحدد ما إذا كانت القدرة الجاري تقييمها ستظهر في التقييم أصلًا. فعلى سبيل المثال، قد تتيح حاضنة تحفظ الحالة وتعيد محاولة الأفعال الفاشلة لنموذجٍ ما إكمال مهمة متعددة الخطوات، بينما لا يُكمل النموذج نفسه تلك المهمة أبدًا في حاضنة أبسط.

في الجدول أدناه، نفصل بين ثلاثة أنواع من الادعاءات التي قد يرغب المقيّمون في طرحها والحاضنة التي نعتقد أن كل نوع من الادعاءات يتطلبها.

الادعاء الذي يحاول التقييم دعمه

اختيار الحاضنة المناسب

الأدلة الواجب الإبلاغ عنها

القدرة تحت استخراج قوي: يمكن للنظام A إكمال مهام من النوع X عندما يُصمَّم الإعداد لاستخراج أقوى أداء موثوق لديه.

استخدم أقوى إعداد استخراج موثوق للنظام، بما في ذلك الحاضنة، والأدوات، والبنية المساندة، والميزانية التي قد يستخدمها مستخدم متمكن على نحو معقول.

إعداد الحاضنة والأدوات، وإرشادات الاستخراج، والميزانية/الجهد المسموح به، والرموز/التكلفة/الوقت، وسبب كون الإعداد بديلًا موثوقًا للقدرة المدعاة. إذا جرت مقارنة الأنظمة ضمن إعدادات محسّنة مختلفة، فوسِّم ذلك على أنه مقارنة بين الأنظمة أو مقارنة استخراج قوي.

مقارنة مضبوطة: يتفوق النظام A على النظام B ضمن إعداد تقييم مشترك.

أبقِ المهام، والتنقيط، والميزانية ثابتة. استخدم إما إعداد حاضنة/أدوات مشتركًا أو مجموعة ثابتة من الحاضنات الموحدة المختارة مسبقًا لتوفير استخراج أقصى معقول للأنظمة الجاري مقارنتها.

مجموعة المهام المشتركة، والأدوات، وطريقة التنقيط، والحاضنة، والميزانية، وكفاءة الرموز/التكلفة، والقيود المعروفة. في تقييمات وكلاء البرمجة، يمكن لحاضنة مفتوحة المصدر مثل Codex CLI أن توفّر حلقة وكيل ثابتة وواجهة أدوات موحدة عبر الأنظمة. النهج المثالي للاستخراج الأقصى هو تحسين حاضنة مخصصة لكل مهمة ونظام، لكن ذلك غير عملي حاليًا في التطبيق.

متانة الضمانات الوقائية تحت هجوم مُستخرَج: ضوابط النظام A الوقائية كافية للسلوك ذي الصلة في النموذج أو للهجوم المُستخرَج.

استخدم إعداد اختبار للضمانات الوقائية مصممًا لاستخراج أقوى هجوم موثوق ضمن نموذج الخصم ذي الصلة.

كيف وصف المقيّمون سلوك النموذج ذي الصلة، وتهيئة الضمانات الوقائية المختبرة، واستراتيجية الاستخراج، والحاضنة المستخدمة لتنفيذها، والميزانية أو الجهد المسموح به.

قوة ادعاءات القدرة لا تتجاوز قوة الاستخراج الذي يقف وراءها: يحتاج المقيّمون إلى اختيار الحاضنة التي تلائم المهمة والقدرة التي يحاول التقييم قياسها على أفضل وجه. قد تكون الحاضنة الموحدة مناسبة لمقارنة الأنظمة تحت شروط متطابقة، لكنها قد تقلل من تقدير القدرة عندما تستبعد خصائص محددة في الحاضنة تساعد النموذج على أداء المهمة. فعلى سبيل المثال، يبيّن أداء GPT‑5.5 على نطاقات OpenAI السيبرانية كيف يمكن لاختيار الحاضنة أن يغيّر على نحو جوهري القدرة المقاسة في المهام التي تتطلب استخدامًا طويلًا ومتعدد الخطوات للأدوات: إذ يؤدي النموذج أداءً أفضل عندما تستخدم الحاضنة الضغط السياقي للحفاظ على السياق ذي الصلة بالمهمة كلما طال التفاعل. وهذا يوضح أنه بالنسبة إلى بعض النماذج، فإن الحاضنة التي تستبعد الضغط السياقي ستؤدي إلى استخراج أقل من اللازم للأداء.

معدلات النجاح الأعلى أفضل

وتُظهر تقييمات منشورة أخرى2 أيضًا أن اختيارات الحاضنة والميزانية تغيّر نتائج التقييم. يمكن لزيادة الحوسبة وقت الاختبار أن تغيّر بدرجة كبيرة القدرة التي يستخرجها التقييم، خصوصًا في المجالات التي يسهل فيها التحقق من النجاح، مثل كثير من المهام السيبرانية. في تقييم UK AISI للنطاق السيبراني(يفتح في نافذة جديدة)، أدى رفع الميزانية من 10M إلى 100M رمز إلى تحسين الأداء بما يصل إلى 59%، وكان الأداء لا يزال يتحسن عند أعلى ميزانية جرى اختبارها. إن توضيح ذلك يجعل التقييم أسهل في التفسير: فهو يبيّن للقراء كيف تعتمد النتيجة على إعداد الاستخراج المختبَر. وعندما يظل الأداء يتحسن مع ميزانية إضافية، ينبغي وصف الدرجة بأنها أداء تحت تلك الحاضنة وتلك الميزانية، لا باعتبارها سقفًا مقاسًا للقدرة. فالقدرة غالبًا ما تعتمد على الموارد بدلًا من أن تكون كمية ثابتة يمكن قياسها بوضوح مرة واحدة وإلى الأبد. وحيث يمكن قياس النجاح عبر محاولات متكررة، ينبغي للتقارير أيضًا أن تنظر في التكلفة المتوقعة لكل حل ناجح، لا مجرد معدل النجاح عند ميزانية رموز ثابتة. وقد يجعل ذلك شدة الخطر أسهل في التفسير: فقد يظل معدل النجاح المنخفض ذا دلالة عملية إذا كانت تكلفة المحاولات المتكررة تقع ضمن نموذج التهديد ذي الصلة. وبالنسبة إلى ادعاءات القدرة، فإن الاستخراج المنخفض الذي يمكن تجنبه يُعد فشلًا في القياس: فإذا منعت الحاضنة أو الميزانية النظام من إظهار سلوك كان يمكنه إنتاجه لولا ذلك، فإن الدرجة لا تقيس القدرة المدعاة. وحيث يكون المقيّمون قد دفعوا الاستخراج إلى أبعد حد ممكن عمليًا ولا يزال الأداء يتحسن، ينبغي أن تذكر التقارير ذلك بوضوح وأن توضّح أن النتيجة ليست سوى تقدير حد أدنى.

قد يقلل اختبار الضمانات الوقائية من تقدير إمكانية نجاح الهجوم، ومدى شدته، عندما لا يراعي الموارد المتاحة للمهاجمين، بما في ذلك الحاضنات المخصصة. في تقييم UK AISI السيبراني لـ GPT‑5.5(يفتح في نافذة جديدة)، وجد فريق الاختبار الهجومي الخبير لديهم كسر حماية شاملًا استخرج محتوى سيبرانيًا مخالفًا عبر الاستفسارات الخبيثة التي قدمتها OpenAI، بما في ذلك في إعدادات وكيلية متعددة الأدوار. وقد استخدموا Codex لإنشاء حاضنة مخصصة لتعزيز أداء هجوم النموذج: إذ ضمّنت نمطًا قابلًا لإعادة الاستخدام لتجاوز الضمانات الوقائية داخل التفاعل، وحافظت على هذا النمط عبر الأدوار والكتل، وطبّقته عبر الاستفسارات السيبرانية الخبيثة التي قدمتها OpenAI. ينبغي أن يطابق اختبار الضمانات الوقائية الخصم. فإذا كان الادعاء يتعلق بالمتانة أمام إساءة استخدام من خبير، فينبغي أن يقيّم الاختبار أقوى استراتيجية هجوم شاملة وموثوقة ضمن ميزانية محددة، بما في ذلك أي حاضنة لازمة للحفاظ على تلك الاستراتيجية وإعادة استخدامها. وإلا، فإن النتائج قد تنطوي على سوء معايرة: فقد لا تدعم إلا ادعاءً أضيق يتعلق بمقاومة المطالبات الأبسط، وقد تفوّت كلًا من مدى شدة الهجوم واحتمال نجاحه بعد تشغيل طريقة الاستخراج عمليًا، وقد تبالغ أيضًا في تقدير احتمال المشكلة أو شدتها إذا مُنحت ميزانية كبيرة جدًا.

هناك وقت ومكان للمقارنات باستخدام حاضنات موحدة، لكن ينبغي للمقيّمين أن يوضحوا صراحةً لماذا يكون استخدام مجموعة متسقة من الحاضنات مناسبًا وما الادعاء الذي يمكن أن يدعمه. يُعد تقييم METR للأفق الزمني(يفتح في نافذة جديدة) مثالًا على إعداد تقييم أوسع ومثبت على نحو مناسب: فهو مصمم لإنتاج نتائج قابلة للمقارنة عبر الأنظمة التي يقيّمها. يعرّف METR ناتجًا مشتركًا، وهو المدة المعتادة لمهمة بشرية التي يُتوقع أن ينجح عندها وكيل ذكاء اصطناعي بمستوى موثوقية معين. ويطبّق مجموعة مهام مشتركة، وطريقة تنقيط، وطريقة مواءمة، ومجموعة صغيرة من البنى المساندة القابلة لإعادة الاستخدام مثل Triframe وReAct(يفتح في نافذة جديدة) داخل كل دفعة من التقديرات المُبلّغ عنها معًا. وعندما وسّع METR مجموعة المهام ونقل بنية التقييم التحتية من إطار يُسمى Vivaria إلى آخر يُسمى Inspect، أبلغ عن التغيير (تحديث Time Horizon 1.1(يفتح في نافذة جديدة)) وأعاد تقييم النماذج ضمن إعداد التقييم الجديد. وهذه هي قيمة إعداد التقييم الموحد، بما في ذلك مجموعة حاضنات متسقة: إذ يمكنه أن يمنح القراء ثقة بأن الفرق في الدرجات يعكس فعلًا فرقًا بين الأنظمة الجاري مقارنتها، لا تغيرًا في إعداد القياس.

نوصي بأن تذكر تقارير التقييم التي تجريها أطراف ثالثة نوع الادعاء الذي يُقصد من إعداد تقييمها دعمه؛ وأن تصف مدى قرب ما اختُبر من ذلك الادعاء الأوسع؛ وأن تصف اختيارات الحاضنة التي شكّلت النتيجة؛ وأن تفصّل متى تتغير تلك الاختيارات بين التقييمات؛ وأن تتضمن أدلة داعمة تُظهر كيف أُنتجت النتيجة ومدى جودة تعميمها على الادعاء.

قيّموا الصحة عبر التحقق من المخاطر المعروفة التي قد تشوّه النتائج

كلما ازدادت قدرات النماذج، أصبح من الأسهل إساءة تفسير درجات التقييم. وبالمقارنة مع القدرات الحقيقية، قد تنخفض درجات التقييم اصطناعيًا إذا أدرك النموذج أنه يخضع للتقييم وخفّض أداءه استراتيجيًا. وقد ترتفع إذا استغل النموذج اختصارًا في المهمة أو المطالبة أو أداة التنقيط أو الحاضنة. وقد تتشوّه أيضًا بسبب التلوث (حين يعرف النموذج الإجابة مسبقًا أو يستطيع العثور عليها من دون حل المهمة) أو بسبب المشكلات «المعطوبة» التي تكون ملتبسة أو مُنقَّطة على نحو خاطئ أو غير قابلة للحل أو عرضة لاختصارات غير مقصودة. ولذلك ينبغي أن تقرن تقارير التقييم الدرجات الرئيسية بمناقشة لهذه المخاطر، حتى يتمكن القراء من تقييم ما إذا كانت الدرجات تعكس السلوك المقصود.

فالحاضنات، والميزانيات، والأدوات، وقواعد التنقيط، وأدوات المراقبة، وإجراءات المراجعة، كلها تؤثر في ما إذا كان وكيل ما يحل المهمة المقصودة، أو يتجنبها، أو يحفظها، أو يجد طريقًا للالتفاف حولها. والتقرير الموثوق يجعل هذه الفحوص مرئية: ينبغي للمقيّمين مراجعة العينات بحثًا عن هذه السلوكيات في كل مرة يُجرى فيها تقييم تقديري.

التحايل على المكافأة

يعني التحايل على المكافأة تحقيق درجات تقييم مرتفعة بطرق لا تعكس القدرة المقصودة. وهنا يكمن القلق في أن النظام يحصل على الفضل عبر استغلال المهمة أو أداة التنقيط أو المطالبة أو الحاضنة بدلًا من إنجاز العمل الذي كان التقييم يهدف إلى قياسه. يُظهر تقييم METR لـ GPT 5.4(يفتح في نافذة جديدة) سبب أهمية ذلك: فعلى الرغم من نجاح النموذج في المهام بمعدل كان سيُسجَّل في القراءة الأولى على أنه أفق زمني يقارب 13 ساعة، أظهرت المراجعة البشرية أن بعض تلك النجاحات جاءت من التحايل على المكافأة، وأن مراجعة النتائج لاحتساب الحالات الخالية فقط من هذا التحايل خفّضت التقدير إلى نحو 6 ساعات. ينبغي للمقيّمين تقييم الحاجة إلى مثل هذه التعديلات، وعندما تكون مطلوبة، الإبلاغ عنها بوضوح: فتقدير القدرة يكون أكثر فائدة بكثير عندما يستطيع القراء رؤية أي النجاحات الظاهرية استُبعدت، ولماذا استُبعدت، وإلى أي مدى تعتمد النتيجة على ذلك الحكم.

مخطط يوضح أداء نموذج ذكاء اصطناعي بمرور الوقت مع خط اتجاه وفواصل ثقة.

الرفض

يمكن للنماذج أيضًا أن تُظهر أداءً أقل في تقييمات القدرة بسبب الضمانات الوقائية. فقد يكون أداء النموذج في التقييم أقل مما هو قادر عليه لأنه يرفض مهام التقييم بدلًا من إكمالها. ولذلك ينبغي للتقارير أن تشرح ما إذا كان الرفض جزءًا من نتائج التقييم، وإذا كان كذلك، فكم عدد العينات التي تأثرت بسببه.

التلوث

تظهر أهمية التلوث أكثر ما تظهر في المعايير العامة أو المعاد استخدامها. فإذا ظهرت المهام أو الإجابات أو متغيرات قريبة منها في بيانات التدريب أو أمكن لوكيل مزود بالتصفح العثور عليها، فقد يعكس الأداء الحفظ أو الاسترجاع بدلًا من أداء النموذج. ينبغي للمقيّمين تفضيل المهام الخاصة أو المنشأة حديثًا حيثما أمكن، واختبار ما إذا كانت النماذج تعيد إنتاج تفاصيل خاصة بالمهمة قبل حلها.

المشكلات المعطوبة

تشمل المشكلات المعطوبة حالات مثل مشكلة يتعذر حلها عن غير قصد. إن المشكلات المعطوبة شائعة بما يكفي(يفتح في نافذة جديدة) بحيث ينبغي التعامل معها بوصفها خطرًا معياريًا على الصحة. وتشمل حقائق مرجعية غير صحيحة، ومطالبات ملتبسة، وملفات مفقودة، وخدمات غير مستقرة، ومعايير تنقيط غير عادلة، وبيئات تكشف اختصارات مثل ملفات إجابات مخفية أو تاريخ مستودع يحتوي على التصحيح المرجعي الصحيح.

التظاهر بضعف الأداء

يعني التظاهر بضعف الأداء من جانب نموذج أو نظام خفض الأداء استراتيجيًا عندما يتعارض الأداء القوي مع هدف ما. اختبر تقييم Apollo لـ GPT‑5.5(يفتح في نافذة جديدة) ذلك عبر إنشاء سياق يفهم فيه النموذج أن درجات التقييم المرتفعة قد تؤدي إلى إزالة التعلّم أو منع النشر. ومع ذلك، أجاب GPT‑5.5 إجابات صحيحة، ما يشير إلى قلة الأدلة السلوكية على خفض الأداء الاستراتيجي3. لكن مراجعتهم لآثار الاستدلال أضافت سياقًا مهمًا: فقد وجد Apollo مؤشرات متوسطة أو أعلى على الوعي بتقييم المواءمة في 52% من عينات حالة التظاهر بضعف الأداء، مقارنةً بـ 0% في الحالات المضادة للواقع. يعقّد هذا الدليل تفسير النتيجة، لكنه يمنح القراء في النهاية إشارة أكثر: إذ يمكنهم رؤية النتيجة السلوكية المطمئنة وسبب الحذر من المبالغة في تفسيرها معًا.

كيف ندعم تقييمات أقوى

تتطلب الادعاءات القوية كلاً من الحاضنة المناسبة لاستخراج السلوك وفحوص الصحة لإظهار متانة النتيجة. إن رؤيتنا بأن الحاضنات وفحوص الصحة جزء من نتيجة التقييم تشكّل كيفية دعمنا لتقييمات الأطراف الثالثة عمليًا: 

  • نحن نشارك المقيّمين إرشادات محددة للاستخراج الأقصى.
  • نطلب من مقيّمي القدرات استخدام Codex بوصفه حدًا أدنى مشتركًا لنماذج OpenAI: ينبغي أن تُشغّل الاختبارات على الأقل خط أساس عبر الواجهة الوكيلة نفسها التي يُرجح أن يعتمد عليها المستخدمون، لا عبر واجهة نموذج مجردة ومبسطة فقط.
  • كما نتيح آثار الاستدلال وغيرها من المواد الوسيطة حيث تكون مطلوبة لتقييم الخداع أو التظاهر بضعف الأداء أو الوعي بالتقييم. وقد استخدم METR وApollo هذا الوصول في تقييمات OpenAI منذ GPT‑5. 
  • وأخيرًا، نعطي الأولوية للبحث من أجل فهم أعمق لمتى وكيف تغيّر اختيارات الحاضنة النتائج على نحو جوهري، من إدارة السياق وإتاحة الأدوات إلى سلوك إعادة المحاولة، والتنقيط، وميزانيات الموارد.

ما الذي يعنيه هذا لمعايير التقييم واتجاهات البحث المستقبلية 

لا تهدف هذه التوصيات إلى تحسين تقارير التقييم الفردية فحسب، بل أيضًا إلى الإسهام في توجيه المعايير الوطنية (يفتح في نافذة جديدة)والدولية (يفتح في نافذة جديدة)الناشئة لتقييم الذكاء الاصطناعي المتقدم والإبلاغ عنه. مستقبلًا، ينبغي أن تتطلب معايير التقييم التي تجريها أطراف ثالثة قدرًا كافيًا من التفصيل ليفهم صانعو القرار ما الادعاءات التي تدعمها التقييمات المحددة، وما النظام الذي اختُبر، وكيف استُخرجت النتيجة، وكيف تحقّق المقيّمون من صحتها. وبالنسبة إلى الأنظمة المتقدمة التي تُختبر على مهام تكون فيها القدرات الوكيلة مهمة، ينبغي أن تشمل التفاصيل (رهناً بأي اعتبارات أمنية أو سرية):

  • الادعاء: ما إذا كان التقييم يقارن بين الأنظمة، أو يقدّر سقف القدرة، أو يختبر الضمانات الوقائية.
  • محتوى التقييم: قدرًا كافيًا من التفصيل عن المهام أو توزيع المهام ليفهم القراء ما المهارات أو السلوكيات أو أنماط الإخفاق التي يختبرها التقييم فعلًا.
  • النظام المختبَر: النموذج، وإعداد الاستدلال، وإتاحة الأدوات، والحاضنة، والضمانات الوقائية.
  • الميزانية: الأدوار، والرموز، والمحاولات/إعادات المحاولة، والوقت الفعلي، وتكلفة الاستدلال، وحيثما ينطبق الأمر التكلفة المتوقعة لكل حل ناجح.
  • أساليب الاستخراج: اختيارات الحاضنة المستخدمة لاستخراج النتيجة، ومدى قرب ما اختُبر من الادعاء الأوسع الجاري طرحه.
  • فحوص الصحة: كيف بحث المقيّمون عن التحايل على المكافأة، والوعي بالتقييم، والتلوث، والرفض، والتظاهر بضعف الأداء، وغيرها من السلوكيات التي قد تقوّض النتيجة، بما في ذلك كيف أثرت الحالات المؤكدة في التنقيط أو التفسير.

إن المعايير التي تستبعد اختيارات الحاضنة أو فحوص الصحة قد تقلل من تقدير ما يستطيع النظام فعله أو تبالغ في الثقة بادعاء متعلق بالسلامة. ولا يزال بناء حاضنات قوية وأساليب استخراج فعالة مجالًا بحثيًا مفتوحًا، وينبغي أن يكون محورًا لمزيد من البحث والاستثمار.

المؤلف

OpenAI

مسرد المصطلحات

لأننا نستخدم عددًا من المصطلحات الفنية في هذا المنشور، فقد أدرجنا أدناه مسردًا يقدّم شرحًا بلغة بسيطة لما نشير إليه:

  • النظام الوكيلي: نظام يمكنه إنجاز مهمة عبر خطوات متعددة، باستخدام الأدوات، والحفاظ على حالة المهمة، والتصرف داخل بيئة، بدلًا من الاكتفاء بإرجاع استجابة واحدة لمطالبة.

  • التقييم التقديري: حكم أوسع بشأن ما إذا كانت الأدلة تدعم ادعاءً أو استنتاجًا متعلقًا بالمخاطر أو موقفًا تأكيديًا، وقد يستند إلى بيانات التقييم، ومراجعة الوثائق، والمقابلات، ومراجعة العمليات، وغيرها من المواد ذات الصلة.

  • الضغط السياقي: طريقة للحفاظ على السياق ذي الصلة بالمهمة أثناء التشغيلات الطويلة.

  • التهيئة: النظام الدقيق الذي خضع للاختبار وظروف التقييم، بما يتجاوز اسم النموذج.

  • التلوث: عندما تظهر مهام التقييم أو إجاباتها أو متغيرات قريبة منها في بيانات تدريب نموذج أو يمكن اكتشافها أثناء التقييم (مثلًا عبر أدوات مثل التصفح)، بما يجعل الأداء يبالغ في تقدير التعميم الحقيقي للنموذج.

  • الاستخراج: عملية محاولة استنطاق قدرة أو سلوك من نظام أثناء التقييم التقديري.

  • البيئة: سياق المهمة الذي يُختبر فيه النظام. يشمل ذلك أمورًا مثل الحالة الخارجية التي يتفاعل معها الوكيل ويعدّلها أثناء التقييم، مثل بيئة طرفية أو لعبة فيديو.

  • التقييم: اختبار أو قياس محدد ضمن تقييم تقديري.

  • الوعي بالتقييم: يشير الوعي بالتقييم إلى أن يتعرف النموذج، أو يبدو أنه يتعرف، على أنه يخضع للتقييم، وقد يعدّل سلوكه استجابةً لذلك السياق. قد يبدو ذلك في صورة استدلال النموذج صراحةً بشأن كونه قيد الاختبار، أو استنتاجه لغرض التقييم، أو تغييره لسلوكه لأنه يتوقع أن تؤثر النتيجة في كيفية الحكم عليه أو نشره.

  • الحاضنة: البنية المواجهة للنموذج التي تتيح له تنفيذ مهمة: المطالبات، والأدوات، والواجهات، ومنطق التحكم، والذاكرة، وإعادات المحاولة، وأدوات التحقق، وغيرها من البنى الداعمة المحيطة بالنموذج.

  • الاستخراج الأقصى: اختبار يهدف إلى العثور على أقوى أداء موثوق أو نمط إخفاق يمكن للنظام إنتاجه ضمن ميزانية محددة، بدلًا من مجرد تشغيل النظام مرة واحدة عبر حاضنة موحدة.

  • آثار الاستدلال: سجلات الاستدلال الوسيط للنموذج أثناء الاختبار.

  • التحايل على المكافأة: تحقيق درجة عالية عبر اختصار أو سلوك خارج مقصود المقيِّم.

  • الضمانات الوقائية: المرشحات، وأدوات المراقبة، وأنظمة الحجب، وغيرها من وسائل الحماية المطبقة حول نموذج أو منتج.

  • التظاهر بضعف الأداء: ضعف أداء استراتيجي في التقييم على نحو يقوّض النتيجة.

  • التنقيط: الطريقة المستخدمة لتحديد كيفية قياس الأداء أو ما إذا كانت المهمة قد نجحت.

  • الحاضنة الموحدة: حاضنة تُبقى كما هي عبر الأنظمة بدلًا من تخصيصها لنموذج أو مهمة بعينها، بحيث يسهل عزو الفروق في النتائج إلى النموذج المختبَر.

  • الأفق الزمني: طول المهمة التي يمكن للنظام إكمالها بموثوقية محددة، وغالبًا ما يُعبَّر عنه بمدة استغراق الإنسان في إنجاز المهمة نفسها.

  • إتاحة الأدوات: الأدوات الخارجية المتاحة للنموذج أثناء التقييم التقديري.

  • المسارات: المسارات خطوة بخطوة التي يتبعها النظام أثناء العمل على مهمة.

  • كسر حماية شامل: نمط هجوم واحد يتسبب في تجاوز النظام للضمانات الوقائية عبر كثير من المطالبات أو المهام.

الحواشي

  1. 1

    لا يحاول هذا المنشور حسم كيفية وجوب تقييم الأطراف الثالثة لادعاءات عدم المواءمة أو الادعاءات المتعلقة بالنزعة السلوكية. ثمة حاجة إلى مزيد من العمل لفهم كيف تؤثر اختيارات الحاضنة في تلك التقييمات، خصوصًا لأن الحاضنات التي تدعم سلوكًا ذا أفق أطول قد تغيّر أيضًا أنواع السلوك غير المقصود التي يحتاج المقيّمون إلى مراقبتها.

  2. 2

    يوفّر HAL(يفتح في نافذة جديدة) مثالًا إضافيًا من تقييمات الوكلاء: ففي CORE-Bench(يفتح في نافذة جديدة)، أدى تغيير الحاضنة إلى Claude Code إلى تغيير كلٍّ من الأداء المقاس وملف التكلفة على المعيار نفسه. وتشمل أمثلة عامة أخرى SWE-agent(يفتح في نافذة جديدة) وSeeAct(يفتح في نافذة جديدة) وScienceAgentBench(يفتح في نافذة جديدة) وCORE-Bench(يفتح في نافذة جديدة) وInspect Cyber(يفتح في نافذة جديدة)؛ إذ يوضح كلٌّ منها للقراء الواجهة أو الحاضنة التي أنتجت الدرجة.

  3. 3

    تحقيق 100% في كلا متغيرَي Sandbagging QA و99.6% في مهمة التظاهر بضعف الأداء عبر الخداع الاستراتيجي.