التنبؤ بسلوك النموذج قبل الإصدار عبر محاكاة النشر
استخدام سياقات محادثة واقعية لتحسين تقدير سلوك النموذج غير المرغوب فيه قبل الإصدار.
قبل إصدار نموذج جديد، تحتاج المختبرات إلى فهم ليس فقط ما يستطيع فعله، بل كيف يُرجّح أن يتصرف في الاستخدام الواقعي، بما في ذلك المواضع التي قد يسبب فيها مخاطر جديدة. ويصبح هذا أكثر أهمية مع زيادة القدرات. وكجزء من مراجعتنا للسلامة قبل النشر، نستفيد من تقييمات موجّهة، واختبارات الفريق الأحمر، وفحوص أخرى لفهم سلوك النموذج. بدأنا الآن استخدام طريقة لمحاكاة نشر النماذج قبل حدوثه، ما يضيف إشارة مكملة: معاينة شبيهة بالنشر لكيفية تصرف نموذج مرشح قبل أن يصل إلى المستخدمين.
محاكاة النشر هي طريقة لمحاكاة نشر مستقبلي قبل حدوثه. نفعل ذلك عبر إعادة تشغيل محادثات سابقة بطريقة تحفظ الخصوصية باستخدام نموذج مرشح جديد. يتيح لنا ذلك دراسة كيفية استجابة النموذج الجديد في سياقات واقعية قبل الإصدار، بما في ذلك ما إذا كانت سلوكيات جديدة غير مرغوبة تظهر، وكم قد يتكرر ظهورها.
عبر عدة عمليات نشر لنماذج التفكير من سلسلة GPT‑5، حسّنت محاكاة النشر تقديراتنا لمعدلات سلوك النموذج غير المرغوب فيه، وساعدت في كشف أشكال جديدة من سوء المواءمة قبل الإصدار، وساعدت في تقليل خطر قدرة النماذج على معرفة أنها تخضع للاختبار. كما طبقنا الطريقة على عمليات طرح وكيلة صعبة، مبيّنين أنها يمكن أن تمتد إلى ما وراء الدردشة القياسية لتشمل إعدادات وكيلة أكثر تعقيدًا تتضمن استخدام الأدوات، ويمكن استخدامها أيضًا لتقييم المخاطر قبل نشر النماذج داخليًا.
لقد استخدمنا بالفعل رؤى من محاكاة النشر أثناء تطوير النموذج لتحديد الثغرات في التقييمات التقليدية وإرشاد إجراءات التخفيف وقرارات النشر. ومع جعل خط الإنتاج أسهل تشغيلًا، نتوقع أن يؤدي دورًا أكبر في عملية تطوير النماذج مستقبلًا.
تتكون تقييمات ما قبل النشر المستخدمة في القطاع عمومًا من مزيج من مطالبات اصطناعية أو مكتوبة يدويًا أو إنتاجية تُختار عمدًا لتكون صعبة أو عالية الخطورة أو عدائية. كان لهذه التقييمات عمومًا هدفان متداخلان: تقييم كيفية استجابة النموذج عند اختباره تحت الضغط في مواقف احتمال حدوثها في حركة النشر ضئيل جدًا، واكتساب فهم عام لسلوكيات النموذج غير المرغوب فيها، بما في ذلك العثور على سلوكيات جديدة غير مرغوبة والتنبؤ بتواترها وقت النشر.
بينما تظل التقييمات التقليدية حاسمة للهدف الأول، تمثل محاكاة النشر خطوة مهمة إلى الأمام بخصوص الهدف الثاني للمخاطر غير النادرة (في تجاربنا، لا يُتوقع من نهجنا قياس السلوكيات التي تحدث بتواتر أقل من 1 في 200,000 رسالة). تأتي قوة محاكاة النشر من تجاوز بعض التحديات الأساسية في التقييمات التقليدية:
- التغطية: من الصعب الوثوق بأن مطالبات التقييم ستغطي كل الأنواع الممكنة لسلوك النموذج غير المرغوب فيه. يتطلب قياس أنواع جديدة من السلوك غير المرغوب فيه إنشاء تقييمات جديدة ومعرفة الأضرار التي ينبغي قياسها. وقد يكون ذلك مكثفًا من حيث الوقت والعمل، كما يمكن أن تتشبع التقييمات بمرور الوقت.
- تحيزات الاختيار: تُبنى التقييمات التقليدية عمومًا مع وضع سلوكيات محددة غير مرغوبة للنموذج في الاعتبار، وتُختار بطرق تنحاز نحو سياقات حدثت سابقًا. وقد يجعل ذلك تقديراتها أقل إفادة بشأن وقوع مثل هذه السلوكيات عبر كامل نطاق توزيع النشر.
- إمكانية تعرّف النماذج عليها كاختبارات: أصبحت النماذج قادرة بصورة متزايدة على تحديد أنها تخضع للاختبار، ما قد يشوه سلوكها وقياساتنا اللاحقة لسلامتها. ورغم أن العديد من التقييمات التقليدية التي نستخدمها في OpenAI مستمدة أيضًا من حركة الإنتاج ولا تعاني من هذه المشكلة، فإن هذا مصدر قلق شائع في العديد من التقييمات التقليدية المستخدمة عبر القطاع.
التقنية الرئيسية وراء محاكاة النشر بسيطة: نأخذ محادثات حديثة من النشر، ونزيل استجابة المساعد الأصلية من النموذج الأقدم، ثم نعيد توليدها باستخدام نموذج مرشح للإصدار. نقيّم الإكمالات عبر البحث عن أنماط فشل جديدة، ونقدّر تواتر السلوك غير المرغوب فيه وقت النشر بناءً على تواتره في هذا التوزيع الشبيه بالنشر. يمكننا إجراء القياسات نفسها بعد الإصدار على حركة نشر حقيقية، ما يتيح لنا التحقق من صحة توقعاتنا قبل النشر.
تخفف محاكاة النشر بدرجة كبيرة القيود الثلاثة المذكورة أعلاه: يُعالَج تحيز أخذ العينات باستخدام توزيع لمطالبات التقييم يمثّل الاستخدام الحديث. كما يمكن لمحاكاة النشر باستخدام مطالبات تمثيلية أن تخفف المخاوف بشأن التغطية: نحصل على تغطية أكبر لسلوكيات النموذج غير المرغوب فيها بمجرد محاكاة مزيد من الحركة. هذه المفاضلة بين القدرة الحاسوبية والتغطية مهمة، لأنها تجعل جودة هذا المحور من تقييم المخاطر تتوسع مع القدرة الحاسوبية، بدلًا من الجهد اليدوي المطلوب لبناء مزيد من التقييمات. كما لا يبدو أن النماذج قادرة على التمييز بين المحادثات التي حُصل عليها عبر محاكاة النشر وحركة النشر الحقيقية.
الشكل 1: نظرة عامة على خط إنتاج محاكاة النشر لدينا
المجال | التقييمات التقليدية | محاكاة النشر |
التغطية | أفضل للمخاطر منخفضة الانتشار وعالية الخطورة التي نريد التأكد من تغطيتها | أفضل لفهم طيف المخاطر التي يُرجح أن نراها في حركة النشر |
التمثيل / التحيز | تركز على تقييم مخاطر مستهدفة سابقة أو متوقعة، حتى للسلوكيات ذات الانتشار المنخفض للغاية في النشر | تمثل المخاطر التي تحدث فوق مستوى انتشار معين في حركة النشر الحالية |
الوعي بالتقييم | إشارات اختبار قد تكون واضحة (مثلًا مع البيانات الاصطناعية) ما لم تُنشأ التقييمات باستخدام بيانات النشر | يبدو أن السياق الشبيه بالنشر يخفف الوعي بالتقييم بدرجة كبيرة |
الجهد | تتطلب توزيعات المطالبات والإعدادات المخصصة جهدًا يدويًا أكبر بكثير | تتطلب تكلفة بنية تحتية لمرة واحدة، ثم تعيد استخدام بادئات من النشر ومقيّمين من السلوكيات غير المرغوبة المعروفة |
مقارنة عامة بين التقييمات التقليدية ومحاكاة النشر
لتقييم محاكاة النشر، سجلنا مسبقًا تنبؤات لتواتر 20 نوعًا من السلوك غير المرغوب فيه وقت النشر لنموذج GPT‑5.4 Thinking. كما أجرينا دراسات بأثر رجعي عبر عمليات نشر أخرى لنماذج Thinking من سلسلة GPT‑5. تغطي سلوكيات النماذج التي نحللها كلًا من سوء المواءمة وفئات المحتوى غير المسموح بها التي كنا نبلّغ عنها في بطاقات النظام (مثل كذب النموذج بشأن الأدوات أو إخراج محتوى جنسي غير مسموح به). ورغم أننا في هذه النتائج لا نتتبع سوى 20 فئة من سلوك النموذج غير المرغوب فيه، ولا نبحث إلا عن سلوكيات جديدة سيئة المواءمة، فإن محاكاة النشر تقنية عامة يمكن تطبيقها لمحاكاة أي خاصية للنموذج وقت النشر.
وكانت حركة الإنتاج التي استفدنا منها أيضًا من نماذج Thinking من سلسلة GPT‑5. قبل إجراء تقييماتنا، أزلنا تلقائيًا المعرّفات المرتبطة بالحساب والمعلومات القابلة للتعرّف. وفقًا لسياسة الخصوصية لدينا، حللنا فقط حركة ChatGPT من المستخدمين الذين يسمحون باستخدام بياناتهم لتحسين النماذج. ولا نعرض إلا نتائج مجمعة من هذه التقييمات. إجمالًا، حللنا نحو 1.3 مليون محادثة منزوعة الهوية عبر عمليات نشر GPT‑5 Thinking حتى GPT‑5.4، ممتدة من أغسطس 2025 إلى مارس 2026.
نقيّم جودة تقييم المخاطر قبل النشر الذي تنتجه محاكاة النشر بثلاث طرق رئيسية:
- تغطية التصنيف: هل كشف التدقيق بعد الإصدار أي سلوكيات مهمة سيئة المواءمة كانت مفقودة من تصنيفنا الأولي للسلوك السيئ؟
- الدقة الاتجاهية: هل تنبأت المحاكاة بشكل صحيح بما إذا كان انتشار السلوكيات المعروفة سيزيد أم ينقص عند النشر؟
- معايرة المعدل: هل كانت تقديراتنا قبل النشر قريبة من المعدلات التي لاحظناها لاحقًا في النشر؟ يتطلب تحقيق معايرة جيدة للمعدل أكثر من الدقة الاتجاهية، ما يجعل هذا أعلى معيار جودة ممكن.
نقيس أيضًا مدى قدرة النماذج على معرفة أنها في تقييم أثناء محاكاة النشر، ونختبر مدى متانة الطريقة أمام أشكال مختلفة من حركة النشر وإعدادات استخدام الأدوات الصعبة.
عبر عمليات نشر نماذج Thinking من سلسلة GPT‑5، تفوقت محاكاة النشر على خطوط الأساس ذات المطالبات الصعبة في تحديد معدل الخطر الفعلي، وتمكنت من كشف اختراق الآلة الحاسبة قبل الإصدار، وبدت ربما غير قابلة للتمييز عن النشر بالنسبة إلى النموذج.
نظرة عامة على تنبؤاتنا. للاطلاع على تصور لجميع التنبؤات الخاصة بعمليات نشر نماذج Thinking من سلسلة GPT‑5، انظر الشكل 2. كانت تنبؤات GPT‑5.4 Thinking مسجلة مسبقًا، بينما كانت الأخرى تنبؤات بأثر رجعي. إجمالًا، كان لتنبؤاتنا خطأ ضربي وسيط قدره 1.5x (مثلًا، إذا كان معدل السلوك غير المرغوب فيه 10 لكل 100 ألف، فسيوافق ذلك تقدير معدل 15 أو 6.67 لكل 100 ألف). ورغم أن أخطاء الذيل في طريقتنا قد تكون أكبر بنحو 10x، نتوقع إمكانية خفضها بدرجة كبيرة مع مزيد من التحسينات على خط إنتاج المحاكاة لدينا، كما نناقش أدناه.
الشكل 2. تنبؤات تكرار محاكاة النشر للسلوك غير المرغوب فيه وقت النشر استنادًا إلى بيانات نشر سابقة. تشير الصيغة 5.1 → 5 إلى أننا نعيد أخذ عينات من البادئات من GPT‑5 باستخدام GPT‑5.1، أي نحاكي نشر GPT‑5.1 بناءً على بيانات من GPT‑5. كان أعلى معدل للسلوك غير المتوافق هو «اختراق الآلة الحاسبة» في GPT‑5.1، وقد ناقشناه سابقًا(يفتح في نافذة جديدة).
مقارنة تنبؤات محاكاة النشر بخطوط الأساس. أهم الفئات التي يجب تقديرها بدقة لتقييمات المخاطر قبل النشر هي تلك التي يحدث فيها تغيّر كبير في معدل الوقوع بعد نشر النموذج (مثلًا >= 1.5x). في هذه المجموعة الفرعية، تكون محاكاة النشر أفضل بكثير من خطوط الأساس في التنبؤ بما إذا كان سلوك غير مرغوب فيه معين سيزيد أو ينقص انتشاره مع نشر نموذج (الشكل 3، يسارًا)، وكذلك في تقدير معدل وقوعه الدقيق وقت النشر (الشكل 3، يمينًا). نستخدم خطي أساس رئيسيين: خط أساس «المطالبات الصعبة» الذي نستخدمه حاليًا لبطاقات النظام وقرارات الإطلاق، وخط أساس بسيط يستخدم معدلات النشر السابق كتقديرات للنموذج الجديد.
الشكل 3. تتنبأ محاكاة النشر باتجاه تغيّرات الوقوع (يسارًا) وبمعدلات الإنتاج الدقيقة (يمينًا) أفضل من التقييمات الثابتة.
مصادر خطأ المحاكاة في خط إنتاجنا. درسنا أيضًا مصادر الخطأ الحالية في خط إنتاجنا. تحديدًا، تجعل أخطاء الذيل الكبيرة خط الإنتاج أقل موثوقية لقرارات النشر: فعند رؤية زيادة كبيرة متوقعة في سلوك غير مرغوب فيه من نوع معين، إذا كان معروفًا أن خط الإنتاج يتضمن أخطاء كبيرة ولو عرضية، فإنه يثير الشك في ما إذا كان هذا تقديرًا موثوقًا أم أثرًا جانبيًا من خط الإنتاج. هناك مصدران رئيسيان للخطأ المحتمل:
- خطأ وفاء بيئة إعادة أخذ العينات: لتقدير معدلات الإنتاج بدقة، يجب أن يكون خط إنتاج المحاكاة لدينا واقعيًا قدر الإمكان. هذا جزئيًا مشكلة هندسية (أخذ عينات من النموذج باستخدام خطوط الإنتاج نفسها المستخدمة لحركة الإنتاج)، وجزئيًا تحدٍّ مثير للاهتمام للأدوات التي تحتاج إلى وصول قراءة/كتابة إلى موارد خارجية تتغير باستمرار (مثل عمليات بحث الويب أو التفاعل مع ملفات محلية). يمكننا عزل خطأ وفاء المحاكاة بمقارنة التنبؤات من نشر فعلي ومحاكاته (أي محاكاة نشر النموذج المنشور بالفعل).
- خطأ انزياح توزيع المطالبات: أحد الشواغل الرئيسية في محاكاة النشر هو أن نشر أي نموذج سيسبب انزياحًا توزيعيًا في المدخلات، خصوصًا إذا تكيف المستخدمون مع إمكانات النموذج الجديدة. نعزل خطأ توزيع المطالبات بمقارنة التقديرات عند محاكاة النشر باستخدام مطالبات حديثة مقابل مطالبات من النشر المتحقق.
كما يظهر في الشكل 4، نجد أن جزءًا كبيرًا من الخطأ في خط إنتاجنا – وخاصة أخطاء الذيل – يرجع حاليًا إلى وفاء المحاكاة. وهذه أخبار جيدة، لأننا نتوقع أن تحسين وفاء المحاكاة أسهل عمومًا من تقليل انزياح توزيع المطالبات. ونجد أيضًا أن خطأ انزياح توزيع المطالبات قد ينخفض باستخدام أحدث البيانات من النشر السابق. يمكن العثور على مزيد من التفاصيل في الورقة البحثية.
الشكل 4: يبدو أن وفاء بيئة إعادة أخذ العينات هو أكبر مصدر للخطأ في تقديراتنا، خاصة في أكثر الأخطاء تطرفًا.
وجد التدقيق الآلي حالة سوء المواءمة الجديدة الوحيدة التي أُدخلت في عمليات النشر هذه. في نافذة النشر التي درسناها، كان خط إنتاج التدقيق الآلي لدينا القائم على عمليات نشر محاكاة سيكشف «اختراق الآلة الحاسبة» قبل الإصدار، وهو سوء المواءمة الجديد الوحيد الذي حددناه في حركة ChatGPT المحللة. اختراق الآلة الحاسبة شكل من أشكال اختراق المكافأة يتضمن استخدام النموذج أداة متصفح كآلة حاسبة مع تقديم الإجراء على أنه بحث. لا يعني هذا أن التدقيق واسع النطاق سيكتشف كل فشل جديد، لكنه يوضح سبب أهمية السياقات الواقعية: فهي يمكن أن تستثير سلوكيات قد لا تكشفها مجموعات التقييم الأضيق مباشرة أبدًا، حتى لو لم تكن موجودة في الحركة الأصلية المستخدمة كبذرة للمحاكاة.
ميزة أخرى لاستخدام سياقات شبيهة بالنشر هي أنها قد تقلل التشوهات التي تنشأ عندما تدرك النماذج أنها تخضع للاختبار. في أبحاث سابقة، وجد نحن وكذلك آخرون(يفتح في نافذة جديدة) أن النماذج غالبًا ما تكون واعية بوقت اختبارها. على سبيل المثال، قد تستدل النماذج في سلسلة الاستدلال الخاصة بها بشأن ما تُختبر عليه، وما قد يفضله المقيّم، و– إذا كانت تسيء التصرف – ما إذا كان سيتم كشفها. يمثل هذا مشكلة لتقييمات المواءمة: إذا كان النموذج حسن السلوك فقط لأنه يعتقد أنه يخضع للاختبار، فكيف نبني الثقة بأنه سيتصرف بأمان عندما يعلم أنه نُشر؟
نبيّن أن محاكاة النشر تقلل بدرجة كبيرة مستويات الوعي بالتقييم التي تظهرها النماذج مقارنة بالتقييمات التقليدية غير القائمة على بيانات نشر حقيقية. نقيس الوعي بالتقييم بثلاث طرق: بأن نطلب من نموذج تصنيف ما إذا كان مسار ما جاء من الإنتاج أم من تقييم، ومراقبة سلسلة الاستدلال للعثور على تصريحات صريحة عن الخضوع لتقييم المواءمة، وكذلك للتلاعب الفوقي(يفتح في نافذة جديدة): أي استدلال بشأن الرقابة. تطابقت حركة النشر المحاكاة بدرجة كبيرة مع حركة النشر الحقيقية عبر المقاييس الثلاثة كلها. على سبيل المثال، صنّف GPT‑5.2 حركة الإنتاج الحقيقية على أنها شبيهة بالتقييم في 5.4% من الوقت، والحركة المحاكاة في 5.1% من الوقت، بينما صُنّفت التقييمات التقليدية (مثل SWE-Bench أو MonorepoBench، المكوّنة أساسًا من أمثلة اصطناعية) كتقييمات في قرابة 100% من الوقت.
الشكل 5. مقارنة الوعي بالتقييم: تُظهر حركة الإنتاج الحقيقية والحركة المحاكاة معدلات متشابهة لكشف التقييم، والوعي المصرّح به بتقييم المواءمة، والتلاعب الفوقي، بينما تُظهر مجموعات بيانات التقييم التقليدية معدلات أعلى بكثير.
لاختبار ما إذا كان يمكن للطريقة أن تمتد إلى ما وراء أوضاع الدردشة القياسية، درسنا أيضًا محاكاة عمليات النشر لإعدادات البرمجة الوكيلة الصعبة. تحديدًا، نستخدم 120,000 مسار وكيل داخلي لموظفين من GPT‑5.4 لمحاكاة النشر الداخلي لوكلاء البرمجة القائمين على GPT‑5.5. يخدم هذا غرضين: فهو يبيّن كيف يمكن استخدام محاكاة النشر أيضًا لتقييم المخاطر في عمليات النشر الداخلية، ويبرهن أنه من الممكن جعل وفاء المحاكاة عاليًا حتى في الإعدادات الوكيلة عبر محاكاة دقيقة للأدوات.
ناقشنا أعلاه أن وفاء المحاكاة أحد المصادر الرئيسية للخطأ في خط إنتاجنا الحالي. أحد تحديات جعل محاكاة النشر واقعية هو أنها تتطلب أن تتصرف الأدوات بطرق واقعية، حتى عندما تحتاج إلى وصول قراءة/كتابة إلى موارد خارجية تتغير باستمرار (مثل عمليات بحث الويب أو التفاعل مع ملفات محلية).
وهذا صعب خاصة في إعدادات مثل عمليات النشر الوكيلة: فقد يعتمد مسار وكيل واحد على مئات استدعاءات الأدوات، أو حالة المستودع، أو استجابات الشبكة، أو الإخفاقات العابرة. يجعل هذا إعادة أخذ العينات مع وصول حقيقي إلى الأدوات أمرًا صعبًا وربما خطيرًا. في ضوء ذلك، بدلًا من تطبيق استدعاءات الأدوات على أنظمة حية، نحاكيها باستخدام نموذج لغوي كبير (LLM) آخر. نبيّن أن منح هذا النموذج اللغوي الكبير (LLM) إمكانات إضافية ضروري للواقعية، وبالتالي لجودة التقدير.
نعطي نموذج محاكاة الأدوات عملية الطرح الأصلية للدور الأخير، والمستودع من وقت المحادثة، وقاعدة بيانات لأزواج استدعاء الأدوات/الاستجابة، وموصلات للقراءة فقط. في اختبار حاول فيه مُميّز التفرقة بين عمليات الطرح المحاكاة والحقيقية، تحسنت الواقعية من معدل فوز 11.6% إلى 49.5%، أي بالقرب من مستوى الصدفة 50%.
الشكل 6: يمكن جعل واقعية إعادة أخذ العينات شبه غير قابلة للتمييز عن أخذ العينات الحقيقي حتى في الإعدادات كثيفة الأدوات عند محاكاة استدعاءات الأدوات بإمكانات أكبر.
كدليل إضافي على وفاء المحاكاة، عند محاكاة حركة تفكير GPT‑5.4 Codex باستخدام GPT‑5.4، تكون معدلات سوء المواءمة، تقريبًا، ضمن أشرطة الخطأ. في المقابل، كان GPT‑5.5 أكثر سوءًا في المواءمة في معظم الفئات في اختباراتنا قبل النشر.
الشكل 7: مع محاكاة الأدوات، تكون معدلات السلوك للمحادثات المعاد أخذ عيناتها باستخدام GPT‑5.4 وحركة إنتاج GPT‑5.4 الفعلية متشابهة إلى حد كبير – ما يشير إلى وفاء عالٍ لبيئة إعادة أخذ العينات. راجع بطاقة نظام GPT‑5.5(يفتح في نافذة جديدة) لمزيد من السياق حول الفئات.
تشير هذه النتائج إلى أن محاكاة النشر يمكن أن تمتد إلى إعدادات وكيل معقدة عندما تُحاكى بيئة الأدوات المحيطة بوفاء كافٍ.
السؤال الطبيعي هو ما إذا كان بإمكان المدققين الخارجيين الحصول على بعض الفوائد نفسها دون الوصول إلى حركة إنتاج خاصة. اختبرنا ذلك باستخدام 100,000 محادثة WildChat كبادئات. كان WildChat أقل دقة من بيانات الإنتاج الحديثة لدى OpenAI، لكنه ظل مفيدًا: فقد كان متوسط الخطأ الضربي لبيانات الإنتاج الحديثة أقل من WildChat (1.75× مقابل 2.44×)، بينما بقي WildChat غالبًا ضمن نحو 3× من معدلات الإنتاج وحدد النموذج الأفضل بمعدلات أعلى من الصدفة. نرى أن التقييمات بأسلوب WildChat مكمل واعد لمحاكاة النشر التي يجريها المطورون. راجع منشور مدونة المواءمة(يفتح في نافذة جديدة) المصاحب هذا لمزيد من النتائج حول هذه النقطة.
محاكاة النشر مكمل للتقييمات العدائية، واختبارات الفريق الأحمر، وتحليل مخاطر الذيل الموجّه، وليست بديلًا عنها. يعتمد اكتشاف بعض سلوكيات النموذج غير المرغوب فيها على قابلية مراقبة سلسلة الاستدلال: فإذا استدلّت النماذج المستقبلية بوضوح أقل، أو حذفت خطوات رئيسية، أو تعلمت إخفاء القصد، فقد لا نتمكن من اكتشاف هذه الأشكال من السلوك غير المرغوب فيه. علاوة على ذلك، لأن بيانات الإنتاج خاصة، يتمتع المطورون حاليًا بوصول أقوى إلى سياقات تمثيلية مقارنة بالمدققين الخارجيين. ويمكن لمجموعات بيانات عامة أفضل أن تضيق هذه الفجوة.
تكون محاكاة النشر أكثر فائدة للسلوكيات التي تحدث بتكرار كافٍ لتظهر في البادئات المأخوذة عيناتها. من غير المرجح اكتشاف فشل يحدث مرة واحدة في كل عشرة ملايين محادثة في تشغيل بعينة مليونية، لذلك تظل التقييمات العدائية واختبارات الفريق الأحمر وتحليل مخاطر الذيل الموجّه ضرورية. نركز حاليًا على محاكاة استجابة مساعد واحدة، إذ لم نجد في تجارب أولية تحسينات ذات مغزى في تقديراتنا عند محاكاة أدوار متعددة. وقد يكون هذا مجالًا مهمًا لتحسين وفاء المحاكاة في المستقبل.
تعتمد الطريقة أيضًا على توزيع البادئات—أي مزيج المحادثات التي تُعاد أخذ عيناتها. قد لا تتطابق الحركة التاريخية مع كيفية تفاعل المستخدمين مع نموذج أكثر قدرة بعد تغيير كبير في المنتج، أو إصدار أداة جديدة، أو حدث عالمي، أو تحول موسمي. يشير التحليل في الورقة الكاملة إلى أن هذه المشكلة يمكن تخفيفها باستخدام أحدث البيانات المتاحة.
محاكاة النشر نهج جديد لتقييم المخاطر قبل النشر يساعد مختبرات النماذج الرائدة والمقيّمين على التنبؤ بكيفية تصرف نماذج اللغة في العالم الحقيقي وفهم المخاطر التي تطرحها قبل النشر. وهي تكمل تقييمات السلامة الحالية، واختبارات الفريق الأحمر، والتحليل الموجّه بإضافة طبقة تنبؤ أشبه بالإنتاج يمكنها تحسين تقديرات سلوك النشر، وتقليل آثار الوعي بالتقييم، وجعل التنبؤات قبل النشر قابلة للتحقق بعد الإصدار. عند استخدامها إلى جانب التقييمات التقليدية، يمكن أن تساعد محاكاة النشر في جعل تقييم مخاطر النموذج أكثر واقعية وكمية وفائدة لقرارات النشر.


