پرش به محتوای اصلی
OpenAI

۲۶ خرداد ۱۴۰۵

تحقیق

پیش‌بینی رفتار مدل پیش از انتشار با شبیه‌سازی استقرار

استفاده از زمینه‌های گفت‌وگوی واقع‌گرایانه برای برآورد بهتر رفتارهای نامطلوب مدل پیش از انتشار.

مقدمه

پیش از انتشار یک مدل جدید، آزمایشگاه‌ها باید علاوه بر دانستن توانایی‌های آن، بفهمند مدل در استفاده واقعی احتمالاً چگونه رفتار می‌کند و در چه موقعیت‌هایی ممکن است ریسک‌های تازه‌ای ایجاد کند. این موضوع با افزایش توانمندی مدل‌ها اهمیت بیشتری می‌یابد. ما در بخشی از بازبینی ایمنی پیش از استقرار، از ارزیابی‌های هدفمند، تمرین‌های تیم قرمز و سایر بررسی‌ها برای شناخت رفتار مدل استفاده می‌کنیم. اکنون روشی را به کار گرفته‌ایم که استقرار مدل‌ها را پیش از وقوع شبیه‌سازی می‌کند و یک نشانه تکمیلی فراهم می‌آورد: پیش‌نمایشی نزدیک به استقرار واقعی از رفتار احتمالی یک مدل نامزد، پیش از آنکه به دست کاربران برسد.

شبیه‌سازی استقرار روشی برای شبیه‌سازی یک استقرار آینده پیش از وقوع آن است. ما این کار را با بازپخش گفت‌وگوهای قبلی به شیوه‌ای حافظ حریم خصوصی با یک مدل نامزد جدید انجام می‌دهیم. این کار به ما امکان می‌دهد پیش از انتشار بررسی کنیم مدل جدید در زمینه‌های واقع‌گرایانه چگونه پاسخ می‌دهد، از جمله اینکه آیا رفتارهای نامطلوب تازه‌ای پدیدار می‌شوند و با چه بسامدی ممکن است ظاهر شوند.

در چندین استقرار از مدل‌های Thinking در سری GPT‑5، شبیه‌سازی استقرار باعث بهبود برآوردهای ما از نرخ رفتارهای نامطلوب مدل شد، کمک کرد شکل‌های جدیدی از ناهمسویی را پیش از انتشار شناسایی کنیم، و خطر آگاه شدن مدل‌ها از اینکه در حال آزمون هستند را کاهش داد. ما این روش را برای راه‌اندازی‌های عامل‌محور و چالش‌برانگیز نیز به کار گرفتیم و نشان دادیم که می‌تواند از چت استاندارد فراتر رود و در سناریوهای عامل‌محور پیچیده‌تر، از جمله مواردی که شامل استفاده از ابزار هستند، نیز کاربرد داشته باشد؛ همچنین می‌توان از آن برای ارزیابی ریسک پیش از استقرارهای داخلی مدل استفاده کرد.

ما پیش‌تر هنگام توسعه مدل، از یافته‌های شبیه‌سازی استقرار استفاده کرده‌ایم تا ضعف‌ها و نقاط کور ارزیابی‌های سنتی را پیدا کنیم و بر اساس آن، تصمیم‌های بهتری درباره کاهش ریسک‌ها و نحوه استقرار مدل بگیریم. هرچه اجرای این فرایند را ساده‌تر کنیم، انتظار داریم در آینده نقش مهم‌تری در توسعه مدل‌ها داشته باشد.

شبیه‌سازی استقرار چگونه کار می‌کند

ارزیابی‌های پیش از استقرار که در سراسر صنعت به کار می‌روند، معمولاً شامل ترکیبی از پرامپت‌های مصنوعی، پرامپت‌های نوشته‌شده به‌صورت دستی یا پرامپت‌های برگرفته از محیط واقعی هستند؛ پرامپت‌هایی که عمداً به‌دلیل دشواری، شدت بالای ریسک یا ماهیت خصمانه انتخاب شده‌اند. این ارزیابی‌ها معمولاً دو هدف درهم‌تنیده را دنبال می‌کنند: نخست، سنجش اینکه مدل در آزمون‌های فشار و در موقعیت‌هایی که احتمال وقوع آن‌ها در ترافیک واقعیِ زمان استقرار بسیار کم است چگونه پاسخ می‌دهد؛ و دوم، به‌دست آوردن درکی کلی از رفتارهای نامطلوب مدل، از جمله شناسایی رفتارهای نامطلوب جدید و پیش‌بینی میزان تکرار آن‌ها هنگام استقرار.

در حالی که ارزیابی‌های سنتی همچنان برای دستیابی به هدف نخست نقشی اساسی دارند، «شبیه‌سازی استقرار» برای هدف دوم و در زمینه ریسک‌های غیرنادر، گام مهمی رو به جلو به شمار می‌رود. (در آزمایش‌های ما، نمی‌توان انتظار داشت این رویکرد رفتارهایی را اندازه‌گیری کند که با فراوانی کمتر از یک مورد در هر ۲۰۰٬۰۰۰ پیام رخ می‌دهند.) نقطه قوت شبیه‌سازی استقرار در آن است که برخی از چالش‌های بنیادین ارزیابی‌های سنتی را پشت سر می‌گذارد:

  • پوشش: دشوار است با اطمینان گفت که پرامپت‌های ارزیابی همه انواع احتمالی رفتارهای نامطلوب مدل را پوشش می‌دهند. سنجش گونه‌های جدید این رفتارها مستلزم طراحی ارزیابی‌های تازه و تشخیص آسیب‌هایی است که باید اندازه‌گیری شوند. این فرایند می‌تواند زمان‌بر و پرهزینه باشد و اثربخشی ارزیابی‌ها نیز به‌مرور کاهش یابد.
  • سوگیری‌های انتخاب: ارزیابی‌های سنتی معمولاً با تمرکز بر مجموعه‌ای مشخص از رفتارهای نامطلوب مدل طراحی می‌شوند و اغلب بر موقعیت‌ها و زمینه‌هایی تکیه دارند که این رفتارها پیش‌تر در آن‌ها مشاهده شده‌اند. در نتیجه، ممکن است برآوردهای حاصل از این ارزیابی‌ها تصویر دقیقی از میزان بروز چنین رفتارهایی در کل دامنه شرایط واقعی استقرار ارائه نکنند.
  • شناسایی ماهیت آزمون توسط مدل‌ها: مدل‌ها به شکلی فزاینده قادر به تشخیص این موضوع هستند که مورد آزمایش قرار می‌گیرند؛ این امر می‌تواند باعث سوگیری در رفتار آن‌ها و اختلال در ارزیابی‌های ثانویه ما از سطح ایمنی‌شان شود. اگرچه بسیاری از ارزیابی‌های سنتی ما در OpenAI بر اساس ترافیک واقعیِ محیط عملیاتی طراحی شده‌اند و دچار این مشکل نیستند، اما این موضوع یک نگرانی رایج در مورد بسیاری از ارزیابی‌های سنتی است که در سطح صنعت استفاده می‌شوند.

روش اصلی شبیه‌سازی استقرار ساده است: گفت‌وگوهای اخیرِ محیط استقرار را برمی‌داریم، پاسخ دستیار را از نسخه‌ی قدیمی‌تر مدل حذف می‌کنیم و آن را با استفاده از مدل نامزد انتشار دوباره تولید می‌کنیم. سپس این پاسخ‌ها را برای شناسایی الگوهای جدید خطا بررسی می‌کنیم و بر اساس فراوانی آن‌ها در این توزیعِ مشابهِ استقرار، میزان رفتارهای نامطلوب در زمان استقرار را برآورد می‌کنیم. همچنین می‌توانیم همین اندازه‌گیری‌ها را پس از انتشار و بر روی ترافیک واقعی استقرار انجام دهیم تا پیش‌بینی‌های پیش از استقرار خود را اعتبارسنجی کنیم.

شبیه‌سازی استقرار تا حد زیادی سه محدودیت مطرح‌شده در بالا را کاهش می‌دهد. سوگیری نمونه‌گیری با استفاده از توزیعی از پرامپت‌های ارزیابی که نمایانگر الگوهای استفاده‌ی اخیر هستند کاهش می‌یابد. شبیه‌سازی استقرار با بهره‌گیری از پرامپت‌های نماینده می‌تواند نگرانی‌های مربوط به پوشش را نیز برطرف کند، زیرا تنها با شبیه‌سازی حجم بیشتری از ترافیک، پوشش گسترده‌تری از رفتارهای نامطلوب مدل به دست می‌آوریم. این موازنه میان توان محاسباتی و پوشش اهمیت زیادی دارد، زیرا باعث می‌شود کیفیت این بخش از ارزیابی ریسک بیش از آنکه به تلاش دستی برای طراحی ارزیابی‌های جدید وابسته باشد، با افزایش توان محاسباتی بهبود یابد. همچنین به نظر می‌رسد مدل‌ها میان گفت‌وگوهای حاصل از شبیه‌سازی استقرار و ترافیک واقعی استقرار تفاوتی قائل نمی‌شوند.

نموداری که فرایند بازنمونه‌گیری از داده‌های واقعی محصول را نشان می‌دهد؛ فرایندی که از گفت‌وگوهای واقعی محصول آغاز می‌شود و با بازنمونه‌گیریِ حافظ حریم خصوصی، تولید پاسخ‌های مدل، ارزیابی و در نهایت برآوردهای زمان استقرار ادامه می‌یابد.

شکل ۱: نمای کلی فرایند شبیه‌سازی استقرار ما

حوزه

ارزیابی‌های سنتی

شبیه‌سازی استقرار

پوشش

برای ریسک‌هایی مناسب‌تر است که کم رخ می‌دهند، اما شدت بالایی دارند و می‌خواهیم مطمئن شویم در ارزیابی‌ها از قلم نمی‌افتند

برای شناخت طیف ریسک‌هایی مناسب‌تر است که احتمالاً در استفاده واقعی از مدل پس از استقرار دیده می‌شوند

میزان نماینده‌بودن نمونه‌ها / سوگیری

تمرکز آن بر ارزیابی ریسک‌های مشخصی است که یا قبلاً دیده شده‌اند یا پیش‌بینی می‌شود رخ دهند؛ حتی اگر این رفتارها در استفاده واقعی پس از استقرار بسیار کم اتفاق بیفتند

نماینده ریسک‌هایی است که در استفاده واقعی فعلی از مدل، بیش از یک حد مشخص رخ می‌دهند

آگاهی از ارزیابی

ممکن است نشانه‌هایی وجود داشته باشد که آزمون بودن داده را آشکار کند؛ (مثلاً در داده‌های مصنوعی)، مگر اینکه ارزیابی‌ها با داده‌های واقعیِ استقرار ساخته شده باشند.

به نظر می‌رسد زمینه شبیه استقرار آگاهی از ارزیابی را به‌طور چشمگیری کاهش می‌دهد

تلاش

توزیع‌های اعلان و تنظیمات سفارشی به تلاش دستی بسیار بیشتری نیاز دارند

به هزینه زیرساختی یک‌باره نیاز دارد و سپس از پیشوندهای برگرفته از استقرار و ارزیاب‌های مربوط به رفتارهای نامطلوب شناخته‌شده دوباره استفاده می‌کند.

مقایسه کلی میان ارزیابی‌های سنتی و شبیه‌سازی استقرار

چگونه شبیه‌سازی استقرار را آزمودیم

برای ارزیابی شبیه‌سازی استقرار، از پیش فراوانیِ زمان استقرارِ ۲۰ نوع رفتار نامطلوب را برای GPT‑5.4 Thinking پیش‌بینی کردیم. همچنین مطالعات گذشته‌نگر را روی دیگر استقرارهای مدل‌های Thinking از سری GPT‑5 انجام دادیم. رفتارهایی که بررسی کردیم، هم رفتارهای ناهمسو و هم دسته‌های محتوای ممنوعه‌ای را در بر می‌گرفت که پیش‌تر در کارت سیستم‌ها گزارش کرده بودیم (برای مثال، ارائه اطلاعات نادرست درباره ابزارها یا تولید محتوای جنسیِ ممنوع). هرچند در این نتایج تنها ۲۰ دسته از رفتارهای نامطلوب مدل را ردیابی می‌کنیم و فقط رفتارهای ناهمسوی جدید را بررسی می‌کنیم، شبیه‌سازی استقرار یک روش عمومی است که می‌توان از آن برای شبیه‌سازی هر ویژگیِ مدل در زمان استقرار استفاده کرد.

ترافیک تولیدی که از آن استفاده کردیم نیز از مدل‌های Thinking از سری GPT‑5 بود. پیش از اجرای ارزیابی‌ها، شناسه‌های مرتبط با حساب و اطلاعات قابل شناسایی را به‌طور خودکار حذف کردیم. مطابق با سیاست حریم خصوصی خود، فقط ترافیک ChatGPT کاربرانی را تحلیل کردیم که اجازه می‌دهند داده‌هایشان برای بهبود مدل استفاده شود. ما فقط یافته‌های تجمیعی این ارزیابی‌ها را گزارش می‌کنیم. در مجموع، حدود ۱٫۳ میلیون گفت‌وگوی بی‌هویت‌شده را در استقرارهای GPT‑5 Thinking تا GPT‑5.4، در بازه اوت ۲۰۲۵ تا مارس ۲۰۲۶، تحلیل کردیم.

کیفیت ارزیابی ریسک پیش از استقرار تولیدشده توسط شبیه‌سازی استقرار را به سه شیوه اصلی ارزیابی می‌کنیم:

  • پوشش رده‌بندی: آیا ممیزی پس از انتشار رفتارهای ناهمسوی مهمی را آشکار کرد که در رده‌بندی اولیه رفتار بد ما نبودند؟
  • دقت جهت‌دار: آیا شبیه‌سازی به‌درستی پیش‌بینی کرد که شیوع استقرار برای رفتارهای شناخته‌شده افزایش می‌یابد یا کاهش؟
  • کالیبراسیون نرخ: آیا برآوردهای پیش از استقرار ما به نرخ‌هایی که بعداً در استقرار مشاهده کردیم نزدیک بودند؟ دستیابی به کالیبراسیون نرخ خوب به چیزی بیش از دقت جهت‌دار نیاز دارد و این را به بالاترین استاندارد کیفیت ممکن تبدیل می‌کند.

همچنین اندازه می‌گیریم مدل‌ها تا چه حد می‌توانند در جریان شبیه‌سازی استقرار تشخیص دهند که در یک ارزیابی هستند، و می‌آزماییم این روش در برابر شکل‌های مختلف ترافیک استقرار و تنظیمات چالش‌برانگیز استفاده از ابزار چقدر مقاوم است.

شبیه‌سازی استقرار ارزیابی ریسک پیش از استقرار را به‌طور چشمگیری گسترش می‌دهد

در استقرارهای Thinking از سری GPT‑5، شبیه‌سازی استقرار در تعیین نرخ واقعی ریسک از مبناهای اعلان‌های چالش‌برانگیز بهتر عمل کرد، توانست هک ماشین‌حساب را پیش از انتشار آشکار کند، و برای مدل بالقوه غیرقابل تمایز از استقرار به نظر رسید.

مروری بر پیش‌بینی‌های ما. برای نمایش تصویری همه پیش‌بینی‌ها برای استقرارهای مدل‌های Thinking از سری GPT‑5، شکل ۲ را ببینید. پیش‌بینی‌های GPT‑5.4 Thinking از پیش ثبت شده بودند، در حالی که بقیه پیش‌بینی‌های بازنگرانه بودند. در مجموع، پیش‌بینی‌های ما خطای ضربی میانه ۱٫۵x داشتند (مثلاً اگر نرخ رفتار نامطلوب ۱۰ در ۱۰۰هزار باشد، این معادل برآورد نرخ ۱۵ یا ۶٫۶۷ در ۱۰۰هزار است). اگرچه خطاهای دنباله‌ای روش ما می‌توانند تقریباً ۱۰x بزرگ‌تر باشند، انتظار داریم با بهبودهای بیشتر در خط لوله شبیه‌سازی‌مان، همان‌طور که در ادامه بحث می‌شود، به‌طور چشمگیری کاهش یابند.

نموداری که نشان می‌دهد شبیه‌سازی استقرار، بر اساس داده‌های استقرار قبلی، نرخ دقیق رفتارهای نامطلوب را هنگام استقرار پیش‌بینی می‌کند.

شکل ۲. شبیه‌سازی استقرار، فراوانی رفتارهای نامطلوب هنگام استقرار را بر اساس داده‌های استقرار پیشین پیش‌بینی می‌کند. نماد 5.1 → 5 نشان می‌دهد که پیشوندهای GPT‑5 را با GPT‑5.1 بازنمونه‌گیری می‌کنیم؛ یعنی استقرار GPT‑5.1 را بر پایه داده‌های GPT‑5 شبیه‌سازی می‌کنیم. بالاترین نرخ رفتار ناهمسو در GPT‑5.1 مربوط به «هک ماشین‌حساب» بود که درباره آن پیش‌تر(در یک پنجره جدید باز می‌شود) بحث کرده‌ایم.

مقایسه پیش‌بینی‌های شبیه‌سازی استقرار با روش‌های پایه. در ارزیابی ریسک پیش از استقرار، مهم‌ترین موارد آن‌هایی هستند که پس از استقرار مدل، میزان وقوعشان تغییر چشمگیری می‌کند، مثلاً >= 1.5x. در این موارد، شبیه‌سازی استقرار بسیار بهتر از روش‌های پایه عمل می‌کند؛ هم در پیش‌بینی اینکه یک رفتار نامطلوب مشخص پس از استقرار مدل بیشتر یا کمتر می‌شود (شکل ۳، چپ)، و هم در برآورد میزان دقیق وقوع آن هنگام استقرار (شکل ۳، راست). ما از دو روش پایه اصلی استفاده می‌کنیم: یکی روش «پرامپت‌های چالش‌برانگیز» که اکنون برای کارت‌های سیستم و تصمیم‌های مربوط به عرضه به کار می‌بریم، و دیگری یک روش ساده‌انگارانه که نرخ‌های استقرار قبلی را مبنای برآورد برای مدل جدید قرار می‌دهد.

شکل ۳. شبیه‌سازی استقرار، هم جهت تغییر در میزان وقوع رفتارها را بهتر از ارزیابی‌های ثابت پیش‌بینی می‌کند (چپ)، و هم نرخ دقیق وقوع آن‌ها را در استفاده واقعی از محصول بهتر برآورد می‌کند (راست).

منابع خطا در شبیه‌سازی ما. ما همچنین بررسی کردیم که خطاهای فعلی در این فرایند از کجا می‌آیند. به‌طور مشخص، خطاهای بزرگِ موردی می‌توانند اعتماد ما به این فرایند را برای تصمیم‌گیری درباره استقرار مدل کاهش دهند. برای مثال، اگر این فرایند افزایش زیادی را در یک نوع رفتار نامطلوب پیش‌بینی کند، اما بدانیم که گاهی ممکن است خطاهای بزرگی داشته باشد، این تردید ایجاد می‌شود که آیا آن پیش‌بینی واقعاً قابل اتکاست یا فقط نتیجه یک خطای کاذب در خود فرایند است. دو منبع اصلی برای چنین خطاهایی وجود دارد:

  • خطای ناشی از شبیه نبودن محیط بازنمونه‌گیری به محیط واقعی: برای اینکه بتوانیم نرخ رفتارها را در محیط واقعی محصول به‌درستی برآورد کنیم، فرایند شبیه‌سازی ما باید تا حد ممکن به شرایط واقعی نزدیک باشد. این موضوع از یک سو مسئله‌ای مهندسی است (یعنی نمونه‌گیری از مدل با همان مسیرها و فرایندهایی که برای ترافیک واقعی محصول به کار می‌روند) و از سوی دیگر، برای ابزارهایی که به دسترسی خواندن و نوشتن به منابع خارجیِ دائماً در حال تغییر نیاز دارند، چالش جالبی ایجاد می‌کند (مانند جست‌وجو در وب یا تعامل با فایل‌های محلی). برای جدا کردن خطای ناشی از میزان واقع‌نمایی شبیه‌سازی، می‌توانیم پیش‌بینی‌های یک استقرار واقعی را با شبیه‌سازی همان استقرار مقایسه کنیم (یعنی شبیه‌سازی استقرار مدلی که پیش‌تر واقعاً مستقر شده است).
  • خطای ناشی از تغییر توزیع پرامپت‌ها: یکی از نگرانی‌های اصلی در شبیه‌سازی استقرار این است که وقتی یک مدل مستقر می‌شود، نوع ورودی‌هایی که کاربران به آن می‌دهند تغییر می‌کند؛ به‌ویژه اگر کاربران خود را با قابلیت‌ها و امکانات تازه مدل تطبیق دهند. برای جدا کردن خطای ناشی از توزیع پرامپت‌ها، برآوردهای حاصل از شبیه‌سازی استقرار با پرامپت‌های اخیر را با برآوردهایی مقایسه می‌کنیم که بر اساس پرامپت‌های ثبت‌شده در استقرار واقعی به دست آمده‌اند.

همان‌طور که در شکل ۴ دیده می‌شود، بخش بزرگی از خطا در فرایند ما—به‌ویژه خطاهای بزرگ و نادر—در حال حاضر به این دلیل رخ می‌دهد که شبیه‌سازی هنوز کاملاً به شرایط واقعی نزدیک نیست. این خبر خوبی است، چون انتظار داریم بهتر کردن واقع‌نمایی شبیه‌سازی معمولاً آسان‌تر از کاهش تغییر در الگوی پرامپت‌های کاربران باشد. همچنین دریافتیم که می‌توان خطای ناشی از تغییر توزیع پرامپت‌ها را با استفاده از تازه‌ترین داده‌های استقرار قبلی کاهش داد. جزئیات بیشتر در مقاله پژوهشی آمده است.

شکل ۴: به نظر می‌رسد میزان نزدیک بودن محیط بازنمونه‌گیری به شرایط واقعی، بزرگ‌ترین منبع خطا در برآوردهای ما باشد؛ به‌ویژه در مورد خطاهای بسیار بزرگ.

ممیزی خودکار، تنها ناهمسویی جدید در این استقرارها را شناسایی کرد. در بازه‌ای که بررسی کردیم، فرایند ممیزی خودکار ما که بر پایه استقرارهای شبیه‌سازی‌شده انجام می‌شود، می‌توانست «هک ماشین‌حساب» را پیش از انتشار نشان دهد؛ این تنها ناهمسویی جدیدی بود که در ترافیک تحلیل‌شده ChatGPT پیدا کردیم. هک ماشین‌حساب نوعی دور زدن نظام پاداش است؛ یعنی مدل از ابزار مرورگر برای انجام محاسبه استفاده می‌کند، اما آن را طوری نشان می‌دهد که انگار در حال جست‌وجو است. البته این به این معنا نیست که ممیزی گسترده می‌تواند همه خطاهای جدید را پیدا کند، اما نشان می‌دهد چرا زمینه‌های واقع‌گرایانه اهمیت دارند: چنین زمینه‌هایی می‌توانند رفتارهایی را آشکار کنند که شاید در مجموعه‌های ارزیابی محدودتر اصلاً دیده نشوند، حتی اگر در ترافیک اولیه‌ای که برای شروع شبیه‌سازی استفاده شده بود وجود نداشته باشند.

کاهش آگاهی مدل از فرایند ارزیابی

مزیت دیگرِ استفاده از زمینه‌هایی نزدیک به شرایط واقعی استقرار این است که می‌تواند اثرات ناشی از آگاه شدن مدل از آزمون را کاهش دهد. در پژوهش‌های پیشین، هم ما و هم دیگران(در یک پنجره جدید باز می‌شود) دیده‌ایم که مدل‌ها اغلب متوجه می‌شوند چه زمانی در حال ارزیابی هستند. برای مثال، مدل ممکن است در زنجیره تفکر خود بررسی کند که موضوع آزمون چیست، ارزیاب احتمالاً چه چیزی را ترجیح می‌دهد، و اگر رفتاری نادرست انجام دهد، آیا ممکن است شناسایی شود یا نه. این مسئله برای ارزیابی همسوسازی چالش ایجاد می‌کند: اگر مدل فقط به این دلیل درست رفتار کند که می‌داند در حال آزمون است، چگونه می‌توانیم اطمینان داشته باشیم که پس از استقرار نیز رفتاری ایمن خواهد داشت؟

ما نشان می‌دهیم که شبیه‌سازی استقرار، در مقایسه با ارزیابی‌های سنتی که بر داده‌های واقعی استقرار تکیه ندارند، باعث می‌شود مدل‌ها کمتر متوجه شوند که در حال ارزیابی هستند. این آگاهی را به سه روش اندازه می‌گیریم: از یک مدل می‌خواهیم تشخیص دهد که آیا یک مسیر تعامل مربوط به محیط واقعی محصول است یا بخشی از یک ارزیابی؛ زنجیره تفکر را بررسی می‌کنیم تا ببینیم آیا مدل صریحاً به ارزیابی همسوسازی اشاره می‌کند یا نه؛ و همچنین متاگیمینگ(در یک پنجره جدید باز می‌شود) را می‌سنجیم، یعنی هر نوع استدلال مدل درباره اینکه تحت نظارت است. ترافیک شبیه‌سازی‌شده استقرار، در هر سه معیار، بسیار شبیه ترافیک واقعی استقرار بود. برای مثال، GPT‑5.2 در ۵٫۴٪ موارد، ترافیک واقعی محصول را شبیه ارزیابی تشخیص داد و این عدد برای ترافیک شبیه‌سازی‌شده ۵٫۱٪ بود؛ اما ارزیابی‌های سنتی، مانند SWE-Bench یا MonorepoBench که عمدتاً از نمونه‌های مصنوعی ساخته شده‌اند، تقریباً همیشه، یعنی نزدیک به ۱۰۰٪ موارد، به‌عنوان ارزیابی تشخیص داده شدند.

شکل ۵. مقایسه آگاهی از ارزیابی: ترافیک واقعی محصول و ترافیک شبیه‌سازی‌شده در سه معیار نرخ‌های مشابهی نشان می‌دهند: تشخیص اینکه گفت‌وگو مربوط به ارزیابی است، اشاره صریح مدل به اینکه برای همسوسازی در حال ارزیابی است، و متاگیمینگ؛ اما در مجموعه‌داده‌های سنتی ارزیابی، این نرخ‌ها بسیار بالاتر است.

شبیه‌سازی ابزارها در روندهای عامل‌محور

برای اینکه ببینیم این روش فقط به چت‌های معمول محدود نمی‌شود، آن را در سناریوهای دشوار کدنویسی عامل‌محور هم بررسی کردیم. به‌طور مشخص، از ۱۲۰٬۰۰۰ تعامل داخلی کارکنان با GPT‑5.4 استفاده می‌کنیم تا استقرار داخلی عامل‌های کدنویسی مبتنی بر GPT‑5.5 را شبیه‌سازی کنیم. این کار دو نکته را نشان می‌دهد: اول اینکه شبیه‌سازی استقرار می‌تواند برای ارزیابی ریسک در استقرارهای داخلی هم به کار رود؛ و دوم اینکه حتی در محیط‌های عامل‌محور، اگر استفاده از ابزارها با دقت شبیه‌سازی شود، می‌توان شبیه‌سازی را تا حد زیادی به شرایط واقعی نزدیک کرد.

پیش‌تر گفتیم که یکی از منابع اصلی خطا در فرایند فعلی ما این است که شبیه‌سازی همیشه به اندازه کافی به شرایط واقعی نزدیک نیست. یکی از چالش‌های نزدیک‌تر کردن شبیه‌سازی استقرار به واقعیت این است که ابزارها هم باید رفتاری شبیه شرایط واقعی داشته باشند؛ حتی زمانی که برای کار کردن به دسترسی خواندن و نوشتن به منابع بیرونیِ دائماً در حال تغییر نیاز دارند، (مانند جست‌وجو در وب یا تعامل با فایل‌های محلی).

این موضوع در محیط‌هایی مثل استقرارهای عامل‌محور چالش‌برانگیزتر می‌شود؛ چون یک تعامل عامل‌محور می‌تواند به صدها فراخوانی ابزار، وضعیت مخزن کد، پاسخ‌های شبکه یا خطاهای موقتی وابسته باشد. به همین دلیل، بازنمونه‌گیری با دسترسی واقعی به ابزارها هم دشوار است و هم می‌تواند خطرناک باشد. بنابراین، به‌جای اینکه فراخوانی‌های ابزار را روی سامانه‌های زنده اجرا کنیم، آن‌ها را با یک LLM دیگر شبیه‌سازی می‌کنیم. ما نشان می‌دهیم که دادن قابلیت‌ها و امکانات بیشتر به این LLM برای نزدیک‌تر شدن شبیه‌سازی به واقعیت، و در نتیجه برای کیفیت بهتر برآوردها، ضروری است.

به مدل شبیه‌ساز ابزار، اجرای اصلیِ نوبت پایانی، مخزن کد مربوط به زمان همان گفت‌وگو، پایگاه داده‌ای از جفت‌های «فراخوانی ابزار/پاسخ ابزار»، و اتصال‌دهنده‌های فقط‌خواندنی را می‌دهیم. در آزمونی که در آن یک مدل تشخیص‌دهنده تلاش می‌کرد اجراهای شبیه‌سازی‌شده را از اجراهای واقعی تشخیص دهد، میزان واقع‌گرایی از نرخ برد ۱۱٫۶٪ به ۴۹٫۵٪ رسید؛ رقمی نزدیک به سطح تصادفی ۵۰٪.

شکل ۶: اگر فراخوانی‌های ابزار با قابلیت‌ها و امکانات بیشتری شبیه‌سازی شوند، بازنمونه‌گیری حتی در محیط‌هایی که وابستگی زیادی به ابزار دارند می‌تواند آن‌قدر واقعی به نظر برسد که تقریباً از نمونه‌گیری واقعی قابل تشخیص نباشد.

به‌عنوان نشانه‌ای دیگر از اینکه شبیه‌سازی تا حد خوبی به شرایط واقعی نزدیک است، وقتی ترافیک Thinking مربوط به GPT‑5.4 Codex را با GPT‑5.4 شبیه‌سازی می‌کنیم، نرخ‌های ناهمسویی تقریباً در محدوده خطا قرار می‌گیرند. در مقابل، در آزمون‌های پیش از استقرار، GPT‑5.5 در بیشتر دسته‌ها ناهمسویی بیشتری نشان داد.

شکل ۷: با شبیه‌سازی استفاده از ابزارها، نرخ وقوع رفتارها در گفت‌وگوهایی که با GPT‑5.4 بازنمونه‌گیری شده‌اند و در ترافیک واقعی محصولِ GPT‑5.4 بسیار به هم نزدیک است؛ این نشان می‌دهد محیط بازنمونه‌گیری تا حد زیادی به شرایط واقعی نزدیک بوده است. برای آشنایی بیشتر با این دسته‌ها، کارت سیستم GPT‑5.5(در یک پنجره جدید باز می‌شود) را ببینید.

این نتایج نشان می‌دهد که اگر محیط ابزارهایی که عامل با آن‌ها کار می‌کند به‌اندازه کافی شبیه شرایط واقعی شبیه‌سازی شود، شبیه‌سازی استقرار می‌تواند در محیط‌های پیچیده عامل‌محور هم کاربرد داشته باشد.

WildChat و ممیزی توسط منابع بیرونی

یک پرسش طبیعی این است که آیا ممیزان بیرونی هم می‌توانند بدون دسترسی به ترافیک خصوصیِ محصول، بخشی از همین مزایا را به دست آورند یا نه. ما این موضوع را با استفاده از ۱۰۰٬۰۰۰ گفت‌وگوی WildChat به‌عنوان نقطه شروع آزمودیم. WildChat نسبت به داده‌های اخیرِ ترافیک واقعی OpenAI دقت کمتری داشت، اما همچنان اطلاعات مفیدی ارائه می‌کرد: داده‌های اخیرِ ترافیک واقعی، میانگین خطای ضربی کمتری نسبت به WildChat داشتند (۱٫۷۵× در برابر ۲٫۴۴×)، اما WildChat اغلب در فاصله‌ای حدود ۳× از نرخ‌های ترافیک واقعی باقی می‌ماند و در مواردی بیش از سطح تصادفی، مدل بهتر را شناسایی می‌کرد. ما ارزیابی‌هایی از نوع WildChat را مکملی امیدبخش برای شبیه‌سازی استقرارِ اجراشده توسط توسعه‌دهندگان می‌دانیم. برای نتایج بیشتر درباره این موضوع، این پست وبلاگ Alignment(در یک پنجره جدید باز می‌شود) تکمیلی را ببینید.

محدودیت‌ها

شبیه‌سازی استقرار قرار نیست جای ارزیابی‌های سخت‌گیرانه، آزمون‌های تیم قرمز یا بررسی ریسک‌های نادر اما جدی را بگیرد؛ بلکه در کنار آن‌ها به کار می‌آید. برای شناسایی برخی رفتارهای نامطلوب مدل، باید بتوانیم زنجیره تفکر مدل را بخوانیم و بفهمیم. اگر مدل‌های آینده استدلال خود را مبهم‌تر بیان کنند، بخش‌های مهم فکرشان را نشان ندهند یا یاد بگیرند نیت واقعی خود را پنهان کنند، ممکن است این رفتارهای نامطلوب از چشم ما دور بماند. از سوی دیگر، چون داده‌های واقعیِ استفاده کاربران از محصول خصوصی است، توسعه‌دهندگان فعلاً نسبت به ممیزان بیرونی به نمونه‌های واقعی‌تر و نماینده‌تری از نحوه استفاده از مدل دسترسی دارند. مجموعه‌داده‌های عمومیِ بهتر می‌توانند این فاصله را کمتر کنند.

شبیه‌سازی استقرار زمانی بیشترین ارزش را دارد که رفتار موردنظر آن‌قدر تکرار شود که در نمونه‌های انتخاب‌شده از گفت‌وگوها دیده شود. اما اگر یک خطا فقط یک بار در هر ده میلیون گفت‌وگو رخ دهد، حتی با بررسی یک میلیون نمونه هم احتمالاً آن را پیدا نمی‌کنیم. به همین دلیل، همچنان به ارزیابی‌های خصمانه، آزمون‌های تیم قرمز و بررسی جداگانه ریسک‌های نادر اما جدی نیاز داریم. در حال حاضر، ما فقط یک پاسخ از دستیار را شبیه‌سازی می‌کنیم، چون در آزمایش‌های اولیه دیدیم که شبیه‌سازی چند رفت‌وبرگشتِ گفت‌وگو، برآوردهای ما را به شکل معناداری بهتر نمی‌کند. با این حال، در آینده ممکن است شبیه‌سازی چندمرحله‌ای گفت‌وگو یکی از راه‌های مهم برای نزدیک‌تر کردن شبیه‌سازی به شرایط واقعی باشد.

این روش به نوع گفت‌وگوهایی هم بستگی دارد که برای شبیه‌سازی دوباره انتخاب می‌شوند؛ یعنی به ترکیب گفت‌وگوهایی که دوباره نمونه‌گیری می‌کنیم. داده‌های قدیمیِ مورد استفاده کاربران ممکن است با شیوه‌ای که کاربران پس از یک تغییر بزرگ در محصول، انتشار یک ابزار تازه، وقوع یک رویداد جهانی یا تغییرات فصلی با یک مدل توانمندتر تعامل می‌کنند، همخوان نباشد. تحلیل ارائه‌شده در مقاله کامل نشان می‌دهد که می‌توان این مشکل را با استفاده از تازه‌ترین داده‌های موجود کاهش داد.

نتیجه‌گیری

شبیه‌سازی استقرار رویکردی تازه برای ارزیابی ریسک پیش از استقرار است. این روش به آزمایشگاه‌های پیشرو و ارزیابان کمک می‌کند پیش از انتشار، بهتر پیش‌بینی کنند که مدل‌های زبانی در دنیای واقعی چگونه رفتار خواهند کرد و چه ریسک‌هایی ممکن است ایجاد کنند. شبیه‌سازی استقرار جایگزین ارزیابی‌های ایمنی، آزمون‌های تیم قرمز یا تحلیل‌های هدفمند نیست؛ بلکه با افزودن یک لایه پیش‌بینی که به شرایط واقعی محصول نزدیک‌تر است، آن‌ها را کامل‌تر می‌کند. این لایه می‌تواند برآورد ما از رفتار مدل پس از استقرار را بهتر کند، اثر آگاه شدن مدل از ارزیابی را کاهش دهد و امکان بررسی درستی پیش‌بینی‌ها را پس از انتشار فراهم کند. وقتی شبیه‌سازی استقرار در کنار ارزیابی‌های سنتی به کار رود، می‌تواند ارزیابی ریسک مدل را واقعی‌تر، عددی‌تر و برای تصمیم‌گیری درباره استقرار مفیدتر کند.

نویسنده

OpenAI