پیشبینی رفتار مدل پیش از انتشار با شبیهسازی استقرار
استفاده از زمینههای گفتوگوی واقعگرایانه برای برآورد بهتر رفتارهای نامطلوب مدل پیش از انتشار.
پیش از انتشار یک مدل جدید، آزمایشگاهها باید علاوه بر دانستن تواناییهای آن، بفهمند مدل در استفاده واقعی احتمالاً چگونه رفتار میکند و در چه موقعیتهایی ممکن است ریسکهای تازهای ایجاد کند. این موضوع با افزایش توانمندی مدلها اهمیت بیشتری مییابد. ما در بخشی از بازبینی ایمنی پیش از استقرار، از ارزیابیهای هدفمند، تمرینهای تیم قرمز و سایر بررسیها برای شناخت رفتار مدل استفاده میکنیم. اکنون روشی را به کار گرفتهایم که استقرار مدلها را پیش از وقوع شبیهسازی میکند و یک نشانه تکمیلی فراهم میآورد: پیشنمایشی نزدیک به استقرار واقعی از رفتار احتمالی یک مدل نامزد، پیش از آنکه به دست کاربران برسد.
شبیهسازی استقرار روشی برای شبیهسازی یک استقرار آینده پیش از وقوع آن است. ما این کار را با بازپخش گفتوگوهای قبلی به شیوهای حافظ حریم خصوصی با یک مدل نامزد جدید انجام میدهیم. این کار به ما امکان میدهد پیش از انتشار بررسی کنیم مدل جدید در زمینههای واقعگرایانه چگونه پاسخ میدهد، از جمله اینکه آیا رفتارهای نامطلوب تازهای پدیدار میشوند و با چه بسامدی ممکن است ظاهر شوند.
در چندین استقرار از مدلهای Thinking در سری GPT‑5، شبیهسازی استقرار باعث بهبود برآوردهای ما از نرخ رفتارهای نامطلوب مدل شد، کمک کرد شکلهای جدیدی از ناهمسویی را پیش از انتشار شناسایی کنیم، و خطر آگاه شدن مدلها از اینکه در حال آزمون هستند را کاهش داد. ما این روش را برای راهاندازیهای عاملمحور و چالشبرانگیز نیز به کار گرفتیم و نشان دادیم که میتواند از چت استاندارد فراتر رود و در سناریوهای عاملمحور پیچیدهتر، از جمله مواردی که شامل استفاده از ابزار هستند، نیز کاربرد داشته باشد؛ همچنین میتوان از آن برای ارزیابی ریسک پیش از استقرارهای داخلی مدل استفاده کرد.
ما پیشتر هنگام توسعه مدل، از یافتههای شبیهسازی استقرار استفاده کردهایم تا ضعفها و نقاط کور ارزیابیهای سنتی را پیدا کنیم و بر اساس آن، تصمیمهای بهتری درباره کاهش ریسکها و نحوه استقرار مدل بگیریم. هرچه اجرای این فرایند را سادهتر کنیم، انتظار داریم در آینده نقش مهمتری در توسعه مدلها داشته باشد.
ارزیابیهای پیش از استقرار که در سراسر صنعت به کار میروند، معمولاً شامل ترکیبی از پرامپتهای مصنوعی، پرامپتهای نوشتهشده بهصورت دستی یا پرامپتهای برگرفته از محیط واقعی هستند؛ پرامپتهایی که عمداً بهدلیل دشواری، شدت بالای ریسک یا ماهیت خصمانه انتخاب شدهاند. این ارزیابیها معمولاً دو هدف درهمتنیده را دنبال میکنند: نخست، سنجش اینکه مدل در آزمونهای فشار و در موقعیتهایی که احتمال وقوع آنها در ترافیک واقعیِ زمان استقرار بسیار کم است چگونه پاسخ میدهد؛ و دوم، بهدست آوردن درکی کلی از رفتارهای نامطلوب مدل، از جمله شناسایی رفتارهای نامطلوب جدید و پیشبینی میزان تکرار آنها هنگام استقرار.
در حالی که ارزیابیهای سنتی همچنان برای دستیابی به هدف نخست نقشی اساسی دارند، «شبیهسازی استقرار» برای هدف دوم و در زمینه ریسکهای غیرنادر، گام مهمی رو به جلو به شمار میرود. (در آزمایشهای ما، نمیتوان انتظار داشت این رویکرد رفتارهایی را اندازهگیری کند که با فراوانی کمتر از یک مورد در هر ۲۰۰٬۰۰۰ پیام رخ میدهند.) نقطه قوت شبیهسازی استقرار در آن است که برخی از چالشهای بنیادین ارزیابیهای سنتی را پشت سر میگذارد:
- پوشش: دشوار است با اطمینان گفت که پرامپتهای ارزیابی همه انواع احتمالی رفتارهای نامطلوب مدل را پوشش میدهند. سنجش گونههای جدید این رفتارها مستلزم طراحی ارزیابیهای تازه و تشخیص آسیبهایی است که باید اندازهگیری شوند. این فرایند میتواند زمانبر و پرهزینه باشد و اثربخشی ارزیابیها نیز بهمرور کاهش یابد.
- سوگیریهای انتخاب: ارزیابیهای سنتی معمولاً با تمرکز بر مجموعهای مشخص از رفتارهای نامطلوب مدل طراحی میشوند و اغلب بر موقعیتها و زمینههایی تکیه دارند که این رفتارها پیشتر در آنها مشاهده شدهاند. در نتیجه، ممکن است برآوردهای حاصل از این ارزیابیها تصویر دقیقی از میزان بروز چنین رفتارهایی در کل دامنه شرایط واقعی استقرار ارائه نکنند.
- شناسایی ماهیت آزمون توسط مدلها: مدلها به شکلی فزاینده قادر به تشخیص این موضوع هستند که مورد آزمایش قرار میگیرند؛ این امر میتواند باعث سوگیری در رفتار آنها و اختلال در ارزیابیهای ثانویه ما از سطح ایمنیشان شود. اگرچه بسیاری از ارزیابیهای سنتی ما در OpenAI بر اساس ترافیک واقعیِ محیط عملیاتی طراحی شدهاند و دچار این مشکل نیستند، اما این موضوع یک نگرانی رایج در مورد بسیاری از ارزیابیهای سنتی است که در سطح صنعت استفاده میشوند.
روش اصلی شبیهسازی استقرار ساده است: گفتوگوهای اخیرِ محیط استقرار را برمیداریم، پاسخ دستیار را از نسخهی قدیمیتر مدل حذف میکنیم و آن را با استفاده از مدل نامزد انتشار دوباره تولید میکنیم. سپس این پاسخها را برای شناسایی الگوهای جدید خطا بررسی میکنیم و بر اساس فراوانی آنها در این توزیعِ مشابهِ استقرار، میزان رفتارهای نامطلوب در زمان استقرار را برآورد میکنیم. همچنین میتوانیم همین اندازهگیریها را پس از انتشار و بر روی ترافیک واقعی استقرار انجام دهیم تا پیشبینیهای پیش از استقرار خود را اعتبارسنجی کنیم.
شبیهسازی استقرار تا حد زیادی سه محدودیت مطرحشده در بالا را کاهش میدهد. سوگیری نمونهگیری با استفاده از توزیعی از پرامپتهای ارزیابی که نمایانگر الگوهای استفادهی اخیر هستند کاهش مییابد. شبیهسازی استقرار با بهرهگیری از پرامپتهای نماینده میتواند نگرانیهای مربوط به پوشش را نیز برطرف کند، زیرا تنها با شبیهسازی حجم بیشتری از ترافیک، پوشش گستردهتری از رفتارهای نامطلوب مدل به دست میآوریم. این موازنه میان توان محاسباتی و پوشش اهمیت زیادی دارد، زیرا باعث میشود کیفیت این بخش از ارزیابی ریسک بیش از آنکه به تلاش دستی برای طراحی ارزیابیهای جدید وابسته باشد، با افزایش توان محاسباتی بهبود یابد. همچنین به نظر میرسد مدلها میان گفتوگوهای حاصل از شبیهسازی استقرار و ترافیک واقعی استقرار تفاوتی قائل نمیشوند.
شکل ۱: نمای کلی فرایند شبیهسازی استقرار ما
حوزه | ارزیابیهای سنتی | شبیهسازی استقرار |
پوشش | برای ریسکهایی مناسبتر است که کم رخ میدهند، اما شدت بالایی دارند و میخواهیم مطمئن شویم در ارزیابیها از قلم نمیافتند | برای شناخت طیف ریسکهایی مناسبتر است که احتمالاً در استفاده واقعی از مدل پس از استقرار دیده میشوند |
میزان نمایندهبودن نمونهها / سوگیری | تمرکز آن بر ارزیابی ریسکهای مشخصی است که یا قبلاً دیده شدهاند یا پیشبینی میشود رخ دهند؛ حتی اگر این رفتارها در استفاده واقعی پس از استقرار بسیار کم اتفاق بیفتند | نماینده ریسکهایی است که در استفاده واقعی فعلی از مدل، بیش از یک حد مشخص رخ میدهند |
آگاهی از ارزیابی | ممکن است نشانههایی وجود داشته باشد که آزمون بودن داده را آشکار کند؛ (مثلاً در دادههای مصنوعی)، مگر اینکه ارزیابیها با دادههای واقعیِ استقرار ساخته شده باشند. | به نظر میرسد زمینه شبیه استقرار آگاهی از ارزیابی را بهطور چشمگیری کاهش میدهد |
تلاش | توزیعهای اعلان و تنظیمات سفارشی به تلاش دستی بسیار بیشتری نیاز دارند | به هزینه زیرساختی یکباره نیاز دارد و سپس از پیشوندهای برگرفته از استقرار و ارزیابهای مربوط به رفتارهای نامطلوب شناختهشده دوباره استفاده میکند. |
مقایسه کلی میان ارزیابیهای سنتی و شبیهسازی استقرار
برای ارزیابی شبیهسازی استقرار، از پیش فراوانیِ زمان استقرارِ ۲۰ نوع رفتار نامطلوب را برای GPT‑5.4 Thinking پیشبینی کردیم. همچنین مطالعات گذشتهنگر را روی دیگر استقرارهای مدلهای Thinking از سری GPT‑5 انجام دادیم. رفتارهایی که بررسی کردیم، هم رفتارهای ناهمسو و هم دستههای محتوای ممنوعهای را در بر میگرفت که پیشتر در کارت سیستمها گزارش کرده بودیم (برای مثال، ارائه اطلاعات نادرست درباره ابزارها یا تولید محتوای جنسیِ ممنوع). هرچند در این نتایج تنها ۲۰ دسته از رفتارهای نامطلوب مدل را ردیابی میکنیم و فقط رفتارهای ناهمسوی جدید را بررسی میکنیم، شبیهسازی استقرار یک روش عمومی است که میتوان از آن برای شبیهسازی هر ویژگیِ مدل در زمان استقرار استفاده کرد.
ترافیک تولیدی که از آن استفاده کردیم نیز از مدلهای Thinking از سری GPT‑5 بود. پیش از اجرای ارزیابیها، شناسههای مرتبط با حساب و اطلاعات قابل شناسایی را بهطور خودکار حذف کردیم. مطابق با سیاست حریم خصوصی خود، فقط ترافیک ChatGPT کاربرانی را تحلیل کردیم که اجازه میدهند دادههایشان برای بهبود مدل استفاده شود. ما فقط یافتههای تجمیعی این ارزیابیها را گزارش میکنیم. در مجموع، حدود ۱٫۳ میلیون گفتوگوی بیهویتشده را در استقرارهای GPT‑5 Thinking تا GPT‑5.4، در بازه اوت ۲۰۲۵ تا مارس ۲۰۲۶، تحلیل کردیم.
کیفیت ارزیابی ریسک پیش از استقرار تولیدشده توسط شبیهسازی استقرار را به سه شیوه اصلی ارزیابی میکنیم:
- پوشش ردهبندی: آیا ممیزی پس از انتشار رفتارهای ناهمسوی مهمی را آشکار کرد که در ردهبندی اولیه رفتار بد ما نبودند؟
- دقت جهتدار: آیا شبیهسازی بهدرستی پیشبینی کرد که شیوع استقرار برای رفتارهای شناختهشده افزایش مییابد یا کاهش؟
- کالیبراسیون نرخ: آیا برآوردهای پیش از استقرار ما به نرخهایی که بعداً در استقرار مشاهده کردیم نزدیک بودند؟ دستیابی به کالیبراسیون نرخ خوب به چیزی بیش از دقت جهتدار نیاز دارد و این را به بالاترین استاندارد کیفیت ممکن تبدیل میکند.
همچنین اندازه میگیریم مدلها تا چه حد میتوانند در جریان شبیهسازی استقرار تشخیص دهند که در یک ارزیابی هستند، و میآزماییم این روش در برابر شکلهای مختلف ترافیک استقرار و تنظیمات چالشبرانگیز استفاده از ابزار چقدر مقاوم است.
در استقرارهای Thinking از سری GPT‑5، شبیهسازی استقرار در تعیین نرخ واقعی ریسک از مبناهای اعلانهای چالشبرانگیز بهتر عمل کرد، توانست هک ماشینحساب را پیش از انتشار آشکار کند، و برای مدل بالقوه غیرقابل تمایز از استقرار به نظر رسید.
مروری بر پیشبینیهای ما. برای نمایش تصویری همه پیشبینیها برای استقرارهای مدلهای Thinking از سری GPT‑5، شکل ۲ را ببینید. پیشبینیهای GPT‑5.4 Thinking از پیش ثبت شده بودند، در حالی که بقیه پیشبینیهای بازنگرانه بودند. در مجموع، پیشبینیهای ما خطای ضربی میانه ۱٫۵x داشتند (مثلاً اگر نرخ رفتار نامطلوب ۱۰ در ۱۰۰هزار باشد، این معادل برآورد نرخ ۱۵ یا ۶٫۶۷ در ۱۰۰هزار است). اگرچه خطاهای دنبالهای روش ما میتوانند تقریباً ۱۰x بزرگتر باشند، انتظار داریم با بهبودهای بیشتر در خط لوله شبیهسازیمان، همانطور که در ادامه بحث میشود، بهطور چشمگیری کاهش یابند.
شکل ۲. شبیهسازی استقرار، فراوانی رفتارهای نامطلوب هنگام استقرار را بر اساس دادههای استقرار پیشین پیشبینی میکند. نماد 5.1 → 5 نشان میدهد که پیشوندهای GPT‑5 را با GPT‑5.1 بازنمونهگیری میکنیم؛ یعنی استقرار GPT‑5.1 را بر پایه دادههای GPT‑5 شبیهسازی میکنیم. بالاترین نرخ رفتار ناهمسو در GPT‑5.1 مربوط به «هک ماشینحساب» بود که درباره آن پیشتر(در یک پنجره جدید باز میشود) بحث کردهایم.
مقایسه پیشبینیهای شبیهسازی استقرار با روشهای پایه. در ارزیابی ریسک پیش از استقرار، مهمترین موارد آنهایی هستند که پس از استقرار مدل، میزان وقوعشان تغییر چشمگیری میکند، مثلاً >= 1.5x. در این موارد، شبیهسازی استقرار بسیار بهتر از روشهای پایه عمل میکند؛ هم در پیشبینی اینکه یک رفتار نامطلوب مشخص پس از استقرار مدل بیشتر یا کمتر میشود (شکل ۳، چپ)، و هم در برآورد میزان دقیق وقوع آن هنگام استقرار (شکل ۳، راست). ما از دو روش پایه اصلی استفاده میکنیم: یکی روش «پرامپتهای چالشبرانگیز» که اکنون برای کارتهای سیستم و تصمیمهای مربوط به عرضه به کار میبریم، و دیگری یک روش سادهانگارانه که نرخهای استقرار قبلی را مبنای برآورد برای مدل جدید قرار میدهد.
شکل ۳. شبیهسازی استقرار، هم جهت تغییر در میزان وقوع رفتارها را بهتر از ارزیابیهای ثابت پیشبینی میکند (چپ)، و هم نرخ دقیق وقوع آنها را در استفاده واقعی از محصول بهتر برآورد میکند (راست).
منابع خطا در شبیهسازی ما. ما همچنین بررسی کردیم که خطاهای فعلی در این فرایند از کجا میآیند. بهطور مشخص، خطاهای بزرگِ موردی میتوانند اعتماد ما به این فرایند را برای تصمیمگیری درباره استقرار مدل کاهش دهند. برای مثال، اگر این فرایند افزایش زیادی را در یک نوع رفتار نامطلوب پیشبینی کند، اما بدانیم که گاهی ممکن است خطاهای بزرگی داشته باشد، این تردید ایجاد میشود که آیا آن پیشبینی واقعاً قابل اتکاست یا فقط نتیجه یک خطای کاذب در خود فرایند است. دو منبع اصلی برای چنین خطاهایی وجود دارد:
- خطای ناشی از شبیه نبودن محیط بازنمونهگیری به محیط واقعی: برای اینکه بتوانیم نرخ رفتارها را در محیط واقعی محصول بهدرستی برآورد کنیم، فرایند شبیهسازی ما باید تا حد ممکن به شرایط واقعی نزدیک باشد. این موضوع از یک سو مسئلهای مهندسی است (یعنی نمونهگیری از مدل با همان مسیرها و فرایندهایی که برای ترافیک واقعی محصول به کار میروند) و از سوی دیگر، برای ابزارهایی که به دسترسی خواندن و نوشتن به منابع خارجیِ دائماً در حال تغییر نیاز دارند، چالش جالبی ایجاد میکند (مانند جستوجو در وب یا تعامل با فایلهای محلی). برای جدا کردن خطای ناشی از میزان واقعنمایی شبیهسازی، میتوانیم پیشبینیهای یک استقرار واقعی را با شبیهسازی همان استقرار مقایسه کنیم (یعنی شبیهسازی استقرار مدلی که پیشتر واقعاً مستقر شده است).
- خطای ناشی از تغییر توزیع پرامپتها: یکی از نگرانیهای اصلی در شبیهسازی استقرار این است که وقتی یک مدل مستقر میشود، نوع ورودیهایی که کاربران به آن میدهند تغییر میکند؛ بهویژه اگر کاربران خود را با قابلیتها و امکانات تازه مدل تطبیق دهند. برای جدا کردن خطای ناشی از توزیع پرامپتها، برآوردهای حاصل از شبیهسازی استقرار با پرامپتهای اخیر را با برآوردهایی مقایسه میکنیم که بر اساس پرامپتهای ثبتشده در استقرار واقعی به دست آمدهاند.
همانطور که در شکل ۴ دیده میشود، بخش بزرگی از خطا در فرایند ما—بهویژه خطاهای بزرگ و نادر—در حال حاضر به این دلیل رخ میدهد که شبیهسازی هنوز کاملاً به شرایط واقعی نزدیک نیست. این خبر خوبی است، چون انتظار داریم بهتر کردن واقعنمایی شبیهسازی معمولاً آسانتر از کاهش تغییر در الگوی پرامپتهای کاربران باشد. همچنین دریافتیم که میتوان خطای ناشی از تغییر توزیع پرامپتها را با استفاده از تازهترین دادههای استقرار قبلی کاهش داد. جزئیات بیشتر در مقاله پژوهشی آمده است.
شکل ۴: به نظر میرسد میزان نزدیک بودن محیط بازنمونهگیری به شرایط واقعی، بزرگترین منبع خطا در برآوردهای ما باشد؛ بهویژه در مورد خطاهای بسیار بزرگ.
ممیزی خودکار، تنها ناهمسویی جدید در این استقرارها را شناسایی کرد. در بازهای که بررسی کردیم، فرایند ممیزی خودکار ما که بر پایه استقرارهای شبیهسازیشده انجام میشود، میتوانست «هک ماشینحساب» را پیش از انتشار نشان دهد؛ این تنها ناهمسویی جدیدی بود که در ترافیک تحلیلشده ChatGPT پیدا کردیم. هک ماشینحساب نوعی دور زدن نظام پاداش است؛ یعنی مدل از ابزار مرورگر برای انجام محاسبه استفاده میکند، اما آن را طوری نشان میدهد که انگار در حال جستوجو است. البته این به این معنا نیست که ممیزی گسترده میتواند همه خطاهای جدید را پیدا کند، اما نشان میدهد چرا زمینههای واقعگرایانه اهمیت دارند: چنین زمینههایی میتوانند رفتارهایی را آشکار کنند که شاید در مجموعههای ارزیابی محدودتر اصلاً دیده نشوند، حتی اگر در ترافیک اولیهای که برای شروع شبیهسازی استفاده شده بود وجود نداشته باشند.
مزیت دیگرِ استفاده از زمینههایی نزدیک به شرایط واقعی استقرار این است که میتواند اثرات ناشی از آگاه شدن مدل از آزمون را کاهش دهد. در پژوهشهای پیشین، هم ما و هم دیگران(در یک پنجره جدید باز میشود) دیدهایم که مدلها اغلب متوجه میشوند چه زمانی در حال ارزیابی هستند. برای مثال، مدل ممکن است در زنجیره تفکر خود بررسی کند که موضوع آزمون چیست، ارزیاب احتمالاً چه چیزی را ترجیح میدهد، و اگر رفتاری نادرست انجام دهد، آیا ممکن است شناسایی شود یا نه. این مسئله برای ارزیابی همسوسازی چالش ایجاد میکند: اگر مدل فقط به این دلیل درست رفتار کند که میداند در حال آزمون است، چگونه میتوانیم اطمینان داشته باشیم که پس از استقرار نیز رفتاری ایمن خواهد داشت؟
ما نشان میدهیم که شبیهسازی استقرار، در مقایسه با ارزیابیهای سنتی که بر دادههای واقعی استقرار تکیه ندارند، باعث میشود مدلها کمتر متوجه شوند که در حال ارزیابی هستند. این آگاهی را به سه روش اندازه میگیریم: از یک مدل میخواهیم تشخیص دهد که آیا یک مسیر تعامل مربوط به محیط واقعی محصول است یا بخشی از یک ارزیابی؛ زنجیره تفکر را بررسی میکنیم تا ببینیم آیا مدل صریحاً به ارزیابی همسوسازی اشاره میکند یا نه؛ و همچنین متاگیمینگ(در یک پنجره جدید باز میشود) را میسنجیم، یعنی هر نوع استدلال مدل درباره اینکه تحت نظارت است. ترافیک شبیهسازیشده استقرار، در هر سه معیار، بسیار شبیه ترافیک واقعی استقرار بود. برای مثال، GPT‑5.2 در ۵٫۴٪ موارد، ترافیک واقعی محصول را شبیه ارزیابی تشخیص داد و این عدد برای ترافیک شبیهسازیشده ۵٫۱٪ بود؛ اما ارزیابیهای سنتی، مانند SWE-Bench یا MonorepoBench که عمدتاً از نمونههای مصنوعی ساخته شدهاند، تقریباً همیشه، یعنی نزدیک به ۱۰۰٪ موارد، بهعنوان ارزیابی تشخیص داده شدند.
شکل ۵. مقایسه آگاهی از ارزیابی: ترافیک واقعی محصول و ترافیک شبیهسازیشده در سه معیار نرخهای مشابهی نشان میدهند: تشخیص اینکه گفتوگو مربوط به ارزیابی است، اشاره صریح مدل به اینکه برای همسوسازی در حال ارزیابی است، و متاگیمینگ؛ اما در مجموعهدادههای سنتی ارزیابی، این نرخها بسیار بالاتر است.
برای اینکه ببینیم این روش فقط به چتهای معمول محدود نمیشود، آن را در سناریوهای دشوار کدنویسی عاملمحور هم بررسی کردیم. بهطور مشخص، از ۱۲۰٬۰۰۰ تعامل داخلی کارکنان با GPT‑5.4 استفاده میکنیم تا استقرار داخلی عاملهای کدنویسی مبتنی بر GPT‑5.5 را شبیهسازی کنیم. این کار دو نکته را نشان میدهد: اول اینکه شبیهسازی استقرار میتواند برای ارزیابی ریسک در استقرارهای داخلی هم به کار رود؛ و دوم اینکه حتی در محیطهای عاملمحور، اگر استفاده از ابزارها با دقت شبیهسازی شود، میتوان شبیهسازی را تا حد زیادی به شرایط واقعی نزدیک کرد.
پیشتر گفتیم که یکی از منابع اصلی خطا در فرایند فعلی ما این است که شبیهسازی همیشه به اندازه کافی به شرایط واقعی نزدیک نیست. یکی از چالشهای نزدیکتر کردن شبیهسازی استقرار به واقعیت این است که ابزارها هم باید رفتاری شبیه شرایط واقعی داشته باشند؛ حتی زمانی که برای کار کردن به دسترسی خواندن و نوشتن به منابع بیرونیِ دائماً در حال تغییر نیاز دارند، (مانند جستوجو در وب یا تعامل با فایلهای محلی).
این موضوع در محیطهایی مثل استقرارهای عاملمحور چالشبرانگیزتر میشود؛ چون یک تعامل عاملمحور میتواند به صدها فراخوانی ابزار، وضعیت مخزن کد، پاسخهای شبکه یا خطاهای موقتی وابسته باشد. به همین دلیل، بازنمونهگیری با دسترسی واقعی به ابزارها هم دشوار است و هم میتواند خطرناک باشد. بنابراین، بهجای اینکه فراخوانیهای ابزار را روی سامانههای زنده اجرا کنیم، آنها را با یک LLM دیگر شبیهسازی میکنیم. ما نشان میدهیم که دادن قابلیتها و امکانات بیشتر به این LLM برای نزدیکتر شدن شبیهسازی به واقعیت، و در نتیجه برای کیفیت بهتر برآوردها، ضروری است.
به مدل شبیهساز ابزار، اجرای اصلیِ نوبت پایانی، مخزن کد مربوط به زمان همان گفتوگو، پایگاه دادهای از جفتهای «فراخوانی ابزار/پاسخ ابزار»، و اتصالدهندههای فقطخواندنی را میدهیم. در آزمونی که در آن یک مدل تشخیصدهنده تلاش میکرد اجراهای شبیهسازیشده را از اجراهای واقعی تشخیص دهد، میزان واقعگرایی از نرخ برد ۱۱٫۶٪ به ۴۹٫۵٪ رسید؛ رقمی نزدیک به سطح تصادفی ۵۰٪.
شکل ۶: اگر فراخوانیهای ابزار با قابلیتها و امکانات بیشتری شبیهسازی شوند، بازنمونهگیری حتی در محیطهایی که وابستگی زیادی به ابزار دارند میتواند آنقدر واقعی به نظر برسد که تقریباً از نمونهگیری واقعی قابل تشخیص نباشد.
بهعنوان نشانهای دیگر از اینکه شبیهسازی تا حد خوبی به شرایط واقعی نزدیک است، وقتی ترافیک Thinking مربوط به GPT‑5.4 Codex را با GPT‑5.4 شبیهسازی میکنیم، نرخهای ناهمسویی تقریباً در محدوده خطا قرار میگیرند. در مقابل، در آزمونهای پیش از استقرار، GPT‑5.5 در بیشتر دستهها ناهمسویی بیشتری نشان داد.
شکل ۷: با شبیهسازی استفاده از ابزارها، نرخ وقوع رفتارها در گفتوگوهایی که با GPT‑5.4 بازنمونهگیری شدهاند و در ترافیک واقعی محصولِ GPT‑5.4 بسیار به هم نزدیک است؛ این نشان میدهد محیط بازنمونهگیری تا حد زیادی به شرایط واقعی نزدیک بوده است. برای آشنایی بیشتر با این دستهها، کارت سیستم GPT‑5.5(در یک پنجره جدید باز میشود) را ببینید.
این نتایج نشان میدهد که اگر محیط ابزارهایی که عامل با آنها کار میکند بهاندازه کافی شبیه شرایط واقعی شبیهسازی شود، شبیهسازی استقرار میتواند در محیطهای پیچیده عاملمحور هم کاربرد داشته باشد.
یک پرسش طبیعی این است که آیا ممیزان بیرونی هم میتوانند بدون دسترسی به ترافیک خصوصیِ محصول، بخشی از همین مزایا را به دست آورند یا نه. ما این موضوع را با استفاده از ۱۰۰٬۰۰۰ گفتوگوی WildChat بهعنوان نقطه شروع آزمودیم. WildChat نسبت به دادههای اخیرِ ترافیک واقعی OpenAI دقت کمتری داشت، اما همچنان اطلاعات مفیدی ارائه میکرد: دادههای اخیرِ ترافیک واقعی، میانگین خطای ضربی کمتری نسبت به WildChat داشتند (۱٫۷۵× در برابر ۲٫۴۴×)، اما WildChat اغلب در فاصلهای حدود ۳× از نرخهای ترافیک واقعی باقی میماند و در مواردی بیش از سطح تصادفی، مدل بهتر را شناسایی میکرد. ما ارزیابیهایی از نوع WildChat را مکملی امیدبخش برای شبیهسازی استقرارِ اجراشده توسط توسعهدهندگان میدانیم. برای نتایج بیشتر درباره این موضوع، این پست وبلاگ Alignment(در یک پنجره جدید باز میشود) تکمیلی را ببینید.
شبیهسازی استقرار قرار نیست جای ارزیابیهای سختگیرانه، آزمونهای تیم قرمز یا بررسی ریسکهای نادر اما جدی را بگیرد؛ بلکه در کنار آنها به کار میآید. برای شناسایی برخی رفتارهای نامطلوب مدل، باید بتوانیم زنجیره تفکر مدل را بخوانیم و بفهمیم. اگر مدلهای آینده استدلال خود را مبهمتر بیان کنند، بخشهای مهم فکرشان را نشان ندهند یا یاد بگیرند نیت واقعی خود را پنهان کنند، ممکن است این رفتارهای نامطلوب از چشم ما دور بماند. از سوی دیگر، چون دادههای واقعیِ استفاده کاربران از محصول خصوصی است، توسعهدهندگان فعلاً نسبت به ممیزان بیرونی به نمونههای واقعیتر و نمایندهتری از نحوه استفاده از مدل دسترسی دارند. مجموعهدادههای عمومیِ بهتر میتوانند این فاصله را کمتر کنند.
شبیهسازی استقرار زمانی بیشترین ارزش را دارد که رفتار موردنظر آنقدر تکرار شود که در نمونههای انتخابشده از گفتوگوها دیده شود. اما اگر یک خطا فقط یک بار در هر ده میلیون گفتوگو رخ دهد، حتی با بررسی یک میلیون نمونه هم احتمالاً آن را پیدا نمیکنیم. به همین دلیل، همچنان به ارزیابیهای خصمانه، آزمونهای تیم قرمز و بررسی جداگانه ریسکهای نادر اما جدی نیاز داریم. در حال حاضر، ما فقط یک پاسخ از دستیار را شبیهسازی میکنیم، چون در آزمایشهای اولیه دیدیم که شبیهسازی چند رفتوبرگشتِ گفتوگو، برآوردهای ما را به شکل معناداری بهتر نمیکند. با این حال، در آینده ممکن است شبیهسازی چندمرحلهای گفتوگو یکی از راههای مهم برای نزدیکتر کردن شبیهسازی به شرایط واقعی باشد.
این روش به نوع گفتوگوهایی هم بستگی دارد که برای شبیهسازی دوباره انتخاب میشوند؛ یعنی به ترکیب گفتوگوهایی که دوباره نمونهگیری میکنیم. دادههای قدیمیِ مورد استفاده کاربران ممکن است با شیوهای که کاربران پس از یک تغییر بزرگ در محصول، انتشار یک ابزار تازه، وقوع یک رویداد جهانی یا تغییرات فصلی با یک مدل توانمندتر تعامل میکنند، همخوان نباشد. تحلیل ارائهشده در مقاله کامل نشان میدهد که میتوان این مشکل را با استفاده از تازهترین دادههای موجود کاهش داد.
شبیهسازی استقرار رویکردی تازه برای ارزیابی ریسک پیش از استقرار است. این روش به آزمایشگاههای پیشرو و ارزیابان کمک میکند پیش از انتشار، بهتر پیشبینی کنند که مدلهای زبانی در دنیای واقعی چگونه رفتار خواهند کرد و چه ریسکهایی ممکن است ایجاد کنند. شبیهسازی استقرار جایگزین ارزیابیهای ایمنی، آزمونهای تیم قرمز یا تحلیلهای هدفمند نیست؛ بلکه با افزودن یک لایه پیشبینی که به شرایط واقعی محصول نزدیکتر است، آنها را کاملتر میکند. این لایه میتواند برآورد ما از رفتار مدل پس از استقرار را بهتر کند، اثر آگاه شدن مدل از ارزیابی را کاهش دهد و امکان بررسی درستی پیشبینیها را پس از انتشار فراهم کند. وقتی شبیهسازی استقرار در کنار ارزیابیهای سنتی به کار رود، میتواند ارزیابی ریسک مدل را واقعیتر، عددیتر و برای تصمیمگیری درباره استقرار مفیدتر کند.


