स्किप करके मेन कंटेंट पर जाऍं
OpenAI

16 जून 2026

रिसर्च

डिप्लॉयमेंट को सिम्युलेट करके रिलीज़ से पहले अनुमान लगाना कि मॉडल कैसे काम करेगा

रिलीज़ से पहले मॉडल के अनचाहे व्यवहार का बेहतर अनुमान लगाने के लिए असली बातचीत का संदर्भ लेना.

परिचय

किसी नए मॉडल को रिलीज़ करने से पहले, लैब्स को न सिर्फ़ यह समझना होता है कि वह क्या कर सकता है, बल्कि यह भी कि जब इसका इस्तेमाल किया जाएगा, तो इसके कैसे व्यवहार की संभावना है, जिसमें यह भी शामिल है कि वह कहाँ नए जोखिम पैदा कर सकता है. क्षमताएँ बढ़ने के साथ यह और भी महत्वपूर्ण हो जाता है. हमारे प्री-डिप्लॉयमेंट सुरक्षा रिव्यू के तहत, हम मॉडल के व्यवहार को समझने के लिए टारगेडेट इवैल्युएशन, रेड-टीमिंग और अन्य जाँचों की मदद लेते हैं. हमने अब मॉडल को डिप्लॉय करने से पहले सिम्युलेट करने के एक तरीके का इस्तेमाल शुरू किया है, जो एक अतिरिक्त संकेत देता है: यूज़र तक पहुँचने से पहले ही यह प्रीव्यू मिल जाता है कि डिप्लॉयमेंट के बाद एक कैंडिडेट मॉडल कैसा व्यवहार कर सकता है.

डिप्लॉयमेंट सिम्युलेशन एक ऐसा तरीका है, जिससे भविष्य में होने वाले डिप्लॉयमेंट को सिम्युलेट किया जाता है. इसमें हम प्राइवेसी का पूरा ध्यान रखते हैं और पिछली बातचीत को एक नए कैंडिडेट मॉडल के साथ दोबारा प्ले करते हैं. इससे हमें रिलीज़ से पहले यह समझने में मदद मिलती है कि जब वाकई में इसका इस्तेमाल किया जाएगा, तब यह किस तरह से जवाब देगा. इसमें यह भी देखा जाता है कि क्या यह किसी अनचाहे तरीके से व्यवहार कर सकता है और ऐसा कितनी बार हो सकता है.

GPT‑5‑सीरीज़ के कई Thinking डिप्लॉयमेंट में, डिप्लॉयमेंट सिम्युलेशन ने मॉडल के अनचाहे व्यवहार की दरों के हमारे अनुमानों को बेहतर बनाया, रिलीज़ से पहले गलत अलाइनमेंट के नए रूपों को सामने लाने में मदद की और इस जोखिम को घटाने में मदद की कि मॉडल पहचान सकें कि उनकी टेस्टिंग की जा रही है. हमने इस तरीके को चुनौतीपूर्ण एजेंटिक रोलआउट पर भी लागू किया, जिससे पता चला कि यह स्टैंडर्ड चैट से आगे बढ़कर उन जटिल स्थिति में भी काम आ सकता है, जिसमें एजेंट किसी टूल का इस्तेमाल करते हैं. इसके साथ ही इंटरनल मॉडल डिप्लॉयमेंट से पहले रिस्क असेसमेंट के लिए भी इस्तेमाल किया जा सकता है.

हमने मॉडल को बनाते समय डिप्लॉयमेंट सिम्युलेशन से मिली इनसाइट का इस्तेमाल किया, जिससे इवैल्यूएशन के पारंपरिक तरीकों से नज़र न आने वाली कमियों की पहचान हो सकी, उन्हें दूर किया जा सका और डिप्लॉयमेंट से जुड़े फ़ैसले लेने में मदद मिली. जैसे-जैसे हम इस पाइपलाइन को चलाना और आसान बना रहे हैं, हमें उम्मीद है कि भविष्य में मॉडल बनाने के प्रोसेस में यह एक बड़ी भूमिका निभाएगा.

डिप्लॉयमेंट सिम्युलेशन कैसे काम करता है

आम तौर पर पूरी इंडस्ट्री में डिप्लॉयमेंट से पहले के इवैल्यूएशन में कम्प्यूटर द्वारा लिखे गए, खुद से लिखे गए, या प्रोडक्शन प्रॉम्प्ट का एक मिला-जुला इस्तेमाल होता है, जिन्हें जानबूझकर मुश्किल, बेहद गंभीर या चुनौतीपूर्ण रखा जाता है. इन इवैल्यूएशन के अक्सर दो जुड़े हुए लक्ष्य रहते हैं: पहला यह देखना कि जब मॉडल को ऐसी स्थितियों में स्ट्रेस-टेस्ट किया जाए जिनके डिप्लॉयमेंट ट्रैफ़िक में आने की संभावना बहुत ही कम है, तो वह किस तरह से काम करता है; और दूसरा, मॉडल के अनचाहे व्यवहार का पता करना और यह अनुमान लगाना कि डिप्लॉयमेंट के वक्त वह कितनी बार ऐसा अनचाहा व्यवहार कर सकता है.

जहाँ पहले लक्ष्य को हासिल करने के लिए पारंपरिक तौर पर किए जाने वाले इवैल्यूएशन अभी भी ज़रूरी हैं, वहीं ऐसे रिस्क जो बेहद दुर्लभ नहीं है, उनके इवैल्यूएशन के लिए डिप्लॉयमेंट सिम्युलेशन एक बड़ा कदम है (हमारे प्रयोगों के मुताबिक, 2,00,000 में सिर्फ़ एक या उससे कम बार होने वाले अनचाहे व्यवहार को हमारे तरीके से मापा नहीं जा सकता). डिप्लॉयमेंट सिम्युलेशन की ताकत पारंपरिक इवैल्यूएशन की कुछ मूल चुनौतियों को दरकिनार करने से आती है:

  • कवरेज: यह भरोसा करना मुश्किल है कि इवैल्यूएशन प्रॉम्प्ट्स से मॉडल के सभी तरह के अनचाहे व्यवहार का पता लगाया जा सकेगा. नए तरह के अनचाहे व्यवहार को मापने के लिए नए इवैल्यूएशन बनाना और यह जानना ज़रूरी होता है कि किन नुकसानों को मापना है. इसमें काफ़ी समय और मेहनत लग सकती है और समय के साथ ये इवैल्यूएशन अपनी धार खो सकते हैं.
  • सेलेक्शन में भेदभाव: पारंपरिक इवैल्यूएशन आम तौर पर मॉडल के कुछ चुनिंदा अनचाहे व्यवहारों को ध्यान में रखकर बनाए जाते हैं और उन्हें चुनने के जो तरीके होते हैं, उनका झुकाव ऐसे मामलों की तरफ़ होते हैं, जो पहले भी सामने आ चुके हैं. इसकी वजह से, अनचाहे व्यवहार को लेकर उनका अनुमान डिप्लॉयमेंट डिस्ट्रीब्यूशन की बड़ी तस्वीर के लिए पूरी तरह से मददगार नहीं रहता.
  • मॉडलों द्वारा टेस्टिंग को पहचानना: मॉडल अब यह समझने में माहिर होते जा रहे हैं कि उनकी टेस्टिंग की जा रही हैं, इससे उनका व्यवहार बदल सकता है और उनकी सुरक्षा से जुड़े हमारे बाद के उपाय प्रभावित हो सकते हैं. हालाँकि OpenAI में हम जिन पारंपरिक इवैल्यूएशन का इस्तेमाल करते हैं, उनमें से कई प्रोडक्शन ट्रैफ़िक से भी लिए जाते हैं और उनमें यह दिक्कत नहीं आती, लेकिन पूरी इंडस्ट्री में इस्तेमाल होने वाले कई पारंपरिक इवैल्यूएशन के लिए यह एक आम समस्या है.

डिप्लॉयमेंट सिम्युलेशन के पीछे की मुख्य तकनीक सरल है: हम डिप्लॉयमेंट से हालिया बातचीत लेते हैं, पुराने मॉडल से असिस्टेंट के जवाब हटाते हैं, और रिलीज़ किए जाने वाले कैंडिडेट मॉडल से उसे फिर से जेनरेट करते हैं. ऐसे हम नई गलतियों को खोजकर यह इवैल्यूएट करते हैं कि मॉडल किस हद तक पूरा हो चुका है. डिप्लॉयमेंट जैसे डिस्ट्रीब्यूशन में ऐसे अनचाहे व्यवहार कितनी बार होते हैं, उससे यह अनुमान भी लग जाता है कि जब वाकई में डिस्ट्रीब्यूशन होगा तब कितनी बार ऐसी गलतियाँ होंगी. हम रिलीज़ के बाद डिप्लॉयमेंट के असली ट्रैफ़िक पर भी इसे फिर से आज़मा सकते हैं, जिससे डिप्लॉयमेंट से पहले के हमारे अनुमान कितने सटीक थे, इसकी जाँच हो जाती है.

डिप्लॉयमेंट सिम्युलेशन से ऊपर बताई गईं तीन चुनौतियाँ काफ़ी हद तक कम हो जाती हैं: हालिया बातचीत के आधार पर बने इवैल्यूएशन प्रॉम्प्ट के डिस्ट्रीब्यूशन का इस्तेमाल करके सैंपलिंग के भेदभाव को मिटाया जाता है. प्रतिनिधि प्रॉम्प्ट के इस्तेमाल से डिप्लॉयमेंट सिम्युलेशन कवरेज से जुड़ी चिंताएँ भी कम हो सकती हैं: हम सिर्फ़ ज़्यादा ट्रैफ़िक को सिम्युलेट करके ही मॉडल के और अनचाहे व्यवहारों को बेहतर कवर कर पाते हैं. कंप्यूट और कवरेज के बीच का यह संतुलन बहुत मायने रखता है, क्योंकि यह रिस्क असेसमेंट के इस हिस्से की क्वालिटी को कंप्यूट के साथ बढ़ाने में मदद करता है और नए इवैल्यूएशन तैयार करने पर लोगों को अलग से मेहनत नहीं करनी पड़ती. साथ ही मॉडल को भी पता नहीं चल पाता कि कौन-सी बातचीत डिप्लॉयमेंट सिम्युलेशन के दौरान की गई है और कौन-सी डिप्लॉयमेंट के असली ट्रैफ़िक का हिस्सा है.

प्रोडक्शन रीसैंपलिंग पाइपलाइन को दिखाता हुआ डायग्राम, जो प्रोडक्शन की बातचीत से शुरू होकर प्राइवेसी बरकरार रखने वाली रीसैंपलिंग, मॉडल कंप्लीशन जेनरेशन, इवैल्यूएशन और आखिर में डिप्लॉयमेंट के समय के अनुमानों तक जाता है.

चित्र 1: हमारी डिप्लॉयमेंट सिम्युलेशन पाइपलाइन पर एक नज़र

क्षेत्र

पारंपरिक इवैल्यूएशन

डिप्लॉयमेंट सिम्युलेशन

कवरेज

उन कम दिखने वाले लेकिन गंभीर खतरों के लिए बेहतर है, जिनके लिए हम यह पक्का करना चाहते हैं कि हमारे पास सुरक्षा या कवरेज हो

डिप्लॉयमेंट ट्रैफ़िक में दिखने की संभावना वाले उन तमाम रिस्क को समझने के लिए बेहतर

प्रतिनिधित्व / पूर्वाग्रह

पुराने लक्ष्यों या अनुमानित रिस्क के इवैल्यूएशन पर केंद्रित, यहाँ तक कि उन व्यवहारों के लिए भी जो डिप्लॉयमेंट में बेहद कम दिखाई देते हैं

उन रिस्क को बताता है, जो मौजूदा डिप्लॉयमेंट ट्रैफ़िक में एक तय सीमा से ज़्यादा दिखाई देते हैं

इवैल्यूएशन अवेयरनेस

जब तक कि डिप्लॉयमेंट डेटा से इवैल्यूएशन न किए जाएँ, संभावित रूप से टेस्ट के स्पष्ट संकेत (जैसे सिंथेटिक डेटा के साथ)

डिप्लॉयमेंट-जैसा संदर्भ शायद इवैल्यूएशन अवेयरनेस को काफ़ी कम करता है

कोशिश

कस्टम प्रॉम्प्ट डिस्ट्रीब्यूशन और सेटअप के लिए काफ़ी ज़्यादा मेहनत करनी पड़ती है

सिर्फ़ एक बार इंफ़्रास्ट्रक्चर का खर्च आता है और फिर यह डिप्लॉयमेंट से प्रीफ़िक्स को और पहचाने गए अनचाहे व्यवहारों से ग्रेडर्स को दोबारा इस्तेमाल कर लेता है

पारंपरिक इवैल्यूएशन और डिप्लॉयमेंट सिम्युलेशन के बीच के अंतर पर एक नज़र

हमने डिप्लॉयमेंट सिम्युलेशन की टेस्टेिंग कैसे की

डिप्लॉयमेंट सिम्युलेशन को इवैल्यूएट करने के लिए, हमने GPT‑5.4 Thinking के लिए डिप्लॉयमेंट के वक्त दिखने वाले 20 तरह के अनचाहे व्यवहारों की फ्रीक्वेंसी के अनुमानों को पहले से रजिस्टर किया था. हमने GPT‑5‑सीरीज़ के Thinking मॉडलों के अन्य डिप्लॉयमेंट पर पुरानी स्टडीज़ को भी आज़माया. हम मॉडल के जिस तरह के व्यवहारों को एनालाइज़ करते हैं, उनमें गलत अलाइनमेंट और प्रतिबंधित कंटेंट शामिल हैं, जिनकी हम सिस्टम कार्ड में रिपोर्टिंग करते रहे हैं (जैसे मॉडल का टूल के बारे में झूठ बोलना, या प्रतिबंधित यौन सामग्री को आउटपुट में देना). हालाँकि इन नतीजों के लिए हम मॉडल के अनचाहे व्यवहार की सिर्फ़ 20 कैटेगरी को ट्रैक करते हैं और सिर्फ़ नए गलत अलाइनमेंट के व्यवहारों को खोजते हैं, लेकिन डिप्लॉयमेंट सिम्युलेशन एक सामान्य तकनीक है जिसे किसी भी डिप्लॉयमेंट के समय दिखने वाले मॉडल की किसी भी खूबी या खामी को सिम्युलेट करने के लिए इस्तेमाल किया जा सकता है.

हमने जिस प्रोडक्शन ट्रैफ़िक का इस्तेमाल किया वह भी GPT‑5‑सीरीज़ के Thinking मॉडलों से ही लिया गया था. अपने इवैल्यूएशन शुरू करने से पहले, हमने अकाउंट और यूज़र की पहचान कराने वाली जानकारी ऑटोमैटिक तरीके से हटा दी थी. अपनी प्राइवेसी पॉलिसी के मुताबिक, हमने सिर्फ़ उन यूज़र के ChatGPT ट्रैफ़िक को एनालाइज़ किया जो मॉडल को बेहतर बनाने के लिए अपने डेटा के इस्तेमाल की इजाज़त देते हैं. हम इन इवैल्यूशन से सिर्फ़ सामूहिक निष्कर्ष ही रिपोर्ट करते हैं. कुल मिलाकर, हमने अगस्त 2025 से मार्च 2026 के बीच GPT‑5 Thinking से GPT‑5.4 के डिप्लॉयमेंट तक लगभग 13 लाख ऐसी बातचीतों को एनालाइज़ किया, जिनके साथ किसी तरह की पहचान जुड़ी नहीं थी.

हम डिप्लॉयमेंट सिम्युलेशन से मिले प्री-डिप्लॉयमेंट के रिस्क असेसमेंट की क्वालिटी को तीन मुख्य तरीकों से परखते हैं:

  • टैक्सोनॉमी कवरेज: क्या रिलीज़ के बाद की गई ऑडिटिंग में किसी ऐसे अनचाहे व्यवहार का पता चला, जिसका हमारे पहले के इवैल्यूएशन में पता नहीं चल सका था?
  • सही दिशा: क्या सिम्युलेशन ने इस बात का सही अनुमान लगाया था कि डिप्लॉयमेंट के बाद, यूज़र के सामने पहले से मालूम कमियों के आने की तादाद बढ़ेगी या घटेगी?
  • रेट कैलिब्रेशन: क्या डिप्लॉयमेंट से पहले के हमारे अनुमान उन दरों के करीब थे जिन्हें हमने बाद में डिप्लॉयमेंट में देखा? अच्छी रेट कैलिब्रेशन पाने के लिए दिशा सही होने की ज़्यादा ज़रूरत होती है. इसलिए यह क्वालिटी का सबसे ऊँचा स्टैंडर्ड बन जाता है.

हम यह भी मापते हैं कि डिप्लॉयमेंट सिम्युलेशन के दौरान मॉडल किस हद तक यह बता पाते हैं कि कोई इवैल्यूएशन चल रहा है और टेस्ट करते हैं कि यह तरीका डिप्लॉयमेंट ट्रैफ़िक के अलग-अलग रूपों और टूल के चुनौतीपूर्ण इस्तेमाल के समय कितना मज़बूत है.

डिप्लॉयमेंट सिम्युलेशन से डिप्लॉयमेंट के पहले का रिस्क असेसमेंट काफ़ी बेहतर हो जाता है

GPT‑5‑सीरीज़ के सभी Thinking डिप्लॉयमेंट के दौरान, रिस्क की असली दर का पता लगाने में डिप्लॉयमेंट सिम्युलेशन ने मुश्किल प्रॉम्प्ट वाले बेसलाइन से बेहतर प्रदर्शन किया. यह मॉडल 'कैलकुलेटर हैकिंग' जैसी कमियों को रिलीज़ से पहले सामने ला पाया और ऐसा लगा कि मॉडल के लिए इस सिम्युलेशन और असली डिप्लॉयमेंट के बीच का फ़र्क समझना नामुमकिन था.

हमारे अनुमानों का ओवरव्यू. GPT‑5‑सीरीज़ के Thinking मॉडल के डिप्लॉयमेंट के लिए किए गए सभी अनुमानों के विज़ुअलाइज़ेशन देखने के लिए चित्र 2 देखें. GPT‑5.4 Thinking के लिए अनुमान पहले से रजिस्टर किए गए थे, जबकि बाकी पहले के अनुमान थे. कुल मिलाकर, हमारे अनुमानों में एरर का औसत गुना 1.5 था (उदाहरण के लिए, अगर किसी अनचाहे व्यवहार की दर 1 लाख में 10 की है, तो हमारे अनुमान के मुताबिक यह दर 1 लाख में 15 या 6.67 होगी). हालाँकि हमारे इस तरीके में लगभग 10 गुना तक ज़्यादा दुर्लभ एरर हो सकते हैं, लेकिन हमें उम्मीद है कि हमारे सिम्युलेशन पाइपलाइन को और बेहतर करके इन्हें काफ़ी कम किया जा सकता है, जैसा कि नीचे बताया गया है.

डिप्लॉयमेंट से पहले के डेटा के आधार पर, डिप्लॉयमेंट के समय दिखने वाले अनचाहे व्यवहार की बिल्कुल सही दरों के बारे में डिप्लॉयमेंट सिम्युलेशन के अनुमानों को दिखाता हुआ चार्ट.

चित्र 2. डिप्लॉयमेंट के पुराने डेटा के आधार पर डिप्लॉयमेंट के समय दिखने वाले अनचाहे व्यवहार की फ़्रीक्वेंसी के लिए डिप्लॉयमेंट सिम्युलेशन के अनुमान. नोटेशन 5.1 → 5 दिखाता है कि हम GPT‑5 से प्रिफ़िक्स लेकर उन्हें GPT‑5.1 के साथ फिर से सैंपल कर रहे हैं, यानी GPT‑5 के डेटा के आधार पर GPT‑5.1 के लाइव होने का सिम्युलेशन कर रहे हैं. गलत अलाइनमेंट वाले व्यवहार की सबसे ऊँची दर GPT‑5.1 में "कैलकुलेटर हैकिंग" थी, जिस पर हमने पहले चर्चा की है(एक नई विंडो में खुलेगा).

डिप्लॉयमेंट सिम्युलेशन के अनुमानों की बेसलाइन से तुलना. डिप्लॉयमेंट से पहले के रिस्क असेसमेंट के लिए सही अनुमान लगाने वाली सबसे महत्वपूर्ण कैटेगरी वे हैं जिनमें मॉडल के डिप्लॉयमेंट के बाद उनके दिखने की तादाद में बड़े बदलाव होते हैं (जैसे >= 1.5x). इस मामले में, डिप्लॉयमेंट सिम्युलेशन बेसलाइन की तुलना में बहुत बेहतर हैं, चाहे यह अनुमान लगाना हो कि मॉडल के डिप्लॉय होने के बाद किसी अनचाहे व्यवहार की फ़्रीक्वेंसी बढ़ेगी या घटेगी (चित्र 3, बाएँ) या फिर डिप्लॉयमेंट के समय के उसके व्यवहार का सटीक अनुमान लगाना हो (चित्र 3, दाएँ). हम खास तौर पर दो बेसलाइन का इस्तेमाल करते हैं: पहला, 'चैलेंजिंग प्रॉम्प्ट' बेसलाइन जिसे हम वर्तमान में सिस्टम कार्ड और लॉन्च के फ़ैसलों के लिए इस्तेमाल करते हैं और दूसरा, एक सामान्य बेसलाइन जिसमें पिछले डिप्लॉयमेंट की दरों के आधार पर ही नए मॉडल का अनुमान लगाया जाता है.

चित्र 3. डिप्लॉयमेंट सिम्युलेशन घटनाओं में होने वाले बदलावों की दिशा (बाएँ) और सटीक प्रोडक्शन दरें (दाएँ), दोनों का अनुमान स्टेटिक इवैल्यूएशन के मुकाबले बेहतर लगाता है.

हमारी पाइपलाइन में सिम्युलेशन एरर के सोर्स. हमने अपनी पाइपलाइन में एरर के मौजूदा सोर्स का भी अध्ययन किया. खास तौर पर ज़्यादा दुर्लभ एरर, जो पाइपलाइन को डिप्लॉयमेंट के फ़ैसलों के लिए कम भरोसेमंद बनाती हैं: उदाहरण के लिए, जब किसी खास तरह के अनचाहे व्यवहार में बड़ा अनुमानित बदलाव दिखाई देता है, तो इस बात का संदेह होता है कि यह एक भरोसेमंद अनुमान है या सिर्फ़ पाइपलाइन की कोई कलाकारी. इस तरह के एरर के तो मुख्य सोर्स होते हैं:

  • रीसैंपलिंग एनवायरनमेंट फ़िडेलिटी एरर: प्रोडक्शन की दरों का सटीक अनुमान लगाने के लिए, हमारी सिम्युलेशन पाइपलाइन को जहाँ तक हो सके वास्तविक होना ज़रूरी है. यह कुछ हद तक इंजीनियरिंग की समस्या है (प्रोडक्शन ट्रैफ़िक के लिए इस्तेमाल की जाने वाली समान पाइपलाइनों से मॉडल का सैंपल लेना) और कुछ हद तक यह उन टूल के लिए एक दिलचस्प चुनौती है जिन्हें लगातार बदलते बाहरी रिसोर्स (जैसे वेब सर्च या लोकल फ़ाइलों के साथ इंटरैक्ट करना) तक पहुँचने के लिए पढ़ने/लिखने के एक्सेस की ज़रूरत होती है. हम एक वास्तविक डिप्लॉयमेंट और उसके सिम्युलेशन की तुलना करके (यानी पहले से लाइव मॉडल के डिप्लॉयमेंट का ही सिम्युलेशन करके) सिम्युलेशन फ़िडेलिटी एरर को पूरी तरह अलग से अलग कर सकते हैं.
  • प्रॉम्प्ट डिस्ट्रीब्यूशन शिफ़्ट एरर : डिप्लॉयमेंट सिम्युलेशन के साथ एक बड़ी चिंता यह है कि किसी भी मॉडल का डिप्लॉयमेंट करने से उसके इनपुट में डिस्ट्रीब्यूशन से जुड़ा शिफ़्ट आएगा, खास तौर पर अगर यूज़र नए मॉडल की क्षमताओं के आदि हो जाते हैं. हम हालिया प्रॉम्प्ट के साथ ही किसी पूरे हो चुके डिप्लॉयमेंट के प्रॉम्प्ट को सिम्युलेट में इस्तेमाल करके मिलने वाले अनुमानों की तुलना करते हैं, ताकि प्रॉम्प्ट डिस्ट्रीब्यूशन एरर को पूरी तरह से अलग किया जा सके.

जैसा कि चित्र 4 में दिखाया गया है, हम पाते हैं कि हमारी पाइपलाइन में एरर का एक बड़ा हिस्सा—खास तौर पर दुर्लभ एरर के मामले में—सिम्युलेशन फ़िडेलिटी की वजह से है. यह अच्छी खबर है, क्योंकि हमें लगता है कि प्रॉम्प्ट डिस्ट्रीब्यूशन शिफ़्ट को कम करने के मुकाबले सिम्युलेशन फ़िडेलिटी में सुधार करना ज़्यादा आसान होगा. हमें यह भी पता चला है कि पिछले डिप्लॉयमेंट के सबसे हालिया डेटा का इस्तेमाल करके प्रॉम्प्ट डिस्ट्रीब्यूशन शिफ़्ट के एरर कम किए जा सकते हैं. इससे जुड़ी और अधिक जानकारी रिसर्च पेपर में देखी जा सकती है.

चित्र 4: रीसैंपलिंग एनवायरनमेंट की फ़िडेलिटी हमारे अनुमानों में एरर का सबसे बड़ा सोर्स लगती है, खास तौर सबसे गंभीर एरर्स के लिए.

ऑटोमेटेड ऑडिटिंग ने इन डिप्लॉयमेंट में शामिल हुए एक नए गलत अलाइनमेंट को खोज लिया. हमने जिस डिप्लॉयमेंट विंडो का अध्ययन किया, उसमें सिम्युलेटेड डिप्लॉयमेंट पर आधारित हमारी ऑटोमेटेड ऑडिटिंग पाइपलाइन रिलीज़ से पहले ही 'कैलकुलेटर हैकिंग' को सामने ले आती, यह ChatGPT के एनालाइज़ किए गए ट्रैफ़िक में पहचाना गया एकमात्र नया गलत अलाइनमेंट था. कैलकुलेटर हैकिंग भी एक तरह की रिवॉर्ड हैकिंग है, जिसमें मॉडल किसी ब्राउज़र टूल को कैलकुलेटर की तरह इस्तेमाल करता है, लेकिन अपने इस काम को एक सर्च के तौर पर दिखाता है. हालाँकि इसका यह मतलब नहीं है कि बड़े पैमाने पर की जाने वाली ऑडिटिंग हर नई कमी को पकड़ लेगी, लेकिन यह दिखाता है कि वास्तविक संदर्भ क्यों मायने रखते हैं: वे ऐसे व्यवहारों का पता लगा लेते हैं, जिन्हें छोटे या सीमित इवैल्यूएशन सेट कभी सीधे तौर पर नहीं पकड़ पाते, भले ही वे व्यवहार सिम्युलेशन शुरू करने के लिए इस्तेमाल किए गए असली ट्रैफ़िक में मौजूद न हों.

इवैल्यूएशन अवेयरनेस कम करना

डिप्लॉयमेंट-जैसे संदर्भों का इस्तेमाल करने का एक और फ़ायदा यह है कि वे उन बदलावों को कम कर सकते हैं जो तब आते हैं, जब उन्हें पता चल जाता है कि उनकी टेस्टिंग की जा रही है. पिछली रिसर्च में, हमने और अन्य लोगों(एक नई विंडो में खुलेगा) ने पाया है कि मॉडल अक्सर यह जान लेते हैं कि उनकी टेस्टिंग कब की जा रही है. उदाहरण के लिए, मॉडल अपने चेन-ऑफ-थॉट में यह रीज़निंग कर सकते हैं कि उनकी किस लिए टेस्टिंग की जा रही है, इवैल्यूएशन करने वाले को क्या पसंद आ सकता है, और – अगर वे गलत व्यवहार कर रहे हैं – तो क्या वे पकड़े जाएँगे. यह अलाइनमेंट इवैल्यूएशन के लिए मुश्किल पैदा करता है: अगर कोई मॉडल सिर्फ़ इसलिए अच्छा व्यवहार करता है क्योंकि उसे लगता है कि उसकी टेस्टिंग की जा रही है, तो हम यह भरोसा कैसे करें कि जब उसे पता चलेगा कि उसे डिप्लॉय कर दिया गया है, तब वह सुरक्षित व्यवहार करेगा?

हम यह दिखाते हैं कि डिप्लॉयमेंट सिम्युलेशन, डिप्लॉयमेंट के असली डेटा पर आधारित न होने वाले पारंपरिक इवैल्यूएशन के मुकाबले मॉडलों द्वारा दिखाए गए इवैल्यूएशन अवेयरनेस के स्तरों को काफ़ी कम करता है. हम इवैल्यूएशन अवेयरनेस को तीन तरीकों से मापते हैं: किसी मॉडल से यह क्लासिफ़ाई करवाकर कि कोई ट्रैजेक्टरी प्रोडक्शन से आई या इवैल्यूएशन से, चेन-ऑफ़-थॉट की निगरानी करके कि क्या उसमें अलाइनमेंट के लिए टेस्ट किए जाने से जुड़े स्पष्ट बयान हैं; साथ ही मेटागेमिंग(एक नई विंडो में खुलेगा) के लिए भी: खुद की निगरानी से जुड़ी कोई भी रीज़निंग. सिम्युलेटेड डिप्लॉयमेंट ट्रैफ़िक इन तीनों पैमानों पर डिप्लॉयमेंट के असली ट्रैफ़िक से काफ़ी हद तक मेल खाता था. उदाहरण के लिए, GPT‑5.2 ने असली प्रोडक्शन ट्रैफ़िक को 5.4% बार और सिम्युलेटेड ट्रैफ़िक को 5.1% बार 'इवैल्यूएशन जैसा' बताया, जबकि पारंपरिक इवैल्यूएशन (जैसे SWE-Bench या MonorepoBench, जो खास तौर पर सिंथेटिक यानी बनावटी उदाहरणों से बने होते हैं) की करीब 100% बार इवैल्यूएशन के रूप में पहचान की गई थी.

चित्र 5. इवैल्यूएशन अवेयरनेस की तुलना: असली प्रोडक्शन ट्रैफ़िक और सिम्युलेटेड ट्रैफ़िक इवैल्यूएशन की पहचान, वर्बलाइज़्ड अलाइनमेंट के लिए इवैल्यूएशन अवेयरनेस, और मेटागेमिंग के लिए समान दरें दिखाते हैं, जबकि पारंपरिक इवैल्यूएशन डेटासेट बहुत अधिक दरें रिपोर्ट करते हैं.

एजेंटिक ट्रैजेक्टरी के लिए टूल सिम्युलेशन

यह टेस्ट करने के लिए कि क्या यह तरीका चैट के स्टैंडर्ड मोड से आगे जा सकता है, हमने चुनौतीपूर्ण एजेंटिक कोडिंग सेटिंग्स के लिए डिप्लॉयमेंट को सिम्युलेट करने के बारे में अध्ययन किया. खास तौर पर, कंपनी के अपने 120,000 कर्मचारी एजेंटों का कैसे इस्तेमाल कर रहे हैं, यह डेटा हम GPT‑5.4 से लेकर GPT‑5.5 पर आधारित कोडिंग एजेंट के इंटरनल डिप्लॉयमेंट को सिम्युलेट करने के लिए करते हैं. इससे दो मकसद पूरे होते हैं: यह दिखाता है कि डिप्लॉयमेंट सिम्युलेशन इंटरनल डिप्लॉयमेंट के रिस्क असेसमेंट के लिए भी इस्तेमाल किया जा सकता है और यह दिखाता है कि सावधानी के साथ टूल सिम्युलेशन के ज़रिए एजेंटिक सेटिंग्स में भी सिम्युलेशन फ़िडेलिटी को ऊँचा बनाया जा सकता है.

ऊपर हमने चर्चा की कि सिम्युलेशन फ़िडेलिटी हमारी मौजूदा पाइपलाइन में एरर के मुख्य सोर्स में से एक है. डिप्लॉयमेंट सिम्युलेशन को वास्तविक बनाने की चुनौतियों में से एक यह है कि इसके लिए टूल को वास्तविक तरीकों से काम करना पड़ता है, भले ही उन्हें लगातार बदलते बाहरी रिसोर्स पर पढ़ने/लिखने का एक्सेस चाहिए हो (जैसे वेब पर कुछ सर्च करना हो या लोकल फ़ाइलों से इंटरैक्ट करना).

यह खास तौर पर एजेंटिक डिप्लॉयमेंट जैसी सेटिंग्स के लिए चुनौतियों से भरा है: एक अकेली एजेंट ट्रैजेक्टरी सैकड़ों टूल कॉल, रिपॉज़िटरी की स्थिति, नेटवर्क के रिस्पॉन्स, या कभी-कभार होने वाली तकनीकी असफलताओं पर निर्भर कर सकती है. इससे वास्तविक टूल का इस्तेमाल करके के साथ फिर से सैंपलिंग करना चुनौतीपूर्ण और संभावित रूप से खतरनाक बन जाता है. इसे ध्यान में रखते हुए, लाइव सिस्टम पर टूल कॉल लागू करने के बजाय, हम उन्हें किसी दूसरे LLM से सिम्युलेट करते हैं. हम यह दिखाते हैं कि इस LLM को अतिरिक्त क्षमताएँ देना वास्तवि बनाने के लिए ज़रूरी है और इसलिए अनुमान की क्वालिटी भी बेहतर होती है.

हम टूल-सिम्युलेटर मॉडल को फ़ाइनल-टर्न रोलआउट, बातचीत के समय की रिपॉज़िटरी, टूल-कॉल/रिस्पॉन्स पेयर का डेटाबेस, और सिर्फ़ पढ़े जा सकने वाले कनेक्टर्स देते हैं. ऐसे टेस्ट में जहाँ एक डिस्क्रिमिनेटर ने सिम्युलेटेड और असली रोलआउट के बीच का फ़र्क बताने की कोशिश की, वहाँ वास्तविकता का स्तर 11.6% की विन रेट से सुधरकर 49.5% पर पहुँच गया, जो कि लगभग 50% के रैंडम तुक्के के बराबर है.

चित्र 6: अगर बढ़ी हुई क्षमताओं के साथ टूल कॉल को सिम्युलेट किया जाए, तो कई सारे टूल वाले माहौल में भी रीसैंपलिंग की वास्तविकता को बिल्कुल असली सैंपलिंग जैसा बनाया जा सकता है.

सिम्युलेशन फ़िडेलिटी के अतिरिक्त सबूत के तौर पर, GPT‑5.4 Codex thinking ट्रैफ़िक को GPT‑5.4 के साथ सिम्युलेट करने पर, गलत अलाइनमेंट की दरों को लगभग एरर की सीमाओं के अंदर पाया गया. वहीं इससे उलट, हमारी डिप्लॉयमेंट से पहले की टेस्टिंग में GPT‑5.5 ज़्यादातर कैटेगरी में ज़्यादा गलत तरीके से अलाइन था.

चित्र 7: टूल सिम्युलेशन के साथ, GPT‑5.4 से रीसैंपल की गई बातचीतों और वास्तविक GPT‑5.4 के प्रोडक्शन ट्रैफ़िक के व्यवहार की दर काफ़ी एक जैसी हैं – जो रीसैंपलिंग एनवायरनमेंट की फ़िडेलिटी को दिखाता है. इन कैटेगरी पर और जानकारी पाने के लिए GPT‑5.5 सिस्टम कार्ड(एक नई विंडो में खुलेगा) देखें.

ये नतीजे बताते हैं कि जब आसपास के टूल एनवायरनमेंट को पर्याप्त फ़िडेलिटी के साथ सिम्युलेट किया जाता है, तो जटिल एजेंट सेटिंग पर भी डिप्लॉयमेंट सिम्युलेशन किया जा सकता है.

WildChat और बाहरी ऑडिटिंग

एक स्वाभाविक सवाल यह है कि क्या बाहरी ऑडिटर बिना निजी प्रोडक्शन ट्रैफ़िक का एक्सेस लिए भी इनमें से कुछ फ़ायदे हासिल कर सकते हैं. हमने WildChat की 100,000 बातचीत को प्रीफ़िक्स के तौर पर इस्तेमाल करके इसकी टेस्टिंग की. WildChat हाल के OpenAI प्रोडक्शन डेटा जितना सटीक नहीं था, लेकिन फिर भी उसमें काफ़ी जानकारियाँ थी: हाल के प्रोडक्शन डेटा में WildChat के मुकाबले एरर का औसत गुना कम था (1.75× बनाम 2.44×), जबकि WildChat अक्सर प्रोडक्शन रेट के करीब 3× के अंदर रहा और इसने रैंडम तुक्के से बेहतर दर पर बेहतर मॉडल की पहचान की. WildChat जिस तरह से इवैल्यूएशन करता है, हम उसे डेवलपर द्वारा चलाए जाने वाले डिप्लॉयमेंट सिम्युलेशन के एक भरोसेमंद साथी के तौर पर देखते हैं. इस मामले पर ज़्यादा नतीजों के लिए इस साथी Alignment ब्लॉगपोस्ट(एक नई विंडो में खुलेगा) को देखें.

सीमाएँ

चुनौतियों से भरे इवैल्यूएशन, रेड-टीमिंग और दुर्लभ रिस्क को लक्ष्य बनाकर किए गए एनालिसिस को डिप्लॉयमेंट सिम्युलेशन से मदद मिलती है, यह उन्हें बदलने का विकल्प नहीं है. मॉडल के कुछ अनचाहे व्यवहारों का पता लगाना निगरानी की चेन-ऑफ़-थॉट क्षमता पर निर्भर करता है: अगर भविष्य के मॉडल रीज़निंग ठीक से नहीं करते हैं, मुख्य स्टेप को छोड़ देते हैं, या अपने इरादे को छिपाना सीख जाते हैं, तो हम शायद इस तरह के अनचाहे व्यवहार का पता न लगा पाएँ. इसके अलावा, क्योंकि प्रोडक्शन का डेटा प्राइवेट होता है, इसलिए बाहरी ऑडिटर्स के मुकाबले फ़िलहाल डेवलपरों के पास प्रतिनिधि संदर्भों का बेहतर एक्सेस होता है. बेहतर पब्लिक डेटासेट इस फ़र्क को कम कर सकते हैं.

डिप्लॉयमेंट सिम्युलेशन उन व्यवहारों के लिए सबसे ज़्यादा काम आते हैं, जो कम-से-कम इतनी बार हों कि सैंपल किए गए प्रीफ़िक्स में दिखाई दे सकें. एक करोड़ बातचीतों में एक बार होने वाली असफलता, दस लाख के किसी सैंपल में दिख जाए, इसकी संभावना कम होती है, इसलिए चुनौतीपूर्ण इवैल्यूएशन, रेड-टीमिंग, और दुर्लभ रिस्क को लक्ष्य बनाकर किए गए एनालिसिस ज़रूरी बने रहते हैं. हम फ़िलहाल सिर्फ़ एक असिस्टेंट के जवाब को सिम्युलेट करने पर ध्यान देते हैं, क्योंकि शुरुआती प्रयोगों में हमें कई बार सिम्युलेट करके अपने अनुमानों में कोई खास सुधार नहीं मिला. भविष्य में सिम्युलेशन फ़िडेलिटी सुधारने के लिए यह एक महत्वपूर्ण क्षेत्र हो सकता है.

यह तरीका प्रीफ़िक्स डिस्ट्रीब्यूशन पर भी निर्भर करता है—यानी उन बातचीतों का मेल जिन्हें फिर से सैंपल किया जा रहा है. प्रोडक्ट में किसी बड़े बदलाव, नए टूल के आने पर, दुनिया की किसी घटना पर, या मौसम के बदलने पर कोई यूज़र किसी और ज़्यादा सक्षम मॉडल से जैसे बातचीत करता है, वह शायद ट्रैफ़िक के पुराने ट्रैफ़िक से मेल न खाए. पूरे पेपर का एनालिसिस यह बताता है कि सबसे हालिया डेटा का इस्तेमाल करके इस समस्या को कम किया जा सकता है.

निष्कर्ष

डिप्लॉयमेंट सिम्युलेशन, डिप्लॉयमेंट से पहले रिस्क असेसमेंट करने का एक नया तरीका है, जो अत्याधुनिक लैब और इवैल्यूएशन करने वालों को यह अनुमान लगाने में मदद करता है कि लैंग्वेज मॉडल वास्तविक दुनिया में कैसे व्यवहार कर सकते हैं और डिप्लॉयमेंट से पहले वे क्या रिस्क पैदा कर सकते हैं. प्रोडक्शन स्तर के अनुमानों को शामिल करके सुरक्षा के मौजूदा इवैल्यूएशन, रेड टीमिंग, और टारगेटेड एनालिसिस को पूरा करता है, जो डिप्लॉयमेंट के समय के व्यवहार के अनुमान को बेहतर बना सकता है, इवैल्यूएशन अवेयरनेस का असर कम कर सकता है, और लॉन्च के बाद डिप्लॉयमेंट से पहले के अनुमानों को परखने लायक बना सकता है. पारंपरिक इवैल्यूएशन के साथ इस्तेमाल किए जाने पर, डिप्लॉयमेंट सिम्युलेशन मॉडल रिस्क-असेसमेंट को ज़्यादा वास्तविक, अधिक क्वांटिटेटिव और डिप्लॉयमेंट के फ़ैसलों के लिए ज़्यादा उपयोगी बनाने में मदद कर सकता है.

लेखक

OpenAI