मुख्य मजकूराकडे जा
OpenAI

१६ जून, २०२६

रिसर्च

डिप्लॉयमेंट सिम्युलेट करून रिलीजपूर्वी मॉडेल वर्तनाचा अंदाज

मॉडेल रिलीज होण्यापूर्वी त्याच्या नको असलेल्या वर्तनाचा अधिक चांगला अंदाज घेण्यासाठी वास्तववादी संभाषणाच्या संदर्भांचा वापर करणे.

प्रस्तावना

नवीन मॉडेल रिलीज करण्यापूर्वी, प्रयोगशाळांनी ते काय करू शकते एवढेच नव्हे, तर वास्तविक वापरात ते कसे वागण्याची शक्यता आहे, तसेच ते कुठे नवीन जोखीम निर्माण करू शकते हे समजून घेणे आवश्यक असते. क्षमता वाढत जातात तसतसे हे आणखी महत्त्वाचे होते. आमच्या डिप्लॉयमेंटपूर्व सुरक्षा पुनरावलोकनाचा भाग म्हणून, मॉडेलचे वर्तन समजून घेण्यासाठी आम्ही लक्ष्यित मूल्यमापने, रेड टीमिंग आणि इतर तपासण्या वापरतो. आम्ही आता मॉडेल डिप्लॉयमेंट होण्यापूर्वी त्यांचे सिम्युलेशन करण्याची पद्धत वापरायला सुरुवात केली आहे, जी एक पूरक संकेत जोडते: कँडिडेट मॉडेल वापरकर्त्यांपर्यंत पोहोचण्यापूर्वी त्याचे वर्तन कसे असू शकते याचे डिप्लॉयमेंटसारखे पूर्वावलोकन.

डिप्लॉयमेंट सिम्युलेशन ही भविष्यातील डिप्लॉयमेंट होण्यापूर्वी त्याचे सिम्युलेशन करण्याची पद्धत आहे. नवीन उमेदवार मॉडेलसह, गोपनीयता जपणाऱ्या पद्धतीने मागील संभाषणे पुन्हा चालवून आम्ही हे करतो. यामुळे रिलीजपूर्वी नवीन मॉडेल वास्तववादी संदर्भांत कसे प्रतिसाद देते हे अभ्यासता येते, ज्यात नवीन नको असलेले वर्तन उद्भवते का आणि ते किती वेळा दिसू शकते हेही समाविष्ट आहे.

अनेक GPT‑5‑सिरीज थिंकिंग डिप्लॉयमेंटमध्ये, डिप्लॉयमेंट सिम्युलेशनने नको असलेले मॉडेल वर्तन दरांचे आमचे अंदाज सुधारले, रिलीजपूर्वी मिसअलाइन्मेंटची नवीन रूपे समोर आणण्यास मदत केली आणि मॉडेलना त्यांची चाचणी घेतली जात आहे हे ओळखता येण्याचा धोका कमी करण्यास मदत केली. आम्ही ही पद्धत आव्हानात्मक एजंटीक रोलआउट्सवरही लागू केली, ज्यातून असे दिसले की ती मानक चॅटपलीकडे जाऊन टूल वापर असलेल्या अधिक जटिल एजंट सेटिंग्जपर्यंत विस्तारू शकते, आणि अंतर्गत मॉडेल डिप्लॉयमेंटपूर्व जोखीम मूल्यांकनासाठीही वापरता येते.

पारंपरिक मूल्यमापनांमधील ब्लाइंड स्पॉट्स ओळखण्यासाठी आणि उपाययोजना व डिप्लॉयमेंट निर्णयांना माहिती देण्यासाठी आम्ही मॉडेल विकासादरम्यान डिप्लॉयमेंट सिम्युलेशनमधून मिळालेली सखोल माहिती आधीच वापरली आहे. पाइपलाइन चालवणे अधिक सोपे करत असताना, भविष्यातील मॉडेल विकास प्रक्रियेत ती अधिक मोठी भूमिका बजावेल अशी आम्हाला अपेक्षा आहे.

डिप्लॉयमेंट सिम्युलेशन कसे कार्य करते

संपूर्ण उद्योगामध्ये वापरली जाणारी डिप्लॉयमेंटपूर्व मूल्यमापने सामान्यतः कृत्रिम, हाताने लिहिलेल्या किंवा उत्पादनातील प्रॉम्प्टच्या मिश्रणाची असतात, ज्यांची मुद्दाम कठीण, उच्च गंभीरतेची किंवा प्रतिकूल अशी निवड केलेली असते. या मूल्यमापनांची साधारणपणे दोन गुंफलेली उद्दिष्टे असतात: डिप्लॉयमेंट ट्रॅफिकमध्ये घडण्याची शक्यता अतिशय कमी असलेल्या परिस्थितींमध्ये स्ट्रेस-टेस्ट केल्यावर मॉडेल कसे प्रतिसाद देते याचे मूल्यांकन करणे, आणि नको असलेले मॉडेल वर्तनांची सामान्य समज मिळवणे, ज्यात नवीन नको असलेले वर्तन शोधणे आणि डिप्लॉयमेंटच्या वेळी त्यांची वारंवारतेचा अंदाज लावणे समाविष्ट आहे.

पहिल्या उद्दिष्टासाठी पारंपरिक मूल्यमापने महत्त्वाचीच राहतात, परंतु नॉन-टेल जोखमींसाठी दुसऱ्या उद्दिष्टाच्या संदर्भात डिप्लॉयमेंट सिम्युलेशन हा मोठा पुढचा टप्पा आहे (आमच्या प्रयोगांमध्ये, आमच्या दृष्टिकोनातून 2,00,000 संदेशांमागे 1 पेक्षा कमी वारंवारतेने घडणारी वर्तने मोजता येतील अशी अपेक्षा करता येत नाही). डिप्लॉयमेंट सिम्युलेशनची ताकद पारंपरिक मूल्यमापनांतील काही मूलभूत आव्हाने टाळण्यातून येते:

  • कव्हरेज: मूल्यमापन प्रॉम्प्ट नको असलेल्या मॉडेल वर्तनाचे सर्व संभाव्य प्रकार व्यापतील याची खात्री करणे कठीण आहे. नवीन प्रकारचे नको असलेले वर्तन मोजण्यासाठी नवीन मूल्यमापने तयार करावी लागतात, आणि कोणती हानी मोजायची हे माहीत असावे लागते. यासाठी वेळ आणि श्रम मोठ्या प्रमाणात लागू शकतात, आणि मूल्यमापने कालांतराने सॅच्युरेट होऊ शकतात.
  • निवडीतील पक्षपात: पारंपरिक मूल्यमापने सामान्यतः विशिष्ट नको असलेल्या मॉडेल वर्तनांचा विचार करून तयार केली जातात, आणि पूर्वी घडलेल्या संदर्भांकडे झुकाव निर्माण होईल अशा पद्धतीने निवडली जातात. यामुळे संपूर्ण डिप्लॉयमेंट वितरणात अशा वर्तनांच्या घटनांबद्दल त्यांचे अंदाज कमी माहितीपूर्ण ठरू शकतात.
  • मॉडेलना चाचणी म्हणून ओळखता येणे: मॉडेलना त्यांची चाचणी घेतली जात आहे हे ठरवता येण्याची क्षमता वाढत आहे, ज्यामुळे त्यांचे वर्तन आणि त्यांच्या सुरक्षिततेची आमची पुढील मोजमापे विकृत होऊ शकतात. OpenAI मध्ये आम्ही वापरत असलेली अनेक पारंपरिक मूल्यमापने उत्पादन ट्रॅफिकमधूनच घेतली जातात आणि त्यांना ही समस्या नसली, तरी संपूर्ण उद्योगामध्ये वापरल्या जाणाऱ्या अनेक पारंपरिक मूल्यमापनांसाठी ही एक सामान्य चिंता आहे.

डिप्लॉयमेंट सिम्युलेशनमागील मुख्य तंत्र सोपे आहे: आम्ही डिप्लॉयमेंटमधील अलीकडील संभाषणे घेतो, जुन्या मॉडेलचा मूळ असिस्टंट प्रतिसाद काढून टाकतो, आणि रिलीज करायच्या कँडिडेट मॉडेलसह तो पुन्हा निर्माण करतो. आम्ही नवीन अपयश प्रकार शोधून पूर्णता मूल्यांकित करतो, आणि या डिप्लॉयमेंटसारख्या वितरणातील वारंवारतेवर आधारित डिप्लॉयमेंटच्या वेळी नको असलेल्या वर्तनाची वारंवारता अंदाजित करतो. रिलिजनंतर वास्तविक डिप्लॉयमेंट ट्रॅफिकवरही आम्ही तीच मोजमापे करू शकतो, ज्यामुळे आमचे डिप्लॉयमेंटपूर्व अंदाज पडताळता येतात.

डिप्लॉयमेंट सिम्युलेशन वर नमूद केलेल्या तीन मर्यादा मोठ्या प्रमाणात कमी करते: अलीकडील वापराचे प्रतिनिधित्व करणारे मूल्यमापन प्रॉम्प्टचे वितरण वापरून सॅम्पलिंग पक्षपात हाताळला जातो. प्रतिनिधिक प्रॉम्प्टसह डिप्लॉयमेंट सिम्युलेशन कव्हरेजबद्दलच्या चिंता देखील कमी करू शकते: अधिक ट्रॅफिक सिम्युलेट करून आम्हाला नको असलेल्या मॉडेल वर्तनांचे अधिक कव्हरेज मिळते. कम्प्यूट आणि कव्हरेजमधील हा तडजोडीचा मुद्दा महत्त्वाचा आहे, कारण यामुळे जोखीम मूल्यांकनाच्या या अक्षाची गुणवत्ता अधिक मूल्यमापने तयार करण्यासाठी लागणाऱ्या मानवी प्रयत्नांऐवजी कम्प्यूटसोबत स्केल होते. मॉडेलना डिप्लॉयमेंट सिम्युलेशनद्वारे मिळालेली संभाषणे आणि वास्तविक डिप्लॉयमेंट ट्रॅफिक यांत फरक करता येत असल्याचेही दिसत नाही.

उत्पादन संभाषणांपासून गोपनीयता-जपणारे रीसॅम्पलिंग, मॉडेल पूर्णता निर्मिती, मूल्यमापन, आणि डिप्लॉयमेंटवेळ अंदाजांपर्यंतची उत्पादन रीसॅम्पलिंग पाइपलाइन दाखवणारे आकृतीचित्र.

आकृती 1: आमच्या डिप्लॉयमेंट सिम्युलेशन पाइपलाइनचा आढावा

क्षेत्र

पारंपरिक मूल्यमापने

डिप्लॉयमेंट सिम्युलेशन

कव्हरेज

कमी प्रमाणात आढळणाऱ्या पण गंभीर स्वरूपाच्या जोखमींसाठी हे अधिक चांगले आहे, ज्यासाठी आपल्याला कव्हरेज असल्याची खात्री करायची आहे

डिप्लॉयमेंट ट्रॅफिकमध्ये आपल्याला आढळून येणाऱ्या संभाव्य धोक्यांची श्रेणी समजून घेण्यासाठी हे अधिक चांगले आहे

प्रतिनिधित्व / पक्षपात

डिप्लॉयमेंटमध्ये अत्यंत कमी प्रमाणात आढळणाऱ्या वर्तणुकींसाठीसुद्धा, लक्ष्यित भूतकाळातील किंवा अंदाजित धोक्यांचे मूल्यांकन करण्यावर लक्ष केंद्रित केले आहे

सध्याच्या डिप्लॉयमेंट ट्रॅफिकमध्ये ठराविक प्रचलनापेक्षा जास्त घडणाऱ्या जोखमींचे प्रतिनिधित्व करते

मूल्यमापन जागरूकता

डिप्लॉयमेंट डेटा वापरून मूल्यांकन तयार केले नसल्यास, संभाव्यतः स्पष्ट चाचणी संकेत (उदा., सिंथेटिक डेटासह) दिसू शकतात

डिप्लॉयमेंटसारखा संदर्भ eval जागरूकता लक्षणीयरीत्या कमी करतो असे दिसते

प्रयत्न

कस्टम प्रॉम्प्ट वितरण आणि सेटअपसाठी लक्षणीयरीत्या अधिक मानवी प्रयत्नांची आवश्यकता असते

एकदाच पायाभूत सुविधा खर्च आवश्यक असतो, आणि नंतर डिप्लॉयमेंटमधील प्रीफिक्स व ज्ञात नको असलेल्या वर्तनांमधील ग्रेडर्स पुन्हा वापरतो

पारंपरिक मूल्यमापन आणि आणि डिप्लॉयमेंट सिम्युलेशन यांतील उच्च-स्तरीय तुलना

आम्ही डिप्लॉयमेंट सिम्युलेशनची चाचणी कशी केली

डिप्लॉयमेंट सिम्युलेशनचे मूल्यांकन करण्यासाठी, आम्ही GPT‑5.4 थिंकिंग साठी 20 प्रकारच्या नको असलेल्या वर्तनांच्या डिप्लॉयमेंट-वेळ वारंवारतेचे अंदाज पूर्व-नोंदणीकृत केले. आम्ही GPT‑5‑सिरीजमधील थिंकिंग मॉडेलच्या इतर डिप्लॉयमेंटवरही पूर्वलक्षी अभ्यास चालवले. आम्ही विश्लेषित करत असलेली मॉडेल वर्तने मिसअलाइन्मेंट आणि सिस्टम कार्डमध्ये आम्ही अहवाल देत असलेल्या मनाई केलेल्या सामग्रीच्या श्रेणी दोन्ही कव्हर करतात (उदा. मॉडेलने टूल्सबद्दल खोटे बोलणे, किंवा मनाई केलेली लैंगिक सामग्री आउटपुट करणे). या निकालांसाठी आम्ही नको असलेल्या मॉडेल वर्तनाच्या फक्त 20 श्रेणींचा मागोवा घेतो आणि फक्त नवीन चुकीने अलाइन झालेली वर्तने शोधतो, तरी डिप्लॉयमेंट सिम्युलेशन हे एक सर्वसाधारण तंत्र आहे जे डिप्लॉयमेंटच्या वेळीच्या कोणत्याही मॉडेल गुणधर्माचे सिम्युलेशन करण्यासाठी लागू करता येऊ शकते.

आम्ही वापरलेला उत्पादन ट्रॅफिकही GPT‑5‑सिरीजमधील थिंकिंग मॉडेलकडून होता. आमची मूल्यमापने चालवण्यापूर्वी, आम्ही खात्याशी जोडलेले ओळखकर्ता आणि ओळखण्याजोगी माहिती आपोआप काढून टाकली. आमच्या प्रायव्हसी पॉलिसीनुसार, आम्ही फक्त अशा वापरकर्त्यांचा ChatGPT ट्रॅफिक विश्लेषित केला जे आपला डेटा मॉडेल सुधारणांसाठी वापरू देतात. आम्ही या मूल्यमापनांमधील केवळ एकत्रित निष्कर्ष अहवालित करतो. एकूण, आम्ही GPT‑5 थिंकिंग पासून GPT‑5.4 डिप्लॉयमेंटपर्यंत सुमारे 1.3 दशलक्ष ओळखविरहित संभाषणे विश्लेषित केली, जी ऑगस्ट 2025 ते मार्च 2026 या कालावधीतली होती.

डिप्लॉयमेंट सिम्युलेशनने तयार केलेल्या डिप्लॉयमेंटपूर्व जोखीम-मूल्यांकनाची गुणवत्ता आम्ही तीन मुख्य प्रकारे मूल्यांकित करतो:

  • वर्गीकरण कव्हरेज: रिलिजनंतरच्या ऑडिटिंगमध्ये आमच्या प्रारंभिक वाईट वर्तन वर्गीकरणातून गहाळ असलेली कोणतीही महत्त्वाची चुकीने अलाइन झालेली वर्तने समोर आली का?
  • दिशात्मक अचूकता: ज्ञात वर्तनांसाठी डिप्लॉयमेंटमधील प्रचलन वाढेल की कमी होईल हे सिम्युलेशनने योग्यरीत्या अंदाज वर्तवला का?
  • दर कॅलिब्रेशन: आमचे डिप्लॉयमेंटपूर्व अंदाज नंतर डिप्लॉयमेंटमध्ये पाहिलेल्या दरांच्या जवळ होते का? चांगले दर कॅलिब्रेशन साधण्यासाठी दिशात्मक अचूकतेपेक्षा अधिक आवश्यक असते, त्यामुळे हे सर्वाधिक शक्य गुणवत्तेचे मानक ठरते.

डिप्लॉयमेंट सिम्युलेशनदरम्यान मॉडेलना ते मूल्यमापनात आहेत हे कितपत ओळखता येते हेही आम्ही मोजतो, आणि ही पद्धत डिप्लॉयमेंट ट्रॅफिकच्या विविध प्रकारांबाबत व आव्हानात्मक टूल-वापर सेटिंग्जमध्ये किती मजबूत आहे हे तपासतो.

डिप्लॉयमेंट सिम्युलेशन डिप्लॉयमेंटपूर्व जोखीम मूल्यांकन मोठ्या प्रमाणात विस्तारते

GPT‑5‑सिरीज थिंकिंग डिप्लॉयमेंटमध्ये, वास्तविक जोखीम दर ठरवताना डिप्लॉयमेंट सिम्युलेशनने आव्हानात्मक-प्रॉम्प्ट बेसलाइनपेक्षा चांगली कामगिरी केली, रिलीजपूर्वी कॅल्क्युलेटर हॅकिंग समोर आणू शकले, आणि मॉडेलसाठी डिप्लॉयमेंटपासून संभाव्यतः वेगळे न ओळखता येण्यासारखे दिसले.

आमच्या अंदाजांचा आढावा. GPT‑5‑सिरीजमधील थिंकिंग मॉडेल डिप्लॉयमेंटसाठी सर्व अंदाजांचे दृश्यांकन पाहण्यासाठी आकृती 2 पहा. GPT‑5.4 थिंकिंग साठीचे अंदाज पूर्व-नोंदणीकृत होते, तर इतर पूर्वलक्षी अंदाज होते. एकत्रितपणे, आमच्या अंदाजांमध्ये 1.5 पट इतकी मध्यम गुणक त्रुटी होती (उदा. नको असलेल्या वर्तनाचा दर 100k मध्ये 10 असल्यास, हे 100k मध्ये 15 किंवा 6.67 असा दर अंदाजित करण्यास अनुरूप असेल). आमच्या पद्धतीतील टेल त्रुटी साधारण 10 पटीने मोठ्या असू शकतात, तरी खाली चर्चा केल्याप्रमाणे आमच्या सिम्युलेशन पाइपलाइनमध्ये पुढील सुधारणा करून त्या मोठ्या प्रमाणात कमी करता येतील अशी आम्हाला अपेक्षा आहे.

पूर्वीच्या डिप्लॉयमेंट डेटावर आधारित डिप्लॉयमेंटवेळी नको असलेल्या वर्तनाच्या डिप्लॉयमेंट सिम्युलेशनचा अचूक-दर अंदाज दर्शवणारा चार्ट.

आकृती 2. पूर्वीच्या डिप्लॉयमेंट डेटावर आधारित, डिप्लॉयमेंटच्या वेळी होणाऱ्या नको असलेल्या वर्तनाच्या डिप्लॉयमेंट सिम्युलेशन वारंवारता अंदाज. 5.1 → 5 ही संज्ञा दर्शवते की आम्ही GPT‑5 मधील प्रीफिक्स GPT‑5.1 सह पुन्हा सॅम्पल करत आहोत, म्हणजे GPT‑5 मधील डेटावर आधारित GPT‑5.1 चे डिप्लॉयमेंट सिम्युलेट करत आहोत. GPT‑5.1 मध्ये चुकीने अलाइन झालेल्या वर्तनाचा सर्वोच्च दर “कॅल्क्युलेटर हॅकिंग” होता, ज्याची आम्ही पूर्वी(नवीन विंडोमध्ये उघडेल)चर्चा केली आहे.

डिप्लॉयमेंट सिम्युलेशनच्या अंदाजांची बेसलाइनशी तुलना. डिप्लॉयमेंटपूर्व जोखीम-मूल्यांकनांसाठी योग्यरीत्या अंदाज लावण्याच्या सर्वात महत्त्वाच्या श्रेणी त्या आहेत ज्यांत मॉडेलच्या डिप्लॉयमेंटनंतर घटनांमध्ये मोठे बदल होतात (उदा. >= 1.5 पट). या उपसंचावर, एखादे नको असलेल्या वर्तन मॉडेलच्या डिप्लॉयमेंटमुळे प्रचलनात वाढेल की कमी होईल हे अंदाज लावण्यात (आकृती 3, डावे), तसेच त्याची अचूक डिप्लॉयमेंट-वेळ घटना अंदाजित करण्यात (आकृती 3, उजवे), डिप्लॉयमेंट सिम्युलेशन बेसलाइनपेक्षा बरेच चांगले आहे. आम्ही दोन मुख्य बेसलाइन वापरतो: सिस्टम कार्ड आणि लॉन्च निर्णयांसाठी सध्या वापरत असलेली आव्हानात्मक प्रॉम्प्ट बेसलाइन, आणि नवीन मॉडेलसाठी अंदाज म्हणून मागील डिप्लॉयमेंटमधील दर वापरणारी साधी बेसलाइन.

आकृती 3. डिप्लॉयमेंट सिम्युलेशन हे स्थिर evals पेक्षा घटनांमधील बदलांची दिशा (डावे) आणि अचूक उत्पादन दर (उजवे) दोन्ही अधिक चांगल्या प्रकारे अंदाज वर्तवते.

आमच्या पाइपलाइनमधील सिम्युलेशन त्रुटींचे स्रोत. आम्ही आमच्या पाइपलाइनमधील सध्याच्या त्रुटींच्या स्रोतांचाही अभ्यास केला. विशेषतः, मोठ्या टेल त्रुटींमुळे डिप्लॉयमेंट निर्णयांसाठी पाइपलाइनवर कमी विश्वास राहतो: उदाहरणार्थ, एखाद्या विशिष्ट प्रकारच्या नको असलेल्या वर्तनात मोठी अंदाज लावलेली वाढ दिसताना, पाइपलाइनमध्ये अधूनमधून मोठ्या त्रुटी होतात हे माहीत असल्यास, हा विश्वासार्ह अंदाज आहे की पाइपलाइनचा आर्टिफॅक्ट याबद्दल शंका निर्माण होते. संभाव्य त्रुटींचे दोन मुख्य स्रोत आहेत:

  • रीसॅम्पलिंग वातावरण फिडेलिटी त्रुटी: उत्पादन दर अचूकपणे अंदाजित करण्यासाठी, आमची सिम्युलेशन पाइपलाइन शक्य तितकी वास्तववादी असणे आवश्यक आहे. हे अंशतः अभियांत्रिकी समस्येचे आहे (उत्पादन ट्रॅफिकसाठी वापरल्या जाणाऱ्या त्याच पाइपलाइन वापरून मॉडेलमधून सॅम्पलिंग करणे), आणि अंशतः सतत बदलणाऱ्या बाह्य संसाधनांना वाचन/लेखन प्रवेश आवश्यक असलेल्या टूल्ससाठी एक रोचक आव्हान आहे (उदा. वेब शोध किंवा स्थानिक फाइल्सशी संवाद). वास्तविक डिप्लॉयमेंट आणि त्याच्या सिम्युलेशनमधील अंदाजांची तुलना करून आम्ही सिम्युलेशन फिडेलिटी त्रुटी वेगळी करू शकतो (म्हणजे आधीच डिप्लॉय झालेल्या मॉडेलचे डिप्लॉयमेंट सिम्युलेट करणे).
  • प्रॉम्प्ट वितरण बदल त्रुटी: डिप्लॉयमेंट सिम्युलेशनबद्दलची एक मोठी चिंता अशी आहे की कोणत्याही मॉडेलचे डिप्लॉयमेंट इनपुटमध्ये वितरणात्मक बदल घडवेल, विशेषतः वापरकर्ते नवीन मॉडेल सुविधांशी जुळवून घेतल्यास. अलीकडील प्रॉम्प्ट वापरून डिप्लॉयमेंट सिम्युलेट करताना मिळालेले अंदाज आणि प्रत्यक्ष डिप्लॉयमेंटमधील प्रॉम्प्ट वापरून मिळालेले अंदाज यांची तुलना करून आम्ही प्रॉम्प्ट वितरण त्रुटी वेगळी करतो.

आकृती 4 मध्ये दिसल्याप्रमाणे, आमच्या पाइपलाइनमधील त्रुटींचा मोठा भाग–विशेषतः टेल त्रुटींसाठी–सध्या सिम्युलेशन फिडेलिटीमुळे आहे असे आम्हाला आढळते. ही चांगली बातमी आहे, कारण प्रॉम्प्ट वितरण बदल कमी करण्यापेक्षा सिम्युलेशन फिडेलिटी सुधारणे सर्वसाधारणपणे अधिक सोपे असेल अशी आमची अपेक्षा आहे. मागील डिप्लॉयमेंटमधील सर्वात अलीकडील डेटा वापरून प्रॉम्प्ट वितरण बदल त्रुटी कमी होऊ शकते असेही आम्हाला आढळते. अधिक तपशील संशोधन पेपरमध्ये सापडू शकतो.

आकृती 4: रीसॅम्पलिंग वातावरण फिडेलिटी आमच्या अंदाजांतील त्रुटीचा सर्वात मोठा स्रोत असल्याचे दिसते, विशेषतः सर्वात तीव्र त्रुटींसाठी.

स्वयंचलित ऑडिटिंगने या डिप्लॉयमेंटमध्ये आलेले एकमेव नवीन मिसअलाइन्मेंट शोधले. आम्ही अभ्यासलेल्या डिप्लॉयमेंट विंडोमध्ये, सिम्युलेटेड डिप्लॉयमेंटवर आधारित आमची स्वयंचलित ऑडिटिंग पाइपलाइन रिलिजनपूर्वी ‘कॅल्क्युलेटर हॅकिंग’ समोर आणली असती, जे विश्लेषित ChatGPT ट्रॅफिकमध्ये आम्ही ओळखलेले एकमेव नवीन मिसअलाइन्मेंट होते. कॅल्क्युलेटर हॅकिंग हा रिवॉर्ड हॅकिंगचा एक प्रकार आहे, ज्यात मॉडेल एखादी कृती शोध म्हणून सादर करताना ब्राउझर टूल कॅल्क्युलेटर म्हणून वापरते. याचा अर्थ मोठ्या प्रमाणावरील ऑडिटिंग प्रत्येक नवीन अपयश पकडेल असा नाही, पण वास्तववादी संदर्भ का महत्त्वाचे आहेत हे ते दाखवते: जरी सिम्युलेशन सुरू करण्यासाठी वापरलेल्या मूळ ट्रॅफिकमध्ये ती वर्तणूक उपस्थित नसली तरी, ते अशा वर्तणुकींना चालना देऊ शकतात ज्या अधिक मर्यादित eval संचांमधून थेटपणे कधीही समोर येऊ शकत नाहीत.

मूल्यमापन जागरूकता कमी करणे

डिप्लॉयमेंटसारखे संदर्भ वापरण्याचा आणखी एक फायदा म्हणजे मॉडेलना त्यांची चाचणी घेतली जात आहे हे ओळखल्यावर निर्माण होणाऱ्या विकृती ते कमी करू शकतात. पूर्वीच्या संशोधनात, आम्ही तसेच इतरांना(नवीन विंडोमध्ये उघडेल) असे आढळले आहे की मॉडेलना अनेकदा त्यांची चाचणी कधी घेतली जात आहे याची जाणीव असते. उदाहरणार्थ, मॉडेल त्यांच्या चेन-ऑफ-थॉटमध्ये त्यांची कोणत्या बाबीवर चाचणी घेतली जात आहे, मूल्यांकनकर्त्याला काय आवडेल, आणि – ते गैरवर्तन करत असल्यास – ते पकडले जातील का याबद्दल रीझनिंग करू शकतात. यामुळे अलाइनमेंट मूल्यमापनांसाठी समस्या निर्माण होते: जर एखादे मॉडेल फक्त त्याला चाचणी घेतली जात आहे असे वाटत असल्यामुळे चांगले वागत असेल, तर ते डिप्लॉय झाले आहे हे समजल्यानंतर ते सुरक्षितपणे वागेल याबद्दल आपण विश्वास कसा निर्माण करायचा?

वास्तविक डिप्लॉयमेंट डेटावर आधारित नसलेल्या पारंपरिक मूल्यमापनांच्या तुलनेत डिप्लॉयमेंट सिम्युलेशन मॉडेलद्वारे प्रदर्शित मूल्यमापन जागरूकतेची पातळी लक्षणीयरीत्या कमी करते हे आम्ही दाखवतो. आम्ही मूल्यमापन जागरूकता तीन प्रकारे मोजतो: एखादी ट्रॅजेक्टरी उत्पादनातून आली की मूल्यमापनातून हे वर्गीकृत करण्यास मॉडेलला सांगून, अलाइनमेंटसाठी मूल्यमापन होत असल्याबद्दलच्या स्पष्ट विधानांसाठी चेन-ऑफ-थॉटचे निरीक्षण करून, तसेच मेटागेमिंग(नवीन विंडोमध्ये उघडेल)साठी: देखरेखीबद्दलच्या कोणत्याही रीझनिंगसाठी. सिम्युलेटेड डिप्लॉयमेंट ट्रॅफिक सर्व तीन मोजमापांमध्ये वास्तविक डिप्लॉयमेंट ट्रॅफिकशी जवळून जुळला. उदाहरणार्थ, GPT‑5.2 ने वास्तविक उत्पादन ट्रॅफिकला 5.4% वेळा मूल्यमापनासारखे आणि सिम्युलेटेड ट्रॅफिकला 5.1% वेळा तसे लेबल केले, तर पारंपरिक मूल्यमापने (जसे SWE-Bench किंवा MonorepoBench, जी प्रामुख्याने सिंथेटिक उदाहरणांनी बनलेली आहेत) ती जवळजवळ 100% वेळा मूल्यमापन म्हणून वर्गीकृत झाली.

आकृती 5. मूल्यमापन-जागरूकता तुलना: वास्तविक उत्पादन ट्रॅफिक आणि सिम्युलेटेड ट्रॅफिक eval शोध, शब्दबद्ध अलाइनमेंट मूल्यमापन जागरूकता, आणि मेटागेमिंगसाठी समान दर दाखवतात, तर पारंपरिक eval डेटासेट खूप उच्च दर नोंदवतात.

एजंटीक ट्रॅजेक्टरीजसाठी टूल सिम्युलेशन

ही पद्धत मानक चॅट मोडपलीकडे विस्तारू शकते का हे तपासण्यासाठी, आम्ही आव्हानात्मक एजंटीक कोडिंग सेटिंग्जसाठी डिप्लॉयमेंट सिम्युलेट करण्याचाही अभ्यास केला. विशेषतः, GPT‑5.4 मधील 1,20,000 अंतर्गत कर्मचारी एजंटीक ट्रॅजेक्टरी वापरून आम्ही GPT‑5.5 वर आधारित कोडिंग एजंटच्या अंतर्गत डिप्लॉयमेंटचे सिम्युलेशन करतो. याचे दोन उद्देश आहेत: अंतर्गत डिप्लॉयमेंटसाठी जोखीम-मूल्यांकनासाठी डिप्लॉयमेंट सिम्युलेशन कसे वापरता येते हे दाखवणे, आणि काळजीपूर्वक टूल सिम्युलेशनद्वारे एजंटीक सेटिंग्जमध्येही सिम्युलेशन फिडेलिटी उच्च करणे शक्य आहे हे दाखवणे.

वर आम्ही चर्चा केली की सिम्युलेशन फिडेलिटी हा आमच्या सध्याच्या पाइपलाइनमधील त्रुटींच्या मुख्य स्रोतांपैकी एक आहे. डिप्लॉयमेंट सिम्युलेशन्स वास्तववादी बनवण्यातील एक आव्हान म्हणजे टूल्सना वास्तववादी पद्धतीने वागावे लागते, जरी त्यांना सतत बदलणाऱ्या बाह्य संसाधनांना वाचन/लेखन प्रवेश आवश्यक असला तरी (उदा. वेब शोध किंवा स्थानिक फाइल्सशी संवाद).

एजंटीक डिप्लॉयमेंटसारख्या सेटिंग्जसाठी हे विशेषतः आव्हानात्मक आहे: एका एजंट ट्रॅजेक्टरीवर शेकडो टूल कॉल्स, रिपॉझिटरी स्थिती, नेटवर्क प्रतिसाद किंवा तात्पुरती अपयशे अवलंबून असू शकतात. यामुळे वास्तविक टूल प्रवेशासह रीसॅम्पलिंग करणे आव्हानात्मक आणि संभाव्यतः धोकादायक दोन्ही ठरते. हे लक्षात घेऊन, लाईव्ह प्रणालींवर टूल कॉल्स लागू करण्याऐवजी, आम्ही त्यांचे दुसऱ्या LLM सह सिम्युलेशन करतो. या LLM ला अतिरिक्त सुविधा देणे रिअ‍ॅलिज्मसाठी आणि म्हणूनच अंदाजाच्या गुणवत्तेसाठी आवश्यक आहे हे आम्ही दाखवतो.

आम्ही टूल-सिम्युलेटर मॉडेलला मूळ अंतिम-टर्न रोलआउट, संभाषणाच्या वेळची रिपॉझिटरी, टूल-कॉल/प्रतिसाद जोड्यांचा डेटाबेस, आणि रीड ओन्ली कनेक्टर्स देतो. एका चाचणीत, जिथे डिस्क्रीमिनेटरने सिम्युलेटेड रोलआउट्स वास्तविक रोलआउट्सपासून वेगळे ओळखण्याचा प्रयत्न केला, वास्तववाद 11.6% विजय दरावरून 49.5% पर्यंत सुधारला, जो 50% संधी पातळीच्या जवळ आहे.

आकृती 6: वाढीव सुविधा देऊन टूल कॉल्स सिम्युलेट करताना, टूल-प्रधान सेटिंग्जमध्येही रीसॅम्पलिंग रिअ‍ॅलिज्म वास्तविक सॅम्पलिंगपासून जवळजवळ वेगळा ओळखता न येण्यासारखा करता येतो.

सिम्युलेशन फिडेलिटीचा अतिरिक्त पुरावा म्हणून, GPT‑5.4 सह GPT‑5.4 Codex थिंकिंग ट्रॅफिक सिम्युलेट करताना, मिसअलाइन्मेंट दर जवळजवळ त्रुटीच्या मर्यादेत असते. याउलट, आमच्या डिप्लॉयमेंटपूर्व चाचणीमध्ये GPT‑5.5 बहुतांश श्रेणींमध्ये अधिक चुकीने अलाइन झालेले होते.

आकृती 7: टूल सिम्युलेशनसह, GPT‑5.4 सह पुन्हा सॅम्पल केलेल्या संभाषणांसाठी आणि वास्तविक GPT‑5.4 उत्पादन ट्रॅफिकसाठी वर्तन दर बरेच समान आहेत – यावरून रीसॅम्पलिंग वातावरण फिडेलिटी उच्च असल्याचे सूचित होते. श्रेणींबद्दल अधिक संदर्भासाठी GPT‑5.5 सिस्टम कार्ड(नवीन विंडोमध्ये उघडेल) पहा.

हे परिणाम सूचित करतात की आसपासचे टूल वातावरण पुरेशा फिडेलिटीने सिम्युलेट केले असता डिप्लॉयमेंट सिम्युलेशन जटिल एजंट सेटिंग्जपर्यंत विस्तारू शकते.

WildChat आणि बाह्य ऑडिटिंग

बाह्य ऑडिटर्सना खाजगी उत्पादन ट्रॅफिकचा प्रवेश नसतानाही काही समान फायदे मिळू शकतात का हा स्वाभाविक प्रश्न आहे. आम्ही 1,00,000 WildChat संभाषणे प्रीफिक्स म्हणून वापरून हे तपासले. WildChat अलीकडील OpenAI उत्पादन डेटापेक्षा कमी अचूक होते, पण तरीही माहितीपूर्ण होते: अलीकडील उत्पादन डेटाचा सरासरी गुणक त्रुटी WildChat पेक्षा कमी होता (1.75 पट विरुद्ध 2.44 पट), तर WildChat अनेकदा उत्पादन दरांच्या साधारण 3 पटीच्या आत राहिले आणि संधीपेक्षा जास्त दरांनी चांगले मॉडेल ओळखले. WildChat-शैलीतील मूल्यमापने आम्हाला डेव्हलपर-चालित डिप्लॉयमेंट सिम्युलेशनसाठी आशादायक पूरक वाटतात. या मुद्द्यावरील अधिक निकालांसाठी हा पूरक अलाइन्मेंट ब्लॉगपोस्ट(नवीन विंडोमध्ये उघडेल) पहा.

मर्यादा

डिप्लॉयमेंट सिम्युलेशन हे प्रतिकूल मूल्यमापने, रेड टीमिंग आणि लक्ष्यित टेल-जोखीम विश्लेषणासाठी पूरक आहे, त्यांची जागा घेणारे नाही. काही नको असलेल्या मॉडेल वर्तनांचा शोध चेन-ऑफ-थॉट मॉनिटरिबिलिटीवर अवलंबून असतो: भविष्यातील मॉडेल कमी स्पष्टपणे रीझनिंग करत असतील, महत्त्वाचे टप्पे वगळत असतील, किंवा हेतू लपवायला शिकत असतील, तर आम्हाला नको असलेल्या वर्तनांची ही रूपे शोधता येणार नाहीत. याव्यतिरिक्त, उत्पादन डेटा खाजगी असल्यामुळे, बाह्य ऑडिटर्सच्या तुलनेत डेव्हलपर्सना सध्या प्रतिनिधिक संदर्भांवर अधिक मजबूत प्रवेश आहे. अधिक चांगले सार्वजनिक डेटासेट ते अंतर कमी करू शकतात.

डिप्लॉयमेंट सिम्युलेशन अशा वर्तनांसाठी सर्वाधिक उपयुक्त आहे जे सॅम्पल केलेल्या प्रीफिक्समध्ये दिसण्याइतके वारंवार घडतात. दहा दशलक्ष संभाषणांत एकदा घडणारे अपयश दशलक्ष-सॅम्पल रनमध्ये सापडण्याची शक्यता कमी असते, त्यामुळे प्रतिकूल मूल्यमापने, रेड टीमिंग आणि लक्ष्यित टेल-जोखीम विश्लेषण आवश्यकच राहतात. आम्ही सध्या एकाच असिस्टंट प्रतिसादाचे सिम्युलेशन करण्यावर लक्ष केंद्रित करतो, कारण प्राथमिक प्रयोगांमध्ये अनेक टर्न सिम्युलेट करून आमच्या अंदाजांमध्ये अर्थपूर्ण सुधारणा आढळली नाही. भविष्यात सिम्युलेशन फिडेलिटी सुधारण्यासाठी हे एक महत्त्वाचे क्षेत्र असू शकते.

ही पद्धत प्रीफिक्स वितरणावरही अवलंबून असते—म्हणजे पुन्हा सॅम्पल केली जाणारी संभाषणांची मिश्रणे. मोठा उत्पादन बदल, नवीन टूल रिलीज, जागतिक घटना किंवा हंगामी बदलानंतर वापरकर्ते अधिक सक्षम मॉडेलशी कसे संवाद साधतात याशी ऐतिहासिक ट्रॅफिक जुळेलच असे नाही. पूर्ण पेपरमधील विश्लेषण सूचित करते की उपलब्ध सर्वात अलीकडील डेटा वापरून ही समस्या कमी करता येऊ शकते.

निष्कर्ष

डिप्लॉयमेंट सिम्युलेशन हा डिप्लॉयमेंटपूर्व जोखीम मूल्यांकनाचा नवीन दृष्टिकोन आहे, जो अत्याधुनिक प्रयोगशाळा आणि मूल्यांकनकर्त्यांना भाषा मॉडेल वास्तविक जगात कसे वागू शकतात हे अंदाज करण्यास आणि डिप्लॉयमेंटपूर्वी त्यांमुळे उद्भवणाऱ्या जोखीम समजण्यास मदत करतो. हे विद्यमान सुरक्षा मूल्यमापने, रेड टीमिंग आणि लक्ष्यित विश्लेषणांना पूरक ठरते, कारण ते अधिक उत्पादनसदृश अंदाजाचा स्तर जोडते, जो डिप्लॉयमेंट वर्तनाचे अंदाज सुधारू शकतो, मूल्यमापन-जागरूकता परिणाम कमी करू शकतो, आणि रिलीज नंतर डिप्लॉयमेंटपूर्व अंदाज तपासण्यायोग्य बनवू शकतो. पारंपरिक मूल्यमापनांसोबत वापरल्यास, डिप्लॉयमेंट सिम्युलेशन मॉडेल जोखीम मूल्यांकन अधिक वास्तववादी, अधिक परिमाणात्मक आणि डिप्लॉयमेंट निर्णयांसाठी अधिक उपयुक्त बनवण्यास मदत करू शकते.

लेखक

OpenAI