हार्ड रिफ़्यूज़ल्स से सेफ़-कंप्लीशन्स तक: आउटपुट-फ़ोकस्ड सेफ़्टी ट्रेनिंग की तरफ़
GPT‑5 का सेफ़-कम्पलीशन: नई सेफ़्टी-ट्रेनिंग टेक्निक, सुरक्षा के साथ मॉडल का इस्तेमाल बेहतर बनाता है. रिफ़्यूज़ल-बेस्ड से कहीं ज़्यादा बेहतर, ख़ासकर ड्युअल-यूज़ क्षेत्रों में सुरक्षा और इस्तेमाल दोनों सुधारती है.
अगर कोई यूज़र ChatGPT से पूछे कि फ़ायरवर्क डिस्प्ले जलाने के लिए कम से कम कितनी एनर्जी चाहिए, तो क्या उसे एक मददगार जवाब देना चाहिए? हो सकता है यूज़र 4 जुलाई के डिस्प्ले या स्कूल के लिए एक रिसर्च प्रोजेक्ट की तैयारी कर रहा हो... या एक्सप्लोसिव बना रहा हो. इस वजह से, मददगार जवाब देना यूज़र के (ज़ाहिर) इंटेंट के आधार पर नुक़सानदेह या फ़ायदेमंद हो सकता है. इस तरह का प्रॉम्प्ट ड्यूल-यूज़ है: एक अस्पष्ट इंटेंट वाला सवाल, जहां जानकारी को बेनाइन या मैलिसियस तरीक़ों से इस्तेमाल किया जा सकता है. ड्यूल-यूज़ प्रॉब्लम्स ख़ासतौर पर बायोलॉजी और साइबर सिक्यूरिटी जैसे रिस्क एरिया में ज़्यादा इस्तेमाल किया जाता हैं.
पहले, ChatGPT जैसे प्रोडक्शन मॉडल्स रिफ़्यूज़ल-बेस्ड सेफ़्टी ट्रेनिंग पर निर्भर थे: यूज़र के प्रॉम्प्ट के आधार पर, मॉडल को या तो कॉम्प्लाई करना चाहिए या रिफ़्यूज़ करना चाहिए. जबकि इस तरह की ट्रेनिंग साफ़ तौर पर हानिकारक प्रॉम्प्ट्स के लिए काफ़ी अच्छी तरह काम कर सकती है, यह आतिशबाज़ी के उदाहरण जैसे ड्यूल-यूज़ प्रॉम्प्ट्स को हैंडल करने में मुश्किल में पड़ सकती है. उस स्थिति में, रिफ़्यूज़ल-ट्रेन्ड मॉडल इस आधार पर बाइनरी फ़ैसला लेता है कि वो प्रॉम्प्ट को कितना हानिकारक मानता है - और या तो पूरी तरह से कॉम्प्लाई करता है (अगर यूज़र जानकारी का ख़राब इस्तेमाल करना चाहता है तो ये संभावित तौर पर खतरनाक हो सकता है), या इनकार कर देता है और कहता है "मुझे खेद है, मैं इसमें मदद नहीं कर सकता" (यदि यूज़र वाकई में अपने आतिशबाजी के डिस्प्ले को ठीक करने की कोशिश कर रहा है तो ये मददगार नहीं होगा).
GPT‑5 के लिए, हमने सेफ़्टी-ट्रेनिंग का एक नया तरीक़ा पेश किया है - सेफ़ कंप्लीशन्स - जो मॉडल को सिखाता है कि जहां संभव हो वहां सबसे मददगार जवाब दे, लेकिन सेफ़्टी की सीमाओं को बनाए रखते हुए. हमने पाया कि यह तरीक़ा ज़्यादा सोचा-समझा है, जो ड्यूल-यूज़ सवालों के बेहतर नेविगेशन को सपोर्ट करता है.
प्रॉम्प्ट
OpenAI o3 (रिफ़्यूज़ल ट्रेनिंग)
GPT-5 सेफ़-कंप्लीशन्स > लेआउट:
OpenAI o3 और GPT‑5 के रिस्पॉन्सेस एक चैलेंजिंग ड्यूल-यूज़ प्रॉम्प्ट पर जो आतिशबाज़ी जलाने के इंस्ट्रक्शन्स मांग रहा है. o3, जो रिफ़्यूज़ल-ट्रेन्ड है, इंटेंट पर ओवर-रोटेट करता है: यह असेस कर लेता है कि प्रॉम्प्ट बेनाइन है और इसलिए सवाल का पूरा कॉम्प्लाइंस करता है. इसके विपरीत, GPT‑5, जो सेफ़-कंप्लीशन्स के साथ ट्रेन्ड है, समझाता है कि यह पूरी तरह से कॉम्प्लाई क्यों नहीं कर सकता, और उसके बाद ही सही मैन्यूअल्स चेक करने के लिए हाई लेवल-गाइडेंस देता है.
सेफ़-कंप्लीशन सेफ़्टी ट्रेनिंग को मॉडल के आउटपुट की सेफ़्टी पर सेंटर करते हैं, यूज़र के इनपुट के अनुसार रिफ़्यूज़ल बाउंड्री तय करने के बजाय. ठोस तौर पर यह दो ट्रेनिंग पैरामीटर्स के ज़रिए लागू किया गया है:
- सेफ़्टी कंस्ट्रेंट: पोस्ट-ट्रेनिंग के दौरान, सेफ़-कंप्लीशन रिवॉर्ड उन मॉडल रिस्पॉन्सेस को पेनालाइज़ करता है जो हमारी सेफ़्टी पॉलिसीज़ का उल्लंघन करते हैं (उल्लंघन की गंभीरता के आधार पर मज़बूत पेनल्टीज़ के साथ).
- कितना मददगार है उसे बढ़ाना:: सेफ़ मॉडल रिस्पॉन्सेस के लिए, हम मॉडल को वो कितना मददगार है उसके आधार पर रिवॉर्ड देते हैं: या तो यूज़र के बताए गए मक़सद के मुताबिक़ सीधे, या फिर मददगार और सेफ़ विकल्पों के साथ जानकारी से भरे रिफ़्यूज़ल देकर.
हमने GPT‑5 में सेफ़-कंप्लीशन्स को शामिल किया (रीज़निंग और चैट दोनों मॉडल्स में), और पाया कि सेफ़-कंप्लीशन ट्रेनिंग रिफ़्यूज़ल-बेस्ड ट्रेनिंग के मुक़ाबले सेफ़्टी और कितना मददगार है इन दोनों चीज़ों में काफ़ी सुधार लाती है. OpenAI o3 के साथ निष्पक्ष तुलना के लिए, हम GPT‑5 थिंकिंग बनाम o3 के परफ़ॉर्मेंस की रिपोर्ट करते हैं. प्रोडक्शन मॉडल्स और कंट्रोल्ड एक्सपेरिमेंट्स दोनों में तुलना करने पर, हमने देखा कि सेफ़-कंप्लीशन्स ड्यूल-यूज़ सवालों के लिए ख़ासतौर पर बेहतरीन हैं. नीचे दिया गया आंकड़ा सुरक्षित जवाबों के लिए सेफ़्टी स्कोर और एवरेज उपयोगिता स्कोर की तुलना करता है.
सुरक्षा और कारगर जवाब, इरादे के हिसाब से दिए गए सुरक्षित जवाब (OpenAI o3 बनाम GPT‑5 थिंकिंग, जिसे gpt5-r के तौर पर लेबल किया गया है). GPT‑5 थिंकिंग, OpenAI o3 के मुकाबले ज़्यादा सुरक्षित और कारगर है.
कॉम्प्लाई/रिफ़्यूज़ बाइनरी फ़ैसले को छोड़कर, सेफ़-कंप्लीशन ट्रेनिंग हमारे मॉडल्स को संभावित असुरक्षित कंटेंट के बारे में ज़्यादा सावधान रहने के लिए प्रोत्साहित करती है, तब भी जब वे कॉम्प्लाई करते हैं. हमारे एक्सपेरिमेंट्स में, हमने पाया कि जब सेफ़-कंप्लीशन मॉडल्स कोई ग़लती करते हैं, तो उनके असुरक्षित आउटपुट्स रिफ़्यूज़ल-ट्रेन्ड मॉडल्स के असुरक्षित आउटपुट्स से कम गंभीर होते हैं.
असुरक्षित जवाबों के लिए हार्म सिक्योरिटी एनालिसिस (o3 बनाम GPT‑5 थिंकिंग, जिसे gpt5-r के तौर पर लेबल किया गया है). GPT‑5 थिंकिंग o3 के मुकाबले कम गंभीर ग़लतियाँ करती है.
सुरक्षा की जगह ज़्यादा कारगर रिस्पांस चुनना आसान हो सकता है – अगर मॉडल सब कुछ साफ़ मना कर दे तो वह सुरक्षित हो सकता है. लेकिन हम चाहते हैं कि हमारे मॉडल्स सुरक्षित और मददगार दोनों हों. सबसे अहम रिसर्च चैलेंज यह है कि इन दोनों गोल्स को एक साथ कैसे बेहतर बनाया जाए. GPT‑4 के लिए हमने कारगर जवाब और सुरक्षा के बीच संतुलन बनाने के लिए रूल-बेस्ड रिवॉर्ड्स डेवलप किया. अब, GPT‑5 के लिए, सेफ़-कंप्लीशन्स एक और क़दम आगे बढ़ाता है, AI की बढ़ती कैपेबिलिटीज़ का फ़ायदा उठाकर इन दो गोल्स को अच्छे तरीके से इंटीग्रेट करता है. हमारा मानना है कि मॉडल रिस्पॉन्सेस की सेफ़्टी पर फ़ोकस करना आने वाली सेफ़्टी चुनौतियों की बढ़ती जटिलता से निपटने के लिए एक मज़बूत बुनियाद बनाता है, और हम इस रिसर्च की लाइन को जारी रखने की योजना बना रहे हैं ताकि मॉडल को चुनौतीपूर्ण स्थितियों को बेहतर तरीके से समझना और ज़्यादा बारीकी और सावधानी से जवाब देना सिखाया जा सके.


