लेटेस्ट मॉडल स्पेक शेयर करना
हमने इच्छा के मुताबिक़ मॉडल के बिहेवियर को शेप देने में बाहर के फ़ीडबैक और हमारे लगातार हो रहे रिसर्च के आधार पर मॉडल स्पेक में अपडेट किए हैं.
हम मॉडल स्पेक में एक बड़े अपडेट को शेयर कर रहे हैं, एक ऐसा डॉक्यूमेंट, जिसमें बताया गया है कि हम अपने AI मॉडल से कैसा बिहेवियर चाहते हैं. यह अपडेट कस्टमाइज़ कर सकने की क्षमता, ट्रांसपेरेंसी और इंटेलेक्चुअल आज़ादी के लिए हमारे कमिटमेंट को मज़बूत करता है, ताकि बिना मनमाने प्रतिबंधों के AI के साथ एक्सप्लोर, बहस और क्रिएट किया जा सके – साथ ही साथ यह पक्का किया जा सके कि असली नुक़सान के ख़तरे को कम करने के लिए गार्डरेल मौजूद रहें. यह उन बुनियादों पर बना है, जिन्हें हमने पिछली मई, में पेश किया था, और इसे अलाइनमेंट रिसर्च से लेकर दुनिया-भर के यूज़र की मदद करने तक के कई अलग-अलग कॉन्टेक्स्ट में अमल में लाने के अपने तजुर्बे से तैयार किया है.
हम सिनारियो की बहुत बड़ी रेंज में मॉडल स्पेक के उसूलों के साथ मॉडल वफ़ादारी पर कुछ शुरुआती नतीजे भी शेयर कर रहे हैं. ये नतीजे समय-समय पर मिली प्रोग्रेस को हाइलाइट करते हैं, साथ ही साथ उन एरिया को भी, जिन्हें हम अभी बेहतर बना सकते हैं. मॉडल स्पेक—हमारे मॉडल की ही तरह—हम जैसे-जैसे इन्हें लागू करेंगे, शेयर करेंगे और स्टेकहोल्डर के फ़ीडबैक पर ध्यान देंगे, वैसे-वैसे ये लगातार नए होते रहेंगे. बड़े पैमाने पर इस्तेमाल और सहयोग को सपोर्ट करने के लिए, हम मॉडल स्पेक के इस वर्ज़न को क्रिएटिव कॉमन्स CC0 लाइसेंस के तहत पब्लिक डोमेन में पेश कर रहे हैं. इसका मतलब है कि डेवलपर और रिसर्चर अपने ख़ुद के काम में बिना रोक-टोक इस्तेमाल कर सकते हैं, अपने हिसाब से ढाल सकते हैं और तैयार कर सकते हैं.
OpenAI का मक़सद ऐसे मॉडल बनाना है, जो यूज़र और डेवलपर की ज़रूरत के हिसाब से इस्तेमाल के लायक़, सुरक्षित औरअलाइन किया गया हो, वहीं हम हमारे मिशन को यह पक्का करने के लिए एडवांस बना रहे हैं कि सभी लोगों तक आर्टिफ़िशियल जेनरल इंटेलिजेंस के फ़ायदे पहुंचें. इस मक़सद को हासिल करने के लिए, हमें मॉडल को बारी-बारी से लगातार डिप्लॉय करना होगा, जो डेवलपर और यूज़र को मज़बूती दें, वहीं हमारे मॉडल को हमारे यूज़र और बाक़ियों को गंभीर नुक़सान से रोकें और OpenAI को ऑपरेट करने के लाइसेंस को बनाए रखें.
ये मक़सद कभी-कभी कॉन्फ़्लिक्ट में पड़ सकते हैं, और मॉडल स्पेक मॉडल को बिल्कुल साफ-साफ़ चेन ऑफ़ कमांड पर अमल करने की हिदायत देकर उनके बीच ट्रेडऑफ़ को बैलेंस करता है, साथ ही अलग से कुछ उसूल भी बताता है, जो अलग-अलग सिनारियो के लिए दायरे और डिफ़ॉल्ट बिहेवियर सेट करते हैं. यह फ़्रेमवर्क बिल्कुल साफ़, अच्छी तरह तय दायरों के भीतर रहते हुए यूज़र और डेवलपर कंट्रोल को पहल देता है:
- चेन ऑफ़ कमांड: बताता है कि मॉडल प्लैटफ़ॉर्म (OpenAI), डेवलपर और यूज़र से मिली हिदायतों को कैसे पहल देता है. मॉडल स्पेक में ज़्यादातर गाइडलाइंन दी गई होती हैं, जिनके बारे में हमारा मानना है कि वे कई मामलों में मददगार होती हैं, लेकिन यूज़र और डेवलपर द्वारा उनकी अनदेखी कर दी जाती है. यह यूज़र और डेवलपर को प्लैटफ़ॉर्म-लेवल के नियमों द्वारा तय दायरों के अंदर मॉडल बिहेवियर को पूरी तरह से कस्टमाइज़ करने की क्षमता देता है.
- साथ मिलकर सच्चाई की खोज करें: एक ऊंचे आदर्शों वाले मददगार इंसान की तरह, हमारे मॉडल को यूज़र को अपने ख़ुद के सही फ़ैसले लेने में मज़बूत बनाना चाहिए. इसमें इनके बीच बहुत ध्यान से बैलेंस बनाना शामिल है: (1) किसी भी विषय को किसी भी नज़रिए से एक्स्प्लोर करने के लिए तैयार रहते हुए किसी एजेंडे के तहत यूज़र को बहकाने से बचना, ऑब्जेक्टिविटी को बनाए रखना, और (2) यूज़र के मक़सद को समझने पर काम करना, अनुमानों और अनिश्चित जानकारी को स्पष्ट करना और सही होने पर क्रिटिकल फ़ीडबैक देना – ऐसे अनुरोध जिन्हें हमने सुना है और बेहतर बनाया है.
- बेहतरीन काम करें: क़ाबिलियत के बुनियादी स्टैंडर्ड तय करता है, जिनमें फ़ैक्चुअल एक्यूरेसी, क्रिएटिविटी और प्रोग्रेमैटिक इस्तेमाल शामिल हैं.
- दायरों में रहें: बताता है कि कैसे यह मॉडल यूज़र की ऑटोनॉमी को नुक़सान या उसके ग़लत इस्तेमाल से बचने के लिए बड़ी सावधानी से बैलेंस करता है. यह नया वर्ज़न बड़ा है, इसमें उन सभी कारणों को कवर किया गया है, जिनकी वहज से हम चाहते हैं कि हमारे मॉडल यूज़र या डेवलपर के अनुरोधों को नामंजूर कर दें.
- मिलनसार बनें: मॉडल के डिफ़ॉल्ट बातचीत के स्टाकइल – गर्मजोशी, एम्पैैथेटिक और मददगार – को बताता है और बताता है कि इस स्टाइल को कैसे अपने हिसाब से ढाला जा सकता है.
- सही स्टाइल का इस्तेमाल करें: फ़ोर्मेटिंग और डिलिवरी पर डिफ़ॉल्ट गाइडैंस देता है. चाहे वह साफ़-स्पष्ट बुलेट पॉइंट हों, छोटे कोड स्निपेट हों या वॉइस बातचीत हो, हमारा मक़सद स्पष्टता और यूज़ेबिलिटी को पक्का करना है.
अपडेट किए गए मॉडल स्पेक में साफ़ तौर पर इंटेलेक्चुअल आज़ादी को अपनाया गया है – एक ऐसा विचार कि AI को लोगों को बिना मनमाने प्रतिबंधों के एक्सप्लोर, बहस और क्रिएट करने में मज़बूर बनाना चाहिए – फिर चाहे कोई भी विषय कितना भी चुनौती भरा या विवादों भरा क्यों न हो. एक ऐसी दुनिया में, जहां AI टूल तेज़ी से बातचीत को शेप दे रहे हैं, जानकारी और नज़रियों का बिना रोक-टोक लेन-देन प्रोग्रेस और इनोवेशन के लिए बेहद ज़रूरी है.
यह फ़िलॉसफ़ी "दायरों में रहें" और "साथ मिलकर सच्चाई की खोज करें" में समाई हुई है. जैसे कि, जहां मॉडल को कभी भी बम बनाने या पर्सनल गोपनीयता का उल्लंघन करने के लिए ब्यौरेवार जानकारी नहीं देनी चाहिए, वहीं इसके राजनीतिक या सांस्कृतिक रूप से संवेदनशील सवालों के सोच-समझकर जवाब देने पर ज़ोर दिया जाता है – बिना किसी ख़ास एजेंडे को बढ़ावा दिए. थोड़े में कहें तो, हमने इस उसूल को मज़बूती दी है कि कोई भी विचार बुनियादी तौर पर बातचीत से परे नहीं है, जब तक कि मॉडल यूज़र या अन्य लोगों को काफ़ी नुक़सान न पहुंचा रहा हो (जैसे कि, आतंकवादी घटनाओं को अंजाम देना).
असली दुनिया को बेहतर तरीक़े से समझने के लिए, हमने प्रॉम्प्ट के एक चुनौती भरे सेट को इकट्ठा करना शुरू किया है, जो यह टेस्ट करने के लिए डिज़ाइन किया गया है कि मॉडल स्पेक में दिए गए हर उसूल को मॉडल कितनी अच्छे से अमल में लाते हैं. ये प्रॉम्प्ट मॉडल जेनरेशन और एक्सपर्ट इंसानी रिव्यु के मिलनसार इस्तेमाल से बनाए गए थे, जिससे बहुत आम और बहुत मुश्किल दोनों तरह के सीनारियो की कवरेज पक्का हो सकी.
शुरुआती नतीजे पिछली मई में हमारे सबसे अच्छे सिस्टम की तुलना में मॉडल स्पेक के प्रति मॉडल के अमल में काफ़ी सुधार दिखाते हैं. हालांकि थोड़ा-सा यह फ़र्क़ नीति से जुड़े अपडेट की वजह से है, हमारा मानना है कि इसका ज़्यादातर हिस्सा बढ़े हुए अलाइनमेंट की वजह से है. हालांकि प्रोग्रेस हौसला बढ़ाने वाली है, फिर भी हम यह मानते हैं कि अभी काफ़ी गंजाइश बाक़ी है.
हम इसे जारी प्रोसेस की शुरुआत के तौर पर देखते हैं. नए उदाहरणों के साथ अपनी चुनौती सेट का दायरा बढ़ाने का हमारा प्लान है – ख़ासकर असली दुनिया में इस्तेमाल के ज़रिए उजागर हुए मामले – जिनके बारे में हमारे मॉडल और मॉडल स्पेक अभी तक पूरी तरह से पता नहीं लगा पाए हैं.
मॉडल स्पेक के इस वर्ज़न को तैयार करने में, हमने पहले वर्ज़न के फ़ीडबैक के साथ-साथ अलाइनमेंट रिसर्च और असली दुनिया में डिप्लॉयमेंट से मिले सबक़ों को भी शामिल किया है. भविष्य में हम बड़े पैमाने पर पब्लिक इनपुट पर ध्यान देना चाहते हैं. इस मक़सद के लिए कई तरह के प्रोसेस तैयार करने के लिए, हम अंदाज़न 1,000 लोगों के साथ पायलट स्टडी कर रहे हैं – जिनमें से हरेक मॉडल के बिहेवियर और पेश किए गए नियमों को रिव्यु कर रहा है, और अपनी राय शेयर कर रहा है. हालांकि इन स्टडीज़ से कोई बहुत बड़ा पर्सपेक्टिव उभरकर नहीं आता, फिर भी शुरुआती इनसाइट सीधे कुछ बदलावों की जानकारी दे रहे हैं. हम इसे एक लगातार, बारी-बारी से चलने वाली प्रोसेस के तौर पर देखते हैं, और अभी भी सीखने और अपनी अप्रोच को तराशने के प्रति कमिटेड हैं.
हम मॉडल स्पेक के इस नए वर्ज़न को क्रिएटिव कॉमन्स CC0 लाइसेंस के तहत पब्लिक डोमेन में डेडिकेट कर रहे हैं. इसका मतलब है कि डेवलपर और रिसर्चर मॉडल स्पेक का अपने काम में बिना रोक-टोक के इस्तेमाल कर सकते हैं, अपने हिसाब से ढाल सकते हैं या तैयार कर सकते हैं. हम ऊपर इस्तेमाल किए गए मूल्यांकन प्रॉम्प्ट कोड को भी ओपन-सोर्स कर रहे हैं – और भविष्य में स्पेक मूल्यांकन और अलाइनमेंट के लिए और भी कोड, आर्टिफ़ैक्ट और टूल जारी करने का लक्ष्य है.
आप इन प्रॉम्प्ट और मॉडल स्पेक सोर्स को नए GitHub रिपॉज़िटरी(एक नई विंडो में खुलेगा) में पा सकते हैं, जहां आगे हमारी लगातार नए-नए मॉडल स्पेक वर्ज़न पब्लिश करने का प्लान है.
जैसे-जैसे हमारे AI सिस्टम एडवांस होंगे, हम इन उसूलों पर दोहराना जारी रखेंगे, कम्यूनिटी से फ़ीडबैक मगाएंगे और अपनी प्रोग्रेस को सबके साथ शेयर करेंगे. आगे से, हम मॉडल स्पेक के हर अपडेट के लिए ब्लॉग पोस्ट पब्लिश नहीं करेंगे. इसके बजाय, आप हमेशा लेटेस्ट अपडेट model-spec.openai.com(एक नई विंडो में खुलेगा) पर पा सकते हैं और ट्रैक कर सकते हैं.
हमारा मक़सद लगातार नए यूज़ केस को सुरक्षित तरीक़े से इनेबल बनाना है, और लगातार रिसर्च और इनोवेशन की अगुवाई में अपनी अप्रोच को तराशना है. हमारी रोज़मर्रा की ज़िंदगी में AI के बढ़ते रोल की वजह से यह ज़रूरी हो गया है कि हम लगातार लर्निंग, रिफ़ाइनिंग और एंगेजिंग जारी रखें. यह अप्रोच न सिर्फ़ उसे दिखाता है, जो अब तक हमने सीखा है, बल्कि यह हमारे इस भरोसे को भी दिखाता है कि AI से अलाइन रहना एक लगातार जारी रहने वाला सफ़र है – और हमें उम्मीद है कि आप हमारे साथ जुड़ेंगे. अगर आपके इस स्पेक पर कोई फ़ीडबैक है, तो आप इसे यहां शेयर कर सकते हैं.