स्किप करके मेन कंटेंट पर जाऍं
OpenAI

27 जनवरी 2022

प्रकाशन

निर्देशों को फ़ॉलो करने के लिए लैंग्वेज मॉडल को अलाइन करना

लोड किया जा रहा है...

हमने लैंग्वेज मॉडल को कुछ इस तरह ट्रेन किया है, जो यूज़र के इरादों को समझने में GPT‑3 के मुक़ाबले में कहीं ज्‍़यादा बेहतर हैं, वहीं हमारी अलाइनमेंट रिसर्च के ज़रिए विकसित तकनीकों का इस्‍तेमाल करके उन्हें ज्‍़यादा भरोसेमंद और कम नुक़सान पहुंचाने वाला बनाते हैं. ये InstructGPT मॉडल, जो ह्यूमन इन द लूप से ट्रेन किए गए हैं, अब हमारे API में डिफ़ॉल्ट लैंग्वेज मॉडल के तौर पर डिप्‍लॉय किए गए हैं.

लोड किया जा रहा है...

OpenAI API, GPT‑3 लैंग्वेज मॉडल से संचालित है जिसे बड़े ध्‍यान से तैयार किए गए टेक्‍स्‍ट प्रॉम्प्ट का इस्‍तेमाल करके प्राकृतिक भाषा से जुड़े टास्‍क पूरा करने के लिए मनाया जा सकता है. लेकिन ये मॉडल ऐसे भी आउटपुट जनरेट कर सकते हैं, जो ग़ैर-भरोसेमंद, नुक़सान पहुंचाने वाले या ठेस पहुंचाने वाली भावनाओं को दिखाने वाले हों. इसकी एक वजह यह हो सकती है कि GPT‑3 को इंटरनेट टेक्स्ट के बड़े डेटासेट पर अगले शब्द का अंदाज़ा लगाने के लिए ट्रेन किया गया है, न कि यूज़र की इच्‍छा के हिसाब से भाषा से जुड़े टास्‍क को बड़े ध्‍यान से पूरा करने के लिए. दूसरे शब्‍दों में कहें तो, ये मॉडल उनके यूज़र के हिसाब से अलाइन नहीं होते हैं.

हमारे मॉडल को सुरक्षित, ज्‍़यादा मददगार और ज्‍़यादा अलाइंंड बनाने के लिए, हम ह्यूमन फ़ीडबैक से रीइंफ़ोर्समेंट लर्निंग (RLHF) नाम की मौजूदा तकनीक का इस्‍तेमाल करते हैं. हमारे कस्‍टमर द्वारा API,A को सबमिट किए गए प्रॉम्प्ट पर, हमारे लेबलर इच्‍छा के मुताबिक़ मॉडल के बिहेवियर को दिखाने देते हैं, और हमारे मॉडल से कई आउटपुट को रैंक करते हैं. हम फिर इस डेटा को GPT‑3 को फ़ाइन-ट्यून करने के लिए करते हैं.

नतीजे के तौर पर InstructGPT मॉडल निर्देशों को फ़ॉलो करने में GPT‑3 से ज्‍़यादा बेहतर काम करते हैं. वे अब कम झूठे फ़ैक्ट बनाते हैं, और नुक़सान पहुंचाने वाले आउटपुट जनरेट करने में थोड़ी-सी कमी दिखाते हैं. हमारे लेबलर 175B GPT‑3 मॉडल के आउटपुट के मुक़ाबलें में हमारे 1.3B InstructGPT मॉडल के आउटपुट को पहल देते हैं, फिर चाहे इसमें 100x कम पैरामीटर हों. इसी के साथ, हम यह भी बताना चाहते हैं कि हमें GPT‑3 की क्षमताओं से किसी तरह का समझौता करने की ज़रूरत ही नहीं है, जैसा कि एकेडमिक NLP मूल्यांकन में हमारे मॉडल की परफ़ॉर्मेंस से नतीजा निकाला जाता है.

ये InstructGPT मॉडल, जो साल-भर से ज्‍़यादा समय से API पर बीटा में हैं, अब हमारे API.B पर मौजूद डिफ़ॉल्ट लैंग्वेज मॉडल हैं. हमारा मानना है कि ह्यूमन इन द लूप के साथ फ़ाइन-ट्यूनिंग बिठाना उनकी सुरक्षा और भरोसे को बेहतर बनाने का एक ज़ोरदार टूल है, और हम इस रास्‍ते पर लगातार आगे बढ़ते रहेंगे.

यह पहली बार है कि हमारा अलाइनमेंट रिसर्च, जिस पर हम लगातार कई सालों से काम कर रहे थे,1, 2 और 3 हमारे प्रोडक्‍ट पर अमल में लाए जा रहे हैं. हमारा काम हाल की रिसर्च से भी जुड़ा हुआ है, जो एकेडमिक NLP डेटासेट, ख़ासकर FLAN4 और T0.5 का इस्‍तेमाल करके निर्देशों को अमल में लाने के लिए लैंग्वेज मॉडल को फ़ाइन-ट्यून करता है, हमारे काम के मुख्य मक़सद लैंग्वेज मॉडल के नुक़सानों और पक्षपातों को कम करते हुए, मदद और भरोसे को बढ़ाना है.6, 7, 8, 9 और 10 इस दिशा में हमारे कुछ पिछले रिसर्च में पाया गया कि हम इंसानी गतिविधियों के एक छोटे-से क्यूरेटेड डेटासेट पर फ़ाइन-ट्यूनिंग करके नुक़सान पहुंचाने वाले आउटपुट को कम कर सकते हैं.11 एक और रिसर्च ने प्री-ट्रेनिंग डेटासेट को फ़िल्टर करने,12 सेफ़्टी-स्‍पेसिफ़ि‍क कंट्रोल टोकन,13 और 14 या मॉडल जेनरेशन को चलाने पर फ़ोकस किया है.15 और 16 हम अपने चल रहे अलाइनमेंट रिसर्च में इन और ऐसे ही और आइडिया को एक्‍सप्‍लोर कर रहे हैं.

नतीजे

हम सबसे पहले इसका मूल्यांकन करते हैं कि InstructGPT के आउटपुट यूज़र के निर्देशों को कितना फ़ॉलो करते हैं, इसके लिए लेबलर इसके आउटपुट की तुलना GPT‑3 से करते हैं. हमने पाया कि API पर InstructGPT और GPT‑3 मॉडल, दोनों को सबमिट किए गए प्रॉम्प्ट में से InstructGPT मॉडल को काफ़ी पसंद किया जाता है. यह तब सही हो पाता है, जब हम GPT‑3 प्रॉम्प्ट में एक प्रीफ़ि‍क्‍स जोड़ते हैं, जिससे यह "इंस्‍ट्रक्‍शन-फ़ॉलोइंग मोड" में चला जाए.

लोड किया जा रहा है...

अपने मॉडल की सुरक्षा को चेक करने के लिए, हम मुख्य रूप से पब्लिक के लिए उपलब्ध डेटासेट पर मौजूदा मेट्रिक्स के एक सेट का इस्‍तेमाल करते हैं. GPT‑3 के मुक़ाबले में, InstructGPT कम इमिटेटिव फ़ाल्‍सहुड (नक़ली-सा झूठ) पैदा करता है (TruthfulQA17 के अनुसार) और कम नुक़सान पहुंचाने वाले (RealToxicityPrompts18 के अनुसार) हैं. हम अपने API प्रॉम्प्ट डिस्ट्रिब्‍यूशन पर इंसानों से मूल्यांकन भी करवाते हैं, और हमने पाया है कि InstructGPT अक्‍सर कम झूठे फैक्ट (“हेल्‍यूसिनेट”) बनाता है, और ज्‍यादा सही आउटपुट जनरेट करता है.C

लोड किया जा रहा है...

आख़ि‍र में, हमने पाया कि हमारे कस्‍टमर डिस्ट्रिब्‍यूशन पर FLAN4 और T05 के मुक़ाबले में InstructGPT आउटपुट को ज्‍़यादा पसंद किया जाता है. यह बताता है कि FLAN और T0 ट्रेन करने के लिए इस्‍तेमाल किए जाने वाले डेटा, ज्‍़यादातर एकेडमिक NLP टास्‍क, इस बात को पूरी तरह से पेश नहीं करते हैं कि डिप्‍लॉय किए गए लैंग्वेज मॉडल का इस्‍तेमाल असल में कैसे किया जाता है.

तरीक़े

Diagram showing three-step methodology to train InstructGPT models.

InstructGPT मॉडल को ट्रेन करने के लिए, हमारी बुनियादी तकनीक ह्यूमन फ़ीडबैक से रीइंफ़ोर्समेंट लर्निंग (RLHF) है, यह एक ऐसा तरीक़ा है, जिससे हमने अपने शुरुआती अलाइनमेंट रिसर्च में सबसे पहले लोगों की मदद की थी. यह तकनीक हमारे मॉडल को फ़ाइन-ट्यून करने के लिए लोगों की पसंद को रिवार्ड सिंग्‍नल के रूप में इस्‍तेमाल करती है, जो बहुत महत्वपूर्ण है, क्योंकि हम जिन सुरक्षा और अलाइनमेंट से जुड़ी समस्याओं को हल करना चाहते हैं, वे काफ़ी मुश्किल और सब्‍जेक्टिव हैं, और पूरी तरह से आसान ऑटोमेटिक मेट्रिक्स की पकड़ में नहीं आ पातीं.

सबसे पहले तो हम हमारे API में सबमिट कराए गए प्रॉम्प्ट पर लोगों के लिखे गए ब्‍यौरों का डेटासेट इकट्ठा करते हैं, और इसे हमारे सुपरवाइज़ किए गए लर्निंग बेसलाइन को ट्रेन करने में इस्‍तेमाल करते हैं. फिर, हम API प्रॉम्प्ट के काफ़ी बड़े-से सेट पर दो मॉडल आउटपुट के बीच ह्यूमन-लेवल की तुलना को डेटासेट इकट्ठा करते हैं. हम फिर इस डेटासेट पर रिवार्ड मॉडल (RM) को ट्रेन करते हैं, ताकि यह अंदाज़ा लगाया जा सके कि हमारे लेबलर को कौन-सा आउटपुट पसंद आएगा. आख़ि‍र में, हम इस RM को रिवार्ड फ़ंक्शन के तौर पर इस्‍तेमाल करते हैं और PPO एल्गोरिदम का इस्‍तेमाल करके इस रिवार्ड को ज्‍़यादा से ज्‍़यादा करने के लिए अपनी GPT‑3 नीति को फ़ाइन-ट्यून करते हैं.

इस प्रोसेस के बारे में सोचने का एक तरीक़ा यह है कि यह उन क्षमताओं को "अनलॉक" करता है, जो GPT‑3 में पहले से ही थीं, लेकिन सिर्फ़ प्रॉम्प्ट इंजीनियरिंग के ज़रिए उन्हें हासिल करना मुश्किल था: ऐसा इसलिए है, क्योंकि हमारे ट्रेनिंग के तरीक़े में प्रीट्रेनिंग में सीखी गई चीज़ों की तुलना में मॉडल को नई क्षमताएं सिखाने की लिमिटेड एबिलिटी है, क्योंकि यह मॉडल प्रीट्रेनिंग की तुलना में 2% से भी कम कंप्‍यूट और डेटा का इस्‍तेमाल करता है.

इस अप्रोच की सीमा यह है कि यह “अलाइनमेंट टैक्‍स” पेश करता है: मॉडल को सिर्फ़ कस्‍टमर टास्‍क पर अलाइन करने से कुछ अन्य अकेडमिक NLP टास्‍क पर उनकी परफ़ॉर्मेंस बदतर हो सकती है. यह ग़ैर-ज़रूरी है, क्योंकि अगर हमारी अलाइनमेंट तकनीकें ऐसे टास्‍क पर मॉडल को बदतर बनाती हैं, जो लोगों को पसंद हैं, तो उन्हें अमल में कम ही अपनाया जाएगा. हमने एक आसान-सा एल्गोरिथम बदलाव ढूंढ़ा है, जो इस अलाइनमेंट टैक्‍स को कम कर देता है: RL फ़ाइन-ट्यूनिंग के दौरान हम GPT‑3 को ट्रेन करने के लिए इस्‍तेमाल होने वाले ओरिजनल डेटा के एक छोटे-से हिस्से को मिलाते हैं, और नॉर्मल लॉग लाइकलिहुड का सबसे ज्‍़यादा इस्‍तेमाल करके इस डेटा पर ट्रेन करते हैं.D यह मोटे तौर पर सुरक्षा और लोगों की पसंद पर परफ़ॉर्मेंस को बनाए रखता है, वहीं एकेडमिक टास्‍क पर परफ़ॉर्मेंस गिर जाती है, और कई मामलों में GPT‑3 बेसलाइन को भी पार कर जाती है.

बड़े पैमाने पर प्रेफ़रेंस को जनरैलाइज़ करना

हमारी प्रोसेस हमारे मॉडल के बिहेवियर को हमारे लेबलर की पसंद के साथ अलाइन करती है, जो हमारे मॉडल को ट्रेन करने के लिए इस्‍तेमाल होने वाले डेटा को सीधे पैदा करते हैं, और हम रिसर्चर, जो लिखे हुए निर्देशों, ख़ास उदाहरणों पर सीधे फ़ीडबैक और इनफ़ॉर्मल बातचीत के ज़रिए लेबलर को गाइडेंस देते हैं. यह हमारे कस्‍टमर और हमारी API नीतियों में शामिल प्रेफ़रेंस पर भी असर डालती है. हमने ऐसे लेबलर को चुना, जिन्होंने संवेदनशील प्रॉम्प्ट को पहचानने और उन पर रिस्‍पांस देने की योग्यता के लिए स्क्रीनिंग टेस्ट में अच्छा परफ़ॉर्म किया. वैसे, डेटा पर असर डालने वाले ये अलग-अलग तरह के सोर्स यह गारंटी नहीं देते कि हमारे मॉडल किसी बहुत बड़े ग्रुप की प्रेफ़रेंस के अलाइन हैं.

इसकी जांच-पड़ताल के लिए हमने दो एक्सपेरिमेंट किए. पहला, हमने GPT‑3 और InstructGPT का मूल्यांकन होल्ड-आउट लेबलर की मदद से किया, जिन्होंने कोई भी ट्रेनिंग डेटा नहीं बनाया, और पाया कि ये लेबलर हमारे ट्रेनिंग लेबलर की तरह ही InstructGPT मॉडल से आउटपुट को पसंद करते हैं. दूसरा, हमने लेबरर के एक हिस्‍से से मिले डेटा पर रिवार्ड मॉडल को ट्रेन किया, और पाया कि ये लेबरर के एक और हिस्‍से की प्रेफ़रेंस की भविष्‍यवाणी करने में बेहतर तरीक़े से जनरलाइज़ होती हैं. इससे बताया कि हमारे मॉडल हमारे ट्रेनिंग लेबलर की प्रेफ़रेंस से पूरी तरह से ओवरफ़ि‍ट नहीं हैं. हालांकि, इस पर अभी और काम किए जाने की ज़रूरत है कि ये मॉडल यूज़र के बहुत बड़े ग्रुप पर कैसे परफ़ॉर्म करते हैं, और ये उन इनपुट पर कैसे परफ़ॉर्म करते हैं, जहां इंसान इच्‍छा के मुताबिक़ बिहेवियर को लेकर असहमत हैं.

सीमाएं

काफ़ी प्रोग्रेस करने के बावजूद, हमारे InstructGPT मॉडल पूरी तरह से अलाइन या पूरी तरह से सुरक्षित होने से अभी दूर हैं; वे अभी भी नुक़सान पहुंचाने वाले या पक्षपाती आउटपुट जनरेट करते हैं, तथ्यों को गढ़ लेते हैं और स्पष्ट प्रॉम्‍प्‍टिंग के बिना सेक्‍सुअल और हिंसक कंटेंट जनरेट कर देते हैं. लेकिन मशीन लर्निंग सिस्टम की सुरक्षा सिर्फ़ अंडरलाईंग मॉडल के बिहेवियर पर निर्भर नहीं करती, बल्कि इस पर भी निर्भर करती है कि ये मॉडल डिप्‍लॉय कैसे होते हैं. हमारे API की सुरक्षा के सपोर्ट के लिए, लाइव होने से पहले हम लगातार संभावित ऐप्लिकेशन का रिव्यु(एक नई विंडो में खुलेगा) करेंगे, असुरक्षित कम्‍प्‍लीशन का पता लगाने के लिए कंटेंट फ़िल्टर लगाएंगे और ग़लत इस्‍तेमाल को मोनिटर करेंगे.

हमारे मॉडल को यूज़र के निर्देशों को फ़ॉलो करने की ट्रेनिंग देने का बाईप्रोडक्‍ट यह है कि अगर उन्हें असुरक्षित आउटपुट का निर्देश दिया जाता है, तो उनका ग़लत इस्‍तेमाल होने की संभावना काफ़ी बढ़ सकती है. इसे हल करने के लिए हमारे मॉडल को कुछ निर्देशों को इनकार करना होगा; इसे विश्वसनीय तरीक़े से करना एक महत्वपूर्ण खुली रिसर्च से जुड़ी समस्या है, जिसे हम हल करने में जुटे हुए हैं.

इसके अलावा, कई मामलों में औसत लेबलर प्रेफ़रेंस की अलाइनमेंट ज़रूरी नहीं भी हो सकती. उदाहरण के लिए, जब ऐसा टेक्‍स्‍ट जनरेट किया जाता है जो माइनॉरिटी ग्रुप पर बेमेल तरीक़े से असर डालता हो, तो उस ग्रुप की प्रेफ़रेंस को ज्‍़यादा महत्‍व दिया जाना चाहिए. अभी, InstructGPT को अंग्रेज़ी में निर्देशों का पालन करने के लिए ट्रेन किया जाता है; इस तरह, यह अंग्रेज़ी बोलने वाले लोगों के सांस्कृतिक मूल्यों के प्रति पक्षपाती है. हम अलग-अलग लेबलर की प्रेफ़रेंस में अंतर और असहमति को समझने के लिए रिसर्च कर रहे हैं, ताकि हम अपने मॉडल को ज्‍़यादा ख़ास आबादी के मूल्यों के हिसाब से तैयार कर सकें. आमतौर पर, मॉडल आउटपुट को ख़ास लोगों के मूल्यों से अलाइन करना सामाजिक प्रभाव वाले मुश्किल विकल्प पेश करता है, और आख़ि‍रकार हमें इन फ़ैसलों को लेने के लिए ज़ि‍म्मेदार, इनक्‍लूसिव प्रोसेस सेट करने होंगे.

अगले क़दम

यह हमारे प्रोडक्‍ट पर हमारी अलाइनमेंट रिसर्च का पहला ऐप्लिकेशन है. ये नतीजे दिखाते हैं कि ये तकनीकें जनरल-पर्पस AI सिस्‍टम और लोगों के इरादों के बीच अलाइनमेंट को काफ़ी हद तक बेहतर बनाने में असरदार हैं. वैसे, यह तो बस अभी शुरुआत है: हम अपने मौजूदा और भविष्‍य के मॉडल के अलाइनमेंट को बेहतर बनाने के लिए इन तकनीकों को आगे बढ़ाने पर ज़ोर देते रहेंगे, ताकि भाषा टूल लोगों के लिए सुरक्षित और मददगार बनें.

अगर आपकी इस तरह की रिसर्च में दिलचस्‍पी है, तो हमें आपकी ज़रूरत है(एक नई विंडो में खुलेगा)!

फ़ुटनोट

  1. A

    हम सिर्फ़ उन InstructGPT मॉडल के पुराने वर्ज़न के लिए Playground के ज़रिए सबमिट किए गए प्रॉम्प्ट का इस्‍तेमाल करते हैं, जनवरी 2021 में डिप्‍लॉय किए गए थे. हमारे ह्यूमन एनोटेटर ट्रेनिंग सेट में जोड़ने से पहले सभी प्रॉम्प्ट से व्यक्तिगत पहचान वाली जानकारी हटा देते हैं.

  2. B

    API में डिप्‍लॉय किए गए InstructGPT मॉडल उसी इंसानी फ़ीडबैक डेटा का इस्‍तेमाल करके ट्रेंड किए गए अपडेट किए गए वर्ज़न हैं. वे एक जैसे लेकिन थोड़े-से अलग ट्रेनिंग के तरीक़े का इस्‍तेमाल करते हैं, जिसके बारे में हम आगामी पब्लिकेशन में बात करेंगे.

  3. C

    हम अपने API डिस्ट्रि‍ब्‍यूशन पर नुक़सान पहुंचाने वाले संभावित आउटपुट के कई अन्य डायमेंशन को भी चेक करते हैं: क्या आउटपुट में सेक्‍सुअल या हिंसक कंटेंट शामिल हैं, किसी प्रोटेक्टिड क्‍लास को बदनाम करता है, या ग़लत इस्‍तेमाल को बढ़ावा देता है. हमने पाया कि इन मैट्रिक्स पर InstructGPT, GPT-3 के मुक़ाबले में काफ़ी बेहतर परफ़ॉर्म नहीं करता; दोनों मॉडल में इंसिडेंस रेट एक जैसा ही कम है.

  4. D

    हमने इस अप्रोच को KL कोइफ़ि‍शिएंट को आसानी से बढ़ाने की तुलना ज्‍़यादा असरदार पाया.

  5. E

    ये लेबलर हमारे ट्रेनिंग लेबलर की तरह ही Scale AI और Upwork से सोर्स किए जाते हैं, लेकिन इन्हें स्क्रीनिंग टेस्ट से नहीं गुज़रना पड़ता.

रेफ़रेंस

  1. 1

    Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. और Amodei, D., 2017. इंसानी पसंद पर आधारित डीप रीइंफ़ोर्समेंट लर्निंग. arXiv प्रीप्रिंट arXiv:1706.03741.

  2. 2

    Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. और Christiano, P., 2020.

  3. 3

    Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. और Christiano, P., 2021. इंसानी फ़ीडबैक के ज़रिए पुस्तकों का क्रमिक सारांश बनाना. arXiv प्रीप्रिंट arXiv:2109.10862.

  4. 4

    Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. और Le, Q.V., 2021. फ़ाइनट्यून किए गए लैंग्वेज मॉडल ज़ीरो-शॉट लर्नर होते हैं. arXiv प्रीप्रिंट arXiv:2109.01652.

  5. 5

    Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. और Dey, M., 2021. मल्टीटास्क प्रॉम्प्ट के ज़रिए की गई ट्रेनिंग, ज़ीरो-शॉट टास्क जनरलाइज़ेशन को संभव बनाती है. arXiv प्रीप्रिंट arXiv:2110.08207.

  6. 6

    Bender, E.M., Gebru, T., McMillan-Major, A. और Shmitchell, S., मार्च 2021. On the Dangers of Stochastic Parrots: क्या लैंग्वेज मॉडल बहुत बड़े हो सकते हैं?🦜. निष्पक्षता, जवाबदेही और पारदर्शिता पर 2021 ACM कॉन्फ़्रेंस की कार्यवाही में (pp. 610-623).

  7. 7

    Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. और Brynjolfsson, E., 2021. फ़ाउंडेशन मॉडल के अवसर और रिस्क. arXiv preprint arXiv:2108.07258.

  8. 8

    Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. और Irving, G., 2021. लैंग्वेज एजेंटों का एलाइनमेंट. arXiv preprint arXiv:2103.14659.

  9. 9

    Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. और Kenton, Z., 2021. लैंग्वेज मॉडल से होने वाले नैतिक और सामाजिक नुकसान के रिस्क. arXiv preprint arXiv:2112.04359.

  10. 10

    Tamkin, A., Brundage, M., Clark, J. और Ganguli, D., 2021. बड़े लैंग्वेज मॉडल की क्षमताओं, सीमाओं और सामाजिक प्रभाव को समझना. arXiv preprint arXiv:2102.02503.

  11. 11

    Solaiman, I. और Dennison, C., 2021. मूल्य-लक्षित डेटासेट के साथ लैंग्वेज मॉडल को समाज के हिसाब का बनाने का प्रोसेस (PALMS). arXiv preprint arXiv:2106.10328.

  12. 12

    Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. और Frosst, N., 2021. सशर्त-संभावना फ़िल्ट्रेशन के साथ लैंग्वेज मॉडल में नुकसान को कम करना. arXiv preprint arXiv:2108.07790.

  13. 13

    Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. और Dinan, E., 2020. ओपन-डोमेन चैटबॉट में सुरक्षा के लिए सुझाव. arXiv preprint arXiv:2010.07079.

  14. 14

    Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. और Socher, R., 2019. Ctrl: कंट्रोल किए जा सकने वाले जेनरेशन के लिए एक सशर्त ट्रांसफ़ॉर्मर लैंग्वेज मॉडल. arXiv preprint arXiv:1909.05858.

  15. 15

    Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. और Rajani, N.F., 2020. Gedi: जनरेटिव डिस्क्रिमिनेटर निर्देशित अनुक्रम जनरेशन. arXiv preprint arXiv:2009.06367.

  16. 16

    Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. और Liu, R., 2019. प्लग एंड प्ले लैंग्वेज मॉडल: कंट्रोल किए जा सकने वाले टेक्स्ट जनरेशन के लिए एक आसान अप्रोच. arXiv preprint arXiv:1912.02164.

  17. 17

    Lin, S., Hilton, J. और Evans, O., 2021. TruthfulQA: यह मापना कि मॉडल किस तरह मानवीय झूठ की नकल करते हैं. arXiv preprint arXiv:2109.07958.

  18. 18

    Gehman, S., Gururangan, S., Sap, M., Choi, Y. और Smith, N.A., 2020. RealToxicityPrompts: लैंग्वेज मॉडल में न्यूरल टॉक्सिक डिजेनरेशन एवल्युएशन. arXiv preprint arXiv:2009.11462.

  19. 19

    Rudinger, R., Naradowsky, J., Leonard, B. और Van Durme, B., 2018. सहसंदर्भ समाधान में लिंग पक्षपात. arXiv preprint arXiv:1804.09301.

  20. 20

    Nangia, N., Vania, C., Bhalerao, R. और Bowman, S.R., 2020. CrowS-pairs: मास्क्ड लैंग्वेज मॉडल में सामाजिक पक्षपात को मापने के लिए एक चुनौती डेटासेट. arXiv preprint arXiv:2010.00133.

लेखक

Ryan Lowe और Jan Leike

एक्‍नॉलेजमेंट

हम अपने इन पेपर सह-लेखकों का धन्‍यवाद करना चाहेंगे: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, और Paul Christiano, इनके साथ ही बाक़ी उन सबका, जिन्‍होंने पेपर और ब्‍लॉग पोस्‍ट पर फ़ीडबैक दिए. हम गाइडेंस और मदद के लिए Comms टीम का भी धन्‍यवाद करना चाहेंगे, जिनमें शामिल हैं: Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego, और Justin Jay Wang. आख़ि‍र में, हम हमारे लेबलर को भी धन्‍यवाद कहना चाहेंगे, जिनके बिना यह प्रोजेक्ट संभव नहीं हो पाता.