स्किप करके मेन कंटेंट पर जाऍं
OpenAI

हमने GPT‑4 बनाया है, जो डीप लर्निंग को बढ़ाने के लिए OpenAI की कोशिशों में लेटेस्ट माइलस्टोन है. GPT‑4 एक बड़ा मल्टीमॉडल मॉडल है (इमेज और टेक्स्ट इनपुट स्वीकार करता है, टेक्स्ट आउटपुट देता है), जो कई रियल-वर्ल्ड के परिदृश्यों में मनुष्यों के मुकाबले कम सक्षम है, लेकिन विभिन्न प्रोफ़ेशनल और अकादमिक बेंचमार्क्स पर मानव-स्तर का बेहतरीन परफ़ॉर्मेंस करता है. जैसे कि, ये सिम्युलेटेड बार परीक्षा में टॉप 10% परीक्षार्थियों के आसपास स्कोर के साथ उत्तीर्ण होता है; इसके विपरीत, GPT‑3.5 का स्कोर निचले 10% के आसपास था. हमने अपने प्रतिकूल टेस्टिंग कार्यक्रम के साथ-साथ ChatGPT से सबक का इस्तेमाल करके GPT‑4 को अलाइन करने में 6 महीने बिताए हैं, जिसके परिणामस्वरूप तथ्यात्मकता, संचालन क्षमता और गार्डरेलिंग के बाहर जाने से इनकार करने पर हमारे अब तक के सबसे अच्छे परिणाम (हालांकि पूर्णता से बहुत दूर) हैं.

पिछले दो वर्षों में, हमने अपने संपूर्ण डीप लर्निंग स्टैक का पुनर्निर्माण किया और Azure के साथ मिलकर अपने कार्यभार के लिए एक सुपरकंप्यूटर का सह-डिज़ाइन तैयार किया. एक साल पहले, हमने सिस्टम के पहले “टेस्ट रन” के तौर पर GPT‑3.5 को ट्रेन किया था. हमें कुछ बग्स मिले और हमने उन्हें ठीक किया तथा अपने सैद्धांतिक आधारों में सुधार किया. परिणामस्वरूप, हमारा GPT‑4 ट्रेनिंग रन (कम से कम हमारे लिए!) अभूतपूर्व रूप से स्थिर रहा, और हमारा पहला बड़ा मॉडल बन गया जिसके ट्रेनिंग प्रदर्शन का हम समय से पहले सटीक अनुमान लगाने में सक्षम थे. चूंकि हम भरोसेमंद स्केलिंग पर फ़ोकस करना जारी रखते हैं, इसलिए हमारा लक्ष्य अपनी कार्यप्रणाली को बेहतर बनाना है, जिससे हमें भविष्य की क्षमताओं के लिए पहले से ही पूर्वानुमान लगाने और तैयारी करने में मदद मिल सके - जिसे हम सुरक्षा के लिए महत्वपूर्ण मानते हैं.

हम ChatGPT और API (एक प्रतीक्षा सूची के साथ) के ज़रिये GPT‑4 की टेक्स्ट इनपुट क्षमता रिलीज़ कर रहे हैं. व्यापक उपलब्धता के लिए इमेज इनपुट क्षमता तैयार करने के लिए, हम शुरुआत में एक सिंगल पार्टनर(एक नई विंडो में खुलेगा) के साथ मिलकर काम कर रहे हैं. हम AI मॉडल के प्रदर्शन के ऑटोमेटेड मूल्यांकन के लिए अपने फ़्रेमवर्क, OpenAI Evals(एक नई विंडो में खुलेगा) को भी ओपन-सोर्स कर रहे हैं, ताकि कोई भी व्यक्ति हमारे मॉडल्स में कमियों की रिपोर्ट कर सके और आगे सुधार के लिए गाइड कर सके.

क्षमताएं

सामान्य बातचीत में, GPT‑3.5 और GPT‑4 के बीच बहुत कम अंतर हो सकता है. अंतर तब सामने आता है जब टास्क की जटिलता एक पर्याप्त सीमा तक पहुंच जाती है—GPT‑4 ज़्यादा भरोसेमंद, क्रिएटिव है, और GPT‑3.5 के मुकाबले ज़्यादा सूक्ष्म निर्देशों को संभालने में सक्षम है.

दोनों मॉडल्स के बीच अंतर को समझने के लिए, हमने विभिन्न बेंचमार्क्स पर टेस्ट किया, जिनमें मूल तौर पर इंसानों के लिए डिजाइन की गई परीक्षाओं का अनुकरण भी शामिल था. हम सबसे हालिया सार्वजनिक तौर पर उपलब्ध टेस्ट (ओलंपियाड और AP फ़्री रेस्पॉन्स सवालों के मामले में) का इस्तेमाल करके या प्रैक्टिस परीक्षाओं के 2022-2023 वर्ज़न खरीदकर आगे बढ़े. हमने इन परीक्षाओं के लिए कोई ख़ास ट्रेनिंग नहीं की. ट्रेनिंग के दौरान मॉडल द्वारा परीक्षा में कुछ समस्याएं देखी गईं, लेकिन हमारा मानना ​​है कि परिणाम प्रतिनिधिक हैं—डिटेल्स के लिए हमारी तकनीकी रिपोर्ट(एक नई विंडो में खुलेगा) देखें.

आंतरिक संदर्भ 1

लोड किया जा रहा है...
लोड किया जा रहा है...

हमने मशीन लर्निंग मॉडल्स के लिए डिज़ाइन किए गए पारंपरिक बेंचमार्क पर GPT‑4 का भी मूल्यांकन किया. GPT‑4 मौजूदा लार्ज लैंग्वेज मॉडल्स के साथ-साथ ज़्यादातर बेहतरीन (SOTA) मॉडल्स से काफ़ी बेहतर प्रदर्शन करता है, जिसमें बेंचमार्क-विशिष्ट क्राफ्टिंग या अतिरिक्त ट्रेनिंग प्रोटोकॉल शामिल हो सकते हैं:

लोड किया जा रहा है...

कई मौजूदा ML बेंचमार्क अंग्रेज़ी में लिखे गए हैं. अन्य भाषाओं में क्षमता का शुरूआती अंदाज़ा लगाने के लिए, हमने MMLU बेंचमार्क - 57 विषयों में फ़ैले 14,000 बहु-विकल्पीय प्रॉब्लम्स के एक समूह—का Azure अनुवाद का इस्तेमाल करके विभिन्न भाषाओं में अनुवाद किया (परिशिष्ट देखें). टेस्ट की गई 26 में से 24 भाषाओं में, GPT‑4 ने GPT‑3.5 और अन्य LLMs (चिनचिला, PaLM) के अंग्रेज़ी भाषा के परफ़ॉर्मेंस से बेहतर परफ़ॉर्म किया, जिसमें लातवियाई, वेल्श और स्वाहिली जैसी कम-रीसोर्स वाली भाषाएं भी शामिल हैं:

लोड किया जा रहा है...

हम आंतरिक रूप से भी GPT‑4 का इस्तेमाल कर रहे हैं, जिसका सपोर्ट, सेल्स, कंटेंट मॉडरेशन और प्रोग्रामिंग जैसे कार्यों पर बहुत प्रभाव पड़ा है. हम इसका इस्तेमाल AI आउटपुट के मूल्यांकन में मनुष्यों की मदद के लिए भी कर रहे हैं, जो हमारी अलाइनमेंट स्ट्रैटेजी का दूसरा चरण है.

विज़ुअल इनपुट्स

GPT‑4 टेक्स्ट और इमेजेज़ का संकेत स्वीकार कर सकता है, जो—सिर्फ़ टेक्स्ट सेटिंग्स के समानांतर—यूज़र को कोई भी विज़न या लैंग्वेज टास्क निर्दिष्ट करने की सुविधा देता है. ख़ास तौर से, ये अन्तर्निहित टेक्स्ट और इमेजेज़ से युक्त इनपुट दिए जाने पर टेक्स्ट आउटपुट (प्राकृतिक भाषा, कोड, आदि) जनरेट करता है. विभिन्न डोमेन पर—जिसमें टेक्स्ट और फ़ोटोग्राफ़, डायग्राम या स्क्रीनशॉट वाले डॉक्यूमेंट्स शामिल हैं—GPT‑4 वैसी ही क्षमताएं प्रदर्शित करता है जैसी वो टेक्स्-ओनली इनपुट पर करता है. इसके अलावा, इसे टेस्ट-टाइम तकनीकों के साथ आगे बढ़ाया जा सकता है, जो टेक्स्ट-ओनली लैंग्वेज मॉडल के लिए डेवेलप की गई थीं, जिसमें कुछ-शॉट और चेन-ऑफ़-थॉट(एक नई विंडो में खुलेगा) प्रॉम्प्टिंग शामिल हैं. इमेज इनपुट अभी भी एक रिसर्च प्रीव्यू हैं और सार्वजनिक रूप से उपलब्ध नहीं हैं.

लोड किया जा रहा है...

हम स्टैंडर्ड अकादमिक विज़न बेंचमार्क्स के एक संकीर्ण समूह पर इसका मूल्यांकन करके GPT‑4 के परफ़ॉर्मेंस का प्रीव्यू करते हैं. हालांकि, ये संख्याएं इसकी क्षमताओं की सीमा को पूरी तरह से नहीं दर्शाती हैं क्योंकि हम लगातार नए और रोमांचक कार्यों की खोज कर रहे हैं जिन्हें मॉडल पूरा करने में सक्षम है. हम जल्द ही आगे की एनालिसिस और मूल्यांकन संख्याएं जारी करने का प्लान कर रहे हैं, साथ ही टेस्ट-टाइम तकनीकों के प्रभाव की गहन जांच भी जारी करेंगे.

आंतरिक फ़ुटनोटA

लोड किया जा रहा है...

संचालन क्षमता

हम AI के व्यवहार को परिभाषित करने के बारे में अपनी पोस्ट में उल्लिखित प्लान के प्रत्येक पहलू पर काम कर रहे हैं, जिसमें संचालन क्षमता भी शामिल है. एक फ़िक्स्ड वर्बोसिटी, लहज़े, और स्टाइल के साथ क्लासिक ChatGPT पर्सनालिटी के बजाय, डेवलपर्स (और जल्द ही ChatGPT यूज़र्स) अब "सिस्टम" मेसेज में उन निर्देशों का वर्णन करके अपने AI की स्टाइल और टास्क को निर्धारित कर सकते हैं. सिस्टम मेसेज API यूज़र्स को सीमाओं के अंदर(एक नई विंडो में खुलेगा) अपने यूज़र्स के अनुभव को महत्वपूर्ण तरीके से कस्टमाइज़ करने में मदद करते हैं. हम यहां सुधार करते रहेंगे (और ख़ास तौर से जानते हैं कि सिस्टम मेसेज मौजूदा मॉडल को "जेलब्रेक" करने का सबसे आसान तरीका है, यानी, सीमाओं का पालन सही नहीं है), लेकिन हम आपको इसे आज़माने के लिए प्रोत्साहित करते हैं और हमें बताएं कि आप क्या सोचते हैं.

लोड किया जा रहा है...

सीमाएं

अपनी क्षमताओं के बावजूद, GPT‑4 में पहले के GPT मॉडल्स जैसी ही सीमाएं हैं. सबसे ज़रूरी बात ये है कि ये अभी भी पूरी तरह से भरोसेमंद नहीं है (ये तथ्यों को “भ्रमित” करता है और रीज़निंग से जुड़े एरर करता है). लैंग्वेज मॉडल आउटपुट का इस्तेमाल करते समय, ख़ास तौर से हाई-स्टेक वाले रेफ़रेंसेस में, बहुत सावधानी बरतनी होगी, और सटीक प्रोटोकॉल (जैसे कि मानवीय समीक्षा, अतिरिक्त संदर्भ के साथ ग्राउंडिंग, या हाई-स्टेक वाले इस्तेमालों से पूरी तरह बचना) को किसी ख़ास यूज़-केस की ज़रूरतों से मैच करते हुए इस्तेमाल करना चाहिए.

हालांकि अभी भी ये एक असली मुद्दा है, लेकिन GPT‑4 पिछले मॉडल्स के मुकाबले मतिभ्रम को काफ़ी हद तक कम करता है (जो खुद प्रत्येक इटरेशन के साथ बेहतर होते जा रहे हैं). हमारे आंतरिक प्रतिकूल तथ्यात्मक मूल्यांकन पर GPT‑4 का स्कोर हमारे लेटेस्ट GPT‑3.5 से 40% ज़्यादा है:

लोड किया जा रहा है...

हमने TruthfulQA जैसे बाहरी बेंचमार्क पर प्रोग्रेस की है, जो तथ्य को प्रतिकूल तौर पर चयनित गलत कथनों के समूह से अलग करने की मॉडल की क्षमता का टेस्ट करता है. इन सवालों के साथ तथ्यात्मक रूप से गलत जवाब दिए जाते हैं, जो सांख्यिकीय तौर पर आकर्षक होते हैं.

लोड किया जा रहा है...

GPT‑4 बेस मॉडल इस टास्क में GPT‑3.5 के मुकाबले सिर्फ़ थोड़ा बेहतर है; हालांकि, RLHF पोस्ट-ट्रेनिंग के बाद (उसी प्रक्रिया को लागू करते हुए जिसे हमने GPT‑3.5 के साथ इस्तेमाल किया था) एक बड़ा अंतर है. नीचे दिए गए कुछ उदाहरणों की जांच करने पर, GPT‑4 सामान्य कहावतों का चयन करने से बचता है (आप एक पुराने कुत्ते को नई चाल नहीं सिखा सकते हैं), हालांकि ये अभी भी सूक्ष्म विवरणों को याद कर सकता है (एल्विस प्रेस्ली एक अभिनेता का बेटा नहीं था).

लोड किया जा रहा है...

मॉडल के आउटपुट में विभिन्न पक्षपात हो सकते हैं—हमने इन पर प्रोग्रेस की है लेकिन अभी भी बहुत कुछ करना बाकी है. हमारे हालिया ब्लॉग पोस्ट के अनुसार, हमारा लक्ष्य है कि हम जो AI सिस्टम बनाएं, उनमें उचित डिफ़ॉल्ट बिहेवियर हो जो यूज़र्स के मूल्यों के एक बड़े हिस्से को प्रतिबिंबित करे, उन सिस्टम को व्यापक सीमाओं के अंदर अनुकूलित करने की अनुमति दे, और उन सीमाओं के बारे में सार्वजनिक इनपुट प्राप्त करे.

GPT‑4 में आम तौर पर उन घटनाओं के बारे में जानकारी की कमी होती है जो इसके ज़्यादातर डेटा कट ऑफ़ (सितंबर 2021) के बाद घटित हुई हैं, और ये अपने अनुभव से सीखता नहीं है. ये कभी-कभी सिंपल रीज़निंग संबंधी एरर कर सकता है, जो कई क्षेत्रों में दक्षता के अनुरूप नहीं लगती हैं, या ये यूज़र्स के स्पष्ट झूठे बयानों को बेहद आसानी से मंज़ूर कर लेता है. और कभी-कभी ये मुश्किल समस्याओं में भी उसी तरह फ़ेल हो सकता है जिस तरह मनुष्य फ़ेल होते हैं, जैसे कि इसके द्वारा निर्मित कोड में सुरक्षा कमजोरियां उत्पन्न करना.

GPT‑4 अपने पूर्वानुमानों में भी पूरी तरह गलत हो सकता है, तथा जब गलती होने की संभावना होती है तो काम की दोबारा-जांच करने का ध्यान नहीं रखता. दिलचस्प बात ये है कि बेस पूर्व-प्रशिक्षित मॉडल बहुत ज़्यादा कैलिब्रेटेड है (किसी जवाब में इसकी अनुमानित विश्वसनीयता आम तौर पर सही होने की संभावना से मैच करती है). हालांकि, हमारी मौजूदा ट्रेनिंग-पश्चात प्रक्रिया के ज़रिये, कैलिब्रेशन कम हो गया है.

लोड किया जा रहा है...

जोखिम एवं निवारण

हम ट्रेनिंग की शुरुआत से ही GPT‑4 को ज्यादा सुरक्षित और ज़्यादा सुसंगत बनाने के लिए उस पर काम कर रहे हैं, जिसमें पूर्व-ट्रेनिंग डेटा का चयन और फ़िल्टरिंग, मूल्यांकन और विशेषज्ञ संलग्नता, मॉडल सुरक्षा सुधार, और मॉनिटर करना और प्रवर्तन शामिल हैं.

GPT‑4 में भी पिछले मॉडल्स की तरह ही जोखिम हैं, जैसे हानिकारक सलाह, बग वाला कोड या गलत जानकारी जनरेट करना. हालांकि, GPT‑4 की अतिरिक्त क्षमताएं नए जोखिम सतहों को जन्म देती हैं. इन जोखिमों की सीमा को समझने के लिए, हमने मॉडल का प्रतिकूल टेस्ट करने के लिए AI अलाइनमेंट जोखिम, साइबरसिक्योरिटी, जैव जोखिम, भरोसा और सुरक्षा, और अंतर्राष्ट्रीय सुरक्षा जैसे क्षेत्रों के 50 से ज़्यादा एक्सपर्ट्स को शामिल किया. उनके निष्कर्षों ने हमें ख़ास तौर से उच्च-जोखिम वाले क्षेत्रों में मॉडल बिहेवियर का टेस्ट करने में सक्षम बनाया, जिनके मूल्यांकन के लिए विशेषज्ञता की ज़रुरत होती है. इन एक्सपर्ट्सञों से प्राप्त फ़ीडबैक और डेटा ने मॉडल के लिए हमारे शमन और सुधारों में योगदान दिया; जैसे कि, हमने खतरनाक केमिकलस के संश्लेषण के बारे में अनुरोधों को अस्वीकार करने की GPT‑4 की क्षमता में सुधार करने के लिए अतिरिक्त डेटा जमा किया है.

GPT‑4, RLHF ट्रेनिंग के दौरान एक अतिरिक्त सुरक्षा पुरस्कार संकेत को सम्मिलित करता है, ताकि मॉडल को ऐसे कंटेंट के लिए अनुरोधों को अस्वीकार करने के लिए ट्रेन करके हानिकारक आउटपुट (जैसा कि हमारे इस्तेमाल के दिशानिर्देशों(एक नई विंडो में खुलेगा) द्वारा परिभाषित किया गया है) को कम किया जा सके. ये पुरस्कार GPT‑4 ज़ीरो-शॉट क्लासिफ़ायर द्वारा प्रदान किया जाता है, जो सुरक्षा-संबंधी संकेतों पर सुरक्षा सीमाओं और पूर्णता शैली का आंकलन करता है. मॉडल को वैध अनुरोधों को अस्वीकार करने से रोकने के लिए, हम विभिन्न स्रोतों (जैसे, लेबल किए गए उत्पादन डेटा, मानव रेड-टीमिंग, मॉडल-जनरेटेड प्रॉम्प्ट) से एक विविध डेटासेट जमा करते हैं और अनुमत व अस्वीकृत दोनों श्रेणियों पर सुरक्षा पुरस्कार संकेत (सकारात्मक या नकारात्मक मूल्य के साथ) लागू करते हैं. 

हमारे शमन उपायों ने GPT‑3.5 के मुकाबले GPT‑4 के कई सुरक्षा गुणों में महत्वपूर्ण सुधार किया है. हमने GPT‑3.5 के मुकाबले अस्वीकृत कंटेंटरी के अनुरोधों पर प्रतिक्रिया देने की मॉडल की प्रवृत्ति को 82% तक कम कर दिया है, और GPT‑4 हमारी नीतियों के अनुसार संवेदनशील अनुरोधों (जैसे, चिकित्सा सलाह और आत्म-क्षति) पर 29% ज़्यादा बार प्रतिक्रिया करता है.

लोड किया जा रहा है...
लोड किया जा रहा है...

कुल मिलाकर, हमारे मॉडल-स्तरीय हस्तक्षेप से बुरे व्यवहार को उजागर करने की मुश्किल बढ़ जाती है, लेकिन ऐसा करना अभी भी मुमकिन है. इसके अतिरिक्त, अभी भी ऐसे कंटेंट जनरेट करने के लिए "जेलब्रेक" मौजूद हैं जो हमारे इस्तेमाल के दिशानिर्देशों का उल्लंघन करते हैं. जैसे-जैसे AI सिस्टम्स का "प्रति टोकन जोखिम" बढ़ता है, इन हस्तक्षेपों में भरोसे के अत्यंत उच्च स्तर को प्राप्त करना ज़रूरी हो जाएगा; अभी के लिए दुरुपयोग की निगरानी जैसी तैनाती-समय सुरक्षा तकनीकों के साथ इन सीमाओं को पूरा करना ज़रूरी है.

GPT‑4 और उसके परवर्ती मॉडल्स में समाज को लाभकारी और हानिकारक दोनों तरीकों से महत्वपूर्ण रूप से प्रभावित करने की क्षमता है. हम संभावित प्रभावों को समझने और उनका आंकलन करने के तरीके में सुधार लाने के लिए बाहरी शोधकर्ताओं के साथ सहयोग कर रहे हैं, साथ ही भावी सिस्टम्स में उभरने वाली खतरनाक क्षमताओं के लिए मूल्यांकन भी कर रहे हैं. हम जल्द ही GPT‑4 और अन्य AI सिस्टम्स के संभावित सामाजिक और आर्थिक प्रभावों पर अपने विचार साझा करेंगे.

ट्रेनिंग प्रोसेस

पिछले GPT मॉडल की तरह, GPT‑4 बेस मॉडल को डॉक्यूमेंट में अगले शब्द की भविष्यवाणी करने के लिए ट्रेन किया गया था, और इसे सार्वजनिक रूप से उपलब्ध डेटा (जैसे इंटरनेट डेटा) के साथ-साथ हमारे द्वारा लाइसेंस प्राप्त डेटा का इस्तेमाल करके ट्रेन किया गया था. ये डेटा एक वेब-स्केल डेटा संग्रह है जिसमें गणितीय समस्याओं के सही और गलत समाधान, कमज़ोर और मज़बूत तर्क, आत्म-विरोधाभासी और सुसंगत कथन शामिल हैं, और ये विभिन्न विचारधाराओं और विचारों का प्रतिनिधित्व करता है.

इसलिए जब कोई सवाल पूछा जाता है, तो बेस मॉडल कई प्रकार से जवाब दे सकता है जो यूज़र के इरादे से बहुत दूर हो सकता है. गार्डरेल के अंदर यूज़र्स के इरादे के साथ इसे अलाइन करने के लिए, हम मानव प्रतिक्रिया (RLHF) के साथ रीइंफ़ोर्समेंट लर्निंग का इस्तेमाल करके मॉडल के बिहेवियर को ठीक करते हैं.

ध्यान दें कि मॉडल की क्षमताएं मुख्य रूप से पूर्व-ट्रेनिंग प्रक्रिया से आती हैं—RLHF परीक्षा प्रदर्शन में सुधार नहीं करता है (सक्रिय प्रयास के बिना, ये वास्तव में इसे खराब करता है). लेकिन मॉडल का संचालन ट्रेनिंग के बाद की प्रक्रिया से होता है—बेस मॉडल को ये जानने के लिए भी प्रॉम्प्ट इंजीनियरिंग की ज़रुरत पड़ती है कि उसे सवालों का जवाब देना चाहिए या नहीं.

पूर्वानुमान योग्य स्केलिंग

GPT‑4 प्रोजेक्ट का मुख्य फ़ोकस एक ऐसे डीप लर्निंग स्टैक का निर्माण करना रहा है, जो पूर्वानुमानित रूप से बढ़ता जाए. इसका मुख्य कारण ये है कि, GPT‑4 जैसे बहुत बड़े ट्रेनिंग रनों के लिए, व्यापक मॉडल-विशिष्ट ट्यूनिंग करना मुमकिन नहीं है. हमने ऐसा इंफ़्रास्ट्रक्चर और अनुकूलन विकसित किया है जिसका विभिन्न स्तरों पर व्यवहार बहुत पूर्वानुमानित है. इस मापनीयता को वेरिफ़ाई करने के लिए, हमने उसी पद्धति का इस्तेमाल करके प्रशिक्षित किए गए मॉडल्स से एक्सट्रापोलेशन करके, लेकिन 10,000x कम गणना का इस्तेमाल करके, हमारे इंटर्नल कोडबेस (ट्रेनिंग सेट का हिस्सा नहीं) पर GPT‑4 के अंतिम नुकसान की सटीक भविष्यवाणी की:

लोड किया जा रहा है...

अब जबकि हम ट्रेनिंग के दौरान अनुकूलित मीट्रिक का सटीक पूर्वानुमान लगा सकते हैं (हानि), हम ज्यादा व्याख्या योग्य मीट्रिक का पूर्वानुमान लगाने के लिए कार्यप्रणाली विकसित करना शुरू कर रहे हैं. जैसे कि, हमने 1,000x कम गणना वाले मॉडल से अनुमान लगाते हुए, HumanEval(एक नई विंडो में खुलेगा) डेटासेट के एक उपसमूह पर उत्तीर्ण दर का सफ़लतापूर्वक पूर्वानुमान लगाया:

लोड किया जा रहा है...

कुछ क्षमताओं का पूर्वानुमान लगाना अभी भी मुश्किल है. जैसे कि, इनवर्स स्केलिंग प्राइज़ एक ऐसी मीट्रिक खोजने की प्रतियोगिता थी जो मॉडल गणना बढ़ने के साथ खराब होती जाती है, और पश्चदृष्टि उपेक्षा(एक नई विंडो में खुलेगा) विजेताओं में से एक थी. एक अन्य हालिया परिणाम(एक नई विंडो में खुलेगा) की तरह, GPT‑4 भी ट्रेंड को उलट देता है:

लोड किया जा रहा है...

हमारा मानना ​​है कि भविष्य की मशीन लर्निंग क्षमताओं का सटीक अनुमान लगाना सुरक्षा का एक अहम हिस्सा है, जिस पर इसके संभावित प्रभाव के सापेक्ष पर्याप्त ध्यान नहीं दिया जाता है (हालांकि हम कई संस्थानों के प्रयासों से प्रोत्साहित हुए हैं). हम ऐसे तरीकों को विकसित करने के लिए अपने प्रयासों को बढ़ा रहे हैं जो समाज को भविष्य के सिस्टम्स से क्या अपेक्षा की जाए, इस बारे में बेहतर गाइडेंस प्रदान करें, और हम आशा करते हैं कि ये इस क्षेत्र में एक साझा लक्ष्य बन जाएगा.

OpenAI Evals

हम OpenAI Evals(एक नई विंडो में खुलेगा) को ओपन-सोर्स कर रहे हैं, जो GPT‑4 जैसे मॉडल्स के मूल्यांकन के लिए बेंचमार्क बनाने और चलाने के लिए हमारा सॉफ़्टवेयर फ़्रेमवर्क है, जबकि सैंपल के आधार पर उनके परफ़ॉर्मेंस का निरीक्षण किया जाता है. हम अपने मॉडल्स के विकास को निर्देशित करने के लिए Evals का इस्तेमाल करते हैं (कमियों की पहचान करने और प्रतिगमन को रोकने के लिए), और हमारे यूज़र्स इसे मॉडल वर्ज़न में प्रदर्शन को ट्रैक करने के लिए लागू कर सकते हैं (जो अब नियमित रूप से सामने आएंगे) और प्रोडक्ट इंटीग्रेशन्स विकसित कर सकते हैं. जैसे कि, Stripe ने अपने GPT‑संचालित डॉक्यूमेंटेशन टूल की सटीकता को मापने के लिए अपने मानवीय मूल्यांकन को पूरक बनाने के लिए Evals का इस्तेमाल किया है.

क्योंकि कोड पूरा ओपन-सोर्स है, इसलिए Evals कस्टम मूल्यांकन लॉजिक(एक नई विंडो में खुलेगा) को लागू करने के लिए नई क्लासेस लिखने को सपोर्ट करता है. हालांकि, हमारे अपने अनुभव में, कई बेंचमार्क कुछ "टेम्प्लेट" में से एक को फ़ॉलो करते हैं, इसलिए हमने उन टेम्प्लेट्स को भी शामिल किया(एक नई विंडो में खुलेगा) है जो आंतरिक रूप से सबसे फ़ायदेमंद रहे हैं (जिसमें "मॉडल-ग्रेडेड evals" के लिए एक टेम्प्लेट भी शामिल है—हमने पाया है कि GPT‑4 बेहतरीन तरीके से अपने काम की जांच कर सकता है). आम तौर पर एक नया eval बनाने(एक नई विंडो में खुलेगा) का सबसे प्रभावी तरीका डेटा प्रदान करने के साथ-साथ इनमें से किसी एक टेम्पलेट को इंस्टेंट बनाना होगा. हम ये देखने के लिए उत्साहित हैं कि अन्य लोग इन टेम्पलेट्स और सामान्य तौर पर Evals के साथ क्या बना सकते हैं.

हम आशा कर रहे हैं कि Evals बेंचमार्क को साझा करने और क्राउडसोर्स करने का माध्यम बनेगा, जो विफ़लता के तरीकों और मुश्किल टास्क के एक व्यापक सेट का प्रतिनिधित्व करेगा. फ़ॉलो करने के लिए एक उदाहरण के तौर पर, हमने एक लॉजिक पज़ल्स(एक नई विंडो में खुलेगा) eval बनाया है जिसमें दस प्रॉम्प्ट्स हैं जहां GPT‑4 फ़ेल हो जाता है. Evals मौजूदा बेंचमार्क को लागू करने के साथ भी संगत है; हमने अकादमिक बेंचमार्क को लागू करने वाले कई नोटबुक्स और उदाहरण के तौर पर (एक नई विंडो में खुलेगा)CoQA(एक नई विंडो में खुलेगा) (छोटे सबसेट्स) को इंटीग्रेट करने के कुछ बदलाव शामिल किए हैं.

हम सभी को हमारे मॉडल्स को टेस्ट करने और सबसे दिलचस्प उदाहरण सबमिट करने के लिए Evals का इस्तेमाल करने के लिए आमंत्रित करते हैं. हमारा मानना ​​है कि Evals हमारे मॉडल्स के इस्तेमाल और निर्माण की प्रक्रिया का एक अभिन्न अंग होगा, और हम प्रत्यक्ष योगदान, सवाल, और फ़ीडबैक(एक नई विंडो में खुलेगा) का स्वागत करते हैं.

ChatGPT Plus

ChatGPT Plus सब्सक्राइबर्स को chatgpt.com(एक नई विंडो में खुलेगा) पर एक इस्तेमाल की सीमा के साथ GPT‑4 के लिए एक्सेस मिलेगी. हम डिमांड और व्यवहार में सिस्टम के परफ़ॉर्मेंस के आधार पर सटीक इस्तेमाल की सीमा को एडजस्ट करेंगे, लेकिन हमें लगता है कि क्षमता पर गंभीर प्रतिबंध होगा (हालांकि हम आगामी महीनों में इसका विस्तार और अनुकूलन करेंगे).

हमारे द्वारा देखे जाने वाले ट्रैफ़िक पैटर्न के आधार पर, हम उच्च-मात्रा वाले GPT‑4 इस्तेमाल के लिए एक नया सदस्यता स्तर पेश कर सकते हैं; हम यह भी आशा करते हैं कि कुछ समय में हम कुछ मात्रा में मुफ़्त GPT‑4 क्वेरीज़ की पेशकश कर सकें, ताकि बिना सब्सक्रिप्शन वाले लोग भी इसे आज़मा सकें.

API

GPT‑4 API (जो gpt-3.5-turbo के समान ChatCompletions API(एक नई विंडो में खुलेगा) का इस्तेमाल करता है) के लिए एक्सेस प्राप्त करने के लिए, कृपया हमारी प्रतीक्षा सूची के लिए साइन अप करें. हम आज से कुछ डेवलपर्स को आमंत्रित करना शुरू करेंगे, और डिमांड के साथ क्षमता का संतुलन बनाए रखने के लिए धीरे-धीरे इसे आगे बढ़ाएंगे. अगर आप AI या AI अलाइनमेंट मुद्दों के सामाजिक प्रभाव का अध्ययन करने वाले शोधकर्ता हैं, तो आप हमारे शोधकर्ता पहुंच कार्यक्रम के ज़रिये सब्सिडी वाली एक्सेस के लिए भी आवेदन कर सकते हैं.

एक बार जब आपके पास एक्सेस हो जाती है, तो आप gpt-4 मॉडल (इमेज इनपुट अभी भी सीमित अल्फ़ा में हैं) के लिए सिर्फ़ टेक्स्ट अनुरोध कर सकते हैं, जिसे हम समय के साथ नए वर्ज़न बनाते समय अपने आप हमारे सुझाए गए स्थिर मॉडल में अपडेट कर देंगे (आप gpt-4-0314 पर कॉल करके मौजूदा वर्ज़न को पिन कर सकते हैं, जिसे हम 14 जून तक सपोर्ट करेंगे). क़ीमत प्रति 1k प्रॉम्प्ट टोकन $0.03 और प्रति 1k पूर्णता टोकन $0.06 है. डिफ़ॉल्ट दर सीमा 40k टोकन प्रति मिनट और 200 अनुरोध प्रति मिनट है.

gpt-4 की संदर्भ लंबाई 8,192 टोकन है. हम अपने 32,768-संदर्भ (लगभग 50 पेज का टेक्स्ट) वर्ज़न, gpt-4-32k तक भी सीमित एक्सेस प्रदान कर रहे हैं, जिसे समय के साथ अपने आप अपडेट किया जाएगा (मौजूदा वर्ज़न gpt-4-32k-0314, 14 जून तक भी समर्थित है). क़ीमत प्रति 1K प्रॉम्प्ट टोकन $0.06 और प्रति 1k पूर्णता टोकन $0.12 है. हम अभी भी लंबे संदर्भ के लिए मॉडल की गुणवत्ता में सुधार कर रहे हैं और इस पर फ़ीडबैक प्राप्त करना चाहेंगे कि ये आपके यूज़-केस के लिए कैसा परफ़ॉर्म करता है. हम क्षमता के आधार पर 8K और 32K इंजन के लिए अनुरोधों पर अलग-अलग दरों पर कार्रवाई कर रहे हैं, इसलिए आपको अलग-अलग समय पर उन के लिए एक्सेस मिल सकती है.

निष्कर्ष

हम आशा करते हैं कि GPT‑4 अनेक ऐप्लिकेशन्स को सशक्त बनाकर लोगों के जीवन को बेहतर बनाने में एक कीमती टूल बनेगा. अभी भी बहुत काम किया जाना बाकी है, और हम समुदाय के सामूहिक प्रयासों के ज़रिये इस मॉडल को बेहतर बनाने, एक्सप्लोर करने और इसमें योगदान देने के लिए तत्पर हैं.

एपेंडिक्स

MMLU सवालों के उदाहरण, अन्य भाषाओं में अनुवादित. ध्यान दें, हम सुसंगत विकल्प टोकन (A-D) का इस्तेमाल करते हैं:

लोड किया जा रहा है...

फ़ुटनोट

  1. A

    हम इस बेंचमार्क एवल्युएशन कॉन्टेक्स्ट ट्रेनिंग सेट से 4 उदाहरणों के साथ Chain-of-Thought प्रॉम्प्टिंग का इस्तेमाल करके करते हैं. ख़ास प्रॉम्प्ट को वैलिडेशन सेट पर ट्यून किया गया था.

रेफ़रेंस

  1. 1

    P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). आगे की एनालिसिस पेपर में(एक नई विंडो में खुलेगा) उपलब्ध है.

लेखक

OpenAI