सोशल साइंस रिसर्च को स्केल करना
एक नया टूल जो रिसर्चर्स को क्वालिटेटिव डेटा को ऐसे नंबरों में बदलने में मदद करता है जिन्हें वे एनालाइज़ कर सकें.
OpenAI में हमारे काम का एक मुख्य हिस्सा यह है कि हम साइंटिस्ट्स को तेज़ी से आगे बढ़ने और मुश्किल समस्याएं हल करने में सक्षम बनाएं. आज हमारी इकोनॉमिक रिसर्च टीम GABRIEL रिलीज़ कर रही है: एक ओपन‑सोर्स टूलकिट जो GPT का इस्तेमाल करके अनस्ट्रक्चर्ड टेक्स्ट और इमेज को क्वांटिटेटिव मेज़रमेंट्स में बदलता है. इसे इकॉनॉमिस्ट्स, सोशल साइंटिस्ट्स और डेटा साइंटिस्ट्स के लिए डिज़ाइन किया गया है, ताकि वे बड़े पैमाने पर क्वालिटेटिव डेटा का अध्ययन कर सकें.
क्वालिटेटिव डेटा दुनिया की सबसे गहरी कहानियां बताता है—लोग क्या कहते हैं, लिखते हैं, सिखाते हैं, बहस करते हैं और अनुभव करते हैं. इसमें सिलेबस और इंटरव्यू से लेकर सोशल मीडिया और तस्वीरें तक सब कुछ शामिल है. इसका बहुत बड़ा भंडार है. लेकिन इस तरह के डेटा को पुख्ता सबूत में बदलने में बहुत ज़्यादा समय लगता है. अक्सर तो यह संभव ही नहीं होता. बहुत से मामलों में, सोशल साइंटिस्ट्स को रिसर्च के ज़रूरी विषय छोड़ने पड़ते हैं, इसलिए नहीं कि डेटा मौजूद नहीं है, बल्कि इसलिए कि उसका एनालिसिस करना लगभग नामुमकिन होता है.
GABRIEL को इसलिए बनाया गया है, ताकि क्वालिटेटिव डेटा को एक्सेस करना कहीं ज़्यादा आसान बनाया जा सके. इससे रिसर्चर्स को आम बोलचाल की भाषा में यह बताने की सुविधा मिलती है कि वे क्या मापना चाहते हैं—जैसे "यह जॉब लिस्टिंग कितनी फै़मिली‑फ़्रेंडली है?"—और फिर वही सवाल हज़ारों (या लाखों) डॉक्यूमेंट्स पर एक जैसा लागू किया जाता है और हर डॉक्यूमेंट के लिए एक स्कोर मिलता है. इससे रिसर्चर्स बार-बार की जाने वाली डेटा लेबलिंग पर कम समय लगाकर उस काम पर ज़्यादा ध्यान दे सकते हैं जिसमें सच में एक्सपर्टीज़ की ज़रूरत होती है: यह चुनना कि क्या मापना है, रिज़ल्ट्स को वैलिडेट करना और सोच‑समझकर निष्कर्ष निकालना.
उदाहरण के लिए, GABRIEL साइंटिफ़िक पेपर्स के बड़े कलेक्शन का एनालिसिस करके यह पता लगा सकता है कि कौन‑कौन से मेथड इस्तेमाल हो रहे हैं और समय के साथ वे कैसे बदलते हैं. यह कोर्स करिकुला को देखकर माप सकता है कि अलग‑अलग सब्जेक्ट्स या स्किल्स पर कितना ध्यान दिया जा रहा है. यह पूरे यूरोप के हर छोटे शहर के लिए स्ट्रक्चर्ड हिस्टोरिकल डीटेल्स निकाल सकता है या फिर कस्टमर रिव्यूज़ के बड़े सेट को देखकर यह पता लगा सकता है कि लोग किन चीज़ों को सबसे ज़्यादा महत्व देते हैं. हमारे पेपर(एक नई विंडो में खुलेगा) में, हम कई तरह के यूज़ केस में क्वालिटेटिव डेटा को लेबल करने में GPT की परफ़ॉर्मेंस की तुलना बेंचमार्क करते हैं और पाते हैं कि यह काफ़ी सटीक है.
इस तरह के मेज़रमेंट के अलावा, GABRIEL ऐसे प्रैक्टिकल टूल्स भी देता है जिनकी रिसर्चर्स को अक्सर ज़रूरत पड़ती है. इनमें शामिल हैं: डेटासेट्स को मर्ज करना, भले ही कॉलम मैच न करते हों; स्मार्ट डी-डुप्लिकेशन; पैसेज कोडिंग; नई साइंटिफ़िक थ्योरीज़ पर आइडिया देना; और प्राइवेसी बनाए रखने के लिए, व्यक्ति की पहचान बताने वाली जानकारी को टेक्स्ट से हटाना.
GABRIEL अब ओपन‑सोर्स Python लाइब्रेरी(एक नई विंडो में खुलेगा) के रूप में उपलब्ध है और शुरुआत करने के लिए एक ट्यूटोरियल नोटबुक(एक नई विंडो में खुलेगा) भी है. इसे इस तरह डिज़ाइन किया गया है कि बेहद कम टेक्निकल जानकारी होने पर भी इसे इस्तेमाल किया जा सके. हम समय के साथ अकादमिक कम्युनिटी से मिलने वाले फ़ीडबैक के आधार पर GABRIEL को बेहतर बनाते रहेंगे. हमें उम्मीद है कि इस टूल की मदद से ज़्यादा से ज़्यादा रिसर्चर्स क्वालिटेटिव डेटा और इंसानी कहानियों की गहराई को अपने काम में शामिल कर पाएंगे.


