असली दुनिया के टास्क पर हमारे मॉडल्स के परफ़ॉर्मेंस को मापना
हम GDPval नाम का एक नया इवैल्यूएशन पेश कर रहे हैं, जो 44 व्यवसायों में आर्थिक तौर पर कीमती, असली दुनिया के टास्क पर मॉडल के परफ़ॉर्मेंस को मापता है.
हमारा मिशन इस बात को पक्का करना है कि आर्टिफ़िशियल जेनरल इंटेलिजेंस का फ़ायदा पूरी मानवता को मिले. अपने मिशन के एक हिस्से के तौर पर, हम ट्रांसपेरेंट तरीके से इस पर प्रोग्रेस बताना चाहते हैं कि कैसे AI मॉडल असली दुनिया में लोगों की मदद कर सकते हैं. इसीलिए हम GDPval की शुरुआत कर रहे हैं: ये एक नया इवैल्यूएशन है जो हमें ये ट्रैक करने में मदद करेगा कि हमारे मॉडल और दूसरे आर्थिक तौर पर कीमती, असली दुनिया के टास्क पर कितना अच्छा परफ़ॉर्म करते हैं. हम इस इवैल्यूएशन को GDPval कहते हैं, क्योंकि हमने एक अहम इकॉनोमिक इंडिकेटर के तौर पर कुल घरेलू उत्पाद (GDP) के कॉन्सेप्टट से शुरुआत की और GDP में सबसे ज़्यादा योगदान देने वाली इंडस्ट्रीज़ के मुख्य व्यवसायों से टास्क लिए.
लोग अक्सर समाज पर AI के बड़े पैमाने पर असर के बारे में अटकलें लगाते हैं, लेकिन इसकी क्षमता को समझने का सबसे क्लियर तरीका ये है कि हम देखें कि मॉडल्स पहले से क्या करने में कैपेबल हैं. इतिहास दिखाता है कि प्रमुख टेक्नोलॉजियों—इंटरनेट से लेकर स्मार्फ़ोन तक—के आविष्कार से लेकर बड़े पैमाने पर अपनाए जाने तक में एक दशक से भी ज़्यादा का समय लग गया. GDPval जैसे इवैल्यूएशन, अनुमान के बजाय सबूत के आधार पर भविष्य में AI में सुधार के बारे में बातचीत को बढ़ावा देने में मदद करते हैं, और समय के साथ मॉडल में सुधार को ट्रैक करने में हमारी मदद कर सकते हैं.
चुनौतीपूर्ण अकादमिक टेस्ट और प्रतिस्पर्धी कोडिंग चैलेंजों जैसे पिछले AI इवैल्यूएशन मॉडल रीज़निंग कैपेबिलिटीज़ की सीमाओं को आगे बढ़ाने में ज़रूरी रहे हैं, लेकिन वे अक्सर उन टास्क से पीछे रह जाते हैं जिन्हें कई लोग अपने रोज़मर्रा के काम में हैंडल करते हैं.
इस अंतर को पाटने के लिए, हम ऐसे इवैल्यूएशन्स डेवलप कर रहे हैं जो ज़्यादा से ज़्यादा रीयलिस्टिक और इकॉनोमिक तौर पर सही कैपेबिलिटीज़ को मापते हैं. ये प्रोग्रेस क्लासिक अकादमिक बेंचमार्क्स जैसे MMLU (दर्जनों विषयों में एग्ज़ाम-स्टाइल के सवालों) से आगे बढ़कर SWE-बेंच (सॉफ़्टवेयर इंजीनियरिंग बग-फ़िक्सिंग टास्क), MLE-बेंच (मॉडल ट्रेनिंग और एनैलिसिस जैसे मशीन लर्निंग इंजीनियरिंग टास्क) और पेपर-बेंच (रिसर्च पेपर्स पर साइंटिफ़िक रीज़निंग और आलोचना) जैसे ज़्यादा अप्लाइड इवैल्यूएशन्स तक पहुंच गई है, और हाल ही में SWE-लैंसर (असली पेआउट्स पर आधारित फ़्रीलान्स सॉफ़्टवेयर इंजीनियरिंग प्रोजेक्ट्स) जैसे मार्केट-बेस्ड इवैल्यूएशन्स तक पहुंच गई है.
GDPval उस प्रोग्रेस में अगला कदम है. ये अलग-अलग व्यवसायों और क्षेत्रों में अनुभवी प्रोफ़ेशनल्स के असली दुनिया के नॉलेज काम से सीधे प्राप्त टास्क पर मॉडल के परफ़ॉर्मेंस को मापता है, और आर्थिक तौर पर कीमती टास्क पर मॉडल के परफ़ॉर्मेंस के बारे में एक ज़्यादा क्लियर पिक्चर देता है. रीयलिस्टिक व्यावसायिक टास्क पर आधारित मॉडल्स का इवैल्यूएशन करने से हमें न सिर्फ़ ये समझने में मदद मिलती है कि वे लैब में कितना अच्छा परफ़ॉर्म करते हैं, बल्कि ये भी समझने में मदद मिलती है कि वे लोगों को उनके रोज़ाना के कामों में कैसे मदद कर सकते हैं.
GDPval, इस मूल्यांकन का पहला वर्ज़न, इसमें योगदान देने वाले टॉप 9 इंडस्ट्रीज़ से चुने गए 44 व्यवसायों पर आधारित है U.S. GDP. GDPval के फ़ुल सेट में 1,320 ख़ास टास्क (गोल्ड ओपन-सोर्स्ड सेट में 220) शामिल हैं, जिनमें से हरेक को इन फ़ील्ड्स में औसतन 14 सालों से ज़्यादा अनुभव वाले अनुभवी प्रोफ़ेशनल्स द्वारा सावधानीपूर्वक तैयार और जांचा गया है. हरेक टास्क असली वर्क प्रोडक्ट्स पर आधारित होता है, जैसे कि एक कानूनी ब्रीफ़, एक इंजीनियरिंग ब्लूप्रिंट, एक कस्टमर सपोर्ट की बातचीत, या एक नर्सिंग केयर प्लैन.
GDPval अपनी रियलिज़्म और इवैल्यूएट किए जा रहे टास्क की विविधता दोनों के कारण ख़ास है. इकॉनोमिक वैल्यू से जुड़े दूसरे इवैल्यूएशन्स के विपरीत, जो ख़ास डोमेन (जैसे, SWE-Lancer) पर फ़ोकस करते हैं, GDPval कई टास्क और व्यवसायों को कवर करता है. और बेंचमार्क के विपरीत, जिसमें अकादमिक एग्ज़ाम या टेस्ट (जैसे, ह्यूमैनिटीज़ लास्ट एग्ज़ाम या MMLU) की स्टाइल में बनावटी तौर पर बनाए गए टास्क शामिल है, GDPval उन डिलीवरेबल्स पर आधारित कार्यों पर फ़ोकस करता है जो या तो असली काम या मौजूदा प्रोडक्ट हैं, या फ़िर उसी तरह बनाए गए काम के नमूने हैं.
पुराने बेंचमार्क्स के विपरीत, GDPval काम आसान टेक्स्ट प्रॉम्प्ट्स नहीं हैं. इनमें रेफ़रेंस फ़ाइलों और कॉन्टेक्स्ट शामिल होते हैं, और अपेक्षित डिलीवरेबल्स में डॉक्यूमेंट्स, स्लाइड्स, डायग्राम, स्प्रेडशीट्स, और मल्टीमीडिया जैसे फ़ॉर्मैट होते हैं. यही रियलिज़्म, GDPval को इस बात का ज़्यादा रीयलिस्टिक टेस्ट बनाता है कि मॉडल्स कैसे प्रोफ़ेशनल्स को सपोर्ट कर सकते हैं.
GDPval एक शुरूआती कदम है जो कई इकॉनोमिक टास्क की पूरी बारीकियों को रिफ़्लेक्ट नहीं करता है. हालांकि ये 44 व्यवसायों और सैकड़ों नॉलेज टास्क को कवर करता है, ये एक बार के इवैल्यूएशन्स तक सीमित है, इसलिए ये उन मामलों को नहीं पकड़ता है जहां एक मॉडल को कॉन्टेक्स्ट बनाने या कई ड्राफ़्ट्स के ज़रिये सुधार करने की ज़रुरत पड़ेगी. फ़्यूचर वर्ज़न्स में असली दुनिया के नॉलेज टास्क की कॉम्प्लेक्सिटी को बेहतर तरीके से रिफ़्लेक्ट करने के लिए और ज़्यादा इंटरैक्टिव वर्कफ़्लोज़ और कॉन्टेक्स्ट से भरपूर टास्क शामिल किए जाएंगे (नीचे हमारे सीमाएं सेक्शन में और ज़्यादा जानकारी देखें).
GDPval 9 इंडस्ट्रीज़ और 44 व्यवसायों के टास्क को कवर करता है, और फ़्यूचर वर्ज़न्स इस कवरेज को बढ़ाना जारी रखेंगे. शुरूआती 9 इंडस्ट्रीज़ को अमेरिकी GDP में 5% से भी ज़्यादा योगदान देने वाली इंडस्ट्रीज़ के आधार पर किया गया था, जैसा कि St. Louis. के फ़ेडरल रिज़र्व बैंक के आंकड़ों द्वारा तय किया गया है. फ़िर, हमने मई 2024 के अमेरिकी श्रम सांख्यिकी ब्यूरो (BLS) व्यावसायिक रोज़गार रिपोर्ट(एक नई विंडो में खुलेगा) से मज़दूरी और रोज़गार डेटा का इस्तेमाल करते हुए, हरेक इंडस्ट्री के अंदर 5 व्यवसायों को चुना जो कुल मज़दूरी और मुआवज़े में सबसे ज़्यादा योगदान करते हैं और मुख्य तौर पर नॉलेज काम से जुड़े व्यवसाय हैं. ये तय करने के लिए कि क्या व्यवसाय मुख्य तौर पर नॉलेज से जुड़े काम थे, हमने O*NET(एक नई विंडो में खुलेगा) से टास्क डेटा का इस्तेमाल किया, जो अमेरिकी व्यावसायिक जानकारी का एक डेटाबेस है, जिसे अमेरिकी सरकार द्वारा स्पॉन्सर किया गया है. श्रम विभाग. हमने क्लासिफ़ाई किया कि O*NET में हरेक व्यवसाय के लिए हरेक टास्क नॉलेज वर्क था या फ़िज़िकल काम/मैन्युअल लेबर (जिसमें फ़िज़िकल दुनिया में कार्रवाई करने की ज़रुरत होती है). एक व्यवसाय को समग्र रूप से “आम तौर पर नॉलेज वर्क” के तौर पर योग्य माना जाता है अगर उसके कंपोनेंट टास्क में से कम से कम 60% को फ़िज़िकल काम या मैनुअल लेबर से संबंधित नहीं माना जाता है. हमने इस 60% सीमा को GDPval के पहले वर्ज़न के लिए एक स्टार्टिंग पॉइंट के तौर पर चुना, जिसमें उन व्यवसायों पर फ़ोकस किया गया जहां AI का असली दुनिया की प्रोडक्टिविटी पर सबसे ज़्यादा असर हो सकता है.
इस प्रोसेस से इंक्लूशन हेतु 44 व्यवसाय प्राप्त हुए.
रियल एस्टेट और किराया और पट्टे
कॉनसियर्ज़
प्रॉपर्टी, रियल एस्टेट, और कम्युनिटी एसोसिएशन मैनेजर्स
रियल एस्टेट सेल्स एजेंट्स
रियल एस्टेट ब्रोकर्स
काउंटर और रेंटल क्लर्क
सरकार
मनोरंजन कर्मी
कंप्लायंस ऑफ़िसर्स
पुलिस और जासूसों के फ़र्स्ट-लाइन सुपरवाइज़र्स
एडमिनिस्ट्रेटिव सर्विसेज़ मैनेजर्स
बाल, परिवार और स्कूल सामाजिक कार्यकर्ता
मैन्युफ़ैक्चरिंग
मैकेनिकल इंजीनियर्स
इंडस्ट्रियल इंजीनियर्स
खरीदार और परचेज़िंग एजेंट्स
शिपिंग, प्राप्ति, और इन्वेंट्री क्लर्क
प्रोडक्शन और ऑपरेटिंग वर्कर्स के फ़र्स्ट-लाइन वर्कर्स
प्रोफ़ेशनल, साइंटिफ़िक, और टेक्निकल सर्विसेज़
सॉफ़्टवेयर डेवलपर्स
वकील
अकाउंटेंट्स और ऑडिटर्स
कंप्यूटर और इन्फ़ॉर्मेशन मेनेजर्स
प्रोजेक्ट मैनेजमेंट स्पेशलिस्ट
हेल्थ केयर और सामाजिक सहायता
रजिस्टर्ड नर्सें
नर्स प्रैक्टिशनर्स
मेडिकल और हेल्थ सर्विसेज़ मैनेजर्स
ऑफ़िस और एडमिनिस्ट्रेटिव सपोर्ट वर्कर्स के फ़र्स्ट-लाइन सुपरवाइज़र्स
मेडिकल सेक्रेटरीज़ और एडमिनिस्ट्रेटिव असिस्टेंट्स
फ़ाइनेंस और इंश्योरेंस
कस्टमर सर्विस रिप्रेज़ेन्टेटिव्स
फ़ाइनेंशियल और इन्वेस्टमेंट एनैलिस्ट्स
फ़ाइनेंशियल मैनेजर्स
पर्सनल फ़ाइनेंशियल एडवाइज़र्स
सिक्यूरिटीज़, कमोडिटीज़ और फ़ाइनेंशियल सर्विसेज़ के सेल्स एजेंट्स
रिटेल ट्रेड
फ़ार्मासिस्ट
रिटेल सेल्स वर्कर्स के फ़र्स्ट-लाइन वर्कर्स
जनरल एवं ऑपरेशन्स मैनेजर्स
प्राइवेट जासूस और जांचकर्ता
थोक का काम
सेल्स मैनेजर्स
आर्डर क्लर्क
नॉन-रिटेल सेल्स वर्कर्स के फ़र्स्ट-लाइन वर्कर्स
सेल्स रिप्रेज़ेन्टेटिव्स, थोक और मैन्युफ़ैक्चरिंग, टेक्निकल और साइंटिफ़िक प्रोडक्ट्स को छोड़कर
सेल्स रिप्रेज़ेन्टेटिव्स, थोक और मैन्युफ़ैक्चरिंग, टेक्निकल और साइंटिफ़िक प्रोडक्ट्स
जानकारी
ऑडियो और वीडियो टेक्नीशियन्स
निर्माता और निर्देशक
न्यूज़ एनैलिस्ट, रिपोर्टर्स, और पत्रकार
फ़िल्म और वीडियो एडिटर्स
एडिटर्स
हरेक पेशे के लिए, हमने अनुभवी प्रोफ़ेशनल्स के साथ मिलकर ऐसे रिप्रेज़ेन्टेटिव टास्क तैयार किए जो उनके रोज़मर्रा के काम को रिफ़्लेक्ट करते हों. इन प्रोफ़ेशनल्स के पास औसतन 14 साल का अनुभव था, और विकास का उनका रिकार्ड भी मज़बूत था. हमने जानबूझकर—अलग-अलग क्षेत्रों के वकीलों और अलग-अलग साइज़ की फ़र्मों—जैसे एक्सपर्ट्स को भर्ती किया, ताकि रिप्रेज़ेन्टेटिवनेस को मैक्सिमाइज़ किया जा सके.
हरेक टास्क एक मल्टी-स्टेप रिव्यु प्रोसेस से गुज़रा, ताकि ये पक्का किया जा सके कि ये असली काम को रिप्रेज़ेंट करता है, किसी दूसरे प्रोफ़ेशनल के लिए पूरा करने लायक है, और इवैल्यूएशन के लिए क्लियर है. औसतन, हरेक टास्क को एक्सपर्ट रिव्यु के 5 राउंड्स मिले, जिसमें दूसरे टास्क राइटर्स, अतिरिक्त ऑक्यूपेशनल रिव्युअर्स, और मॉडल-बेस्ड वैलिडेशन द्वारा जांच शामिल थी.
तैयार किए गए डेटासेट में प्रति व्यवसाय 30 पूरी तरह से रिव्यु किए गए टास्क (फ़ुल-सेट) शामिल हैं, जिनमें से 5 टास्क हमारे ओपन-सोर्स गोल्ड सेट में प्रति व्यवसाय हैं, जो असली दुनिया के नॉलेज वर्क पर मॉडल के परफ़ॉर्मेंस का इवैल्यूएशन करने के लिए एक मज़बूत आधार प्रदान करता है.
GDPval टास्क के एग्ज़ाम्पल्स
प्रॉम्प्ट + टास्क कॉन्टेक्स्ट
सोचा-समझा ह्यूमन जवाब

GDPval टास्क पर मॉडल के परफ़ॉर्मेंस का इवैल्यूएशन करने के लिए, हम एक्सपर्ट "ग्रेडर्स" पर भरोसा करते हैं—जो डेटासेट में रिप्रेज़ेंट गए समान पेशों के अनुभवी प्रोफ़ेशनल्स का एक ग्रुप है. ये ग्रेडर्स मॉडल द्वारा तैयार किए गए टास्क की तुलना टास्क राइटर्स द्वारा तैयार किए गए टास्क से करते हैं (ये नहीं जानते कि कौन-सा AI द्वारा तैयार किया गया है और कौन-सा ह्यूमन द्वारा तैयार किया गया है), और आलोचना और रैंकिंग देते हैं. इसके बाद ग्रेडर्स ह्यूमन और AI डिलीवरेबल्स को रैंक करते हैं और हरेक AI डिलीवरेबल को एक दूसरे से “बेहतर”, “उतना ही अच्छा”, या “एक दूसरे से बदतर” के तौर पर क्लासिफ़ाई करते हैं.
टास्क राइटर्स ने अपने पेशों के लिए डिटेल में स्कोरिंग रूब्रिक्स भी बनाए, जो ग्रेडिंग प्रोसेस में स्थिरता और ट्रांसपेरेंसी जोड़ते हैं. हमने एक "ऑटोमेटेड ग्रेडर" भी बनाया, जो एक ऐसा AI सिस्टम है जो ये अंदाज़ा लगाने के लिए ट्रेन किया गया है कि ह्यूमन एक्सपर्ट्स किसी दिए गए डिलीवरेबल को कैसे जज करेंगे. दूसरे शब्दों में, हर बार एक पूरा एक्सपर्ट रिव्यु करने के बजाय, ऑटोमेटेड ग्रेडर जल्दी से ये अनुमान लगा सकता है कि लोग किस आउटपुट को ज़्यादा पसंद करेंगे. हम इस टूल को evals.openai.com के ज़रिये एक एक्सपेरिमेंटल रिसर्च सेर्विए के तौर पर रिलीज़ कर रहे हैं, लेकिन ये अभी भी एक्सपर्टञ ग्रेडर्स जितना भरोसेमंद नहीं है, इसलिए हम उनकी जगह इसका इस्तेमाल नहीं करते हैं.
हमने पाया कि आज के बेस्ट फ़्रंटियर मॉडल पहले से ही इंडस्ट्री एक्सपर्ट्स द्वारा किए गए काम की क्वालिटी के करीब पहुंच रहे हैं. इसे टेस्ट करने के लिए, हमने ब्लाइंड इवैल्यूएशन्स किए, जिसमें इंडस्ट्री एक्सपर्ट्स ने कई लीडिंग मॉडल्स—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, और Grok 4—के डिलीवरेबल्स की तुलना ह्यूमन द्वारा किए गए काम से की. GDPval गोल्ड सेट में 220 टास्क में, हमने रिकॉर्ड किया कि कब मॉडल आउटपुट को इंडस्ट्री एक्सपर्ट्स के डिलीवरेबल्स से बेहतर ("जीत") या बराबर ("टाई") के तौर पर रेट किया गया था, जैसा कि नीचे दिए गए बार चार्ट में दिखाया गया है. Claude Opus 4.1 इस सेट में सबसे अच्छा परफ़ॉर्म करने वाला मॉडल था, जो ख़ास तौर से सौंदर्यशास्त्र (जैसे, डॉक्यूमेंट कन्वर्ज़न, स्लाइड लेआउट) पर शानदार था, और GPT‑5 ख़ास तौर से एक्यूरेसी (जैसे, डोमेन से जुड़ा ख़ास नॉलेज प्राप्त करना) पर बेहतरीन था. हम इन टास्क में समय के साथ क्लियर प्रोग्रेस भी देख रहे हैं. एक क्लियर लीनियरट ट्रेंड को फ़ॉलो करते हुए, GPT‑4o (2024 के स्प्रिंग में रिलीज़ किया गया) से GPT‑5 (2025 की गर्मियों में रिलीज़ किया गया) तक परफ़ॉर्मेंस दोगुने से ज़्यादा हो गया है.
इसके अलावा, हमने पाया कि फ़्रंटियर मॉडल्स GDPval टास्क को इंडस्ट्री एक्सपर्ट्स के मुकाबले लगभग 100 गुना तेज़ी से और 100 गुना सस्ते में पूरा कर सकते हैं. हालांकि, ये आंकड़े सिर्फ़ मॉडल का असली इन्फ़रेंस टाइम और API बिलिंग रेट्स को दर्शाते हैं, और इसलिए हमारे मॉडल्स का इस्तेमाल करने के लिए रियल वर्कस्पेस सेटिंग्स में ज़रूरी मानवीय निरीक्षण, बार-बार होने, और इंटीग्रेशन के स्टेप्स को शामिल नहीं करते हैं. फ़िर भी, ख़ास कर उन टास्क के सबसेट पर जहां मॉडल ख़ास तौर से मज़बूत हैं, हम उम्मीद करते हैं कि किसी टास्क को एक ह्यूमन के साथ आज़माने से पहले मॉडल को देने से समय और खर्चे की बचत होगी.
एक्सपर्टञ ग्रेडर्स ने लीडिंग मॉडल्स से मिले रिज़ल्ट्स की तुलना ह्यूमन एक्सपर्ट्स से की. आज के लीडिंग मॉडल्स पहले से ही इंडस्ट्री एक्सपर्ट्स द्वारा किए गए काम की क्वालिटी के करीब पहुंच रहे हैं. Claude Opus 4.1 ने लगभग आधे टास्क में इंसानों के बराबर या उनसे बेहतर आउटपुट दिए.
GPT‑4o से GPT‑5 तक, GDPval टास्क पर परफ़ॉर्मेंस एक साल में तीन गुना से ज़्यादा हो गया.
आखिर में, हमने GPT‑5 के एक इंटर्नल, एक्सपेरिमेंटल वर्ज़न को धीरे-धीरे ट्रेन किया, ताकि ये आंका जा सके कि क्या हम GDPval पर परफ़ॉर्मेंस में सुधार कर सकते हैं. हमने पाया कि इस प्रोसेस से परफ़ॉर्मेंस में सुधार हुआ, जिससे आगे और सुधार की संभावना बनी. दूसरे कंट्रोल्ड एक्सपेरिमेंट्स भी इसे सपोर्ट करते हैं: मॉडल की साइज़ बढ़ाना, और ज़्यादा रीज़निंग स्टेप्स को प्रोत्साहित करना, और ज़्यादा गहन टास्क कॉन्टेक्स्ट देना, हरेक ने मापनीय सुधार दिखाए.
आप पूरे रिज़ल्ट्स हमारे पेपर में पढ़ सकते हैं. हम GDPval टास्क का एक गोल्ड सबसेट और एक पब्लिक ग्रेडिंग सर्विस भी रिलीज़ कर रहे हैं ताकि दूसरे रिसर्चर्स इस काम पर आगे और बना सकें.
जैसे-जैसे AI ज़्यादा कैपेबल होता जाएगा, ये शायद जॉब मार्केट में बदलाव लाएगा. शुरूआती GDPval रिज़ल्ट्स दिखाते हैं कि मॉडल पहले से ही कुछ दोहराव वाले, अच्छी तरह से बताए गए टास्क को एक्सपर्ट्स के मुकाबले तेज़ी से और कम खर्चे पर कर सकते हैं. हालांकि, ज़्यादातर नौकरियां सिर्फ़ लिखित तौर पर लिखे जा सकने वाले टास्क के एक कलेक्शन से कहीं ज़्यादा होती हैं. GDPval ने इस बात को हाईलाइट किया है कि AI कैसे रूटीन टास्क को हैंडल कर सकता है, ताकि लोग काम के क्रिएटिव, जजमेंट-हेवी पार्ट्स पर ज़्यादा समय बिता सकें. जब AI इस तरह से वर्कर्स का सहायक बनता है तो ये अहम आर्थिक विकास में बदल सकता है. हमारा लक्ष्य है कि सभी को AI के “ऊपर जाने वाले लिफ़्ट” में बनाए रखा जाए, यानी इन टूल्स तक सभी के लिए समान एक्सेस पक्का करना, बदलाव के दौरान काम करने वालों को सपोर्ट करना, और ऐसे सिस्म्स बनाना जो बड़े पैमाने पर योगदान को पुरस्कृत करें.
GDPval एक शुरूआती कदम है. हालांकि इसमें 44 व्यवसाय और सैकड़ों टास्क शामिल हैं, फ़िर भी हम अपनी टेस्टिंग के दायरे को बढ़ाने और रिज़ल्ट्स को और ज़्यादा सार्थक बनाने के लिए अपने नज़रिए को सुधारना जारी रखे हुए हैं. इवैल्यूएशन का मौजूदा वर्ज़न भी एक-बारगी है, इसलिए ये उन मामलों को शामिल नहीं करता है जहां मॉडल को कॉन्टेक्स्ट बनाने या कई ड्राफ़्ट के ज़रिये सुधार करने की ज़रुरत पड़ेगी—जैसे कि, क्लाइंट फ़ीडबैक के बाद एक लीगल ब्रीफ़ में सुधार करना या किसी असामान्य स्थिति को देखने के बाद डेटा एनैलिसिस में बार-बार सुधार करना. इसके अलावा, असली दुनिया में, टास्क को हमेशा एक प्रॉम्प्ट और रेफ़रेंस फ़ाइलों के साथ क्लियर तरीके से डिफ़ाइन नहीं किया जाता है; जैसे कि, एक वकील को अस्पष्टता से निपटना पड़ सकता है और अपने क्लाइंट से बात करनी पड़ सकती है, इससे पहले कि वो ये फ़ैसला ले कि एक लीगल ब्रीफ़ तैयार करना उनकी मदद करने के लिए सही अप्रोच है. हम GDPval को और आगे बढ़ाने का प्लैन कर रहे हैं, ताकि इसमें और ज़्यादा व्यवसायों, इंडस्ट्रीज़, और टास्क टाइप्स को शामिल किया जा सके, जिससे इंटरेक्टिवीटी बढ़े, और अस्पष्टता से निपटने वाले ज़्यादा टास्क शामिल हों, व इसका लॉन्ग-टर्म लक्ष्य नॉलेज के कई कामों में प्रोग्रेस को बेहतर ढंग से मापना है.
- अगर आप एक इंडस्ट्री एक्सपर्ट हैं और GDPval में योगदान करने में दिलचस्पी रखते हैं, तो कृपया यहां अपनी दिलचस्पी दिखाएं.
- अगर आप OpenAI के साथ काम करने वाले एक कस्टमर हैं और आप GDPval के भविष्य के दौर में योगदान करना चाहते हैं, तो कृपया यहां दिलचस्पी व्यक्त करें.
कम्युनिटी की भागीदारी ज़रूरी है—हम बेहद उत्साहित हैं कि हम GDPval को उन रिसर्चर्स, प्रैक्टिशनर्स, और ऑर्गनाइज़ेशन्स के साथ मिलकर बना रहे हैं, जो काम पर लोगों के लिए AGI को ज़्यादा मददगार बनाने के हमारे लक्ष्य को शेयर करते हैं.


