25 सितंबर 2025

असली दुनिया के टास्क पर हमारे मॉडल्स के परफ़ॉर्मेंस को मापना

हम GDPval नाम का एक नया इवैल्यूएशन पेश कर रहे हैं, जो 44 व्यवसायों में आर्थिक तौर पर कीमती, असली दुनिया के टास्क पर मॉडल के परफ़ॉर्मेंस को मापता है.

पेपर पढ़ें evals.openai.com पर जाएं

हमारा मिशन इस बात को पक्का करना है कि आर्टिफ़िशियल जेनरल इंटेलिजेंस का फ़ायदा पूरी मानवता को मिले. अपने मिशन के एक हिस्से के तौर पर, हम ट्रांसपेरेंट तरीके से इस पर प्रोग्रेस बताना चाहते हैं कि कैसे AI मॉडल असली दुनिया में लोगों की मदद कर सकते हैं. इसीलिए हम GDPval की शुरुआत कर रहे हैं: ये एक नया इवैल्यूएशन है जो हमें ये ट्रैक करने में मदद करेगा कि हमारे मॉडल और दूसरे आर्थिक तौर पर कीमती, असली दुनिया के टास्क पर कितना अच्छा परफ़ॉर्म करते हैं. हम इस इवैल्यूएशन को GDPval कहते हैं, क्योंकि हमने एक अहम इकॉनोमिक इंडिकेटर के तौर पर कुल घरेलू उत्पाद (GDP) के कॉन्सेप्टट से शुरुआत की और GDP में सबसे ज़्यादा योगदान देने वाली इंडस्ट्रीज़ के मुख्य व्यवसायों से टास्क लिए.

लोग अक्सर समाज पर AI के बड़े पैमाने पर असर के बारे में अटकलें लगाते हैं, लेकिन इसकी क्षमता को समझने का सबसे क्लियर तरीका ये है कि हम देखें कि मॉडल्स पहले से क्या करने में कैपेबल हैं. इतिहास दिखाता है कि प्रमुख टेक्नोलॉजियों—इंटरनेट से लेकर स्मार्फ़ोन तक—के आविष्कार से लेकर बड़े पैमाने पर अपनाए जाने तक में एक दशक से भी ज़्यादा का समय लग गया. GDPval जैसे इवैल्यूएशन, अनुमान के बजाय सबूत के आधार पर भविष्य में AI में सुधार के बारे में बातचीत को बढ़ावा देने में मदद करते हैं, और समय के साथ मॉडल में सुधार को ट्रैक करने में हमारी मदद कर सकते हैं.

चुनौतीपूर्ण अकादमिक टेस्ट और प्रतिस्पर्धी कोडिंग चैलेंजों जैसे पिछले AI इवैल्यूएशन मॉडल रीज़निंग कैपेबिलिटीज़ की सीमाओं को आगे बढ़ाने में ज़रूरी रहे हैं, लेकिन वे अक्सर उन टास्क से पीछे रह जाते हैं जिन्हें कई लोग अपने रोज़मर्रा के काम में हैंडल करते हैं.

इस अंतर को पाटने के लिए, हम ऐसे इवैल्यूएशन्स डेवलप कर रहे हैं जो ज़्यादा से ज़्यादा रीयलिस्टिक और इकॉनोमिक तौर पर सही कैपेबिलिटीज़ को मापते हैं. ये प्रोग्रेस क्लासिक अकादमिक बेंचमार्क्स जैसे MMLU (दर्जनों विषयों में एग्ज़ाम-स्टाइल के सवालों) से आगे बढ़कर SWE-बेंच (सॉफ़्टवेयर इंजीनियरिंग बग-फ़िक्सिंग टास्क), MLE-बेंच (मॉडल ट्रेनिंग और एनैलिसिस जैसे मशीन लर्निंग इंजीनियरिंग टास्क) और पेपर-बेंच (रिसर्च पेपर्स पर साइंटिफ़िक रीज़निंग और आलोचना) जैसे ज़्यादा अप्लाइड इवैल्यूएशन्स तक पहुंच गई है, और हाल ही में SWE-लैंसर (असली पेआउट्स पर आधारित फ़्रीलान्स सॉफ़्टवेयर इंजीनियरिंग प्रोजेक्ट्स) जैसे मार्केट-बेस्ड इवैल्यूएशन्स तक पहुंच गई है.

GDPval उस प्रोग्रेस में अगला कदम है. ये अलग-अलग व्यवसायों और क्षेत्रों में अनुभवी प्रोफ़ेशनल्स के असली दुनिया के नॉलेज काम से सीधे प्राप्त टास्क पर मॉडल के परफ़ॉर्मेंस को मापता है, और आर्थिक तौर पर कीमती टास्क पर मॉडल के परफ़ॉर्मेंस के बारे में एक ज़्यादा क्लियर पिक्चर देता है. रीयलिस्टिक व्यावसायिक टास्क पर आधारित मॉडल्स का इवैल्यूएशन करने से हमें न सिर्फ़ ये समझने में मदद मिलती है कि वे लैब में कितना अच्छा परफ़ॉर्म करते हैं, बल्कि ये भी समझने में मदद मिलती है कि वे लोगों को उनके रोज़ाना के कामों में कैसे मदद कर सकते हैं.

GDPval क्या मापता है

GDPval, इस मूल्यांकन का पहला वर्ज़न, इसमें योगदान देने वाले टॉप 9 इंडस्ट्रीज़ से चुने गए 44 व्यवसायों पर आधारित है U.S. GDP. GDPval के फ़ुल सेट में 1,320 ख़ास टास्क (गोल्ड ओपन-सोर्स्ड सेट में 220) शामिल हैं, जिनमें से हरेक को इन फ़ील्ड्स में औसतन 14 सालों से ज़्यादा अनुभव वाले अनुभवी प्रोफ़ेशनल्स द्वारा सावधानीपूर्वक तैयार और जांचा गया है. हरेक टास्क असली वर्क प्रोडक्ट्स पर आधारित होता है, जैसे कि एक कानूनी ब्रीफ़, एक इंजीनियरिंग ब्लूप्रिंट, एक कस्टमर सपोर्ट की बातचीत, या एक नर्सिंग केयर प्लैन.

GDPval अपनी रियलिज़्म और इवैल्यूएट किए जा रहे टास्क की विविधता दोनों के कारण ख़ास है. इकॉनोमिक वैल्यू से जुड़े दूसरे इवैल्यूएशन्स के विपरीत, जो ख़ास डोमेन (जैसे, SWE-Lancer) पर फ़ोकस करते हैं, GDPval कई टास्क और व्यवसायों को कवर करता है. और बेंचमार्क के विपरीत, जिसमें अकादमिक एग्ज़ाम या टेस्ट (जैसे, ह्यूमैनिटीज़ लास्ट एग्ज़ाम या MMLU) की स्टाइल में बनावटी तौर पर बनाए गए टास्क शामिल है, GDPval उन डिलीवरेबल्स पर आधारित कार्यों पर फ़ोकस करता है जो या तो असली काम या मौजूदा प्रोडक्ट हैं, या फ़िर उसी तरह बनाए गए काम के नमूने हैं.

पुराने बेंचमार्क्स के विपरीत, GDPval काम आसान टेक्स्ट प्रॉम्प्ट्स नहीं हैं. इनमें रेफ़रेंस फ़ाइलों और कॉन्टेक्स्ट शामिल होते हैं, और अपेक्षित डिलीवरेबल्स में डॉक्यूमेंट्स, स्लाइड्स, डायग्राम, स्प्रेडशीट्स, और मल्टीमीडिया जैसे फ़ॉर्मैट होते हैं. यही रियलिज़्म, GDPval को इस बात का ज़्यादा रीयलिस्टिक टेस्ट बनाता है कि मॉडल्स कैसे प्रोफ़ेशनल्स को सपोर्ट कर सकते हैं.

GDPval एक शुरूआती कदम है जो कई इकॉनोमिक टास्क की पूरी बारीकियों को रिफ़्लेक्ट नहीं करता है. हालांकि ये 44 व्यवसायों और सैकड़ों नॉलेज टास्क को कवर करता है, ये एक बार के इवैल्यूएशन्स तक सीमित है, इसलिए ये उन मामलों को नहीं पकड़ता है जहां एक मॉडल को कॉन्टेक्स्ट बनाने या कई ड्राफ़्ट्स के ज़रिये सुधार करने की ज़रुरत पड़ेगी. फ़्यूचर वर्ज़न्स में असली दुनिया के नॉलेज टास्क की कॉम्प्लेक्सिटी को बेहतर तरीके से रिफ़्लेक्ट करने के लिए और ज़्यादा इंटरैक्टिव वर्कफ़्लोज़ और कॉन्टेक्स्ट से भरपूर टास्क शामिल किए जाएंगे (नीचे हमारे सीमाएं सेक्शन में और ज़्यादा जानकारी देखें).

हमने व्यवसाय कैसे चुने

GDPval 9 इंडस्ट्रीज़ और 44 व्यवसायों के टास्क को कवर करता है, और फ़्यूचर वर्ज़न्स इस कवरेज को बढ़ाना जारी रखेंगे. शुरूआती 9 इंडस्ट्रीज़ को अमेरिकी GDP में 5% से भी ज़्यादा योगदान देने वाली इंडस्ट्रीज़ के आधार पर किया गया था, जैसा कि St. Louis. के फ़ेडरल रिज़र्व बैंक के आंकड़ों द्वारा तय किया गया है. फ़िर, हमने मई 2024 के अमेरिकी श्रम सांख्यिकी ब्यूरो (BLS) व्यावसायिक रोज़गार रिपोर्ट⁠(एक नई विंडो में खुलेगा) से मज़दूरी और रोज़गार डेटा का इस्तेमाल करते हुए, हरेक इंडस्ट्री के अंदर 5 व्यवसायों को चुना जो कुल मज़दूरी और मुआवज़े में सबसे ज़्यादा योगदान करते हैं और मुख्य तौर पर नॉलेज काम से जुड़े व्यवसाय हैं. ये तय करने के लिए कि क्या व्यवसाय मुख्य तौर पर नॉलेज से जुड़े काम थे, हमने O*NET⁠(एक नई विंडो में खुलेगा) से टास्क डेटा का इस्तेमाल किया, जो अमेरिकी व्यावसायिक जानकारी का एक डेटाबेस है, जिसे अमेरिकी सरकार द्वारा स्पॉन्सर किया गया है. श्रम विभाग. हमने क्लासिफ़ाई किया कि O*NET में हरेक व्यवसाय के लिए हरेक टास्क नॉलेज वर्क था या फ़िज़िकल काम/मैन्युअल लेबर (जिसमें फ़िज़िकल दुनिया में कार्रवाई करने की ज़रुरत होती है). एक व्यवसाय को समग्र रूप से “आम तौर पर नॉलेज वर्क” के तौर पर योग्य माना जाता है अगर उसके कंपोनेंट टास्क में से कम से कम 60% को फ़िज़िकल काम या मैनुअल लेबर से संबंधित नहीं माना जाता है. हमने इस 60% सीमा को GDPval के पहले वर्ज़न के लिए एक स्टार्टिंग पॉइंट के तौर पर चुना, जिसमें उन व्यवसायों पर फ़ोकस किया गया जहां AI का असली दुनिया की प्रोडक्टिविटी पर सबसे ज़्यादा असर हो सकता है.

इस प्रोसेस से इंक्लूशन हेतु 44 व्यवसाय प्राप्त हुए.

रियल एस्टेट और किराया और पट्टे

कॉनसियर्ज़
प्रॉपर्टी, रियल एस्टेट, और कम्युनिटी एसोसिएशन मैनेजर्स
रियल एस्टेट सेल्स एजेंट्स
रियल एस्टेट ब्रोकर्स
काउंटर और रेंटल क्लर्क

सरकार

मनोरंजन कर्मी
कंप्लायंस ऑफ़िसर्स
पुलिस और जासूसों के फ़र्स्ट-लाइन सुपरवाइज़र्स
एडमिनिस्ट्रेटिव सर्विसेज़ मैनेजर्स
बाल, परिवार और स्कूल सामाजिक कार्यकर्ता

मैन्युफ़ैक्चरिंग

मैकेनिकल इंजीनियर्स
इंडस्ट्रियल इंजीनियर्स
खरीदार और परचेज़िंग एजेंट्स
शिपिंग, प्राप्ति, और इन्वेंट्री क्लर्क
प्रोडक्शन और ऑपरेटिंग वर्कर्स के फ़र्स्ट-लाइन वर्कर्स

प्रोफ़ेशनल, साइंटिफ़िक, और टेक्निकल सर्विसेज़

सॉफ़्टवेयर डेवलपर्स
वकील
अकाउंटेंट्स और ऑडिटर्स
कंप्यूटर और इन्फ़ॉर्मेशन मेनेजर्स
प्रोजेक्ट मैनेजमेंट स्पेशलिस्ट

हेल्थ केयर और सामाजिक सहायता

रजिस्टर्ड नर्सें
नर्स प्रैक्टिशनर्स
मेडिकल और हेल्थ सर्विसेज़ मैनेजर्स
ऑफ़िस और एडमिनिस्ट्रेटिव सपोर्ट वर्कर्स के फ़र्स्ट-लाइन सुपरवाइज़र्स
मेडिकल सेक्रेटरीज़ और एडमिनिस्ट्रेटिव असिस्टेंट्स

फ़ाइनेंस और इंश्योरेंस

कस्टमर सर्विस रिप्रेज़ेन्टेटिव्स
फ़ाइनेंशियल और इन्वेस्टमेंट एनैलिस्ट्स
फ़ाइनेंशियल मैनेजर्स
पर्सनल फ़ाइनेंशियल एडवाइज़र्स
सिक्यूरिटीज़, कमोडिटीज़ और फ़ाइनेंशियल सर्विसेज़ के सेल्स एजेंट्स

रिटेल ट्रेड

फ़ार्मासिस्ट
रिटेल सेल्स वर्कर्स के फ़र्स्ट-लाइन वर्कर्स
जनरल एवं ऑपरेशन्स मैनेजर्स
प्राइवेट जासूस और जांचकर्ता

थोक का काम

सेल्स मैनेजर्स
आर्डर क्लर्क
नॉन-रिटेल सेल्स वर्कर्स के फ़र्स्ट-लाइन वर्कर्स
सेल्स रिप्रेज़ेन्टेटिव्स, थोक और मैन्युफ़ैक्चरिंग, टेक्निकल और साइंटिफ़िक प्रोडक्ट्स को छोड़कर
सेल्स रिप्रेज़ेन्टेटिव्स, थोक और मैन्युफ़ैक्चरिंग, टेक्निकल और साइंटिफ़िक प्रोडक्ट्स

जानकारी

ऑडियो और वीडियो टेक्नीशियन्स
निर्माता और निर्देशक
न्यूज़ एनैलिस्ट, रिपोर्टर्स, और पत्रकार
फ़िल्म और वीडियो एडिटर्स
एडिटर्स

GDPval 9 सेक्टर्स में 44 नॉलेज वाले काम के पेशों को कवर करता है, जिसमें सॉफ़्टवेयर डेवलपर्स और वकीलों से लेकर रजिस्टर्ड नर्सें और मैकेनिकल इंजीनियर्स तक शामिल हैं. इन पेशों को उनकी आर्थिक महत्वता के आधार पर चुना गया और ये उन तरह के रोज़मर्रा के काम को रिप्रेज़ेंट करते हैं जहां AI प्रोफ़ेशनल्स की सार्थक तरीके से मदद कर सकता है.

हमने डेटासेट कैसे बनाया

हरेक पेशे के लिए, हमने अनुभवी प्रोफ़ेशनल्स के साथ मिलकर ऐसे रिप्रेज़ेन्टेटिव टास्क तैयार किए जो उनके रोज़मर्रा के काम को रिफ़्लेक्ट करते हों. इन प्रोफ़ेशनल्स के पास औसतन 14 साल का अनुभव था, और विकास का उनका रिकार्ड भी मज़बूत था. हमने जानबूझकर—अलग-अलग क्षेत्रों के वकीलों और अलग-अलग साइज़ की फ़र्मों—जैसे एक्सपर्ट्स को भर्ती किया, ताकि रिप्रेज़ेन्टेटिवनेस को मैक्सिमाइज़ किया जा सके.

हरेक टास्क एक मल्टी-स्टेप रिव्यु प्रोसेस से गुज़रा, ताकि ये पक्का किया जा सके कि ये असली काम को रिप्रेज़ेंट करता है, किसी दूसरे प्रोफ़ेशनल के लिए पूरा करने लायक है, और इवैल्यूएशन के लिए क्लियर है. औसतन, हरेक टास्क को एक्सपर्ट रिव्यु के 5 राउंड्स मिले, जिसमें दूसरे टास्क राइटर्स, अतिरिक्त ऑक्यूपेशनल रिव्युअर्स, और मॉडल-बेस्ड वैलिडेशन द्वारा जांच शामिल थी.

तैयार किए गए डेटासेट में प्रति व्यवसाय 30 पूरी तरह से रिव्यु किए गए टास्क (फ़ुल-सेट) शामिल हैं, जिनमें से 5 टास्क हमारे ओपन-सोर्स गोल्ड सेट में प्रति व्यवसाय हैं, जो असली दुनिया के नॉलेज वर्क पर मॉडल के परफ़ॉर्मेंस का इवैल्यूएशन करने के लिए एक मज़बूत आधार प्रदान करता है.

GDPval टास्क के एग्ज़ाम्पल्स

प्रॉम्प्ट + टास्क कॉन्टेक्स्ट

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.

Cable reel project requirements.pdf

सोचा-समझा ह्यूमन जवाब

GDPval में हरेक टास्क एक अनुभवी प्रोफ़ेशनल द्वारा डिज़ाइन किया गया है और उनके व्यवसाय से जुड़े असली नॉलेज काम को दर्शाता है. प्रॉम्प्ट एक डोमेन एक्सपर्ट द्वारा बनाया गया एक रीयलिस्टिक टास्क असाइनमेंट है, और गोल्ड डिलीवरेबल एक्सपर्ट का खुद का समाधान है.

हम मॉडल के परफ़ॉर्मेंस को कैसे ग्रेड करते हैं

GDPval टास्क पर मॉडल के परफ़ॉर्मेंस का इवैल्यूएशन करने के लिए, हम एक्सपर्ट "ग्रेडर्स" पर भरोसा करते हैं—जो डेटासेट में रिप्रेज़ेंट गए समान पेशों के अनुभवी प्रोफ़ेशनल्स का एक ग्रुप है. ये ग्रेडर्स मॉडल द्वारा तैयार किए गए टास्क की तुलना टास्क राइटर्स द्वारा तैयार किए गए टास्क से करते हैं (ये नहीं जानते कि कौन-सा AI द्वारा तैयार किया गया है और कौन-सा ह्यूमन द्वारा तैयार किया गया है), और आलोचना और रैंकिंग देते हैं. इसके बाद ग्रेडर्स ह्यूमन और AI डिलीवरेबल्स को रैंक करते हैं और हरेक AI डिलीवरेबल को एक दूसरे से “बेहतर”, “उतना ही अच्छा”, या “एक दूसरे से बदतर” के तौर पर क्लासिफ़ाई करते हैं.

टास्क राइटर्स ने अपने पेशों के लिए डिटेल में स्कोरिंग रूब्रिक्स भी बनाए, जो ग्रेडिंग प्रोसेस में स्थिरता और ट्रांसपेरेंसी जोड़ते हैं. हमने एक "ऑटोमेटेड ग्रेडर" भी बनाया, जो एक ऐसा AI सिस्टम है जो ये अंदाज़ा लगाने के लिए ट्रेन किया गया है कि ह्यूमन एक्सपर्ट्स किसी दिए गए डिलीवरेबल को कैसे जज करेंगे. दूसरे शब्दों में, हर बार एक पूरा एक्सपर्ट रिव्यु करने के बजाय, ऑटोमेटेड ग्रेडर जल्दी से ये अनुमान लगा सकता है कि लोग किस आउटपुट को ज़्यादा पसंद करेंगे. हम इस टूल को evals.openai.com के ज़रिये एक एक्सपेरिमेंटल रिसर्च सेर्विए के तौर पर रिलीज़ कर रहे हैं, लेकिन ये अभी भी एक्सपर्टञ ग्रेडर्स जितना भरोसेमंद नहीं है, इसलिए हम उनकी जगह इसका इस्तेमाल नहीं करते हैं.

शुरूआती रिज़ल्ट्स

हमने पाया कि आज के बेस्ट फ़्रंटियर मॉडल पहले से ही इंडस्ट्री एक्सपर्ट्स द्वारा किए गए काम की क्वालिटी के करीब पहुंच रहे हैं. इसे टेस्ट करने के लिए, हमने ब्लाइंड इवैल्यूएशन्स किए, जिसमें इंडस्ट्री एक्सपर्ट्स ने कई लीडिंग मॉडल्स—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, और Grok 4—के डिलीवरेबल्स की तुलना ह्यूमन द्वारा किए गए काम से की. GDPval गोल्ड सेट में 220 टास्क में, हमने रिकॉर्ड किया कि कब मॉडल आउटपुट को इंडस्ट्री एक्सपर्ट्स के डिलीवरेबल्स से बेहतर ("जीत") या बराबर ("टाई") के तौर पर रेट किया गया था, जैसा कि नीचे दिए गए बार चार्ट में दिखाया गया है. Claude Opus 4.1 इस सेट में सबसे अच्छा परफ़ॉर्म करने वाला मॉडल था, जो ख़ास तौर से सौंदर्यशास्त्र (जैसे, डॉक्यूमेंट कन्वर्ज़न, स्लाइड लेआउट) पर शानदार था, और GPT‑5 ख़ास तौर से एक्यूरेसी (जैसे, डोमेन से जुड़ा ख़ास नॉलेज प्राप्त करना) पर बेहतरीन था. हम इन टास्क में समय के साथ क्लियर प्रोग्रेस भी देख रहे हैं. एक क्लियर लीनियरट ट्रेंड को फ़ॉलो करते हुए, GPT‑4o (2024 के स्प्रिंग में रिलीज़ किया गया) से GPT‑5 (2025 की गर्मियों में रिलीज़ किया गया) तक परफ़ॉर्मेंस दोगुने से ज़्यादा हो गया है.

इसके अलावा, हमने पाया कि फ़्रंटियर मॉडल्स GDPval टास्क को इंडस्ट्री एक्सपर्ट्स के मुकाबले लगभग 100 गुना तेज़ी से और 100 गुना सस्ते में पूरा कर सकते हैं. हालांकि, ये आंकड़े सिर्फ़ मॉडल का असली इन्फ़रेंस टाइम और API बिलिंग रेट्स को दर्शाते हैं, और इसलिए हमारे मॉडल्स का इस्तेमाल करने के लिए रियल वर्कस्पेस सेटिंग्स में ज़रूरी मानवीय निरीक्षण, बार-बार होने, और इंटीग्रेशन के स्टेप्स को शामिल नहीं करते हैं. फ़िर भी, ख़ास कर उन टास्क के सबसेट पर जहां मॉडल ख़ास तौर से मज़बूत हैं, हम उम्मीद करते हैं कि किसी टास्क को एक ह्यूमन के साथ आज़माने से पहले मॉडल को देने से समय और खर्चे की बचत होगी.

एक्सपर्टञ ग्रेडर्स ने लीडिंग मॉडल्स से मिले रिज़ल्ट्स की तुलना ह्यूमन एक्सपर्ट्स से की. आज के लीडिंग मॉडल्स पहले से ही इंडस्ट्री एक्सपर्ट्स द्वारा किए गए काम की क्वालिटी के करीब पहुंच रहे हैं. Claude Opus 4.1 ने लगभग आधे टास्क में इंसानों के बराबर या उनसे बेहतर आउटपुट दिए.

GPT‑4o से GPT‑5 तक, GDPval टास्क पर परफ़ॉर्मेंस एक साल में तीन गुना से ज़्यादा हो गया.

आखिर में, हमने GPT‑5 के एक इंटर्नल, एक्सपेरिमेंटल वर्ज़न को धीरे-धीरे ट्रेन किया, ताकि ये आंका जा सके कि क्या हम GDPval पर परफ़ॉर्मेंस में सुधार कर सकते हैं. हमने पाया कि इस प्रोसेस से परफ़ॉर्मेंस में सुधार हुआ, जिससे आगे और सुधार की संभावना बनी. दूसरे कंट्रोल्ड एक्सपेरिमेंट्स भी इसे सपोर्ट करते हैं: मॉडल की साइज़ बढ़ाना, और ज़्यादा रीज़निंग स्टेप्स को प्रोत्साहित करना, और ज़्यादा गहन टास्क कॉन्टेक्स्ट देना, हरेक ने मापनीय सुधार दिखाए.

आप पूरे रिज़ल्ट्स हमारे पेपर में पढ़ सकते हैं. हम GDPval टास्क का एक गोल्ड सबसेट और एक पब्लिक ग्रेडिंग सर्विस भी रिलीज़ कर रहे हैं ताकि दूसरे रिसर्चर्स इस काम पर आगे और बना सकें.

काम और AI का भविष्य

जैसे-जैसे AI ज़्यादा कैपेबल होता जाएगा, ये शायद जॉब मार्केट में बदलाव लाएगा. शुरूआती GDPval रिज़ल्ट्स दिखाते हैं कि मॉडल पहले से ही कुछ दोहराव वाले, अच्छी तरह से बताए गए टास्क को एक्सपर्ट्स के मुकाबले तेज़ी से और कम खर्चे पर कर सकते हैं. हालांकि, ज़्यादातर नौकरियां सिर्फ़ लिखित तौर पर लिखे जा सकने वाले टास्क के एक कलेक्शन से कहीं ज़्यादा होती हैं. GDPval ने इस बात को हाईलाइट किया है कि AI कैसे रूटीन टास्क को हैंडल कर सकता है, ताकि लोग काम के क्रिएटिव, जजमेंट-हेवी पार्ट्स पर ज़्यादा समय बिता सकें. जब AI इस तरह से वर्कर्स का सहायक बनता है तो ये अहम आर्थिक विकास में बदल सकता है. हमारा लक्ष्य है कि सभी को AI के “ऊपर जाने वाले लिफ़्ट” में बनाए रखा जाए, यानी इन टूल्स तक सभी के लिए समान एक्सेस पक्का करना, बदलाव के दौरान काम करने वालों को सपोर्ट करना, और ऐसे सिस्म्स बनाना जो बड़े पैमाने पर योगदान को पुरस्कृत करें.

सीमाएं और आगे क्‍या है

GDPval एक शुरूआती कदम है. हालांकि इसमें 44 व्यवसाय और सैकड़ों टास्क शामिल हैं, फ़िर भी हम अपनी टेस्टिंग के दायरे को बढ़ाने और रिज़ल्ट्स को और ज़्यादा सार्थक बनाने के लिए अपने नज़रिए को सुधारना जारी रखे हुए हैं. इवैल्यूएशन का मौजूदा वर्ज़न भी एक-बारगी है, इसलिए ये उन मामलों को शामिल नहीं करता है जहां मॉडल को कॉन्टेक्स्ट बनाने या कई ड्राफ़्ट के ज़रिये सुधार करने की ज़रुरत पड़ेगी—जैसे कि, क्लाइंट फ़ीडबैक के बाद एक लीगल ब्रीफ़ में सुधार करना या किसी असामान्य स्थिति को देखने के बाद डेटा एनैलिसिस में बार-बार सुधार करना. इसके अलावा, असली दुनिया में, टास्क को हमेशा एक प्रॉम्प्ट और रेफ़रेंस फ़ाइलों के साथ क्लियर तरीके से डिफ़ाइन नहीं किया जाता है; जैसे कि, एक वकील को अस्पष्टता से निपटना पड़ सकता है और अपने क्लाइंट से बात करनी पड़ सकती है, इससे पहले कि वो ये फ़ैसला ले कि एक लीगल ब्रीफ़ तैयार करना उनकी मदद करने के लिए सही अप्रोच है. हम GDPval को और आगे बढ़ाने का प्लैन कर रहे हैं, ताकि इसमें और ज़्यादा व्यवसायों, इंडस्ट्रीज़, और टास्क टाइप्स को शामिल किया जा सके, जिससे इंटरेक्टिवीटी बढ़े, और अस्पष्टता से निपटने वाले ज़्यादा टास्क शामिल हों, व इसका लॉन्ग-टर्म लक्ष्य नॉलेज के कई कामों में प्रोग्रेस को बेहतर ढंग से मापना है.

शामिल हों

अगर आप एक इंडस्ट्री एक्सपर्ट हैं और GDPval में योगदान करने में दिलचस्पी रखते हैं, तो कृपया यहां अपनी दिलचस्पी दिखाएं.
अगर आप OpenAI के साथ काम करने वाले एक कस्टमर हैं और आप GDPval के भविष्य के दौर में योगदान करना चाहते हैं, तो कृपया यहां दिलचस्पी व्यक्त करें.

कम्युनिटी की भागीदारी ज़रूरी है—हम बेहद उत्साहित हैं कि हम GDPval को उन रिसर्चर्स, प्रैक्टिशनर्स, और ऑर्गनाइज़ेशन्स के साथ मिलकर बना रहे हैं, जो काम पर लोगों के लिए AGI को ज़्यादा मददगार बनाने के हमारे लक्ष्य को शेयर करते हैं.

लेखक

OpenAI

पढ़ते रहें

सभी देखें

GPT-Red: मजबूती के लिए स्व-सुधार को अनलॉक करना

सुरक्षा15 जुलाई 2026

कोडिंग मूल्यांकनों में संकेत को शोर से अलग करना

रिसर्च8 जुलाई 2026

पेश है GeneBench-Pro

रिसर्च30 जून 2026