स्किप करके मेन कंटेंट पर जाऍं
OpenAI

25 सितंबर 2025

प्रकाशनरिसर्च

असली दुनिया के टास्क पर हमारे मॉडल्स के परफ़ॉर्मेंस को मापना

हम GDPval नाम का एक नया इवैल्यूएशन पेश कर रहे हैं, जो 44 व्यवसायों में आर्थिक तौर पर कीमती, असली दुनिया के टास्क पर मॉडल के परफ़ॉर्मेंस को मापता है.

हमारा मिशन इस बात को पक्का करना है कि आर्टिफ़िशियल जेनरल इंटेलिजेंस का फ़ायदा पूरी मानवता को मिले. अपने मिशन के एक हिस्से के तौर पर, हम ट्रांसपेरेंट तरीके से इस पर प्रोग्रेस बताना चाहते हैं कि कैसे AI मॉडल असली दुनिया में लोगों की मदद कर सकते हैं. इसीलिए हम GDPval की शुरुआत कर रहे हैं: ये एक नया इवैल्यूएशन है जो हमें ये ट्रैक करने में मदद करेगा कि हमारे मॉडल और दूसरे आर्थिक तौर पर कीमती, असली दुनिया के टास्क पर कितना अच्छा परफ़ॉर्म करते हैं. हम इस इवैल्यूएशन को GDPval कहते हैं, क्योंकि हमने एक अहम इकॉनोमिक इंडिकेटर के तौर पर कुल घरेलू उत्पाद (GDP) के कॉन्सेप्टट से शुरुआत की और GDP में सबसे ज़्यादा योगदान देने वाली इंडस्ट्रीज़ के मुख्य व्यवसायों से टास्क लिए.

लोग अक्सर समाज पर AI के बड़े पैमाने पर असर के बारे में अटकलें लगाते हैं, लेकिन इसकी क्षमता को समझने का सबसे क्लियर तरीका ये है कि हम देखें कि मॉडल्स पहले से क्या करने में कैपेबल हैं. इतिहास दिखाता है कि प्रमुख टेक्नोलॉजियों—इंटरनेट से लेकर स्मार्फ़ोन तक—के आविष्कार से लेकर बड़े पैमाने पर अपनाए जाने तक में एक दशक से भी ज़्यादा का समय लग गया. GDPval जैसे इवैल्यूएशन, अनुमान के बजाय सबूत के आधार पर भविष्य में AI में सुधार के बारे में बातचीत को बढ़ावा देने में मदद करते हैं, और समय के साथ मॉडल में सुधार को ट्रैक करने में हमारी मदद कर सकते हैं.

चुनौतीपूर्ण अकादमिक टेस्ट और प्रतिस्पर्धी कोडिंग चैलेंजों जैसे पिछले AI इवैल्यूएशन मॉडल रीज़निंग कैपेबिलिटीज़ की सीमाओं को आगे बढ़ाने में ज़रूरी रहे हैं, लेकिन वे अक्सर उन टास्क से पीछे रह जाते हैं जिन्हें कई लोग अपने रोज़मर्रा के काम में हैंडल करते हैं.

इस अंतर को पाटने के लिए, हम ऐसे इवैल्यूएशन्स डेवलप कर रहे हैं जो ज़्यादा से ज़्यादा रीयलिस्टिक और इकॉनोमिक तौर पर सही कैपेबिलिटीज़ को मापते हैं. ये प्रोग्रेस क्लासिक अकादमिक बेंचमार्क्स जैसे MMLU (दर्जनों विषयों में एग्ज़ाम-स्टाइल के सवालों) से आगे बढ़कर SWE-बेंच (सॉफ़्टवेयर इंजीनियरिंग बग-फ़िक्सिंग टास्क), MLE-बेंच (मॉडल ट्रेनिंग और एनैलिसिस जैसे मशीन लर्निंग इंजीनियरिंग टास्क) और पेपर-बेंच (रिसर्च पेपर्स पर साइंटिफ़िक रीज़निंग और आलोचना) जैसे ज़्यादा अप्लाइड इवैल्यूएशन्स तक पहुंच गई है, और हाल ही में SWE-लैंसर (असली पेआउट्स पर आधारित फ़्रीलान्स सॉफ़्टवेयर इंजीनियरिंग प्रोजेक्ट्स) जैसे मार्केट-बेस्ड इवैल्यूएशन्स तक पहुंच गई है.

GDPval उस प्रोग्रेस में अगला कदम है. ये अलग-अलग व्यवसायों और क्षेत्रों में अनुभवी प्रोफ़ेशनल्स के असली दुनिया के नॉलेज काम से सीधे प्राप्त टास्क पर मॉडल के परफ़ॉर्मेंस को मापता है, और आर्थिक तौर पर कीमती टास्क पर मॉडल के परफ़ॉर्मेंस के बारे में एक ज़्यादा क्लियर पिक्चर देता है. रीयलिस्टिक व्यावसायिक टास्क पर आधारित मॉडल्स का इवैल्यूएशन करने से हमें न सिर्फ़ ये समझने में मदद मिलती है कि वे लैब में कितना अच्छा परफ़ॉर्म करते हैं, बल्कि ये भी समझने में मदद मिलती है कि वे लोगों को उनके रोज़ाना के कामों में कैसे मदद कर सकते हैं. 

GDPval क्या मापता है

GDPval, इस मूल्यांकन का पहला वर्ज़न, इसमें योगदान देने वाले टॉप 9 इंडस्ट्रीज़ से चुने गए 44 व्यवसायों पर आधारित है U.S. GDP. GDPval के फ़ुल सेट में 1,320 ख़ास टास्क (गोल्ड ओपन-सोर्स्ड सेट में 220) शामिल हैं, जिनमें से हरेक को इन फ़ील्ड्स में औसतन 14 सालों से ज़्यादा अनुभव वाले अनुभवी प्रोफ़ेशनल्स द्वारा सावधानीपूर्वक तैयार और जांचा गया है. हरेक टास्क असली वर्क प्रोडक्ट्स पर आधारित होता है, जैसे कि एक कानूनी ब्रीफ़, एक इंजीनियरिंग ब्लूप्रिंट, एक कस्टमर सपोर्ट की बातचीत, या एक नर्सिंग केयर प्लैन.

GDPval अपनी रियलिज़्म और इवैल्यूएट किए जा रहे टास्क की विविधता दोनों के कारण ख़ास है. इकॉनोमिक वैल्यू से जुड़े दूसरे इवैल्यूएशन्स के विपरीत, जो ख़ास डोमेन (जैसे, SWE-Lancer) पर फ़ोकस करते हैं, GDPval कई टास्क और व्यवसायों को कवर करता है. और बेंचमार्क के विपरीत, जिसमें अकादमिक एग्ज़ाम या टेस्ट (जैसे, ह्यूमैनिटीज़ लास्ट एग्ज़ाम या MMLU) की स्टाइल में बनावटी तौर पर बनाए गए टास्क शामिल है, GDPval उन डिलीवरेबल्स पर आधारित कार्यों पर फ़ोकस करता है जो या तो असली काम या मौजूदा प्रोडक्ट हैं, या फ़िर उसी तरह बनाए गए काम के नमूने हैं. 

पुराने बेंचमार्क्स के विपरीत, GDPval काम आसान टेक्स्ट प्रॉम्प्ट्स नहीं हैं. इनमें रेफ़रेंस फ़ाइलों और कॉन्टेक्स्ट शामिल होते हैं, और अपेक्षित डिलीवरेबल्स में डॉक्यूमेंट्स, स्लाइड्स, डायग्राम, स्प्रेडशीट्स, और मल्टीमीडिया जैसे फ़ॉर्मैट होते हैं. यही रियलिज़्म, GDPval को इस बात का ज़्यादा रीयलिस्टिक टेस्ट बनाता है कि मॉडल्स कैसे प्रोफ़ेशनल्स को सपोर्ट कर सकते हैं.

GDPval एक शुरूआती कदम है जो कई इकॉनोमिक टास्क की पूरी बारीकियों को रिफ़्लेक्ट नहीं करता है. हालांकि ये 44 व्यवसायों और सैकड़ों नॉलेज टास्क को कवर करता है, ये एक बार के इवैल्यूएशन्स तक सीमित है, इसलिए ये उन मामलों को नहीं पकड़ता है जहां एक मॉडल को कॉन्टेक्स्ट बनाने या कई ड्राफ़्ट्स के ज़रिये सुधार करने की ज़रुरत पड़ेगी. फ़्यूचर वर्ज़न्स में असली दुनिया के नॉलेज टास्क की कॉम्प्लेक्सिटी को बेहतर तरीके से रिफ़्लेक्ट करने के लिए और ज़्यादा इंटरैक्टिव वर्कफ़्लोज़ और कॉन्टेक्स्ट से भरपूर टास्क शामिल किए जाएंगे (नीचे हमारे सीमाएं सेक्शन में और ज़्यादा जानकारी देखें).

हमने व्यवसाय कैसे चुने

GDPval 9 इंडस्ट्रीज़ और 44 व्यवसायों के टास्क को कवर करता है, और फ़्यूचर वर्ज़न्स इस कवरेज को बढ़ाना जारी रखेंगे. शुरूआती 9 इंडस्ट्रीज़ को अमेरिकी GDP में 5% से भी ज़्यादा योगदान देने वाली इंडस्ट्रीज़ के आधार पर किया गया था, जैसा कि St. Louis. के फ़ेडरल रिज़र्व बैंक के आंकड़ों द्वारा तय किया गया है. फ़िर, हमने मई 2024 के अमेरिकी श्रम सांख्यिकी ब्यूरो (BLS) व्यावसायिक रोज़गार रिपोर्ट(एक नई विंडो में खुलेगा) से मज़दूरी और रोज़गार डेटा का इस्तेमाल करते हुए, हरेक इंडस्ट्री के अंदर 5 व्यवसायों को चुना जो कुल मज़दूरी और मुआवज़े में सबसे ज़्यादा योगदान करते हैं और मुख्य तौर पर नॉलेज काम से जुड़े व्यवसाय हैं. ये तय करने के लिए कि क्या व्यवसाय मुख्य तौर पर नॉलेज से जुड़े काम थे, हमने O*NET(एक नई विंडो में खुलेगा) से टास्क डेटा का इस्तेमाल किया, जो अमेरिकी व्यावसायिक जानकारी का एक डेटाबेस है, जिसे अमेरिकी सरकार द्वारा स्पॉन्सर किया गया है. श्रम विभाग. हमने क्लासिफ़ाई किया कि O*NET में हरेक व्यवसाय के लिए हरेक टास्क नॉलेज वर्क था या फ़िज़िकल काम/मैन्युअल लेबर (जिसमें फ़िज़िकल दुनिया में कार्रवाई करने की ज़रुरत होती है). एक व्यवसाय को समग्र रूप से “आम तौर पर नॉलेज वर्क” के तौर पर योग्य माना जाता है अगर उसके कंपोनेंट टास्क में से कम से कम 60% को फ़िज़िकल काम या मैनुअल लेबर से संबंधित नहीं माना जाता है. हमने इस 60% सीमा को GDPval के पहले वर्ज़न के लिए एक स्टार्टिंग पॉइंट के तौर पर चुना, जिसमें उन व्यवसायों पर फ़ोकस किया गया जहां AI का असली दुनिया की प्रोडक्टिविटी पर सबसे ज़्यादा असर हो सकता है. 

इस प्रोसेस से इंक्लूशन हेतु 44 व्यवसाय प्राप्त हुए.

रियल एस्टेट और किराया और पट्टे

  • कॉनसियर्ज़

  • प्रॉपर्टी, रियल एस्टेट, और कम्युनिटी एसोसिएशन मैनेजर्स

  • रियल एस्टेट सेल्स एजेंट्स

  • रियल एस्टेट ब्रोकर्स

  • काउंटर और रेंटल क्लर्क

सरकार

  • मनोरंजन कर्मी

  • कंप्लायंस ऑफ़िसर्स

  • पुलिस और जासूसों के फ़र्स्ट-लाइन सुपरवाइज़र्स

  • एडमिनिस्ट्रेटिव सर्विसेज़ मैनेजर्स

  • बाल, परिवार और स्कूल सामाजिक कार्यकर्ता

मैन्युफ़ैक्चरिंग

  • मैकेनिकल इंजीनियर्स

  • इंडस्ट्रियल इंजीनियर्स

  • खरीदार और परचेज़िंग एजेंट्स

  • शिपिंग, प्राप्ति, और इन्वेंट्री क्लर्क

  • प्रोडक्शन और ऑपरेटिंग वर्कर्स के फ़र्स्ट-लाइन वर्कर्स

प्रोफ़ेशनल, साइंटिफ़िक, और टेक्निकल सर्विसेज़

  • सॉफ़्टवेयर डेवलपर्स

  • वकील

  • अकाउंटेंट्स और ऑडिटर्स

  • कंप्यूटर और इन्फ़ॉर्मेशन मेनेजर्स

  • प्रोजेक्ट मैनेजमेंट स्पेशलिस्ट

हेल्थ केयर और सामाजिक सहायता

  • रजिस्टर्ड नर्सें

  • नर्स प्रैक्टिशनर्स

  • मेडिकल और हेल्थ सर्विसेज़ मैनेजर्स

  • ऑफ़िस और एडमिनिस्ट्रेटिव सपोर्ट वर्कर्स के फ़र्स्ट-लाइन सुपरवाइज़र्स

  • मेडिकल सेक्रेटरीज़ और एडमिनिस्ट्रेटिव असिस्टेंट्स

फ़ाइनेंस और इंश्योरेंस

  • कस्टमर सर्विस रिप्रेज़ेन्टेटिव्स

  • फ़ाइनेंशियल और इन्वेस्टमेंट एनैलिस्ट्स

  • फ़ाइनेंशियल मैनेजर्स

  • पर्सनल फ़ाइनेंशियल एडवाइज़र्स

  • सिक्यूरिटीज़, कमोडिटीज़ और फ़ाइनेंशियल सर्विसेज़ के सेल्स एजेंट्स

रिटेल ट्रेड

  • फ़ार्मासिस्ट

  • रिटेल सेल्स वर्कर्स के फ़र्स्ट-लाइन वर्कर्स

  • जनरल एवं ऑपरेशन्स मैनेजर्स

  • प्राइवेट जासूस और जांचकर्ता

थोक का काम

  • सेल्स मैनेजर्स

  • आर्डर क्लर्क

  • नॉन-रिटेल सेल्स वर्कर्स के फ़र्स्ट-लाइन वर्कर्स

  • सेल्स रिप्रेज़ेन्टेटिव्स, थोक और मैन्युफ़ैक्चरिंग, टेक्निकल और साइंटिफ़िक प्रोडक्ट्स को छोड़कर

  • सेल्स रिप्रेज़ेन्टेटिव्स, थोक और मैन्युफ़ैक्चरिंग, टेक्निकल और साइंटिफ़िक प्रोडक्ट्स

जानकारी

  • ऑडियो और वीडियो टेक्नीशियन्स

  • निर्माता और निर्देशक

  • न्यूज़ एनैलिस्ट, रिपोर्टर्स, और पत्रकार

  • फ़िल्म और वीडियो एडिटर्स

  • एडिटर्स

GDPval 9 सेक्टर्स में 44 नॉलेज वाले काम के पेशों को कवर करता है, जिसमें सॉफ़्टवेयर डेवलपर्स और वकीलों से लेकर रजिस्टर्ड नर्सें और मैकेनिकल इंजीनियर्स तक शामिल हैं. इन पेशों को उनकी आर्थिक महत्वता के आधार पर चुना गया और ये उन तरह के रोज़मर्रा के काम को रिप्रेज़ेंट करते हैं जहां AI प्रोफ़ेशनल्स की सार्थक तरीके से मदद कर सकता है.

हमने डेटासेट कैसे बनाया

हरेक पेशे के लिए, हमने अनुभवी प्रोफ़ेशनल्स के साथ मिलकर ऐसे रिप्रेज़ेन्टेटिव टास्क तैयार किए जो उनके रोज़मर्रा के काम को रिफ़्लेक्ट करते हों. इन प्रोफ़ेशनल्स के पास औसतन 14 साल का अनुभव था, और विकास का उनका रिकार्ड भी मज़बूत था. हमने जानबूझकर—अलग-अलग क्षेत्रों के वकीलों और अलग-अलग साइज़ की फ़र्मों—जैसे एक्सपर्ट्स को भर्ती किया, ताकि रिप्रेज़ेन्टेटिवनेस को मैक्सिमाइज़ किया जा सके.

हरेक टास्क एक मल्टी-स्टेप रिव्यु प्रोसेस से गुज़रा, ताकि ये पक्का किया जा सके कि ये असली काम को रिप्रेज़ेंट करता है, किसी दूसरे प्रोफ़ेशनल के लिए पूरा करने लायक है, और इवैल्यूएशन के लिए क्लियर है. औसतन, हरेक टास्क को एक्सपर्ट रिव्यु के 5 राउंड्स मिले, जिसमें दूसरे टास्क राइटर्स, अतिरिक्त ऑक्यूपेशनल रिव्युअर्स, और मॉडल-बेस्ड वैलिडेशन द्वारा जांच शामिल थी. 

तैयार किए गए डेटासेट में प्रति व्यवसाय 30 पूरी तरह से रिव्यु किए गए टास्क (फ़ुल-सेट) शामिल हैं, जिनमें से 5 टास्क हमारे ओपन-सोर्स गोल्ड सेट में प्रति व्यवसाय हैं, जो असली दुनिया के नॉलेज वर्क पर मॉडल के परफ़ॉर्मेंस का इवैल्यूएशन करने के लिए एक मज़बूत आधार प्रदान करता है.

GDPval टास्क के एग्ज़ाम्पल्स

प्रॉम्प्ट + टास्क कॉन्टेक्स्ट

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

सोचा-समझा ह्यूमन जवाब

केबल रील के डिज़ाइन का एक्सप्लोडेड व्यू
GDPval में हरेक टास्क एक अनुभवी प्रोफ़ेशनल द्वारा डिज़ाइन किया गया है और उनके व्यवसाय से जुड़े असली नॉलेज काम को दर्शाता है. प्रॉम्प्ट एक डोमेन एक्सपर्ट द्वारा बनाया गया एक रीयलिस्टिक टास्क असाइनमेंट है, और गोल्ड डिलीवरेबल एक्सपर्ट का खुद का समाधान है.

हम मॉडल के परफ़ॉर्मेंस को कैसे ग्रेड करते हैं

GDPval टास्क पर मॉडल के परफ़ॉर्मेंस का इवैल्यूएशन करने के लिए, हम एक्सपर्ट "ग्रेडर्स" पर भरोसा करते हैं—जो डेटासेट में रिप्रेज़ेंट गए समान पेशों के अनुभवी प्रोफ़ेशनल्स का एक ग्रुप है. ये ग्रेडर्स मॉडल द्वारा तैयार किए गए टास्क की तुलना टास्क राइटर्स द्वारा तैयार किए गए टास्क से करते हैं (ये नहीं जानते कि कौन-सा AI द्वारा तैयार किया गया है और कौन-सा ह्यूमन द्वारा तैयार किया गया है), और आलोचना और रैंकिंग देते हैं. इसके बाद ग्रेडर्स ह्यूमन और AI डिलीवरेबल्स को रैंक करते हैं और हरेक AI डिलीवरेबल को एक दूसरे से “बेहतर”, “उतना ही अच्छा”, या “एक दूसरे से बदतर” के तौर पर क्लासिफ़ाई करते हैं.

टास्क राइटर्स ने अपने पेशों के लिए डिटेल में स्कोरिंग रूब्रिक्स भी बनाए, जो ग्रेडिंग प्रोसेस में स्थिरता और ट्रांसपेरेंसी जोड़ते हैं. हमने एक "ऑटोमेटेड ग्रेडर" भी बनाया, जो एक ऐसा AI सिस्टम है जो ये अंदाज़ा लगाने के लिए ट्रेन किया गया है कि ह्यूमन एक्सपर्ट्स किसी दिए गए डिलीवरेबल को कैसे जज करेंगे. दूसरे शब्दों में, हर बार एक पूरा एक्सपर्ट रिव्यु करने के बजाय, ऑटोमेटेड ग्रेडर जल्दी से ये अनुमान लगा सकता है कि लोग किस आउटपुट को ज़्यादा पसंद करेंगे. हम इस टूल को evals.openai.com के ज़रिये एक एक्सपेरिमेंटल रिसर्च सेर्विए के तौर पर रिलीज़ कर रहे हैं, लेकिन ये अभी भी एक्सपर्टञ ग्रेडर्स जितना भरोसेमंद नहीं है, इसलिए हम उनकी जगह इसका इस्तेमाल नहीं करते हैं. 

शुरूआती रिज़ल्ट्स

हमने पाया कि आज के बेस्ट फ़्रंटियर मॉडल पहले से ही इंडस्ट्री एक्सपर्ट्स द्वारा किए गए काम की क्वालिटी के करीब पहुंच रहे हैं. इसे टेस्ट करने के लिए, हमने ब्लाइंड इवैल्यूएशन्स किए, जिसमें इंडस्ट्री एक्सपर्ट्स ने कई लीडिंग मॉडल्स—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, और Grok 4—के डिलीवरेबल्स की तुलना ह्यूमन द्वारा किए गए काम से की. GDPval गोल्ड सेट में 220 टास्क में, हमने रिकॉर्ड किया कि कब मॉडल आउटपुट को इंडस्ट्री एक्सपर्ट्स के डिलीवरेबल्स से बेहतर ("जीत") या बराबर ("टाई") के तौर पर रेट किया गया था, जैसा कि नीचे दिए गए बार चार्ट में दिखाया गया है. Claude Opus 4.1 इस सेट में सबसे अच्छा परफ़ॉर्म करने वाला मॉडल था, जो ख़ास तौर से सौंदर्यशास्त्र (जैसे, डॉक्यूमेंट कन्वर्ज़न, स्लाइड लेआउट) पर शानदार था, और GPT‑5 ख़ास तौर से एक्यूरेसी (जैसे, डोमेन से जुड़ा ख़ास नॉलेज प्राप्त करना) पर बेहतरीन था. हम इन टास्क में समय के साथ क्लियर प्रोग्रेस भी देख रहे हैं. एक क्लियर लीनियरट ट्रेंड को फ़ॉलो करते हुए, GPT‑4o (2024 के स्प्रिंग में रिलीज़ किया गया) से GPT‑5 (2025 की गर्मियों में रिलीज़ किया गया) तक परफ़ॉर्मेंस दोगुने से ज़्यादा हो गया है.

इसके अलावा, हमने पाया कि फ़्रंटियर मॉडल्स GDPval टास्क को इंडस्ट्री एक्सपर्ट्स के मुकाबले लगभग 100 गुना तेज़ी से और 100 गुना सस्ते में पूरा कर सकते हैं. हालांकि, ये आंकड़े सिर्फ़ मॉडल का असली इन्फ़रेंस टाइम और API बिलिंग रेट्स को दर्शाते हैं, और इसलिए हमारे मॉडल्स का इस्तेमाल करने के लिए रियल वर्कस्पेस सेटिंग्स में ज़रूरी मानवीय निरीक्षण, बार-बार होने, और इंटीग्रेशन के स्टेप्स को शामिल नहीं करते हैं. फ़िर भी, ख़ास कर उन टास्क के सबसेट पर जहां मॉडल ख़ास तौर से मज़बूत हैं, हम उम्मीद करते हैं कि किसी टास्क को एक ह्यूमन के साथ आज़माने से पहले मॉडल को देने से समय और खर्चे की बचत होगी.

एक्सपर्टञ ग्रेडर्स ने लीडिंग मॉडल्स से मिले रिज़ल्ट्स की तुलना ह्यूमन एक्सपर्ट्स से की. आज के लीडिंग मॉडल्स पहले से ही इंडस्ट्री एक्सपर्ट्स द्वारा किए गए काम की क्वालिटी के करीब पहुंच रहे हैं. Claude Opus 4.1 ने लगभग आधे टास्क में इंसानों के बराबर या उनसे बेहतर आउटपुट दिए.

GPT‑4o से GPT‑5 तक, GDPval टास्क पर परफ़ॉर्मेंस एक साल में तीन गुना से ज़्यादा हो गया. 

आखिर में, हमने GPT‑5 के एक इंटर्नल, एक्सपेरिमेंटल वर्ज़न को धीरे-धीरे ट्रेन किया, ताकि ये आंका जा सके कि क्या हम GDPval पर परफ़ॉर्मेंस में सुधार कर सकते हैं. हमने पाया कि इस प्रोसेस से परफ़ॉर्मेंस में सुधार हुआ, जिससे आगे और सुधार की संभावना बनी. दूसरे कंट्रोल्ड एक्सपेरिमेंट्स भी इसे सपोर्ट करते हैं: मॉडल की साइज़ बढ़ाना, और ज़्यादा रीज़निंग स्टेप्स को प्रोत्साहित करना, और ज़्यादा गहन टास्क कॉन्टेक्स्ट देना, हरेक ने मापनीय सुधार दिखाए.

आप पूरे रिज़ल्ट्स हमारे पेपर में पढ़ सकते हैं. हम GDPval टास्क का एक गोल्ड सबसेट और एक पब्लिक ग्रेडिंग सर्विस भी रिलीज़ कर रहे हैं ताकि दूसरे रिसर्चर्स इस काम पर आगे और बना सकें.

काम और AI का भविष्य 

जैसे-जैसे AI ज़्यादा कैपेबल होता जाएगा, ये शायद जॉब मार्केट में बदलाव लाएगा. शुरूआती GDPval रिज़ल्ट्स दिखाते हैं कि मॉडल पहले से ही कुछ दोहराव वाले, अच्छी तरह से बताए गए टास्क को एक्सपर्ट्स के मुकाबले तेज़ी से और कम खर्चे पर कर सकते हैं. हालांकि, ज़्यादातर नौकरियां सिर्फ़ लिखित तौर पर लिखे जा सकने वाले टास्क के एक कलेक्शन से कहीं ज़्यादा होती हैं. GDPval ने इस बात को हाईलाइट किया है कि AI कैसे रूटीन टास्क को हैंडल कर सकता है, ताकि लोग काम के क्रिएटिव, जजमेंट-हेवी पार्ट्स पर ज़्यादा समय बिता सकें. जब AI इस तरह से वर्कर्स का सहायक बनता है तो ये अहम आर्थिक विकास में बदल सकता है. हमारा लक्ष्य है कि सभी को AI के “ऊपर जाने वाले लिफ़्ट” में बनाए रखा जाए, यानी इन टूल्स तक सभी के लिए समान एक्सेस पक्का करना, बदलाव के दौरान काम करने वालों को सपोर्ट करना, और ऐसे सिस्म्स बनाना जो बड़े पैमाने पर योगदान को पुरस्कृत करें. 

सीमाएं और आगे क्‍या है

GDPval एक शुरूआती कदम है. हालांकि इसमें 44 व्यवसाय और सैकड़ों टास्क शामिल हैं, फ़िर भी हम अपनी टेस्टिंग के दायरे को बढ़ाने और रिज़ल्ट्स को और ज़्यादा सार्थक बनाने के लिए अपने नज़रिए को सुधारना जारी रखे हुए हैं. इवैल्यूएशन का मौजूदा वर्ज़न भी एक-बारगी है, इसलिए ये उन मामलों को शामिल नहीं करता है जहां मॉडल को कॉन्टेक्स्ट बनाने या कई ड्राफ़्ट के ज़रिये सुधार करने की ज़रुरत पड़ेगी—जैसे कि, क्लाइंट फ़ीडबैक के बाद एक लीगल ब्रीफ़ में सुधार करना या किसी असामान्य स्थिति को देखने के बाद डेटा एनैलिसिस में बार-बार सुधार करना. इसके अलावा, असली दुनिया में, टास्क को हमेशा एक प्रॉम्प्ट और रेफ़रेंस फ़ाइलों के साथ क्लियर तरीके से डिफ़ाइन नहीं किया जाता है; जैसे कि, एक वकील को अस्पष्टता से निपटना पड़ सकता है और अपने क्लाइंट से बात करनी पड़ सकती है, इससे पहले कि वो ये फ़ैसला ले कि एक लीगल ब्रीफ़ तैयार करना उनकी मदद करने के लिए सही अप्रोच है. हम GDPval को और आगे बढ़ाने का प्लैन कर रहे हैं, ताकि इसमें और ज़्यादा व्यवसायों, इंडस्ट्रीज़, और टास्क टाइप्स को शामिल किया जा सके, जिससे इंटरेक्टिवीटी बढ़े, और अस्पष्टता से निपटने वाले ज़्यादा टास्क शामिल हों, व इसका लॉन्ग-टर्म लक्ष्य नॉलेज के कई कामों में प्रोग्रेस को बेहतर ढंग से मापना है.

शामिल हों

कम्युनिटी की भागीदारी ज़रूरी है—हम बेहद उत्साहित हैं कि हम GDPval को उन रिसर्चर्स, प्रैक्टिशनर्स, और ऑर्गनाइज़ेशन्स के साथ मिलकर बना रहे हैं, जो काम पर लोगों के लिए AGI को ज़्यादा मददगार बनाने के हमारे लक्ष्य को शेयर करते हैं.