19 नवंबर 2025

कैसे इवैल्स बिज़नेस के लिए AI के अगले चैप्टर को आगे बढ़ाते हैं

यह प्राइमर बिज़नेस लीडर्स को समझाता है कि इवैल्यूएशन फ़्रेमवर्क्स (“इवैल्स”) कैसे बिज़नेस उद्देश्यों को लगातार मिलने वाले रिज़ल्ट्स में बदलते हैं.

लोड किया जा रहा है...

दुनिया भर में दस लाख से ज़्यादा बिज़नेस⁠ से भी ज़्यादा बिज़नेस AI का उपयोग कर रहे हैं ताकि बेहतर एफिशिएंसी मिले और ज़्यादा वैल्यू क्रिएशन हो सके.लेकिन कुछ ऑर्गनाइज़ेशन्स को अपनी उम्मीदों के मुताबिक़ रिज़ल्ट्स पाने में मुश्किल हुई है.यह गैप किस वजह से हो रहा है?

OpenAI में हम अपने बड़े गोल्स हासिल करने के लिए अंदरूनी तौर पर AI का उपयोग कर रहे हैं.हम जिन अहम टूल्स का इस्तेमाल करते हैं, उनमें से एक हैं इवैल्स—ऐसे तरीके जिनसे हम किसी AI सिस्टम की उम्मीदों पर खरा उतरने की क्षमता को मापते और बेहतर बनाते हैं.

प्रॉडक्ट रिक्वायरमेंट डॉक्यूमेंट्स की तरह, इवैल्स धुंधले गोल्स और अमूर्त आइडियाज़ को साफ़-साफ़, विशेष रूप से परिभाषित कर देते हैं.इवैल्स का स्ट्रेटेजिक इस्तेमाल किसी कस्टमर-फेसिंग प्रॉडक्ट या इंटरनल टूल को बड़े पैमाने पर ज़्यादा भरोसेमंद बना सकता है, हाई-सीवेरिटी एरर्स कम कर सकता है, डाउनसाइड रिस्क से बचा सकता है, और किसी ऑर्गनाइज़ेशन को हाई ROI तक पहुँचने का एक मापने योग्य रास्ता दे सकता है.

OpenAI में, हमारे मॉडल ही हमारे प्रॉडक्ट्स हैं, इसलिए हमारे रिसर्चर्स अलग-अलग डोमेन्स में मॉडल्स कितना अच्छा परफ़ॉर्म करते हैं, यह मापने के लिए सख़्त फ़्रंटियर इवैल्स⁠(एक नई विंडो में खुलेगा) ¹ का उपयोग करते हैं.फ़्रंटियर इवैल्स हमें बेहतर मॉडल जल्दी शिप करने में मदद करते हैं, लेकिन वे हर वह बारीकी नहीं दिखा सकते जो किसी खास वर्कफ़्लो या खास बिज़नेस सेटिंग में मॉडल के सही परफ़ॉर्म करने के लिए ज़रूरी होती है.इसी वजह से इंटरनल टीमों ने दर्जनों कॉन्टेक्स्चुअल इवैल्स भी तैयार किए हैं, जो किसी खास प्रॉडक्ट या इंटरनल वर्कफ़्लो के भीतर परफ़ॉर्मेंस को आंकने के लिए बनाए गए हैं.इसीलिए बिज़नेस लीडर्स को यह सीखना चाहिए कि अपनी ऑर्गनाइज़ेशन की ज़रूरतों और ऑपरेटिंग एन्वायरनमेंट के हिसाब से कॉन्टेक्स्चुअल इवैल्स कैसे बनाए जाएँ.

यह उन बिज़नेस लीडर्स के लिए एक प्राइमर है जो अपनी ऑर्गनाइज़ेशन में इवैल्स लागू करना चाहते हैं.कॉन्टेक्स्चुअल इवैल्स, जिन्हें हर ऑर्गनाइज़ेशन के खास वर्कफ़्लो या प्रॉडक्ट के लिए तैयार किया जाता है, अभी भी तेज़ी से विकसित हो रहे हैं और इनके लिए पक्की प्रक्रियाएँ अभी बननी बाकी हैं.इस वजह से, यह आर्टिकल एक व्यापक फ़्रेमवर्क देता है जिसे हमने कई अलग-अलग स्थितियों में प्रभावी होते देखा है.हम उम्मीद करते हैं कि यह फ़ील्ड आगे विकसित होगी और ऐसे और फ़्रेमवर्क सामने आएँगे जो खास बिज़नेस कॉन्टेक्स्ट्स और गोल्स को बेहतर तरीके से एड्रेस करें.मसलन, किसी अत्याधुनिक AI-एनेबल्ड कंज़्यूमर प्रॉडक्ट के लिए बेहतरीन इवैल बनाने की प्रक्रिया, एक स्टैंडर्ड ऑपरेटिंग प्रोसिज़र पर आधारित इंटरनल ऑटोमेशन के इवैल से बिल्कुल अलग हो सकती है.हमें लगता है कि नीचे दिया गया फ़्रेमवर्क दोनों ही मामलों में एक बेहतरीन बेस्ट-प्रैक्टिस कलेक्शन साबित होगा, और आपकी ऑर्गनाइज़ेशन की ज़रूरतों के हिसाब से तैयार किए गए इवैल्स बनाने में एक उपयोगी गाइड भी रहेगा.

इवैल्स कैसे काम करते हैं: स्पेसिफ़ाई → मेज़र → इम्प्रूव

“Eval Blog” शीर्षक वाला डायग्राम, जिसमें इवैल्यूएशन कम्पोनेंट्स और प्रोसिसेज़ का फ़्लो दिखाया गया है—हल्के बैकग्राउंड पर रंग-बिरंगे ब्लॉक्स और एरोज़ के साथ, जो मॉडल इवैल्यूएशन लॉजिक को दर्शाते हैं.

1. स्पेसिफ़ाई: “ग्रेट” का मतलब क्या है, इसे साफ़-साफ़ तय करें

एक छोटी, सक्षम टीम से शुरुआत करें जो आपके AI सिस्टम का मकसद सीधे, साधारण शब्दों में लिख सके. उदाहरण के लिए: “ब्रांड की टोन बनाए रखते हुए क्वॉलिफ़ाइड इनबाउंड ईमेल्स को शेड्यूल्ड डेमोज़ में बदलना.”

इस टीम में ऐसे लोग होने चाहिए जिनके पास टेक्निकल और डोमेन दोनों तरह की एक्सपर्टीज़ हो (जैसे इस उदाहरण में, टीम में सेल्स एक्सपर्ट्स होना ज़रूरी है).उन्हें यह बताने में सक्षम होना चाहिए कि किन आउटकम्स को मापना सबसे ज़रूरी है, पूरे वर्कफ़्लो को एंड-टू-एंड लिखना चाहिए, और यह पहचानना चाहिए कि आपका AI सिस्टम किन-किन अहम डिसीज़न पॉइंट्स से गुज़रेगा.वर्कफ़्लो के हर स्टेप पर टीम को यह तय करना चाहिए कि सफलता कैसी दिखती है और किन चीज़ों से बचना है.यह प्रक्रिया दर्जनों उदाहरण इनपुट्स का एक मैपिंग तैयार करेगी (जैसे.इनबाउंड ईमेल) को उन आउटपुट्स से जोड़ना जिन्हें आप सिस्टम से बनवाना चाहते हैं.इस तरह तैयार हुआ गोल्डन सेट आपकी सबसे अनुभवी एक्सपर्ट्स की समझ और “ग्रेट” कैसा दिखता है—इसके उनके जजमेंट और पसंद का एक हमेशा अपडेट होने वाला, भरोसेमंद रेफ़रेंस होना चाहिए.

कोल्ड स्टार्ट से डरें नहीं और न ही सब कुछ एक ही बार में हल करने की कोशिश करें.यह प्रक्रिया इटरेटिव होती है और कभी-कभी थोड़ी बिखरी हुई भी लग सकती है.शुरुआती प्रोटोटाइपिंग बहुत मदद कर सकती है.सिस्टम के शुरुआती वर्ज़न के 50 से 100 आउटपुट्स की समीक्षा करने से यह साफ़ पता चल जाएगा कि आपका सिस्टम कहाँ और कब फ़ेल हो रहा है.यह “एरर एनालिसिस” अलग–अलग तरह की गलतियों (और उनकी फ़्रीक्वेंसी) की एक टैक्सोनॉमी तैयार करेगा, जिसे आपका सिस्टम बेहतर होते समय ट्रैक किया जा सकता है.

यह प्रक्रिया पूरी तरह टेक्निकल नहीं है—यह क्रॉस-फ़ंक्शनल है और इसका केंद्र बिज़नेस गोल्स और ज़रूरी प्रोसिसेज़ को तय करना है.टेक्निकल टीमों को अकेले यह तय करने के लिए नहीं कहा जाना चाहिए कि ग्राहकों के लिए क्या सबसे बेहतर है या प्रॉडक्ट, सेल्स, या HR जैसी दूसरी टीमों की ज़रूरतें क्या हैं.इसी वजह से डोमेन एक्सपर्ट्स, टेक्निकल लीड्स और अन्य अहम स्टेकहोल्डर्स को मिलकर ओनरशिप साझा करनी चाहिए.

2. मेज़र: रियल-वर्ल्ड कंडीशन्स के खिलाफ़ टेस्ट करें

अगला स्टेप है मेज़र करना.मेज़रमेंट का मकसद यह भरोसेमंद तरीके से सामने लाना है कि सिस्टम कब और कैसे फ़ेल हो रहा है—इसके ठोस उदाहरण.इसके लिए, एक डेडिकेटेड टेस्ट एन्वायरनमेंट बनाएँ जो रियल-वर्ल्ड कंडीशन्स से काफ़ी हद तक मिलता-जुलता हो—सिर्फ़ एक डेमो या प्रॉम्प्ट प्लेग्राउंड नहीं.परफ़ॉर्मेंस का आकलन अपने गोल्डन सेट और एरर एनालिसिस के हिसाब से, ठीक उसी प्रेशर और उन्हीं एज केसज़ में करें, जिनका आपका सिस्टम वाकई में सामना करेगा.

रुब्रिक्स आपके सिस्टम के आउटपुट्स को जज करने में ठोसपन ला सकते हैं, लेकिन कभी-कभी ओवरऑल गोल्स की कीमत पर सतही चीज़ों पर ज़रूरत से ज़्यादा ज़ोर दे दिया जाता है.इसके अलावा, कुछ क्वॉलिटीज़ ऐसी होती हैं जिन्हें मापना बहुत मुश्किल या कभी-कभी नामुमकिन होता है.कुछ मामलों में पारंपरिक बिज़नेस मेट्रिक्स अहम भूमिका निभाएँगे.कुछ मामलों में, आपको नए मेट्रिक्स खुद बनाने पड़ेंगे.पूरी प्रक्रिया के दौरान अपने सब्जेक्ट मैटर एक्सपर्ट्स को शामिल रखें, और हर स्टेप को अपने कोर ऑब्जेक्टिव्स से मज़बूती से जोड़कर चलें.

सिस्टम को सच में टेस्ट करने के लिए, जहाँ भी मुमकिन हो रियल-वर्ल्ड स्थितियों से लिए गए उदाहरणों का उपयोग करें, और ऐसे एज केस भी शामिल करें या बनाएँ जो दुर्लभ हों लेकिन गलत हैंडल होने पर भारी नुकसान पहुँचा सकते हों.

कुछ इवैल्स को एक LLM ग्रेडर के ज़रिए स्केल किया जा सकता है—एक ऐसा AI मॉडल जो आउटपुट्स को ठीक उसी तरह ग्रेड करता है जैसे कोई एक्सपर्ट करता है; फिर भी, लूप में एक ह्यूमन को शामिल रखना बेहद ज़रूरी रहता है.आपके डोमेन एक्सपर्ट को LLM ग्रेडर्स की एक्युरेसी की नियमित ऑडिट करनी चाहिए और साथ ही आपके सिस्टम के व्यवहार के लॉग्स को सीधे रिव्यू भी करना चाहिए.

इवैल्स यह तय करने में मदद कर सकते हैं कि सिस्टम लॉन्च के लिए तैयार है या नहीं, लेकिन काम लॉन्च पर आकर रुकता नहीं है.आपको अपने सिस्टम द्वारा रियल इनपुट्स से उत्पन्न होने वाले रियल आउटपुट्स की क्वॉलिटी को लगातार मेज़र करते रहना चाहिए.हर प्रॉडक्ट की तरह, आपके एंड-यूज़र्स से मिलने वाले सिग्नल्स (चाहे वे एक्सटर्नल हों या इंटरनल) बेहद अहम होते हैं और इन्हें आपके इवैल में शामिल किया जाना चाहिए.

3. इम्प्रूव: गलतियों से सीखें

आख़िरी स्टेप है लगातार सुधार के लिए एक प्रक्रिया तैयार करना.आपके इवैल में सामने आई समस्याओं को ठीक करने के कई तरीके हो सकते हैं: प्रॉम्प्ट्स को रिफ़ाइन करना, डेटा एक्सेस को एडजस्ट करना, अपने गोल्स को बेहतर दर्शाने के लिए खुद इवैल को अपडेट करना, और भी बहुत कुछ.जैसे-जैसे आपको नई तरह की गलतियाँ पता चलें, उन्हें अपनी एरर एनालिसिस में जोड़ें और उनका समाधान करें.हर इटरेशन पिछले वाले पर ही आगे बनता है: नए क्राइटेरिया और सिस्टम के व्यवहार की ज़्यादा साफ़ उम्मीदें नए एज केस और गहरी, जिद्दी समस्याएँ सामने लाने में मदद करती हैं जिन्हें ठीक किया जा सके.

इस इटरेशन को सपोर्ट करने के लिए, एक डेटा फ़्लाइवील तैयार करें.इनपुट्स, आउटपुट्स और आउटकम्स को लॉग करें; उन लॉग्स को तय समय पर सैंपल करें और जो केस अस्पष्ट हों या महँगे पड़ सकते हों उन्हें अपने आप एक्सपर्ट रिव्यू के लिए भेजें.इन एक्सपर्ट जजमेंट्स को अपने इवैल और एरर एनालिसिस में जोड़ें, और फिर इन्हें प्रॉम्प्ट्स, टूल्स या मॉडल्स को अपडेट करने में इस्तेमाल करें.इस लूप के ज़रिए आप सिस्टम से अपनी उम्मीदों को और साफ़ तौर पर तय करेंगे, सिस्टम को उन उम्मीदों के साथ और मज़बूती से जोड़ेंगे, और ट्रैक करने के लिए अतिरिक्त प्रासंगिक आउटपुट्स और आउटकम्स पहचान पाएँगे.इस प्रक्रिया को बड़े पैमाने पर लागू करने से एक बड़ा, अलग तरह का और कॉन्टेक्स्ट-विशिष्ट डेटा सेट तैयार होता है, जिसे कॉपी करना मुश्किल होता है—और यही आपकी ऑर्गनाइज़ेशन के लिए एक कीमती एसेट बन जाता है, जिसे आप अपने मार्केट में सबसे बेहतरीन प्रॉडक्ट या प्रॉसेस बनाने में इस्तेमाल कर सकते हैं.

जहाँ इवैल्स आपके AI सिस्टम को सुधारने का एक व्यवस्थित तरीका बनाते हैं, वहीं नए तरह के फ़ेलियर मोड्स भी सामने आ सकते हैं.व्यवहार में, जैसे मॉडल्स, डेटा और बिज़नेस गोल्स बदलते रहते हैं, वैसे ही इवैल्स को भी लगातार मेंटेन, एक्सपैंड और स्ट्रेस-टेस्ट किया जाना ज़रूरी होता है.

एक्सटर्नल-फेसिंग डिप्लॉयमेंट्स में, इवैल्स पारंपरिक A/B टेस्ट्स और प्रॉडक्ट एक्सपेरिमेंटेशन की जगह नहीं लेते.ये पारंपरिक एक्सपेरिमेंटेशन के पूरक होते हैं—जो एक-दूसरे को गाइड करने में मदद करते हैं और यह साफ़ दिखाते हैं कि आपके किए गए बदलाव रियल-वर्ल्ड परफ़ॉर्मेंस पर क्या असर डालते हैं.

बिज़नेस लीडर्स के लिए इवैल्स का क्या मतलब है

हर बड़ी टेक्नोलॉजी शिफ्ट ऑपरेशनल एक्सिलेंस और कॉम्पिटिटिव ऐडवांटेज को नए सिरे से बदल देती है.OKRs और KPIs जैसे फ़्रेमवर्क्स ने बिग डेटा एनालिटिक्स के दौर में ऑर्गनाइज़ेशन्स को अपने बिज़नेस के लिए “क्या सबसे मायने रखता है” इसे मापने की दिशा में आगे बढ़ने में मदद की है.AI के दौर में मेज़रमेंट का स्वाभाविक विस्तार इवैल्स ही हैं.

प्रॉबेबिलिस्टिक सिस्टम्स के साथ काम करने के लिए नए तरह के मेज़रमेंट और ट्रेड-ऑफ़्स पर गहरी सोच की ज़रूरत होती है.लीडर्स को यह तय करना होगा कि कब प्रिसीज़न ज़रूरी है, कब वे थोड़ा फ्लेक्सिबल हो सकते हैं, और स्पीड और रिलायबिलिटी के बीच सही संतुलन कैसे बनाया जाए.

इवैल्स को लागू करना उतना ही मुश्किल है जितना बेहतरीन प्रॉडक्ट्स बनाना—क्योंकि इनमें सख़्ती, विज़न और अच्छी समझ (टेस्ट) की ज़रूरत होती है.अगर इन्हें ठीक से किया जाए, तो इवैल्स एक अनोखे डिफ़रेंशिएटर बन जाते हैं.एक ऐसी दुनिया में जहाँ जानकारी हर जगह आसानी से मिल जाती है और एक्सपर्टीज़ सबके लिए खुली है, आपकी असली बढ़त इसी पर टिकी होती है कि आपके सिस्टम आपके कॉन्टेक्स्ट में कितना अच्छे से काम कर पाते हैं.मज़बूत इवैल्स आपके सिस्टम बेहतर होते जाने के साथ-साथ लगातार बढ़ने वाले फ़ायदे और गहरी इंस्टिट्यूशनल नॉलेज तैयार करते हैं.

अपने मूल रूप में, इवैल्स बिज़नेस कॉन्टेक्स्ट और ऑब्जेक्टिव्स की गहरी समझ पर आधारित होते हैं.अगर आप अपने यूज़ केस के लिए “ग्रेट” का मतलब साफ़-साफ़ तय नहीं कर सकते, तो उसके हासिल होने की संभावना भी बहुत कम है.इसी मायने में, इवैल्स AI के दौर का एक अहम सबक साफ़ करते हैं: मैनेजमेंट स्किल्स ही AI स्किल्स हैं.साफ़ गोल्स, सीधा फ़ीडबैक, सोच-समझकर लिया गया जजमेंट, और अपनी वैल्यू प्रपोज़िशन, स्ट्रैटेजी और प्रोसिसेज़ की स्पष्ट समझ—ये सब आज भी उतने ही अहम हैं, शायद पहले से भी ज़्यादा.

जैसे-जैसे और बेस्ट प्रैक्टिसेज़ और फ़्रेमवर्क्स सामने आते जाएँगे, हम उन्हें साझा करते रहेंगे.इस बीच, हम आपको इवैल्स के साथ प्रयोग करने और यह जानने के लिए प्रोत्साहित करते हैं कि आपकी ज़रूरतों के लिए कौन-सी प्रोसिसेज़ सबसे बेहतर काम करती हैं.शुरू करने के लिए, हल की जाने वाली समस्या और अपने डोमेन एक्सपर्ट की पहचान करें, अपनी छोटी टीम को तैयार करें, और अगर आप हमारी API पर काम कर रहे हैं तो हमारे प्लैटफ़ॉर्म डॉक्स⁠(एक नई विंडो में खुलेगा) देखें.

“ग्रेट” की उम्मीद मत करें.इसे स्पेसिफ़ाई करें, मेज़र करें, और उसी दिशा में इम्प्रूव करते जाएँ.

2025

लेखक

OpenAI

फ़ुटनोट

1
अगर आप अगली पीढ़ी के AI मॉडल्स बनाने में हमारे काम को सपोर्ट करना चाहते हैं, तो हम आपको GDPVal⁠ में योगदान देने के लिए आमंत्रित करते हैं—यह हमारा लेटेस्ट बेंचमार्क है, जो दिखाता है कि AI मॉडल्स रियल-वर्ल्ड टास्क्स पर कितना अच्छा परफ़ॉर्म करते हैं.अगर आप एक इंडस्ट्री एक्सपर्ट हैं और GDPVal में योगदान देने में रुचि रखते हैं, तो कृपया यहाँ अपनी रुचि दर्ज करें⁠.अगर आप OpenAI के साथ काम करने वाले कस्टमर हैं और GDPVal के किसी अगले राउंड में योगदान देना चाहते हैं, तो कृपया यहाँ अपनी रुचि बताएं⁠.

पढ़ते रहें

सभी देखें

कोडिंग मूल्यांकनों में संकेत को शोर से अलग करना

रिसर्च8 जुलाई 2026

पेश है GeneBench-Pro

रिसर्च30 जून 2026

A near-autonomous AI chemist improves a challenging reaction

एक लगभग स्वायत्त AI केमिस्ट मेडिसिनल केमिस्ट्री में एक चुनौतीपूर्ण रिएक्शन को बेहतर बनाता है

रिसर्च17 जून 2026