१९ नोव्हेंबर, २०२५

व्यवसायांसाठी एआयमधील पुढील अध्यायात मूल्यांकन कसे चालना देतात

हे प्रायमर व्यवसाय नेत्यांना शिकवते की मूल्यांकन फ्रेमवर्क ('मूल्यांकन') व्यवसाय उद्दिष्टांना सुसंगत निकालांमध्ये कसे रूपांतरित करतात.

लोड होत आहे...

जगभरातील १ दशलक्ष व्यवसाय⁠ अधिक कार्यक्षमता आणि मूल्य निर्मितीसाठी एआयचा वापर करत आहेत. परंतु काही संस्थांना अपेक्षित निकाल मिळविण्यात संघर्ष करावा लागला आहे. हे अंतर कशामुळे निर्माण होत आहे?

OpenAI मध्ये आम्ही आमची महत्त्वाकांक्षी उद्दिष्टे साध्य करण्यासाठी एआयचा अंतर्गत लाभ घेत आहोत. आम्ही वापरत असलेल्या साधनांचा एक महत्त्वाचा संच म्हणजे ईवॉल्स, जे एआय प्रणालीची अपेक्षा पूर्ण करण्याची क्षमता मोजण्यासाठी आणि सुधारण्यासाठी वापरल्या जाणाऱ्या पद्धती आहेत.

उत्पादन आवश्यकता दस्तऐवजांप्रमाणेच, ईव्हाल्स अस्पष्ट ध्येये आणि अमूर्त कल्पना विशिष्ट आणि स्पष्ट बनवतात. धोरणात्मक पद्धतीने evals चा वापर केल्यास ग्राहकाभिमुख उत्पादन किंवा अंतर्गत साधन मोठ्या प्रमाणात अधिक विश्वासार्ह बनू शकते, उच्च-तीव्रतेच्या चुका कमी करता येतात, नकारात्मक जोखमीपासून संरक्षण मिळते आणि संस्थेला उच्च ROI साठी मोजता येण्याजोगा मार्ग मिळतो.

OpenAI मध्ये, आमची मॉडेल्स ही आमची उत्पादने आहेत, त्यामुळे आमचे संशोधक वेगवेगळ्या डोमेनमध्ये मॉडेल्स किती चांगली कामगिरी करतात हे मोजण्यासाठी कठोर फ्रंटियर मूल्यांकन⁠(नवीन विंडोमध्ये उघडेल) ¹ वापरतात. फ्रंटियर मूल्यांकन आम्हाला चांगली मॉडेल्स जलद गतीने वितरित करण्यास मदत करतात, परंतु विशिष्ट Business सेटिंगमध्ये विशिष्ट कार्यप्रवाहावर मॉडेल कार्य करेल याची खात्री करण्यासाठी आवश्यक असलेल्या सर्व बारकावे ते उघड करू शकत नाहीत. म्हणूनच अंतर्गत संघांनी विशिष्ट उत्पादन किंवा अंतर्गत वर्कफ्लोमधील कामगिरीचे मूल्यांकन करण्यासाठी डझनभर काँटेक्चुअल इव्हॅल्स तयार केले आहेत. म्हणूनच Business नेत्यांनी त्यांच्या संस्थेच्या गरजा आणि कार्यरत वातावरणाशी संबंधित संदर्भात्मक मूल्यांकन तयार करा कसे शिकले पाहिजे.

त्यांच्या संस्थांमध्ये इव्हॅल्स लागू करू इच्छिणाऱ्या व्यवसाय नेत्यांसाठी हे एक प्राथमिक मार्गदर्शक आहे. विशिष्ट संस्थेच्या कार्यप्रवाह किंवा उत्पादनासाठी तयार केलेली संदर्भात्मक मूल्यांकनं विकासाच्या सक्रिय क्षेत्रात आहेत आणि निश्चित प्रक्रिया अद्याप उदयास आलेल्या नाहीत. परिणामी, हा लेख एक व्यापक चौकट प्रदान करतो जो आम्ही अनेक परिस्थितींमध्ये कार्य करताना पाहिला आहे. आम्हाला अपेक्षा आहे की हे क्षेत्र विकसित होईल आणि विशिष्ट Business संदर्भ आणि उद्दिष्टांना संबोधित करणारे अधिक फ्रेमवर्क उदयास येतील. उदाहरणार्थ, अत्याधुनिक, एआय-सक्षम केलेले ग्राहक उत्पादनासाठी उत्कृष्ट मूल्यांकनासाठी वेगळी प्रक्रिया आवश्यक असू शकते, जी मानक ऑपरेटिंग प्रक्रियेवर आधारित अंतर्गत ऑटोमेशनसाठी मूल्यांकनापेक्षा भिन्न असेल. आम्हाला विश्वास आहे की खाली सादर केलेली चौकट दोन्ही प्रकरणांमध्ये सर्वोत्तम पद्धतींचा संग्रह म्हणून काम करेल आणि आपल्या संस्थेच्या गरजांनुसार मूल्यांकन तयार करताना एक उपयुक्त मार्गदर्शक असेल.

इव्हल्स कसे कार्य करतात: निर्दिष्ट करा → मोजा → सुधार करा

“Eval Blog” शीर्षक असलेली आकृती मूल्यांकन घटक आणि प्रक्रियांचा प्रवाह दर्शवते, जी हलक्या पार्श्वभूमीवर रंगीत ब्लॉक्स आणि बाणांसह सेट केलेली आहे, जे मॉडेल मूल्यांकन तर्क दर्शवतात.

1. निर्दिष्ट करा: "उत्तम" म्हणजे काय ते परिभाषित करा

लहान, सक्षम टीमपासून सुरुवात करा जी तुमच्या AI प्रणालीचा उद्देश सोप्या शब्दांत लिहू शकेल, उदाहरणार्थ: “ब्रँडवर राहून पात्र इनबाउंड ईमेल्सचे शेड्यूल केलेल्या डेमोमध्ये रूपांतर करा.”

या Team मध्ये तांत्रिक आणि डोमेन तज्ज्ञ व्यक्तींचा समावेश असावा (दिलेल्या उदाहरणात, तुम्हाला Team मध्ये विक्री तज्ञ हवे असतील). ते मोजण्यासाठी सर्वात महत्त्वाचे परिणाम सांगू शकतील, कार्यप्रवाहाची सुरुवातीपासून शेवटपर्यंत रूपरेषा सांगू शकतील आणि तुमच्या AI प्रणालीला येणारा प्रत्येक महत्त्वाचा निर्णय बिंदू ओळखू शकतील. त्या कार्यप्रवाहातील प्रत्येक टप्प्यासाठी, Team ने यश कसे दिसेल आणि काय टाळावे हे परिभाषित केले पाहिजे. ही प्रक्रिया डझनभर उदाहरण इनपुट्सचे मॅपिंग तयार करेल (उदा. इनबाउंड ईमेल) ते सिस्टमला हव्या असलेल्या आउटपुटपर्यंत जोडणे. परिणामी सोनेरी उदाहरणांचा संच आपल्या सर्वात कुशल तज्ञांच्या निर्णयाचा आणि "महान" कसा दिसतो याबद्दल अभिरुचीचा एक जिवंत, अधिकृत संदर्भ असावा.

कोल्ड स्टार्टमुळे दबून जाऊ नका किंवा एकाच वेळी सर्व काही सोडवण्याचा प्रयत्न करू नका. ही प्रक्रिया पुनरावृत्तीशील आणि गोंधळलेली आहे. प्रारंभिक प्रोटोटाइपिंग खूप मदत करू शकते. सिस्टमच्या सुरुवातीच्या आवृत्तीतील ५० ते १०० आउटपुटचे पुनरावलोकन केल्याने आपली प्रणाली कशी आणि केव्हा बिघाड होत आहे हे उघड होईल. या "त्रुटी विश्लेषण" मुळे तुमची प्रणाली सुधारत असताना वेगवेगळ्या त्रुटींचे (आणि त्यांच्या वारंवारतेचे) वर्गीकरण तयार होईल.

ही प्रक्रिया पूर्णपणे तांत्रिक नाही - ती परस्पर-कार्यात्मक आहे आणि व्यवसाय उद्दिष्टे आणि इच्छित प्रक्रिया परिभाषित करण्यावर केंद्रित आहे. ग्राहकांना किंवा उत्पादन, विक्री किंवा मानव संसाधन यासारख्या इतर संघांच्या गरजा काय सर्वोत्तम आहेत हे ठरवण्यासाठी तांत्रिक संघांना स्वतंत्रपणे विचारले जाऊ नये. परिणामी, डोमेन तज्ञ, तांत्रिक नेते आणि इतर प्रमुख भागधारकांनी मालकी सामायिक करावी.

2. मोजमाप: वास्तविक परिस्थितींमध्ये चाचणी करा

पुढची पायरी म्हणजे मोजमाप करणे. मोजमापाचे उद्दिष्ट म्हणजे प्रणाली कशी आणि केव्हा बिघाड होत आहे याची ठोस उदाहरणे विश्वासार्हपणे समोर आणणे. ते करण्यासाठी, एक समर्पित चाचणी वातावरण तयार करा जे वास्तविक जगाच्या परिस्थितीचे बारकाईने प्रतिबिंबित करते - केवळ डेमो किंवा प्रॉम्प्ट Playground नाही. तुमच्या सिस्टमला प्रत्यक्षात ज्या दबावांना आणि एज केसेसना तोंड द्यावे लागेल त्याच दबावांना आणि एज केसेसना तोंड देऊन तुमच्या गोल्डन सेट आणि त्रुटी विश्लेषणाच्या विरोधात कार्यक्षमता मूल्यांकन करा.

रुब्रिक आपल्या प्रणालीतील आउटपुटचे मूल्यांकन करण्यासाठी ठोसपणा आणण्यास मदत करू शकतात, परंतु आपल्या एकूण उद्दिष्टांच्या खर्चावर वरवरच्या गोष्टींवर जास्त भर देणे शक्य आहे. तसेच, काही गुण मोजणे कठीण किंवा अशक्य असतात. काही प्रकरणांमध्ये, पारंपारिक Business मापदंड महत्त्वाचे असतील. इतरांमध्ये, तुम्हाला नवीन मेट्रिक्स शोधावे लागतील. आपल्या विषय तज्ञांना संपूर्ण प्रक्रियेत सामील ठेवा आणि आपल्या मुख्य उद्दिष्टांशी प्रक्रिया घट्टपणे जुळवा.

प्रणालीची प्रत्यक्षात चाचणी घेण्यासाठी, जेव्हा शक्य असेल तेव्हा वास्तविक जगातील परिस्थितीतून काढलेले उदाहरणे वापरा आणि दुर्मिळ परंत.

LLM ग्रेडर चा वापर करून काही मूल्यांकनांचे प्रमाण वाढवता येते, एक AI मॉडेल जे तज्ञाप्रमाणेच आउटपुटचे मूल्यांकन करते; तरीही, माणसाला प्रक्रियेत ठेवणे अद्याप महत्त्वाचे आहे. आपल्या डोमेन तज्ञाने नियमितपणे एलएलएम ग्रेडरची अचूकतेसाठी तपासणी करणे आवश्यक आहे आणि आपल्या प्रणालीच्या वर्तनाचे लॉग थेट पुनरावलोकन करणे देखील आवश्यक आहे.

एखादी प्रणाली कधी लॉन्चसाठी तयार आहे हे ठरविण्यासाठी इव्हल्स तुम्हाला मदत करू शकतात, परंतु ते लॉन्चवर थांबत नाहीत. आपण आपल्या प्रणालीच्या वास्तविक इनपुटमधून उत्पन्न केलेल्या वास्तविक आउटपुटची गुणवत्ता सतत मोजली पाहिजे. कोणत्याही उत्पादनाप्रमाणे, तुमच्या अंतिम वापरकर्त्यांकडून (बाह्य असो वा अंतर्गत) येणारे सिग्नल विशेषतः महत्त्वाचे असतात आणि ते तुमच्या मूल्यांकनात समाविष्ट केले पाहिजेत.

3. सुधारणा करा: त्रुटींमधून शिका

शेवटचा टप्पा म्हणजे सतत सुधारणा करण्यासाठी एक प्रक्रिया स्थापित करणे. तुमच्या eval द्वारे उघड झालेल्या समस्यांचे निराकरण करण्याचे अनेक प्रकार असू शकतात: प्रॉम्प्ट सुधारणे, डेटा प्रवेश समायोजित करणे, तुमची उद्दिष्टे चांगल्या प्रकारे प्रतिबिंबित करण्यासाठी eval स्वतः अद्यतनित करणे आणि असेच बरेच काही. नवीन प्रकारच्या चुका उघडकीस येताच, त्या आपल्या त्रुटी विश्लेषणात जोडा आणि त्यांचे निराकरण करा. प्रत्येक पुनरावृत्ती मागील गोष्टींवर आधारित असते: नवीन निकष आणि सिस्टमच्या वर्तनाच्या स्पष्ट अपेक्षा नवीन काठावरची प्रकरणे आणि दुरुस्त करण्यासाठी सूक्ष्म, हट्टी समस्या उघड करण्यास मदत करतात.

या पुनरावृत्तीला सपोर्ट देण्यासाठी डेटा फ्लायव्हील तयार करा. इनपुट, आउटपुट आणि परिणामांचे लॉग करा; त्या लॉगचे वेळापत्रकानुसार नमुने घ्या आणि संदिग्ध किंवा खर्चिक प्रकरणे तज्ञांच्या पुनरावलोकनाकडे स्वयंचलितपणे पाठवा. आपल्या मूल्यांकन आणि त्रुटी विश्लेषणात हे तज्ञांचे निर्णय जोडा, नंतर प्रॉम्प्ट्स, टूल्स किंवा मॉडेल्स अद्यतनित करण्यासाठी त्यांचा वापर करा. या लूपद्वारे आपण प्रणालीसाठी आपल्या अपेक्षा अधिक स्पष्टपणे परिभाषित कराल, त्या अपेक्षांशी ती अधिक घट्ट जुळवाल आणि ट्रॅक करण्यासाठी अतिरिक्त संबंधित आउटपुट आणि परिणाम ओळखाल. ही प्रक्रिया मोठ्या प्रमाणात तैनात केल्याने एक मोठा, भिन्न, संदर्भ-विशिष्ट डेटासेट मिळतो ज्याची कॉपी करणे कठीण आहे - एक मौल्यवान संपत्ती जी तुमची संस्था तुमच्या बाजारात सर्वोत्तम उत्पादन किंवा प्रक्रिया तयार करताना वापरू शकते.

जरी evals तुमच्या AI प्रणालीमध्ये सुधारणा करण्यासाठी एक पद्धतशीर मार्ग तयार करतात, तरी नवीन अपयश मोड्स उद्भवू शकतात. प्रत्यक्षात, मॉडेल्स, डेटा आणि Business उद्दिष्टे विकसित होत असताना, इव्हल्स देखील सतत राखणे, विस्तारित करणे आणि तणाव-चाचणी करणे आवश्यक आहे.

बाह्य-मुखी तैनातींसाठी, ईव्हाल्स अधिक पारंपारिक A/B चाचण्या आणि उत्पादन प्रयोगांची जागा घेत नाहीत. ते पारंपारिक प्रयोगांना पूरक आहेत जे एकमेकांना मार्गदर्शन करण्यास मदत करू शकतात आणि आपण केलेले बदल वास्तविक जगातील कामगिरीवर कसा परिणाम करतात याची दृश्यमानता प्रदान करू शकतात.

Business नेत्यांसाठी इव्हल्सचा अर्थ काय आहे

प्रत्येक मोठा तंत्रज्ञान बदल कार्यक्षमता उत्कृष्टता आणि स्पर्धात्मक फायदा पुन्हा आकारतो. ओकेआर आणि केपीआय सारख्या फ्रेमवर्कनी संस्थांना मोठ्या डेटा विश्लेषणाच्या युगात त्यांच्या Business साठी "काय महत्त्वाचे आहे ते मोजणे" यावर लक्ष केंद्रित करण्यास मदत केली आहे. एआयच्या युगासाठी मापनाचे नैसर्गिक विस्तार म्हणून इव्हल्स आहेत.

संभाव्य प्रणालींसह काम करताना नवीन प्रकारचे मोजमाप आणि तडजोडींचा सखोल विचार करणे आवश्यक आहे. नेत्यांनी ठरवले पाहिजे की अचूकता कधी आवश्यक आहे, ते कधी अधिक लवचिक असू शकतात आणि वेग आणि विश्वासार्हता कशी संतुलित करायची.

उत्कृष्ट उत्पादने तयार करणे कठीण आहे त्याच तर्कशक्तीस्तव evals अंमलात आणणे कठीण आहे; त्यांना काटेतर्कशक्ती, दृष्टी आणि चव आवश्यक आहे. जर चांगले केले तर, मूल्यांकन अद्वितीय भेदक बनतात. अशा जगात जिथे जगभरात माहिती मुक्तपणे उपलब्ध आहे आणि कौशल्य लोकशाहीकृत आहे, तुमचा फायदा तुमच्या प्रणाली तुमच्या संदर्भात किती चांगल्या प्रकारे कार्यान्वित करू शकतात यावर अवलंबून आहे. मजबूत मूल्यांकन आपल्या प्रणाली सुधारत असताना संमिश्र फायदे आणि संस्थात्मक ज्ञान तयार करतात.

त्यांच्या गाभ्यात, मूल्यांकन म्हणजे व्यवसाय संदर्भ आणि उद्दिष्टांची सखोल समज असणे. जर आपण आपल्या वापराच्या प्रकरणासाठी "उत्कृष्ट" म्हणजे काय हे परिभाषित करू शकत नसाल, तर आपण ते साध्य करण्याची शक्यता कमी आहे. या अर्थाने, इव्हल्स एआय युगातील एक महत्त्वाचा धडा अधोरेखित करतात: व्यवस्थापन कौशल्ये म्हणजे एआय कौशल्ये. स्पष्ट ध्येये, थेट अभिप्राय, विवेकी निर्णय आणि तुमच्या मूल्य प्रस्ताव, रणनीती आणि प्रक्रियांची स्पष्ट समज अजूनही महत्त्वाची आहे, कदाचित पूर्वीपेक्षाही जास्त.

जसजशा अधिक सर्वोत्तम पद्धती आणि चौकटी उदयास येतील तसतशा आम्ही त्या सामायिक करू. दरम्यान, आम्ही आपल्याला मूल्यांकनांसह प्रयोग करण्यास आणि आपल्या गरजांसाठी कोणत्या प्रक्रिया सर्वोत्तम काम करतात हे शोधण्यास प्रोत्साहित करतो. सुरुवात करण्यासाठी, सोडवायची समस्या आणि तुमचे डोमेन तज्ञ ओळखा, तुमची छोटी Team तयार करा आणि जर आपण आमच्या API वर काम करत असाल, तर आमचे प्लॅटफॉर्म डॉक्स⁠(नवीन विंडोमध्ये उघडेल) एक्सप्लोर करणे.

“उत्तम” ची आशा करू नका. ते निर्दिष्ट करा, मोजा आणि त्या दिशेने सुधारणा करा.

2025

लेखक

OpenAI

फूटनोट्स

1
जर आपण एआय मॉडेल्सच्या पुढील पिढीच्या निर्मितीच्या आमच्या कार्यास सपोर्ट देऊ इच्छित असाल, तर आम्ही आपल्याला GDPVal⁠ मध्ये योगदान देण्यासाठी आमंत्रित करतो, जो एआय मॉडेल्सच्या वास्तविक-जगातील कामाचा आमचा नवीनतम बेंचमार्क आहे. जर आपण GDPval मध्ये योगदान देण्यास इच्छुक असलेले उद्योग तज्ञ असाल, तर कृपया येथे आपली आवड दाखवा⁠. जर तुम्ही OpenAI सोबत काम करणारा ग्राहक असाल आणि भविष्यातील GDPval राउंडमध्ये योगदान देऊ इच्छित असाल, तर कृपया येथे तुमची रुची व्यक्त करा⁠.

वाचत राहा

सर्व पहा

कोडिंग मूल्यमापनांमधून सिग्नल आणि गोंगाट वेगळे करणे

रिसर्च८ जुलै, २०२६

GeneBench-Pro सादर करत आहे

रिसर्च३० जून, २०२६

A near-autonomous AI chemist improves a challenging reaction

जवळजवळ स्वायत्त असलेल्या एका AI रसायनशास्त्रज्ञाने औषधीय रसायनशास्त्रातील एक आव्हानात्मक अभिक्रिया सुधारली आहे

रिसर्च१७ जून, २०२६