विश्वसनीय तृतीय-पक्ष मूल्यांकनांसाठी एक सामायिक मार्गदर्शक पुस्तिका
अत्याधुनिक मॉडेल्ससाठी सुरक्षा उपाय आणि क्षमतांच्या प्रभावी स्वतंत्र मूल्यमापनांसाठी काय महत्त्वाचे आहे.
स्वतंत्र, विश्वासार्ह तृतीय-पक्ष मूल्यमापन सुरक्षा परिसंस्था मजबूत करण्यात महत्त्वाची भूमिका बजावतात. ही मूल्यमापने अत्याधुनिक मॉडेल्सवर केली जातात, जेणेकरून महत्त्वाच्या क्षमता आणि सुरक्षा शमनांबाबतच्या दाव्यांसाठी अतिरिक्त पुरावे मिळू शकतील. या पोस्टमध्ये, आम्ही आतापर्यंत शिकलेल्या गोष्टी शेअर करतो आणि अशा मूल्यमापनांची रचना करण्यासाठी काही पद्धती सुचवतो ज्या अत्याधुनिक मॉडेल्सचे वैधपणे मूल्यमापन करू शकतील आणि या क्षेत्रात उदयास येणाऱ्या मानकांना दिशा देण्यास मदत करतील अशी आम्हाला आशा आहे.
पूर्वी, अनेक मूल्यमापनांमध्ये मॉडेल्सना चॅटबॉट्सप्रमाणे वागवले जात असे: मूल्यमापनात मॉडेलला जणू वापरकर्ता प्रश्न विचारत आहे अशा प्रकारे प्रॉम्प्ट दिला जाई, मॉडेल उत्तर देई, आणि मूल्यांकनकर्ता आउटपुटचा निर्णय करी. आजची अत्याधुनिक मॉडेल्स यापेक्षा बरेच काही करू शकतात: ती टूल्स वापरू शकतात, अनेक टप्प्यांमध्ये माहितीचा मागोवा ठेवू शकतात आणि मोठ्या कार्यप्रवाहात कृती करू शकतात. याचा अर्थ कामगिरी फक्त मॉडेलवरच नाही, तर काम ज्या वातावरणात घडते त्यावर आणि त्याच्या कृतींना सक्षम करणाऱ्या सेटअपवरही अवलंबून असते. हा सभोवतालचा सेटअप, ज्याला आम्ही “हार्नेस” म्हणतो, प्रणालीच्या कामगिरीचे महत्त्वाचे पैलू बदलू शकतो, जसे ती टूल्स कशी वापरते, माहितीचा मागोवा कसा ठेवते किंवा चुका झाल्यावर कशी सावरते.
यामुळे मूल्यमापने कशी करावी लागतील आणि मूल्यमापन अहवालांमध्ये वाचकांनी काय पाहावे हे बदलते. आमच्या मते, सर्वात उपयुक्त अहवाल निकालापलीकडे दोन गोष्टी स्पष्टपणे सांगतात: पहिले, मूल्यमापन सेटअप कोणता दावा तपासण्यासाठी तयार केला होता हे ते नमूद करतात, आणि दुसरे, मूल्यमापनाचा निकाल वैध आहे यासाठी उपलब्ध पुरावे ते शेअर करतात.
मूल्यांकनांमध्ये तपासले जाणारे दावे सामान्यतः तीन गटांपैकी एका गटात मोडतात1:
- क्षमता एलिसिटेशन: मूल्यमापनात तपासली जाणारी क्षमता मॉडेल विश्वासार्हपणे निर्माण करू शकते का?
- सुरक्षा-उपाय कामगिरी: तपासल्या जाणाऱ्या वर्तन किंवा हल्ल्याविरुद्ध चाचणी केलेले सुरक्षा उपाय किती मजबूत आहेत?
- तुलना: समतुल्य स्थितींमध्ये वेगवेगळी मॉडेल्स कशी कामगिरी करतात?
मूल्यमापन अहवालांनी निकालाच्या वैधतेवर परिणाम करू शकणाऱ्या प्रभावांची तपासणी मूल्यांकनकर्त्यांनी कशी केली हेही स्पष्ट करणे आवश्यक आहे. यात पुढील गोष्टींचा समावेश होतो:
- रिवॉर्ड हॅकिंग: काम किंवा स्कोररमधील शॉर्टकटचा फायदा घेणे, ज्यामुळे प्रणालीला मूल्यमापनाने मोजायचे असलेले वर्तन दाखविल्याशिवाय श्रेय मिळते.
- नकार: तपासल्या जाणाऱ्या वर्तनाला अस्पष्ट करणाऱ्या प्रकारे नकार देणे.
- कंटॅमिनेशन: मूल्यमापनातील कामे, उत्तरे किंवा जवळचे प्रकार प्रशिक्षण डेटामध्ये दिसल्यामुळे किंवा ब्राउझिंगद्वारे मूल्यांकनादरम्यान सापडल्यामुळे जास्त कामगिरी दिसणे.
- सदोष समस्या: कार्ये अवैध असल्यामुळे कमी कामगिरी होणे. या कारणांमध्ये अयोग्य गुणांकन (उदा., अचूक उत्तरासाठी न सांगितलेल्या अंमलबजावणीच्या तपशिलांची आवश्यकता असते) आणि न सुटणारे वातावरण (उदा., महत्त्वाच्या फाइल्स गहाळ असणे किंवा अविश्वसनीय टूल्स) यांचा समावेश असू शकतो.
- सँडबॅगिंग: मूल्यमापन होत असल्याची जाणीव दिसल्यावर जाणीवपूर्वक कमी कामगिरी करणे.
आम्ही पाहिले आहे की जास्त लांब ट्रॅजेक्टरीजवर काम करणाऱ्या प्रणालींसाठी हार्नेसची भूमिका विशेषतः महत्त्वाची असते. जेव्हा मॉडेल्स टूल्स वापरू शकतात, स्थिती टिकवू शकतात आणि अनेक टप्प्यांमध्ये चुका सुधारू शकतात, तेव्हा हार्नेस निरीक्षित कामगिरीची पातळी बदलू शकतो, आणि तपासली जाणारी क्षमता मूल्यमापनात दिसेल की नाही हेही ठरवू शकतो. उदाहरणार्थ, स्थिती जपणारा आणि अयशस्वी कृतींवर पुनर्प्रयत्न करणारा हार्नेस एखाद्या मॉडेलला बहु-टप्प्याचे काम पूर्ण करू देऊ शकतो, जे तेच मॉडेल अधिक साध्या हार्नेसमध्ये कधीच पूर्ण करत नाही.
खालील टेबलमध्ये, मूल्यांकनकर्ते करू इच्छित असलेल्या तीन प्रकारच्या दाव्यांना आणि आमच्या मते प्रत्येकासाठी आवश्यक असलेल्या हार्नेसला आम्ही वेगळे केले आहे.
मूल्यांकन ज्या दाव्याला समर्थन देण्याचा प्रयत्न करत आहे तो दावा | योग्य हार्नेस निवड | अहवालात द्यायचे पुरावे |
मजबूत एलिसिटेशनखालील क्षमता: सेटअप त्याची सर्वात मजबूत विश्वासार्ह कामगिरी बाहेर आणण्यासाठी तयार केला असताना A प्रणाली X प्रकारची कामे पूर्ण करू शकते. | प्रणालीसाठी सर्वात मजबूत विश्वासार्ह एलिसिटेशन सेटअप वापरा, ज्यात सक्षम वापरकर्ता वाजवीपणे वापरेल असा हार्नेस, टूल्स, स्कॅफोल्डिंग आणि बजेट समाविष्ट असेल. | हार्नेस आणि टूल सेटअप, एलिसिटेशन मार्गदर्शन, परवानगी दिलेले बजेट किंवा प्रयत्न, टोकन्स किंवा खर्च किंवा वेळ, आणि हा सेटअप दाव्यातील क्षमतेसाठी विश्वासार्ह प्रतिनिधी का आहे. वेगवेगळ्या अनुकूलित सेटअपखाली प्रणालींची तुलना करत असल्यास, त्याला प्रणाली-ते-प्रणाली किंवा मजबूत-एलिसिटेशन तुलना असे लेबल द्या. |
नियंत्रित तुलना: सामायिक मूल्यांकन सेटअपखाली प्रणाली A, प्रणाली B पेक्षा चांगली कामगिरी करते. | कामे, स्कोरिंग आणि बजेट निश्चित ठेवा. तुलना केल्या जाणाऱ्या प्रणालींसाठी वाजवी कमाल एलिसिटेशन देण्यासाठी, सामायिक हार्नेस किंवा टूल सेटअप वापरा किंवा आधीच निवडलेल्या प्रमाणित हार्नेसचा निश्चित संच वापरा. | सामायिक कार्यसंच, टूल्स, स्कोरिंग पद्धत, हार्नेस, बजेट, टोकन कार्यक्षमता किंवा खर्च, आणि ज्ञात मर्यादा. कोडिंग-एजंट मूल्यांकनांसाठी, Codex CLI सारखा ओपन सोर्स हार्नेस सर्व प्रणालींमध्ये निश्चित एजंट लूप आणि टूल इंटरफेस देऊ शकतो. कमाल एलिसिटेशनसाठी आदर्श पद्धत म्हणजे प्रत्येक काम आणि प्रणालीसाठी स्वतंत्र हार्नेस अनुकूलित करणे, पण सध्या प्रत्यक्षात ते अव्यवहार्य आहे. |
उद्भवलेल्या हल्ल्याखालील सुरक्षा उपायांची मजबुती: सिस्टम A चे सुरक्षा उपाय संबंधित मॉडेल वर्तनासाठी किंवा उद्भवलेल्या हल्ल्यासाठी पुरेसे आहेत. | संबंधित प्रतिस्पर्धी मॉडेलनुसार सर्वात शक्तिशाली संभाव्य हल्ला शोधण्यासाठी तयार केलेल्या सुरक्षा-चाचणी सेटअपचा वापर करा. | मूल्यांकनकर्त्यांनी संबंधित मॉडेल वर्तनाचे वर्णन कसे केले, चाचणी केलेले सुरक्षा-उपाय कॉन्फिगरेशन, एलिसिटेशन धोरण, ते पार पाडण्यासाठी वापरलेला हार्नेस, आणि परवानगी दिलेले बजेट किंवा प्रयत्न. |
क्षमता-दावे त्यांच्या मागील एलिसिटेशन इतकेच मजबूत असतात: मूल्यांकनकर्त्यांनी काम आणि मूल्यमापन मोजू इच्छित असलेल्या क्षमतेला सर्वात योग्य असा हार्नेस निवडणे आवश्यक आहे. समान स्थितींमध्ये प्रणालींची तुलना करण्यासाठी मानकीकृत हार्नेस योग्य असू शकतो, पण जर त्यात मॉडेलला काम करण्यात मदत करणारी विशिष्ट हार्नेस वैशिष्ट्ये नसतील तर तो क्षमता कमी दाखवू शकतो. उदाहरणार्थ, OpenAI च्या सायबर रेंजेसवरील GPT‑5.5 ची कामगिरी दाखवते की दीर्घ, बहु-टप्प्याच्या टूल-वापराची गरज असलेल्या कामांमध्ये हार्नेसची निवड मोजलेल्या क्षमतेत लक्षणीय बदल करू शकते: संवाद लांबत गेल्यावर कार्याशी संबंधित संदर्भ जपण्यासाठी हार्नेस कॉम्पॅक्शन वापरतो तेव्हा मॉडेल अधिक चांगली कामगिरी करते. यावरून दिसते की काही मॉडेल्ससाठी कॉम्पॅक्शन नसलेला हार्नेस कामगिरी पुरेशी बाहेर आणणार नाही.
यशाचे प्रमाण जास्त असणे चांगले असते
इतर प्रकाशित मूल्यमापने2 देखील हार्नेस आणि बजेट निवडींमुळे मूल्यमापनाचे निकाल बदलतात हे दाखवतात. चाचणीवेळेतील संगणकीय संसाधने वाढवल्यास मूल्यमापन कोणती क्षमता बाहेर आणते यात मोठा बदल होऊ शकतो, विशेषतः ज्या क्षेत्रांत यश पडताळणे सोपे असते, जसे अनेक सायबर कामे. UK AISI च्या सायबर रेंज मूल्यमापनात(नवीन विंडोमध्ये उघडेल), बजेट 10M वरून 100M टोकन्सपर्यंत वाढवल्यावर कामगिरीत 59% पर्यंत सुधारणा झाली, आणि तपासलेल्या सर्वाधिक बजेटवरही कामगिरी वाढतच होती. हे तपशील दिल्याने मूल्यमापन अधिक समजण्यासारखे होते: यामुळे वाचकांना निकाल तपासलेल्या एलिसिटेशन सेटअपवर कसा अवलंबून आहे हे दिसते. अतिरिक्त बजेटमुळे कामगिरी अजूनही सुधारत असेल, तर स्कोरचे वर्णन त्या हार्नेस आणि बजेटखालील कामगिरी म्हणून करावे, मोजलेल्या क्षमता-सीलिंग म्हणून नाही. क्षमता ही अनेकदा संसाधनांवर अवलंबून असते, एकदाच स्वच्छपणे मोजता येणारी स्थिर मात्रा नसते. जिथे पुनरावृत्ती प्रयत्नांमध्ये यश मोजता येते, तिथे अहवालांनी केवळ निश्चित टोकन बजेटवरील यश दर नव्हे तर प्रत्येक यशस्वी समाधानामागील अपेक्षित खर्चाचाही विचार करावा. यामुळे गंभीरता समजणे सोपे होऊ शकते: पुनरावृत्ती प्रयत्नांचा खर्च संबंधित धोका मॉडेलमध्ये बसत असेल तर कमी यश दरही प्रत्यक्षात महत्त्वाचा ठरू शकतो. क्षमता-दाव्यांसाठी, टाळता येण्याजोगे कमी एलिसिटेशन हे मोजमापातील अपयश आहे: हार्नेस किंवा बजेटमुळे प्रणालीला ती अन्यथा दाखवू शकणारे वर्तन दाखवता येत नसेल, तर स्कोर दावा केलेली क्षमता मोजत नाही. जिथे मूल्यांकनकर्त्यांनी शक्य तितके एलिसिटेशन पुढे नेले आहे आणि तरीही कामगिरी सुधारत आहे, तिथे अहवालांनी ते स्पष्टपणे सांगावे आणि निकाल हा फक्त खालच्या मर्यादेचा अंदाज आहे हेही स्पष्ट करावे.
जेव्हा हल्लेखोरांना उपलब्ध असलेल्या संसाधनांचा विचार केला जात नाही, ज्यात कस्टम हार्नेसचा समावेश आहे, तेव्हा सुरक्षा चाचणीमुळे हल्ला यशस्वी होऊ शकतो की नाही आणि तो किती गंभीर असू शकतो, याचे कमी मूल्यांकन होऊ शकते. UK AISI च्या GPT‑5.5 सायबर मूल्यांकनामध्ये(नवीन विंडोमध्ये उघडेल), त्यांच्या तज्ञ रेड टीमिंगला एक युनिव्हर्सल जेलब्रेक आढळला, ज्यामुळे OpenAI ने दिलेल्या दुर्भावनापूर्ण क्वेरीजमधून, अगदी मल्टी-टर्न एजंटिक सेटिंग्जमध्येही, उल्लंघनकारी सायबर सामग्री प्राप्त झाली. मॉडेलची हल्ला कामगिरी मजबूत करण्यासाठी त्यांनी Codex चा वापर करून एक कस्टम हार्नेस तयार केला: त्याने संवादामध्ये एक पुन्हा वापरता येण्याजोगा सुरक्षा-बायपास पॅटर्न अंतर्भूत केला, तो पॅटर्न टर्न्स आणि ब्लॉक्समध्ये जतन केला आणि OpenAI ने दिलेल्या दुर्भावनापूर्ण सायबर क्वेरीजवर लागू केला. सुरक्षा चाचणी ही शत्रूशी जुळणारी असावी. जर तज्ञांकडून होणाऱ्या गैरवापराला प्रतिकार करण्याच्या क्षमतेबद्दल दावा केला जात असेल, तर चाचणीने एका निश्चित बजेटमधील सर्वात मजबूत आणि विश्वासार्ह एंड-टू-एंड हल्ला धोरणाचे मूल्यांकन केले पाहिजे, ज्यामध्ये ते धोरण जतन करण्यासाठी आणि पुन्हा वापरण्यासाठी आवश्यक असलेल्या कोणत्याही हार्नेसचा समावेश असावा. अन्यथा, निकालांमध्ये चुकीचे मापन होण्याचा धोका असतो: ते सोप्या सूचनांना होणाऱ्या प्रतिकाराबद्दलच्या केवळ एका मर्यादित दाव्यालाच समर्थन देऊ शकतात, एकदा माहिती मिळवण्याची पद्धत कार्यान्वित झाल्यावर हल्ला किती गंभीर होतो आणि त्याच्या यशस्वी होण्याची शक्यता या दोन्ही गोष्टींकडे दुर्लक्ष करू शकतात, आणि जर गरजेपेक्षा जास्त बजेट दिले गेले तर एखादी समस्या किती संभाव्य किंवा गंभीर आहे हे देखील अतिरंजितपणे मांडू शकतात.
प्रमाणित हार्नेसच्या तुलनेसाठी एक योग्य वेळ आणि जागा असते, परंतु मूल्यमापनकर्त्यांनी कार्यप्रणालींचा एक सुसंगत संच वापरणे का योग्य आहे आणि तो कोणत्या दाव्याला समर्थन देऊ शकतो, हे स्पष्टपणे सांगितले पाहिजे. METR चे टाइम-हॉरायझन इव्हॅल्युएशन(नवीन विंडोमध्ये उघडेल) हे एका व्यापक, योग्यरित्या निश्चित केलेल्या मूल्यमापन रचनेचे उदाहरण आहे: ते ज्या प्रणालींचे मूल्यमापन करते, त्या सर्वांमध्ये तुलनात्मक परिणाम देण्यासाठी त्याची रचना केली आहे. METR एक सामान्य परिणाम परिभाषित करते, जो मानवी टास्कसाठी लागणारा एक सामान्य कालावधी असतो, ज्यामध्ये एका विशिष्ट विश्वसनीयता पातळीवर AI एजंट यशस्वी होईल असा अंदाज असतो. एकत्रितपणे नोंदवलेल्या अंदाजांच्या प्रत्येक बॅचमध्ये ते एक सामायिक टास्क सूट, स्कोअरिंग पद्धत, फिटिंग पद्धत आणि Triframe व ReAct(नवीन विंडोमध्ये उघडेल) सारख्या पुन्हा वापरता येण्याजोग्या काही स्काफोल्ड्स लागू करते. जेव्हा METR ने टास्क सूटचा विस्तार केला आणि मूल्यमापन पायाभूत सुविधा Vivaria नावाच्या फ्रेमवर्कवरून Inspect नावाच्या फ्रेमवर्कवर हलवली, तेव्हा त्याने हा बदल (टाइम हॉरायझन 1.1 अपडेट(नवीन विंडोमध्ये उघडेल)) नोंदवला आणि नवीन मूल्यमापन रचनेअंतर्गत मॉडेल्सचे पुनर्मूल्यांकन केले. एका मानकीकृत मूल्यांकन प्रणालीचे, ज्यात सुसंगत हार्नेसचा सेट समाविष्ट आहे, हेच महत्त्व आहे की त्यामुळे वाचकांना खात्री पटू शकते की गुणांमधील फरक हा मोजमाप प्रणालीतील बदलामुळे नसून, खरोखरच तुलना केल्या जात असलेल्या प्रणालींमधील फरकामुळे आहे.
आमची शिफारस आहे की तृतीय-पक्ष मूल्यमापन अहवालांनी त्यांचा मूल्यमापन सेटअप कोणत्या प्रकारच्या दाव्याला समर्थन देण्यासाठी आहे हे नमूद करावे; जे तपासले गेले ते त्या व्यापक दाव्याचे किती जवळून प्रतिनिधित्व करते हे वर्णन करावे; निकालाला आकार देणाऱ्या हार्नेस निवडी स्पष्ट कराव्यात; मूल्यमापनांदरम्यान त्या निवडी कधी बदलतात याचा तपशील द्यावा; आणि निकाल कसा तयार झाला व तो दाव्यावर कितपत सामान्यीकरण होतो हे दाखवण्यासाठी पूरक पुरावे समाविष्ट करावेत.
मॉडेल्स अधिक सक्षम होत गेल्याने, मूल्यमापन स्कोर्सचा चुकीचा अर्थ लावणे अधिक सोपे होते. वास्तविक क्षमतांच्या तुलनेत, मॉडेलला त्याचे मूल्यमापन होत आहे हे ओळखून ते धोरणात्मकरीत्या कमी कामगिरी करत असेल तर मूल्यमापन स्कोर्स कृत्रिमरीत्या कमी होऊ शकतात. मॉडेलने काम, प्रॉम्प्ट, स्कोरर किंवा हार्नेसमधील शॉर्टकटचा फायदा घेतल्यास ते वाढू शकतात. ते कंटॅमिनेशनमुळेही विकृत होऊ शकतात, (जिथे मॉडेलला उत्तर आधीच माहीत असते किंवा कामाचेे निराकरण न करता ते शोधता येते), किंवा अस्पष्ट, चुकीचे स्कोर केलेल्या, न सुटणाऱ्या किंवा अनपेक्षित शॉर्टकटसाठी असुरक्षित अशा “सदोष” समस्यांमुळेही होऊ शकते. म्हणून मूल्यमापन अहवालांनी मुख्य स्कोर्ससोबत या धोक्यांवरील चर्चा जोडली पाहिजे, जेणेकरून वाचक स्कोर्स अपेक्षित वर्तन दर्शवतात का हे तपासू शकतील.
हार्नेस, बजेट, साधने, स्कोरिंग नियम, मॉनिटर्स आणि पुनरावलोकन प्रक्रिया या सर्व गोष्टी एजंट अपेक्षित काम सोडवत आहे, ते टाळत आहे, ते लक्षात ठेवले आहे की त्याभोवती दुसरा मार्ग शोधत आहे यावर परिणाम करतात. विश्वासार्ह अहवाल या तपासण्या दृश्यमान करतो: प्रत्येक वेळी मूल्यांकन चालवले जाते तेव्हा मूल्यांकनकर्त्यांनी या वर्तनांसाठी नमुन्यांचे पुनरावलोकन करावे.
रिवॉर्ड हॅकिंग
रिवॉर्ड हॅकिंग म्हणजे अशा मार्गांनी उच्च मूल्यांकन गुण मिळवणे, जे अपेक्षित क्षमतेचे प्रतिबिंब दर्शवत नाहीत. येथे चिंता ही आहे की, ज्या कामाचे मोजमाप करण्यासाठी मूल्यांकन केले गेले होते, ते काम करण्याऐवजी, सिस्टम टास्क, स्कोअरर, प्रॉम्प्ट किंवा हार्नेसचा गैरवापर करून श्रेय मिळवते. METR चे GPT 5.4 चे मूल्यांकन(नवीन विंडोमध्ये उघडेल) हे का महत्त्वाचे आहे हे दाखवते: जरी मॉडेल पहिल्या फेरीत अंदाजे 13 तासांचा कालावधी दर्शवणाऱ्या दराने टास्कमध्ये यशस्वी होत होते, तरी मानवी पुनरावलोकनातून असे दिसून आले की त्यातील काही यश रिवॉर्ड हॅकिंगमुळे आले होते, आणि केवळ रिवॉर्ड हॅकिंगशिवायच्या घटनांचा हिशोब करण्यासाठी निकालांमध्ये सुधारणा केल्याने हा अंदाज सुमारे 6 तासांपर्यंत कमी झाला. मूल्यमापनकर्त्यांनी अशा बदलांची गरज ओळखून, जेव्हा ते आवश्यक असतील तेव्हा त्यांची स्पष्टपणे नोंद करावी: जेव्हा वाचकांना हे दिसते की कोणते स्पष्ट यश अपात्र ठरवले गेले, ते का अपात्र ठरवले गेले आणि निकाल त्या निर्णयावर किती अवलंबून आहे, तेव्हा क्षमतेचा अंदाज अधिक उपयुक्त ठरतो.

नकार
सुरक्षा उपायांमुळे मॉडेल्स क्षमता मूल्यमापनांमध्ये कमी कामगिरीही करू शकतात. मॉडेलकडे क्षमता असूनही, कामे पूर्ण करण्याऐवजी मूल्यमापनातील कामांना नकार दिल्यामुळे त्याची मूल्यमापन कामगिरी कमी असू शकते. म्हणून अहवालांनी नकार मूल्यमापन निकालांचा भाग होते का आणि असल्यास त्यांमुळे किती नमुने बाधित झाले हे स्पष्ट करावे.
कंटॅमिनेशन
कंटॅमिनेशन सार्वजनिक किंवा पुनर्वापर केलेल्या बेंचमार्कसाठी सर्वात महत्त्वाचे ठरते. जर टास्क, उत्तरे किंवा त्यांचे जवळचे प्रकार ट्रेनिंग डेटामध्ये आढळत असतील किंवा एजंटला ब्राउझिंगद्वारे सापडत असतील, तर कामगिरी ही मॉडेलच्या कामगिरीऐवजी स्मृती किंवा पुनर्प्राप्ती दर्शवू शकते. मूल्यमापनकर्त्यांनी शक्य असेल तिथे खाजगी किंवा नव्याने तयार केलेल्या टास्कला प्राधान्य द्यावे आणि ते सोडवण्यापूर्वी मॉडेल टास्क-विशिष्ट तपशील पुनरुत्पादित करतात की नाही हे तपासावे.
बिघडलेल्या समस्या
सदोष समस्यांमध्ये अशा परिस्थितींचा समावेश होतो, जसे की एखादी समस्या जी अपघाताने सोडवता येत नाही. सदोष समस्या इतक्या सामान्य(नवीन विंडोमध्ये उघडेल) आहेत की त्यांना एक मानक वैधता धोका मानले पाहिजे. यामध्ये चुकीचे ग्राउंड ट्रुथ, अस्पष्ट प्रॉम्प्ट्स, गहाळ फाइल्स, अस्थिर सेवा, अयोग्य गुणांकन निकष आणि अशा वातावरणांचा समावेश होतो, जे शॉर्टकट उघड करतात, जसे की लपवलेल्या उत्तर फाइल्स किंवा ग्राउंड-ट्रुथ पॅच असलेली रिपॉझिटरी हिस्ट्री.
सँडबॅगिंग
एखाद्या मॉडेल किंवा प्रणालीद्वारे 'सँडबॅगिंग' करणे म्हणजे, जेव्हा उत्तम कामगिरी एखाद्या उद्दिष्टाशी विसंगत ठरू शकते, तेव्हा धोरणात्मकदृष्ट्या कमी कामगिरी करणे. Apollo च्या GPT‑5.5 मूल्यांकनाने(नवीन विंडोमध्ये उघडेल) याची चाचणी घेण्यासाठी एक असा संदर्भ तयार केला, जिथे मॉडेलला हे समजले की उच्च मूल्यांकन गुणांमुळे शिकलेले विसरण्याची प्रक्रिया सुरू होऊ शकते किंवा अंमलबजावणीत अडथळा येऊ शकतो. तरीही GPT‑5.5 ने अचूक उत्तरे दिली, ज्यामुळे धोरणात्मक कमी कामगिरीचा वर्तणुकीशी संबंधित फारसा पुरावा मिळत नाही असे सूचित होते3. परंतु त्यांच्या रीझनिंगच्या पुनरावलोकनाने एक महत्त्वाचा संदर्भ जोडला: Apollo ला असे आढळले की, 'सँडबॅगिंग'च्या परिस्थितीत 52% नमुन्यांमध्ये अलाईनमेंट-मूल्यांकन जागरूकतेची मध्यम किंवा त्याहून अधिक चिन्हे होती, तर 'काउंटरफॅक्चुअल्स'मध्ये हे प्रमाण 0% होते. हा पुरावा निकालाच्या अर्थाला गुंतागुंतीचा बनवतो, परंतु अंतिमतः वाचकांना अधिक संकेत देतो: वाचकांना आश्वासक वर्तणुकीशी संबंधित निकाल आणि त्याचा अति-अर्थ लावण्याबद्दल सावध राहण्याचे कारण, दोन्ही दिसू शकतात.
सशक्त दाव्यांसाठी, अपेक्षित वर्तन घडवून आणण्याकरिता योग्य हार्नेस आणि त्याचा निकाल अचूक आहे हे दाखवण्यासाठी वैधतेची पडताळणी, या दोन्हींची आवश्यकता असते. हार्नेस आणि वैधतेची पडताळणी हे मूल्यमापनाच्या निकालाचाच एक भाग आहेत, हा आमचा दृष्टिकोनच आम्ही व्यवहारात त्रयस्थ पक्षांच्या मूल्यमापनांना कसे साहाय्य करतो याला आकार देतो:
- आम्ही मूल्यांकनकर्त्यांसोबत विशिष्ट कमाल-एलिसिटेशन मार्गदर्शन शेअर करत आहोत.
- आम्ही क्षमता मूल्यांकनकर्त्यांना OpenAI मॉडेल्ससाठी Codex हा समान किमान आधार म्हणून वापरण्यास सांगत आहोत: चाचण्यांनी किमान एक बेसलाइन त्याच एजंटिक इंटरफेसमधून चालवली पाहिजे ज्यावर वापरकर्ते अवलंबून राहण्याची शक्यता आहे, फक्त कमी केलेल्या मॉडेल इंटरफेसमधून नव्हे.
- फसवणूक, सँडबॅगिंग किंवा मूल्यमापन-जाणीव तपासण्यासाठी जिथे गरज आहे तिथे आम्ही रीझनिंग ट्रेसेस आणि इतर मधल्या आर्टिफॅक्ट्सही उपलब्ध करून देत आहोत. METR आणि Apollo यांनी GPT‑5 पासून OpenAI मूल्यमापनांमध्ये हा प्रवेश वापरला आहे.
- शेवटी, संदर्भ व्यवस्थापन आणि टूल प्रवेशापासून पुनर्प्रयत्न वर्तन, स्कोरिंग आणि संसाधन बजेटपर्यंत, हार्नेस निवडी निकालांमध्ये नेमका कधी आणि कसा लक्षणीय बदल घडवतात हे अधिक सखोलपणे समजून घेण्यासाठी आम्ही संशोधनाला प्राधान्य देत आहोत.
या शिफारसी केवळ स्वतंत्र मूल्यमापन अहवाल सुधारण्यासाठी नाहीत, तर अत्याधुनिक AI मूल्यमापन आणि अहवालासाठी उदयास येणाऱ्या राष्ट्रीय (नवीन विंडोमध्ये उघडेल)आणि आंतरराष्ट्रीय (नवीन विंडोमध्ये उघडेल)मानकांना माहिती देण्यासाठीही आहेत. पुढे जाऊन, तृतीय-पक्ष मूल्यमापन मानकांनी निर्णयकर्त्यांना विशिष्ट मूल्यमापने कोणत्या दाव्यांना समर्थन देतात, कोणती प्रणाली तपासली गेली, निकाल कसा बाहेर आणला गेला, आणि मूल्यांकनकर्त्यांनी त्याची वैधता कशी तपासली हे समजण्यासाठी पुरेसा तपशील मागितला पाहिजे. ज्या अत्याधुनिक प्रणालींची एजंटिक क्षमता महत्त्वाच्या असलेल्या कामांवर चाचणी केली जाते, त्यांच्यासाठी तपशीलांमध्ये पुढील गोष्टींचा समावेश असावा, (कोणत्याही सुरक्षा किंवा गोपनीयतेच्या चिंतांच्या अधीन राहून):
- दावा: मूल्यमापन प्रणालींची तुलना करते, क्षमता-सीलिंगचा अंदाज लावते किंवा सुरक्षा उपाय तपासते.
- मूल्यमापन सामग्री: वाचकांना मूल्यमापन प्रत्यक्षात कोणती कौशल्ये, वर्तने किंवा अपयश प्रकार तपासत आहे हे समजण्यासाठी कामे किंवा काम-वितरणाबद्दल पुरेसा तपशील.
- चाचणी केलेली प्रणाली: मॉडेल, रीझनिंग सेटिंग, टूल प्रवेश, हार्नेस आणि सुरक्षा उपाय.
- बजेट: टर्न्स, टोकन्स, प्रयत्न किंवा पुनर्प्रयत्न, प्रत्यक्ष घड्याळ वेळ, इन्फरन्स खर्च, आणि लागू असल्यास प्रत्येक यशस्वी समाधानामागील अपेक्षित खर्च.
- एलिसिटेशन पद्धती: निकाल मिळवण्यासाठी वापरलेल्या हार्नेसची निवड, आणि चाचणी केलेली गोष्ट मांडल्या जात असलेल्या व्यापक दाव्याचे किती जवळून प्रतिबिंब करते.
- वैधता तपासण्या: मूल्यांकनकर्त्यांनी रिवॉर्ड हॅकिंग, मूल्यमापन-जाणीव, कंटॅमिनेशन, नकार, सँडबॅगिंग आणि निकालाला बाधा आणू शकणाऱ्या इतर वर्तनांचा शोध कसा घेतला, यासह पुष्टी झालेल्या प्रकरणांचा स्कोरिंग किंवा अर्थ लावण्यावर कसा परिणाम झाला.
ज्या मानकांमध्ये हार्नेसच्या निवडीचा किंवा वैधतेच्या तपासणीचा समावेश नसतो, ती मानके एखाद्या प्रणालीच्या क्षमतेचे कमी मूल्यांकन करू शकतात किंवा सुरक्षिततेच्या दाव्यावरील विश्वासाचे अतिशयोक्तीपूर्ण वर्णन करू शकतात. मजबूत हार्नेस आणि माहिती मिळवण्याच्या पद्धती विकसित करणे हे एक खुले संशोधन क्षेत्र असून, ते पुढील तपासणी आणि गुंतवणुकीचे केंद्रबिंदू असले पाहिजे.
लेखक
शब्दकोश
या पोस्टमध्ये आम्ही अनेक तांत्रिक संज्ञा वापरत असल्याने, खाली एक शब्दकोश दिला आहे जो आम्ही नेमके कशाचा संदर्भ देत आहोत याचे सोप्या भाषेत स्पष्टीकरण देतो:
एजंटिक प्रणाली: अशी प्रणाली जी फक्त प्रॉम्प्टला एकच रिस्पॉन्स देण्याऐवजी, टूल्स वापरून, कार्यस्थिती टिकवून आणि वातावरणात कृती करून अनेक टप्प्यांत एखादे काम पूर्ण करू शकते.
मूल्यांकन निर्णय: पुरावे एखाद्या दाव्याला, जोखीम निष्कर्षाला किंवा आश्वासनाच्या भूमिकेला समर्थन देतात का याबद्दलचा व्यापक निर्णय. हा निर्णय मूल्यांकन डेटा, दस्तऐवज पुनरावलोकन, मुलाखत, प्रक्रिया पुनरावलोकन आणि इतर संबंधित पुराव्यांवर आधारित असू शकतो.
कॉम्पॅक्शन: दीर्घ रनदरम्यान कार्याशी संबंधित संदर्भ जपून ठेवण्याची पद्धत.
कॉन्फिगरेशन: मॉडेलच्या नावापलीकडील, अचूकपणे चाचणी केलेली प्रणाली आणि मूल्यांकन स्थिती.
कंटॅमिनेशन: जेव्हा मूल्यांकनातील कामे, उत्तरे किंवा त्यांचे जवळचे प्रकार मॉडेलच्या प्रशिक्षण डेटामध्ये दिसतात किंवा मूल्यांकनादरम्यान शोधता येतात, (उदा. ब्राउझिंगसारख्या टूल्सद्वारे) तेव्हा कामगिरी मॉडेलच्या खऱ्या सामान्यीकरण क्षमतेपेक्षा जास्त भासते.
एलिसिटेशन: मूल्यांकनादरम्यान प्रणालीमधून एखादी क्षमता किंवा वर्तन बाहेर आणण्याचा प्रयत्न करण्याची प्रक्रिया.
वातावरण: ज्या कार्यपरिस्थितीत प्रणालीची चाचणी केली जाते. यात मूल्यांकनादरम्यान एजंट ज्या बाह्य स्थितीशी संवाद साधतो आणि बदल करतो अशा गोष्टींचा समावेश होतो, जसे टर्मिनल वातावरण किंवा व्हिडिओ गेम.
मूल्यांकन: मूल्यमापन निर्णयातील विशिष्ट टेस्ट किंवा मोजमाप.
मूल्यांकन जागरूकता: मूल्यांकन जागरूकता म्हणजे एखाद्या मॉडेलने, आपले मूल्यांकन होत आहे हे ओळखणे किंवा ओळखल्यासारखे दिसणे आणि त्या संदर्भानुसार आपल्या वर्तनात संभाव्य बदल करणे. यामध्ये मॉडेलने चाचणी होत असल्याबद्दल स्पष्टपणे रीझनिंग करणे, मूल्यांकनाचा उद्देश ओळखणे, किंवा निकालाचा परिणाम आपल्या मूल्यांकनावर किंवा वापरावर होईल या अपेक्षेने आपल्या वर्तनात बदल करणे, यांचा समावेश असू शकतो.
हार्नेस: मॉडेलला काम पार पाडू देणारी मॉडेलसमोरील रचना. यात प्रॉम्प्ट्स, टूल्स, इंटरफेस, कंट्रोल लॉजिक, मेमरी, पुनर्प्रयत्न, व्हॅलिडेटर्स आणि मॉडेलभोवतीच्या इतर सहाय्यक रचनांचा समावेश होतो.
कमाल एलिसिटेशन: प्रणालीला केवळ एकदाच प्रमाणित हार्नेसमधून चालवण्याऐवजी, एका निश्चित मर्यादेत ती प्रणाली निर्माण करू शकणारी सर्वोत्तम विश्वसनीय कामगिरी किंवा अपयशाची पद्धत शोधण्याच्या उद्देशाने केलेली चाचणी.
रीझनिंग ट्रेसेस: चाचणीदरम्यान मॉडेलच्या मधल्या रीझनिंगची नोंद.
रिवॉर्ड हॅकिंग: मूल्यांकनकर्त्याच्या उद्देशाबाहेरील शॉर्टकट किंवा वर्तन वापरून उच्च गुण मिळवणे.
सुरक्षा उपाय: मॉडेल किंवा उत्पादनाभोवती लागू केलेले फिल्टर्स, मॉनिटर्स, ब्लॉकिंग प्रणाली आणि इतर संरक्षणे.
सँडबॅगिंग: निकालाला बाधा आणेल अशा प्रकारे मूल्यांकनात जाणीवपूर्वक कमी कामगिरी करणे.
स्कोरिंग: कामगिरी कशी मोजायची किंवा एखादे काम यशस्वी झाले का हे ठरवण्यासाठी वापरली जाणारी पद्धत.
प्रमाणित हार्नेस: विशिष्ट मॉडेल किंवा कामासाठी कस्टमाइज करण्याऐवजी सर्व प्रणालींमध्ये समान ठेवलेला हार्नेस, ज्यामुळे निकालांतील फरक चाचणी केलेल्या मॉडेलला जोडणे सोपे होते.
वेळेची मर्यादा: एखादी प्रणाली एका विशिष्ट विश्वसनीयतेसह एखादे कार्य पूर्ण करू शकण्याचा कालावधी, जो अनेकदा तेच कार्य करण्यासाठी मानवाला लागणाऱ्या वेळेच्या स्वरूपात व्यक्त केला जातो.
टूल प्रवेश: मूल्यांकनादरम्यान मॉडेलला उपलब्ध असलेली बाह्य टूल्स.
ट्रॅजेक्टरीज: एखादे काम करताना प्रणाली ज्या टप्प्याटप्प्याच्या मार्गाने पुढे जाते.
युनिव्हर्सल जेलब्रेक: हल्ल्याचा एकच प्रकार ज्यामुळे सिस्टम अनेक प्रॉम्प्ट्स किंवा टास्कमधील सुरक्षा उपायांना बायपास करते.
तळटीपा
- 1
ही पोस्ट तृतीय पक्षांनी विसंगती किंवा प्रवृत्ती-संबंधित दाव्यांचे मूल्यमापन कसे करावे हा प्रश्न सोडवण्याचा प्रयत्न करत नाही. त्या मूल्यांकनांवर हार्नेसच्या निवडीचा कसा परिणाम होतो हे समजून घेण्यासाठी अधिक काम आवश्यक आहे, विशेषतः कारण दीर्घकालीन वर्तनास समर्थन देणारे हार्नेस, मूल्यांकनकर्त्यांना निरीक्षण करणे आवश्यक असलेल्या अनपेक्षित वर्तनाचे प्रकार देखील बदलू शकतात.
- 2
HAL(नवीन विंडोमध्ये उघडेल) एजंट मूल्यांकनांमधील आणखी एक उदाहरण देते: CORE-Bench(नवीन विंडोमध्ये उघडेल) वर, हार्नेस Claude Code मध्ये बदलल्याने त्याच बेंचमार्कवर मोजलेली कामगिरी आणि खर्च प्रोफाइल दोन्ही बदलले. इतर सार्वजनिक उदाहरणांमध्ये SWE-agent(नवीन विंडोमध्ये उघडेल), SeeAct(नवीन विंडोमध्ये उघडेल), ScienceAgentBench(नवीन विंडोमध्ये उघडेल), CORE-Bench(नवीन विंडोमध्ये उघडेल), आणि Inspect Cyber(नवीन विंडोमध्ये उघडेल) यांचा समावेश आहे. यातील प्रत्येक वाचकांना कोणत्या इंटरफेस किंवा हार्नेसमुळे स्कोर मिळाला ते सांगते.
- 3
सँडबॅगिंग QA च्या दोन्ही प्रकारांमध्ये 100% आणि स्ट्रॅटेजिक-डिसेप्शन सँडबॅगिंग टास्कमध्ये 99.6% गुण मिळवले.


