बाहरी परीक्षण के साथ हमारे सुरक्षा इकोसिस्टम को सुदृढ़ करना
फ़्रंटियर AI के लिए थर्ड पार्टी आकलनों के प्रति हमारा दृष्टिकोण।
OpenAI में, हम मानते हैं कि स्वतंत्र, विश्वसनीय थर्ड पार्टी आकलन फ़्रंटियर AI के सुरक्षा इकोसिस्टम को मज़बूत करने में एक महत्वपूर्ण रोल निभाते हैं। थर्ड पार्टी आकलन फ़्रंटियर मॉडल पर किए गए मूल्यांकन हैं जो महत्वपूर्ण सुरक्षा क्षमताओं और उपायों के दावों की पुष्टि करने या अतिरिक्त साक्ष्य प्रदान करने के लिए होते हैं। ये मूल्यांकन सुरक्षा दावों को मान्य करने, अज्ञात बिंदुओं से सुरक्षा प्रदान करने, और क्षमताओं और जोखिमों के बारे में पारदर्शिता बढ़ाने में मदद करते हैं। हमारे फ़्रंटियर मॉडल का परीक्षण करने के लिए बाहरी विशेषज्ञों को आमंत्रित करके, हम अपनी क्षमता मूल्यांकन और सुरक्षा उपायों की गहराई में विश्वास को बढ़ावा देने और व्यापक सुरक्षा इकोसिस्टम को बेहतर बनाने का भी लक्ष्य रखते हैं।
GPT‑4 के लॉन्च के बाद से, OpenAI ने अपने मॉडलों का परीक्षण और आकलन करने के लिए कई बाहरी भागीदारों के साथ सहयोग किया है। सामान्यतः, हमारे थर्ड पार्टी सहयोग तीन प्रकार से काम करते हैं:
- जैव सुरक्षा, साइबर सुरक्षा, AI आत्म-सुधार और योजना जैसे प्रमुख सीमांत क्षमता और जोखिम क्षेत्रों का स्वतंत्र मूल्यांकन
- कार्यप्रणाली समीक्षाएँ जो यह आकलन करती हैं कि हम जोखिम का मूल्यांकन और व्याख्या कैसे करते हैं
- विषय-वस्तु विशेषज्ञ (SME) जांच, जहां विशेषज्ञ वास्तविक दुनिया के SME टास्क पर सीधे मॉडल का मूल्यांकन करते हैं और इसकी क्षमताओं और संबंधित सुरक्षा उपायों के हमारे आकलन में संरचित इनपुट प्रदान करते हैं1
यह ब्लॉग बताता है कि हम बाहरी आकलन के इन प्रत्येक प्रकारों का उपयोग कैसे करते हैं, वे क्यों महत्वपूर्ण हैं, उन्होंने परिनियोजन के निर्णयों को कैसे आकार दिया है, और इन सहयोगों की संरचना के लिए हम किन सिद्धांतों का उपयोग करते हैं। पारदर्शिता की भावना से, हम गोपनीयता और प्रकाशन संबंधी शर्तों के बारे में भी अधिक जानकारी साझा कर रहे हैं जो थर्ड पार्टी परीक्षकों के साथ हमारे सहयोगों को नियंत्रित करती हैं।
थर्ड पार्टी मूल्यांकनकर्ता हमारे आंतरिक कार्य के साथ मूल्यांकन की एक स्वतंत्र परत जोड़ते हैं, जिससे कठोरता बढ़ती है और आत्म-पुष्टि से अतिरिक्त सुरक्षा मिलती है। उनका इनपुट हमारे अपने आकलनों के साथ अतिरिक्त साक्ष्य प्रदान करता है, जो शक्तिशाली प्रणालियों के लिए ज़िम्मेदार परिनियोजन के निर्णयों को सूचित करने में मदद करता है।
हम थर्ड पार्टी आकलनों को भी लचीले सुरक्षा इकोसिस्टम के निर्माण का हिस्सा मानते हैं। हमारी टीमें क्षमता और जोखिम क्षेत्रों में व्यापक आंतरिक परीक्षण करती हैं, लेकिन स्वतंत्र संगठन अतिरिक्त दृष्टिकोण और कार्य-प्रणालीगत तरीके प्रदान करती हैं। हम एक विविध ग्रुप के योग्य मूल्यांकनकर्ता संगठनों का सपोर्ट करने के लिए काम करते हैं जो हमारे साथ नियमित रूप से फ़्रंटियर मॉडल का मूल्यांकन कर सकते हैं।
अंत में, हम इस बात पर पारदर्शिता बनाए रखना चाहते हैं कि यह इनपुट हमारी सुरक्षा प्रक्रिया को कैसे आकार देता है। हम नियमित रूप से थर्ड पार्टी आकलनों को सार्वजनिक करते हैं—उदाहरण के लिए, सिस्टम कार्ड में पूर्व-परिनियोजन मूल्यांकन के सारांश शामिल करके, और गोपनीयता और सटीकता समीक्षा के बाद अधिक विस्तृत कार्य प्रकाशित करने में मूल्यांकनकर्ता संगठनों का समर्थन करके। यह पारदर्शिता यह दिखाकर विश्वास का निर्माण करती है कि बाहरी इनपुट हमारी क्षमता मूल्यांकन और सुरक्षा उपायों को कैसे आकार देते हैं।
विश्वसनीय एक्सेस, पारदर्शिता और जानकारी-साझाकरण पर आधारित स्थायी संबंध पूरे इकोसिस्टम को उभरते जोखिमों से आगे रहने में मदद करते हैं और फ़्रंटियर AI सिस्टम के लिए मज़बूत मानकों और अधिक सूचित शासन के लिए आवश्यक अनुकूलनीय, कार्रवाई योग्य आकलन को बढ़ावा देते हैं।
GPT‑4(एक नई विंडो में खुलेगा) के लॉन्च के साथ, हमने परिनियोजन से पहले प्रारंभिक मॉडल चेकपॉइंट्स पर स्वतंत्र मूल्यांकन को सपोर्ट किया है। उस समय से, हमने कई थर्ड पार्टी संगठनों के साथ अपने कार्य का विस्तार किया है, जिनके पास प्रमुख फ़्रंटियर क्षमता और जोखिम क्षेत्रों के मूल्यांकन में गहन विशेषज्ञता है। हम स्वतंत्र लैब कार्य को ओपन-एंडेड परीक्षण के रूप में परिभाषित करते हैं, जहां बाहरी टीमें किसी विशेष फ़्रंटियर क्षमता से संबंधित दावे या आकलन के लिए अपने स्वयं के तरीकों का उपयोग करती हैं।
उदाहरण के तौर पर, GPT‑5 के लिए, OpenAI ने प्रमुख जोखिम क्षेत्रों जैसे कि दीर्घकालिक स्वायत्तता, योजना, धोखाधड़ी और निरीक्षण विफलता, वेट लैब प्लानिंग फ़ीज़िबिलिटी, और आक्रामक साइबर सुरक्षा मूल्यांकन में बाहरी क्षमता आकलनों का एक व्यापक सेट समन्वित किया।
ये स्वतंत्र मूल्यांकन OpenAI की तैयारी रूपरेखा के अनुसार किए गए मूल्यांकनों के पूरक हैं, और इसमें METR के समय क्षितिज मूल्यांकन(एक नई विंडो में खुलेगा) या SecureBio के वायरोलॉजी क्षमता समस्या निवारण (VCT)(एक नई विंडो में खुलेगा) मूल्यांकन जैसे मानक शामिल हैं।
इन मूल्यांकनों का सपोर्ट करने के लिए, हमने प्रारंभिक मॉडल चेकपॉइंट्स तक सुरक्षित पहुंच प्रदान की, हम जो क्षमता सुधार देख रहे हैं, उन्हें ठोस बनाने के लिए चयनित मूल्यांकन परिणाम, जहां आवश्यक हो वहां ज़ीरो डेटा रिटेंशन, और कम सुरक्षा उपायों वाले मॉडल प्रदान किए। उदाहरण के लिए, साइबर सुरक्षा और जैव सुरक्षा डोमेन में परीक्षण करने वाले संगठनों ने अंतर्निहित क्षमताओं की जांच करने के लिए सुरक्षा उपायों के साथ और बिना दोनों प्रकार के मॉडलों का परीक्षण किया। कई अन्य संगठनों को मॉडल की तर्क-प्रक्रिया की जांच करने में सक्षम बनाने के लिए प्रत्यक्ष ‘Chain-of-Thought’ एक्सेस प्रदान किया गया। इस पारदर्शिता बढ़ाने वाले कदम ने मूल्यांकनकर्ताओं को सैंडबैगिंग2 या योजनाबद्ध व्यवहार के उन मामलों की पहचान करने में सक्षम बनाया, जो केवल chain-of-thought को पढ़कर ही पहचाने जा सकते थे। सुरक्षा नियंत्रणों के साथ यह एक्सेस प्रदान की गई थी, और जैसे-जैसे मॉडल की क्षमताएं और परीक्षण आवश्यकताएं विकसित होती हैं, हम उन नियंत्रणों को अपडेट करते रहते हैं।
कुछ संदर्भों में, बाहरी मूल्यांकनकर्ता कार्य-प्रणालीगत समीक्षा प्रदान करने के लिए अच्छी स्थिति में होते हैं, जिससे उन रूपरेखाओं और प्रमाणों पर अतिरिक्त दृष्टिकोण मिलते हैं जिन पर फ़्रंटियर लैब्स जोखिम का आकलन करने के लिए निर्भर करती हैं। उदाहरण के लिए, GPT‑oss के लॉन्च के दौरान, हमने ओपन वेट मॉडल्स के लिए सबसे खराब स्थिति क्षमताओं का अनुमान लगाने हेतु प्रतिकूल फ़ाइन-ट्यूनिंग का उपयोग किया, जिसका वर्णन ओपन वेट LLMs के सबसे खराब स्थिति फ़्रंटियर जोखिमों का अनुमान में किया गया है। मुख्य सुरक्षा प्रश्न यह था कि क्या कोई दुर्भावनापूर्ण अभिनेता हमारे तैयार रहने के फ़्रेमवर्क के तहत जैव या साइबर जैसे क्षेत्रों में उच्च क्षमता तक पहुँचने के लिए मॉडल को फ़ाइन-ट्यून कर सकता है। क्योंकि इसके लिए संसाधन-गहन प्रतिकूल फ़ाइन-ट्यूनिंग की आवश्यकता थी, हमने थर्ड पार्टी मूल्यांकनकर्ताओं को हमारे आंतरिक तरीकों और परिणामों की समीक्षा करने और सुझाव देने के लिए आमंत्रित किया, बजाय इसके कि वे समान कार्य को दोहराएं।
इसमें मूल्यांकन रोलआउट साझा करना, प्रतिकूल परिस्थितियों के लिए दृष्टिकोण के बारे में विवरण देना, और सबसे खराब स्थिति वाले फ़्रंटियर जोखिमों के लिए कार्यप्रणाली और मूल्यांकन में सुधार के लिए संरचित सुझाव एकत्र करना शामिल था। मूल्यांकनकर्ताओं से प्राप्त फ़ीडबैक ने अंतिम प्रतिकूल फ़ाइन-ट्यूनिंग प्रक्रिया में बदलाव किए और कार्य-प्रणालीगत पुष्टि के महत्व को प्रदर्शित किया। हमने उन आइटम को दर्ज किया जिन्हें हमने पेपर और gpt-oss के लिए सिस्टम कार्ड में अपनाया, और जिन आइटम को हमने नहीं अपनाया उनके लिए हमने तर्क प्रस्तुत किए।
यहां, स्वतंत्र मूल्यांकन के बजाय कार्यप्रणाली की समीक्षा सही विकल्प थी: मूल्यांकन में बड़े पैमाने पर, सबसे खराब स्थिति वाले प्रयोगों का संचालन शामिल था, जिसके लिए बुनियादी ढांचे और तकनीकी विशेषज्ञता की आवश्यकता होती है जो आमतौर पर प्रमुख AI लैब्स के बाहर उपलब्ध नहीं होती है। इसका अर्थ यह था कि स्वतंत्र मूल्यांकन संभवतः सबसे खराब स्थिति के बारे में सीधे अंतर्दृष्टि प्रदान नहीं कर सकते थे, और दावों की पुष्टि पर बाहरी मूल्यांकनकर्ताओं को केंद्रित करना अधिक उत्पादक था। बाहरी मूल्यांकनकर्ताओं ने विधियों और साक्ष्यों की समीक्षा की(एक नई विंडो में खुलेगा), निर्णय-प्रासंगिक अंतरालों को उजागर किया, जिन्हें अनुशंसा फ़ीडबैक लूप के एक भाग के रूप में संबोधित किया गया। यह दृष्टिकोण वह है जिसे हम अन्य क्षेत्रों में विस्तारित करने की उम्मीद करते हैं जहां पहुंच या बुनियादी ढांचे की आवश्यकताएं किसी थर्ड पार्टी के लिए सीधे मूल्यांकन चलाना अव्यावहारिक बनाती हैं, या जहां बाहरी मूल्यांकन अभी तक मौजूद नहीं हैं।
बाहरी विशेषज्ञों को शामिल करने का एक और तरीका विषय-वस्तु विशेषज्ञ (SME) जांच है, जहां विशेषज्ञ सीधे मॉडल का मूल्यांकन करते हैं और सर्वेक्षण के माध्यम से इसकी क्षमताओं के आकलन के लिए संरचित इनपुट प्रदान करते हैं। यह रेड टीमिंग से भिन्न है, जिसका उद्देश्य विशिष्ट सुरक्षा उपायों का तनाव परीक्षण करना है। इससे हम डोमेन जानकारी के साथ तैयार रहने के फ़्रेमवर्क के मूल्यांकन को पूरा कर सकते हैं, जो विशेषज्ञ के निर्णय और वास्तविक दुनिया के कॉन्टेक्स्ट को दर्शाती है जिसे अकेले स्थिर मूल्यांकन कैप्चर नहीं कर सकते हैं। उदाहरण के लिए, हमने विषय-विशेषज्ञों के एक पैनल को आमंत्रित किया ताकि वे केवल-उपयोगी मॉडल 3 का उपयोग करके ChatGPT एजेंट और GPT‑5 के लिए अपने स्वयं के एंड-टू-एंड बायो परिदृश्यों का परीक्षण कर सकें। उन्होंने अपने परिदृश्यों में दिए गए मार्गदर्शन की उपयोगिता के आधार पर यह आंका कि मॉडल एक कम अनुभवी नौसिखिए की तुलना में उनके जैसे विशेषज्ञ को कितना अधिक सक्षम बना सकता है। लक्ष्य इस बारे में अतिरिक्त इनपुट इकट्ठा करना था कि सिस्टम एक प्रेरित नौसिखिए को किस तरह से सक्षम निष्पादन के करीब ले जा सकता है: SME ने वास्तविक वर्कफ़्लो के तहत हमारे “नोविस अपलिफ्ट” के दावों का तनाव परीक्षण किया और विस्तार से फ़ीडबैक दिया कि मॉडल ने सामग्री और चरण-स्तरीय मदद कहाँ प्रदान की और कहाँ कम सहायक सारांश दिए। इस विशेषज्ञ जांच अभ्यास को इन मॉडलों के परिनियोजन के लिए समग्र मूल्यांकन के हिस्से के रूप में शामिल किया गया था, और दोनों लॉन्च के लिए सिस्टम कार्ड में साझा किया गया था।
पारदर्शिता की भावना से, हम इस बारे में अधिक जानकारी साझा कर रहे हैं कि थर्ड पार्टी मूल्यांकनकर्ता हमारे साथ काम करते समय किन बातों पर सहमत होते हैं, और वे सिद्धांत जो हमारे सहयोग को मार्गदर्शित करते हैं:
- सतर्क गोपनीयता सीमाओं के साथ पारदर्शिता: थर्ड पार्टी मूल्यांकनकर्ता अपने आकलन का सपोर्ट करने के लिए गोपनीय, गैर-सार्वजनिक जानकारी साझा करने के लिए गैर-प्रकटीकरण समझौतों पर हस्ताक्षर करते हैं, ताकि उन्हें इनेबल किया जा सके। इस पोस्ट के एपेंडिक्स में, हम थर्ड पार्टी मूल्यांकनकर्ताओं के साथ अनुबंधों के प्रासंगिक अंश शामिल करते हैं, जो प्रकाशन से संबंधित अधिकारों और समीक्षा की अपेक्षाओं को रेखांकित करते हैं। हम पारदर्शिता के सिद्धांत के साथ काम करते हैं और ऐसे प्रकाशन को इनेबल करने का प्रयास करते हैं जो गोपनीय जानकारी या बौद्धिक संपदा से समझौता किए बिना सुरक्षा और संबंधित मूल्यांकन की समझ को आगे बढ़ाए। इसके एक भाग के रूप में, हम गोपनीयता और तथ्यात्मक सटीकता सुनिश्चित करने के लिए थर्ड पार्टी आकलन से प्राप्त प्रकाशनों की समीक्षा और अनुमोदन करते हैं। पिछले कुछ वर्षों में, कई थर्ड पार्टी मूल्यांकनकर्ताओं ने सिस्टम कार्ड में आकलन सारांश के हमारे अपने प्रकाशन के साथ अपना काम प्रकाशित किया है। गोपनीयता और सटीकता के लिए हमारी समीक्षा के बाद प्रकाशित किए गए कार्य के कुछ उदाहरण हैं: [METR GPT‑5 रिपोर्ट (एक नई विंडो में खुलेगा), OpenAI o1 पर अपोलो रिसर्च रिपोर्ट(एक नई विंडो में खुलेगा), अनियमित GPT‑5 आकलन(एक नई विंडो में खुलेगा)]
- विचारशील जानकारी प्रकटीकरण और सुरक्षित, संवेदनशील पहुंच: डिफ़ॉल्ट रूप से, हम उन मॉडलों को जानकारी और पहुंच प्रदान करते हैं जो सार्वजनिक या उत्पादन के लिए तैयार हैं। जब मूल्यांकन की आवश्यकता होती है, तो हम गहन पहुंच प्रदान करते हैं, जैसे कि केवल उपयोगी मॉडल या गैर-सार्वजनिक जानकारी तक। OpenAI ने थर्ड पार्टी मूल्यांकनकर्ताओं के लिए आवश्यक होने पर महत्वपूर्ण सुरक्षा प्रश्नों के लिए इन प्रकार की पहुंच प्रदान की है। महत्वपूर्ण रूप से, इस प्रकार की संवेदनशील पहुंच के लिए सख्त सुरक्षा उपायों की आवश्यकता होती है, और हम मॉडल की क्षमताओं और परीक्षण आवश्यकताओं के विकसित होने के साथ-साथ उन नियंत्रणों को आगे बढ़ाते रहते हैं।
- संतुलित वित्तीय प्रोत्साहन: हम मानते हैं कि यह सुनिश्चित करना महत्वपूर्ण है कि थर्ड पार्टी मूल्यांकन पारिस्थितिकी तंत्र अच्छी तरह से वित्त पोषित और टिकाऊ हो। इस कारण से, हम अपने सभी थर्ड पार्टी मूल्यांकनकर्ताओं को मुआवज़ा प्रदान करते हैं, और कुछ इसे अपने संगठनात्मक सिद्धांत के आधार पर अस्वीकार करने का निर्णय लेते हैं। मुआवज़े के रूपों में काम के लिए प्रत्यक्ष भुगतान और/या API क्रेडिट या अन्य माध्यमों से मॉडल उपयोग लागतों में सब्सिडी देना शामिल है। कोई भी भुगतान कभी भी किसी थर्ड पार्टी के मूल्यांकन के परिणामों पर निर्भर नहीं होता है।
संयुक्त रूप से, ये कारक थर्ड पार्टी के आकलनों को संवेदनशील जानकारी की सुरक्षा करने और एआई सुरक्षा में पारदर्शिता को बढ़ावा देने में मदद करते हैं, और थर्ड पार्टी के आकलनकर्ताओं को उनके समय के लिए मुआवजा प्राप्त करने के लिए रास्ते बनाते हैं।
भविष्य की ओर देखते हुए, हम अग्रणी एआई प्रणालियों का विश्वसनीय, निर्णय-प्रासंगिक मूल्यांकन करने में सक्षम संगठनों के पारिस्थितिकी तंत्र को आगे बढ़ें मजबूत करने की आवश्यकता महसूस करते हैं। प्रभावी थर्ड पार्टी मूल्यांकन के लिए विशेष विशेषज्ञता, स्थिर वित्तपोषण और पद्धतिगत कठोरता की आवश्यकता होती है। योग्य मूल्यांकनकर्ता संगठनों में आगे बढ़ें निवेश, मापन विज्ञान की उन्नति, और संवेदनशील पहुंच की सुरक्षा यह सुनिश्चित करने के लिए आवश्यक होंगे कि मूल्यांकन मॉडल क्षमताओं में प्रगति के साथ तालमेल बनाए रख सकें।
थर्ड पार्टी मूल्यांकन हमारे सुरक्षा कार्य में बाहरी दृष्टिकोण लाने का एक तरीका है, और ये अन्य तंत्रों के साथ मिलकर काम करते हैं। हम संरचित रेड टीमिंग प्रयासों, सामूहिक संरेखण प्रोजेक्ट्स के माध्यम से बाहरी विशेषज्ञों के साथ भी सहयोग करते हैं, यू.एस. CAISI और यू.के. AISI के साथ काम करते हैं, और हमारे ग्लोबल फिजिशियन नेटवर्क और कल्याण और एआई पर विशेषज्ञ ग्रुप जैसे सलाहकार ग्रुपों के साथ मानसिक स्वास्थ्य और यूज़र कल्याण पर हमारे काम का मार्गदर्शन करने में मदद करते हैं। ये प्रयास विभिन्न प्रकार की विशेषज्ञता का योगदान करते हैं और उन्नत एआई प्रणालियों के मूल्यांकन और संचालन के लिए एक व्यापक, अधिक विश्वसनीय आधार का सपोर्ट करते हैं।
निम्नलिखित हमारे पूर्व-परिनियोजन आकलनों पर हमारे साथ सहयोग करने वाली थर्ड पार्टी के साथ हमारे समझौतों के उदाहरणात्मक अंश हैं।
लेखक
फ़ुटनोट
- 1
यह रेड टीमिंग से भिन्न है, जिसका उद्देश्य सुरक्षा उपायों का सूक्ष्म परीक्षण करना और मूल्यांकन विकास के लिए डेटा प्रदान करना है।
- 2
जहां कोई मॉडल जानबूझकर कम प्रदर्शन करता है या अपनी वास्तविक क्षमताओं को छुपाता है जब उसे पता चलता है कि उसका मूल्यांकन या परीक्षण किया जा रहा है।
- 3
केवल-सहायक मॉडल किसी भी अनुरोध का उत्तर देते हैं, भले ही वह अनुरोध हानिकारक ही क्यों न हो। ये पोस्ट-ट्रेनिंग विधियों द्वारा बनाए जाते हैं जो इस व्यवहार को प्राप्त करते हैं।


