बाह्य चाचणीसह आमच्या सुरक्षा परिसंस्थेला बळकट करणे
फ्रंटियर एआयसाठी तृतीय पक्ष मूल्यांकनांसाठी आमचा दृष्टिकोन.
OpenAI मध्ये, आम्हाला विश्वास आहे की स्वतंत्र, विश्वासार्ह तृतीय पक्ष मूल्यांकन फ्रंटियर AI च्या सुरक्षा इकोसिस्टमला बळकट करण्यात महत्त्वपूर्ण भूमिका बजावतात. फ्रंटियर मॉडेल्सवर तृतीय पक्ष मूल्यांकन म्हणजे गंभीर सुरक्षा क्षमता आणि शमनाबद्दलच्या दाव्यांची पुष्टी करण्यासाठी किंवा त्यांना अतिरिक्त पुरावे प्रदान करण्यासाठी केलेली मूल्यांकन प्रक्रिया. ही मूल्यांकनं सुरक्षिततेच्या दाव्यांना प्रमाणित करण्यास, अंध ठिकाणांपासून संरक्षण करण्यास आणि क्षमता व जोखमींबद्दल पारदर्शकता वाढविण्यास मदत करतात. आमच्या आघाडीच्या मॉडेल्सची चाचणी घेण्यासाठी बाह्य तज्ञांना आमंत्रित करून, आम्ही आमच्या क्षमता मूल्यांकन आणि सुरक्षा उपायांच्या खोलीवर विश्वास निर्माण करणे आणि व्यापक सुरक्षा परिसंस्थेला उन्नत करण्यात मदत करणे हे आमचे उद्दिष्ट आहे.
GPT‑4 लाँच झाल्यापासून, OpenAI ने आमच्या मॉडेल्सची चाचणी आणि मूल्यांकन करण्यासाठी विविध बाह्य भागीदारांसोबत सहकार्य केले आहे. सर्वसाधारणपणे, आमचे तृतीय-पक्ष सहकार्य तीन प्रकारचे असतात:
- बायोसिक्यु रिटी, सायबर सुरक्षा, एआय स्वयं-सुधारणा आणि योजना यासारख्या मुख्य सीमा क्षमता आणि
- जोखमीचे मूल्यांकन आणि अर्थ लावण्याच्या आमच्या पद्धतींचे कार्यपद्धती पुनरावलोकने
- विषय-वस्तु तज्ञ (SME) तपासणी, जिथे तज्ञ वास्तविक जगातील SME कामांवर थेट मॉडेलचे मूल्यांकन करतात आणि त्याच्या क्षमता आणि संबंधित सुरक्षा उपायांच्या आमच्या मूल्यांकनात संरचित इनपुट प्रदान करतात1
या ब्लॉगमध्ये आम्ही बाह्य मूल्यांकनाच्या प्रत्येक प्रकाराचा कसा वापर करतो, ते का महत्त्वाचे आहेत, त्यांनी तैनाती निर्णयांना कसा आकार दिला आहे आणि या सहकार्यांची रचना करण्यासाठी आम्ही कोणती तत्त्वे वापरतो याची रूपरेषा दिली आहे. पारदर्शकतेच्या भावनेने, आम्ही तृतीय पक्ष परीक्षकांसोबतच्या आमच्या सहकार्याचे नियमन करणाऱ्या गोपनीयता आणि प्रकाशनाच्या अटींबद्दल अधिक माहिती सामायिक करत आहोत.
तृतीय पक्ष मूल्यांकनकर्ते आमच्या अंतर्गत कामासोबत मूल्यांकनाचा एक स्वतंत्र स्तर जोडतात, कठोरता वाढवतात आणि स्व-पुष्टीकरणाविरुद्ध अतिरिक्त संरक्षणे प्रदान करतात. त्यांचा इनपुट आमच्या स्वतःच्या मूल्यांकनांसह अतिरिक्त पुरावे प्रदान करतो, जे शक्तिशाली प्रणालींसाठी जबाबदार तैनाती निर्णयांची माहिती देण्यास मदत करतो.
आम्ही लवचिक सुरक्षा परिसंस्था तयार करण्याचा एक भाग म्हणून तृतीय पक्ष मूल्यांकन देखील पाहतो. आमचे संघ क्षमता आणि जोखीम क्षेत्रांमध्ये व्यापक अंतर्गत चाचणी घेतात, परंतु स्वतंत्र संस्था अतिरिक्त दृष्टीकोन आणि पद्धतशीर दृष्टिकोन आणतात. आम्ही आमच्यासोबत नियमितपणे फ्रंटियर मॉडेल्सचे मूल्यांकन करू शकणाऱ्या पात्र मूल्यांकन संस्था गटांना सपोर्ट देण्यासाठी काम करतो.
शेवटी, आम्ही या इनपुटमुळे आमच्या सुरक्षा प्रक्रियेला कसा आकार मिळतो याबद्दल पारदर्शक राहण्याचे ध्येय ठेवतो. आम्ही नियमितपणे तृतीय पक्ष मूल्यांकन सार्वजनिक करतो - उदाहरणार्थ, प्रणाली कार्डमध्ये पूर्व-उपयोजन मूल्यांकनांचे सारांश समाविष्ट करून आणि गोपनीयता व अचूकता पुनरावलोकनानंतर अधिक तपशीलवार कार्य प्रकाशित करण्यासाठी मूल्यांकन संस्था समर्थित करतो. ही पारदर्शकता दाखवते की बाह्य इनपुट आमच्या क्षमता मूल्यांकनांना आणि सुरक्षिततेला कसे आकार देते, ज्यामुळे विश्वास निर्माण होतो.
विश्वासार्ह प्रवेश, पारदर्शकता आणि ज्ञान-वाटपावर बांधलेले शाश्वत संबंध संपूर्ण परिसंस्थेला उदयोन्मुख जोखमींपासून पुढे राहण्यास मदत करतात आणि मजबूत मानकांसाठी आणि फ्रंटियर एआय सिस्टीमसाठी अधिक माहितीपूर्ण प्रशासनासाठी आवश्यक असलेल्या अनुकूलनीय, कृतीयोग्य मूल्यांकनांना प्रोत्साहन देतात.
GPT‑4(नवीन विंडोमध्ये उघडेल) च्या लाँचपासून, आम्ही तैनातीपूर्वी सुरुवातीच्या मॉडेल चेकपॉइंट्सवर स्वतंत्र मूल्यांकनांना समर्थन दिले आहे. त्या काळापासून, आम्ही तृतीय पक्ष संस्थांच्या श्रेणीसह आमचे कार्य विस्तारले आहे ज्यांना मुख्य सीमा क्षमता आणि जोखीम क्षेत्रांमध्ये मूल्यांकनासाठी गहन तज्ञता आहे. आम्ही स्वतंत्र प्रयोगशाळेच्या कामाला ओपन-एंडेड चाचणी म्हणून व्यापतो जिथे बाहेरील संघ विशिष्ट सीमा क्षमतेशी संबंधित दावा किंवा मूल्यांकन करण्यासाठी त्यांच्या स्वतःच्या पद्धती वापरतात.
उदाहरणार्थ, GPT‑5 साठी, OpenAI ने दीर्घकालीन स्वायत्तता, योजना, फसवणूक आणि देखरेखीचे उल्लंघन, ओले प्रयोगशाळेचे नियोजन व्यवहार्यता आणि आक्षेपार्ह सायबरसुरक्षा मूल्यांकन यासारख्या प्रमुख जोखीम क्षेत्रांमध्ये बाह्य क्षमता मूल्यांकनांचा विस्तृत संच समन्वयित केला.
ही स्वतंत्र मूल्यांकनं OpenAI च्या प्रिपेअर्डनेस फ्रेमवर्कनुसार केलेल्या मूल्यांकनांना पूरक आहेत आणि त्यात METR च्या टाइम होरायझन मूल्यांकन(नवीन विंडोमध्ये उघडेल) किंवा SecureBio च्या व्हायरोलॉजी क्षमता समस्या निवारण (VCT)(नवीन विंडोमध्ये उघडेल) मूल्यांकन यासारख्या बेंचमार्कचा समावेश आहे.
या मूल्यांकनांना पाठिंबा देण्यासाठी, आम्ही सुरुवातीच्या मॉडेल चेकपॉइंट्सवर सुरक्षित प्रवेश, आम्हाला दिसत असलेल्या क्षमता सुधारणांना ठोस करण्यासाठी निवडक मूल्यांकन निकाल, आवश्यकतेनुसार शून्य-डेटा धारणा आणि कमी शमन असलेले मॉडेल प्रदान केले. उदाहरणार्थ, सायबरसुरक्षा आणि जैवसुरक्षा डोमेनमध्ये चाचणी करणाऱ्या संस्थांनी अंतर्निहित क्षमता तपासण्यासाठी सुरक्षा कमी करण्यासह आणि त्याशिवाय मॉडेल्सची चाचणी केली. इतर अनेक संस्थांना मॉडेलच्या तर्क ट्रेसची तपासणी करण्यासाठी थेट चेन-ऑफ-थॉट प्रवेश मिळाला. या वाढलेल्या पारदर्शकता चरणाने मूल्यांकनकर्त्यांना सँडबॅगिंग [[fn: 2]] किंवा योजनेच्या वर्तनाची प्रकरणे ओळखण्याची परवानगी दिली जी केवळ विचारांची साखळी वाचून ओळखता येऊ शकतात. सुरक्षा नियंत्रणांसह प्रवेश प्रदान करण्यात आला होता आणि मॉडेल क्षमता आणि चाचणी गरजा विकसित होत असताना आम्ही ती नियंत्रणे अद्यतनित करत राहतो.
काही विशिष्ट संदर्भांमध्ये, बाह्य मूल्यांकनकर्ते पद्धतशीर पुनरावलोकन प्रदान करण्यासाठी योग्य स्थितीत असतात, ज्यामुळे फ्रेमवर्क आणि पुराव्यांकडे अतिरिक्त दृष्टिकोन मिळतो, ज्यावर अग्रणी प्रयोगशाळा जोखीम मूल्यांकन करण्यासाठी अवलंबून असतात. उदाहरणार्थ, GPT‑oss लाँच करताना, आम्ही ओपन वेट मॉडेल्ससाठी सर्वात वाईट-केस क्षमतांचा अंदाज घेण्यासाठी अॅडव्हर्सरियल फाईन-ट्यूनिंगचा वापर केला, ज्याचे वर्णन ओपन वेट LLM च्या सर्वात वाईट केस फ्रंटियर जोखमींचा अंदाज लावणे मध्ये केले आहे. मुख्य सुरक्षेचा प्रश्न असा होता की आमच्या तयारी फ्रेमवर्क अंतर्गत जैव किंवा सायबर सारख्या क्षेत्रात उच्च क्षमता गाठण्यासाठी एखादा दुर्भावनापूर्ण घटक मॉडेलला फाइन-ट्यून करू शकतो का. यासाठी संसाधन-केंद्रित प्रतिस्पर्धी फाइन-ट्यूनिंग आवश्यक असल्याने, आम्ही तृतीय पक्ष मूल्यांकनकर्त्यांना आमच्या अंतर्गत पद्धती आणि निकालांचे पुनरावलोकन करण्यासाठी आणि शिफारसी करण्यासाठी आमंत्रित केले, समान काम पुन्हा करण्याऐवजी.
यामध्ये मूल्यांकन रोलआउट्स सामायिक करणे, प्रतिस्पर्धी फाइन ट्यूनिंगच्या दृष्टिकोनाबद्दल तपशील, आणि सर्वात वाईट परिस्थितीतील सीमा जोखमींसाठी कार्यपद्धती आणि मूल्यांकन सुधारण्यासाठी संरचित शिफारसी गोळा करणे अशा अनेक आठवड्यांच्या प्रक्रियेचा समावेश होता. मूल्यांकनकर्त्यांच्या अभिप्रायामुळे अंतिम प्रतिकूल फाईन-ट्यूनिंग प्रक्रियेत बदल झाले आणि पद्धतशीर पुष्टीकरणाचे महत्त्व स्पष्ट झाले. आम्ही gpt-oss साठी पेपर आणि सिस्टम कार्डमध्ये कोणत्या बाबी स्वीकारल्या याची नोंद केली आणि ज्या बाबी आम्ही स्वीकारल्या नाहीत त्यांचे कारण दिले.
येथे, स्वतंत्र मूल्यांकनाऐवजी कार्यपद्धतीचे पुनरावलोकन योग्य होते: मूल्यांकनांमध्ये मोठ्या प्रमाणात, सर्वात वाईट परिस्थितीत प्रयोग चालवणे समाविष्ट होते, ज्यासाठी पायाभूत सुविधा आणि तांत्रिक कौशल्य आवश्यक असते जे सामान्यत: प्रमुख AI प्रयोगशाळांच्या बाहेर उपलब्ध नसते. याचा अर्थ असा की स्वतंत्र मूल्यांकनांमुळे सर्वात वाईट परिस्थितींमध्ये थेट अंतर्दृष्टी मिळू शकली नसती आणि दाव्यांच्या पुष्टीकरणावर बाह्य मूल्यांकनकर्त्यांचे लक्ष केंद्रित करणे अधिक फलदायी होते. बाह्य मूल्यांकनकर्त्यांनी पद्धती आणि पुराव्यांचे पुनरावलोकन केले(नवीन विंडोमध्ये उघडेल), निर्णयाशी संबंधित अंतरांवर प्रकाश टाकला जे शिफारस अभिप्राय लूपचा एक भाग म्हणून संबोधित केले गेले. हा दृष्टिकोन असा आहे जो आम्हाला इतर मार्गांवर विस्तारण्याची आशा आहे जिथे प्रवेश किंवा पायाभूत सुविधांच्या गरजांमुळे तृतीय पक्षाला थेट मूल्यांकन करणे अव्यवहार्य ठरते किंवा जिथे बाह्य मूल्यांकन अद्याप अस्तित्वात नाहीत.
आम्ही बाह्य तज्ञांना गुंतवून ठेवण्याचा आणखी एक मार्ग म्हणजे विषय-तज्ञ (SME) तपासणीद्वारे, जिथे तज्ञ थेट मॉडेलचे मूल्यांकन करतात आणि त्याच्या क्षमतांच्या आमच्या मूल्यांकनात सर्वेक्षणांद्वारे संरचित इनपुट प्रदान करतात. हे रेड टीमिंग पासून वेगळे आहे, ज्याचा उद्देश विशिष्ट सुरक्षा उपायांची कसून चाचणी घेणे आहे. यामुळे आम्हाला प्रिपेअर्डनेस फ्रेमवर्क मूल्यांकनांना डोमेन-विशिष्ट अंतर्दृष्टीसह पूरक करण्याची परवानगी मिळते, जी तज्ञांच्या निर्णयाचे आणि वास्तविक जगाच्या संदर्भाचे प्रतिबिंबित करते, जे केवळ स्थिर मूल्यांकनांमध्ये कॅप्चर केले जाऊ शकत नाही. उदाहरणार्थ, आम्ही विषय-तज्ज्ञांच्या एका पॅनेलला ChatGPT एजंट आणि GPT‑5 साठी त्यांच्या स्वतःच्या एंड-टू-एंड बायो परिस्थिती वापरण्यासाठी उपयुक्त-केवळ मॉडेल 3 वापरून पाहण्यासाठी आमंत्रित केले. त्यांच्या परिस्थितींमध्ये दिलेल्या मार्गदर्शनाच्या उपयुक्ततेवर आधारित, त्यांनी कमी अनुभवी नवशिक्याच्या तुलनेत स्वतःसारख्या तज्ञाला मॉडेल किती उंचावू शकते हे गुण दिले. उद्दिष्ट होते प्रणाली एखाद्या प्रेरित नवशिक्याला सक्षम अंमलबजावणीच्या दिशेने भौतिकदृष्ट्या किती पुढे नेऊ शकते यावर अतिरिक्त इनपुट गोळा करणे: SMEs ने त्यांच्या वास्तववादी कार्यप्रवाहांमध्ये आमच्या "नवशिक्या उत्थान" दाव्यांची ताण-चाचणी केली आणि मॉडेलने कुठे भौतिक, टप्पा-स्तरीय मदत दिली आणि कुठे कमी उपयुक्त सारांश दिले यावर सविस्तर अभिप्राय दिला. या मॉडेल्सच्या तैनातीसाठी एकूण मूल्यांकनाचा भाग म्हणून हा तज्ञ तपासणी सराव समाविष्ट करण्यात आला होता आणि दोन्ही प्रक्षेपणांसाठी प्रणाली कार्डमध्ये सामायिक करण्यात आला होता.
पारदर्शकतेच्या भावनेतून, आम्ही तृतीय पक्ष मूल्यांकनकर्ते आमच्यासोबत काम करताना कोणत्या गोष्टींवर सहमत होतात आणि आमच्या सहकार्याचे मार्गदर्शन करणारी तत्त्वे याबद्दल अधिक माहिती सामायिक करत आहोत:
- गोपनीयतेच्या काळजीपूर्वक मर्यादांसह पारदर्शकता: तृतीय पक्ष मूल्यांकनकर्ते त्यांच्या मूल्यांकनांना सपोर्ट देण्यासाठी गोपनीय, सार्वजनिक नसलेली माहिती सामायिक करण्यास सक्षम करणे गैर-प्रकटीकरण करारांवर स्वाक्षरी करतात. या पोस्टच्या परिशिष्टात, आम्ही तृतीय पक्ष मूल्यांकनकर्त्यांसोबतच्या करारांमधील संबंधित उतारे समाविष्ट करतो, जे प्रकाशनाशी संबंधित अधिकार आणि पुनरावलोकनाच्या अपेक्षांची रूपरेषा देतात. आम्ही पारदर्शकतेच्या तत्त्वानुसार कार्य करतो आणि गोपनीय माहिती किंवा बौद्धिक संपदा यांची तडजोड न करता सुरक्षितता आणि संबंधित मूल्यांकनांची समज वाढवणारे प्रकाशन सक्षम करण्यासाठी प्रयत्नशील असतो. याचा एक भाग म्हणून, आम्ही गोपनीयता आणि तथ्यात्मक अचूकता सुनिश्चित करण्यासाठी तृतीय-पक्ष मूल्यांकनांमधील प्रकाशनांचे पुनरावलोकन करतो आणि त्यांना मंजूर करतो. गेल्या काही वर्षांत, अनेक तृतीय पक्ष मूल्यांकनकर्त्यांनी त्यांचे काम आमच्या स्वतःच्या मूल्यांकन सारांशांच्या प्रकाशनासोबत प्रणाली कार्ड्समध्ये प्रकाशित केले आहे. गोपनीयता आणि अचूकतेसाठी आम्ही त्याचे पुनरावलोकन केल्यानंतर प्रकाशित केलेल्या कामाच्या काही उदाहरणांमध्ये हे समाविष्ट आहे: [METR GPT‑5 अहवाल (नवीन विंडोमध्ये उघडेल), Apollo संशोधन अहवाल OpenAI o1 वर(नवीन विंडोमध्ये उघडेल), Irregular GPT‑5 मूल्यांकन(नवीन विंडोमध्ये उघडेल)]
- विचारपूर्वक माहिती प्रकटीकरण आणि सुरक्षित, संवेदनशील प्रवेश: डीफॉल्टनुसार, आम्ही सार्वजनिक किंवा उत्पादनासाठी तयार असलेल्या मॉडेल्सची माहिती आणि प्रवेश प्रदान करतो. जेव्हा मूल्यांकनाची आवश्यकता असते, तेव्हा आम्ही सखोल प्रवेश प्रदान करतो, जसे की उपयुक्त-फक्त मॉडेल्स किंवा गैर-सार्वजनिक माहिती. OpenAI ने तृतीय पक्ष मूल्यांकनकर्त्यांसाठी आवश्यक असलेल्या गंभीर सुरक्षा प्रश्नांसाठी या प्रकारच्या प्रवेशाची व्यवस्था केली आहे. महत्त्वाचे म्हणजे, या प्रकारच्या संवेदनशील प्रवेशासाठी कठोर सुरक्षा उपायांची आवश्यकता असते आणि आम्ही मॉडेल क्षमता आणि चाचणी गरजा विकसित होत असताना ती नियंत्रणे अद्यतनित करण्यासाठी सुरू ठेवा.
- संतुलित आर्थिक प्रोत्साहने: आम्हाला विश्वास आहे की तृतीय पक्ष मूल्यांकन परिसंस्थेला पुरेसा निधी मिळावा आणि ती शाश्वत राहावी याची खात्री करणे महत्वाचे आहे. त्यामुळे, आम्ही आमच्या सर्व तृतीय पक्ष मूल्यांकनकर्त्यांना भरपाई देतो, आणि काही जण त्यांच्या संघटनात्मक तत्वज्ञानानुसार नकार देण्याचे निवडतात. भरपाईच्या प्रकारांमध्ये कामासाठी थेट पेमेंट आणि/किंवा API क्रेडिट्सद्वारे किंवा अन्यथा मॉडेल वापराच्या खर्चाला सबसिडी देणे समाविष्ट आहे. कोणतेही पेमेंट कधीही तृतीय पक्ष मूल्यांकनाच्या निकालांवर अवलंबून नसते.
एकत्रितपणे, हे घटक तृतीय पक्ष मूल्यांकनांना संवेदनशील माहितीचे संरक्षण करण्यास आणि एआय सुरक्षिततेत पारदर्शकता वाढविण्यास मदत करतात, तसेच तृतीय पक्ष मूल्यांकनकर्त्यांना त्यांच्या वेळेची भरपाई करण्यासाठी मार्ग तयार करतात.
पुढे पाहता, आम्हाला फ्रंटियर एआय प्रणालींचे विश्वासार्ह, निर्णय-संबंधित मूल्यांकन करण्यास सक्षम संस्थांच्या परिसंस्थेला बळकटी देणे सुरू ठेवा गरज आहे. प्रभावी तृतीय पक्ष मूल्यांकनासाठी विशेष कौशल्य, स्थिर निधी आणि पद्धतशीर काटेकोरपणा आवश्यक आहे. पात्र मूल्यांकनकर्ता संस्थांमध्ये सुरू ठेवा गुंतवणूक, मोजमाप विज्ञानाची प्रगती, आणि संवेदनशील प्रवेशासाठी सुरक्षा हे सुनिश्चित करण्यासाठी आवश्यक असेल की मूल्यांकन मॉडेल क्षमतांमधील प्रगतीसह गती राखू शकतील.
तृतीय पक्ष मूल्यांकन हे एक साधन आहे ज्याद्वारे आम्ही आमच्या सुरक्षिततेच्या कामात बाह्य दृष्टिकोन आणतो, आणि ते इतर यंत्रणांसह कार्य करतात. आम्ही संरचित रेड टीमिंग प्रयत्न, सामूहिक संरेखन प्रोजेक्ट्स, यू.एस. CAISI आणि यू.के. AISI, आणि आमच्या ग्लोबल फिजिशियन नेटवर्क आणि वेल-बीइंग आणि AIवरील तज्ञ परिषद सारख्या सल्लागार गटांसह मानसिक आरोग्य आणि वापरकर्त्याच्या कल्याणावर आमच्या कार्यास मार्गदर्शन करण्यासाठी बाह्य तज्ञांसह सहयोग करतो. हे प्रयत्न विविध प्रकारच्या तज्ज्ञतेचे समर्थन करतात आणि प्रगत AI प्रणालींचे मूल्यांकन आणि नियमन करण्यासाठी व्यापक, अधिक विश्वासार्ह पाया तयार करतात.
प्री-डिप्लॉयमेंट मूल्यांकनांवर आमच्याशी सहकार्य करणाऱ्या तृतीय पक्षांसोबतच्या आमच्या करारांमधील उदाहरणार्थ उतारे पुढीलप्रमाणे आहेत.
लेखक
फूटनोट्स
- 1
हे रेड टीमिंगपेक्षा वेगळे आहे, ज्याचा उद्देश सुरक्षा उपायांची सूक्ष्म तपासणी करणे आणि मूल्यांकन विकासासाठी डेटा प्रदान करणे आहे.
- 2
जेव्हा एखादे मॉडेल त्याचे मूल्यांकन किंवा चाचणी होत असल्याचे ओळखते, तेव्हा ते जाणूनबुजून कमी कामगिरी करते किंवा त्याच्या खऱ्या क्षमता लपवते.
- 3
फक्त उपयुक्त मॉडेल्स कोणत्याही विनंतीला उत्तर देतात, जरी ती विनंती हानिकारक असली तरी. हे वर्तन साध्य करणाऱ्या प्रशिक्षणोत्तर पद्धतींनी हे तयार केले जाते.


