१९ नोव्हेंबर, २०२५

बाह्य चाचणीसह आमच्या सुरक्षा परिसंस्थेला बळकट करणे

फ्रंटियर एआयसाठी तृतीय पक्ष मूल्यांकनांसाठी आमचा दृष्टिकोन.

लोड होत आहे...

OpenAI मध्ये, आम्हाला विश्वास आहे की स्वतंत्र, विश्वासार्ह तृतीय पक्ष मूल्यांकन फ्रंटियर AI च्या सुरक्षा इकोसिस्टमला बळकट करण्यात महत्त्वपूर्ण भूमिका बजावतात. फ्रंटियर मॉडेल्सवर तृतीय पक्ष मूल्यांकन म्हणजे गंभीर सुरक्षा क्षमता आणि शमनाबद्दलच्या दाव्यांची पुष्टी करण्यासाठी किंवा त्यांना अतिरिक्त पुरावे प्रदान करण्यासाठी केलेली मूल्यांकन प्रक्रिया. ही मूल्यांकनं सुरक्षिततेच्या दाव्यांना प्रमाणित करण्यास, अंध ठिकाणांपासून संरक्षण करण्यास आणि क्षमता व जोखमींबद्दल पारदर्शकता वाढविण्यास मदत करतात. आमच्या आघाडीच्या मॉडेल्सची चाचणी घेण्यासाठी बाह्य तज्ञांना आमंत्रित करून, आम्ही आमच्या क्षमता मूल्यांकन आणि सुरक्षा उपायांच्या खोलीवर विश्वास निर्माण करणे आणि व्यापक सुरक्षा परिसंस्थेला उन्नत करण्यात मदत करणे हे आमचे उद्दिष्ट आहे.

GPT‑4 लाँच झाल्यापासून, OpenAI ने आमच्या मॉडेल्सची चाचणी आणि मूल्यांकन करण्यासाठी विविध बाह्य भागीदारांसोबत सहकार्य केले आहे. सर्वसाधारणपणे, आमचे तृतीय-पक्ष सहकार्य तीन प्रकारचे असतात:

बायोसिक्यु रिटी, सायबर सुरक्षा, एआय स्वयं-सुधारणा आणि योजना यासारख्या मुख्य सीमा क्षमता आणि
जोखमीचे मूल्यांकन आणि अर्थ लावण्याच्या आमच्या पद्धतींचे कार्यपद्धती पुनरावलोकने
विषय-वस्तु तज्ञ (SME) तपासणी, जिथे तज्ञ वास्तविक जगातील SME कामांवर थेट मॉडेलचे मूल्यांकन करतात आणि त्याच्या क्षमता आणि संबंधित सुरक्षा उपायांच्या आमच्या मूल्यांकनात संरचित इनपुट प्रदान करतात¹

या ब्लॉगमध्ये आम्ही बाह्य मूल्यांकनाच्या प्रत्येक प्रकाराचा कसा वापर करतो, ते का महत्त्वाचे आहेत, त्यांनी तैनाती निर्णयांना कसा आकार दिला आहे आणि या सहकार्यांची रचना करण्यासाठी आम्ही कोणती तत्त्वे वापरतो याची रूपरेषा दिली आहे. पारदर्शकतेच्या भावनेने, आम्ही तृतीय पक्ष परीक्षकांसोबतच्या आमच्या सहकार्याचे नियमन करणाऱ्या गोपनीयता आणि प्रकाशनाच्या अटींबद्दल अधिक माहिती सामायिक करत आहोत.

हे महत्त्वाचे का आहे?

तृतीय पक्ष मूल्यांकनकर्ते आमच्या अंतर्गत कामासोबत मूल्यांकनाचा एक स्वतंत्र स्तर जोडतात, कठोरता वाढवतात आणि स्व-पुष्टीकरणाविरुद्ध अतिरिक्त संरक्षणे प्रदान करतात. त्यांचा इनपुट आमच्या स्वतःच्या मूल्यांकनांसह अतिरिक्त पुरावे प्रदान करतो, जे शक्तिशाली प्रणालींसाठी जबाबदार तैनाती निर्णयांची माहिती देण्यास मदत करतो.

आम्ही लवचिक सुरक्षा परिसंस्था तयार करण्याचा⁠ एक भाग म्हणून तृतीय पक्ष मूल्यांकन देखील पाहतो. आमचे संघ क्षमता आणि जोखीम क्षेत्रांमध्ये व्यापक अंतर्गत चाचणी घेतात, परंतु स्वतंत्र संस्था अतिरिक्त दृष्टीकोन आणि पद्धतशीर दृष्टिकोन आणतात. आम्ही आमच्यासोबत नियमितपणे फ्रंटियर मॉडेल्सचे मूल्यांकन करू शकणाऱ्या पात्र मूल्यांकन संस्था गटांना सपोर्ट देण्यासाठी काम करतो.

शेवटी, आम्ही या इनपुटमुळे आमच्या सुरक्षा प्रक्रियेला कसा आकार मिळतो याबद्दल पारदर्शक राहण्याचे ध्येय ठेवतो. आम्ही नियमितपणे तृतीय पक्ष मूल्यांकन सार्वजनिक करतो - उदाहरणार्थ, प्रणाली कार्डमध्ये पूर्व-उपयोजन मूल्यांकनांचे सारांश समाविष्ट करून आणि गोपनीयता व अचूकता पुनरावलोकनानंतर अधिक तपशीलवार कार्य प्रकाशित करण्यासाठी मूल्यांकन संस्था समर्थित करतो. ही पारदर्शकता दाखवते की बाह्य इनपुट आमच्या क्षमता मूल्यांकनांना आणि सुरक्षिततेला कसे आकार देते, ज्यामुळे विश्वास निर्माण होतो.

विश्वासार्ह प्रवेश, पारदर्शकता आणि ज्ञान-वाटपावर बांधलेले शाश्वत संबंध संपूर्ण परिसंस्थेला उदयोन्मुख जोखमींपासून पुढे राहण्यास मदत करतात आणि मजबूत मानकांसाठी आणि फ्रंटियर एआय सिस्टीमसाठी अधिक माहितीपूर्ण प्रशासनासाठी आवश्यक असलेल्या अनुकूलनीय, कृतीयोग्य मूल्यांकनांना प्रोत्साहन देतात.

बाह्य प्रयोगशाळांद्वारे स्वतंत्र मूल्यांकन

GPT‑4⁠(नवीन विंडोमध्ये उघडेल) च्या लाँचपासून, आम्ही तैनातीपूर्वी सुरुवातीच्या मॉडेल चेकपॉइंट्सवर स्वतंत्र मूल्यांकनांना समर्थन दिले आहे. त्या काळापासून, आम्ही तृतीय पक्ष संस्थांच्या श्रेणीसह आमचे कार्य विस्तारले आहे ज्यांना मुख्य सीमा क्षमता आणि जोखीम क्षेत्रांमध्ये मूल्यांकनासाठी गहन तज्ञता आहे. आम्ही स्वतंत्र प्रयोगशाळेच्या कामाला ओपन-एंडेड चाचणी म्हणून व्यापतो जिथे बाहेरील संघ विशिष्ट सीमा क्षमतेशी संबंधित दावा किंवा मूल्यांकन करण्यासाठी त्यांच्या स्वतःच्या पद्धती वापरतात.

उदाहरणार्थ, GPT‑5⁠ साठी, OpenAI ने दीर्घकालीन स्वायत्तता, योजना, फसवणूक आणि देखरेखीचे उल्लंघन, ओले प्रयोगशाळेचे नियोजन व्यवहार्यता आणि आक्षेपार्ह सायबरसुरक्षा मूल्यांकन यासारख्या प्रमुख जोखीम क्षेत्रांमध्ये बाह्य क्षमता मूल्यांकनांचा विस्तृत संच समन्वयित केला.

ही स्वतंत्र मूल्यांकनं OpenAI च्या प्रिपेअर्डनेस फ्रेमवर्कनुसार केलेल्या मूल्यांकनांना पूरक आहेत आणि त्यात METR च्या टाइम होरायझन मूल्यांकन⁠(नवीन विंडोमध्ये उघडेल) किंवा SecureBio च्या व्हायरोलॉजी क्षमता समस्या निवारण (VCT)⁠(नवीन विंडोमध्ये उघडेल) मूल्यांकन यासारख्या बेंचमार्कचा समावेश आहे.

या मूल्यांकनांना पाठिंबा देण्यासाठी, आम्ही सुरुवातीच्या मॉडेल चेकपॉइंट्सवर सुरक्षित प्रवेश, आम्हाला दिसत असलेल्या क्षमता सुधारणांना ठोस करण्यासाठी निवडक मूल्यांकन निकाल, आवश्यकतेनुसार शून्य-डेटा धारणा आणि कमी शमन असलेले मॉडेल प्रदान केले. उदाहरणार्थ, सायबरसुरक्षा आणि जैवसुरक्षा डोमेनमध्ये चाचणी करणाऱ्या संस्थांनी अंतर्निहित क्षमता तपासण्यासाठी सुरक्षा कमी करण्यासह आणि त्याशिवाय मॉडेल्सची चाचणी केली. इतर अनेक संस्थांना मॉडेलच्या तर्क ट्रेसची तपासणी करण्यासाठी थेट चेन-ऑफ-थॉट प्रवेश मिळाला. या वाढलेल्या पारदर्शकता चरणाने मूल्यांकनकर्त्यांना सँडबॅगिंग [[fn: 2]] किंवा योजनेच्या वर्तनाची प्रकरणे ओळखण्याची परवानगी दिली जी केवळ विचारांची साखळी वाचून ओळखता येऊ शकतात. सुरक्षा नियंत्रणांसह प्रवेश प्रदान करण्यात आला होता आणि मॉडेल क्षमता आणि चाचणी गरजा विकसित होत असताना आम्ही ती नियंत्रणे अद्यतनित करत राहतो.

कार्यपद्धती पुनरावलोकन

काही विशिष्ट संदर्भांमध्ये, बाह्य मूल्यांकनकर्ते पद्धतशीर पुनरावलोकन प्रदान करण्यासाठी योग्य स्थितीत असतात, ज्यामुळे फ्रेमवर्क आणि पुराव्यांकडे अतिरिक्त दृष्टिकोन मिळतो, ज्यावर अग्रणी प्रयोगशाळा जोखीम मूल्यांकन करण्यासाठी अवलंबून असतात. उदाहरणार्थ, GPT‑oss⁠ लाँच करताना, आम्ही ओपन वेट मॉडेल्ससाठी सर्वात वाईट-केस क्षमतांचा अंदाज घेण्यासाठी अॅडव्हर्सरियल फाईन-ट्यूनिंगचा वापर केला, ज्याचे वर्णन ओपन वेट LLM च्या सर्वात वाईट केस फ्रंटियर जोखमींचा अंदाज लावणे⁠ मध्ये केले आहे. मुख्य सुरक्षेचा प्रश्न असा होता की आमच्या तयारी फ्रेमवर्क अंतर्गत जैव किंवा सायबर सारख्या क्षेत्रात उच्च क्षमता गाठण्यासाठी एखादा दुर्भावनापूर्ण घटक मॉडेलला फाइन-ट्यून करू शकतो का. यासाठी संसाधन-केंद्रित प्रतिस्पर्धी फाइन-ट्यूनिंग आवश्यक असल्याने, आम्ही तृतीय पक्ष मूल्यांकनकर्त्यांना आमच्या अंतर्गत पद्धती आणि निकालांचे पुनरावलोकन करण्यासाठी आणि शिफारसी करण्यासाठी आमंत्रित केले, समान काम पुन्हा करण्याऐवजी.

यामध्ये मूल्यांकन रोलआउट्स सामायिक करणे, प्रतिस्पर्धी फाइन ट्यूनिंगच्या दृष्टिकोनाबद्दल तपशील, आणि सर्वात वाईट परिस्थितीतील सीमा जोखमींसाठी कार्यपद्धती आणि मूल्यांकन सुधारण्यासाठी संरचित शिफारसी गोळा करणे अशा अनेक आठवड्यांच्या प्रक्रियेचा समावेश होता. मूल्यांकनकर्त्यांच्या अभिप्रायामुळे अंतिम प्रतिकूल फाईन-ट्यूनिंग प्रक्रियेत बदल झाले आणि पद्धतशीर पुष्टीकरणाचे महत्त्व स्पष्ट झाले. आम्ही gpt-oss साठी पेपर आणि सिस्टम कार्डमध्ये कोणत्या बाबी स्वीकारल्या याची नोंद केली आणि ज्या बाबी आम्ही स्वीकारल्या नाहीत त्यांचे कारण दिले.

येथे, स्वतंत्र मूल्यांकनाऐवजी कार्यपद्धतीचे पुनरावलोकन योग्य होते: मूल्यांकनांमध्ये मोठ्या प्रमाणात, सर्वात वाईट परिस्थितीत प्रयोग चालवणे समाविष्ट होते, ज्यासाठी पायाभूत सुविधा आणि तांत्रिक कौशल्य आवश्यक असते जे सामान्यत: प्रमुख AI प्रयोगशाळांच्या बाहेर उपलब्ध नसते. याचा अर्थ असा की स्वतंत्र मूल्यांकनांमुळे सर्वात वाईट परिस्थितींमध्ये थेट अंतर्दृष्टी मिळू शकली नसती आणि दाव्यांच्या पुष्टीकरणावर बाह्य मूल्यांकनकर्त्यांचे लक्ष केंद्रित करणे अधिक फलदायी होते. बाह्य मूल्यांकनकर्त्यांनी पद्धती आणि पुराव्यांचे पुनरावलोकन केले⁠(नवीन विंडोमध्ये उघडेल), निर्णयाशी संबंधित अंतरांवर प्रकाश टाकला जे शिफारस अभिप्राय लूपचा एक भाग म्हणून संबोधित केले गेले. हा दृष्टिकोन असा आहे जो आम्हाला इतर मार्गांवर विस्तारण्याची आशा आहे जिथे प्रवेश किंवा पायाभूत सुविधांच्या गरजांमुळे तृतीय पक्षाला थेट मूल्यांकन करणे अव्यवहार्य ठरते किंवा जिथे बाह्य मूल्यांकन अद्याप अस्तित्वात नाहीत.

विषय-तज्ज्ञ (एसएमई) तपासणी

आम्ही बाह्य तज्ञांना गुंतवून ठेवण्याचा आणखी एक मार्ग म्हणजे विषय-तज्ञ (SME) तपासणीद्वारे, जिथे तज्ञ थेट मॉडेलचे मूल्यांकन करतात आणि त्याच्या क्षमतांच्या आमच्या मूल्यांकनात सर्वेक्षणांद्वारे संरचित इनपुट प्रदान करतात. हे रेड टीमिंग⁠ पासून वेगळे आहे, ज्याचा उद्देश विशिष्ट सुरक्षा उपायांची कसून चाचणी घेणे आहे. यामुळे आम्हाला प्रिपेअर्डनेस फ्रेमवर्क मूल्यांकनांना डोमेन-विशिष्ट अंतर्दृष्टीसह पूरक करण्याची परवानगी मिळते, जी तज्ञांच्या निर्णयाचे आणि वास्तविक जगाच्या संदर्भाचे प्रतिबिंबित करते, जे केवळ स्थिर मूल्यांकनांमध्ये कॅप्चर केले जाऊ शकत नाही. उदाहरणार्थ, आम्ही विषय-तज्ज्ञांच्या एका पॅनेलला ChatGPT एजंट आणि GPT‑5 साठी त्यांच्या स्वतःच्या एंड-टू-एंड बायो परिस्थिती वापरण्यासाठी उपयुक्त-केवळ मॉडेल ³ वापरून पाहण्यासाठी आमंत्रित केले. त्यांच्या परिस्थितींमध्ये दिलेल्या मार्गदर्शनाच्या उपयुक्ततेवर आधारित, त्यांनी कमी अनुभवी नवशिक्याच्या तुलनेत स्वतःसारख्या तज्ञाला मॉडेल किती उंचावू शकते हे गुण दिले. उद्दिष्ट होते प्रणाली एखाद्या प्रेरित नवशिक्याला सक्षम अंमलबजावणीच्या दिशेने भौतिकदृष्ट्या किती पुढे नेऊ शकते यावर अतिरिक्त इनपुट गोळा करणे: SMEs ने त्यांच्या वास्तववादी कार्यप्रवाहांमध्ये आमच्या "नवशिक्या उत्थान" दाव्यांची ताण-चाचणी केली आणि मॉडेलने कुठे भौतिक, टप्पा-स्तरीय मदत दिली आणि कुठे कमी उपयुक्त सारांश दिले यावर सविस्तर अभिप्राय दिला. या मॉडेल्सच्या तैनातीसाठी एकूण मूल्यांकनाचा भाग म्हणून हा तज्ञ तपासणी सराव समाविष्ट करण्यात आला होता आणि दोन्ही प्रक्षेपणांसाठी प्रणाली कार्डमध्ये सामायिक करण्यात आला होता.

तृतीय पक्ष मूल्यांकन सहकार्य कशामुळे यशस्वी होते?

पारदर्शकतेच्या भावनेतून, आम्ही तृतीय पक्ष मूल्यांकनकर्ते आमच्यासोबत काम करताना कोणत्या गोष्टींवर सहमत होतात आणि आमच्या सहकार्याचे मार्गदर्शन करणारी तत्त्वे याबद्दल अधिक माहिती सामायिक करत आहोत:

गोपनीयतेच्या काळजीपूर्वक मर्यादांसह पारदर्शकता: तृतीय पक्ष मूल्यांकनकर्ते त्यांच्या मूल्यांकनांना सपोर्ट देण्यासाठी गोपनीय, सार्वजनिक नसलेली माहिती सामायिक करण्यास सक्षम करणे गैर-प्रकटीकरण करारांवर स्वाक्षरी करतात. या पोस्टच्या परिशिष्टात⁠, आम्ही तृतीय पक्ष मूल्यांकनकर्त्यांसोबतच्या करारांमधील संबंधित उतारे समाविष्ट करतो, जे प्रकाशनाशी संबंधित अधिकार आणि पुनरावलोकनाच्या अपेक्षांची रूपरेषा देतात. आम्ही पारदर्शकतेच्या तत्त्वानुसार कार्य करतो आणि गोपनीय माहिती किंवा बौद्धिक संपदा यांची तडजोड न करता सुरक्षितता आणि संबंधित मूल्यांकनांची समज वाढवणारे प्रकाशन सक्षम करण्यासाठी प्रयत्नशील असतो. याचा एक भाग म्हणून, आम्ही गोपनीयता आणि तथ्यात्मक अचूकता सुनिश्चित करण्यासाठी तृतीय-पक्ष मूल्यांकनांमधील प्रकाशनांचे पुनरावलोकन करतो आणि त्यांना मंजूर करतो. गेल्या काही वर्षांत, अनेक तृतीय पक्ष मूल्यांकनकर्त्यांनी त्यांचे काम आमच्या स्वतःच्या मूल्यांकन सारांशांच्या प्रकाशनासोबत प्रणाली कार्ड्समध्ये प्रकाशित केले आहे. गोपनीयता आणि अचूकतेसाठी आम्ही त्याचे पुनरावलोकन केल्यानंतर प्रकाशित केलेल्या कामाच्या काही उदाहरणांमध्ये हे समाविष्ट आहे: [METR GPT‑5 अहवाल ⁠(नवीन विंडोमध्ये उघडेल), Apollo संशोधन अहवाल OpenAI o1 वर⁠(नवीन विंडोमध्ये उघडेल), Irregular GPT‑5 मूल्यांकन⁠(नवीन विंडोमध्ये उघडेल)]
विचारपूर्वक माहिती प्रकटीकरण आणि सुरक्षित, संवेदनशील प्रवेश: डीफॉल्टनुसार, आम्ही सार्वजनिक किंवा उत्पादनासाठी तयार असलेल्या मॉडेल्सची माहिती आणि प्रवेश प्रदान करतो. जेव्हा मूल्यांकनाची आवश्यकता असते, तेव्हा आम्ही सखोल प्रवेश प्रदान करतो, जसे की उपयुक्त-फक्त मॉडेल्स किंवा गैर-सार्वजनिक माहिती. OpenAI ने तृतीय पक्ष मूल्यांकनकर्त्यांसाठी आवश्यक असलेल्या गंभीर सुरक्षा प्रश्नांसाठी या प्रकारच्या प्रवेशाची व्यवस्था केली आहे. महत्त्वाचे म्हणजे, या प्रकारच्या संवेदनशील प्रवेशासाठी कठोर सुरक्षा उपायांची आवश्यकता असते आणि आम्ही मॉडेल क्षमता आणि चाचणी गरजा विकसित होत असताना ती नियंत्रणे अद्यतनित करण्यासाठी सुरू ठेवा.
संतुलित आर्थिक प्रोत्साहने: आम्हाला विश्वास आहे की तृतीय पक्ष मूल्यांकन परिसंस्थेला पुरेसा निधी मिळावा आणि ती शाश्वत राहावी याची खात्री करणे महत्वाचे आहे. त्यामुळे, आम्ही आमच्या सर्व तृतीय पक्ष मूल्यांकनकर्त्यांना भरपाई देतो, आणि काही जण त्यांच्या संघटनात्मक तत्वज्ञानानुसार नकार देण्याचे निवडतात. भरपाईच्या प्रकारांमध्ये कामासाठी थेट पेमेंट आणि/किंवा API क्रेडिट्सद्वारे किंवा अन्यथा मॉडेल वापराच्या खर्चाला सबसिडी देणे समाविष्ट आहे. कोणतेही पेमेंट कधीही तृतीय पक्ष मूल्यांकनाच्या निकालांवर अवलंबून नसते.

एकत्रितपणे, हे घटक तृतीय पक्ष मूल्यांकनांना संवेदनशील माहितीचे संरक्षण करण्यास आणि एआय सुरक्षिततेत पारदर्शकता वाढविण्यास मदत करतात, तसेच तृतीय पक्ष मूल्यांकनकर्त्यांना त्यांच्या वेळेची भरपाई करण्यासाठी मार्ग तयार करतात.

भविष्यातील दृष्टीकोन

पुढे पाहता, आम्हाला फ्रंटियर एआय प्रणालींचे विश्वासार्ह, निर्णय-संबंधित मूल्यांकन करण्यास सक्षम संस्थांच्या परिसंस्थेला बळकटी देणे सुरू ठेवा गरज आहे. प्रभावी तृतीय पक्ष मूल्यांकनासाठी विशेष कौशल्य, स्थिर निधी आणि पद्धतशीर काटेकोरपणा आवश्यक आहे. पात्र मूल्यांकनकर्ता संस्थांमध्ये सुरू ठेवा गुंतवणूक, मोजमाप विज्ञानाची प्रगती, आणि संवेदनशील प्रवेशासाठी सुरक्षा हे सुनिश्चित करण्यासाठी आवश्यक असेल की मूल्यांकन मॉडेल क्षमतांमधील प्रगतीसह गती राखू शकतील.

तृतीय पक्ष मूल्यांकन हे एक साधन आहे ज्याद्वारे आम्ही आमच्या सुरक्षिततेच्या कामात बाह्य दृष्टिकोन आणतो, आणि ते इतर यंत्रणांसह कार्य करतात. आम्ही संरचित रेड टीमिंग प्रयत्न, सामूहिक संरेखन प्रोजेक्ट्स⁠, यू.एस. CAISI आणि यू.के. AISI⁠, आणि आमच्या ग्लोबल फिजिशियन नेटवर्क⁠ आणि वेल-बीइंग आणि AIवरील तज्ञ परिषद⁠ सारख्या सल्लागार गटांसह मानसिक आरोग्य आणि वापरकर्त्याच्या कल्याणावर आमच्या कार्यास मार्गदर्शन करण्यासाठी बाह्य तज्ञांसह सहयोग करतो. हे प्रयत्न विविध प्रकारच्या तज्ज्ञतेचे समर्थन करतात आणि प्रगत AI प्रणालींचे मूल्यांकन आणि नियमन करण्यासाठी व्यापक, अधिक विश्वासार्ह पाया तयार करतात.

परिशिष्ट

प्री-डिप्लॉयमेंट मूल्यांकनांवर आमच्याशी सहकार्य करणाऱ्या तृतीय पक्षांसोबतच्या आमच्या करारांमधील उदाहरणार्थ उतारे पुढीलप्रमाणे आहेत.

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

2025

लेखक

OpenAI

फूटनोट्स

1
हे रेड टीमिंगपेक्षा वेगळे आहे, ज्याचा उद्देश सुरक्षा उपायांची सूक्ष्म तपासणी करणे आणि मूल्यांकन विकासासाठी डेटा प्रदान करणे आहे.
2
जेव्हा एखादे मॉडेल त्याचे मूल्यांकन किंवा चाचणी होत असल्याचे ओळखते, तेव्हा ते जाणूनबुजून कमी कामगिरी करते किंवा त्याच्या खऱ्या क्षमता लपवते.
3
फक्त उपयुक्त मॉडेल्स कोणत्याही विनंतीला उत्तर देतात, जरी ती विनंती हानिकारक असली तरी. हे वर्तन साध्य करणाऱ्या प्रशिक्षणोत्तर पद्धतींनी हे तयार केले जाते.

वाचत राहा

सर्व पहा

Safety and alignment in an era of long-horizon models

सुरक्षितता२० जुलै, २०२६

Why teens deserve access to safe AI — card image

किशोरांना सुरक्षित कृत्रिम बुद्धिमत्तेचा प्रवेश का हवा

सुरक्षितता१६ जुलै, २०२६

GPT-Red: मजबुतीसाठी स्व-सुधारणा खुली करणे

सुरक्षितता१५ जुलै, २०२६