मुख्य मजकूराकडे जा
OpenAI

२२ डिसेंबर, २०२५

सुरक्षा

ChatGPT Atlas ला प्रॉम्प्ट इंजेक्शन हल्ल्यांपासून सतत संरक्षण देणे

मजबुतीकरण शिक्षणाद्वारे समर्थित—स्वयंचलित रेड टीमिंग—आम्हाला वास्तविक जगातील एजंट शोषणांचा शोध घेण्यास आणि त्यांना जंगलीत शस्त्रास्त्र बनण्यापूर्वीच पॅच करण्यात सक्रियपणे मदत करते.

लोड होत आहे...

ChatGPT Atlas मध्ये एजंट मोड हा आजपर्यंत आम्ही जारी केलेल्या सर्वात सर्वसाधारण-उद्देश एजंटिक वैशिष्ट्यांपैकी एक आहे. या मोडमध्ये, ब्राउझर एजंट वेबपृष्ठे पाहतो आणि तुमच्या ब्राउझरमध्ये तुम्ही जसे कराल तसे क्रिया, क्लिक आणि कीस्ट्रोक्स करतो. हे ChatGPT ला तुमच्या अनेक दैनंदिन कार्यप्रवाहांवर थेट काम करण्याची परवानगी देते, त्याच जागा, संदर्भ, आणि डेटाचा वापर करून.

जसा ब्राउझर एजंट तुम्हाला अधिक काम पूर्ण करण्यात मदत करतो, तसाच तो विरोधी हल्ल्यांसाठी उच्च-मूल्य लक्ष्य बनतो. यामुळे AI सुरक्षा विशेषतः महत्त्वाची बनते. ChatGPT Atlas लाँच करण्याच्या खूप आधीपासून, आम्ही सतत उदयोन्मुख धोके, जे विशेषतः या नवीन "ब्राउझरमधील एजंट" पॅराडाइमला लक्ष्य करतात, त्याविरुद्ध संरक्षण तयार करत आहोत आणि मजबूत करत आहोत. प्रॉम्प्ट इंजेक्शन हे एक अत्यंत महत्त्वाचे धोका आहे ज्याविरुद्ध आम्ही सक्रियपणे संरक्षण करतो, जेणेकरून ChatGPT Atlas तुमच्या वतीने सुरक्षितपणे कार्य करू शकेल. 

या प्रयत्नाचा एक भाग म्हणून, आम्ही अलीकडेच Atlas च्या ब्राउझर एजंटसाठी एक सुरक्षा अद्यतन पाठवले आहे, ज्यामध्ये नव्याने विरोधी प्रशिक्षण दिलेले मॉडेल आणि मजबूत सुरक्षा उपायांचा समावेश आहे. आमच्या अंतर्गत स्वयंचलित रेड टीमिंगद्वारे उघडकीस आलेल्या प्रॉम्प्ट इंजेक्शन हल्ल्यांच्या एका नवीन वर्गामुळे हे अद्यतन प्रेरित झाले.

या पोस्टमध्ये, आम्ही स्पष्ट करतो की वेब-आधारित एजंटसाठी प्रॉम्प्ट-इंजेक्शन जोखीम कशी उद्भवू शकते, आणि आम्ही नवीन हल्ले सतत शोधण्यासाठी आणि जलदगतीने निवारण करण्यासाठी तयार केलेली जलद प्रतिसाद पद्धती शेअर करतो—हे अलीकडील सुरक्षा अद्यतन दर्शविते.

आम्ही प्रॉम्प्ट इंजेक्शनला दीर्घकालीन AI सुरक्षा आव्हान म्हणून पाहतो आणि त्याविरुद्ध आमच्या संरक्षणाला सतत मजबूत करणे आवश्यक आहे (जसे की मानवांना लक्ष्य करणारे सतत विकसित होणारे ऑनलाइन घोटाळे). आमच्या नवीनतम जलद प्रतिसाद चक्राने त्या प्रवासात एक महत्त्वपूर्ण साधन म्हणून प्रारंभिक आशा दाखवली आहे: आम्ही नवीन हल्ला धोरणे आंतररिकरित्या शोधत आहोत, ती बाहेर दिसण्यापूर्वी. आमची दीर्घकालीन दृष्टी म्हणजे (1) आमच्या मॉडेल्ससाठी असलेल्या व्हाईट-बॉक्स प्रवेशाचा, (2) आमच्या संरक्षण यंत्रणांचा सखोल समज आणि (3) संगणकीय प्रमाणाचा पूर्णपणे लाभ घेऊन बाह्य हल्लेखोरांपेक्षा पुढे राहणे—शोषण लवकर शोधणे, उपाययोजना जलद पाठवणे आणि सतत प्रक्रिया अधिक कडक करणे. नवीन तंत्रांचा वापर करून प्रॉम्प्ट इंजेक्शनला तोंड देण्यासाठी सीमावर्ती संशोधन आणि इतर सुरक्षा नियंत्रणांमध्ये वाढीव गुंतवणूक यासह, हा संयोजक चक्र हल्ले अधिकाधिक कठीण आणि खर्चिक बनवू शकतो, वास्तविक जगातील प्रॉम्प्ट इंजेक्शनचा धोका भौतिकरित्या कमी करू शकतो. शेवटी, आमचे उद्दिष्ट आहे की तुम्ही ChatGPT एजंटवर विश्वास ठेवू शकाल की तो तुमच्या ब्राउझरचा वापर अशा प्रकारे करेल जसा तुम्ही अत्यंत कुशल, सुरक्षा-जागरूक सहकारी किंवा मित्रावर विश्वास ठेवता.

एजंट सुरक्षा यासाठी खुले आव्हान म्हणून प्रॉम्प्ट इंजेक्शन

प्रॉम्प्ट इंजेक्शन हल्ला AI एजंट्सना लक्ष्य करतो, ज्यामध्ये एजंट प्रक्रिया करत असलेल्या सामग्रीमध्ये दुष्ट सूचना समाविष्ट केल्या जातात. त्या सूचनांचे उद्दिष्ट एजंटच्या वर्तनाला ओव्हरराइड किंवा पुनर्निर्देशित करणे आहे—त्याला वापरकर्त्याच्या इच्छेऐवजी हल्लेखोराच्या हेतूचे पालन करण्यासाठी हायजॅक करणे.

ChatGPT Atlas सारख्या ब्राउझर एजंटसाठी, प्रॉम्प्ट इंजेक्शन पारंपारिक वेब सुरक्षा जोखमींपलीकडे (उदा. वापरकर्ता त्रुटी किंवा सॉफ्टवेअर असुरक्षा) एक नवीन धोका वेक्टर जोडते. मानवांना फिशिंग करण्याऐवजी किंवा ब्राउझरच्या प्रणालीतील असुरक्षितता शोषण करण्याऐवजी, हल्लेखोर ब्राउझरमध्ये कार्यरत एजंटला लक्ष्य करतो.

काल्पनिक उदाहरण म्हणून, एक हल्लेखोर एक दुर्भावनायुक्त ईमेल पाठवू शकतो ज्यामध्ये एजंटला वापरकर्त्याच्या विनंतीकडे दुर्लक्ष करण्यासाठी आणि त्याऐवजी संवेदनशील कर दस्तऐवज हल्लेखोर-नियंत्रित ईमेल पत्त्यावर पाठवण्यासाठी फसवण्याचा प्रयत्न केला जाऊ शकतो. जर वापरकर्ता एजंटला न वाचलेले ईमेल पुनरावलोकन करण्यास आणि मुख्य मुद्द्यांचा सारांश देण्यास सांगतो, तर कार्यप्रवाहादरम्यान एजंट त्या दुर्भावनापूर्ण ईमेलचा समावेश करू शकतो. जर ते इंजेक्ट केलेल्या सूचनांचे पालन करत असेल, तर ते कामापासून विचलित होऊ शकते—आणि चुकीने संवेदनशील माहिती शेअर करू शकते.

ही फक्त एक विशिष्ट परिस्थिती आहे. ज्या सामान्यतेमुळे ब्राउझर एजंट्स उपयुक्त ठरतात, त्याचमुळे जोखमी देखील व्यापक होतात: एजंटला अविश्वसनीय सूचनांचा सामना करावा लागू शकतो, ज्याचा प्रभावीपणे अमर्याद पृष्ठभागावर विस्तार होतो—ईमेल्स आणि संलग्नक, कॅलेंडर निमंत्रणे, सामायिक दस्तऐवज, मंच, सोशल मीडिया पोस्ट्स आणि मनमानी वेबपृष्ठे. एजंट ब्राउझरमध्ये वापरकर्ता करू शकणाऱ्या अनेक क्रिया करू शकतो, त्यामुळे यशस्वी हल्ल्याचा परिणाम तितकाच व्यापक होऊ शकतो: संवेदनशील ईमेल फॉरवर्ड करणे, पैसे पाठवणे, क्लाउडमधील फाइल्स संपादित करणे किंवा हटवा आणि इतर अनेक गोष्टी.

आम्ही आधीच्या पोस्टमध्ये शेअर केल्याप्रमाणे, अनेक स्तरांच्या सुरक्षात्मक उपायांद्वारे प्रॉम्प्ट इंजेक्शनविरुद्ध बचाव करण्यामध्ये प्रगती केली आहे. तथापि, प्रॉम्प्ट इंजेक्शन अजूनही एजंट सुरक्षेसाठी एक खुले आव्हान आहे, आणि आम्ही पुढील काही वर्षांपर्यंत यावर काम सुरू ठेवण्याची अपेक्षा करतो.

एंड-टू-एंड आणि उच्च संगणकीय मजबुतीकरण शिक्षणाद्वारे स्वयंचलित प्रॉम्प्ट इंजेक्शन हल्ल्यांचा शोध

आमच्या संरक्षणाला बळकट करण्यासाठी, आम्ही उत्पादनातील एजंट प्रणालींवर नवीन प्रॉम्प्ट इंजेक्शन हल्ल्यांचा सतत शोध घेत आहोत. या हल्ल्यांचा शोध घेणे हे मजबूत उपाययोजना तयार करण्यासाठी आवश्यक पूर्वअट आहे: हे तुम्हाला वास्तविक-जगातील जोखीम समजण्यास मदत करते, तुमच्या संरक्षणातील अंतर उघड करते आणि ठोस पॅचेसना चालना देते.

हे मोठ्या प्रमाणावर करण्यासाठी, आम्ही LLM-आधारित स्वयंचलित हल्लेखोर तयार केला आणि त्याला प्रॉम्प्ट इंजेक्शन हल्ल्यांचा शोध घेण्यासाठी प्रशिक्षित केले, जे ब्राउझर एजंटवर यशस्वीपणे हल्ला करू शकतात. आम्ही या आक्रमकाला एंड-टू-एंड मजबुतीकरण शिक्षणासह प्रशिक्षित केले, त्यामुळे तो तुमच्या यश आणि अपयशांमधून शिकतो आणि त्याच्या रेड टीमिंग कौशल्यांमध्ये सुधारणा करतो. आम्ही त्याला "शिप होण्यापूर्वी प्रयत्न करू देतो", ज्याचा अर्थ असा आहे की: विचारांच्या साखळीच्या तर्कशक्तीदरम्यान, हल्लेखोर उमेदवार इंजेक्शन प्रस्तावित करू शकतो आणि ते बाह्य सिम्युलेटरकडे पाठवू शकतो. सिम्युलेटर लक्ष्यित पीडित एजंट (संरक्षक) इंजेक्शनला सामोरे गेल्यास ते कसे वागेल याचे प्रतिकृतीकरण चालवतो आणि पीडित एजंटच्या पूर्ण तर्कशक्ती आणि क्रिया ट्रेस परत करतो. हल्लेखोर त्या ट्रेसचा अभिप्राय म्हणून वापर करतो, हल्ल्यावर पुनरावृत्ती करतो आणि सिम्युलेशन पुन्हा चालवतो—अंतिम हल्ला करण्यापूर्वी हा लूप अनेक वेळा पुन्हा चालवतो. हे एकाच पास/फेल संकेतापेक्षा हल्लेखोराला अधिक समृद्ध संदर्भातील अभिप्राय प्रदान करते. हे आक्रमकाच्या चाचणी-वेळेच्या संगणनाची क्षमता देखील वाढवते. याशिवाय, संरक्षकाच्या तर्कशास्त्राच्या ठशांमध्ये विशेष प्रवेश (जे आम्ही बाह्य वापरकर्त्यांना उघड करत नाही) आमच्या अंतर्गत आक्रमकाला असमान लाभ देतो—बाह्य शत्रूंना मागे टाकण्याची शक्यता वाढवतो.

लाइट-मोड वेबपेज मॉकअप जो मजबुतीकरण शिक्षणाचे चित्रण करतो, ज्यामध्ये एक शैलीबद्ध रोबोट हात उजळ ग्रेडियंट पार्श्वभूमीवर तरंगणाऱ्या भूमितीय आकारांशी संवाद साधत आहे.

मजबुतीकरण शिक्षण (RL) का निवडावे? आम्ही अनेक कारणांसाठी स्वयंचलित आक्रमकाला ट्रेन करण्यासाठी मजबुतीकरण शिक्षण निवडले:

  1. दीर्घकालीन आणि विसंगत आक्रमक उद्दिष्टांचे ऑप्टिमायझेशन. आमचे उद्दिष्ट प्रॉम्प्ट इंजेक्शन हल्ल्यांचा शोध घेणे आहे, जे एजंटला फसवून प्रत्यक्ष जगात घडू शकणारी प्रगत शत्रुत्वपूर्ण कामे (उदा., ईमेल पाठवणे, बँक व्यवहार) करण्यास भाग पाडू शकतात. ही विरोधात्मक कामे स्वभावतः लांब-कालावधीची असतात, ज्यासाठी तर्काच्या अनेक पायऱ्या आणि वातावरणाशी परस्परसंवाद आवश्यक असतो, आणि यशाचे संकेत विरळ आणि विलंबित असतात. मजबुतीकरण शिक्षण हे विरळ, विलंबित बक्षीस संरचनेसाठी योग्य आहे.
  2. फ्रंटियर LLM क्षमतांचा लाभ उठवणे. आम्ही फ्रंटियर LLMs थेट ऑटो-रेड-टीमर्स म्हणून प्रशिक्षित केले, त्यामुळे आघाडीच्या मॉडेल्समधील तर्क आणि नियोजनातील सुधारणा थेट आक्रमणकर्त्याला फायदा करतात. जसे बेस मॉडेल्स अधिक मजबूत होत आहेत, तसाच हल्लेखोरही अधिक सक्षम होतो—यामुळे आमच्या मॉडेल्सच्या विकासासोबत आमच्या संरक्षणावर दबाव ठेवण्याचा हा एक स्केलेबल मार्ग आहे.
  3. कॉम्प्युट स्केलिंग करणे आणि अ‍ॅडॉप्टिव्ह हल्लेखोरांचे अनुसरण करणे. मजबुतीकरण शिक्षण मोठ्या संख्येने नमुने आणि शिक्षण पायऱ्यांवर हल्ल्यांसाठी शोधण्यात खर्च केलेल्या संगणकीय क्षमतेचे प्रमाण वाढवण्यासाठी योग्य आहे, आणि ते अनुकूली मानवी हल्लेखोर कसे वागतात याचे जवळचे प्रतिबिंब देखील आहे: पुनरावृत्तीने धोरणे प्रयत्न करणे, परिणामांमधून शिकणे, आणि यशस्वी वर्तनांना मजबुती देणे.

आमचा स्वयंचलित हल्लेखोर नवीन, वास्तववादी प्रॉम्प्ट इंजेक्शन हल्ले संपूर्णपणे शोधू शकतो. बहुतेक पूर्वीच्या स्वयंचलित रेड टीमिंग कार्यांप्रमाणे, ज्यामध्ये विशिष्ट आउटपुट स्ट्रिंग्स प्राप्त करणे किंवा एजंटकडून अनपेक्षित एक-चरण साधन कॉल ट्रिगर करणे यासारख्या साध्या त्रुटी समोर आल्या, आमचा RL-प्रशिक्षित हल्लेखोर एजंट दहापट (किंवा अगदी शेकडो) चरणांमध्ये उलगडणाऱ्या प्रगत, दीर्घकालावधीच्या हानिकारक कार्यप्रवाहांमध्ये अंमलबजावणी करण्यासाठी मार्गदर्शन करू शकतो. आम्ही अशा नवीन हल्ला रणनीती देखील पाहिल्या ज्या आमच्या मानव रेड टीमिंग मोहिमेत किंवा बाह्य अहवालांमध्ये दिसल्या नाहीत.

खालील डेमोमध्ये आमच्या स्वयंचलित हल्लेखोराने शोधलेला एक ठोस प्रॉम्प्ट इंजेक्शन शोषण सादर केले आहे, ज्याचा वापर आम्ही नंतर ChatGPT Atlas च्या संरक्षणांना अधिक मजबूत करण्यासाठी केला. हल्लेखोर वापरकर्त्याच्या इनबॉक्समध्ये एक घातक ईमेल पाठवतो ज्यामध्ये एक प्रॉम्प्ट इंजेक्शन असतो, जो एजंटला वापरकर्त्याच्या CEO ला राजीनामा पत्र पाठवण्याचे निर्देश देतो. नंतर, जेव्हा वापरकर्ता एजंटला ऑफिसबाहेर असण्याच्या प्रतिसादाचा मसुदा तयार करण्यास सांगतो, तेव्हा एजंट सामान्य कामाच्या प्रक्रियेदरम्यान त्या ईमेलला सामोरे येतो, इंजेक्ट केलेला प्रॉम्प्ट अधिकृत मानतो आणि त्यानुसार काम करतो. आउट-ऑफ-ऑफिस कधीच लिहिले जात नाही आणि एजंट वापरकर्त्याच्या वतीने राजीनामा देतो.

प्रॉम्प्ट इंजेक्शनच्या स्वभावामुळे निर्धारक सुरक्षा हमी देणे आव्हानात्मक बनते, परंतु आमच्या स्वयंचलित सुरक्षा संशोधनाचा विस्तार करून, शत्रुत्वपूर्ण चाचणी आणि आमच्या जलद प्रतिसाद लूपला घट्ट करून, आम्ही मॉडेलची मजबुती आणि संरक्षण सुधारू शकतो - प्रत्यक्ष हल्ला होण्याची वाट न पाहता. 

आम्ही वापरकर्ते आणि संशोधकांना या हल्ल्यांचे स्वरूप अधिक चांगल्या प्रकारे समजून घेण्यासाठी आणि त्यांच्याविरुद्ध आम्ही सक्रियपणे कसे संरक्षण करतो हे दाखवण्यासाठी हा डेमो शेअर करत आहोत. आम्हाला विश्वास आहे की हे स्वयंचलित रेड टीमिंग काय साध्य करू शकते याच्या सीमारेषेचे प्रतिनिधित्व करते आणि आम्ही आमचे संशोधन सुरू ठेवा करण्यासाठी अत्यंत उत्सुक आहोत.

सक्रिय जलद प्रतिसाद चक्रासह ChatGPT Atlasचे दृढीकरण

आमचे स्वयंचलित रेड टीमिंग एक सक्रिय जलद प्रतिसाद लूप चालवत आहे: जेव्हा स्वयंचलित हल्लेखोर नवीन प्रकारच्या यशस्वी प्रॉम्प्ट इंजेक्शन हल्ल्यांचा शोध लावतो, तेव्हा तो त्वरित आमच्या संरक्षण सुधारण्यासाठी एक ठोस लक्ष्य तयार करतो.

नवीन शोधलेल्या हल्ल्यांविरुद्ध प्रतिकूल प्रशिक्षण देणे. आम्ही आमच्या सर्वोत्तम स्वयंचलित हल्लेखोरांविरुद्ध अद्ययावत एजंट मॉडेल्सना सतत ट्रेन करतो—ज्या हल्ल्यांमध्ये लक्ष्य एजंट्स सध्या अपयशी ठरतात त्यांना प्राधान्य देतो. उद्दिष्ट एजंट्सना प्रतिकूल सूचनांकडे दुर्लक्ष करायला शिकवणे आणि वापरकर्त्याच्या हेतूशी संरेखित राहणे आहे, ज्यामुळे नव्याने शोधलेल्या प्रॉम्प्ट-इंजेक्शन धोरणांप्रती प्रतिकारशक्ती सुधारता येईल. हे "बर्न्स इन" नवीन, उच्च-शक्तीच्या हल्ल्यांविरुद्धची मजबुती थेट मॉडेल चेकपॉईंटमध्ये समाविष्ट करते. उदाहरणार्थ, अलीकडील स्वयंचलित रेड टीमिंगने थेट एक नवीन शत्रुत्वपूर्ण प्रशिक्षित ब्राउझर-एजंट चेकपॉइंट तयार केले आहे, जे आधीच सर्व ChatGPT Atlas वापरकर्त्यांसाठी लागू केले गेले आहे. हे शेवटी नवीन प्रकारच्या हल्ल्यांपासून आमच्या वापरकर्त्यांचे अधिक चांगले संरक्षण करण्यास मदत करते.

हल्ल्याच्या ट्रेसचा वापर करून व्यापक संरक्षण प्रणाली सुधारणे. आमच्या स्वयंचलित रेड टीमरद्वारे शोधलेल्या अनेक हल्ल्याच्या मार्गांनी मॉडेलच्या बाहेरील सुधारणांसाठी संधी देखील उघड केल्या आहेत—उदाहरणार्थ, देखरेख, मॉडेलच्या संदर्भात आम्ही ठेवलेल्या सुरक्षा सूचना किंवा प्रणाली-स्तरावरील सुरक्षा उपाय. त्या निष्कर्षांमुळे आम्हाला संपूर्ण संरक्षण स्टॅकवर पुनरावृत्ती करण्यात मदत होते, केवळ एजंट चेकपॉइंटवर नाही.

सक्रिय हल्ल्यांना प्रतिसाद देत आहेत. हा लूप सक्रिय हल्ल्यांना अधिक प्रभावीपणे प्रतिसाद देण्यास मदत करू शकतो. जगभरातील आमच्या उपस्थितीवर संभाव्य हल्ल्यांसाठी पाहताना, आम्ही बाह्य शत्रू वापरत असलेल्या तंत्र आणि युक्त्या घेऊ शकतो, त्या लूपमध्ये समाविष्ट करू शकतो, त्यांच्या क्रियाकलापांचे अनुकरण करू शकतो आणि आमच्या प्लॅटफॉर्मवर संरक्षणात्मक बदल घडवू शकतो.

आउटलुक: एजंट सुरक्षा प्रति आमची दीर्घकालीन वचनबद्धता

आमच्या एजंट्सना रेड संघ करण्याची क्षमता वाढवणे आणि त्या कामाचे काही भाग स्वयंचलित करण्यासाठी आमच्या सर्वात सक्षम मॉडेल्सचा वापर करणे—यामुळे Atlas ब्राउझर एजंट अधिक मजबूत बनतो, कारण शोधण्यापासून ते दुरुस्त करण्याच्या प्रक्रियेचा विस्तार होतो. ही कडकपणा वाढवण्याची प्रक्रिया सुरक्षा क्षेत्रातील एक परिचित धडा पुन्हा अधोरेखित करते: मजबूत संरक्षणासाठी एक चांगला मार्ग म्हणजे वास्तविक प्रणालींवर सतत दबाव चाचणी करणे, अपयशांना प्रतिसाद देणे आणि ठोस उपाय अंमलात आणणे.

आम्हाला अपेक्षा आहे की विरोधक जुळवून घेत राहतील. प्रॉम्प्ट इंजेक्शन, वेबवरील फसवणूक आणि सामाजिक अभियांत्रिकीप्रमाणे, कधीही पूर्णपणे "सोडवले" जाण्याची शक्यता नाही. पण आम्ही आशावादी आहोत की एक सक्रिय, अत्यंत प्रतिसादक्षम जलद प्रतिसाद लूप वेळोवेळी वास्तविक-जगातील जोखीम लक्षणीयरीत्या कमी करण्यास सुरू ठेवू शकतो. स्वयंचलित हल्ला शोध, प्रतिकूल प्रशिक्षण आणि प्रणाली-स्तरीय सुरक्षा उपाय एकत्र करून, आम्ही नवीन हल्ल्यांचे नमुने लवकर ओळखू शकतो, अंतर पटकन बंद करू शकतो आणि शोषणाची किंमत सातत्याने वाढवू शकतो.

ChatGPT Atlas मधील एजंट मोड शक्तिशाली आहे—आणि तो सुरक्षा धोक्याच्या पृष्ठभागाचा विस्तार देखील करतो. त्या तडजोडीबद्दल स्पष्टपणे जाणून घेणे हे जबाबदारीने बांधकाम करण्याचा एक भाग आहे. आमचे उद्दिष्ट प्रत्येक पुनरावृत्तीसह अ‍ॅटलसला अर्थपूर्णरीत्या अधिक सुरक्षित बनवणे आहे: मॉडेलची मजबुती वाढवणे, सभोवतालच्या संरक्षण स्टॅकला मजबूत करणे आणि बाहेर उदयास येणाऱ्या गैरवापर पद्धतींचे निरीक्षण करणे.

आम्ही संशोधन आणि उपयोजनामध्ये गुंतवणूक सुरू ठेवू, चांगल्या स्वयंचलित रेड टीमिंग पद्धती विकसित करू, स्तरित शमन उपाय आणू आणि शिकत असताना जलद पुनरावृत्ती करू. आम्ही जे काही शक्य आहे ते व्यापक समुदायासोबत देखील शेअर करू.

एजंट्स सुरक्षितपणे वापरण्याच्या शिफारसी

जरी आम्ही प्रणाली स्तरावर ॲटलासला मजबूत करणे सुरू ठेवले आहे, तरी वापरकर्ते एजंट्सचा वापर करताना जोखीम कमी करण्यासाठी काही पावले उचलू शकतात. 

लॉग इन करणा-या वापरकर्त्यांचा प्रवेश शक्य तितका मर्यादित ठेवा. आम्ही वापरकर्त्यांना शिफारस करतो की जेव्हा Atlasमध्ये एजंटचा वापर करताना वेबसाइट्सवर लॉग इन करणे आवश्यक नसते किंवा कामादरम्यान तुम्ही साइन इन केलेल्या विशिष्ट साइट्सवर प्रवेश मर्यादित करायचा असेल तेव्हा लॉग आउट मोड(नवीन विंडोमध्ये उघडेल) चा फायदा घ्या. 

पुष्टीकरण विनंत्यांचे काळजीपूर्वक पुनरावलोकन करा. काही परिणामकारक क्रिया, जसे की खरेदी पूर्ण करणे किंवा ईमेल पाठवणे, यासाठी एजंट्स पुढे जाण्यापूर्वी तुमची पुष्टी मागतात. जेव्हा एखादा एजंट तुम्हाला एखादी क्रिया पुष्टी करण्यास सांगतो, तेव्हा कृती योग्य आहे आणि कोणतीही माहिती त्या संदर्भासाठी योग्य आहे का हे सत्यापित करा आणि थोडा वेळ घ्या.

एजंटना शक्य असल्यास स्पष्ट सूचना द्या. “माझ्या ईमेल्सचे पुनरावलोकन करा आणि आवश्यक ती क्रिया करा” यासारखे अत्यंत व्यापक प्रॉम्प्ट्स टाळा. विस्तृत स्वातंत्र्यामुळे लपविलेली किंवा दुर्भावनापूर्ण सामग्री एजंटवर प्रभाव टाकणे सोपे होते, जरी सुरक्षा उपाय अस्तित्वात असले तरी. एजंटला विशिष्ट, स्पष्टपणे व्याख्यित कामे करण्यास सांगणे अधिक सुरक्षित आहे. जरी यामुळे धोका पूर्णपणे दूर होत नाही, तरी हल्ले करणे कठीण होते.

जर एजंट दैनंदिन कामांसाठी विश्वासार्ह भागीदार बनायचे असतील, तर त्यांना खुले वेब सक्षम करते त्या प्रकारच्या हस्तक्षेपांपासून प्रतिरोधक असणे आवश्यक आहे. प्रॉम्प्ट इंजेक्शनविरुद्ध कडक उपाययोजना करणे ही दीर्घकालीन वचनबद्धता आहे आणि आमच्या सर्वोच्च प्राधान्यांपैकी एक आहे. आम्ही लवकरच या कामाबद्दल अधिक माहिती शेअर करू.

लेखक

OpenAI