प्रॉम्प्ट इंजेक्शन हमलों के खिलाफ ChatGPT Atlas को लगातार सुदृढ़ करना
रीइंफ़ोर्समेंट लर्निंग द्वारा —संचालित स्वचालित रेड टीमिंग हमें वास्तविक दुनिया के एजेंट एक्सप्लॉइट्स की खोज और पैच करने में सक्रिय रूप— से मदद करती है, इससे पहले कि वे खुले में हथियारबंद हो जाएं.
ChatGPT Atlas में एजेंट मोड अब तक के सबसे बहुउद्देश्यीय एजेंटिक विशेषताओं में से एक है जिसे हमने अब तक जारी किया है. इस मोड में, ब्राउज़र एजेंट वेबपेजों को देखता है और आपके ब्राउज़र के अंदर एक्शन, क्लिक और कीस्ट्रोक्स करता है, जैसे आप करते हैं. यह ChatGPT को आपके कई दैनिक कार्यप्रवाहों पर सीधे उसी स्थान, कॉन्टेक्स्ट और डेटा का उपयोग करके काम करने की अनुमति देता है.
जैसे-जैसे ब्राउज़र एजेंट आपके लिए अधिक काम करता है, यह प्रतिकूल हमलों का एक अधिक मूल्यवान लक्ष्य भी बन जाता है. यह AI सुरक्षा को विशेष रूप से महत्वपूर्ण बनाता है. ChatGPT Atlas को लॉन्च करने से बहुत पहले, हम लगातार उभरते खतरों के खिलाफ सुरक्षा उपायों का निर्माण और सुदृढ़ीकरण कर रहे थे, जो विशेष रूप से इस नए "ब्राउज़र में एजेंट" प्रतिमान को लक्षित करते हैं. प्रॉम्प्ट इंजेक्शन सबसे महत्वपूर्ण जोखिमों में से एक है जिसके खिलाफ हम सक्रिय रूप से सुरक्षा करते हैं ताकि यह सुनिश्चित हो सके कि ChatGPT Atlas आपके लिए सुरक्षित रूप से काम कर सके.
इस कोशिश के तहत, हमने हाल ही में एटलस के ब्राउज़र एजेंट के लिए एक सिक्योरिटी अपडेट भेजा है, जिसमें एक नया एडवरसैरियली ट्रेंड मॉडल और मज़बूत आस-पास के सेफ़गार्ड शामिल हैं. यह अपडेट हमारे आंतरिक स्वचालित रेड टीमिंग के माध्यम से खोजी गई प्रॉम्प्ट इंजेक्शन हमलों की एक नई श्रेणी के कारण किया गया था.
इस पोस्ट में, हम बताते हैं कि वेब-आधारित एजेंट्स के लिए प्रॉम्प्ट-इंजेक्शन जोखिम कैसे उत्पन्न हो सकता है, और हम एक त्वरित रिस्पांस लूप शेयर कर रहे हैं जिसे हम नए हमलों की लगातार खोज करने और तेजी से समाधान भेजने के लिए बना रहे हैं—जिसे इस हालिया सुरक्षा अपडेट द्वारा दर्शाया गया है.
हम प्रॉम्प्ट इंजेक्शन को एक दीर्घकालिक AI सुरक्षा चुनौती के रूप में देखते हैं, और हमें इसके खिलाफ अपनी सुरक्षा को लगातार मजबूत करना होगा (जैसे कि ऑनलाइन घोटाले जो मनुष्यों को लक्षित करते हैं और लगातार विकसित होते रहते हैं). हमारा नवीनतम त्वरित रिस्पांस चक्र इस यात्रा में एक महत्वपूर्ण उपकरण के रूप में शुरुआती आशाजनक संकेत दिखा रहा है: हम नई हमले की रणनीतियाँ आंतरिक रूप से खोज रहे हैं, इससे पहले कि वे सार्वजनिक रूप से प्रकट हों. हमारा दीर्घकालिक दृष्टिकोण है कि हम (1) अपने मॉडलों तक व्हाइट-बॉक्स एक्सेस का पूरा लाभ उठाएं, (2) अपनी सुरक्षा का गहरा ज्ञान प्राप्त करें, और (3) कंप्यूट स्केल का उपयोग करें ताकि बाहरी हमलावरों से आगे रह सकें—कमियों को पहले खोज सकें, तेजी से समाधान भेज सकें, और लगातार प्रक्रिया को मजबूत कर सकें. नई तकनीकों पर अग्रणी अनुसंधान और अन्य सुरक्षा नियंत्रणों में बढ़े हुए निवेश के साथ, यह संयुक्त चक्र हमलों को अधिक कठिन और महंगा बना सकता है, जिससे वास्तविक दुनिया में प्रॉम्प्ट इंजेक्शन के जोखिम को भौतिक रूप से कम किया जा सकता है. अंततः, हमारा लक्ष्य है कि आप ChatGPT एजेंट पर उतना ही भरोसा कर सकें जितना आप अपने ब्राउज़र का उपयोग करने वाले किसी अत्यधिक कुशल, सुरक्षा-सचेत सहयोगी या मित्र पर करते हैं.
प्रॉम्प्ट इंजेक्शन हमला AI एजेंट्स को लक्षित करता है, जिसमें एजेंट द्वारा प्रोसेस की जाने वाली सामग्री में हानिकारक निर्देशों को एम्बेड किया जाता है. वे निर्देश एजेंट के व्यवहार को ओवरराइड या रीडायरेक्ट करें करने के लिए तैयार किए गए हैं—उन्हें एक हमलावर के इरादे का पालन करने के लिए हाईजैक किया गया है, न कि यूज़र के.
ChatGPT Atlas के अंदर के ब्राउज़र एजेंट के लिए, प्रॉम्प्ट इंजेक्शन पारंपरिक वेब सुरक्षा जोखिमों (जैसे यूज़र की गलती या सॉफ़्टवेयर की कमजोरियाँ) से परे एक नया खतरा वेक्टर प्रस्तुत करता है. मानवों को फिशिंग करने या ब्राउज़र की सिस्टम भेद्यता का शोषण करने के बजाय, हमलावर उस एजेंट को निशाना बनाता है जो इसके अंदर कार्यरत है.
एक काल्पनिक उदाहरण के तौर पर, कोई हमलावर एक मैलिशियस ईमेल भेज सकता है जिसमें एजेंट को गुमराह करके यूज़र की रिक्वेस्ट को नज़रअंदाज़ करने और इसके बजाय संवेदनशील टैक्स डॉक्यूमेंट्स को हमलावर के कंट्रोल वाले ईमेल एड्रेस पर भेजने की कोशिश की जा सकती है. यदि कोई यूज़र एजेंट से अनपढ़ी ईमेल्स की रिव्यु करने और मुख्य बिंदुओं का सारांश तैयार करने के लिए कहता है, तो एजेंट उस वर्कफ़्लो के दौरान हानिकारक ईमेल को भी शामिल कर सकता है. यदि यह इंजेक्टेड निर्देशों का पालन करता है, तो यह टास्क से भटक सकता है—और गलत तरीके से संवेदनशील जानकारी शेयर कर सकता है.
यह सिर्फ एक विशिष्ट परिदृश्य है. वही सामान्यता जो ब्राउज़र एजेंट्स को उपयोगी बनाती है, वही जोखिमों को भी व्यापक बनाती है: एजेंट अनविश्वसनीय निर्देशों का सामना कर सकता है जो प्रभावी रूप से असीमित सतह क्षेत्र में फैले होते हैं—ईमेल और अटैचमेंट्स, कैलेंडर निमंत्रण, साझा किए गए डॉक्यूमेंट, फोरम, सोशल मीडिया पोस्ट, और मनमाने वेबपेज. चूंकि एजेंट ब्राउज़र में यूज़र द्वारा किए जा सकने वाले कई एक्शन कर सकता है, इसलिए एक सफल हमले का प्रभाव सैद्धांतिक रूप से उतना ही व्यापक हो सकता है: संवेदनशील ईमेल को अग्रेषित करना, पैसे भेजना, क्लाउड में फ़ाइलों को संपादित या डिलीट करें, और भी बहुत कुछ.
हमने एक पहले के पोस्ट में साझा किए अनुसार, कई स्तरों की सुरक्षा के माध्यम से प्रॉम्प्ट इंजेक्शन के खिलाफ बचाव में प्रगति की है. हालांकि, प्रॉम्प्ट इंजेक्शन एजेंट सुरक्षा के लिए एक खुली चुनौती बनी हुई है, और हम उम्मीद करते हैं कि आने वाले वर्षों में इस पर काम करना आगे बढ़ेंगे.
हम अपनी सुरक्षा को मजबूत करने के लिए उत्पादन में एजेंट सिस्टम्स के खिलाफ नए प्रॉम्प्ट इंजेक्शन हमलों की लगातार खोज कर रहे हैं. इन हमलों का पता लगाना मज़बूत बचाव बनाने के लिए एक ज़रूरी शर्त है: यह हमें असल दुनिया के जोखिम को समझने में मदद करता है, हमारे बचाव में कमियों को उजागर करता है, और ठोस समाधान खोजने में मदद करता है.
इसे बड़े पैमाने पर करने के लिए, हमने एक LLM-आधारित स्वचालित हमलावर विकसित किया और इसे ऐसे प्रॉम्प्ट इंजेक्शन हमलों का पता लगाने के लिए प्रशिक्षित किया जो सफलतापूर्वक ब्राउज़र एजेंट पर हमला कर सकते हैं. हमने इस हमलावर को शुरू से अंत तक रीइंफ़ोर्समेंट लर्निंग के साथ प्रशिक्षित किया, ताकि यह अपनी सफलताओं और असफलताओं से सीखकर अपनी रेड टीमिंग स्किल्स को सुधार सके. हम इसे "शिप करने से पहले आजमाने" की अनुमति भी देते हैं, जिसका मतलब है: विचारों की चेन की रीज़निंग के दौरान, हमलावर एक संभावित इंजेक्शन का प्रस्ताव कर सकता है और इसे बाहरी सिम्युलेटर को भेज सकता है. सिम्युलेटर यह अनुकरण करता है कि लक्षित पीड़ित एजेंट (रक्षक) इंजेक्शन का सामना करने पर कैसे व्यवहार करेगा, और पीड़ित एजेंट की पूरी तर्क और एक्शन अनुक्रम लौटाता है. हमलावर उस ट्रेस का फ़ीडबैक के रूप में उपयोग करता है, हमले को दोहराता है, और सिमुलेशन को फिर से चलाता है—अंतिम हमले के लिए प्रतिबद्ध होने से पहले इस प्रक्रिया को कई बार दोहराता है. यह हमलावर को एकल पास/फेल संकेत से अधिक समृद्ध कॉन्टेक्स्ट में फ़ीडबैक प्रदान करता है. यह हमलावर के परीक्षण समय की गणना को भी बढ़ाता है. इसके अलावा, डिफेंडर के तर्क ट्रेस (जिन्हें हम बाहरी यूज़रों के साथ साझा नहीं करते) तक विशेष पहुंच हमारे आंतरिक हमलावर को एक विषम लाभ देती है—जिससे यह संभावना बढ़ जाती है कि यह बाहरी विरोधियों से आगे निकल सकता है.
रीइंफ़ोर्समेंट लर्निंग (RL) क्यों? हमने कई रीज़न से स्वचालित हमलावर को ट्रेन करने के लिए रीइंफ़ोर्समेंट लर्निंग को चुना:
- लंबी-अवधि और असतत हमलावर उद्देश्यों का अनुकूलन. हमारा लक्ष्य प्रॉम्प्ट इंजेक्शन हमलों की सर्च करना है जो एजेंट को जटिल प्रतिकूल टास्क (जैसे, ईमेल भेजना, बैंक लेनदेन करना) करने के लिए धोखा दे सकते हैं, जो वास्तविक दुनिया में हो सकते हैं.सर्च करें ये प्रतिकूल टास्क स्वाभाविक रूप से दीर्घकालिक होते हैं, जिनमें पर्यावरण के साथ कई चरणों में तर्क और बातचीत की आवश्यकता होती है, और जिनमें सफलता के संकेत विरल और विलंबित होते हैं. रीइंफ़ोर्समेंट लर्निंग इस विरल और विलंबित पुरस्कार संरचना के लिए उपयुक्त है.
- अग्रणी LLM क्षमताओं का लाभ उठाना. हमने फ्रंटियर LLMs को सीधे ऑटो-रेड-टीमर्स के रूप में प्रशिक्षित किया, जिससे हमलावर को फ्रंटियर मॉडलों में तर्क और योजना में सुधार से सीधे लाभ होता है. जैसे-जैसे बेस मॉडल मज़बूत होते जाते हैं, हमलावर भी स्वाभाविक रूप से अधिक सक्षम हो जाते हैं—इससे यह हमारे मॉडल के विकास के साथ हमारी रक्षा पर दबाव बनाए रखने का एक मापनीय तरीका बन जाता है.
- कंप्यूट को स्केल करना और अनुकूलनीय हमलावरों की नकल करना. रीइंफ़ोर्समेंट लर्निंग बड़े पैमाने पर सैंपलिंग और लर्निंग स्टेप्स के दौरान हमलों की खोज पर खर्च की गई गणना को स्केल करने के लिए उपयुक्त है, और यह भी दर्शाता है कि अनुकूलनीय मानव हमलावर कैसे व्यवहार करते हैं: रणनीतियों को बार-बार आजमाना, परिणामों से सीखना, और सफल व्यवहारों को सुदृढ़ करना.
हमारा स्वचालित हमलावर नए, यथार्थवादी प्रॉम्प्ट-इंजेक्शन हमलों को पूरी प्रक्रिया में खोज सकता है.अधिकांश पूर्व स्वचालित रेड टीमिंग कार्य के विपरीत, जो सरल विफलताओं को उजागर करता था जैसे कि विशिष्ट आउटपुट स्ट्रिंग्स उत्पन्न करना या एजेंट से अनपेक्षित सिंगल-स्टेप टूल कॉल को ट्रिगर करना, हमारा RL-प्रशिक्षित हमलावर एक एजेंट को जटिल, लंबे समय तक चलने वाले हानिकारक वर्कफ़्लोज़ को निष्पादित करने के लिए निर्देशित कर सकता है, जो दर्जनों (या सैकड़ों) चरणों में विकसित होते हैं. हमने कुछ नई हमले की रणनीतियों का भी अवलोकन किया जो हमारे मानव रेड टीमिंग अभियान या बाहरी रिपोर्टों में नहीं दिखीं.
नीचे दिया गया डेमो हमारे स्वचालित हमलावर द्वारा खोजे गए एक ठोस प्रॉम्प्ट इंजेक्शन एक्सप्लॉइट को दिखाता है, जिसका हमने ChatGPT Atlas की सुरक्षा को और मजबूत करने के लिए उपयोग किया. हमलावर यूज़र के इनबॉक्स में एक दुर्भावनापूर्ण ईमेल डालता है जिसमें एक प्रॉम्प्ट इंजेक्शन शामिल होता है जो एजेंट को यूज़र के CEO को इस्तीफ़ा पत्र भेजने का निर्देश देता है. बाद में, जब यूज़र एजेंट से आउट-ऑफ-ऑफिस जवाब दें का ड्राफ़्ट तैयार करने के लिए कहता है, तो एजेंट सामान्य टास्क निष्पादन के दौरान उस ईमेल का सामना करता है, इंजेक्टेड प्रॉम्प्ट को प्रामाणिक मानता है और उसका पालन करता है. आउट-ऑफ-ऑफिस संदेश कभी लिखा नहीं जाता और एजेंट यूज़र की ओर से इस्तीफा दे देता है.

1. ईमेल प्रबंधन में सहायता के लिए एजेंट से मदद माँगना

2. एजेंट नवीनतम अपठित ईमेल खोलता है.

ईमेल में मैलिसियस निर्देश हैं.

4. एजेंट ने अनजाने में इस्तीफे का ईमेल भेज दिया

5. हमारे सुरक्षा अपडेट के बाद, एजेंट मोड सफलतापूर्वक प्रॉम्प्ट इंजेक्शन प्रयास का पता लगाता है
प्रॉम्प्ट इंजेक्शन का नेचर डिटरमिनिस्टिक सिक्योरिटी गारंटी को मुश्किल बनाता है, लेकिन अपनी ऑटोमेटेड सिक्योरिटी रिसर्च, एडवरसैरियल टेस्टिंग को स्केल करके, और अपने रैपिड रिस्पॉन्स लूप को मज़बूत करके, हम मॉडल की मज़बूती और बचाव को बेहतर बना पाते हैं - बिना यह इंतज़ार किए कि असल दुनिया में कोई हमला हो.
हम यह डेमो साझा कर रहे हैं ताकि यूज़र और शोधकर्ता इन हमलों की प्रकृति को बेहतर ढंग से समझ सकें—और हम इनके खिलाफ सक्रिय रूप से कैसे बचाव कर रहे हैं. हम मानते हैं कि यह स्वचालित रेड टीमिंग की क्षमताओं की सीमाओं का प्रतिनिधित्व करता है, और हम अपनी शोध को आगे बढ़ने के लिए बेहद उत्साहित हैं.
हमारा ऑटोमेटेड रेड टीमिंग एक प्रोएक्टिव रैपिड रिस्पॉन्स लूप चला रहा है: जब ऑटोमेटेड अटैकर सफल प्रॉम्प्ट इंजेक्शन हमलों की एक नई क्लास का पता लगाता है, तो यह तुरंत हमारे डिफेंस को बेहतर बनाने के लिए एक ठोस टारगेट बनाता है.
नवीनतम खोजे गए हमलों के खिलाफ प्रतिकूल ट्रेनिंग.हम लगातार अपने अपडेट किये गए एजेंट मॉडलों को हमारे सबसे अच्छे स्वचालित हमलावर के खिलाफ ट्रेन करते हैं—उन हमलों को प्राथमिकता देते हुए जहाँ लक्ष्य एजेंट वर्तमान में विफल हो रहे हैं. उद्देश्य यह है कि एजेंट्स को प्रतिकूल निर्देशों को नज़रअंदाज़ करना और यूज़र के इरादे के साथ संरेखित रहना सिखाया जाए, ताकि नई खोजी गई प्रॉम्प्ट-इंजेक्शन रणनीतियों के प्रति प्रतिरोध में सुधार हो सके. यह 'मॉडल चेकपॉइंट' में सीधे नए, उच्च-शक्ति वाले हमलों के खिलाफ मजबूती को 'बर्न इन' करता है. उदाहरण के लिए, हाल ही में स्वचालित रेड टीमिंग ने सीधे एक नया एडवर्सरियल ट्रेनिंग प्राप्त ब्राउज़र-एजेंट चेकपॉइंट तैयार किया है, जिसे पहले ही सभी ChatGPT Atlas यूज़र्स के लिए लागू किया जा चुका है. यह अंततः हमारे यूज़र्स को नए प्रकार के हमलों से बेहतर सुरक्षा प्रदान करने में मदद करता है.
हमले के निशानों का उपयोग करके व्यापक रक्षा प्रणाली को सुधारना.हमारे स्वचालित रेड टीमर द्वारा खोजे गए कई हमले के रास्ते मॉडल के बाहर सुधार के अवसर भी उजागर करते हैं—जैसे निगरानी में, सुरक्षा निर्देश जो हम मॉडल के कॉन्टेक्स्ट में डालते हैं, या प्रणाली-स्तरीय सुरक्षा उपायों में. ये नतीजे हमें सिर्फ़ एजेंट चेकपॉइंट ही नहीं, बल्कि पूरे डिफेंस स्टैक पर काम करने में मदद करते हैं.
सक्रिय हमलों का सामना करना. यह लूप जंगली में सक्रिय हमलों का बेहतर तरीके से जवाब देने में भी मदद कर सकता है. जैसे-जैसे हम संभावित हमलों के लिए अपने ग्लोबल नेटवर्क पर नज़र डालते हैं, हम बाहरी दुश्मनों द्वारा इस्तेमाल की जा रही टेक्निक्स और टैक्टिक्स को देख सकते हैं, उन्हें इस लूप में डाल सकते हैं, उनकी एक्टिविटी की नकल कर सकते हैं, और अपने प्लेटफॉर्म पर डिफेंसिव बदलाव ला सकते हैं.
हमारी क्षमता को रेड टीम एजेंट्स के लिए मजबूत करना और हमारे सबसे सक्षम मॉडलों का उपयोग करके उस कार्य के कुछ हिस्सों को स्वचालित करना—इससे खोज से सुधार तक के चक्र को बढ़ाकर Atlas ब्राउज़र एजेंट को अधिक मजबूत बनाता है. यह सख्ती का प्रयास सुरक्षा से जुड़े एक परिचित सबक को मजबूत करता है: मजबूत सुरक्षा के लिए एक जाना-पहचाना तरीका यह है कि वास्तविक प्रणालियों का लगातार दबाव-परीक्षण किया जाए, विफलताओं पर प्रतिक्रिया दी जाए, और ठोस सुधार लागू किए जाएं.
हम उम्मीद करते हैं कि विरोधी लगातार अनुकूलन करते रहेंगे. प्रॉम्प्ट इंजेक्शन, वेब पर होने वाले स्कैम्स और सोशल इंजीनियरिंग की तरह, शायद कभी पूरी तरह से "समाधान" नहीं किया जा सकेगा. लेकिन हम आशावादी हैं कि एक सक्रिय, अत्यधिक प्रतिक्रियाशील त्वरित रिस्पांस लूप समय के साथ वास्तविक दुनिया के जोखिम को भौतिक रूप से कम करते हुए आगे बढ़ सकते हैं. स्वचालित हमले की खोज को प्रतिकूल ट्रेनिंग और प्रणाली-स्तरीय सुरक्षा उपायों के साथ मिलाकर, हम नए हमले के पैटर्न को पहले पहचान सकते हैं, अंतराल को तेजी से बंद कर सकते हैं, और शोषण की लागत को लगातार बढ़ा सकते हैं.
ChatGPT Atlas में एजेंट मोड शक्तिशाली है—और यह सुरक्षा खतरे की सतह को भी बढ़ाता है. उस समझौते के बारे में स्पष्ट दृष्टिकोण रखना जिम्मेदारी से निर्माण का एक हिस्सा है. हमारा लक्ष्य है कि हर पुनरावृत्ति के साथ Atlas को अर्थपूर्ण रूप से अधिक सुरक्षित बनाना: मॉडल की मजबूती में सुधार करना, सुरक्षा ढांचे को मजबूत करना, और बाहरी दुनिया में उभरते हुए दुरुपयोग पैटर्न की निगरानी करना.
हम अनुसंधान और डिप्लॉयमेंट में निवेश आगे बढ़ेंगे, बेहतर स्वचालित रेड टीमिंग विधियों का विकास करेंगे, लेयर्ड मिटिगेशन को लागू करेंगे, और जैसे-जैसे हम सीखते हैं, तेजी से सुधार करेंगे. हम यह भी शेयर करेंगे जो हम कर सकते हैं, व्यापक समुदाय के साथ.
जबकि हम सिस्टम स्तर पर Atlas को आगे बढ़ें, यूज़र एजेंट का उपयोग करते समय जोखिम को कम करने के लिए कुछ कदम उठा सकते हैं.
जब संभव हो, लॉग इन करें एक्सेस को सीमित करें.हम यूज़र्स को सलाह देते हैं कि जब भी टास्क के लिए वेबसाइट्स पर लॉग इन करने की आवश्यकता न हो, या टास्क के दौरान आप जिन विशिष्ट साइट्स पर साइन इन करते हैं, उन तक एक्सेस को सीमित करने के लिए, Atlas में एजेंट का उपयोग करते समय लॉग-आउट मोड(एक नई विंडो में खुलेगा) का उपयोग करें.
पुष्टि अनुरोधों की सावधानीपूर्वक रिव्यु करें. कुछ परिणामी एक्शन के लिए, जैसे कि खरीदारी पूरी करना या ईमेल भेजना, एजेंट को आगे बढ़ने से पहले आपकी पुष्टि मांगने के लिए डिज़ाइन किया गया है. जब कोई एजेंट आपसे किसी एक्शन की पुष्टि करने के लिए कहे, तो एक क्षण लें और वेरिफ़ाई करें कि एक्शन सही है और जो जानकारी साझा की जा रही है वह उस कॉन्टेक्स्ट के लिए उपयुक्त है.
जब भी संभव हो, एजेंटों को स्पष्ट निर्देश दो. “मेरे ईमेल्स की रिव्यु करें और जो भी एक्शन आवश्यक हो, वह करें” जैसे अत्यधिक व्यापक प्रॉम्प्ट्स से बचें. व्यापक स्वतंत्रता से छिपी या दुर्भावनापूर्ण सामग्री के लिए एजेंट को प्रभावित करना आसान हो जाता है, भले ही सुरक्षा उपाय मौजूद हों. यह अधिक सुरक्षित है कि एजेंट को विशिष्ट, अच्छी तरह से परिभाषित टास्क करने के लिए कहा जाए. हालांकि इससे जोखिम समाप्त नहीं होता है, यह हमलों को अंजाम देना कठिन बना देता है.
यदि एजेंट रोज़मर्रा के टास्क के लिए विश्वसनीय साथी बनना चाहते हैं, तो उन्हें उस प्रकार की हेरफेर के प्रति लचीला होना चाहिए जो ओपन वेब इनेबल करता है. प्रॉम्प्ट इंजेक्शन के खिलाफ सुरक्षा को मजबूत करना एक दीर्घकालिक प्रतिबद्धता है और हमारी शीर्ष प्राथमिकताओं में से एक है. हम इस काम के बारे में जल्द ही और जानकारी साझा करेंगे.


