प्रॉम्प्ट इंजेक्शन को समझना: एक अत्याधुनिक सुरक्षा चुनौती
AI उपकरण अब केवल प्रश्नों के उत्तर देने से अधिक कार्य करने लगे हैं. वे अब वेब ब्राउज़ कर सकते हैं, शोध में मदद कर सकते हैं, यात्राएं योजना बना सकते हैं, और उत्पाद खरीदने में सहायता कर सकते हैं. जैसे-जैसे वे अधिक सक्षम होते जाते हैं और अन्य ऐप्स में आपके डेटा तक पहुँचने और आपकी ओर से कार्य करने की क्षमता प्राप्त करते हैं, नई सुरक्षा चुनौतियाँ उभरती हैं. हम जिस पर बहुत ध्यान केंद्रित कर रहे हैं, वह है प्रॉम्प्ट इंजेक्शन.
प्रॉम्प्ट इंजेक्शन संवादात्मक AI के लिए विशिष्ट एक प्रकार का सोशल इंजीनियरिंग हमला है. प्रारंभिक AI सिस्टम एकल उपयोगकर्ता और एकल AI एजेंट के बीच संवाद थे. आज के AI उत्पादों में, आपकी बातचीत में इंटरनेट सहित कई स्रोतों से सामग्री शामिल हो सकती है. यह विचार कि कोई तीसरा पक्ष (जो न तो उपयोगकर्ता है और न ही AI) बातचीत के संदर्भ में दुर्भावनापूर्ण निर्देश डालकर मॉडल को गुमराह कर सकता है, 'प्रॉम्प्ट इंजेक्शन' शब्द के चलन में आने का कारण बना.
जिस तरह फ़िशिंग ईमेल या वेब पर होने वाले स्कैम्स लोगों को संवेदनशील जानकारी देने के लिए धोखा देने की कोशिश करते हैं, उसी तरह प्रॉम्प्ट इंजेक्शन AI को ऐसा कुछ करने के लिए धोखा देने की कोशिश करते हैं जो आपने नहीं मांगा था.
कल्पना करें कि आपने छुट्टियों के लिए ऑनलाइन रिसर्च करने में मदद के लिए एक AI से कहा है, और जब वह ऐसा कर रहा होता है, तो उसे किसी वेबपेज पर छिपा हुआ भ्रामक सामग्री या हानिकारक निर्देश मिलते हैं, जैसे कि किसी लिस्टिंग पर टिप्पणी में या समीक्षा में. सामग्री को इस तरह से सावधानीपूर्वक तैयार किया जा सकता है कि यह AI को गलत लिस्टिंग की सिफारिश करने के लिए धोखा दे, या इससे भी बदतर, आपकी क्रेडिट कार्ड जानकारी चुरा ले.
ये “प्रॉम्प्ट इंजेक्शन” हमलों के कुछ उदाहरण हैं—हानिकारक निर्देश जो AI को ऐसा कुछ करने के लिए गुमराह करते हैं जिसका आपका इरादा नहीं था, और जो अक्सर वेब पेज, दस्तावेज़, या ईमेल जैसी सामान्य सामग्री में छिपे होते हैं.
ये जोखिम तब बढ़ जाते हैं जब AI को अधिक संवेदनशील डेटा तक पहुंच मिलती है और वे अधिक पहल करते हैं और लंबे कार्यों को संभालते हैं.
सारांश | आपने AI से क्या करने के लिए कहा था | हमलावर क्या करता है | यदि हमला सफल होता है, तो संभावित परिणाम |
आप AI से अपार्टमेंट्स की खोज करने के लिए कहते हैं, और उसे प्रॉम्प्ट इंजेक्शन के माध्यम से ऐसी लिस्टिंग की सिफारिश करने के लिए प्रेरित किया जाता है जो आपके लिए सबसे अच्छा विकल्प नहीं है. | आप कुछ विशेष मानदंडों के साथ अपार्टमेंट्स की खोज के लिए AI से अनुरोध करते हैं. | हमलावर ने अपार्टमेंट लिस्टिंग में एक प्रॉम्प्ट इंजेक्शन हमला शामिल किया है ताकि AI को यह सोचने के लिए धोखा दिया जा सके कि उपयोगकर्ता की बताई गई प्राथमिकताओं की परवाह किए बिना उनकी लिस्टिंग को चुना जाना चाहिए. | यदि हमला सफल होता है, तो AI आपकी प्राथमिकताओं के आधार पर गलत तरीके से एक उपयुक्त से कम अपार्टमेंट लिस्टिंग की सिफारिश कर सकता है. |
आप रात भर में आए अपने ईमेल्स का जवाब देने के लिए एक AI एजेंट से कहते हैं, और वह आपके बैंक स्टेटमेंट्स साझा कर देता है. | आप एक AI एजेंट से कहते हैं कि वह सामान्य रूप से रात भर में आए आपके ईमेल्स का जवाब दे दें, क्योंकि आज सुबह आप व्यस्त हैं. नीचे देखें “जब संभव हो, एक एजेंट को स्पष्ट निर्देश दें” | हमलावर ने आपको एक ईमेल भेजा जिसमें गलत जानकारी शामिल है, जो मॉडल को आपके बैंक विवरण खोजने और उन्हें हमलावर के साथ साझा करने के लिए भ्रमित करती है. | यदि हमला सफल होता है, तो एजेंट आपके ईमेल में बैंक स्टेटमेंट जैसी जानकारी खोज सकता है (जिसके लिए आपने कार्य हेतु एक्सेस दिया था) और उन्हें हमलावर के साथ साझा कर सकता है. |
प्रॉम्प्ट इंजेक्शन के खिलाफ बचाव करना AI उद्योग में एक चुनौती है और OpenAI में एक प्रमुख ध्यान केंद्रित है. जबकि हम उम्मीद करते हैं कि विरोधी ऐसे हमलों को विकसित करना जारी रखेंगे, हम ऐसे बचाव तैयार कर रहे हैं जो उपयोगकर्ता के इच्छित कार्य को तब भी पूरा कर सकें जब कोई उन्हें सक्रिय रूप से गुमराह करने की कोशिश कर रहा हो. AGI के लाभों को सुरक्षित रूप से प्राप्त करने के लिए वह क्षमता अनिवार्य है.
हमारे उपयोगकर्ताओं की सुरक्षा के लिए, और इन हमलों के खिलाफ हमारे मॉडल को सुधारने में मदद करने के लिए, हम एक बहु-स्तरीय दृष्टिकोण अपनाते हैं, जिसमें निम्नलिखित शामिल हैं:
हम ऐसा AI चाहते हैं जो प्रॉम्प्ट इंजेक्शन को पहचान सके और उनके प्रभाव में न आए. हालांकि, एडवरसैरियल हमलों के प्रति मज़बूती मशीन लर्निंग और AI के लिए एक लंबे समय से चली आ रही चुनौती है, जो इसे एक कठिन और खुला समस्या बनाता है. हमने इंस्ट्रक्शन हायरार्की नामक एक शोध विकसित किया है ताकि ऐसे मॉडल तैयार किए जा सकें जो भरोसेमंद और अविश्वसनीय निर्देशों के बीच अंतर कर सकें. हम मॉडलों को प्रॉम्प्ट इंजेक्शन पैटर्न को बेहतर तरीके से पहचानने के लिए ट्रेन करने के नए तरीकों को विकसित करना जारी रखते हैं, ताकि वे उन्हें अनदेखा कर सकें या उन्हें यूज़र्स को फ़्लैग कर सकें. हम जिन तकनीकों को लागू करते हैं उनमें से एक है स्वचालित रेड-टीमिंग, एक ऐसा क्षेत्र जिसका हम वर्षों से अध्ययन(एक नई विंडो में खुलेगा) कर रहे हैं, ताकि नए प्रॉम्प्ट इंजेक्शन हमले विकसित किए जा सकें.
हमने प्रॉम्प्ट इंजेक्शन हमलों की पहचान और उन्हें ब्लॉक करने के लिए कई स्वचालित AI-संचालित मॉनिटर विकसित किए हैं. ये सेफ़्टी ट्रेनिंग मॉडल को पूरक बनाते हैं, क्योंकि इन्हें तेजी से अपडेट किया जा सकता है ताकि हम जिन नए हमलों का पता लगाते हैं, उन्हें तुरंत ब्लॉक किया जा सके. ये मॉनिटर न केवल हमारे उपयोगकर्ताओं के खिलाफ संभावित प्रॉम्प्ट इंजेक्शन हमलों की पहचान करने में मदद करते हैं, बल्कि हमारे प्लेटफ़ॉर्म का उपयोग करके किए जा रहे प्रतिकूल प्रॉम्प्ट इंजेक्शन शोध और परीक्षण को पकड़ने में भी सक्षम बनाते हैं, इससे पहले कि ये हमले वास्तविक दुनिया में तैनात हों.
हमने उपयोगकर्ता डेटा की सुरक्षा में मदद के लिए अपने उत्पादों और बुनियादी ढांचे को विभिन्न ओवरलैपिंग सुरक्षा उपायों के साथ डिज़ाइन किया है. ये फीचर्स, जिनके बारे में हम भविष्य की पोस्ट्स में अधिक तकनीकी विवरण में चर्चा करेंगे, प्रत्येक उत्पाद के आधार पर अनुकूलित किए गए हैं. उदाहरण के लिए, अविश्वसनीय साइटों से बचने में आपकी मदद करने के लिए, हम आपसे ChatGPT में कुछ लिंक को स्वीकृत करने के लिए कहेंगे, विशेष रूप से उन वेबसाइटों पर जो हमसे उन्हें सूचीबद्ध न करने के लिए कहती हैं(एक नई विंडो में खुलेगा), इससे पहले कि आप उन्हें विज़िट कर सकें. जब हमारा AI टूल्स का उपयोग करके अन्य प्रोग्राम या कोड चलाता है (जैसे Canvas में, या हमारे विकास उपकरण Codex में), तो हम सैंडबॉक्सिंग नामक तकनीक का उपयोग करते हैं ताकि मॉडल को प्रॉम्प्ट इंजेक्शन के परिणामस्वरूप होने वाले हानिकारक परिवर्तनों से रोका जा सके.
हम यूज़र्स को खुद की सुरक्षा करने में मदद करने के लिए अपने उत्पादों में बिल्ट-इन कंट्रोल शामिल करते हैं. उदाहरण के लिए, ChatGPT Atlas में, आप लॉग-आउट मोड चुन सकते हैं, जो ChatGPT एजेंट को साइटों में लॉग इन किए बिना कार्य शुरू करने की अनुमति देता है. ChatGPT एजेंट संवेदनशील कदम उठाने से पहले रुकता है और पुष्टि के लिए पूछता है, जैसे कि खरीदारी पूरी करना. जब एजेंट संवेदनशील साइट्स पर काम कर रहा होता है, तो हमने एक “वॉच मोड” भी लागू किया है, जो आपको साइट की संवेदनशील प्रकृति के बारे में सचेत करता है और यह आवश्यक बनाता है कि एजेंट को अपना काम करते हुए देखने के लिए आपका टैब सक्रिय हो. यदि आप संवेदनशील जानकारी वाले टैब से दूर चले जाते हैं, तो एजेंट रुक जाएगा. यह सुनिश्चित करता है कि आप इस बात से अवगत रहें—और नियंत्रण में रहें—कि एजेंट कौन-सी कार्रवाइयाँ कर रहा है.
हम अपनी सुरक्षा का परीक्षण और सुधार करने, हमलावर के व्यवहार का अनुकरण करने, और सुरक्षा को बेहतर बनाने के नए तरीके खोजने के लिए आंतरिक और बाहरी टीमों के साथ व्यापक रेड-टीमिंग करते हैं. इसमें विशेष रूप से प्रॉम्प्ट इंजेक्शन पर केंद्रित हजारों घंटे शामिल हैं. जैसे ही हम नई तकनीकें और हमले खोजते हैं, हमारी टीमें सक्रिय रूप से सुरक्षा कमजोरियों को दूर करती हैं और हमारे मॉडल के निवारण में सुधार करती हैं.
अच्छे इरादे वाले स्वतंत्र सुरक्षा शोधकर्ताओं को नए प्रॉम्प्ट इंजेक्शन तकनीकों और हमलों की खोज में हमारी मदद करने के लिए प्रोत्साहित करने के लिए, हम अपने बग बाउंटी प्रोग्राम(एक नई विंडो में खुलेगा) के तहत वित्तीय पुरस्कार प्रदान करते हैं, जब वे एक यथार्थवादी हमले का मार्ग दिखाते हैं जो अनजाने में उपयोगकर्ता डेटा के खुलासे का कारण बन सकता है. हम बाहरी योगदानकर्ताओं को इन मुद्दों को जल्दी से उजागर करने के लिए प्रेरित करते हैं ताकि हम उन्हें हल कर सकें और अपनी सुरक्षा को और अधिक मजबूत बना सकें.
हम उपयोगकर्ताओं को उत्पाद की कुछ विशेषताओं के उपयोग से जुड़े जोखिमों के बारे में शिक्षित करते हैं, ताकि वे सूचित निर्णय ले सकें. उदाहरण के लिए, जब ChatGPT को अन्य ऐप्स से जोड़ा जाता है, हम यह स्पष्ट करते हैं कि कौन-सा डेटा एक्सेस किया जा सकता है, उसका उपयोग कैसे किया जा सकता है, और कौन-से जोखिम उत्पन्न हो सकते हैं, जैसे कि कोई साइट आपका डेटा चुराने की कोशिश कर सकती है. साथ ही, सुरक्षित रहने के तरीके जानने के लिए एक लिंक भी प्रदान करते हैं. हम संगठनों को यह नियंत्रण भी प्रदान करते हैं कि उनके वर्कस्पेस में उपयोगकर्ताओं द्वारा कौन-से सुविधाएँ सक्षम की जा सकती हैं या उपयोग की जा सकती हैं.
प्रॉम्प्ट इंजेक्शन एक अत्याधुनिक सुरक्षा चुनौती है, जिसके बारे में हम उम्मीद करते हैं कि यह समय के साथ विकसित होती रहेगी. बुद्धिमत्ता और क्षमता के नए स्तरों के लिए तकनीक, समाज और जोखिम न्यूनीकरण रणनीति का सह-विकास आवश्यक है. और जैसे शुरुआती 2000 के दशक में कंप्यूटर वायरस के साथ था, हम मानते हैं कि सभी के लिए प्रॉम्प्ट इंजेक्शन के खतरे को समझना और जोखिम को कैसे प्रबंधित करना है, यह जानना महत्वपूर्ण है, ताकि हम सभी इस तकनीक से सुरक्षित रूप से लाभ उठा सकें. सतर्क रहना और सावधानी बरतना आपके डेटा को अधिक सुरक्षित रखने में मदद करता है जब आप AI और एजेंटिक फीचर्स का उपयोग करते हैं जो आपकी ओर से कार्य कर सकते हैं.
जहां संभव हो, एजेंट की पहुंच को केवल उस संवेदनशील डेटा या क्रेडेंशियल्स तक सीमित करें जिनकी उसे कार्य पूरा करने के लिए आवश्यकता है. उदाहरण के लिए, जब आप ChatGPT Atlas में छुट्टियों पर शोध करने के लिए एजेंट मोड का उपयोग कर रहे हों, और यदि एजेंट केवल शोध कर रहा है और उसे लॉग इन एक्सेस की आवश्यकता नहीं है, तो “लॉग आउट” मोड का उपयोग करें.
हम अक्सर एजेंट्स को इस तरह डिज़ाइन करते हैं कि वे खरीदारी पूरी करने या ईमेल भेजने जैसी कुछ महत्वपूर्ण कार्रवाइयाँ करने से पहले आपसे अंतिम पुष्टि प्राप्त करें. जब कोई एजेंट आपसे किसी क्रिया की पुष्टि करने के लिए कहे, तो ध्यानपूर्वक जांचें कि क्रिया सही प्रतीत हो रही है और जो भी जानकारी साझा की जा रही है वह उस संदर्भ में साझा करने के लिए उपयुक्त है.
जब कोई एजेंट किसी संवेदनशील साइट पर काम कर रहा हो, जैसे कि आपका बैंक, तो एजेंट के काम को ध्यान से देखें. यह वैसा ही है जैसे सेल्फ-ड्राइविंग कार की निगरानी करना, अपने हाथ स्टीयरिंग व्हील पर रखे हुए.
किसी एजेंट को "मेरे ईमेल्स की समीक्षा करें और जो भी कार्रवाई आवश्यक हो, वह करें" जैसे बहुत व्यापक निर्देश देना, छिपी हुई दुर्भावनापूर्ण सामग्री के लिए मॉडल को गुमराह करना आसान बना सकता है, भले ही इसे संवेदनशील कार्यों को करने से पहले आपसे पुष्टि करने के लिए डिज़ाइन किया गया हो.
अपने एजेंट से विशिष्ट कार्य करने के लिए कहना अधिक सुरक्षित है, और उसे व्यापक छूट न देना ताकि वह अन्य स्रोतों, जैसे ईमेल, से संभावित रूप से हानिकारक निर्देशों का पालन न कर सके. हालांकि इससे यह गारंटी नहीं मिलती कि हमले नहीं होंगे, यह हमलावरों के लिए सफल होना कठिन बना देता है.
जैसे-जैसे AI तकनीक विकसित होती है, नए जोखिम और सुरक्षा उपाय सामने आएंगे. OpenAI और अन्य भरोसेमंद स्रोतों से अपडेट्स का अनुसरण करें ताकि सर्वोत्तम प्रथाओं के बारे में जानकारी प्राप्त कर सकें.
प्रॉम्प्ट इंजेक्शन एक अत्याधुनिक और चुनौतीपूर्ण शोध समस्या बनी हुई है, और वेब पर पारंपरिक धोखाधड़ी की तरह, हम उम्मीद करते हैं कि हमारा कार्य निरंतर जारी रहेगा. हालांकि हमने अभी तक हमलावरों द्वारा इस तकनीक को बड़े पैमाने पर अपनाते हुए नहीं देखा है, हमें उम्मीद है कि विरोधी AIs को इन हमलों के शिकार बनाने के तरीके खोजने के लिए काफी समय और संसाधन खर्च करेंगे. हम अपने उत्पादों को सुरक्षित बनाने और इस जोखिम के प्रति AI की मजबूती को बढ़ाने के लिए अनुसंधान में भारी निवेश करना जारी रख रहे हैं. जैसे-जैसे हमें और जानकारी मिलती जाएगी, हम अपडेट साझा करेंगे, जिसमें इस क्षेत्र में हमारी सुरक्षा कार्य में हो रही प्रगति भी शामिल होगी. उदाहरण के लिए, हम एक रिपोर्ट तैयार कर रहे हैं जिसे हम जल्द ही प्रकाशित करेंगे, जिसमें यह बताया जाएगा कि हम कैसे यह पता लगाते हैं कि आपके AI का इंटरनेट के साथ संवाद आपकी बातचीत से जानकारी प्रसारित करेगा या नहीं.
हमारा लक्ष्य इन प्रणालियों को उतना ही भरोसेमंद और सुरक्षित बनाना है जितना कि आपके सबसे भरोसेमंद और सुरक्षा-सचेत सहकर्मी या मित्र के साथ काम करना. हम वास्तविक दुनिया के उपयोग से सीखते रहेंगे, सुरक्षित रूप से पुनरावृत्ति करेंगे, और जैसे-जैसे तकनीक आगे बढ़ेगी, हम जो सीखेंगे उसे प्रकाशित करेंगे.


