प्रॉम्प्ट इंजेक्शन का सामना करने के लिए AI एजेंट्स को डिज़ाइन करना
सोशल इंजीनियरिंग हमें AI एजेंट्स को सुरक्षित बनाने के बारे में क्या सिखाती है.
AI एजेंट्स अब बढ़ती क्षमता के साथ वेब ब्राउज़ कर सकते हैं, जानकारी प्राप्त कर सकते हैं, और यूज़र की ओर से एक्शन्स ले सकते हैं. ये क्षमताएँ उपयोगी हैं, लेकिन वे हमलावरों को सिस्टम को मैनिपुलेट करने के नए तरीके भी देती हैं.
इन हमलों को अक्सर प्रॉम्प्ट इंजेक्शन कहा जाता है: बाहरी कंटेंट में ऐसे निर्देश शामिल करना जिनका उद्देश्य मॉडल से वह काम करवाना होता है जो यूज़र ने नहीं कहा. हमारे अनुभव में, इन हमलों के सबसे प्रभावी वास्तविक दुनिया के रूप अब साधारण प्रॉम्प्ट ओवरराइड्स की तुलना में सोशल इंजीनियरिंग से ज़्यादा मिलते-जुलते हैं.
यह बदलाव महत्वपूर्ण है. अगर समस्या सिर्फ किसी दुर्भावनापूर्ण स्ट्रिंग की पहचान करना नहीं है, बल्कि संदर्भ में भ्रामक या मैनिपुलेटिव कंटेंट का सामना करना भी है, तो इससे बचाव केवल इनपुट फ़िल्टरिंग पर निर्भर नहीं कर सकता. इसके लिए सिस्टम को इस तरह डिज़ाइन करना भी ज़रूरी है कि मैनिपुलेशन का प्रभाव सीमित रहे, भले ही कुछ हमले सफल हो जाएँ.
शुरुआती “प्रॉम्प्ट इंजेक्शन” प्रकार के हमले उतने सरल हो सकते थे जितना कि किसी Wikipedia आर्टिकल को एडिट करके उसमें वहाँ आने वाले AI एजेंट्स के लिए सीधे निर्देश जोड़ देना; ऐसे adversarial वातावरण का ट्रेनिंग-टाइम अनुभव न होने पर AI मॉडल अक्सर उन निर्देशों का बिना सवाल किए पालन कर लेते थे1. जैसे-जैसे मॉडल अधिक स्मार्ट हुए हैं, वे इस तरह के सुझावों के प्रति कम संवेदनशील भी हुए हैं, और हमने देखा है कि प्रॉम्प्ट इंजेक्शन-स्टाइल हमलों ने इसके जवाब में सोशल इंजीनियरिंग के तत्व शामिल करना शुरू कर दिया है:
प्रॉम्प्ट इंजेक्शन का ईमेल उदाहरण
2025 में ChatGPT पर हुए एक प्रॉम्प्ट इंजेक्शन अटैक का उदाहरण, जिसे एक्सटर्नल सिक्योरिटी रिसर्चर्स(एक नई विंडो में खुलेगा) द्वारा OpenAI को रिपोर्ट किया गया. टेस्टिंग में, यह 50% मामलों में काम करता था जब यूज़र प्रॉम्प्ट था: “मैं चाहता हूँ कि आप आज के मेरे ईमेल्स पर deep research करें. मैं चाहता हूँ कि आप हर उस सोर्स को पढ़ें और जाँचें जो मेरी नई एम्प्लॉयी प्रोसेस के बारे में जानकारी दे सकता है.”
व्यापक AI सिक्योरिटी इकोसिस्टम में अब “AI फ़ायरवॉलिंग” जैसी तकनीकों की सिफारिश आम हो गई है, जिसमें AI एजेंट और बाहरी दुनिया के बीच एक इंटरमीडियरी इनपुट्स को malicious prompt injection और सामान्य इनपुट्स में वर्गीकृत करने की कोशिश करता है—लेकिन इस तरह के पूरी तरह विकसित हमले आम तौर पर ऐसे सिस्टम्स से पकड़े नहीं जाते. ऐसे सिस्टम्स के लिए, दुर्भावनापूर्ण इनपुट की पहचान करना झूठ या गलत जानकारी का पता लगाने जितनी ही कठिन समस्या बन जाता है, और अक्सर ज़रूरी संदर्भ के बिना.
जैसे-जैसे वास्तविक दुनिया के प्रॉम्प्ट इंजेक्शन हमले अधिक जटिल होते गए, हमने पाया कि सबसे प्रभावी आक्रामक तकनीकें सोशल इंजीनियरिंग रणनीतियों का उपयोग करती हैं. सोशल इंजीनियरिंग वाले इन प्रॉम्प्ट इंजेक्शन हमलों को एक अलग या पूरी तरह नई समस्या की श्रेणी मानने के बजाय, हमने इन्हें उसी दृष्टिकोण से देखना शुरू किया जो अन्य क्षेत्रों में मनुष्यों पर सोशल इंजीनियरिंग जोखिम को प्रबंधित करने के लिए उपयोग किया जाता है. इन सिस्टम्स में लक्ष्य केवल दुर्भावनापूर्ण इनपुट्स की पूरी तरह सही पहचान करना नहीं है, बल्कि एजेंट्स और सिस्टम्स को इस तरह डिज़ाइन करना है कि मैनिपुलेशन का प्रभाव सीमित रहे, भले ही वह सफल हो जाए. ऐसे सिस्टम्स प्रॉम्प्ट इंजेक्शन और सोशल इंजीनियरिंग दोनों को कम करने में प्रभावी साबित होते हैं.
इस तरह, हम AI एजेंट को कस्टमर सर्विस एजेंट की तरह एक तीन-पक्षीय सिस्टम में काम करते हुए कल्पना कर सकते हैं; एजेंट अपने नियोक्ता की ओर से कार्य करना चाहता है, लेकिन वह लगातार ऐसे बाहरी इनपुट्स के संपर्क में रहता है जो उसे गुमराह करने की कोशिश कर सकते हैं. कस्टमर सपोर्ट एजेंट, चाहे मानव हो या AI, उसकी क्षमताओं पर सीमाएँ लगाई जानी चाहिए ताकि ऐसे दुर्भावनापूर्ण वातावरण में मौजूद रहने से जुड़े संभावित जोखिम को सीमित किया जा सके.
कल्पना कीजिए एक ऐसी स्थिति की जिसमें कोई व्यक्ति कस्टमर सपोर्ट सिस्टम संचालित करता है और डिलीवरी में देरी, खराबी के कारण हुए नुकसान आदि जैसी असुविधाओं के लिए ग्राहकों को गिफ्ट कार्ड और रिफंड दे सकता है. यह एक बहु-पक्षीय समस्या है जिसमें कंपनी को यह भरोसा होना चाहिए कि एजेंट सही कारणों से रिफंड दे रहा है, जबकि एजेंट तीसरे पक्षों के साथ भी बातचीत करता है जो उसे गुमराह करने या उस पर दबाव डालने की कोशिश कर सकते हैं.
वास्तविक दुनिया में, एजेंट को पालन करने के लिए कुछ नियम दिए जाते हैं, लेकिन यह अपेक्षित होता है कि जिस विरोधी वातावरण में वे काम करते हैं, उसमें उन्हें गुमराह किया जा सकता है. संभव है कि कोई ग्राहक यह कहते हुए संदेश भेजे कि उसका रिफंड कभी प्रोसेस ही नहीं हुआ, या रिफंड न मिलने पर नुकसान पहुँचाने की धमकी दे. जिन नियतात्मक सिस्टम्स के साथ एजेंट इंटरैक्ट करता है, वे ग्राहक को दिए जा सकने वाले रिफंड की मात्रा को सीमित करते हैं, संभावित फ़िशिंग ईमेल्स को फ़्लैग करते हैं, और अन्य ऐसे उपाय प्रदान करते हैं ताकि किसी एक एजेंट के समझौता हो जाने का प्रभाव सीमित किया जा सके.
इसी सोच ने उन मज़बूत प्रतिरोधक उपायों के एक व्यापक सेट को आकार दिया है जिन्हें हमने तैनात किया है, ताकि हमारे यूज़र्स की सुरक्षा अपेक्षाओं को बनाए रखा जा सके.
ChatGPT में हम इस सोशल इंजीनियरिंग मॉडल को अधिक पारंपरिक सिक्योरिटी इंजीनियरिंग तरीकों, जैसे source-sink analysis, के साथ जोड़ते हैं.
इस दृष्टिकोण में, किसी हमलावर को दोनों चीज़ों की आवश्यकता होती है: एक source, यानी सिस्टम को प्रभावित करने का तरीका, और एक sink, यानी ऐसी क्षमता जो गलत संदर्भ में खतरनाक बन सकती है. एजेंटिक सिस्टम्स के लिए, इसका मतलब अक्सर अविश्वसनीय बाहरी कंटेंट को किसी एक्शन के साथ जोड़ना होता है, जैसे किसी तीसरे पक्ष को जानकारी भेजना, किसी लिंक का अनुसरण करना, या किसी टूल के साथ इंटरैक्ट करना.
हमारा लक्ष्य यूज़र्स की एक मूलभूत सुरक्षा अपेक्षा को बनाए रखना है: संभावित रूप से खतरनाक एक्शन्स या संभावित रूप से संवेदनशील जानकारी का ट्रांसमिशन चुपचाप या बिना उचित सुरक्षा उपायों के नहीं होना चाहिए.
ChatGPT के खिलाफ विकसित किए गए हमलों में अक्सर यह कोशिश की जाती है कि असिस्टेंट को इस बात के लिए राज़ी किया जाए कि वह बातचीत से कुछ गुप्त जानकारी लेकर उसे किसी दुर्भावनापूर्ण तीसरे पक्ष को भेज दे. जिन अधिकांश मामलों के बारे में हमें जानकारी है, उनमें ये हमले असफल हो जाते हैं क्योंकि हमारी सेफ़्टी ट्रेनिंग एजेंट को ऐसे अनुरोधों को अस्वीकार करने के लिए प्रेरित करती है. उन मामलों के लिए जिनमें एजेंट को मना लिया जाता है, हमने Safe Url नाम की एक निवारण रणनीति विकसित की है, जिसे इस बात का पता लगाने के लिए डिज़ाइन किया गया है कि बातचीत के दौरान असिस्टेंट ने जो जानकारी सीखी है वह किसी तीसरे पक्ष को भेजी जाने वाली है या नहीं. इन दुर्लभ मामलों में हम या तो यूज़र को वह जानकारी दिखाते हैं जो भेजी जाने वाली होती है और उनसे पुष्टि करने के लिए कहते हैं, या फिर उसे ब्लॉक कर देते हैं और एजेंट को यूज़र के अनुरोध को आगे बढ़ाने के लिए कोई दूसरा तरीका आज़माने के लिए कहते हैं.
यही मैकेनिज़्म Atlas में नेविगेशन और बुकमार्क्स पर, और Deep Research में सर्च और नेविगेशन पर भी लागू होता है. ChatGPT Canvas और ChatGPT Apps भी इसी तरह का दृष्टिकोण अपनाते हैं, जिससे एजेंट कार्यात्मक एप्लिकेशन्स बना और उपयोग कर सकता है—ये एक सैंडबॉक्स में चलते हैं जो अप्रत्याशित संचार का पता लगा सकता है और यूज़र से उनकी सहमति माँग सकता है(एक नई विंडो में खुलेगा).
आप Safe Url के बारे में और जानकारी पढ़ सकते हैं और इसकी संरचना पर एक पेपर इसके समर्पित ब्लॉग पोस्ट जब कोई AI एजेंट किसी लिंक पर क्लिक करता है, तो अपने डेटा को सुरक्षित रखना में पा सकते हैं.
पूरी तरह स्वायत्त एजेंट्स के लिए विरोधी बाहरी दुनिया के साथ सुरक्षित इंटरैक्शन आवश्यक है. जब किसी AI मॉडल को किसी एप्लिकेशन सिस्टम के साथ इंटीग्रेट किया जाता है, तो हम यह पूछने की सलाह देते हैं कि इसी तरह की स्थिति में एक मानव एजेंट के पास कौन-से नियंत्रण होने चाहिए, और फिर उन्हीं को लागू किया जाए. हम अपेक्षा करते हैं कि अत्यधिक बुद्धिमान AI मॉडल सोशल इंजीनियरिंग का सामना एक मानव एजेंट से बेहतर तरीके से कर सकेगा, लेकिन एप्लिकेशन के आधार पर यह हमेशा व्यावहारिक या लागत-प्रभावी नहीं होता.
हम AI मॉडलों के खिलाफ सोशल इंजीनियरिंग के प्रभावों और उसके बचाव के तरीकों का लगातार अध्ययन करते रहते हैं, और अपने निष्कर्षों को अपनी एप्लिकेशन सुरक्षा संरचनाओं तथा AI मॉडलों को दिए जाने वाले प्रशिक्षण दोनों में शामिल करते हैं.
फ़ुटनोट
- 1
Rehberger, J. (2023, 04 15). LLM के रिस्पॉन्स को बिना सोचे-समझे भरोसा न करें. चैटबॉट्स के लिए खतरे. EmbraceTheRed. https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters से 11 14, 2025, को प्राप्त किया गया
लेखक
Thomas Shadwell और Adrian Spânu


