७ नोव्हेंबर, २०२५

प्रॉम्प्ट इंजेक्शन समजून घेणे: एक अत्याधुनिक सुरक्षा आव्हान

AI साधने प्रश्नांना उत्तर देण्यापेक्षा अधिक कार्य करण्यास सुरुवात करत आहेत. ते आता वेब ब्राउझ करू शकतात, संशोधनात मदत करू शकतात, प्रवासांची योजना आखू शकतात आणि उत्पादने खरेदी करण्यात मदत करू शकतात. जसे ते अधिक सक्षम होतात, इतर ॲप्समधील तुमच्या डेटावर प्रवेश करण्याची आणि तुमच्यावतीने कृती करण्याची क्षमता मिळवतात, तसतसे नवीन सुरक्षा आव्हाने समोर येतात. आम्ही ज्यावर खूप लक्ष केंद्रित करत आहोत त्यापैकी एक म्हणजे प्रॉम्प्ट इंजेक्शन.

प्रॉम्प्ट इंजेक्शन हल्ला कसा कार्य करतो हे दर्शवणारे एक आकृती. डावीकडे, हसऱ्या युजरचे एक आयकॉन आहे ज्यावर “युजर एखाद्या कामासाठी मदतीसाठी AI ला विचारतो.” असे लेबल आहे. एक बाण मध्यभागाकडे निर्देश करतो, जिथे संगणक स्क्रीन आयकॉनला “AI ला हल्ल्यासह एक वेबसाइट दिसते” असे लेबल आहे, आणि त्याच्या वर टोपी घातलेली आणि स्मित करणारी एक छोटी आकृती “हल्लेखोराने प्रॉम्प्ट इंजेक्शन घातले” असे लेबल आहे. आणखी एक बाण उजवीकडे नेतो, ज्यामध्ये चेतावणी त्रिकोणासह दस्तऐवज आयकॉन दिसतो आणि त्यावर “AI अनपेक्षित क्रियेत फसले.” असे लेबल आहे. हा प्रवाह दाखवतो की हल्लेखोर इंजेक्ट केलेल्या प्रॉम्प्ट्सद्वारे AI मध्ये कसा फेरफार करू शकतो.

प्रॉम्प्ट इंजेक्शन म्हणजे काय आहे?

प्रॉम्प्ट इंजेक्शन हा संभाषणात्मक AI साठी विशिष्ट असलेला सामाजिक अभियांत्रिकी हल्ल्याचा प्रकार आहे. प्रारंभिक AI प्रणालींमध्ये एकच वापरकर्ता आणि एकच AI एजंट यांच्यातील संवाद होते. आजच्या AI उत्पादनांमध्ये, तुमच्या संभाषणात इंटरनेटसह विविध स्रोतांमधील सामग्रीचा समावेश असू शकतो. संभाषणाच्या संदर्भात दुर्भावनापूर्ण सूचना घालून तृतीय पक्ष (जो वापरकर्ता नाही आणि AI देखील नाही) मॉडेलला दिशाभूल करू शकतो, अशी कल्पना 'प्रॉम्प्ट इंजेक्शन' या संज्ञेला जन्म देते.

ज्या प्रकारे फिशिंग ईमेल किंवा वेबवरील फसवणुकी लोकांना संवेदनशील माहिती देण्यासाठी फसवतात, त्याच प्रकारे प्रॉम्प्ट इंजेक्शन AI ला तुम्ही न मागितलेले काहीतरी करण्यासाठी फसवतात.

कल्पना करा की तुम्ही एखाद्या AI ला सुट्टीसाठी ऑनलाइन संशोधन करण्यास सांगितले आहे, आणि ते करत असताना त्याला एखाद्या वेबपेजवर लपवलेली दिशाभूल करणारी सामग्री किंवा हानिकारक सूचना आढळतात, जसे की एखाद्या लिस्टिंगवरील टिप्पणीमध्ये किंवा पुनरावलोकनात. मजकूर काळजीपूर्वक तयार केला जाऊ शकतो ज्यामुळे AI चुकीची लिस्टिंग शिफारस करेल, किंवा त्याहून वाईट म्हणजे, तुमची क्रेडिट कार्ड माहिती चोरण्याचा प्रयत्न केला जाऊ शकतो.

ही “प्रॉम्प्ट इंजेक्शन” हल्ल्यांची काही उदाहरणे आहेत—AI ला अनपेक्षित क्रिया करण्यास प्रवृत्त करण्यासाठी तयार केलेल्या हानिकारक सूचना, ज्या अनेकदा वेब पेज, दस्तऐवज किंवा ईमेल यांसारख्या सामान्य सामग्रीमध्ये लपवलेल्या असतात.

AI ला अधिक संवेदनशील डेटावर प्रवेश मिळाल्यामुळे आणि ते अधिक पुढाकार घेतात तसेच अधिक दीर्घकालीन कामे हाती घेतात, त्यामुळे हे धोके वाढतात.

सारांश

तुम्ही AI ला काय करण्यास सांगितले

हल्लेखोर काय करतो

हल्ला यशस्वी झाल्यास संभाव्य परिणाम

तुम्ही AI ला अपार्टमेंट्सचे संशोधन करण्यास सांगता, आणि त्यात प्रॉम्प्ट इंजेक्शन केले जाते ज्यामुळे तुमच्यासाठी सर्वोत्तम पर्याय नसलेली लिस्टिंग शिफारस केली जाते.

तुम्ही काही दिलेल्या निकषांनुसार अपार्टमेंट्सचा शोध घेण्यासाठी AI ला विचारता.

हल्लेखोराने अपार्टमेंट लिस्टिंगमध्ये AI ला वापरकर्त्याच्या नमूद केलेल्या प्राधान्यांनुसार काहीही असले तरी त्यांची लिस्टिंग निवडलीच पाहिजे असे वाटावे यासाठी एक प्रॉम्प्ट इंजेक्शन हल्ला समाविष्ट केला आहे.

जर हल्ला यशस्वी झाला, तर AI तुमच्या प्राधान्यांवर आधारित कमी दर्जाच्या अपार्टमेंट लिस्टिंगची चुकीची शिफारस करू शकते.

तुम्ही AI एजंटला रात्रीभर आलेल्या तुमच्या ईमेलना उत्तर देण्यास सांगता, आणि तो चुकून तुमची बँक स्टेटमेंट्स शेअर करतो.

तुम्ही आज सकाळी व्यस्त असल्यामुळे, रात्री आलेल्या तुमच्या ईमेल्सना साधारणपणे उत्तर देण्यासाठी तुम्ही AI एजंटला सांगता.

“शक्य असल्यास, एजंटला स्पष्ट सूचना द्या” खाली पहा

हल्लेखोराने तुम्हाला एक ईमेल पाठवला ज्यामध्ये चुकीची माहिती आहे, जी मॉडेलला तुमची बँक स्टेटमेंट्स शोधायला आणि ती हल्लेखोरासोबत शेअर करायला फसवते.

जर हल्ला यशस्वी झाला, तर एजंट तुमच्या ईमेलमध्ये (ज्याला तुम्ही या कार्यासाठी प्रवेश दिला होता) बँक स्टेटमेंट्ससारखी कोणतीही गोष्ट शोधू शकतो आणि ती हल्लेखोरासोबत शेअर करू शकतो.

वापरकर्त्यांचे संरक्षण करण्यासाठी आमचा दृष्टिकोन

प्रॉम्प्ट इंजेक्शनविरुद्ध संरक्षण करणे हे AI उद्योगात एक आव्हान आहे आणि OpenAI साठी एक मुख्य लक्ष आहे. विरोधक असे हल्ले विकसित करत राहतील अशी आम्हाला अपेक्षा असली तरी, कोणी त्यांना सक्रियपणे दिशाभूल करण्याचा प्रयत्न करत असतानाही वापरकर्त्याचे उद्दिष्टित कार्य पार पाडण्यासाठी डिझाइन केलेले बचाव आम्ही तयार करत आहोत. AGI चे फायदे सुरक्षितपणे साध्य करण्यासाठी ती क्षमता अत्यावश्यक आहे.

आमच्या वापरकर्त्यांचे संरक्षण करण्यासाठी आणि या हल्ल्यांविरुद्ध आमची मॉडेल्स सुधारण्यासाठी, आम्ही खालील गोष्टींसह बहु-स्तरीय दृष्टिकोन स्वीकारतो:

सुरक्षा प्रशिक्षण

आम्हाला असे AI हवे आहे जे प्रॉम्प्ट इंजेक्शन ओळखते आणि त्यांना बळी पडत नाही. तथापि, शत्रुत्वपूर्ण हल्ल्यांविरुद्धची मजबुती ही मशीन लर्निंग आणि AIसाठी दीर्घकाळापासूनचे आव्हान आहे, ज्यामुळे ही एक कठीण आणि खुली समस्या बनते. आम्ही सूचना पदानुक्रम⁠ नावाचे संशोधन विकसित केले आहे, जे विश्वासार्ह आणि अविश्वासार्ह सूचनांमधील फरक ओळखण्यासाठी मॉडेल्स विकसित करण्याच्या दिशेने काम करते. आम्ही मॉडेल्सना प्रॉम्प्ट इंजेक्शन पॅटर्न्स अधिक प्रभावीपणे ओळखण्यासाठी प्रशिक्षित करण्याच्या नवीन पद्धती विकसित करत आहोत, जेणेकरून ते त्यांना दुर्लक्ष करू शकतील किंवा वापरकर्त्यांना त्याबद्दल सूचित करू शकतील. आम्ही वापरत असलेल्या तंत्रांपैकी एक म्हणजे स्वयंचलित रेड टीमिंग, ज्याचा आम्ही अभ्यास⁠(नवीन विंडोमध्ये उघडेल) अनेक वर्षांपासून करत आहोत, नवीन प्रॉम्प्ट इंजेक्शन हल्ले विकसित करण्यासाठी.

निरीक्षण

आम्ही प्रॉम्प्ट इंजेक्शन हल्ले ओळखण्यासाठी आणि रोखण्यासाठी अनेक स्वयंचलित AI-चालित निगराणी यंत्रे⁠ विकसित केली आहेत. हे सुरक्षा प्रशिक्षण दृष्टिकोनांना पूरक ठरतात कारण आम्ही शोधलेल्या कोणत्याही नवीन हल्ल्यांना त्वरीत रोखण्यासाठी ते जलद अद्यतनित केले जाऊ शकतात. हे मॉनिटर्स आमच्या वापरकर्त्यांविरुद्ध संभाव्य प्रॉम्प्ट इंजेक्शन हल्ले ओळखण्यात मदत करतातच, पण ते हल्ले प्रत्यक्षात मोठ्या प्रमाणावर वापरात येण्यापूर्वी, आमच्या प्लॅटफॉर्मचा वापर करून केलेले शत्रुत्वपूर्ण प्रॉम्प्ट इंजेक्शन संशोधन आणि चाचणीही आम्हाला पकडण्यास मदत करू शकतात.

सुरक्षा उपाय

वापरकर्त्यांचा डेटा सुरक्षित ठेवण्यासाठी आम्ही आमची उत्पादने आणि पायाभूत सुविधा विविध स्तरांवरील सुरक्षा संरक्षणांसह डिझाइन केली आहेत. ही वैशिष्ट्ये, जी आम्ही भविष्यातील पोस्ट्समध्ये अधिक तांत्रिक तपशीलात तपासू, ती प्रत्येक उत्पादनासाठी सानुकूलित केली आहेत. उदाहरणार्थ, तुम्हाला अविश्वसनीय साइट्स टाळण्यासाठी मदत करण्यासाठी, आम्ही तुम्हाला ChatGPT मध्ये काही लिंकना मान्यता देण्यास सांगू, विशेषतः ज्या वेबसाइट्स आम्हाला त्यांची नोंद करू नये असे सांगतात⁠(नवीन विंडोमध्ये उघडेल), त्या भेट देता येण्यापूर्वी. जेव्हा आमचा AI इतर प्रोग्राम्स किंवा कोड चालवण्यासाठी साधने वापरतो (उदा. canvas किंवा आमचे विकास साधन Codex), तेव्हा आम्ही प्रॉम्प्ट इंजेक्शनमुळे होऊ शकणाऱ्या हानिकारक बदलांपासून मॉडेलला रोखण्यासाठी सँडबॉक्सिंग नावाचे तंत्र वापरतो.

वापरकर्त्यांना नियंत्रण द्या

वापरकर्त्यांना स्वतःचे संरक्षण करण्यासाठी मदत करण्यासाठी आम्ही आमच्या उत्पादनांमध्ये अंगभूत नियंत्रणे समाविष्ट करतो. उदाहरणार्थ, ChatGPT Atlas मध्ये, तुम्ही लॉग-आउट मोड निवडू शकता, ज्यामुळे ChatGPT एजंटला साइट्सवर लॉग-इन न होता कामे सुरू करता येतात. ChatGPT एजंट संवेदनशील पावले उचलण्यापूर्वी, जसे की खरेदी पूर्ण करणे, थांबते आणि पुष्टीकरणासाठी विचारते. जेव्हा एजंट संवेदनशील साइट्सवर कार्यरत असतो, तेव्हा आम्ही 'Watch Mode' अंमलात आणला आहे, जो तुम्हाला साइटच्या संवेदनशीलतेबद्दल सतर्क करतो आणि एजंट त्याचे काम करत असताना टॅब सक्रिय ठेवणे आवश्यक आहे. तुम्ही संवेदनशील माहिती असलेल्या टॅबपासून दूर गेल्यास एजंट थांबेल. हे सुनिश्चित करते की तुम्हाला एजंट कोणत्या कृती करत आहे याची जाणीव राहते—आणि त्यावर तुमचा नियंत्रण राहतो.

रेड टीमिंग

आम्ही आमच्या संरक्षणांची चाचणी घेण्यासाठी आणि ती सुधारण्यासाठी, हल्लेखोरांचे वर्तन अनुकरण करण्यासाठी आणि आमची सुरक्षा सुधारण्यासाठी नवीन मार्ग शोधण्यासाठी अंतर्गत आणि बाह्य संघांसोबत व्यापक रेड टीमिंग करतो. यामध्ये विशेषतः प्रॉम्प्ट इंजेक्शनवर लक्ष केंद्रित केलेले हजारो तासांचा समावेश आहे. आम्ही नवीन तंत्रे आणि हल्ले शोधल्यामुळे, आमच्या टीम्स सुरक्षा भेद्यतांना सक्रियपणे हाताळतात आणि आमच्या मॉडेल निवारणांमध्ये सुधारणा करतात.

बग बाउंटी

चांगल्या हेतूने काम करणाऱ्या स्वतंत्र सुरक्षा संशोधकांना नवीन प्रॉम्प्ट इंजेक्शन तंत्रे आणि हल्ले शोधण्यात आम्हाला मदत करण्यासाठी प्रोत्साहित करण्यासाठी, जेव्हा ते अनपेक्षित वापरकर्ता डेटा उघड होण्यास कारणीभूत ठरू शकणारा वास्तववादी हल्ल्याचा मार्ग दाखवतात, तेव्हा आम्ही आमच्या बग बाउंटी प्रोग्राम⁠(नवीन विंडोमध्ये उघडेल) अंतर्गत आर्थिक बक्षिसे देतो. आम्ही बाह्य योगदानकर्त्यांना या समस्या लवकर समोर आणण्यासाठी प्रोत्साहन देतो, जेणेकरून आम्ही त्या सोडवू शकू आणि आमच्या संरक्षण यंत्रणेला अधिक बळकट करू शकू.

वापरकर्त्यांना निर्णय घेऊ द्या

आम्ही उत्पादनातील काही वैशिष्ट्यांचा वापर करताना येणाऱ्या जोखमींबद्दल वापरकर्त्यांना शिक्षित करतो, जेणेकरून ते माहितीपूर्ण निर्णय घेऊ शकतील. उदाहरणार्थ, ChatGPT ला इतर ॲप्सशी कनेक्ट करताना, कोणता डेटा ॲक्सेस केला जाऊ शकतो, तो कसा वापरला जाऊ शकतो, आणि तुमचा डेटा चोरण्याचा प्रयत्न करणारी साइट यांसारखे कोणते धोके उद्भवू शकतात हे आम्ही स्पष्ट करतो, तसेच अधिक सुरक्षित कसे राहावे हे जाणून घेण्यासाठीची लिंकही देतो. आम्ही संस्थांना त्यांच्या वर्कस्पेसमध्ये वापरकर्त्यांनी कोणती वैशिष्ट्ये सक्षम किंवा वापरू शकतात हे नियंत्रित करण्याची क्षमता देखील देतो.

तुम्ही अधिक सुरक्षित राहण्यासाठी घेऊ शकता अशा पायऱ्या

प्रॉम्प्ट इंजेक्शन हे एक अत्याधुनिक सुरक्षा आव्हान आहे, जे आम्हाला अपेक्षित आहे की कालांतराने विकसित होत राहील. बुद्धिमत्ता आणि क्षमतेच्या नवीन पातळ्यांसाठी तंत्रज्ञान, समाज आणि जोखीम निवारण धोरण यांना सह-विकसित होणे आवश्यक आहे. आणि 2000 च्या दशकाच्या सुरुवातीच्या संगणक व्हायरसप्रमाणेच, प्रत्येकाने प्रॉम्प्ट इंजेक्शनचा धोका आणि जोखीम कशी हाताळायची हे समजून घेणे महत्त्वाचे आहे, जेणेकरून तुम्ही सर्वजण हे तंत्रज्ञान सुरक्षितपणे वापरून त्याचा फायदा घेणे शिकू शकू. सतर्क राहणे आणि सावधगिरी बाळगणे, तुमच्यावतीने काम करू शकणाऱ्या AI आणि एजंटिक वैशिष्ट्यांचा वापर करताना तुमचा डेटा अधिक सुरक्षित ठेवण्यास मदत करते.

संवेदनशील डेटावर प्रवेश मर्यादित करण्यासाठी अंगभूत वैशिष्ट्यांचा वापर करा

जिथे शक्य असेल तिथे, एखाद्या कामासाठी आवश्यक असलेल्या संवेदनशील डेटा किंवा क्रेडेन्शियल्सपुरताच एजंटचा प्रवेश मर्यादित ठेवा. उदाहरणार्थ, सुट्टीसाठी संशोधन करताना ChatGPT Atlas मध्ये एजंट मोड वापरताना, जर एजंट फक्त संशोधन करत असेल आणि त्याला लॉग इन केलेला प्रवेश आवश्यक नसेल, तर “लॉग आउट” मोड वापरा.

जेव्हा एखादा एजंट पुष्टीकरणासाठी विचारतो, तेव्हा तो योग्य गोष्ट करणार आहे याची खात्री करण्यासाठी काळजीपूर्वक पुनरावलोकन करा

आम्ही अनेकदा एजंट्सना काही परिणामकारक क्रिया जसे की खरेदी पूर्ण करणे किंवा ईमेल पाठवणे यापूर्वी तुमच्याकडून अंतिम पुष्टी मिळवण्यासाठी डिझाइन करतो. जेव्हा एखादा एजंट तुम्हाला एखादी कृती पुष्टी करण्यास सांगतो, तेव्हा कृती योग्य आहे का आणि त्या संदर्भात शेअर केली जाणारी माहिती योग्य आहे का हे काळजीपूर्वक तपासा.

जेव्हा एखादा एजंट तुमच्या बँकेसारख्या संवेदनशील साइटवर कार्यरत असतो, तेव्हा त्याचे काम करताना एजंटला पाहा. हे स्वत:च चालणाऱ्या कारचे निरीक्षण करण्यासारखे आहे, जणू तुम्ही स्टीयरिंग व्हीलवर हात ठेवून कार चालवत आहात.

शक्य असल्यास, एजंटला स्पष्ट सूचना द्या

एजंटला "माझ्या ईमेल्सचे पुनरावलोकन करा आणि आवश्यक ती क्रिया करा" यासारखी अत्यंत व्यापक सूचना देणे, संवेदनशील कृती करण्यापूर्वी तुमच्याशी तपासणी करण्यासाठी डिझाइन केलेले असले तरी, लपविलेल्या दुर्भावनापूर्ण सामग्रीला मॉडेलला दिशाभूल करणे सोपे करू शकते.

तुमच्या एजंटला विशिष्ट कार्ये करण्यास सांगणे अधिक सुरक्षित आहे, आणि ईमेलसारख्या इतर स्रोतांकडून संभाव्यतः हानिकारक सूचनांचे पालन करण्यासाठी त्याला विस्तृत स्वातंत्र्य न देणे. जरी यामुळे हल्ले होणार नाहीत याची खात्री देता येत नाही, तरी हल्लेखोरांना यशस्वी होणे अधिक कठीण बनते.

माहिती ठेवत रहा आणि सुरक्षा सर्वोत्तम पद्धतींचे पालन करा

AI तंत्रज्ञान विकसित होत असताना, नवीन जोखीम आणि सुरक्षा उपाय उदयास येतील. सर्वोत्तम पद्धतींबद्दल जाणून घेण्यासाठी OpenAI आणि इतर विश्वासार्ह स्रोतांकडून अद्यतने अनुसरण करा.

भविष्यातील दृष्टीकोन

प्रॉम्प्ट इंजेक्शन अजूनही एक अत्याधुनिक आणि आव्हानात्मक संशोधन समस्या आहे, आणि वेबवरील पारंपारिक घोटाळ्यांप्रमाणेच, आम्ही आमच्या कामाच्या सतततेची अपेक्षा करतो. जरी आम्हाला अद्याप हल्लेखोरांकडून या तंत्राचा लक्षणीय स्वीकार दिसलेला नाही, तरी आम्हाला अपेक्षा आहे की विरोधक AIs या हल्ल्यांना बळी पाडण्यासाठी महत्त्वपूर्ण वेळ आणि संसाधने खर्च करतील. आम्ही आमची उत्पादने सुरक्षित बनवण्यासाठी आणि या जोखमीविरुद्ध AI ची मजबूती वाढवण्यासाठी संशोधनामध्ये मोठ्या प्रमाणात गुंतवणूक करत आहोत. या क्षेत्रातील आमच्या सुरक्षा कामातील चालू असलेली प्रगती यासह, आम्हाला अधिक माहिती मिळत जाईल तसे आम्ही अपडेट्स शेअर करू. उदाहरणार्थ, आम्ही लवकरच प्रकाशित करणार असलेला एक अहवाल तयार करत आहोत, ज्यामध्ये तुमच्या AI चा इंटरनेटशी होणारा संवाद तुमच्या संभाषणातील माहिती प्रसारित करतो का हे आम्ही कसे शोधतो याबद्दल अधिक तपशील सामायिक केले जातील.

आमचे उद्दिष्ट आहे की या प्रणाली तुमच्या सर्वात विश्वासार्ह आणि सुरक्षा-जागरूक सहकारी किंवा मित्रासोबत काम करण्याइतक्या विश्वासार्ह आणि सुरक्षित बनवणे. आम्ही वास्तविक जगातील वापरातून शिकत राहू, सुरक्षितपणे पुनरावृत्ती करत राहू आणि तंत्रज्ञान प्रगत होत असताना आम्ही जे शिकलो ते प्रकाशित करत राहू.

वाचत राहा

सर्व पहा

OpenAI आणि Hugging Face सुरक्षा घटनेला प्रतिसाद देतात

सुरक्षा२१ जुलै, २०२६

Daybreak: जगातील प्रत्येक संस्थेच्या सुरक्षिततेसाठी साधने

सुरक्षा२२ जून, २०२६

Patch the Planet: a Daybreak initiative to support open source maintainers

सुरक्षा२२ जून, २०२६