प्रॉम्प्ट इंजेक्शन समजून घेणे: एक अत्याधुनिक सुरक्षा आव्हान
AI साधने प्रश्नांना उत्तर देण्यापेक्षा अधिक कार्य करण्यास सुरुवात करत आहेत. ते आता वेब ब्राउझ करू शकतात, संशोधनात मदत करू शकतात, प्रवासांची योजना आखू शकतात आणि उत्पादने खरेदी करण्यात मदत करू शकतात. जसे ते अधिक सक्षम होतात, इतर ॲप्समधील तुमच्या डेटावर प्रवेश करण्याची आणि तुमच्यावतीने कृती करण्याची क्षमता मिळवतात, तसतसे नवीन सुरक्षा आव्हाने समोर येतात. आम्ही ज्यावर खूप लक्ष केंद्रित करत आहोत त्यापैकी एक म्हणजे प्रॉम्प्ट इंजेक्शन.
प्रॉम्प्ट इंजेक्शन हा संभाषणात्मक AI साठी विशिष्ट असलेला सामाजिक अभियांत्रिकी हल्ल्याचा प्रकार आहे. प्रारंभिक AI प्रणालींमध्ये एकच वापरकर्ता आणि एकच AI एजंट यांच्यातील संवाद होते. आजच्या AI उत्पादनांमध्ये, तुमच्या संभाषणात इंटरनेटसह विविध स्रोतांमधील सामग्रीचा समावेश असू शकतो. संभाषणाच्या संदर्भात दुर्भावनापूर्ण सूचना घालून तृतीय पक्ष (जो वापरकर्ता नाही आणि AI देखील नाही) मॉडेलला दिशाभूल करू शकतो, अशी कल्पना 'प्रॉम्प्ट इंजेक्शन' या संज्ञेला जन्म देते.
ज्या प्रकारे फिशिंग ईमेल किंवा वेबवरील फसवणुकी लोकांना संवेदनशील माहिती देण्यासाठी फसवतात, त्याच प्रकारे प्रॉम्प्ट इंजेक्शन AI ला तुम्ही न मागितलेले काहीतरी करण्यासाठी फसवतात.
कल्पना करा की तुम्ही एखाद्या AI ला सुट्टीसाठी ऑनलाइन संशोधन करण्यास सांगितले आहे, आणि ते करत असताना त्याला एखाद्या वेबपेजवर लपवलेली दिशाभूल करणारी सामग्री किंवा हानिकारक सूचना आढळतात, जसे की एखाद्या लिस्टिंगवरील टिप्पणीमध्ये किंवा पुनरावलोकनात. मजकूर काळजीपूर्वक तयार केला जाऊ शकतो ज्यामुळे AI चुकीची लिस्टिंग शिफारस करेल, किंवा त्याहून वाईट म्हणजे, तुमची क्रेडिट कार्ड माहिती चोरण्याचा प्रयत्न केला जाऊ शकतो.
ही “प्रॉम्प्ट इंजेक्शन” हल्ल्यांची काही उदाहरणे आहेत—AI ला अनपेक्षित क्रिया करण्यास प्रवृत्त करण्यासाठी तयार केलेल्या हानिकारक सूचना, ज्या अनेकदा वेब पेज, दस्तऐवज किंवा ईमेल यांसारख्या सामान्य सामग्रीमध्ये लपवलेल्या असतात.
AI ला अधिक संवेदनशील डेटावर प्रवेश मिळाल्यामुळे आणि ते अधिक पुढाकार घेतात तसेच अधिक दीर्घकालीन कामे हाती घेतात, त्यामुळे हे धोके वाढतात.
सारांश | तुम्ही AI ला काय करण्यास सांगितले | हल्लेखोर काय करतो | हल्ला यशस्वी झाल्यास संभाव्य परिणाम |
तुम्ही AI ला अपार्टमेंट्सचे संशोधन करण्यास सांगता, आणि त्यात प्रॉम्प्ट इंजेक्शन केले जाते ज्यामुळे तुमच्यासाठी सर्वोत्तम पर्याय नसलेली लिस्टिंग शिफारस केली जाते. | तुम्ही काही दिलेल्या निकषांनुसार अपार्टमेंट्सचा शोध घेण्यासाठी AI ला विचारता. | हल्लेखोराने अपार्टमेंट लिस्टिंगमध्ये AI ला वापरकर्त्याच्या नमूद केलेल्या प्राधान्यांनुसार काहीही असले तरी त्यांची लिस्टिंग निवडलीच पाहिजे असे वाटावे यासाठी एक प्रॉम्प्ट इंजेक्शन हल्ला समाविष्ट केला आहे. | जर हल्ला यशस्वी झाला, तर AI तुमच्या प्राधान्यांवर आधारित कमी दर्जाच्या अपार्टमेंट लिस्टिंगची चुकीची शिफारस करू शकते. |
तुम्ही AI एजंटला रात्रीभर आलेल्या तुमच्या ईमेलना उत्तर देण्यास सांगता, आणि तो चुकून तुमची बँक स्टेटमेंट्स शेअर करतो. | तुम्ही आज सकाळी व्यस्त असल्यामुळे, रात्री आलेल्या तुमच्या ईमेल्सना साधारणपणे उत्तर देण्यासाठी तुम्ही AI एजंटला सांगता. “शक्य असल्यास, एजंटला स्पष्ट सूचना द्या” खाली पहा | हल्लेखोराने तुम्हाला एक ईमेल पाठवला ज्यामध्ये चुकीची माहिती आहे, जी मॉडेलला तुमची बँक स्टेटमेंट्स शोधायला आणि ती हल्लेखोरासोबत शेअर करायला फसवते. | जर हल्ला यशस्वी झाला, तर एजंट तुमच्या ईमेलमध्ये (ज्याला तुम्ही या कार्यासाठी प्रवेश दिला होता) बँक स्टेटमेंट्ससारखी कोणतीही गोष्ट शोधू शकतो आणि ती हल्लेखोरासोबत शेअर करू शकतो. |
प्रॉम्प्ट इंजेक्शनविरुद्ध संरक्षण करणे हे AI उद्योगात एक आव्हान आहे आणि OpenAI साठी एक मुख्य लक्ष आहे. विरोधक असे हल्ले विकसित करत राहतील अशी आम्हाला अपेक्षा असली तरी, कोणी त्यांना सक्रियपणे दिशाभूल करण्याचा प्रयत्न करत असतानाही वापरकर्त्याचे उद्दिष्टित कार्य पार पाडण्यासाठी डिझाइन केलेले बचाव आम्ही तयार करत आहोत. AGI चे फायदे सुरक्षितपणे साध्य करण्यासाठी ती क्षमता अत्यावश्यक आहे.
आमच्या वापरकर्त्यांचे संरक्षण करण्यासाठी आणि या हल्ल्यांविरुद्ध आमची मॉडेल्स सुधारण्यासाठी, आम्ही खालील गोष्टींसह बहु-स्तरीय दृष्टिकोन स्वीकारतो:
आम्हाला असे AI हवे आहे जे प्रॉम्प्ट इंजेक्शन ओळखते आणि त्यांना बळी पडत नाही. तथापि, शत्रुत्वपूर्ण हल्ल्यांविरुद्धची मजबुती ही मशीन लर्निंग आणि AIसाठी दीर्घकाळापासूनचे आव्हान आहे, ज्यामुळे ही एक कठीण आणि खुली समस्या बनते. आम्ही सूचना पदानुक्रम नावाचे संशोधन विकसित केले आहे, जे विश्वासार्ह आणि अविश्वासार्ह सूचनांमधील फरक ओळखण्यासाठी मॉडेल्स विकसित करण्याच्या दिशेने काम करते. आम्ही मॉडेल्सना प्रॉम्प्ट इंजेक्शन पॅटर्न्स अधिक प्रभावीपणे ओळखण्यासाठी प्रशिक्षित करण्याच्या नवीन पद्धती विकसित करत आहोत, जेणेकरून ते त्यांना दुर्लक्ष करू शकतील किंवा वापरकर्त्यांना त्याबद्दल सूचित करू शकतील. आम्ही वापरत असलेल्या तंत्रांपैकी एक म्हणजे स्वयंचलित रेड टीमिंग, ज्याचा आम्ही अभ्यास(नवीन विंडोमध्ये उघडेल) अनेक वर्षांपासून करत आहोत, नवीन प्रॉम्प्ट इंजेक्शन हल्ले विकसित करण्यासाठी.
आम्ही प्रॉम्प्ट इंजेक्शन हल्ले ओळखण्यासाठी आणि रोखण्यासाठी अनेक स्वयंचलित AI-चालित निगराणी यंत्रे विकसित केली आहेत. हे सुरक्षा प्रशिक्षण दृष्टिकोनांना पूरक ठरतात कारण आम्ही शोधलेल्या कोणत्याही नवीन हल्ल्यांना त्वरीत रोखण्यासाठी ते जलद अद्यतनित केले जाऊ शकतात. हे मॉनिटर्स आमच्या वापरकर्त्यांविरुद्ध संभाव्य प्रॉम्प्ट इंजेक्शन हल्ले ओळखण्यात मदत करतातच, पण ते हल्ले प्रत्यक्षात मोठ्या प्रमाणावर वापरात येण्यापूर्वी, आमच्या प्लॅटफॉर्मचा वापर करून केलेले शत्रुत्वपूर्ण प्रॉम्प्ट इंजेक्शन संशोधन आणि चाचणीही आम्हाला पकडण्यास मदत करू शकतात.
वापरकर्त्यांचा डेटा सुरक्षित ठेवण्यासाठी आम्ही आमची उत्पादने आणि पायाभूत सुविधा विविध स्तरांवरील सुरक्षा संरक्षणांसह डिझाइन केली आहेत. ही वैशिष्ट्ये, जी आम्ही भविष्यातील पोस्ट्समध्ये अधिक तांत्रिक तपशीलात तपासू, ती प्रत्येक उत्पादनासाठी सानुकूलित केली आहेत. उदाहरणार्थ, तुम्हाला अविश्वसनीय साइट्स टाळण्यासाठी मदत करण्यासाठी, आम्ही तुम्हाला ChatGPT मध्ये काही लिंकना मान्यता देण्यास सांगू, विशेषतः ज्या वेबसाइट्स आम्हाला त्यांची नोंद करू नये असे सांगतात(नवीन विंडोमध्ये उघडेल), त्या भेट देता येण्यापूर्वी. जेव्हा आमचा AI इतर प्रोग्राम्स किंवा कोड चालवण्यासाठी साधने वापरतो (उदा. canvas किंवा आमचे विकास साधन Codex), तेव्हा आम्ही प्रॉम्प्ट इंजेक्शनमुळे होऊ शकणाऱ्या हानिकारक बदलांपासून मॉडेलला रोखण्यासाठी सँडबॉक्सिंग नावाचे तंत्र वापरतो.
वापरकर्त्यांना स्वतःचे संरक्षण करण्यासाठी मदत करण्यासाठी आम्ही आमच्या उत्पादनांमध्ये अंगभूत नियंत्रणे समाविष्ट करतो. उदाहरणार्थ, ChatGPT Atlas मध्ये, तुम्ही लॉग-आउट मोड निवडू शकता, ज्यामुळे ChatGPT एजंटला साइट्सवर लॉग-इन न होता कामे सुरू करता येतात. ChatGPT एजंट संवेदनशील पावले उचलण्यापूर्वी, जसे की खरेदी पूर्ण करणे, थांबते आणि पुष्टीकरणासाठी विचारते. जेव्हा एजंट संवेदनशील साइट्सवर कार्यरत असतो, तेव्हा आम्ही 'Watch Mode' अंमलात आणला आहे, जो तुम्हाला साइटच्या संवेदनशीलतेबद्दल सतर्क करतो आणि एजंट त्याचे काम करत असताना टॅब सक्रिय ठेवणे आवश्यक आहे. तुम्ही संवेदनशील माहिती असलेल्या टॅबपासून दूर गेल्यास एजंट थांबेल. हे सुनिश्चित करते की तुम्हाला एजंट कोणत्या कृती करत आहे याची जाणीव राहते—आणि त्यावर तुमचा नियंत्रण राहतो.
आम्ही आमच्या संरक्षणांची चाचणी घेण्यासाठी आणि ती सुधारण्यासाठी, हल्लेखोरांचे वर्तन अनुकरण करण्यासाठी आणि आमची सुरक्षा सुधारण्यासाठी नवीन मार्ग शोधण्यासाठी अंतर्गत आणि बाह्य संघांसोबत व्यापक रेड टीमिंग करतो. यामध्ये विशेषतः प्रॉम्प्ट इंजेक्शनवर लक्ष केंद्रित केलेले हजारो तासांचा समावेश आहे. आम्ही नवीन तंत्रे आणि हल्ले शोधल्यामुळे, आमच्या टीम्स सुरक्षा भेद्यतांना सक्रियपणे हाताळतात आणि आमच्या मॉडेल निवारणांमध्ये सुधारणा करतात.
चांगल्या हेतूने काम करणाऱ्या स्वतंत्र सुरक्षा संशोधकांना नवीन प्रॉम्प्ट इंजेक्शन तंत्रे आणि हल्ले शोधण्यात आम्हाला मदत करण्यासाठी प्रोत्साहित करण्यासाठी, जेव्हा ते अनपेक्षित वापरकर्ता डेटा उघड होण्यास कारणीभूत ठरू शकणारा वास्तववादी हल्ल्याचा मार्ग दाखवतात, तेव्हा आम्ही आमच्या बग बाउंटी प्रोग्राम(नवीन विंडोमध्ये उघडेल) अंतर्गत आर्थिक बक्षिसे देतो. आम्ही बाह्य योगदानकर्त्यांना या समस्या लवकर समोर आणण्यासाठी प्रोत्साहन देतो, जेणेकरून आम्ही त्या सोडवू शकू आणि आमच्या संरक्षण यंत्रणेला अधिक बळकट करू शकू.
आम्ही उत्पादनातील काही वैशिष्ट्यांचा वापर करताना येणाऱ्या जोखमींबद्दल वापरकर्त्यांना शिक्षित करतो, जेणेकरून ते माहितीपूर्ण निर्णय घेऊ शकतील. उदाहरणार्थ, ChatGPT ला इतर ॲप्सशी कनेक्ट करताना, कोणता डेटा ॲक्सेस केला जाऊ शकतो, तो कसा वापरला जाऊ शकतो, आणि तुमचा डेटा चोरण्याचा प्रयत्न करणारी साइट यांसारखे कोणते धोके उद्भवू शकतात हे आम्ही स्पष्ट करतो, तसेच अधिक सुरक्षित कसे राहावे हे जाणून घेण्यासाठीची लिंकही देतो. आम्ही संस्थांना त्यांच्या वर्कस्पेसमध्ये वापरकर्त्यांनी कोणती वैशिष्ट्ये सक्षम किंवा वापरू शकतात हे नियंत्रित करण्याची क्षमता देखील देतो.
प्रॉम्प्ट इंजेक्शन हे एक अत्याधुनिक सुरक्षा आव्हान आहे, जे आम्हाला अपेक्षित आहे की कालांतराने विकसित होत राहील. बुद्धिमत्ता आणि क्षमतेच्या नवीन पातळ्यांसाठी तंत्रज्ञान, समाज आणि जोखीम निवारण धोरण यांना सह-विकसित होणे आवश्यक आहे. आणि 2000 च्या दशकाच्या सुरुवातीच्या संगणक व्हायरसप्रमाणेच, प्रत्येकाने प्रॉम्प्ट इंजेक्शनचा धोका आणि जोखीम कशी हाताळायची हे समजून घेणे महत्त्वाचे आहे, जेणेकरून तुम्ही सर्वजण हे तंत्रज्ञान सुरक्षितपणे वापरून त्याचा फायदा घेणे शिकू शकू. सतर्क राहणे आणि सावधगिरी बाळगणे, तुमच्यावतीने काम करू शकणाऱ्या AI आणि एजंटिक वैशिष्ट्यांचा वापर करताना तुमचा डेटा अधिक सुरक्षित ठेवण्यास मदत करते.
जिथे शक्य असेल तिथे, एखाद्या कामासाठी आवश्यक असलेल्या संवेदनशील डेटा किंवा क्रेडेन्शियल्सपुरताच एजंटचा प्रवेश मर्यादित ठेवा. उदाहरणार्थ, सुट्टीसाठी संशोधन करताना ChatGPT Atlas मध्ये एजंट मोड वापरताना, जर एजंट फक्त संशोधन करत असेल आणि त्याला लॉग इन केलेला प्रवेश आवश्यक नसेल, तर “लॉग आउट” मोड वापरा.
आम्ही अनेकदा एजंट्सना काही परिणामकारक क्रिया जसे की खरेदी पूर्ण करणे किंवा ईमेल पाठवणे यापूर्वी तुमच्याकडून अंतिम पुष्टी मिळवण्यासाठी डिझाइन करतो. जेव्हा एखादा एजंट तुम्हाला एखादी कृती पुष्टी करण्यास सांगतो, तेव्हा कृती योग्य आहे का आणि त्या संदर्भात शेअर केली जाणारी माहिती योग्य आहे का हे काळजीपूर्वक तपासा.
जेव्हा एखादा एजंट तुमच्या बँकेसारख्या संवेदनशील साइटवर कार्यरत असतो, तेव्हा त्याचे काम करताना एजंटला पाहा. हे स्वत:च चालणाऱ्या कारचे निरीक्षण करण्यासारखे आहे, जणू तुम्ही स्टीयरिंग व्हीलवर हात ठेवून कार चालवत आहात.
एजंटला "माझ्या ईमेल्सचे पुनरावलोकन करा आणि आवश्यक ती क्रिया करा" यासारखी अत्यंत व्यापक सूचना देणे, संवेदनशील कृती करण्यापूर्वी तुमच्याशी तपासणी करण्यासाठी डिझाइन केलेले असले तरी, लपविलेल्या दुर्भावनापूर्ण सामग्रीला मॉडेलला दिशाभूल करणे सोपे करू शकते.
तुमच्या एजंटला विशिष्ट कार्ये करण्यास सांगणे अधिक सुरक्षित आहे, आणि ईमेलसारख्या इतर स्रोतांकडून संभाव्यतः हानिकारक सूचनांचे पालन करण्यासाठी त्याला विस्तृत स्वातंत्र्य न देणे. जरी यामुळे हल्ले होणार नाहीत याची खात्री देता येत नाही, तरी हल्लेखोरांना यशस्वी होणे अधिक कठीण बनते.
AI तंत्रज्ञान विकसित होत असताना, नवीन जोखीम आणि सुरक्षा उपाय उदयास येतील. सर्वोत्तम पद्धतींबद्दल जाणून घेण्यासाठी OpenAI आणि इतर विश्वासार्ह स्रोतांकडून अद्यतने अनुसरण करा.
प्रॉम्प्ट इंजेक्शन अजूनही एक अत्याधुनिक आणि आव्हानात्मक संशोधन समस्या आहे, आणि वेबवरील पारंपारिक घोटाळ्यांप्रमाणेच, आम्ही आमच्या कामाच्या सतततेची अपेक्षा करतो. जरी आम्हाला अद्याप हल्लेखोरांकडून या तंत्राचा लक्षणीय स्वीकार दिसलेला नाही, तरी आम्हाला अपेक्षा आहे की विरोधक AIs या हल्ल्यांना बळी पाडण्यासाठी महत्त्वपूर्ण वेळ आणि संसाधने खर्च करतील. आम्ही आमची उत्पादने सुरक्षित बनवण्यासाठी आणि या जोखमीविरुद्ध AI ची मजबूती वाढवण्यासाठी संशोधनामध्ये मोठ्या प्रमाणात गुंतवणूक करत आहोत. या क्षेत्रातील आमच्या सुरक्षा कामातील चालू असलेली प्रगती यासह, आम्हाला अधिक माहिती मिळत जाईल तसे आम्ही अपडेट्स शेअर करू. उदाहरणार्थ, आम्ही लवकरच प्रकाशित करणार असलेला एक अहवाल तयार करत आहोत, ज्यामध्ये तुमच्या AI चा इंटरनेटशी होणारा संवाद तुमच्या संभाषणातील माहिती प्रसारित करतो का हे आम्ही कसे शोधतो याबद्दल अधिक तपशील सामायिक केले जातील.
आमचे उद्दिष्ट आहे की या प्रणाली तुमच्या सर्वात विश्वासार्ह आणि सुरक्षा-जागरूक सहकारी किंवा मित्रासोबत काम करण्याइतक्या विश्वासार्ह आणि सुरक्षित बनवणे. आम्ही वास्तविक जगातील वापरातून शिकत राहू, सुरक्षितपणे पुनरावृत्ती करत राहू आणि तंत्रज्ञान प्रगत होत असताना आम्ही जे शिकलो ते प्रकाशित करत राहू.


