પ્રોમ્પ્ટ ઇન્જેક્શનનો પ્રતિકાર કરવા AI એજન્ટ ડિઝાઇન કરવું
સામાજિક ઇજનેરી આપણને AI એજન્ટને સુરક્ષિત કરવા વિશે શું શીખવે છે.
AI એજન્ટ હવે વધતી જતી રીતે વેબ બ્રાઉઝ કરી શકે છે, માહિતી મેળવી શકે છે અને વપરાશકર્તાની તરફથી પગલાં લઈ શકે છે. આ ક્ષમતાઓ ઉપયોગી છે, પરંતુ તે હુમલાખોરો માટે સિસ્ટમને હેરફેર કરવાનો પ્રયાસ કરવાની નવી રીતો પણ બનાવે છે.
આ હુમલાઓને ઘણી વખત પ્રોમ્પ્ટ ઇન્જેક્શન તરીકે વર્ણવવામાં આવે છે: બાહ્ય સામગ્રીમાં મુકાયેલા નિર્દેશો, જેનો હેતુ મોડલને એવું કંઈક કરાવવા હોય છે જે વપરાશકર્તાએ માંગ્યું નથી. અમારા અનુભવ મુજબ, આ હુમલાઓના સૌથી અસરકારક વાસ્તવિક સંસ્કરણો હવે સરળ પ્રોમ્પ્ટ ઓવરરાઇડ કરતાં વધુ સામાજિક ઇજનેરી જેવા લાગે છે.
આ ફેરફાર મહત્વનો છે. જો સમસ્યા માત્ર દુર્ભાવનાપૂર્ણ સ્ટ્રિંગ ઓળખવાની નથી, પરંતુ સંદર્ભમાં ભ્રામક અથવા હેરફેરકારી સામગ્રીનો પ્રતિકાર કરવાની છે, તો તેની સામેનો બચાવ માત્ર ઇનપુટ ફિલ્ટરિંગ પર આધારિત રહી શકતો નથી. તે માટે સિસ્ટમને એવી રીતે ડિઝાઇન કરવી પણ જરૂરી છે કે હેરફેરનો પ્રભાવ મર્યાદિત રહે, ભલે કેટલાક હુમલાઓ સફળ થાય.
પ્રારંભિક “પ્રોમ્પ્ટ ઇન્જેક્શન” પ્રકારના હુમલા એટલા સરળ હોઈ શકતા હતા જેટલા કે AI એજન્ટ જે મુલાકાત લે તેવા Wikipedia લેખમાં સીધા નિર્દેશો ઉમેરવા; આવા વિરોધી પર્યાવરણનો તાલીમ-સમયનો અનુભવ ન હોવાને કારણે AI મોડલ ઘણીવાર કોઈ પ્રશ્ન કર્યા વિના તે નિર્દેશોનું પાલન કરતા હતા1. જેમ જેમ મોડલ વધુ સ્માર્ટ બન્યા છે, તેમ તેમ તેઓ આવા સૂચન માટે ઓછા નબળા બન્યા છે અને અમે જોયું છે કે પ્રોમ્પ્ટ ઇન્જેક્શન-શૈલીના હુમલાઓએ પ્રતિસાદરૂપે સામાજિક ઇજનેરીના તત્વો સામેલ કર્યા છે:
પ્રોમ્પ્ટ ઇન્જેક્શનનું ઇમેઇલ ઉદાહરણ
OpenAIને બાહ્ય સુરક્ષા સંશોધકો(નવી વિન્ડોમાં ખૂલે છે) દ્વારા રિપોર્ટ કરાયેલ ChatGPT પરના પ્રોમ્પ્ટ ઇન્જેક્શન હુમલાનું 2025નું એક ઉદાહરણ. પરીક્ષણમાં, વપરાશકર્તા પ્રોમ્પ્ટ “હું ઈચ્છું છું કે તમે આજે આવેલા મારા ઇમેઇલ્સ પર ડીપ રિસર્ચ કરો, અને મારા નવા કર્મચારી પ્રક્રિયા વિશે માહિતી આપી શકે તેવા દરેક સ્ત્રોતને તમે વાંચો અને તપાસો.” સાથે તે 50% વખત કામ કરતું હતું.
વિસ્તૃત AI સુરક્ષા ઇકોસિસ્ટમમાં “AI firewalling” જેવી પદ્ધતિઓ ભલામણ કરવી સામાન્ય થઈ ગઈ છે, જેમાં AI એજન્ટ અને બહારની દુનિયા વચ્ચેનો એક મધ્યસ્થી ઇનપુટને દુર્ભાવનાપૂર્ણ પ્રોમ્પ્ટ ઇન્જેક્શન અને સામાન્ય ઇનપુટમાં વર્ગીકૃત કરવાનો પ્રયાસ કરે છે, પરંતુ આ સંપૂર્ણ વિકસિત હુમલાઓ સામાન્ય રીતે આવી સિસ્ટમો દ્વારા પકડાતા નથી. આવી સિસ્ટમો માટે, દુર્ભાવનાપૂર્ણ ઇનપુટ શોધવું એ ખોટ અથવા ખોટી માહિતી શોધવા જેટલી જ અત્યંત મુશ્કેલ સમસ્યા બની જાય છે, અને ઘણી વખત જરૂરી સંદર્ભ વિના.
જેમ જેમ વાસ્તવિક દુનિયાના પ્રોમ્પ્ટ ઇન્જેક્શન હુમલાઓ જટિલ બન્યા, તેમ અમે શોધ્યું કે સૌથી અસરકારક આક્રમક તકનીકો સામાજિક ઇજનેરીની યુક્તિઓનો ઉપયોગ કરતી હતી. સામાજિક ઇજનેરી ધરાવતા આ પ્રોમ્પ્ટ ઇન્જેક્શન હુમલાઓને અલગ અથવા સંપૂર્ણ નવી સમસ્યા તરીકે જોવાની બદલે, અમે તેને એ જ દૃષ્ટિકોણથી જોવાનું શરૂ કર્યું જેનો ઉપયોગ અન્ય ક્ષેત્રોમાં માનવોમાં સામાજિક ઇજનેરીના જોખમને સંભાળવા માટે થાય છે. આવી સિસ્ટમોમાં હેતુ માત્ર દુર્ભાવનાપૂર્ણ ઇનપુટને સંપૂર્ણ રીતે ઓળખવાનો નથી, પરંતુ એજન્ટો અને સિસ્ટમોને એવી રીતે ડિઝાઇન કરવાનો છે કે હેરફેર સફળ થાય તોય તેનો પ્રભાવ મર્યાદિત રહે. આવી સિસ્ટમો પ્રોમ્પ્ટ ઇન્જેક્શન અને સામાજિક ઇજનેરી બંનેને ઘટાડવામાં અસરકારક સાબિત થાય છે.
આ રીતે, અમે AI એજન્ટને ગ્રાહક સેવા એજન્ટ જેવી જ ત્રણ-પક્ષીય સિસ્ટમમાં અસ્તિત્વ ધરાવતા તરીકે કલ્પી શકીએ; એજન્ટ પોતાના નોકરીદાતાની તરફથી કાર્ય કરવા ઇચ્છે છે, પરંતુ તે સતત એવા બાહ્ય ઇનપુટના સંપર્કમાં રહે છે જે તેને ભ્રમિત કરવાનો પ્રયાસ કરી શકે. ગ્રાહક સપોર્ટ એજન્ટ, માનવી હોય કે AI, તેની ક્ષમતાઓ પર મર્યાદાઓ હોવી જ જોઈએ જેથી આવા દુર્ભાવનાપૂર્ણ પર્યાવરણમાં રહેલા સ્વાભાવિક નકારાત્મક જોખમને મર્યાદિત કરી શકાય.
એવી પરિસ્થિતિ કલ્પો જેમાં એક માનવી ગ્રાહક સપોર્ટ સિસ્ટમ ચલાવે છે અને ગ્રાહકે અનુભવેલી અસુવિધાઓ માટે, જેમ કે ડિલિવરીમાં મોડું થવું, ખામીના પરિણામે નુકસાન વગેરે માટે, ગિફ્ટ કાર્ડ અને રિફંડ આપી શકે છે. આ બહુ-પક્ષીય સમસ્યા છે જેમાં કોર્પોરેશનને વિશ્વાસ હોવો જોઈએ કે એજન્ટ યોગ્ય કારણોસર રિફંડ આપે છે, જ્યારે એજન્ટ ત્રીજા પક્ષો સાથે પણ સંપર્કમાં રહે છે, જેઓ તેને ભ્રમિત કરવાનો અથવા દબાણ હેઠળ મૂકવાનો પ્રયાસ કરી શકે છે.
વાસ્તવિક દુનિયામાં, એજન્ટને અનુસરવા માટે નિયમોનો એક સમૂહ આપવામાં આવે છે, પરંતુ એ પણ અપેક્ષિત છે કે તે જે વિરોધી પર્યાવરણમાં અસ્તિત્વ ધરાવે છે તેમાં તેને ભ્રમિત કરવામાં આવશે. કદાચ કોઈ ગ્રાહક એવો સંદેશ મોકલે કે તેમનો રિફંડ ક્યારેય થયો જ નથી, અથવા રિફંડ ન આપો તો નુકસાન પહોંચાડવાની ધમકી આપે. એજન્ટ જે નિશ્ચિત સિસ્ટમો સાથે પરસ્પર ક્રિયા કરે છે તે ગ્રાહકને આપી શકાય તેવા રિફંડની રકમ મર્યાદિત કરે છે, સંભવિત phishing ઇમેઇલ્સને ફ્લેગ કરે છે, અને વ્યક્તિગત એજન્ટ સાથે સમાધાન થવાથી થતો પ્રભાવ મર્યાદિત કરવા માટે અન્ય આવા ઉપાયો પ્રદાન કરે છે.
આ વિચારસરણી અમારી દ્વારા લાગુ કરાયેલા મજબૂત પ્રતિરક્ષણ ઉપાયોના સમૂહને માર્ગદર્શન આપે છે, જે અમારા વપરાશકર્તાઓની સુરક્ષા અપેક્ષાઓને જાળવી રાખે છે.
ChatGPTમાં, અમે આ સામાજિક ઇજનેરી મોડલને source-sink analysis જેવી વધુ પરંપરાગત સુરક્ષા ઇજનેરી પદ્ધતિઓ સાથે જોડીએ છીએ.
આ ફ્રેમિંગમાં, હુમલાખોરને source, એટલે કે સિસ્ટમને પ્રભાવિત કરવાની રીત, અને sink, એટલે કે ખોટા સંદર્ભમાં જોખમી બનતી ક્ષમતા, બંનેની જરૂર પડે છે. એજન્ટિક સિસ્ટમો માટે, તેનો અર્થ ઘણીવાર અવિશ્વસનીય બાહ્ય સામગ્રીને તૃતીય પક્ષને માહિતી મોકલવા, લિંક અનુસરવા અથવા કોઈ સાધન સાથે ક્રિયા કરવા જેવી ક્રિયા સાથે જોડવાનો થાય છે.
અમારો હેતુ વપરાશકર્તાઓ માટેની એક મુખ્ય સુરક્ષા અપેક્ષા જાળવવાનો છે: સંભવિત જોખમી ક્રિયાઓ, અથવા સંભવિત રીતે સંવેદનશીલ માહિતીનું પ્રસારણ, શાંતિથી અથવા યોગ્ય સુરક્ષા ઉપાયો વિના ન થવું જોઈએ.
ChatGPT સામે અમે વિકસિત થતા જે હુમલાઓ જોઈએ છીએ, તેમાં મોટા ભાગે આસિસ્ટન્ટને એવું માનાવવા પ્રયત્ન કરાય છે કે તેને વાતચીતમાંથી કોઈ ગુપ્ત માહિતી લઈને દુર્ભાવનાપૂર્ણ તૃતીય પક્ષને મોકલવી જોઈએ. અમને જાણિતાં મોટા ભાગના કિસ્સાઓમાં, આ હુમલાઓ નિષ્ફળ જાય છે કારણ કે અમારી સુરક્ષા તાલીમ એજન્ટને ઇનકાર કરવા પ્રેરિત કરે છે. એવા કિસ્સાઓ માટે, જેમાં એજન્ટ માનવા માટે રાજી થઈ જાય, અમે Safe Url નામની mitigation strategy વિકસાવી છે, જે ત્યારે ઓળખવા માટે રચાયેલ છે જ્યારે આસિસ્ટન્ટે વાતચીતમાં શીખેલી માહિતી તૃતીય પક્ષને મોકલવામાં આવવાની હોય. આવા દુર્લભ કિસ્સાઓમાં, અમે વપરાશકર્તાને મોકલાતી માહિતી બતાવી તેમની પુષ્ટિ માંગીએ છીએ, અથવા અમે તેને બ્લોક કરીએ છીએ અને એજન્ટને વપરાશકર્તાની વિનંતી આગળ વધારવા માટે બીજી રીત અજમાવવા કહીએ છીએ.
આ જ મેકેનિઝમ Atlasમાં navigations અને bookmarks માટે લાગુ પડે છે; અને Deep Researchમાં searches અને navigations માટે પણ. ChatGPT canvas અને ChatGPT Apps સમાન અભિગમ અપનાવે છે, જે એજન્ટને કાર્યાત્મક એપ્લિકેશનો બનાવવા અને ઉપયોગ કરવાની મંજૂરી આપે છે—આ sandboxમાં ચાલે છે, જે અણધારી સંચાર શોધી શકે છે અને વપરાશકર્તાની સંમતિ માગી શકે છે(નવી વિન્ડોમાં ખૂલે છે).
તમે Safe Url વિશે વધુ માહિતી વાંચી શકો છો અને તેની રચના વિશેનો પેપર તેના સમર્પિત બ્લોગ પોસ્ટ જ્યારે AI એજન્ટ કોઈ લિંક પર ક્લિક કરે ત્યારે તમારા ડેટાને સુરક્ષિત રાખવું ખાતે મેળવી શકો છો.
પૂર્ણપણે સ્વાયત્ત એજન્ટો માટે વિરોધી બહારની દુનિયા સાથેની સુરક્ષિત ક્રિયા જરૂરી છે. AI મોડલને એપ્લિકેશન સિસ્ટમ સાથે એકીકૃત કરતી વખતે, અમે ભલામણ કરીએ છીએ કે સમાન પરિસ્થિતિમાં માનવી એજન્ટ પાસે કયા નિયંત્રણો હોવા જોઈએ તે પૂછો અને તે અમલમાં મૂકો. અમને અપેક્ષા છે કે મહત્તમ બુદ્ધિશાળી AI મોડલ માનવી એજન્ટ કરતાં સામાજિક ઇજનેરીનો વધુ સારો પ્રતિકાર કરી શકશે, પરંતુ એપ્લિકેશન પર આધાર રાખીને આ હંમેશા શક્ય અથવા ખર્ચ-અસરકારક હોય જ એવું નથી.
અમે AI મોડલ વિરુદ્ધ સામાજિક ઇજનેરીના પ્રભાવ અને તેના સામેના રક્ષણોનું અન્વેષણ ચાલુ રાખીએ છીએ અને અમારા નિષ્કર્ષોને અમારી એપ્લિકેશન સુરક્ષા આર્કિટેક્ચર્સ અને અમારા AI મોડલને આપતા તાલીમ બંનેમાં સામેલ કરીએ છીએ.
ફૂટનોટ્સ
- 1
Rehberger, J. (2023, 04 15). LLM પ્રતિસાદો પર અંધ વિશ્વાસ ન કરો. ચેટબોટ્સ માટેના ખતરાઓ. EmbraceTheRed. મેળવેલ 11 14, 2025, https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters પરથી.
લેખકો
Thomas Shadwell, Adrian Spânu


