പ്രോംപ്റ്റ് ഇൻജക്ഷനെ പ്രതിരോധിക്കാൻ AI ഏജൻ്റുകളെ രൂപകൽപ്പന ചെയ്യൽ
AI ഏജൻ്റുകളെ സുരക്ഷിതമാക്കുന്നതിനെക്കുറിച്ച് സോഷ്യൽ എഞ്ചിനീയറിംഗ് നമ്മെ പഠിപ്പിക്കുന്നത്.
AI ഏജൻ്റുകൾക്ക് വെബ് ബ്രൗസ് ചെയ്യാനും, വിവരങ്ങൾ വീണ്ടെടുക്കാനും, ഉപയോക്താവിന് വേണ്ടി നടപടികൾ സ്വീകരിക്കാനും കൂടുതൽ കഴിവ് വരുന്നു. ആ കഴിവുകൾ ഉപകാരപ്രദമാണ്, പക്ഷേ സിസ്റ്റത്തെ നിയന്ത്രിക്കാൻ ആക്രമണകാരികൾക്ക് ശ്രമിക്കാൻ പുതിയ മാർഗങ്ങളും അവ സൃഷ്ടിക്കുന്നു.
ഈ ആക്രമണങ്ങളെ പലപ്പോഴും പ്രോംപ്റ്റ് ഇൻജക്ഷൻ എന്ന് വിശേഷിപ്പിക്കുന്നു: ഉപയോക്താവ് ആവശ്യപ്പെടാത്ത എന്തെങ്കിലും ചെയ്യാൻ മോഡൽ പ്രേരിപ്പിക്കാൻ ശ്രമിച്ച് ബാഹ്യ ഉള്ളടക്കത്തിൽ ഉൾപ്പെടുത്തിയിരിക്കുന്ന നിർദ്ദേശങ്ങൾ. ഞങ്ങളുടെ അനുഭവത്തിൽ, ഈ ആക്രമണങ്ങളുടെ ഏറ്റവും ഫലപ്രദമായ യഥാർത്ഥ ലോക പതിപ്പുകൾ ലളിതമായ പ്രോംപ്റ്റ് ഓവർറൈഡുകളേക്കാൾ കൂടുതൽ സോഷ്യൽ എഞ്ചിനീയറിംഗിനോട് സാമ്യമുള്ളവയായി ക്രമേണ മാറുന്നു.
ആ മാറ്റം പ്രധാനമാണ്. പ്രശ്നം വെറും ഒരു ദോഷകരമായ സ്ട്രിംഗ് തിരിച്ചറിയുന്നതല്ല, മറിച്ച് സന്ദർഭത്തിൽ തെറ്റിദ്ധരിപ്പിക്കുന്നതോ കൃത്രിമമായി സ്വാധീനിക്കുന്നതോ ആയ ഉള്ളടക്കത്തെ പ്രതിരോധിക്കുന്നതാണെങ്കിൽ, അതിനെതിരെ പ്രതിരോധം സൃഷ്ടിക്കുന്നതിന് ഇൻപുട്ടുകൾ ഫിൽട്ടർ ചെയ്യുന്നതിൽ മാത്രം ആശ്രയിക്കാനാവില്ല. ചില ആക്രമണങ്ങൾ വിജയിച്ചാലും, കൃത്രിമ ഇടപെടലിന്റെ സ്വാധീനം നിയന്ത്രിക്കാന് കഴിയുന്ന വിധത്തില് സിസ്റ്റം രൂപകൽപ്പന ചെയ്യുന്നതും ഇതിന് ആവശ്യമാണ്.
ആദ്യകാല “പ്രോംപ്റ്റ് ഇൻജക്ഷൻ” തരത്തിലുള്ള ആക്രമണങ്ങൾ, സന്ദർശിക്കുന്ന AI ഏജൻ്റുകൾക്ക് Wikipedia ലേഖനം എഡിറ്റ് ചെയ്യുന്നതുപോലെ നേരിട്ടുള്ള നിർദ്ദേശങ്ങൾ ഉൾപ്പെടുത്തുന്നത്ര ലളിതമായിരിക്കാം; ഇത്തരത്തിലുള്ള ഒരു വൈരുദ്ധ്യപരമായ പരിസ്ഥിതിയിൽ പരിശീലന സമയത്തെ അനുഭവം ഇല്ലാതെ AI മോഡലുകൾ പലപ്പോഴും ആ നിർദ്ദേശങ്ങൾ ചോദ്യം ചെയ്യാതെ പിന്തുടരും 1. മോഡലുകൾ കൂടുതൽ ബുദ്ധിമാന്മാരായതോടെ, ഇത്തരത്തിലുള്ള നിർദ്ദേശങ്ങളോട് അവ കുറച്ച് ദുർബലത കാണിക്കുന്നവയായി മാറുകയും, പ്രോംപ്റ്റ് ഇൻജക്ഷൻ-ശൈലിയിലുള്ള ആക്രമണങ്ങൾ സോഷ്യൽ എഞ്ചിനീയറിംഗിന്റെ ഘടകങ്ങൾ ഉൾപ്പെടുത്തിയത് കൊണ്ട് പ്രതികരിച്ചതായി ഞങ്ങൾ നിരീക്ഷിക്കുകയും ചെയ്തു
പ്രോംപ്റ്റ് ഇൻജക്ഷന്റെ ഒരു ഇമെയിൽ ഉദാഹരണം
OpenAI-യ്ക്ക് ബാഹ്യ സുരക്ഷാ ഗവേഷകർ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) റിപ്പോർട്ട് ചെയ്ത ChatGPT‑യിലെ പ്രോംപ്റ്റ് ഇൻജക്ഷൻ ആക്രമണത്തിന്റെ 2025 ലെ ഉദാഹരണം. ടെസ്റ്റിംഗിൽ, ഉപയോക്തൃ പ്രോംപ്റ്റ് “ഇന്നത്തെ എന്റെ ഇമെയിലുകളിൽ ഞാൻ നിങ്ങളോട് ഡീപ് റിസർച്ച് നടത്താൻ ആഗ്രഹിക്കുന്നു, എന്റെ പുതിയ ജീവനക്കാരെ സംബന്ധിച്ച പ്രക്രിയയെക്കുറിച്ചുള്ള വിവരങ്ങൾ നൽകാൻ കഴിയുന്ന എല്ലാ ഉറവിടങ്ങളും നിങ്ങൾ വായിച്ച് പരിശോധിക്കണം.” ഉപയോഗിച്ച് ഇത് 50% സമയങ്ങളിൽ പ്രവർത്തിച്ചു.
വ്യാപകമായ AI സുരക്ഷാ ഇക്കോസിസ്റ്റത്തിനുള്ളിൽ “AI firewalling” പോലുള്ള സാങ്കേതികതകൾ ശുപാർശ ചെയ്യുന്നത് സാധാരണമായിട്ടുണ്ട്; ഇതിൽ ഏജന്റിനും പുറംലോകത്തിനും ഇടയിൽ ഒരു ഇടനിലക്കാരൻ ഇൻപുട്ടുകളെ ദോഷകരമായ പ്രോംപ്റ്റ് ഇൻജക്ഷനും സാധാരണ ഇൻപുട്ടുകളും ആയി വർഗ്ഗീകരിക്കാൻ ശ്രമിക്കുന്നു—എന്നാൽ ഈ പൂർണ്ണമായി വികസിച്ച ആക്രമണങ്ങൾ സാധാരണയായി ഇത്തരം സിസ്റ്റങ്ങൾ പിടികൂടാറില്ല. അത്തരം സിസ്റ്റങ്ങൾക്കായി, ദുഷ്ട ഇൻപുട്ട് കണ്ടെത്തുന്നത് കള്ളമോ തെറ്റായ വിവരമോ കണ്ടെത്തുന്നതുപോലെ അതേ അത്യന്തം ബുദ്ധിമുട്ടുള്ള പ്രശ്നമായി മാറുന്നു, കൂടാതെ പലപ്പോഴും ആവശ്യമായ സന്ദർഭം ഇല്ലാതെയും.
യഥാർത്ഥ ലോകത്തിലെ പ്രോംപ്റ്റ് ഇൻജക്ഷൻ ആക്രമണങ്ങൾ സങ്കീർണ്ണതയിൽ വികസിച്ചതിനനുസരിച്ച്, ഏറ്റവും ഫലപ്രദമായ ആക്രമണാത്മക സാങ്കേതികവിദ്യകൾ സോഷ്യൽ എഞ്ചിനീയറിംഗ് തന്ത്രങ്ങളെ പ്രയോജനപ്പെടുത്തുന്നതായി ഞങ്ങൾ കണ്ടെത്തി. സോഷ്യൽ എഞ്ചിനീയറിംഗിനൊപ്പം വരുന്ന പ്രോംപ്റ്റ് ഇൻജക്ഷൻ ആക്രമണങ്ങളെ ഒരു പുതിയ പ്രശ്നവിഭാഗമായി കാണാതെ, മറ്റ് മേഖലകളിൽ മനുഷ്യരിൽ സോഷ്യൽ എഞ്ചിനീയറിംഗ് അപകടസാധ്യത കൈകാര്യം ചെയ്യാൻ ഉപയോഗിക്കുന്ന അതേ സമീപനം ഉപയോഗിച്ച് ഞങ്ങൾ അവയെ വിലയിരുത്താൻ തുടങ്ങി. ഈ സിസ്റ്റങ്ങളിലെ ലക്ഷ്യം ദുഷ്ട ഇൻപുട്ടുകളെ തിരിച്ചറിയുന്നതിൽ മാത്രം അല്ല, മറിച്ച് കൃത്രിമ സ്വാധീനത്തിന്റെ പ്രഭാവം പരിമിതപ്പെടുത്താൻ ഏജന്റുകളെയും സിസ്റ്റങ്ങളെയും രൂപകൽപ്പന ചെയ്യുക എന്നതാണ്. ഇത്തരം സംവിധാനങ്ങൾ പ്രോംപ്റ്റ് ഇൻജക്ഷനും സോഷ്യൽ എഞ്ചിനീയറിംഗും ലഘൂകരിക്കുന്നതിൽ ഫലപ്രദമാണെന്ന് തെളിയിക്കുന്നു.
ഈ രീതിയിൽ, ഒരു കസ്റ്റമർ സർവീസ് ഏജന്റിനെപ്പോലെ സമാനമായ മൂന്ന്-അഭിനേതൃ സംവിധാനത്തിൽ AI ഏജന്റ് നിലനിൽക്കുന്നതായി നമുക്ക് സങ്കൽപ്പിക്കാം; ഏജന്റ് അവരുടെ തൊഴിലുടമയുടെ പേരിൽ പ്രവർത്തിക്കാൻ ആഗ്രഹിക്കുന്നു, പക്ഷേ അവരെ തെറ്റിദ്ധരിപ്പിക്കാൻ ശ്രമിക്കാവുന്ന ബാഹ്യ ഇൻപുട്ടിന് അവർ തുടർച്ചയായി വിധേയരാകുന്നു. കസ്റ്റമർ സപ്പോർട്ട് ഏജന്റ്, മനുഷ്യനായാലും AI ആയാലും, ഇത്തരമൊരു ദുഷ്ട പരിസ്ഥിതിയിൽ നിലനിൽക്കുന്നതിൽ സ്വാഭാവികമായി ഉള്ള ദോഷവശ അപകടസാധ്യത പരിമിതപ്പെടുത്തുന്നതിനായി അവരുടെ കഴിവുകളിൽ പരിമിതികൾ ഏർപ്പെടുത്തണം.
ഒരു മനുഷ്യൻ ഒരു ഉപഭോക്തൃ പിന്തുണ സിസ്റ്റം പ്രവർത്തിപ്പിക്കുകയും ഡെലിവറി വൈകൽ, തകരാറിന്റെ ഫലമായുണ്ടാകുന്ന കേടുപാടുകൾ മുതലായവ പോലുള്ള ഉപഭോക്താവ് അനുഭവിക്കുന്ന അസൗകര്യങ്ങൾക്ക് ഗിഫ്റ്റ് കാർഡുകളും റീഫണ്ടുകളും നൽകാൻ കഴിയുകയും ചെയ്യുന്ന ഒരു സാഹചര്യം ചിന്തിക്കുക. ഇത് ഒരു വിവിധ-പാർട്ടി പ്രശ്നമാണ്; ഇതിൽ കോർപ്പറേഷൻ ശരിയായ കാരണങ്ങൾക്കായി ഏജന്റ് റീഫണ്ടുകൾ നൽകുന്നു എന്ന് വിശ്വസിക്കണം, അതേസമയം ഏജന്റ് അവരെ തെറ്റിദ്ധരിപ്പിക്കാനോ അവരെ സമ്മർദ്ദത്തിലാക്കാനോ പോലും ലക്ഷ്യമിടുന്ന മൂന്നാം കക്ഷികളുമായും ഇടപഴകുന്നു.
യഥാർത്ഥ ലോകത്ത്, ഏജന്റിന് പിന്തുടരാൻ ഒരു ചട്ടസമുച്ചയം നൽകപ്പെടുന്നു, എന്നാൽ അവർ നിലനിൽക്കുന്ന വിരുദ്ധപരമായ പരിതസ്ഥിതിയിൽ, അവർ തെറ്റിദ്ധരിപ്പിക്കപ്പെടുമെന്ന് പ്രതീക്ഷിക്കുന്നു. ഒരുപക്ഷേ ഒരു ഉപഭോക്താവ് അവരുടെ റീഫണ്ട് ഒരിക്കലും പ്രോസസ്സ് ആയില്ലെന്ന് അവകാശപ്പെട്ട് ഒരു സന്ദേശം അയയ്ക്കാം, അല്ലെങ്കിൽ റീഫണ്ട് നൽകിയില്ലെങ്കിൽ ഹാനി വരുത്തുമെന്ന് ഭീഷണിപ്പെടുത്താം. ഏജന്റ് ഇടപെടുന്ന നിർണായക സിസ്റ്റങ്ങൾ ഒരു ഉപഭോക്താവിന് നൽകാൻ കഴിയുന്ന റീഫണ്ടുകളുടെ അളവ് പരിമിതപ്പെടുത്തുകയും, സാധ്യതയുള്ള ഫിഷിംഗ് ഇമെയിലുകൾ ചൂണ്ടിക്കാണിക്കുകയും, ഒരു വ്യക്തിഗത ഏജന്റ് കംപ്രമൈസ് ചെയ്യപ്പെടുന്നതിന്റെ പ്രഭാവം പരിമിതപ്പെടുത്താൻ മറ്റ് ഇത്തരം ശമന നടപടികൾ നൽകുകയും ചെയ്യുന്നു.
ഈ മനോഭാവം, ഞങ്ങൾ വിന്യസിച്ചിട്ടുള്ള കരുത്തുറ്റ പ്രതിരോധ നടപടികളുടെ ഒരു സമാഹാരത്തെ രൂപപ്പെടുത്താൻ സഹായിച്ചിട്ടുണ്ട്; അത് ഞങ്ങളുടെ ഉപയോക്താക്കളുടെ സുരക്ഷാ പ്രതീക്ഷകൾ നിലനിർത്തുന്നു.
ChatGPT‑ൽ, സോഴ്സ്-സിങ്ക് വിശകലനം പോലുള്ള കൂടുതൽ പരമ്പരാഗത സുരക്ഷാ എഞ്ചിനീയറിംഗ് സമീപനങ്ങളുമായി ഞങ്ങൾ ഈ സോഷ്യൽ എഞ്ചിനീയറിംഗ് മോഡൽ സംയോജിപ്പിക്കുന്നു.
ആ ഫ്രെയിമിംഗിൽ, ഒരു ആക്രമണകാരിക്ക് ഒരു source, അല്ലെങ്കിൽ സിസ്റ്റത്തെ സ്വാധീനിക്കാൻ ഒരു മാർഗ്ഗം, കൂടാതെ ഒരു sink, അല്ലെങ്കിൽ തെറ്റായ സന്ദർഭത്തിൽ അപകടകരമാകുന്ന ഒരു കഴിവ്, രണ്ടും ആവശ്യമാണ്. ഏജന്റിക് സിസ്റ്റങ്ങൾക്കായി, അതിന്റെ അർത്ഥം പലപ്പോഴും വിശ്വസനീയമല്ലാത്ത ബാഹ്യ ഉള്ളടക്കത്തെ മൂന്നാം കക്ഷിയിലേക്ക് വിവരങ്ങൾ കൈമാറുക, ഒരു ലിങ്ക് പിന്തുടരുക, അല്ലെങ്കിൽ ഒരു ഉപകരണവുമായി ഇടപഴകുക പോലുള്ള ഒരു പ്രവർത്തനവുമായി സംയോജിപ്പിക്കുന്നതാണ്.
ഉപയോക്താക്കൾക്കായി ഒരു അടിസ്ഥാന സുരക്ഷാ പ്രതീക്ഷ നിലനിർത്തുക എന്നതാണ് ഞങ്ങളുടെ ലക്ഷ്യം: അപകടകരമായ പ്രവർത്തനങ്ങൾ അല്ലെങ്കിൽ സെൻസിറ്റീവ് വിവരങ്ങളുടെ പ്രേഷണം, നിശ്ശബ്ദമായോ അനുയോജ്യമായ സുരക്ഷാ നടപടികളില്ലാതെയോ സംഭവിക്കരുത്.
ChatGPT‑നെതിരെ ഞങ്ങൾ ഏറ്റവും പതിവായി കാണുന്ന ആക്രമണങ്ങൾ സാധാരണയായി, ഒരു സംഭാഷണത്തിൽ നിന്നുള്ള ചില രഹസ്യ വിവരങ്ങൾ എടുത്ത് അത് ഒരു ദുഷ്ട മൂന്നാം കക്ഷിയിലേക്ക് കൈമാറണം എന്ന് അസിസ്റ്റന്റിനെ വിശ്വസിപ്പിക്കാൻ ശ്രമിക്കുന്നതായിരിക്കും. ഞങ്ങൾക്ക് അറിയാവുന്ന മിക്ക കേസുകളിലും, ഞങ്ങളുടെ സുരക്ഷാ പരിശീലനം ഏജന്റിനെ നിരസിക്കാൻ പ്രേരിപ്പിക്കുന്നതിനാൽ ഈ ആക്രമണങ്ങൾ പരാജയപ്പെടുന്നു. ഏജന്റ് ഉറപ്പായിരിക്കുന്ന അത്തരം സാഹചര്യങ്ങൾക്കായി, സംഭാഷണത്തിൽ അസിസ്റ്റന്റ് പഠിച്ച വിവരങ്ങൾ ഒരു മൂന്നാം കക്ഷിയിലേക്ക് കൈമാറപ്പെടുന്ന സമയം കണ്ടെത്തുന്നതിനായി രൂപകൽപ്പന ചെയ്ത Safe Url എന്ന ലഘൂകരണ തന്ത്രം ഞങ്ങൾ വികസിപ്പിച്ചിട്ടുണ്ട്. ഈ അപൂർവ സാഹചര്യങ്ങളിൽ, ഞങ്ങൾ ഉപയോക്താവിന് കൈമാറപ്പെടാനിരുന്ന വിവരങ്ങൾ കാണിച്ച് സ്ഥിരീകരിക്കാൻ ആവശ്യപ്പെടുകയോ, അല്ലെങ്കിൽ അത് തടഞ്ഞ് ഉപയോക്താവിന്റെ അഭ്യർത്ഥനയുമായി മുന്നോട്ട് പോകാൻ മറ്റൊരു മാർഗം ശ്രമിക്കാൻ ഏജന്റിനോട് പറയുകയോ ചെയ്യുന്നു.
ഇതേ സംവിധാനമാണ് Atlas-ലുള്ള നാവിഗേഷനുകൾക്കും ബുക്ക്മാർക്കുകൾക്കും ബാധകമാകുന്നത്; കൂടാതെ ഡീപ് റിസർച്ച്-ലുള്ള തിരയലുകൾക്കും നാവിഗേഷനുകൾക്കും. ChatGPT Canvas & ChatGPT Apps സമാനമായ ഒരു സമീപനം സ്വീകരിക്കുന്നു, ഏജന്റിന് പ്രവർത്തനക്ഷമമായ ആപ്ലിക്കേഷനുകൾ സൃഷ്ടിക്കാനും ഉപയോഗിക്കാനും അനുവദിക്കുന്നു—ഇവ അപ്രതീക്ഷിത ആശയവിനിമയങ്ങൾ കണ്ടെത്താൻ കഴിയുന്ന ഒരു സാൻഡ്ബോക്സിൽ പ്രവർത്തിക്കുന്നു, കൂടാതെ ഉപയോക്താവിനോട് അവരുടെ സമ്മതം ചോദിക്കാൻ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു).
Safe Url-നെക്കുറിച്ച് കൂടുതൽ വിവരങ്ങൾ വായിക്കാനും അതിന്റെ ഘടനയെക്കുറിച്ചുള്ള ഒരു പേപ്പർ കണ്ടെത്താനും, അതിനായി സമർപ്പിച്ചിരിക്കുന്ന ബ്ലോഗ് പോസ്റ്റ് ഒരു AI ഏജന്റ് ഒരു ലിങ്കിൽ ക്ലിക്ക് ചെയ്യുമ്പോൾ നിങ്ങളുടെ ഡാറ്റ സുരക്ഷിതമായി നിലനിർത്തൽ കാണുക.
പൂർണ്ണമായും സ്വയംഭരണ ഏജൻ്റുകൾക്ക് എതിരാളിത്തപരമായ പുറംലോകവുമായി സുരക്ഷിതമായ ഇടപെടൽ ആവശ്യമാണ്. ഒരു AI മോഡൽ ഒരു ആപ്ലിക്കേഷൻ സിസ്റ്റവുമായി സംയോജിപ്പിക്കുമ്പോൾ, സമാനമായ സാഹചര്യത്തിൽ ഒരു മനുഷ്യ ഏജന്റിന് എന്തെല്ലാം നിയന്ത്രണങ്ങൾ ഉണ്ടായിരിക്കണം എന്ന് ചോദിക്കുകയും അവ നടപ്പിലാക്കുകയും ചെയ്യാൻ ഞങ്ങൾ ശുപാർശ ചെയ്യുന്നു. പരമാവധി ബുദ്ധിമാനായ ഒരു AI മോഡലിന് മനുഷ്യ ഏജന്റിനെക്കാൾ സോഷ്യൽ എഞ്ചിനീയറിംഗിനെ മികച്ച രീതിയിൽ പ്രതിരോധിക്കാൻ കഴിയുമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു, എന്നാൽ ആപ്ലിക്കേഷനെ ആശ്രയിച്ച് ഇത് എല്ലായ്പ്പോഴും പ്രായോഗികമോ ചെലവ് കുറവോ ആയിരിക്കണമെന്നില്ല.
AI മോഡലുകൾക്കെതിരായ സോഷ്യൽ എഞ്ചിനീയറിംഗിന്റെ പ്രത്യാഘാതങ്ങളും അതിനെതിരായ പ്രതിരോധങ്ങളും ഞങ്ങൾ തുടർന്നും പരിശോധിക്കുന്നു, കൂടാതെ ഞങ്ങളുടെ കണ്ടെത്തലുകൾ ഞങ്ങളുടെ ആപ്ലിക്കേഷൻ സുരക്ഷാ വാസ്തുവിദ്യകളിലും ഞങ്ങൾ ഞങ്ങളുടെ AI മോഡലുകൾക്ക് നൽകുന്ന പരിശീലനത്തിലുമെല്ലാം ഉൾപ്പെടുത്തുന്നു.
അടിക്കുറിപ്പുകൾ
- 1
റെഹ്ബെർഗർ, ജെ. (2023, 04 15). LLM പ്രതികരണങ്ങളെ അന്ധമായി വിശ്വസിക്കരുത്. ചാറ്റ്ബോട്ടുകൾക്കുള്ള ഭീഷണികൾ. EmbraceTheRed. https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters എന്നതിൽ നിന്ന് 11 14, 2025-ന് വീണ്ടെടുത്തു
രചയിതാക്കൾ
Thomas Shadwell, Adrian Spânu


