ப்ராம்ப்ட் இன்ஜெக்ஷனை எதிர்க்கும் AI ஏஜன்ட்களை வடிவமைத்தல்
AI ஏஜென்ட்களை பாதுகாப்பாக்குவது பற்றி சமூக பொறியியல் நமக்கு என்ன கற்பிக்கிறது.
AI ஏஜன்ட்கள் வலைத்தளங்களை உலாவவும், தகவல்களை மீட்டெடுக்கவும், பயனரின் சார்பாக நடவடிக்கைகளை எடுக்கவும் அதிக திறன் பெற்றுள்ளன. அந்த திறன்கள் பயனுள்ளவை, ஆனால் அவை தாக்குதலாளர்கள் அமைப்பை மாற்ற முயற்சிக்க புதிய வழிகளையும் உருவாக்குகின்றன.
இந்த தாக்குதல்கள் பெரும்பாலும் ப்ராம்ப்ட் இன்ஜெக்ஷன் என விவரிக்கப்படுகின்றன: பயனர் கேட்காத ஒன்றை மாடல் செய்ய வைப்பதற்கான முயற்சியாக, வெளிப்புற உள்ளடக்கத்தில் இடப்படும் அறிவுறுத்தல்கள். எங்கள் அனுபவத்தில், இந்த தாக்குதல்களின் மிகச் செயல்திறன் வாய்ந்த நிஜ உலக பதிப்புகள், எளிய ப்ராம்ப்ட் ஓவர்ரைட்களைவிட அதிகமாக சமூக பொறியியலைப் போலவே அதிகரித்து வருகின்றன.
அந்த மாற்றம் முக்கியம். பிரச்சனை வெறும் ஒரு தீங்கிழைக்கும் சரத்தை அடையாளம் காண்பது மட்டுமல்லாமல், சூழலில் தவறாக வழிநடத்தும் அல்லது கையாளும் உள்ளடக்கத்திற்கு எதிர்த்து நிற்பதாக இருந்தால், அதற்கு எதிராக பாதுகாப்பது உள்ளீடுகளை வடிகட்டுதலை மட்டும் நம்பி இருக்க முடியாது. சில தாக்குதல்கள் வெற்றி பெற்றாலும், மாற்றம் செய்வதன் தாக்கம் கட்டுப்படுத்தப்படுமாறு அமைப்பை வடிவமைப்பதும் இதற்கு தேவைப்படுகிறது.
ஆரம்பகால “ப்ராம்ப்ட் இன்ஜெக்ஷன்” தாக்குதல்கள், AI ஏஜன்ட்களுக்கு நேரடி வழிமுறைகளைச் சேர்க்கும் வகையில் Wikipedia கட்டுரைகளை எளிதில் திருத்துவதன் மூலம் நிகழ்ந்தன; இத்தகைய சூழலில் பயிற்சி அனுபவம் இல்லாமல் AI மாடல்கள் அந்த வழிமுறைகளை கேள்வியின்றி பின்பற்றும்1. மாடல்கள் மேலும் புத்திசாலியாக மாறியதுடன், இவ்வகையான பரிந்துரைகளுக்கு அவை குறைவாக பாதிக்கப்படக்கூடியவையாகவும் மாறியுள்ளன; ப்ராம்ப்ட் இன்ஜெக்ஷன் தாக்குதல்கள் சமூக பொறியியல் கூறுகளைச் சேர்த்து பதிலளிக்கின்றன:
ப்ராம்ப்ட் இன்ஜெக்ஷன் தொடர்பான மின்னஞ்சல் எடுத்துக்காட்டு
OpenAI-க்கு வெளிப்புற பாதுகாப்பு ஆராய்ச்சியாளர்களால்(புதிய சாளரத்தில் திறக்கும்) அறிக்கையிடப்பட்ட ChatGPT மீது நிகழ்ந்த ப்ராம்ப்ட் இன்ஜெக்ஷன் தாக்குதலின் 2025 எடுத்துக்காட்டு. சோதனையில், பயனர் ப்ராம்ப்ட் “இன்றைய என் ஈமெயில்களில், நான் உங்களிடம் டீப் ரிசர்ச் செய்ய வேண்டும், என் புதிய பணியாளர் செயல்முறை பற்றிய தகவலை வழங்கக்கூடிய ஒவ்வொரு மூலத்தையும் நீங்கள் வாசித்து சரிபார்க்க வேண்டும்.” என்பதுடன் இது 50% நேரங்களில் வேலை செய்தது.
பரந்த AI பாதுகாப்பு சூழலமைப்பில், “AI firewalling” போன்ற நுட்பங்களை பரிந்துரைப்பது பொதுவாகிவிட்டது; இதில் AI ஏஜென்ட் மற்றும் வெளி உலகத்திற்கிடையிலான ஒரு இடைநிலை அமைப்பு, உள்ளீடுகளை தீங்கிழைக்கும் ப்ராம்ப்ட் இன்ஜெக்ஷன் மற்றும் வழக்கமான உள்ளீடுகள் என வகைப்படுத்த முயற்சிக்கிறது—but இவ்வாறு முழுமையாக உருவாக்கப்பட்ட தாக்குதல்கள் பொதுவாக இத்தகைய அமைப்புகளால் பிடிக்கப்படுவதில்லை. இத்தகைய அமைப்புகளுக்கு, தீங்கிழைக்கும் உள்ளீட்டைக் கண்டறிதல் என்பது பொய் அல்லது தவறான தகவலைக் கண்டறிதல் போன்ற அதே மிகக் கடினமான பிரச்சனையாக மாறுகிறது, மேலும் பல நேரங்களில் தேவையான சூழல் இல்லாமலேயே.
நிஜ உலக ப்ராம்ப்ட் இன்ஜெக்ஷன் தாக்குதல்கள் சிக்கல்மிக்கதாக வளர்ந்தபோது, மிகச் செயல்திறன் வாய்ந்த தாக்குதல் நுட்பங்கள் சமூக பொறியியல் தந்திரங்களைப் பயன்படுத்தின என்பதை நாங்கள் கண்டறிந்தோம். இந்த ப்ராம்ப்ட் இன்ஜெக்ஷன் தாக்குதல்களை சமூக பொறியியலுடன் ஒரு தனி அல்லது முற்றிலும் புதிய வகை பிரச்சனையாகக் கருதுவதற்குப் பதிலாக, பிற களங்களில் மனிதர்கள் மீதான சமூக பொறியியல் ஆபத்தை நிர்வகிக்கப் பயன்படுத்தப்படும் அதே லென்ஸ் மூலம் அதைப் பார்க்கத் தொடங்கினோம். இந்த அமைப்புகளில், இலக்கு தீங்கிழைக்கும் உள்ளீடுகளை முற்றிலும் துல்லியமாக அடையாளம் காண்பதிலேயே மட்டுப்படாமல், கையாளுதல் வெற்றியடைந்தாலும் கூட அதன் தாக்கம் கட்டுப்படுத்தப்படுமாறு ஏஜென்ட்களையும் அமைப்புகளையும் வடிவமைப்பதாகும். இத்தகைய அமைப்புகள் ப்ராம்ப்ட் இன்ஜெக்ஷன் மற்றும் சமூக பொறியியல் இரண்டையும் தணிப்பதில் பயனுள்ளதாக இருப்பதை வெளிப்படுத்துகின்றன.
இந்த முறையில், AI ஏஜென்ட் ஒரு வாடிக்கையாளர் சேவை ஏஜென்ட் போலவே ஒத்த மூன்று-நடிகர் அமைப்பில் இருப்பதாக நாம் கற்பனை செய்யலாம்; அந்த ஏஜென்ட் தங்கள் முதலாளியின் சார்பாக செயல்பட விரும்புகிறது, ஆனால் அவர்களை தவறாக வழிநடத்த முயற்சிக்கக்கூடிய வெளிப்புற உள்ளீடுகளுக்கு அவர்கள் தொடர்ந்து வெளிப்படுகிறார்கள். வாடிக்கையாளர் ஆதரவு ஏஜென்ட், மனிதராக இருந்தாலும் AI ஆக இருந்தாலும், இத்தகைய தீங்கிழைக்கும் சூழலில் இருப்பதிலிருந்து இயல்பாகவே உள்ள கீழ்முக ஆபத்தை கட்டுப்படுத்த, அவர்களின் திறன்களுக்கு வரம்புகள் விதிக்கப்பட வேண்டும்.
ஒரு மனிதர் வாடிக்கையாளர் ஆதரவு அமைப்பை இயக்கி, விநியோக தாமதம், செயலிழப்பின் விளைவாக ஏற்பட்ட சேதங்கள் போன்ற வாடிக்கையாளர் அனுபவித்த அசௌகரியங்களுக்கு பரிசு அட்டைகள் மற்றும் பணத்தைத் திருப்பி வழங்க முடியும் என்ற ஒரு சூழ்நிலையை கற்பனை செய்யுங்கள். இது பல தரப்புகள் உள்ள ஒரு பிரச்சினையாகும்; இதில் நிறுவனம், சரியான காரணங்களுக்காகவே ஏஜென்ட் பணத்தைத் திருப்பி வழங்குகிறார் என்று நம்ப வேண்டியுள்ளது; அதே நேரத்தில், ஏஜென்ட் மூன்றாம் தரப்பினருடனும் தொடர்பு கொள்கிறார்; அவர்கள் அவரை தவறாக வழிநடத்த முயற்சிக்கலாம் அல்லது அவரை அழுத்தத்தின் கீழ் கூட வைத்திருக்கலாம்.
நிஜ உலகில், ஏஜென்டுக்கு பின்பற்ற வேண்டிய விதிகளின் ஒரு தொகுப்பு வழங்கப்படுகிறது, ஆனால் அவர்கள் எதிர்மறை சூழலில் இருப்பதால், அவர்கள் தவறாக வழிநடத்தப்படுவார்கள் என்று எதிர்பார்க்கப்படுகிறது. ஒரு வாடிக்கையாளர் தங்களின் பணத்தை திரும்பப் பெறுவது ஒருபோதும் நிறைவேறவில்லை என்று கூறி ஒரு செய்தி அனுப்பலாம், அல்லது பணத்தை திரும்பப் பெறவில்லை என்றால் தீங்கு விளைவிப்பதாக மிரட்டலாம். ஏஜென்ட் தொடர்பு கொள்ளும் நிர்ணய அமைப்புகள், ஒரு வாடிக்கையாளருக்கு வழங்கக்கூடிய பணத்தைத் திருப்பிச் செலுத்தல்களின் அளவை வரையறுக்கின்றன, சாத்தியமான ஃபிஷிங் மின்னஞ்சல்களை குறியிடுகின்றன, மேலும் தனிப்பட்ட ஏஜென்ட் பாதிக்கப்படுவதால் ஏற்படும் தாக்கத்தை குறைக்க இதுபோன்ற பிற தணிப்பு நடவடிக்கைகளையும் வழங்குகின்றன.
இந்த மனப்பாங்கு, எங்கள் பயனர்களின் பாதுகாப்பு எதிர்பார்ப்புகளைப் பேணும் வகையில், நாங்கள் செயல்படுத்தியுள்ள எதிர்நடவடிக்கைகளின் வலுவான தொகுப்பை வழிநடத்தியுள்ளது.
ChatGPT இல், இந்த சமூக பொறியியல் மாடலை source-sink analysis போன்ற மேலும் பாரம்பரியமான பாதுகாப்பு பொறியியல் அணுகுமுறைகளுடன் நாங்கள் இணைக்கிறோம்.
அந்த கட்டமைப்பில், ஒரு தாக்குதலாளருக்கு ஒரு ஆதாரம், அல்லது அமைப்பை பாதிக்க ஒரு வழி, மற்றும் ஒரு சிங்க், அல்லது தவறான சூழலில் ஆபத்தாக மாறும் ஒரு திறன் ஆகிய இரண்டும் தேவை. ஏஜென்டிக் அமைப்புகளுக்கு, அது பெரும்பாலும் நம்பத்தகாத வெளிப்புற உள்ளடக்கத்தை, மூன்றாம் தரப்புக்கு தகவலை அனுப்புவது, ஒரு லிங்கை பின்பற்றுவது, அல்லது ஒரு கருவியுடன் தொடர்பு கொள்வது போன்ற ஒரு நடவடிக்கையுடன் இணைப்பதைக் குறிக்கிறது.
பயனர்களுக்கான ஒரு அடிப்படை பாதுகாப்பு எதிர்பார்ப்பை பாதுகாப்பதே எங்கள் இலக்கு: சாத்தியமான ஆபத்தான செயல்கள், அல்லது சாத்தியமான உணர்திறன் கொண்ட தகவல்களின் பரிமாற்றங்கள், அமைதியாகவோ அல்லது பொருத்தமான பாதுகாப்பு நடவடிக்கைகள் இன்றியோ நடைபெறக் கூடாது.
ChatGPT மீது நாம் அடிக்கடி காணும் தாக்குதல்கள் பெரும்பாலும், உதவியாளர் ஒரு உரையாடலிலிருந்து சில ரகசிய தகவல்களை எடுத்துக்கொண்டு அதை தீங்கிழைக்கும் மூன்றாம் தரப்புக்கு அனுப்ப வேண்டும் என்று நம்ப வைக்க முயற்சிப்பதையே கொண்டிருக்கின்றன. எங்களுக்குத் தெரிந்த பெரும்பாலான சந்தர்ப்பங்களில், எங்கள் பாதுகாப்பு பயிற்சி ஏஜென்டை மறுக்கச் செய்வதால், இந்த தாக்குதல்கள் தோல்வியடைகின்றன. ஏஜென்ட் உறுதியாக நம்பும் அந்தச் சந்தர்ப்பங்களில், உரையாடலில் உதவியாளர் கற்றுக்கொண்ட தகவல் மூன்றாம் தரப்புக்கு அனுப்பப்படவிருக்கும்போது அதை கண்டறிய வடிவமைக்கப்பட்ட Safe Url என்ற தணிப்பு உத்தியை நாங்கள் உருவாக்கியுள்ளோம். இந்த அரிதான சந்தர்ப்பங்களில், பரிமாறப்படவுள்ள தகவலை நாங்கள் பயனருக்குக் காட்டி அதை உறுதிப்படுத்துமாறு கேட்கிறோம், அல்லது அதைத் தடுத்து, பயனரின் கோரிக்கையுடன் முன்னேற ஏஜென்ட் வேறு வழியை முயற்சிக்குமாறு தெரிவிக்கிறோம்.
இதே செயல்முறை Atlas இல் உள்ள வழிசெலுத்தல்கள் மற்றும் புக் மார்குகளுக்கும்; மேலும் டீப் ரிசர்ச் இல் உள்ள தேடல்கள் மற்றும் வழிசெலுத்தல்களுக்கும் பொருந்தும். ChatGPT Canvas & ChatGPT Apps இதே போன்ற அணுகுமுறையைப் பின்பற்றுகின்றன; இதன் மூலம் ஏஜென்ட் செயல்பாட்டு பயன்பாடுகளை உருவாக்கவும் பயன்படுத்தவும் முடியும்—இவை எதிர்பாராத தொடர்புகளை கண்டறியக்கூடிய ஒரு சாண்ட்பாக்ஸில் இயங்குகின்றன மற்றும் பயனரின் சம்மதத்தை கேட்க(புதிய சாளரத்தில் திறக்கும்) முடியும்.
Safe Url பற்றி மேலும் தகவலைப் படிக்கலாம்; அதன் அமைப்பு குறித்த ஒரு ஆவணத்தையும் அதன் தனிப்பட்ட ப்லாக் பதிவில் ஒரு AI ஏஜென்ட் ஒரு இணைப்பை கிளிக் செய்யும் போது உங்கள் தரவை பாதுகாப்பாக வைத்திருப்பது காணலாம்.
முழுமையாக சுயாதீன ஏஜன்ட்களுக்கு எதிர்மறையான வெளி உலகத்துடன் பாதுகாப்பான ஊடாடல் அவசியம். ஒரு AI மாடலை ஒரு பயன்பாட்டு முறைமையுடன் ஒருங்கிணைக்கும் போது, இதே போன்ற சூழ்நிலையில் ஒரு மனித ஏஜென்டுக்கு எந்த கட்டுப்பாடுகள் இருக்க வேண்டும் என்று கேட்டு, அவற்றை செயல்படுத்த பரிந்துரைக்கிறோம். ஒரு மிக அதிக நுண்ணறிவு கொண்ட AI மாடல், ஒரு மனித ஏஜென்டை விட சமூக பொறியியலை சிறப்பாக எதிர்க்க முடியும் என்று நாங்கள் எதிர்பார்க்கிறோம், ஆனால் பயன்பாட்டைப் பொறுத்து இது எப்போதும் சாத்தியமானதாகவோ அல்லது செலவு-திறனுள்ளதாகவோ இருக்காது.
AI மாடல்களுக்கு எதிரான சமூக பொறியியலின் தாக்கங்கள் மற்றும் அதற்கெதிரான பாதுகாப்புகளை நாங்கள் தொடர்ந்து ஆராய்ந்து, எங்கள் கண்டுபிடிப்புகளை பயன்பாட்டு பாதுகாப்பு கட்டமைப்புகளிலும் AI மாடல்களுக்கு வழங்கும் பயிற்சியிலும் இணைக்கிறோம்.
அடிக்குறிப்புகள்
- 1
Rehberger, J. (2023, 04 15). LLM பதில்களை கண்மூடித்தனமாக நம்ப வேண்டாம். சாட்பாட்களுக்கு அச்சுறுத்தல்கள். EmbraceTheRed. 11 14, 2025 அன்று https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters இலிருந்து பெறப்பட்டது
ஆசிரியர்கள்
Thomas Shadwell மற்றும் Adrian Spânu


