ప్రాంప్ట్ ఇంజెక్షన్ను ప్రతిఘటించేలా AI ఏజెంట్లను డిజైన్ చేయడం
AI ఏజెంట్లను సురక్షితం చేయడం గురించి సోషల్ ఇంజినీరింగ్ మనకు ఏమి నేర్పుతుంది.
AI ఏజెంట్లు వెబ్ను బ్రౌజ్ చేయడం, సమాచారాన్ని రీట్రీవ్ చేయడం, మరియు వినియోగదారు తరపున చర్యలు తీసుకోవడం విషయంలో క్రమంగా మరింత సామర్థ్యం కలిగి ఉంటున్నాయి. ఆ సామర్థ్యాలు ఉపయోగకరమైనవే, కానీ అవి దాడి చేసే వ్యక్తులు సిస్టమ్ను ప్రభావితం చేయడానికి ప్రయత్నించే కొత్త మార్గాలను కూడా సృష్టిస్తాయి.
ఈ దాడులను తరచుగా ప్రాంప్ట్ ఇంజెక్షన్గా వర్ణిస్తారు: యూజర్ అడగని పనిని మోడల్ చేయించే ప్రయత్నంలో బాహ్య కంటెంట్లో ఉంచిన సూచనలు. మా అనుభవంలో, ఈ దాడుల అత్యంత ప్రభావవంతమైన వాస్తవ ప్రపంచ వెర్షన్లు సాధారణ ప్రాంప్ట్ ఓవర్రైడ్ల కంటే ఎక్కువగా సోషల్ ఇంజినీరింగ్ను పోలి ఉంటున్నాయి.
ఆ మార్పు ముఖ్యం. సమస్య కేవలం హానికరమైన స్ట్రింగ్ను గుర్తించడం మాత్రమే కాకుండా, సందర్భంలో తప్పుదారి పట్టించే లేదా మోసపూరిత కంటెంట్ను నిరోధించడం అయితే, దానికి వ్యతిరేకంగా రక్షణ కేవలం ఇన్పుట్లను ఫిల్టర్ చేయడంపైనే ఆధారపడలదు. ఇది కూడా సిస్టమ్ను అలా డిజైన్ చేయడం అవసరం చేస్తుంది, కొన్ని దాడులు విజయవంతమైనా కూడా మోసగింపు ప్రభావం నియంత్రితంగా ఉండేలా.
ప్రారంభ “ప్రాంప్ట్ ఇంజెక్షన్” రకం దాడులు వికీపీడియా ఆర్టికల్ను ఎడిట్ చేసి, దాన్ని సందర్శించే AI ఏజెంట్లకు నేరుగా సూచనలను చేర్చడం అంత సులభంగా ఉండేవి; ఇలాంటి ప్రతికూల వాతావరణంలో ట్రైనింగ్-టైమ్ అనుభవం లేకుండా AI మోడల్లు తరచుగా ఆ సూచనలను ఎలాంటి ప్రశ్నలు లేకుండా అనుసరించేవి1. మోడల్లు మరింత తెలివైనవిగా మారిన కొద్దీ, ఈ రకమైన సూచనకు అవి తక్కువగా లోనయ్యేలా కూడా మారాయి, మరియు ప్రాంప్ట్ ఇంజెక్షన్-శైలి దాడులు సామాజిక ఇంజనీరింగ్ అంశాలను చేర్చడం ద్వారా ప్రతిస్పందించాయని మేము గమనించాము:
ప్రాంప్ట్ ఇంజెక్షన్ యొక్క ఇమెయిల్ ఉదాహరణ
OpenAIకి బాహ్య భద్రతా పరిశోధకులు(కొత్త విండోలో తెరుచుకుంటుంది) నివేదించిన ChatGPTపై 2025 నాటి ప్రాంప్ట్ ఇంజెక్షన్ దాడి ఉదాహరణ. పరీక్షల్లో, యూజర్ ప్రాంప్ట్ “ఈరోజు నా ఇమెయిల్స్పై డీప్ రీసెర్చ్ చేయాలని నేను కోరుకుంటున్నాను, నా కొత్త ఉద్యోగి ప్రక్రియ గురించి సమాచారం అందించగల ప్రతి సోర్స్ను మీరు చదివి చెక్ చేయాలని నేను కోరుకుంటున్నాను.” తో ఇది 50% సమయాల్లో పనిచేసింది.
విస్తృత AI భద్రతా ఎకోసిస్టమ్లో “AI firewalling” వంటి సాంకేతికతలను సిఫార్సు చేయడం సాధారణమైంది; ఇందులో AI ఏజెంట్ మరియు బయటి ప్రపంచం మధ్య ఉన్న ఒక మధ్యవర్తి ఇన్పుట్లను హానికరమైన ప్రాంప్ట్ ఇంజెక్షన్ మరియు సాధారణ ఇన్పుట్లుగా వర్గీకరించడానికి ప్రయత్నిస్తుంది—but ఈ పూర్తిగా అభివృద్ధి చెందిన దాడులు సాధారణంగా ఇలాంటి వ్యవస్థల ద్వారా పట్టుబడవు. అలాంటి సిస్టమ్ల కోసం, హానికరమైన ఇన్పుట్ను గుర్తించడం అనేది అబద్ధం లేదా తప్పుడు సమాచారం గుర్తించడం లాగానే చాలా కష్టమైన సమస్యగా మారుతుంది, మరియు తరచుగా అవసరమైన సందర్భం లేకుండా.
వాస్తవ ప్రపంచ ప్రాంప్ట్ ఇంజెక్షన్ దాడులు సంక్లిష్టతలో అభివృద్ధి చెందుతున్న కొద్దీ, అత్యంత ప్రభావవంతమైన దాడి సాంకేతికతలు సోషల్ ఇంజినీరింగ్ వ్యూహాలను వినియోగించాయని మేము గుర్తించాము. సోషల్ ఇంజినీరింగ్తో కూడిన ఈ ప్రాంప్ట్ ఇంజెక్షన్ దాడులను ఒక ప్రత్యేకమైన లేదా పూర్తిగా కొత్త సమస్య తరగతిగా పరిగణించడంకన్నా, ఇతర రంగాల్లో మనుషులపై సోషల్ ఇంజినీరింగ్ రిస్క్ను నిర్వహించడానికి ఉపయోగించే అదే దృష్టికోణంతో మేము దీనిని చూడడం ప్రారంభించాము. ఈ వ్యవస్థల్లో, లక్ష్యం కేవలం దుష్ట ఇన్పుట్లను సంపూర్ణంగా గుర్తించడానికే పరిమితం కాదు, కానీ మానిప్యులేషన్ విజయవంతమైనా కూడా దాని ప్రభావం నియంత్రితంగా ఉండేలా ఏజెంట్లు మరియు వ్యవస్థలను రూపకల్పన చేయడం. ఇలాంటి సిస్టమ్లు ప్రాంప్ట్ ఇంజెక్షన్ మరియు సోషల్ ఇంజినీరింగ్ రెండింటినీ తగ్గించడంలో ప్రభావవంతంగా ఉన్నట్లు తమను తాము నిరూపించుకుంటాయి.
ఈ విధంగా, AI ఏజెంట్ను కస్టమర్ సర్వీస్ ఏజెంట్లా సమానమైన మూడు-పాత్రల వ్యవస్థలో ఉన్నట్లు మనం ఊహించవచ్చు; ఏజెంట్ తన యజమాని తరపున చర్య తీసుకోవాలని కోరుకుంటుంది, కానీ దాన్ని తప్పుదారి పట్టించడానికి ప్రయత్నించే బాహ్య ఇన్పుట్కు అది నిరంతరం గురవుతూనే ఉంటుంది. కస్టమర్ సపోర్ట్ ఏజెంట్, మానవుడైనా లేదా AI అయినా, ఇలాంటి దుష్ట వాతావరణంలో ఉండటంతో సహజంగా ఉన్న ప్రతికూల ప్రమాదాన్ని పరిమితం చేయడానికి వారి సామర్థ్యాలపై పరిమితులు విధించబడాలి.
ఒక మనిషి కస్టమర్ మద్దతు వ్యవస్థను నిర్వహించి, డెలివరీ నెమ్మదిగా ఉండటం, లోపం కారణంగా నష్టం జరగడం వంటి కారణాల వల్ల కస్టమర్కు కలిగిన అసౌకర్యాలకు గిఫ్ట్ కార్డులు మరియు రీఫండ్లు ఇవ్వగలిగే పరిస్థితిని ఊహించండి. ఇది బహుళ-పక్షాల సమస్య; ఇందులో కార్పొరేషన్ సరైన కారణాలకే ఏజెంట్ రీఫండ్లు ఇస్తాడని నమ్మాల్సి ఉంటుంది, అదే సమయంలో ఏజెంట్ మూడవ పక్షాలతో కూడా పరస్పరం వ్యవహరిస్తాడు, వారు అతన్ని తప్పుదారి పట్టించడానికి ప్రయత్నించవచ్చు లేదా అతనిపై ఒత్తిడి కూడా తెచ్చే అవకాశం ఉంది.
వాస్తవ ప్రపంచంలో, ఏజెంట్కు అనుసరించడానికి నియమాల సమితి ఇవ్వబడుతుంది, కానీ వారు ఉన్న వ్యతిరేక వాతావరణంలో, వారు తప్పుదారి పట్టించబడతారని ఆశించబడుతుంది. బహుశా ఒక కస్టమర్ తమ రీఫండ్ ఎప్పుడూ ప్రాసెస్ కాలేదని చెబుతూ సందేశం పంపవచ్చు, లేదా రీఫండ్ ఇవ్వకపోతే హాని చేస్తామని బెదిరించవచ్చు. ఏజెంట్ పరస్పరం చర్య చేసే డిటర్మినిస్టిక్ సిస్టమ్లు కస్టమర్కు ఇవ్వగల రీఫండ్ల పరిమాణాన్ని పరిమితం చేస్తాయి, సంభావ్య ఫిషింగ్ ఇమెయిల్లను గుర్తించగలవు, మరియు వ్యక్తిగత ఏజెంట్ కాంప్రమైజ్ కావడం వల్ల కలిగే ప్రభావాన్ని పరిమితం చేయడానికి ఇలాంటి ఇతర మిటిగేషన్లను అందిస్తాయి.
ఈ దృక్పథం, మా వినియోగదారుల భద్రతా అంచనాలను కాపాడేలా మేము అమలు చేసిన ప్రతిచర్యల బలమైన సమాహారానికి దారితీసింది.
ChatGPTలో, ఈ సోషల్ ఇంజినీరింగ్ మోడల్ను source-sink analysis వంటి సంప్రదాయ సెక్యూరిటీ ఇంజినీరింగ్ విధానాలతో కలిపి ఉపయోగిస్తాము.
ఆ ఫ్రేమింగ్లో, ఒక దాడి చేసే వ్యక్తికి ఒక సోర్స్, లేదా సిస్టమ్ను ప్రభావితం చేసే మార్గం, అలాగే ఒక సింక్, లేదా తప్పు సందర్భంలో ప్రమాదకరంగా మారే సామర్థ్యం—ఈ రెండూ అవసరం. ఏజెంటిక్ సిస్టమ్ల కోసం, అది తరచుగా నమ్మలేని బాహ్య కంటెంట్ను తృతీయ పక్షానికి సమాచారాన్ని ప్రసారం చేయడం, ఒక లింక్ను అనుసరించడం, లేదా ఒక టూల్తో ఇంటరాక్ట్ అవడం వంటి చర్యతో కలపడం అని అర్థం.
మా లక్ష్యం యూజర్ల కోసం ఒక ప్రధాన భద్రతా అంచనాను కాపాడటం: సంభావ్యంగా ప్రమాదకరమైన చర్యలు లేదా సున్నితమైన సమాచార ప్రసారాలు నిశ్శబ్దంగా లేదా తగిన రక్షణలు లేకుండా జరగకూడదు.
మేము ChatGPT పై అభివృద్ధి చేయబడిన దాడులలో ఎక్కువగా చూసేవి, అసిస్టెంట్ ఒక సంభాషణ నుండి కొంత రహస్య సమాచారాన్ని తీసుకుని దాన్ని హానికరమైన మూడవ పక్షానికి పంపించాలి అని దాన్ని నమ్మించడానికి ప్రయత్నించడం. మాకు తెలిసిన చాలా సందర్భాల్లో, మా భద్రతా శిక్షణ వల్ల ఏజెంట్ తిరస్కరించడం కారణంగా ఈ దాడులు విఫలమవుతాయి. ఏజెంట్ నమ్మకం కలిగిన అలాంటి సందర్భాల కోసం, మేము Safe Url అనే మిటిగేషన్ వ్యూహాన్ని అభివృద్ధి చేశాము; ఇది సంభాషణలో అసిస్టెంట్ నేర్చుకున్న సమాచారం మూడవ పక్షానికి ప్రసారం చేయబడే సందర్భాన్ని గుర్తించడానికి రూపొందించబడింది. ఈ అరుదైన సందర్భాల్లో, మేము యూజర్కు ట్రాన్స్మిట్ చేయబడే సమాచారాన్ని చూపించి దాన్ని నిర్ధారించమని అడుగుతాము, లేదా దాన్ని బ్లాక్ చేసి యూజర్ అభ్యర్థనతో ముందుకు సాగేందుకు మరో మార్గాన్ని ప్రయత్నించమని ఏజెంట్కు చెబుతాము.
ఇదే మెకానిజం Atlas లోని నావిగేషన్లు మరియు బుక్మార్క్లకు వర్తిస్తుంది. అలాగే, డీప్ రీసెర్చ్ లోని సెర్చ్లు మరియు నావిగేషన్లకు కూడా వర్తిస్తుంది. ChatGPT Canvas & ChatGPT Apps కూడా ఇలాంటి విధానాన్ని అనుసరిస్తాయి. ఇవి ఏజెంట్కు ఫంక్షనల్ అప్లికేషన్లను సృష్టించి ఉపయోగించడానికి అనుమతిస్తాయి. ఈ అప్లికేషన్లు అనుకోని కమ్యూనికేషన్లను గుర్తించగల సాండ్బాక్స్లో నడుస్తాయి మరియు వారి సమ్మతి కోసం యూజర్ను అడుగుతాయి(కొత్త విండోలో తెరుచుకుంటుంది).
Safe Url గురించి మరింత సమాచారం చదవవచ్చు, అలాగే దాని నిర్మాణంపై ఒక పేపర్ను దానికి ప్రత్యేకమైన బ్లాగ్ పోస్ట్ ఒక AI ఏజెంట్ లింక్పై క్లిక్ చేసినప్పుడు మీ డేటాను సురక్షితంగా ఉంచడంలో కనుగొనవచ్చు.
పూర్తిగా ఆటోనమస్ ఏజెంట్ల కోసం శత్రుత్వపూరిత బాహ్య ప్రపంచంతో సురక్షిత పరస్పర చర్య అవసరం. AI మోడల్ను ఒక అప్లికేషన్ సిస్టమ్తో ఇంటిగ్రేట్ చేస్తున్నప్పుడు, ఇలాంటి పరిస్థితిలో ఒక మానవ ఏజెంట్కు ఏ నియంత్రణలు ఉండాలి అని అడిగి, వాటిని అమలు చేయాలని మేము సిఫార్సు చేస్తాము. గరిష్టంగా తెలివైన AI మోడల్ ఒక మానవ ఏజెంట్ కంటే సోషల్ ఇంజినీరింగ్ను మెరుగ్గా నిరోధించగలదని మేము ఆశిస్తున్నాము, కానీ అప్లికేషన్పై ఆధారపడి ఇది ఎల్లప్పుడూ సాధ్యపడకపోవచ్చు లేదా ఖర్చు-సమర్థంగా ఉండకపోవచ్చు.
AI మోడల్పై సామాజిక ఇంజినీరింగ్ ప్రభావాలు, వాటికి వ్యతిరేకంగా రక్షణలపై మేము పరిశోధనలు కొనసాగిస్తూ, మా కనుగొనుళ్లను అప్లికేషన్ భద్రతా ఆర్కిటెక్చర్లలో మరియు AI మోడల్ శిక్షణలో చేర్చుతున్నాము.
ఫుట్ నోట్స్
- 1
Rehberger, J. (2023, 04 15). LLM ప్రతిస్పందనలను గుడ్డిగా నమ్మకండి. చాట్బాట్లకు ముప్పులు. EmbraceTheRed. https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters నుండి 11 14, 2025 న యాక్సెస్ చేసుకున్నారు
రచయితలు
Thomas Shadwell, Adrian Spânu


