Projektimi i agjentëve të AI për t’i rezistuar injektim i kërkesave
Çfarë na mëson inxhinieria sociale për sigurimin e agjentëve të AI.
Agjentët e AI po bëhen gjithnjë e më të aftë të shfletojnë uebin, të marrin informacion dhe të ndërmarrin veprime në emër të një përdoruesi. Këto aftësi janë të dobishme, por ato gjithashtu krijojnë mënyra të reja që sulmuesit të përpiqen të manipulojnë sistemin.
Këto sulme shpesh përshkruhen si injektim i kërkesave: udhëzime të vendosura në përmbajtje të jashtme në një përpjekje për ta bërë modelin të bëjë diçka që përdoruesi nuk e ka kërkuar. Sipas përvojës sonë, versionet më efektive në botën reale të këtyre sulmeve po i ngjajnë gjithnjë e më shumë inxhinierisë sociale sesa anashkalimeve të thjeshta të kërkesave.
Ky ndryshim ka rëndësi. Nëse problemi nuk është thjesht identifikimi i një vargu keqdashës, por rezistimi ndaj përmbajtjes mashtruese ose manipuluese në kontekst, atëherë mbrojtja kundër saj nuk mund të mbështetet vetëm në filtrimin e inputeve. Kjo gjithashtu kërkon projektimin e sistemit në mënyrë që ndikimi i manipulimit të jetë i kufizuar, edhe nëse disa sulme kanë sukses.
Sulmet e hershme të tipit “injektim i kërkesave” mund të ishin po aq të thjeshta sa redaktimi i një artikulli në Wikipedia për të përfshirë udhëzime të drejtpërdrejta për agjentët e AI që e vizitojnë atë; pa përvojë gjatë trajnimit në një mjedis të tillë kundërshtar, modelet e AI shpesh do t’i ndiqnin ato udhëzime pa vënë në dyshim1. Ndërsa modelet janë bërë më të zgjuara, ato janë bërë gjithashtu më pak të cenueshme ndaj këtij lloji sugjerimi dhe kemi vërejtur se sulmet e stilit të injektim i kërkesave janë përgjigjur duke përfshirë elemente të inxhinierisë sociale:
Shembull emaili i injektim i kërkesave
Një shembull i vitit 2025 i një sulmi me injektim i kërkesave ndaj ChatGPT i raportuar tek OpenAI nga studiues të jashtëm të sigurisë(hapet në një dritare të re). Gjatë testimit, funksionoi 50% të rasteve me kërkesën e përdoruesit “Dua që të bësh kërkim i thelluar mbi emailet e mia të sotme, dua që t’i lexosh dhe të kontrollosh çdo burim që mund të ofrojë informacion rreth procesit tim të punonjësit të ri.”
Brenda ekosistemit më të gjerë të sigurisë së AI është bërë e zakonshme të rekomandohen teknika të tilla si “AI firewalling” në të cilin një ndërmjetës midis agjentit të AI dhe botës së jashtme përpiqet t’i klasifikojë inputet në injektim i kërkesave dhe inpute të rregullta — por këto sulme plotësisht të zhvilluara zakonisht nuk kapen nga sisteme të tilla. Për sisteme të tilla, zbulimi i një inputi keqdashës bëhet i njëjti problem shumë i vështirë si zbulimi i një gënjeshtre ose dezinformimi, dhe shpesh pa kontekstin e nevojshëm.
Ndërsa sulmet e injektim i kërkesave në botën reale u zhvilluan në kompleksitet, zbuluam se teknikat më efektive sulmuese shfrytëzonin taktika të inxhinierisë sociale. Në vend që t’i trajtonim këto injektim i kërkesave me inxhinieri sociale si një kategori të veçantë ose krejtësisht të re problemi, filluam ta shihnim atë përmes të njëjtit këndvështrim që përdoret për të menaxhuar rrezikun e inxhinierisë sociale ndaj qenieve njerëzore në fusha të tjera. Në këto sisteme, qëllimi nuk kufizohet në identifikimin e përsosur të hyrjeve keqdashëse, por në projektimin e agjentëve dhe sistemeve në mënyrë që ndikimi i manipulimit të jetë i kufizuar, edhe nëse ai ka sukses. Sisteme të tilla tregojnë se janë efektive në zbutjen si të injektim i kërkesave ashtu edhe të inxhinierisë sociale.
Në këtë mënyrë, mund ta imagjinojmë agjentin AI si ekzistues në një sistem të ngjashëm me tre aktorë si një agjent i shërbimit ndaj klientit; agjenti dëshiron të veprojë në emër të punëdhënësit të tij, por ai është vazhdimisht i ekspozuar ndaj inputit të jashtëm që mund të përpiqet ta mashtrojë. Agjenti i mbështetjes së klientit, qoftë njeri apo AI, duhet të ketë kufizime të vendosura mbi aftësitë e tij për të kufizuar rrezikun negativ të natyrshëm që vjen nga ekzistenca në një mjedis kaq keqdashës.
Imagjinoni një rrethanë në të cilën një qenie njerëzore operon një sistem të shërbimit ndaj klientit dhe është në gjendje të japë karta dhuratë dhe rimbursime për shqetësimet e përjetuara nga klienti, si p.sh. ngadalësia e dorëzimit, dëmtimet si rezultat i mosfunksionimit etj. Ky është një problem me shumë palë, në të cilin korporata duhet të besojë se agjenti jep rimbursime për arsyet e duhura, ndërsa agjenti gjithashtu ndërvepron me palë të treta që mund të synojnë ta mashtrojnë ose madje ta vënë nën presion.
Në botën reale, agjentit i jepet një grup rregullash për t’u ndjekur, por pritet që, në mjedisin kundërshtues ku ekziston, ai të mashtrohet. Ndoshta një klient dërgon një mesazh duke pretenduar se rimbursimi i tij nuk u krye kurrë, ose kërcënon me dëm nëse nuk i jepet një rimbursim. Sistemet deterministe me të cilat ndërvepron agjent kufizojnë sasinë e rimbursimeve që mund t’i jepen një klienti, sinjalizojnë emaile të mundshme phishing dhe ofrojnë masa të tjera të tilla zbutëse për të kufizuar ndikimin e komprometimit të një agjenti individual.
Ky mendim ka ndikuar në një grup të fuqishëm kundërmasash që kemi zbatuar, të cilat përmbushin pritshmëritë e sigurisë së përdoruesve tanë.
Në ChatGPT, ne e kombinojmë këtë model të inxhinierisë sociale me qasje më tradicionale të inxhinierisë së sigurisë, siç është analiza source-sink.
Në këtë kuadër, një sulmues ka nevojë si për një burim, ose një mënyrë për të ndikuar në sistem, ashtu edhe për një “sink”, ose një aftësi që bëhet e rrezikshme në kontekstin e gabuar. Për sistemet agjentike, kjo shpesh do të thotë të kombinosh përmbajtje të jashtme të pabesueshme me një veprim si transmetimi i informacionit te një palë e tretë, ndjekja e një lidhjeje ose ndërveprimi me një mjet.
Qëllimi ynë është të ruajmë një pritshmëri bazë sigurie për përdoruesit: veprimet potencialisht të rrezikshme, ose transmetimet e informacionit potencialisht të ndjeshëm, nuk duhet të ndodhin në heshtje ose pa masa mbrojtëse të përshtatshme.
Sulmet që shohim të zhvilluara kundër ChatGPT më shpesh konsistojnë në përpjekje për ta bindur asistentin se duhet të marrë disa informacione sekrete nga një bisedë dhe t’ia transmetojë ato një pale të tretë keqdashëse. Në shumicën e rasteve për të cilat jemi në dijeni, këto sulme dështojnë sepse trajnimet tona të sigurisë bëjnë që agjenti të refuzojë. Për ato raste në të cilat agjent është i bindur, ne kemi zhvilluar një strategji zbutjeje të quajtur Safe Url e cila është projektuar të zbulojë kur informacioni që asistenti ka mësuar në bisedë do t'i transmetohej një pale të tretë. Në këto raste të rralla, ose i tregojmë përdoruesit informacionin që do të transmetohej dhe i kërkojmë ta konfirmojë, ose e bllokojmë dhe i themi agjentit të provojë një mënyrë tjetër për të ecur përpara me kërkesën e përdoruesit.
I njëjti mekanizëm zbatohet për navigimet dhe faqeruajtësit në Atlas; dhe kërkimet dhe navigimet në Kërkim i thelluar. ChatGPT Canvas & Aplikacionet ChatGPT ndjekin një qasje të ngjashme, duke i lejuar agjentit të krijojë dhe të përdorë aplikacione funksionale — këto ekzekutohen në një hapësirë të izoluar që është në gjendje të zbulojë komunikime të papritura dhe t’i kërkojë përdoruesit pëlqimin e tij(hapet në një dritare të re).
Mund të lexosh më shumë informacion rreth Safe Url dhe të gjesh një dokument rreth strukturës së tij te postimi i dedikuar i blogut Mbajtja e të dhënave të tua të sigurta kur një agjent AI klikon një lidhje.
Ndërveprimi i sigurt me botën e jashtme kundërshtare është i nevojshëm për agjentë plotësisht autonomë. Kur integroni një model AI me një sistem aplikacioni, ne rekomandojmë të pyesni se çfarë kontrollesh duhet të ketë një agjent njerëzor në një situatë të ngjashme dhe t’i zbatoni ato. Ne presim që një model AI maksimalisht inteligjent do të jetë në gjendje t’i rezistojë inxhinierisë sociale më mirë se një agjent njerëzor, por kjo nuk është gjithmonë e realizueshme ose me kosto efektive, në varësi të aplikacionit.
Ne vazhdojmë të eksplorojmë implikimet e inxhinierisë sociale kundër modeleve të AI dhe masat mbrojtëse kundër saj, dhe i përfshijmë gjetjet tona si në arkitekturën tonë të sigurisë së aplikacioneve ashtu edhe në trajnimin që u bëjmë modeleve tona të AI.
Shënime në fund
- 1
Rehberger, J. (2023, 04 15). Don't blindly trust LLM responses. Threats to chatbots. EmbraceTheRed. Aksesuar më 14 nëntor 2025, nga https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
Autorët
Thomas Shadwell dhe Adrian Spânu


