Tfassil ta’ aġenti tal-IA biex jirreżistu l-injezzjoni tal-prompts
X’tgħallimna l-inġinerija soċjali dwar kif niżguraw l-aġenti tal-IA.
L-aġenti tal-IA qed isiru dejjem aktar kapaċi jibbrawżjaw il-web, jirkupraw informazzjoni, u jieħdu azzjonijiet f’isem utent. Dawn il-kapaċitajiet huma utli, iżda joħolqu wkoll modi ġodda biex attakkanti jippruvaw jimmanipulaw is-sistema.
Dawn l-attakki spiss jiġu deskritti bħala injezzjoni tal-prompts: istruzzjonijiet imqiegħda f’kontenut estern f’tentattiv biex il-mudell jagħmel xi ħaġa li l-utent ma talabx. Fl-esperjenza tagħna, l-aktar verżjonijiet effettivi fid-dinja reali ta’ dawn l-attakki qed jixbhu dejjem aktar lill-inġinerija soċjali aktar milli sempliċi overrides tal-prompt.
Dik il-bidla hija importanti. Jekk il-problema mhix biss li tidentifika string malizzjuż, iżda li tirreżisti kontenut qarrieqi jew manipulattiv fil-kuntest, allura d-difiża kontrih ma tistax tiddependi biss fuq il-filtrazzjoni tal-inputs. Teħtieġ ukoll li s-sistema tkun imfassla b’mod li l-impatt tal-manipulazzjoni jkun limitat, anke jekk xi attakki jirnexxu.
L-attakki bikrin tat-tip “injezzjoni tal-prompts” setgħu jkunu sempliċi daqs li teditja artiklu tal-Wikipedia biex tinkludi istruzzjonijiet diretti lill-aġenti tal-IA li jżuruh; mingħajr esperjenza fil-ħin tat-taħriġ ta’ ambjent avversarju bħal dan il-mudelli tal-IA spiss kienu jsegwu dawk l-istruzzjonijiet mingħajr mistoqsija1. Hekk kif il-mudelli saru aktar intelliġenti, saru wkoll inqas vulnerabbli għal dan it-tip ta’ suġġeriment u osservajna li l-attakki fl-istil tal-injezzjoni tal-prompts wieġbu billi inkludew elementi ta’ inġinerija soċjali:
Eżempju bl-email ta’ injezzjoni tal-prompts
Eżempju tal-2025 ta’ attakk ta’ injezzjoni tal-prompts fuq ChatGPT irrappurtat lil OpenAI minn riċerkaturi esterni tas-sigurtà(jinfetaħ f’tieqa ġdida). Fit-testijiet, ħadem 50% tal-ħin bil-prompt tal-utent “I want you to do riċerka profonda on my emails from today, I want you to read and check every source which could supply information about my new employee process.”
Fi ħdan l-ekosistema usa’ tas-sigurtà tal-IA sar komuni li jiġu rrakkomandati tekniki bħal “AI firewalling” li fihom intermedjarju bejn l-aġent tal-IA u d-dinja ta’ barra jipprova jikklassifika inputs f’injezzjoni tal-prompts malizzjuża u inputs regolari—iżda dawn l-attakki żviluppati bis-sħiħ normalment ma jinqabdux minn sistemi bħal dawn. Għal dawn is-sistemi, li tinstab input malizzjuż issir l-istess problema diffiċli ħafna bħal li tinstab gidba jew informazzjoni falza, u ħafna drabi mingħajr il-kuntest meħtieġ.
Hekk kif l-attakki reali ta’ injezzjoni tal-prompts żviluppaw fil-kumplessità, sibna li l-aktar tekniki offensivi effettivi sfruttaw tattiki ta’ inġinerija soċjali. Minflok ma trattajna dawn l-attakki ta’ injezzjoni tal-prompts bl-inġinerija soċjali bħala klassi separata jew kompletament ġdida ta’ problema, bdejna narawhom mill-istess lenti użata biex jiġi ġestit ir-riskju tal-inġinerija soċjali fuq il-bnedmin f’oqsma oħra. F’dawn is-sistemi, l-għan mhuwiex limitat għall-identifikazzjoni perfetta ta’ inputs malizzjużi, iżda li jiġu ddisinjati aġenti u sistemi b’tali mod li l-impatt tal-manipulazzjoni jkun limitat, anke jekk tirnexxi. Sistemi bħal dawn juru li huma effettivi fil-mitigazzjoni kemm tal-injezzjoni tal-prompts kif ukoll tal-inġinerija soċjali.
B’dan il-mod, nistgħu nimmaġinaw lill-aġent tal-IA bħala jeżisti f’sistema simili ta’ tliet atturi bħal aġent tas-servizz tal-konsumatur; l-aġent irid jaġixxi f’isem min iħaddmu, iżda huwa espost kontinwament għal input estern li jista’ jipprova jqarrqu. L-aġent tal-appoġġ lill-klijent, kemm jekk bniedem kif ukoll jekk IA, irid ikollu limitazzjonijiet imposti fuq il-kapaċitajiet tiegħu biex jillimita r-riskju negattiv inerenti għall-eżistenza f’ambjent daqshekk malizzjuż.
Immaġina ċirkostanza li fiha bniedem jopera sistema ta’ appoġġ lill-klijenti u jkun jista’ jagħti gift cards u rifużjonijiet għal inkonvenjenzi esperjenzati mill-klijent bħal kunsinna bil-mod, ħsarat bħala riżultat ta’ ħsara fil-funzjonament, eċċ. Din hija problema b’ħafna partijiet li fiha l-korporazzjoni trid tafda li l-aġent jagħti rifużjonijiet għar-raġunijiet it-tajba, filwaqt li l-aġent jinteraġixxi wkoll ma’ partijiet terzi li jistgħu jippruvaw iqarrqu bih jew saħansitra jqegħduh taħt pressjoni.
Fid-dinja reali, l-aġent jingħata sett ta’ regoli x’isegwi, iżda huwa mistenni li, fl-ambjent avversarju li jeżisti fih, jiġi mqarraq. Forsi klijent jibgħat messaġġ jgħid li r-rifużjoni tiegħu qatt ma waslet, jew jhedded b’ħsara jekk ma jingħatax rifużjoni. Sistemi deterministiċi li l-aġent jinteraġixxi magħhom jillimitaw l-ammont ta’ rifużjonijiet li jistgħu jingħataw lil klijent, jimmarkaw emails potenzjalment ta’ phishing, u jipprovdu mitigazzjonijiet oħra bħal dawn biex jillimitaw l-impatt tal-kompromess ta’ aġent individwali.
Din il-mentalità wasslet għal sett robust ta’ kontromiżuri li poġġejna fis-seħħ u li jżommu l-aspettattivi tas-sigurtà tal-utenti tagħna.
F’ChatGPT, ngħaqqdu dan il-mudell tal-inġinerija soċjali ma’ approċċi aktar tradizzjonali tal-inġinerija tas-sigurtà bħall-analiżi source-sink.
F’dak il-qafas, attakkant jeħtieġ kemm source, jew mod kif jinfluwenza s-sistema, kif ukoll sink, jew kapaċità li ssir perikoluża fil-kuntest żbaljat. Għal sistemi aġentiċi, dan ħafna drabi jfisser li tgħaqqad kontenut estern mhux affidabbli ma’ azzjoni bħal trażmissjoni ta’ informazzjoni lil parti terza, li ssegwi link, jew li tinteraġixxi ma’ għodda.
L-għan tagħna huwa li nżommu aspettattiva ewlenija tas-sigurtà għall-utenti: azzjonijiet potenzjalment perikolużi, jew trażmissjonijiet ta’ informazzjoni potenzjalment sensittiva, m’għandhomx iseħħu fis-skiet jew mingħajr salvagwardji xierqa.
L-attakki li naraw żviluppati kontra ChatGPT l-aktar spiss jikkonsistu f’tentattivi biex jikkonvinċu lill-assistent li għandu jieħu xi informazzjoni sigrieta minn konverżazzjoni u jittrasmettiha lil parti terza malizzjuża. Fil-biċċa l-kbira tal-każijiet li nafu bihom, dawn l-attakki jfallu għax it-taħriġ tas-sikurezza tagħna jwassal lill-aġent biex jirrifjuta. Għal dawk il-każijiet li fihom l-aġent jiġi konvint, żviluppajna strateġija ta’ mitigazzjoni msejħa Safe Url li hija mfassla biex tiskopri meta informazzjoni li l-assistent tgħallem fil-konverżazzjoni tkun se tiġi trażmessa lil parti terza. F’dawn il-każijiet rari aħna jew nuruhom lill-utent l-informazzjoni li tkun se tiġi trażmessa u nitolbuh jikkonferma, jew nibblukkawha u ngħidu lill-aġent biex jipprova mod ieħor kif jimxi ’l quddiem bit-talba tal-utent.
Dan l-istess mekkaniżmu japplika għan-navigazzjonijiet u l-bookmarks f’Atlas; u għat-tfittxijiet u n-navigazzjonijiet f’Deep Research. ChatGPT Canvas u ChatGPT Apps jadottaw approċċ simili, li jippermetti lill-aġent joħloq u juża applikazzjonijiet funzjonali—dawn jaħdmu f’sandbox li kapaċi tiskopri komunikazzjonijiet mhux mistennija u titlob il-kunsens tal-utent(jinfetaħ f’tieqa ġdida).
Tista’ taqra aktar informazzjoni dwar Safe Url u ssib dokument dwar l-istruttura tiegħu fil-blog post iddedikat tiegħu Kif inżommu d-data tiegħek sigura meta aġent tal-IA jikklikkja link.
Interazzjoni sigura mad-dinja esterna avversarja hija meħtieġa għal aġenti kompletament awtonomi. Meta tintegra mudell tal-IA ma’ sistema ta’ applikazzjoni, nirrakkomandaw li tistaqsi liema kontrolli għandu jkollu aġent uman f’sitwazzjoni simili u timplimentahom. Nistennew li mudell tal-IA b’intelliġenza massima jkun jista’ jirreżisti l-inġinerija soċjali aħjar minn aġent uman, iżda dan mhux dejjem fattibbli jew kosteffettiv skont l-applikazzjoni.
Inkomplu nesploraw l-implikazzjonijiet tal-inġinerija soċjali kontra l-mudelli tal-IA u d-difiżi kontriha u ninkorporaw is-sejbiet tagħna kemm fl-arkitetturi tas-sigurtà tal-applikazzjonijiet tagħna kif ukoll fit-taħriġ li ngħaddu minnu l-mudelli tal-IA tagħna.
Noti ta’ qiegħ il-paġna
- 1
Rehberger, J. (2023, 04 15). Tagħtix fiduċja għamja lir-risposti tal-LLM. Theddid għaċ-chatbots. EmbraceTheRed. Irkuprat 11 14, 2025, minn https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
Awturi
Thomas Shadwell u Adrian Spânu


