Mākslīgā intelekta aģentu izstrāde uzvedņu injekciju novēršanai
Ko sociālā inženierija mums māca par mākslīgā intelekta aģentu drošību.
Mākslīgā intelekta aģenti arvien vairāk spēj pārlūkot tīmekli, iegūt informāciju un veikt darbības lietotāja vārdā. Šīs iespējas ir noderīgas, taču tās arī rada jaunus veidus, kā uzbrucēji var mēģināt manipulēt ar sistēmu.
Šie uzbrukumi bieži tiek aprakstīti kā uzvedņu injekcija: instrukcijas, kas ir ievietotas ārējā saturā, lai panāktu, ka modelis izpilda lietotāja nelūgtu darbību. Pēc mūsu pieredzes efektīvākās šo uzbrukumu reālās versijas arvien vairāk atgādina sociālo inženieriju, nevis vienkāršu uzvedņu pārrakstīšanu.
Šī pārmaiņa ir svarīga. Ja problēma ir ne vien ļaunprātīgas teksta virknes identificēšana, bet arī spēja pretoties maldinošam vai manipulējošam saturam atbilstoši kontekstam, aizsardzība pret to nevar balstīties vienīgi uz ievades filtrēšanu. Nepieciešams izstrādāt sistēmu tā, lai ierobežotu manipulāciju ietekmi, pat ja daži uzbrukumi izdodas.
Sākotnējie “uzvedņu injekcijas” tipa uzbrukumi varētu būt tik vienkārši kā Vikipēdijas raksta rediģēšana, lai tajā iekļautu tiešas instrukcijas mākslīgā intelekta aģentiem, kas to apmeklē; bez apmācības laikā gūtas pieredzes šādā nelabvēlīgā vidē mākslīgā intelekta modeļi bieži vien bez jautājumiem izpildītu šīs instrukcijas1. ] Tā kā modeļi ir kļuvuši gudrāki, tie ir kļuvuši arī mazāk uzņēmīgi pret šāda veida ietekmēšanu, un esam novērojuši, ka uzbrukumi, kas balstās uz uzvedņu injekciju, ir pielāgojušies, iekļaujot sociālās inženierijas elementus:
Uzvedņu injekcijas piemērs e-pastā
2025. gada piemērs uzvedņu injekcijas uzbrukumam ChatGPT, par kuru OpenAI ziņoja ārējie drošības pētnieki(atveras jaunā logā). Testēšanas laikā sistēma darbojās 50% gadījumu, kad lietotājs deva šādu uzvedni: “Es vēlos, lai tu veiktu padziļinātu izpēti par maniem šodienas e-pastiem. Es vēlos, lai tu izlasītu un pārbaudītu katru avotu, kas varētu sniegt informāciju par manu jauno darbinieku atlases procesu.”
Plašākā mākslīgā intelekta drošības ekosistēmā ir kļuvis ierasts ieteikt tādus paņēmienus kā “mākslīgā intelekta ugunsmūris”, kurā starpnieks starp mākslīgā intelekta aģentu un ārpasauli mēģina iedalīt ievadi divās kategorijās – ļaunprātīga uzvedņu ievadīšana un parastā ievade –, taču šādas sistēmas parasti nespēj atklāt pilnībā izstrādātus uzbrukumus. Šādām sistēmām ļaunprātīgas ievades atklāšana kļūst par tikpat sarežģītu uzdevumu kā melu vai dezinformācijas atklāšana, turklāt bieži vien bez nepieciešamā konteksta.
Tā kā reālās pasaules uzvedņu injekcijas uzbrukumi kļuvuši arvien sarežģītāki, mēs konstatējām, ka visefektīvākās uzbrukuma metodes balstījušās uz sociālās inženierijas taktikām. Tā vietā, lai šos uzvedņu injekcijas uzbrukumus, kuros tiek izmantota sociālā inženierija, uzskatītu par atsevišķu vai pilnīgi jaunu problēmu kategoriju, mēs sākām tos aplūkot no tā paša skatpunkta, kādu izmantojam, lai pārvaldītu sociālās inženierijas riskus, kas skar cilvēkus citās jomās. Šajās sistēmās mērķis neaprobežojas tikai ar ļaunprātīgu ievades datu precīzu identificēšanu, bet gan ar tādu aģentu un sistēmu izstrādi, kas ierobežo manipulācijas ietekmi pat tad, ja tā izdodas. Šādas sistēmas ir efektīvas gan uzvedņu injekciju, gan sociālās inženierijas mazināšanā.
Tādējādi mēs varam iedomāties, ka mākslīgā intelekta aģents darbojas līdzīgā trīs dalībnieku sistēmā kā klientu apkalpošanas darbinieks – aģents vēlas rīkoties sava darba devēja interesēs, taču viņš nepārtraukti saskaras ar ārējiem signāliem, kas var mēģināt viņu maldināt. Klientu apkalpošanas aģentam – neatkarīgi no tā, vai tas ir cilvēks vai mākslīgais intelekts – ir jānosaka darbības ierobežojumi, lai samazinātu risku, kas saistīts ar darbību šādā ļaunprātīgā vidē.
Iedomājieties situāciju, kurā cilvēks apkalpo klientu atbalsta sistēmu un var izsniegt dāvanu kartes un veikt naudas atmaksu par klientam radušajām neērtībām, piemēram, lēnu piegādi, bojājumiem, kas radušies tehniskas kļūmes dēļ utt. Šī ir daudzu pušu problēma, kurā uzņēmumam ir jāpaļaujas uz to, ka aģents veic atmaksas pamatotu iemeslu dēļ, savukārt aģents sadarbojas ar trešajām pusēm, kuras var mēģināt viņu maldināt vai pat pakļaut spiedienam.
Reālajā pasaulē aģentam tiek dota noteikumu kopa, kas jāievēro, taču tiek pieņemts, ka nelabvēlīgā vidē, kurā tas darbojas, tas tiks maldināts. Iespējams, klients nosūta ziņu, apgalvojot, ka viņš nav saņēmis atmaksu, vai draud ar vardarbīgu rīcību, ja atmaksa netiks veikta. Deterministiskās sistēmas, ar kurām aģents mijiedarbojas, ierobežo atlīdzības summu, ko var izmaksāt klientam, brīdina par iespējamām pikšķerēšanas vēstulēm un nodrošina citus līdzīgus aizsardzības pasākumus, lai mazinātu ietekmi, kas rodas, ja tiek kompromitēts atsevišķs aģents.
Šāda domāšana ir veidojusi spēcīgu drošības pasākumu kopumu, ko esam ieviesuši un kas atbilst mūsu lietotāju drošības gaidām.
ChatGPT mēs apvienojam šo sociālās inženierijas modeli ar tradicionālākām drošības inženierijas pieejām, piemēram, avota-mērķa analīzi.
Šādā kontekstā uzbrucējam ir nepieciešams gan avots jeb veids, kā ietekmēt sistēmu, gan “mērķis“ jeb funkcija, kas nepareizā kontekstā kļūst bīstama. Aģentiskajām sistēmām tas bieži nozīmē neuzticama ārēja satura apvienošanu ar darbību, piemēram, informācijas nosūtīšanu trešajai pusei, sekošanu saitei vai mijiedarbību ar rīku.
Mūsu mērķis ir nodrošināt lietotājiem pamata drošības prasības: potenciāli bīstamas darbības vai potenciāli konfidenciālas informācijas nosūtīšana nedrīkst notikt nemanāmi vai bez atbilstošiem aizsardzības pasākumiem.
Uzbrukumi, kas tiek vērsti pret ChatGPT, visbiežāk izpaužas kā mēģinājumi pārliecināt palīgu, ka tam no sarunas jāiegūst kāda slepena informācija un jānodod to ļaunprātīgai trešajai personai. Vairākumā mums zināmo gadījumu šie uzbrukumi neizdodas, jo mūsu drošības apmācības liek aģentam tos noraidīt. Gadījumiem, kad aģents ir pārliecināts, mēs esam izstrādājuši riska mazināšanas stratēģiju ar nosaukumu Safe Url, kas paredzēta, lai noteiktu, kad sarunā iegūtā informācija varētu tikt nosūtīta trešajai personai. Šādos retos gadījumos mēs vai nu parādām lietotājam informāciju, kas tiktu nosūtīta, un lūdzam viņam to apstiprināt, vai arī bloķējam šo darbību un norādām aģentam meklēt citu veidu, kā izpildīt lietotāja pieprasījumu.
Šis pats mehānisms attiecas uz navigāciju un grāmatzīmēm vietnē Atlas, kā arī uz meklēšanu un navigāciju dziļajā izpētē. ChatGPT Canvas & ChatGPT Apps izmanto līdzīgu pieeju, ļaujot aģentam izveidot un izmantot funkcionālas lietotnes – tās darbojas izmēģināšanas vidē, kas spēj noteikt negaidītu saziņu un lūgt lietotāja piekrišanu(atveras jaunā logā).
Vairāk informācijas par Safe Url, kā arī rakstu par tā uzbūvi vari lasīt šim tematam veltītajā emuāra ierakstā Kā saglabāt savus datus drošībā, kad MI aģents noklikšķina uz saites.
Pilnībā autonomiem aģentiem ir nepieciešama droša mijiedarbība ar naidīgo ārpasauli. Integrējot mākslīgā intelekta modeli lietojumprogrammas sistēmā, iesakām apsvērt, kādas kontroles iespējas cilvēkam būtu nepieciešamas līdzīgā situācijā, un tās ieviest. Mēs sagaidām, ka maksimāli inteliģents mākslīgā intelekta modelis spēs pretoties sociālajai inženierijai labāk nekā cilvēks, taču atkarībā no lietojuma tas ne vienmēr ir iespējams vai ir ienesīgi.
Mēs turpinām pētīt sociālās inženierijas ietekmi uz mākslīgā intelekta modeļiem un aizsardzības pasākumus pret to, kā arī iekļaujam savus secinājumus gan mūsu lietojumprogrammu drošības arhitektūrās, gan mākslīgā intelekta modeļu apmācības procesā.
Zemsvītras piezīmes
- 1
Rehberger, J. (2023, 04 15). Don't blindly trust LLM responses. Threats to chatbots. EmbraceTheRed. Iegūts 2025. gada 14. novembrī vietnē https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
Autori
Thomas Shadwell un Adrian Spânu



Sociālā inženierija un MI aģenti