Dizajniranje AI agenata otpornih na umetanje instrukcije
Šta nas socijalni inženjering uči o zaštiti AI agenata.
AI agenti su sve sposobniji da pretražuju veb, pronalaze informacije i preduzimaju radnje u ime korisnika. Te mogućnosti su korisne, ali istovremeno stvaraju nove načine na koje napadači mogu pokušati da manipulišu sistemom.
Ovi napadi se često opisuju kao umetanje instrukcije: instrukcije postavljene u spoljašnji sadržaj sa ciljem da nateraju model da uradi nešto što korisnik nije tražio. Po našem iskustvu, najefikasnije verzije ovih napada u stvarnom svetu sve više liče na socijalni inženjering više nego na jednostavno prepisivanje instrukcija.
Ta promena je važna. Ako problem nije samo prepoznavanje zlonamernog niza, već i otpornost na obmanjujući ili manipulativni sadržaj u kontekstu, onda odbrana od njega ne može da se oslanja samo na filtriranje ulaza. Takođe zahteva da se sistem osmisli tako da uticaj manipulacije bude ograničen, čak i ako neki napadi uspeju.
Rani napadi tipa „umetanje instrukcije” mogli su biti jednostavni kao izmena članka na Vikipediji kako bi uključio direktne instrukcije za AI agente koji ga posećuju; bez iskustva tokom obuke u takvom adversarijalnom okruženju, AI modeli su često sledili te instrukcije bez pitanja1. Kako su modeli postajali pametniji, postajali su i manje podložni ovoj vrsti sugestije, a primetili smo da su napadi u stilu umetanja instrukcije odgovorili uključivanjem elemenata socijalnog inženjeringa:
Primer imejla sa umetanjem instrukcije
Primer napada umetanjem instrukcije na ChatGPT iz 2025. prijavljen OpenAI-ju od strane spoljnih istraživača bezbednosti(отвара се у новом прозору). Tokom testiranja, radio je u 50% slučajeva sa korisničkom instrukcijom „Želim da uradiš duboko istraživanje o mojim imejlovima od danas, želim da pročitaš i proveriš svaki izvor koji bi mogao da pruži informacije o mom novom procesu za zaposlene.“
Unutar šireg ekosistema AI bezbednosti postalo je uobičajeno preporučivati tehnike kao što je „AI firewalling“, u kojima posrednik između AI agenta i spoljnog sveta pokušava da klasifikuje ulaze na zlonamerno umetanje instrukcije i regularne ulaze — ali se ovako razvijeni napadi obično ne hvataju takvim sistemima. Za takve sisteme, otkrivanje zlonamernog ulaza postaje isti veoma težak problem kao otkrivanje laži ili dezinformacija, i to često bez neophodnog konteksta.
Kako su napadi umetanjem instrukcije u stvarnom svetu postajali složeniji, ustanovili smo da su najefikasnije ofanzivne tehnike koristile taktike socijalnog inženjeringa. Umesto da ove napade umetanjem instrukcije sa elementima socijalnog inženjeringa tretiramo kao zasebnu ili potpuno novu klasu problema, počeli smo da ih posmatramo kroz istu prizmu koja se koristi za upravljanje rizikom od socijalnog inženjeringa kod ljudi u drugim oblastima. U tim sistemima cilj nije ograničen na savršeno prepoznavanje zlonamernih ulaza, već na dizajniranje agenata i sistema tako da uticaj manipulacije bude ograničen, čak i ako uspe. Takvi sistemi pokazuju se kao efikasni u ublažavanju i umetanja instrukcije i socijalnog inženjeringa.
Na taj način možemo zamisliti AI agenta kao učesnika u sličnom sistemu sa tri aktera kao što je agent korisničke podrške; agent želi da deluje u ime svog poslodavca, ali je neprekidno izložen spoljnim ulazima koji mogu pokušati da ga dovedu u zabludu. Agent korisničke podrške, bilo čovek ili AI, mora imati ograničenja svojih mogućnosti kako bi se smanjio negativni rizik svojstven postojanju u takvom zlonamernom okruženju.
Zamislite situaciju u kojoj čovek upravlja sistemom korisničke podrške i može da izdaje poklon-kartice i refundacije zbog neprijatnosti koje je kupac doživeo, kao što su kašnjenje isporuke, šteta usled kvara i slično. Ovo je problem sa više strana u kojem korporacija mora da veruje da agent izdaje refundacije iz pravih razloga, dok agent takođe komunicira sa trećim stranama koje mogu imati cilj da ga dovedu u zabludu ili čak stave pod pritisak.
U stvarnom svetu, agent dobija skup pravila kojih treba da se pridržava, ali se očekuje da će u adversarijalnom okruženju u kojem postoji biti doveden u zabludu. Možda kupac pošalje poruku tvrdeći da njegova refundacija nikada nije prošla ili preti štetom ako ne dobije refundaciju. Deterministički sistemi sa kojima agent komunicira ograničavaju iznos refundacija koje mogu biti dodeljene kupcu, označavaju potencijalne phishing imejlove i pružaju druga slična ublažavanja kako bi ograničili posledice kompromitovanja pojedinačnog agenta.
Ovakav način razmišljanja oblikovao je snažan skup protivmera koje smo primenili i koje održavaju bezbednosna očekivanja naših korisnika.
U ChatGPT‑u kombinujemo ovaj model socijalnog inženjeringa sa tradicionalnijim pristupima bezbednosnog inženjeringa, kao što je analiza source-sink.
U tom okviru, napadaču su potrebni i source, odnosno način da utiče na sistem, i sink, odnosno mogućnost koja postaje opasna u pogrešnom kontekstu. Za agentske sisteme to često znači kombinovanje nepouzdanog spoljnog sadržaja sa radnjom kao što je prenos informacija trećoj strani, praćenje veze ili interakcija sa alatom.
Naš cilj je da očuvamo ključno bezbednosno očekivanje korisnika: potencijalno opasne radnje ili prenos potencijalno osetljivih informacija ne bi trebalo da se dešavaju neprimetno ili bez odgovarajućih zaštitnih mera.
Napadi koje vidimo razvijene protiv ChatGPT‑a najčešće se sastoje od pokušaja da se asistent ubedi da treba da uzme neku tajnu informaciju iz razgovora i pošalje je zlonamernoj trećoj strani. U većini slučajeva za koje znamo, ovi napadi ne uspevaju jer naša bezbednosna obuka navodi agenta da odbije. Za one slučajeve u kojima je agent ubeđen, razvili smo strategiju ublažavanja pod nazivom Safe Url, koja je osmišljena da otkrije kada bi informacije koje je asistent saznao u razgovoru bile prenete trećoj strani. U tim retkim slučajevima ili prikažemo korisniku informacije koje bi bile prenete i zatražimo potvrdu, ili to blokiramo i kažemo agentu da pokuša drugi način da nastavi sa korisničkim zahtevom.
Ovaj isti mehanizam primenjuje se na navigacije i obeleživače u Atlasu; i pretrage i navigacije u Deep Research. ChatGPT платно i ChatGPT Apps imaju sličan pristup, omogućavajući agentu da kreira i koristi funkcionalne aplikacije — one rade u sandbox okruženju koje može da otkrije neočekivanu komunikaciju i zatraži korisnikov pristanak(отвара се у новом прозору).
Više informacija o Safe Url-u i rad o njegovoj strukturi možete pronaći u posebnoj objavi na blogu Kako da vaši podaci ostanu bezbedni kada AI agent klikne na vezu.
Bezbedna interakcija sa adversarijalnim spoljnim svetom neophodna je za potpuno autonomne agente. Kada integrišete AI model sa aplikacionim sistemom, preporučujemo da se zapitate koje kontrole bi ljudski agent trebalo da ima u sličnoj situaciji i da njih implementirate. Očekujemo da će maksimalno inteligentan AI model moći da se odupre socijalnom inženjeringu bolje nego ljudski agent, ali to nije uvek izvodljivo ili isplativo, u zavisnosti od primene.
Nastavljamo da istražujemo implikacije socijalnog inženjeringa protiv AI modela i odbrane od njega i da naše nalaze ugrađujemo i u arhitekture bezbednosti naših aplikacija i u obuku kroz koju prolaze naši AI modeli.
Fusnote
- 1
Rehberger, J. (2023, 04 15). Ne verujte slepo odgovorima LLM-a. Pretnje po četbotove. EmbraceTheRed. Preuzeto 11 14, 2025, sa https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
Autori
Thomas Shadwell и Adrian Spânu


