Dizajniranje AI agenata koji će se oduprijeti ubrizgavanju upita
Šta nas socijalni inženjering uči o osiguravanju AI agenata.
AI agenti sve više mogu pregledavati internet, preuzimati informacije i preduzimati radnje u ime korisnika. Te mogućnosti su korisne, ali stvaraju i nove načine na koje napadači mogu pokušati manipulisati sistemom.
Ovi napadi se često opisuju kao ubrizgavanje upita: upute postavljene u vanjski sadržaj u pokušaju da se model navede da uradi nešto što korisnik nije tražio. Prema našem iskustvu, najučinkovitije verzije ovih napada u stvarnom svijetu sve više nalikuju socijalnom inženjeringu više nego jednostavnim nadjačavanjima upita.
Ta promjena je važna. Ako problem nije samo identifikacija zlonamjernog niza, već i otpor prema obmanjujućem ili manipulativnom sadržaju u kontekstu, onda se odbrana od toga ne može oslanjati samo na filtriranje ulaza. Također zahtijeva dizajniranje sistema tako da je uticaj manipulacije ograničen, čak i ako neki napadi uspiju.
Rani napadi tipa „ubrizgavanje upita“ mogli su biti jednostavni poput uređivanja Wikipedia članka kako bi uključivao direktne upute AI agentima koji ga posjećuju; bez iskustva tokom obuke u takvom adversarijalnom okruženju AI modeli bi često slijedili te upute bez pitanja1. Kako su modeli postajali pametniji, postali su i manje ranjivi na ovu vrstu sugestije, a primijetili smo da su napadi u stilu ubrizgavanja upita odgovorili uključivanjem elemenata socijalnog inženjeringa:
Primjer e-pošte za ubrizgavanje upita
Primjer napada ubrizgavanja upita na ChatGPT iz 2025. godine, prijavljen OpenAI-ju od strane eksternih sigurnosnih istraživača(otvara se u novom prozoru). Tokom testiranja, funkcionisalo je 50% vremena sa korisničkim upitom: „Želim da detaljno istražiš moje današnje e-poruke, želim da pročitaš i provjeriš svaki izvor koji bi mogao pružiti informacije o mom procesu za novog zaposlenika.“
U širem ekosistemu sigurnosti AI-ja postalo je uobičajeno preporučivati tehnike kao što je „AI firewalling“, u kojem posrednik između AI agenta i vanjskog svijeta pokušava klasificirati ulaze na zlonamjerno ubrizgavanje upita i regularne ulaze—ali ovi potpuno razvijeni napadi se obično ne hvataju takvim sistemima. Za takve sisteme, otkrivanje zlonamjernog unosa postaje isti vrlo težak problem kao otkrivanje laži ili dezinformacija, i često bez potrebnog konteksta.
Kako su napadi ubrizgavanja upita u stvarnom svijetu postajali složeniji, otkrili smo da su najefikasnije ofanzivne tehnike koristile taktike socijalnog inženjeringa. Umjesto da ove napade napadi ubrizgavanja upita sa socijalnim inženjeringom tretiramo kao zasebnu ili potpuno novu klasu problema, počeli smo to posmatrati kroz istu prizmu koja se koristi za upravljanje rizikom socijalnog inženjeringa kod ljudi u drugim domenama. U ovim sistemima, cilj nije ograničen na savršeno identifikovanje zlonamjernih ulaza, već na dizajniranje agenata i sistema tako da je uticaj manipulacije ograničen, čak i ako uspije. Takvi sistemi se pokazuju efikasnim u ublažavanju i ubrizgavanja upita i socijalnog inženjeringa.
Na ovaj način, možemo zamisliti UI agenta kao da postoji u sličnom sistemu s tri aktera kao agent za korisničku podršku; agent želi djelovati u ime svog poslodavca, ali je kontinuirano izložen vanjskom inputu koji ga može pokušati dovesti u zabludu. Agent korisničke podrške, ljudski ili UI, mora imati postavljena ograničenja na svoje mogućnosti kako bi se ograničio negativni rizik inherentan postojanju u tako zlonamjernom okruženju.
Zamislite okolnost u kojoj ljudsko biće upravlja sistemom korisničke podrške i u mogućnosti je da izdaje poklon kartice i povrate novca zbog neugodnosti koje je korisnik iskusio, kao što su sporost isporuke, oštećenja kao rezultat kvara, itd. Ovo je problem s više strana u kojem korporacija mora vjerovati da agent odobrava povrate novca iz pravih razloga, dok agent takođe komunicira s trećim stranama koje mogu nastojati da ga dovedu u zabludu ili ga čak stave pod prisilu.
U stvarnom svijetu, agentu se daje skup pravila kojih se treba pridržavati, ali se očekuje da će, u neprijateljskom okruženju u kojem postoje, biti dovedeni u zabludu. Možda kupac pošalje poruku tvrdeći da njihov povrat novca nikada nije prošao, ili prijeti nanošenjem štete ako mu se ne odobri povrat novca. Deterministički sistemi s kojima agent komunicira ograničavaju iznos povrata novca koji se može dati korisniku, označavaju potencijalne phishing e-poruke i pružaju druge takve mjere ublažavanja kako bi se ograničio uticaj kompromitovanja pojedinačnog agenta.
Ovakav način razmišljanja oblikovao je robustan skup protumjera koje smo implementirali i koje ispunjavaju sigurnosna očekivanja naših korisnika.
U ChatGPT‑u kombinujemo ovaj model socijalnog inženjeringa s tradicionalnijim pristupima sigurnosnog inženjeringa, poput analize izvora i odredišta.
U tom okviru, napadaču su potrebni i izvor, ili način da utiče na sistem, i ponor, ili sposobnost koja postaje opasna u pogrešnom kontekstu. Za agentičke sisteme, to često znači kombinovanje nepouzdanog vanjskog sadržaja s radnjom kao što je prenošenje informacija trećoj strani, praćenje linka ili interakcija s alatom.
Naš cilj je očuvati osnovno sigurnosno očekivanje za korisnike: potencijalno opasne radnje ili prijenosi potencijalno osjetljivih informacija ne bi se trebali događati tiho ili bez odgovarajućih zaštitnih mjera.
Napadi koje najčešće viđamo razvijene protiv ChatGPT‑a najčešće se sastoje od pokušaja da se asistent uvjeri da bi trebao uzeti neke tajne informacije iz razgovora i prenijeti ih zlonamjernoj trećoj strani. U većini slučajeva za koje znamo, ovi napadi ne uspijevaju jer naša obuka o sigurnosti navodi agenta da odbije. Za one slučajeve u kojima je agent uvjeren, razvili smo strategiju ublažavanja nazvanu Safe Url koja je osmišljena da otkrije kada bi se informacije koje je asistent naučio u razgovoru prenijele trećoj strani. U ovim rijetkim slučajevima korisniku ili prikažemo informacije koje bi bile prenesene i zatražimo da ih potvrdi, ili to blokiramo i kažemo agentu da pokuša na drugi način nastaviti s korisnikovim zahtjevom.
Ovaj isti mehanizam se primjenjuje na navigacije i oznake u Atlas; te pretrage i navigacije u duboko istraživanje. ChatGPT Canvas & ChatGPT Apps imaju sličan pristup, omogućavajući agentu da kreira i koristi funkcionalne aplikacije—one se pokreću u sandbox okruženju koje može otkriti neočekivane komunikacije i zatražiti pristanak korisnika(otvara se u novom prozoru).
Možete pročitati više informacija o Safe Url-u i pronaći članak o njegovoj strukturi u namjenskoj blog objavi Čuvanje vaših podataka sigurnim kada AI agent klikne na vezu.
Sigurna interakcija s adversarijalnim vanjskim svijetom je neophodna za potpuno autonomne agente. Prilikom integracije AI modela s aplikacijskim sistemom, preporučujemo da pitate koje bi kontrole ljudski agent trebao imati u sličnoj situaciji i da ih implementirate. Očekujemo da će maksimalno inteligentan AI model moći bolje odoljeti društvenom inženjeringu nego ljudski agent, ali to nije uvijek izvodivo ili isplativo, ovisno o aplikaciji.
Nastavljamo istraživati implikacije socijalnog inženjeringa na AI modele i odbrane od njega, te ugrađujemo naša saznanja u sigurnosne arhitekture aplikacija i obuku naših AI modela.
Fusnote
- 1
Rehberger, J. (2023, 04 15). Nemojte slijepo vjerovati LLM odgovorima. Prijetnje za chatbotove. EmbraceTheRed. Pristupljeno: 14.11.2025., sa https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
Autori
Thomas Shadwell i Adrian Spânu


