Ngrancang agen AI supaya tahan marang injeksi prompt
Apa sing diwulangake rekayasa sosial marang kita babagan ngamanake agen AI.
Agen AI saya bisa njelajah web, njupuk informasi, lan nindakake tumindak kanggo pangguna. Kapabilitas iki migunani, nanging uga nggawe cara anyar kanggo penyerang nyoba ngapusi sistem.
Serangan iki kerep diterangake minangka injeksi prompt: instruksi sing dilebokake ing konten eksternal kanggo nyoba nggawe model nindakake perkara sing ora dijaluk pangguna. Miturut pengalaman kami, versi serangan iki sing paling efektif ing donya nyata saya luwih mirip rekayasa sosial tinimbang mung override prompt sing prasaja.
Owahan iki penting. Yen masalahe ora mung ngenali string ala, nanging uga nahan konten sing nyasarké utawa manipulatif ing konteks, mula pertahanané ora bisa mung gumantung marang nyaring input. Iki uga mbutuhake ngrancang sistem supaya dampak manipulasi tetep diwatesi, sanajan sawetara serangan kasil.
Serangan jinis “injeksi prompt” awal bisa semudah nyunting artikel Wikipedia supaya ngemot instruksi langsung kanggo agen AI sing ngunjungi; tanpa pengalaman wektu-latihan babagan lingkungan adversarial kaya ngono, model AI kerep manut instruksi kasebut tanpa pitakon1. Nalika model saya pinter, model uga saya ora rentan marang saran kaya iki lan kita mirsani yen serangan gaya injeksi prompt nanggapi kanthi nambah unsur rekayasa sosial:
Conto email injeksi prompt
Conto serangan injeksi prompt ing ChatGPT taun 2025 sing dilaporake menyang OpenAI dening peneliti keamanan eksternal(mbukak ing jendhela anyar). Ing pengujian, iki bisa mlaku 50% saka wektu nganggo prompt pangguna “Aku pengin kowe nindakake panaliten jero marang email-emailku saka dina iki, aku pengin kowe maca lan mriksa saben sumber sing bisa nyedhiyakake informasi babagan proses karyawan anyarku.”
Ing ekosistem keamanan AI sing luwih amba, wis dadi umum nyaranake teknik kayata “AI firewalling” ing ngendi perantara antarane agen AI lan donya njaba nyoba nggolongake input dadi injeksi prompt ala lan input biasa—nanging serangan sing wis dikembangake kanthi lengkap iki biasane ora ketangkep dening sistem kaya mangkono. Kanggo sistem kaya iki, ndeteksi input ala dadi masalah sing angel banget sing padha karo ndeteksi goroh utawa misinformasi, lan kerep tanpa konteks sing dibutuhake.
Nalika serangan injeksi prompt ing donya nyata saya rumit, kita nemokake yen teknik ofensif sing paling efektif nggunakke taktik rekayasa sosial. Tinimbang nganggep serangan injeksi prompt kanthi rekayasa sosial iki minangka kelas masalah sing kapisah utawa babar pisan anyar, kita wiwit ndeleng liwat lensa sing padha karo sing digunakake kanggo ngatur risiko rekayasa sosial marang manungsa ing domain liyane. Ing sistem kaya iki, tujuane ora mung ngenali input ala kanthi sampurna, nanging ngrancang agen lan sistem supaya dampak manipulasi diwatesi, sanajan serangan kasebut kasil. Sistem kaya iki kabukten efektif kanggo nyuda injeksi prompt lan rekayasa sosial.
Kanthi cara iki, kita bisa mbayangake agen AI ana ing sistem telung aktor sing padha karo agen layanan pelanggan; agen pengin tumindak kanggo wakilé majikané, nanging dheweke terus kena input eksternal sing bisa nyoba nyasarké. Agen dukungan pelanggan, manungsa utawa AI, kudu diwenehi watesan ing kapabilitasé kanggo matesi risiko mudhun sing nempel amarga ana ing lingkungan ala kaya ngono.
Bayangna kahanan nalika manungsa ngoperasikake sistem dukungan pelanggan lan bisa menehi gift card lan refund kanggo gangguan sing dialami pelanggan kayata pangiriman alon, kerusakan amarga malfunction, lan sapiturute. Iki masalah multi-pihak nalika perusahaan kudu percaya yen agen menehi refund amarga alesan sing bener, nalika agen uga sesambungan karo pihak katelu sing bisa nyoba nyasarké utawa malah meksa dheweke.
Ing donya nyata, agen diwenehi sakumpulan aturan kanggo dituruti, nanging dikarepake yen, ing lingkungan adversarial panggonané, dheweke bakal disasarké. Mbokmenawa pelanggan ngirim pesen sing ngakoni refund-e ora tau mlebu, utawa ngancam bakal nglarani yen ora diwenehi refund. Sistem deterministik sing sesambungan karo agen matesi jumlah refund sing bisa diwenehake marang pelanggan, nandhai email phishing sing potensial, lan nyedhiyakake mitigasi liyane kanggo matesi dampak yen ana agen individu sing kompromi.
Pola pikir iki wis nuntun paket countermeasure sing kuwat sing wis kita terapkan kanggo njaga pangarepan keamanan para pangguna kita.
Ing ChatGPT, kita nggabungake model rekayasa sosial iki karo pendekatan rekayasa keamanan sing luwih tradisional kayata analisis source-sink.
Ing kerangka iki, penyerang butuh source, utawa cara kanggo mangaruhi sistem, lan sink, utawa kapabilitas sing dadi mbebayani ing konteks sing salah. Kanggo sistem agen, iki kerep ateges nggabungake konten eksternal sing ora dipercaya karo tumindak kayata ngirim informasi menyang pihak katelu, ngetutake pranala, utawa sesambungan karo alat.
Tujuan kita yaiku njaga pangarepan keamanan inti kanggo pangguna: tumindak sing bisa mbebayani, utawa transmisi informasi sing bisa sensitif, ora kena kelakon kanthi meneng-meneng utawa tanpa pengaman sing cocog.
Serangan sing kita deleng dikembangake marang ChatGPT paling kerep kalebu nyoba ngyakinake asisten supaya njupuk sawetara informasi rahasia saka obrolan lan ngirimake menyang pihak katelu sing ala. Ing akeh kasus sing kita ngerti, serangan iki gagal amarga pelatihan keamanan kita nggawe agen nolak. Kanggo kasus nalika agen kasil diyakini, kita wis ngembangake strategi mitigasi sing diarani Safe Url sing dirancang kanggo ndeteksi nalika informasi sing disinaoni asisten ing obrolan bakal ditransmisikake menyang pihak katelu. Ing kasus langka iki, kita salah siji nuduhake marang pangguna informasi sing bakal ditransmisikake lan njaluk konfirmasi, utawa kita mblokir lan ngandhani agen supaya nyoba cara liya kanggo nerusake panjaluk pangguna.
Mekanisme sing padha iki uga ditrapake kanggo navigasi lan bookmark ing Atlas; uga panelusuran lan navigasi ing Deep Research. ChatGPT Canvas & ChatGPT Apps njupuk pendekatan sing padha, ngidini agen nggawe lan nggunakake aplikasi fungsional—iki mlaku ing sandbox sing bisa ndeteksi komunikasi sing ora dikarepake lan njaluk idin pangguna(mbukak ing jendhela anyar).
Sampeyan bisa maca informasi liyane babagan Safe Url lan nemokake makalah babagan strukturne ing kiriman blog khususé Njaga data sampeyan tetep aman nalika agen AI ngeklik pranala.
Interaksi aman karo donya njaba sing adversarial perlu kanggo agen otonom kanthi lengkap. Nalika ngintegrasikake model AI karo sistem aplikasi, kita nyaranake takon kontrol apa sing kudune diduweni agen manungsa ing kahanan sing padha lan ngetrapake kontrol kasebut. Kita ngarep-arep model AI sing paling cerdas bakal bisa nahan rekayasa sosial luwih apik tinimbang agen manungsa, nanging iki ora tansah layak utawa hemat biaya gumantung saka aplikasine.
Kita terus njelajah implikasi rekayasa sosial marang model AI lan pertahanan marang iku lan nggabungake temuan kita menyang arsitektur keamanan aplikasi uga pelatihan sing kita lakokake marang model AI kita.
Cathetan sikil
- 1
Rehberger, J. (2023, 04 15). Aja percaya mentah-mentah marang tanggapan LLM. Ancaman kanggo chatbot. EmbraceTheRed. Dijupuk 11 14, 2025, saka https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
Penulis
Thomas Shadwell, Adrian Spânu


