Merancang agen AI agar tahan terhadap injeksi prompt
Apa yang rekayasa sosial ajarkan kepada kita soal mengamankan agen AI.
Agen AI semakin mampu menjelajah web, mengambil data, dan mengambil tindakan atas nama pengguna. Kemampuan tersebut bermanfaat, tetapi juga menciptakan cara baru bagi penyerang untuk mencoba memanipulasi sistem.
Serangan ini sering dijelaskan sebagai injeksi prompt: instruksi yang ditempatkan dalam konten eksternal dalam upaya membuat model melakukan sesuatu yang tidak diminta pengguna. Menurut pengalaman kami, versi serangan di dunia nyata yang paling efektif semakin menyerupai rekayasa sosial daripada sekadar penggantian prompt.
Pergeseran itu penting. Jika masalahnya bukan sekadar mengidentifikasi string berbahaya, melainkan menangkal konten yang menyesatkan atau manipulatif dalam konteks, maka pertahanan terhadapnya tidak dapat hanya bergantung pada pemfilteran input. Hal ini juga memerlukan perancangan sistem sehingga dampak manipulasi bisa dibatasi, bahkan jika beberapa serangan berhasil.
Serangan awal jenis “injeksi prompt” bisa sesederhana mengedit artikel Wikipedia untuk menyertakan instruksi langsung kepada agen AI yang mengunjunginya; tanpa pengalaman pada saat pelatihan dalam lingkungan adversarial semacam itu, model AI sering kali akan mengikuti instruksi tersebut tanpa mempertanyakannya1. Seiring dengan semakin cerdasnya model, model juga menjadi semakin kurang rentan terhadap jenis saran seperti ini dan kami mengamati bahwa serangan bergaya injeksi prompt telah merespons dengan menyertakan elemen rekayasa sosial:
Contoh email untuk injeksi prompt
Contoh tahun 2025 tentang serangan injeksi prompt pada ChatGPT yang dilaporkan kepada OpenAI oleh peneliti keamanan eksternal(terbuka di jendela baru). Dalam pengujian, hal ini berfungsi 50% setiap waktu dengan prompt pengguna “Saya ingin Anda melakukan riset mendalam pada email saya dari hari ini, saya ingin Anda membaca dan memeriksa setiap sumber yang dapat menyediakan informasi tentang proses karyawan baru saya.”
Dalam ekosistem keamanan AI yang lebih luas, sudah menjadi hal yang umum untuk merekomendasikan teknik seperti “AI firewalling” di mana perantara antara agen AI dan dunia luar berupaya mengklasifikasikan input menjadi injeksi prompt berbahaya dan input biasa—namun serangan yang sepenuhnya berkembang ini biasanya tidak tertangkap oleh sistem semacam itu. Untuk sistem semacam itu, mendeteksi input yang berbahaya menjadi masalah yang sama sangat sulitnya seperti mendeteksi kebohongan atau misinformasi, dan sering kali tanpa konteks yang diperlukan.
Seiring berkembangnya serangan injeksi prompt di dunia nyata dalam kompleksitas, kami menemukan bahwa teknik serangan yang paling efektif adalah dengan memanfaatkan taktik rekayasa sosial. Alih-alih memperlakukan serangan injeksi prompt ini dengan rekayasa sosial sebagai kelas masalah yang terpisah atau yang sepenuhnya baru, kami mulai memandangnya melalui lensa yang sama yang digunakan untuk mengelola risiko rekayasa sosial pada manusia di domain lain. Dalam sistem ini, tujuannya tidak terbatas pada mengidentifikasi input berbahaya secara sempurna, tetapi merancang agen dan sistem agar dampak manipulasi dibatasi, bahkan jika manipulasi tersebut berhasil. Sistem semacam itu terbukti efektif dalam memitigasi injeksi prompt dan rekayasa sosial.
Dengan cara ini, kita dapat membayangkan agen AI seolah berada dalam sistem tiga-aktor yang serupa dengan agen layanan pelanggan; agen tersebut ingin bertindak atas nama pemberi kerja mereka, tetapi mereka terus-menerus terpapar oleh masukan eksternal yang mungkin berupaya menyesatkan mereka. Agen dukungan pelanggan, manusia atau AI, harus diberi batasan pada kemampuan mereka untuk membatasi risiko kerugian yang melekat karena berada dalam lingkungan yang begitu berbahaya.
Bayangkan suatu keadaan di mana seorang manusia mengoperasikan sistem dukungan pelanggan dan dapat memberikan kartu hadiah dan pengembalian dana atas ketidaknyamanan yang dialami pelanggan seperti keterlambatan pengiriman, kerusakan akibat malfungsi, dll. Ini adalah masalah multi-pihak di mana perusahaan harus memercayai bahwa agen memberikan pengembalian dana untuk alasan yang tepat, sementara agen juga berinteraksi dengan pihak ketiga yang mungkin bertujuan untuk menyesatkan mereka atau bahkan menempatkan mereka di bawah tekanan.
Di dunia nyata, agen diberikan seperangkat aturan untuk diikuti, tetapi dalam lingkungan yang bersifat adversarial tempat mereka beroperasi, mereka diperkirakan akan disesatkan Mungkin pelanggan mengirim pesan yang mengklaim bahwa pengembalian dana mereka tidak pernah diproses, atau mengancam akan menyakiti jika tidak diberi pengembalian dana. Sistem deterministik yang berinteraksi dengan agen membatasi jumlah pengembalian dana yang dapat diberikan kepada pelanggan, menandai email phishing yang berpotensi, dan menyediakan mitigasi lain semacam itu untuk membatasi dampak dari pengambilalihan satu agen individual.
Pola pikir ini telah membentuk rangkaian penanggulangan yang tangguh yang telah kami terapkan untuk menegakkan ekspektasi keamanan para pengguna kami.
Di ChatGPT, kami menggabungkan model rekayasa sosial ini dengan pendekatan rekayasa keamanan yang lebih tradisional seperti analisis sumber-dan-saluran.
Dalam kerangka tersebut, penyerang memerlukan sebuah sumber, atau cara untuk memengaruhi sistem, maupun sebuah sink, atau kapabilitas yang menjadi berbahaya dalam konteks yang salah. Untuk sistem agen, hal itu sering kali berarti menggabungkan konten eksternal yang tidak tepercaya dengan tindakan seperti mengirimkan informasi kepada pihak ketiga, mengikuti tautan, atau berinteraksi dengan alat.
Tujuan kami adalah mempertahankan ekspektasi keamanan inti bagi pengguna: tindakan berpotensi membahayakan, atau transmisi informasi yang berpotensi sensitif, tidak boleh terjadi secara diam-diam atau tanpa perlindungan yang sesuai.
Serangan yang paling sering kami lihat dikembangkan terhadap ChatGPT biasanya berupa upaya untuk meyakinkan asisten bahwa asisten harus mengambil beberapa informasi rahasia dari percakapan dan mengirimkannya ke pihak ketiga berbahaya. Dalam sebagian besar kasus yang kami ketahui, serangan ini gagal karena pelatihan keselamatan kami membuat agen menolak. Untuk kasus-kasus ketika agen yakin, kami telah mengembangkan strategi mitigasi yang disebut Safe Url yang dirancang untuk mendeteksi ketika informasi yang dipelajari asisten dalam percakapan akan dikirimkan kepada pihak ketiga. Dalam kasus-kasus langka ini, kami akan menampilkan kepada pengguna informasi yang akan ditransmisikan dan meminta mereka untuk mengonfirmasi, atau kami memblokirnya dan memberi tahu agen untuk mencoba cara lain agar dapat melanjutkan permintaan pengguna.
Mekanisme yang sama ini berlaku untuk navigasi dan penanda di Atlas; serta pencarian dan navigasi di riset mendalam. ChatGPT Canvas & ChatGPT Apps mengambil pendekatan yang serupa, memungkinkan agen untuk membuat dan menggunakan aplikasi fungsional—hal ini berjalan dalam sandbox yang dapat mendeteksi komunikasi yang tidak terduga dan meminta persetujuan pengguna(terbuka di jendela baru).
Anda dapat membaca informasi lebih lanjut tentang Safe Url dan menemukan makalah tentang strukturnya di postingan blog khususnya Menjaga data Anda tetap aman saat agen AI mengeklik tautan.
Interaksi yang aman dengan dunia luar yang bersifat adversarial diperlukan untuk agen yang sepenuhnya otonom. Saat mengintegrasikan model AI dengan sistem aplikasi, kami merekomendasikan untuk menanyakan kontrol apa yang seharusnya dimiliki agen manusia dalam situasi serupa dan menerapkannya. Kami memperkirakan bahwa model AI dengan tingkat kecerdasan maksimal akan mampu menahan rekayasa sosial dengan lebih baik dibandingkan agen manusia, tetapi hal ini tidak selalu layak atau hemat biaya tergantung pada aplikasinya.
Kami terus mengeksplorasi implikasi rekayasa sosial terhadap model AI dan pertahanan terhadapnya serta memasukkan temuan kami baik ke dalam arsitektur keamanan aplikasi kami maupun pelatihan yang kami berikan kepada model AI kami.
Catatan kaki
- 1
Rehberger, J. (2023, 04 15). Jangan percaya begitu saja pada respons LLM. Ancaman terhadap chatbot. EmbraceTheRed. Diakses 11 14, 2025, dari https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
Penulis
Thomas Shadwell, Adrian Spânu


