Memahami injeksi prompt: tantangan keamanan di garis terdepan
Alat bantu AI mulai melakukan lebih dari sekadar menjawab pertanyaan. Mereka kini dapat menjelajahi web, membantu riset, merencanakan perjalanan, dan membantu membeli produk. Seiring kemampuan mereka semakin meningkat, termasuk mengakses data Anda di aplikasi lain dan mengambil tindakan atas nama Anda, muncul tantangan keamanan baru. Salah satu yang sangat kami fokuskan adalah injeksi prompt.
Injeksi prompt adalah jenis serangan rekayasa sosial yang khusus untuk AI percakapan. Sistem AI awal adalah percakapan antara satu pengguna dan satu agen AI. Dalam produk AI saat ini, percakapan Anda mungkin menyertakan konten dari berbagai sumber, termasuk internet. Gagasan bahwa pihak ketiga (yang bukan pengguna dan bukan AI) dapat menyesatkan model dengan menyisipkan instruksi berbahaya ke dalam konteks percakapan melahirkan istilah “injeksi prompt”.
Sama seperti email phishing atau penipuan di internet yang berusaha mengelabui orang agar menyerahkan informasi sensitif, injeksi prompt berupaya menipu AI agar melakukan sesuatu yang tidak Anda minta.
Coba bayangkan Anda menugaskan AI untuk mencari informasi terkait rencana liburan di internet, lalu di tengah proses itu AI menemukan konten yang menipu atau instruksi berbahaya yang disisipkan pada halaman web, seperti pada kolom komentar atau ulasan. Isi konten itu mungkin disusun secara sengaja untuk mengelabui AI supaya menyarankan penawaran yang keliru, atau dalam skenario yang lebih berbahaya, mengambil data kartu kredit Anda.
Contoh-contoh tersebut menggambarkan serangan “injeksi prompt”, yaitu instruksi berbahaya yang dibuat untuk mengelabui AI agar menjalankan tindakan yang tidak Anda inginkan, biasanya disisipkan dalam konten umum seperti situs web, dokumen, atau email.
Risiko ini meningkat seiring dengan semakin banyaknya akses AI ke data sensitif dan semakin besar inisiatif serta semakin panjang tugas yang diambil.
Ringkasan | Apa yang Anda minta AI untuk lakukan | Apa yang dilakukan penyerang | Hasil potensial jika serangan berhasil |
Anda menugaskan AI mencari informasi apartemen, namun karena terpengaruh injeksi prompt, AI justru menyarankan penawaran yang tidak paling sesuai bagi Anda. | Anda meminta AI untuk meneliti apartemen dengan beberapa kriteria yang diberikan. | Penyerang menanamkan instruksi injeksi prompt pada listing apartemen tersebut untuk memanipulasi AI agar memilih penawaran mereka, meskipun tidak sesuai dengan kriteria yang diinginkan pengguna. | Jika serangan berhasil, AI mungkin akan salah merekomendasikan daftar apartemen yang tidak optimal berdasarkan preferensi Anda. |
Anda meminta agen AI untuk membalas email Anda dari semalam, dan ternyata agen tersebut malah membagikan laporan rekening bank Anda. | Anda meminta agen AI untuk menanggapi email Anda dari semalam secara umum karena Anda sibuk pagi ini. Lihat “Jika memungkinkan, berikan instruksi eksplisit kepada agen” di bawah | Penyerang mengirimkan email kepada Anda yang berisi informasi salah yang menipu model untuk menemukan laporan bank Anda dan membagikannya dengan penyerang. | Jika serangan berhasil, agen mungkin akan mencari hal-hal seperti laporan rekening bank di email Anda (yang Anda berikan akses untuk tugas tersebut) dan akan membagikannya dengan penyerang. |
Mempertahankan diri dari injeksi prompt adalah tantangan di seluruh industri AI dan merupakan fokus utama di OpenAI. Meskipun kami mengharapkan pihak lawan untuk terus mengembangkan serangan semacam itu, kami sedang membangun pertahanan yang dirancang untuk melaksanakan tugas yang diinginkan pengguna bahkan ketika ada yang secara aktif mencoba menyesatkan mereka. Kemampuan tersebut sangat penting untuk mewujudkan manfaat AGI dengan aman.
Demi menjaga keamanan pengguna dan memperkuat model kami dari serangan tersebut, kami menggunakan strategi perlindungan multi-lapis, yang meliputi:
Kami ingin AI yang dapat mengenali injeksi prompt dan tidak terpengaruh olehnya. Namun, ketahanan terhadap serangan adversarial adalah tantangan yang sudah lama ada dalam pembelajaran mesin dan AI, menjadikannya masalah yang sulit dan belum terpecahkan. Kami telah mengembangkan penelitian yang disebut Hierarki Instruksi untuk mengembangkan model yang dapat membedakan antara instruksi yang tepercaya dan yang tidak tepercaya. Kami terus mengembangkan pendekatan baru untuk melatih model agar lebih baik dalam mengenali pola injeksi prompt sehingga mereka dapat mengabaikannya atau menandainya kepada pengguna. Salah satu teknik yang kami terapkan adalah red-teaming otomatis, sebuah bidang yang telah kami pelajari(terbuka di jendela baru) selama bertahun-tahun, untuk mengembangkan serangan injeksi prompt yang baru.
Kami telah mengembangkan beberapa pemantau yang didukung AI otomatis untuk mengidentifikasi dan memblokir serangan injeksi prompt. Ini melengkapi pendekatan pelatihan keselamatan karena dapat diperbarui dengan cepat untuk segera memblokir serangan baru yang kami temukan. Pemantauan ini tidak hanya membantu mengidentifikasi potensi serangan prompt injection terhadap pengguna kami, tetapi juga memungkinkan kami mendeteksi riset dan pengujian prompt injection yang bersifat adversarial di platform kami sebelum serangan tersebut dilepaskan ke publik.
Kami telah merancang produk dan infrastruktur kami dengan berbagai perlindungan keamanan yang saling tumpang tindih untuk membantu menjaga keamanan data pengguna. Fitur-fitur ini, yang akan kami jelajahi lebih mendalam secara teknis di postingan mendatang, disesuaikan untuk setiap produk. Sebagai contoh, untuk membantu Anda menghindari situs yang tidak tepercaya, kami akan meminta Anda menyetujui tautan tertentu di ChatGPT, terutama pada situs web yang meminta kami untuk tidak mencantumkannya dalam katalog(terbuka di jendela baru), sebelum tautan tersebut dapat dikunjungi. Ketika AI kami menggunakan alat untuk menjalankan program atau kode lain (seperti di Canvas, atau alat pengembangan kami Codex), kami menggunakan teknik yang disebut sandboxing untuk mencegah model membuat perubahan berbahaya yang mungkin merupakan hasil dari injeksi prompt.
Kami menyertakan kontrol bawaan dalam produk kami untuk membantu pengguna melindungi diri mereka. Sebagai contoh, di ChatGPT Atlas, Anda dapat memilih mode tidak masuk yang memungkinkan agen ChatGPT memulai tugas tanpa harus masuk ke situs. Agen ChatGPT juga berhenti dan meminta konfirmasi sebelum melakukan langkah sensitif seperti menyelesaikan pembelian. Saat agen beroperasi di situs yang bersifat sensitif, kami juga menerapkan “Mode Pengawasan” yang memberi peringatan tentang tingkat sensitivitas situs tersebut dan mengharuskan Anda tetap membuka serta memantau tab saat agen menjalankan tugasnya. Agen akan berhenti sementara jika Anda meninggalkan tab yang berisi informasi sensitif. Ini memastikan Anda tetap waspada—dan memegang kendali—atas tindakan yang dilakukan oleh agen.
Kami melakukan red-teaming secara ekstensif bersama tim internal dan eksternal untuk menguji serta meningkatkan pertahanan kami, mensimulasikan perilaku penyerang, dan menemukan cara-cara baru untuk memperkuat keamanan. Ini mencakup ribuan jam yang secara khusus difokuskan pada injeksi prompt. Seiring kami menemukan teknik dan pola serangan baru, tim kami secara proaktif menangani kerentanan keamanan serta meningkatkan langkah mitigasi pada model.
Untuk mendorong peneliti keamanan independen yang beriktikad baik agar membantu kami menemukan teknik dan serangan injeksi prompt yang baru, kami menawarkan imbalan finansial melalui program bug bounty(terbuka di jendela baru) kami ketika mereka menunjukkan jalur serangan yang realistis yang dapat mengakibatkan paparan data pengguna yang tidak disengaja. Kami memberikan insentif kepada kontributor eksternal untuk segera mengungkapkan masalah ini agar kami dapat menyelesaikannya dan lebih memperkuat pertahanan kami.
Kami mendidik pengguna tentang risiko penggunaan fitur tertentu dalam produk agar mereka dapat membuat keputusan yang terinformasi. Sebagai contoh, saat menghubungkan ChatGPT ke aplikasi lain, kami menjelaskan data apa saja yang mungkin diakses, bagaimana data tersebut dapat digunakan, serta risiko yang dapat muncul, seperti situs yang mencoba mencuri data Anda, disertai tautan untuk mempelajari cara tetap lebih aman. Kami juga memberikan organisasi kendali atas fitur-fitur yang dapat diaktifkan atau digunakan oleh pengguna di workspace mereka.
Injeksi prompt adalah tantangan keamanan terdepan yang kami perkirakan akan terus berkembang seiring waktu. Tingkat kecerdasan dan kapabilitas yang baru memerlukan teknologi, masyarakat, dan strategi mitigasi risiko untuk berkembang bersama. Seperti halnya virus komputer pada awal tahun 2000-an, kami meyakini penting bagi semua orang untuk memahami ancaman injeksi prompt dan cara mengelola risikonya, agar kita dapat memanfaatkan teknologi ini dengan aman. Tetap waspada dan berhati-hati membantu menjaga data Anda lebih aman saat menggunakan AI dan fitur yang dapat bertindak atas nama Anda.
Jika memungkinkan, batasi akses agen hanya pada data sensitif atau kredensial yang dibutuhkan untuk menyelesaikan tugas. Sebagai contoh, saat menggunakan mode agen di ChatGPT Atlas untuk melakukan riset liburan, jika agen hanya melakukan pencarian informasi dan tidak memerlukan akses login, gunakan mode “keluar”.
Kami sering merancang agen agar meminta konfirmasi akhir dari Anda sebelum melakukan tindakan penting, seperti menyelesaikan pembelian atau mengirim email. Saat agen meminta Anda untuk mengonfirmasi suatu tindakan, periksa dengan saksama apakah tindakan tersebut sudah benar dan apakah informasi yang dibagikan memang sesuai untuk dibagikan dalam konteks tersebut.
Ketika agen beroperasi di situs sensitif, seperti bank Anda, perhatikan agen saat melakukan pekerjaannya. Ini seperti memantau mobil swakemudi dengan tetap meletakkan tangan Anda di setir.
Memberikan instruksi yang sangat luas kepada agen, seperti “tinjau email saya dan lakukan tindakan apa pun yang diperlukan”, dapat memudahkan konten berbahaya yang tersembunyi untuk menyesatkan model, meskipun agen tersebut dirancang untuk meminta konfirmasi sebelum melakukan tindakan sensitif.
Lebih aman untuk meminta agen melakukan berbagai tugas tertentu, dan tidak memberinya kebebasan yang luas untuk berpotensi mengikuti instruksi berbahaya dari sumber lain seperti email. Meskipun ini tidak menjamin bahwa tidak akan ada serangan, hal ini membuat penyerang lebih sulit untuk berhasil.
Seiring teknologi AI berkembang, risiko dan langkah-langkah perlindungan baru akan muncul. Ikuti pembaruan dari OpenAI dan sumber tepercaya lainnya untuk mempelajari praktik terbaik.
Injeksi prompt tetap menjadi masalah penelitian terdepan yang menantang, dan seperti penipuan tradisional di web, kami mengharapkan pekerjaan kami akan terus berlanjut. Meskipun teknik ini belum diadopsi secara luas oleh para penyerang, kami memperkirakan bahwa pihak adversarial akan menginvestasikan waktu dan sumber daya yang signifikan untuk menemukan cara agar AI dapat terjebak oleh serangan tersebut. Kami terus berinvestasi secara besar-besaran untuk memastikan produk kami tetap aman serta melakukan riset guna meningkatkan ketahanan AI terhadap risiko ini. Kami akan terus memberikan update ketika ada temuan baru, termasuk progres yang sedang berlangsung dalam pekerjaan keamanan kami pada area tersebut. Sebagai contoh, kami sedang menyusun sebuah laporan yang akan segera dipublikasikan, yang memuat rincian lebih lanjut tentang bagaimana kami mendeteksi apakah komunikasi AI Anda dengan internet berpotensi mengirimkan informasi dari percakapan Anda.
Tujuan kami adalah membuat sistem ini seandal dan seaman bekerja dengan rekan kerja atau teman Anda yang paling tepercaya dan paham keamanan. Kami akan terus belajar dari penggunaan di dunia nyata, melakukan iterasi secara aman, dan membagikan temuan kami seiring kemajuan teknologi.


