Langsung ke konten utama
OpenAI

22 Desember 2025

Keamanan

Memperkuat ChatGPT Atlas secara berkelanjutan terhadap serangan injeksi prompt

Red teaming otomatis—didukung oleh pembelajaran penguatan—membantu kami secara proaktif menemukan dan menambal eksploitasi agen di dunia nyata sebelum mereka dipersenjatai di alam liar.

Memuat…

Mode agen di ChatGPT Atlas adalah salah satu fitur agenik yang paling serbaguna yang telah kami rilis hingga saat ini. Dalam mode ini, agen browser melihat halaman web dan melakukan tindakan, klik, dan penekanan tombol di dalam browser Anda, persis seperti yang Anda lakukan. Ini memungkinkan ChatGPT untuk bekerja langsung pada banyak alur kerja sehari-hari Anda dengan menggunakan ruang, konteks, dan data yang sama.

Seiring agen browser membantu Anda menyelesaikan lebih banyak, ia juga menjadi target bernilai tinggi dari serangan adversarial. Hal ini menjadikan keamanan AI sangat penting. Jauh sebelum kami meluncurkan ChatGPT Atlas, kami telah terus membangun dan memperkuat pertahanan terhadap ancaman yang muncul yang secara khusus menargetkan paradigma baru "agen di browser" ini. Injeksi prompt adalah salah satu risiko paling signifikan yang kami tangani secara aktif untuk memastikan ChatGPT Atlas dapat beroperasi dengan aman atas nama Anda. 

Sebagai bagian dari upaya ini, kami baru-baru ini merilis pembaruan keamanan untuk browser agent Atlas, yang mencakup model baru hasil pelatihan adversarial serta penguatan perlindungan di sekitarnya. Pembaruan ini dipicu oleh kelas baru serangan injeksi prompt yang ditemukan melalui red teaming otomatis internal kami.

Dalam postingan ini, kami menjelaskan bagaimana risiko injeksi prompt dapat muncul untuk agen berbasis web, dan kami berbagi siklus respons cepat yang telah kami bangun untuk terus menemukan serangan baru dan mengirimkan mitigasi dengan cepat—diilustrasikan oleh pembaruan keamanan terbaru ini.

Kami memandang injeksi prompt sebagai tantangan keamanan AI jangka panjang, dan kami perlu terus memperkuat pertahanan kami terhadapnya (seperti halnya penipuan online yang terus berkembang dan menargetkan manusia). Siklus respons cepat terbaru kami menunjukkan hasil awal yang menjanjikan sebagai alat penting dalam perjalanan tersebut: kami menemukan strategi serangan baru secara internal sebelum mereka muncul di alam bebas. Visi jangka panjang kami adalah untuk sepenuhnya memanfaatkan (1) akses white-box ke model kami, (2) pemahaman mendalam tentang pertahanan kami, dan (3) skala komputasi untuk tetap selangkah lebih maju dari penyerang eksternal—menemukan eksploitasi lebih awal, mengirimkan mitigasi lebih cepat, dan terus memperketat siklus. Dikombinasikan dengan penelitian terdepan tentang teknik baru untuk mengatasi injeksi prompt dan peningkatan investasi dalam kontrol keamanan lainnya, siklus penggabungan ini dapat membuat serangan semakin sulit dan mahal, secara signifikan mengurangi risiko injeksi prompt di dunia nyata. Pada akhirnya, tujuan kami adalah agar Anda dapat memercayai agen ChatGPT untuk menggunakan browser Anda seperti Anda mempercayai rekan kerja atau teman yang sangat kompeten dan sadar keamanan.

Injeksi prompt sebagai tantangan terbuka bagi keamanan agen

Serangan injeksi prompt menargetkan agen AI dengan menyisipkan instruksi berbahaya ke dalam konten yang diproses oleh agen tersebut. Instruksi-instruksi tersebut dirancang untuk mengesampingkan atau mengalihkan perilaku agen—membajak agar mengikuti niat penyerang, bukan niat pengguna.

Untuk agen browser seperti yang ada di dalam ChatGPT Atlas, injeksi prompt menambah vektor ancaman baru di luar risiko keamanan web tradisional (seperti kesalahan pengguna atau kerentanan perangkat lunak). Alih-alih melakukan phishing terhadap manusia atau mengeksploitasi kerentanan sistem dari browser, penyerang menargetkan agen yang beroperasi di dalamnya.

Sebagai bagian dari upaya ini, kami baru saja merilis pembaruan keamanan untuk browser agent Atlas, termasuk model baru yang dilatih secara adversarial serta penguatan perlindungan pendukungnya. Jika pengguna meminta agen untuk meninjau email yang belum dibaca dan merangkum poin-poin utama, agen tersebut bisa saja memproses email berbahaya itu selama alur kerja. Jika agen mengikuti instruksi yang disisipkan tersebut, ia dapat keluar dari tugas utama—dan secara keliru membagikan informasi sensitif.

Ini hanyalah satu skenario spesifik. Generalisasi yang membuat browser agent berguna juga memperluas risikonya: agen dapat menemui instruksi tidak tepercaya di permukaan serangan yang nyaris tak terbatas—mulai dari email dan lampiran, undangan kalender, dokumen bersama, forum, media sosial, hingga halaman web apa pun. Karena agen dapat melakukan banyak tindakan yang sama seperti pengguna di browser, dampak dari serangan yang berhasil secara hipotetis bisa sama luasnya, mulai dari meneruskan email sensitif, mengirim uang, hingga mengedit atau menghapus file di cloud, dan lainnya.

Kami telah membuat kemajuan dalam mempertahankan diri dari injeksi prompt melalui beberapa lapisan perlindungan, seperti yang kami bagikan dalam posting sebelumnya. Namun, injeksi prompt tetap menjadi tantangan terbuka bagi keamanan agen, dan kami berharap untuk terus melanjutkan mengerjakannya selama bertahun-tahun ke depan.

Penemuan serangan injeksi prompt otomatis melalui pembelajaran penguatan menyeluruh dan berdaya komputasi tinggi

Untuk memperkuat pertahanan kami, kami terus mencari serangan injeksi prompt baru terhadap sistem agen yang sedang dalam produksi. Menemukan serangan-serangan ini merupakan prasyarat penting untuk membangun mitigasi yang kuat: hal tersebut membantu kami memahami risiko di dunia nyata, mengungkap celah dalam sistem pertahanan, dan mendorong perbaikan yang konkret.

Untuk melakukan ini dalam skala besar, kami membangun penyerang otomatis berbasis LLM dan melatihnya untuk mendeteksi serangan injeksi prompt yang dapat berhasil menyerang agen browser. Kami melatih penyerang ini secara menyeluruh dengan pembelajaran penguatan, sehingga ia belajar dari keberhasilan dan kegagalannya sendiri untuk meningkatkan keahlian red teaming-nya. Kami juga membiarkannya "mencoba sebelum dikirim", yang kami maksudkan: selama penalaran rantai pemikiran, penyerang dapat mengusulkan injeksi kandidat dan mengirimkannya ke simulator eksternal. Simulator menjalankan simulasi kontrafaktual tentang bagaimana agen korban yang ditargetkan (pembela) akan berperilaku jika menghadapi injeksi tersebut, dan mengembalikan penalaran dan jejak tindakan lengkap dari agen korban. Penyerang menggunakan jejak tersebut sebagai masukan, mengulangi serangan, dan menjalankan kembali simulasi—mengulangi siklus ini beberapa kali sebelum melakukan serangan akhir. Ini memberikan masukan konteks yang lebih kaya kepada penyerang daripada sekadar sinyal lulus/gagal. Ini juga meningkatkan skala komputasi saat pengujian penyerang. Selain itu, akses istimewa ke jejak penalaran (yang tidak kami ungkapkan kepada pengguna eksternal) dari pembela memberikan penyerang internal kami keuntungan asimetris—meningkatkan kemungkinan bahwa mereka dapat mengungguli lawan eksternal.

Mockup halaman web mode terang yang menggambarkan pembelajaran penguatan, menampilkan lengan robot bergaya yang berinteraksi dengan bentuk geometris melayang di latar belakang gradasi yang cerah.

Mengapa pembelajaran penguatan (RL)? Kami memilih pembelajaran penguatan untuk latih penyerang otomatis karena beberapa nalar:

  1. Mengoptimalkan tujuan penyerang jangka panjang dan tidak kontinu. Tujuan kami adalah mencari serangan prompt injection yang dapat mengecoh agen agar menjalankan tugas-tugas adversarial yang kompleks (misalnya mengirim email atau melakukan transaksi bank) yang berpotensi terjadi di dunia nyata. Berbagai tugas adversarial ini secara inheren bersifat jangka panjang, memerlukan banyak langkah penalaran dan interaksi dengan lingkungan, dengan sinyal keberhasilan yang jarang dan tertunda. Pembelajaran penguatan sangat cocok untuk struktur imbalan yang jarang dan tertunda ini.
  2. Memanfaatkan kemampuan LLM terdepan. Kami melatih LLM terdepan secara langsung sebagai auto-red-teamers, sehingga penyerang mendapatkan manfaat langsung dari peningkatan penalaran dan perencanaan dalam model terdepan. Seiring dengan semakin kuatnya model dasar, penyerang secara alami juga menjadi lebih mampu—menjadikan ini cara yang dapat diskalakan untuk terus menekan pertahanan kita seiring dengan berkembangnya model-model kita.
  3. Penskalaan komputasi dan meniru penyerang yang adaptif. Pembelajaran penguatan sangat cocok untuk menskalakan komputasi dalam pencarian serangan melalui banyak proses sampling dan langkah pembelajaran, serta mencerminkan cara kerja penyerang manusia yang adaptif: mencoba strategi secara berulang, belajar dari hasilnya, dan memperkuat perilaku yang berhasil.

Penyerang otomatis kami dapat menemukan serangan injeksi prompt yang baru dan realistis dari awal hingga akhir. Berbeda dengan sebagian besar upaya red teaming otomatis sebelumnya—yang hanya mengungkap kegagalan sederhana seperti memancing keluaran teks tertentu atau memicu satu kali pemanggilan alat yang tidak diinginkan, penyerang berbasis RL yang kami latih mampu mengarahkan agen untuk menjalankan alur kerja berbahaya yang kompleks dan berjangka panjang, yang berlangsung hingga puluhan (atau bahkan ratusan langkah). Kami juga mengamati strategi serangan baru yang tidak muncul dalam kampanye red teaming manusia kami atau laporan eksternal.

Demo di bawah ini menyajikan eksploitasi injeksi prompt konkret yang ditemukan oleh penyerang otomatis kami, yang kemudian kami gunakan untuk lebih memperkuat pertahanan ChatGPT Atlas. Penyerang menanamkan email berbahaya ke dalam kotak masuk pengguna yang berisi injeksi prompt yang mengarahkan agen untuk mengirimkan surat pengunduran diri kepada CEO pengguna. Di tahap selanjutnya, saat pengguna meminta agen membuat balasan otomatis di luar kantor, agen menjumpai email tersebut selama eksekusi tugas rutin, menafsirkan prompt yang disuntikkan sebagai instruksi yang valid, dan menjalankannya. Pesan di luar kantor tidak pernah ditulis dan agen malah mengundurkan diri atas nama pengguna.

Sifat injeksi prompt membuat jaminan keamanan deterministik menjadi menantang, tetapi dengan meningkatkan penelitian keamanan otomatis kami, pengujian adversarial, dan memperketat siklus respons cepat kami, kami dapat meningkatkan ketahanan dan pertahanan model - sebelum menunggu serangan terjadi di lapangan. 

Kami membagikan demo ini untuk membantu para pengguna dan peneliti lebih memahami sifat serangan ini—dan bagaimana kami secara aktif mempertahankan diri dari serangan tersebut. Kami percaya bahwa ini mewakili batas terdepan dari apa yang dapat dicapai oleh red teaming otomatis, dan kami sangat bersemangat untuk lmeanjutkan riset kami.

Memperkuat ChatGPT Atlas dengan loop respons cepat proaktif

Red teaming otomatis kami mendorong siklus respons cepat yang proaktif: ketika penyerang otomatis menemukan kelas baru serangan prompt injection yang berhasil, hal tersebut langsung menjadi target konkret untuk meningkatkan pertahanan kami. sama seperti pengguna di dalam browser, dampak dari serangan yang berhasil secara hipotetis bisa sama luasnya: meneruskan email sensitif, mengirim uang, mengedit atau menghapus file di cloud, dan lainnya.

Pelatihan adversarial terhadap serangan yang baru ditemukan. Kami terus melatih model agen yang diperbarui melawan penyerang otomatis terbaik kami—memprioritaskan serangan di mana agen target saat ini gagal. Tujuannya adalah untuk mengajarkan agen agar mengabaikan instruksi adversarial dan tetap selaras dengan maksud pengguna, meningkatkan ketahanan terhadap strategi injeksi prompt yang baru ditemukan. Ini 'membakar' ketahanan terhadap serangan baru yang kuat langsung ke dalam titik pemeriksaan model. Sebagai contoh, red teaming otomatis terbaru secara langsung menghasilkan checkpoint agen-browser yang dilatih secara adversarial baru yang telah diluncurkan kepada semua pengguna ChatGPT Atlas. Ini pada akhirnya membantu melindungi pengguna kami dengan lebih baik dari jenis serangan baru.

Menggunakan jejak serangan untuk meningkatkan tumpukan pertahanan yang lebih luas. Banyak jalur serangan yang ditemukan oleh red teamer otomatis kami juga mengungkapkan peluang untuk perbaikan di luar model itu sendiri—seperti dalam pemantauan, instruksi keselamatan yang kami masukkan dalam konteks model, atau perlindungan pada tingkat sistem. Berbagai temuan tersebut membantu kami mengiterasi seluruh tumpukan pertahanan, bukan hanya pos pemeriksaan agen.

Menanggapi serangan aktif. Loop ini juga dapat membantu merespons serangan aktif di lapangan dengan lebih baik. Saat kami melihat jejak global kami untuk potensi serangan, kami dapat mengambil teknik dan taktik yang kami amati digunakan oleh pihak luar, memasukkannya ke dalam loop ini, meniru aktivitas mereka, dan mendorong perubahan pertahanan di seluruh platform kami.

Outlook: komitmen jangka panjang kami terhadap keamanan agen

Memperkuat kemampuan kami untuk melakukan tim red pada agen dan menggunakan model paling canggih kami untuk mengotomatisasi bagian dari pekerjaan tersebut—membantu membuat agen browser Atlas lebih tangguh dengan meningkatkan skala siklus penemuan-ke-perbaikan. Upaya penguatan ini memperkuat pelajaran yang sudah dikenal dari keamanan: jalur yang sudah teruji untuk perlindungan yang lebih kuat adalah dengan terus-menerus menguji tekanan sistem nyata, bereaksi terhadap kegagalan, dan mengirimkan perbaikan konkret.

Kami mengharapkan para lawan untuk terus beradaptasi. Injeksi prompt, seperti halnya penipuan dan rekayasa sosial di web, kemungkinan besar tidak akan pernah sepenuhnya “terpecahkan”. Namun, kami optimis bahwa lingkaran respons cepat yang proaktif dan sangat responsif dapat melanjutkan secara signifikan mengurangi risiko dunia nyata seiring waktu. Dengan menggabungkan penemuan serangan otomatis dengan pelatihan adversarial dan perlindungan sistem tingkat lanjut, kita dapat mengidentifikasi pola serangan baru lebih awal, menutup celah lebih cepat, dan terus-menerus meningkatkan biaya eksploitasi.

Mode agen di ChatGPT Atlas sangat kuat—dan juga memperluas permukaan ancaman keamanan. Bersikap jernih tentang pertukaran tersebut adalah bagian dari membangun dengan tanggung jawab. Tujuan kami adalah membuat Atlas menjadi lebih aman secara signifikan dengan setiap iterasi: meningkatkan ketahanan model, memperkuat tumpukan pertahanan di sekitarnya, dan memantau pola penyalahgunaan yang muncul di lapangan.

Kami akan melanjutkan berinvestasi dalam penelitian dan penerapan, mengembangkan metode red teaming otomatis yang lebih baik, meluncurkan mitigasi berlapis, dan melakukan iterasi dengan cepat seiring kami belajar. Kami juga akan membagikan apa yang kami bisa dengan komunitas yang lebih luas.

Rekomendasi untuk menggunakan agen dengan aman

Sementara kami lanjutkan memperkuat Atlas di tingkat sistem, ada langkah-langkah yang dapat diambil oleh pengguna untuk mengurangi risiko saat menggunakan agen. 

Batasi akses masuk saat Anda bisa. Kami terus merekomendasikan agar pengguna memanfaatkan mode keluar(terbuka di jendela baru) saat menggunakan agen di Atlas kapan pun akses ke situs web yang Anda masuk tidak diperlukan untuk tugas yang sedang dilakukan, atau untuk membatasi akses ke situs tertentu yang Anda masuk selama tugas. 

Tinjau dengan cermat permintaan konfirmasi. Untuk tindakan konsekuensial tertentu, seperti menyelesaikan pembelian atau mengirim email, agen dirancang untuk meminta konfirmasi Anda sebelum melanjutkan. Ketika seorang agen meminta Anda untuk mengonfirmasi suatu tindakan, luangkan waktu sejenak untuk verifikasikan bahwa tindakan tersebut benar dan bahwa informasi yang dibagikan sesuai untuk konteks tersebut.

Berikan instruksi yang eksplisit kepada para agen jika memungkinkan. Hindari prompt yang terlalu luas seperti “tinjau email saya dan ambil tindakan apa pun yang diperlukan.“ Kelonggaran yang luas memudahkan konten tersembunyi atau berbahaya mempengaruhi agen, bahkan ketika langkah-langkah perlindungan sudah diterapkan. Lebih aman untuk meminta agen melakukan tugas yang spesifik dan terdefinisi dengan baik. Meskipun ini tidak menghilangkan risiko, hal ini membuat serangan lebih sulit untuk dilakukan.

Jika agen ingin menjadi mitra tepercaya untuk tugas sehari-hari, mereka harus tangguh terhadap jenis manipulasi yang diaktifkan oleh web terbuka. Memperkuat ketahanan terhadap injeksi prompt adalah komitmen jangka panjang dan salah satu prioritas utama kami. Kami akan segera membagikan lebih banyak informasi tentang pekerjaan ini.

Penulis

OpenAI