Liwati menyang isi utama
OpenAI

7 November 2025

Keamanan

Ngerteni injeksi prompt: tantangan keamanan AI tercanggih

Piranti AI wiwit bisa nindakake luwih saka mung mangsuli pitakon. Saiki, AI bisa njelajah web, mbantu riset, ngrancang lelungan, lan mbantu tuku produk. Nalika kabisane saya mundhak, kanthi kemampuan ngakses data panjenengan ing app liya lan tumindak atas jeneng panjenengan, tantangan keamanan anyar muncul. Salah siji sing dadi fokus utama kami yaiku injeksi prompt.

Diagram sing nerangake cara kerjane serangan injeksi prompt. Ing sisih kiwa, ana lambang pangguna mesem kanthi label “Pangguna njaluk AI bantuan kanggo tugas.” Ana panah menyang tengah, ing kana ana lambang layar komputer kanthi label “AI ndeleng situs web sing ngemot serangan,” lan ing ndhuwuré ana figur cilik nganggo topi lan mesem miring kanthi label “Penyerang nyelipake injeksi prompt.” Panah liyane tumuju sisih tengen sing nuduhake lambang dokumen kanthi segitiga peringatan kanthi label “AI kecelik nganti nindakake tumindak sing ora disengaja.” Alur iki nuduhake carane penyerang bisa ngapusi AI liwat prompt sing disuntikake.

Apa iku injeksi prompt?

Injeksi prompt yaiku salah siji jinis serangan rekayasa sosial sing mligi kanggo AI pacelathon. Sistem AI awal arupa pacelathon antarane siji pangguna lan siji agen AI. Ing produk AI saiki, pacelathon panjenengan bisa ngemot konten saka akeh sumber, kalebu internet. Gagasan manawa pihak katelu (yaiku sing dudu pangguna lan dudu AI) bisa nyasarake model kanthi nyuntikake instruksi ala menyang konteks pacelathon banjur nuwuhake istilah “injeksi prompt”.

Kaya dene email phishing utawa penipuan ing web sing nyoba ngapusi wong supaya menehi informasi sensitif, injeksi prompt nyoba ngapusi AI supaya nindakake perkara sing ora panjenengan jaluk.

Bayangna panjenengan njaluk AI mbantu riset liburan online, lan nalika AI nindakake iku, AI nemoni konten sing nyasarake utawa instruksi mbebayani sing didhelikake ing kaca web, kayata ing komentar ing sawijining listing utawa ulasan. Konten kasebut bisa dirancang kanthi ati-ati kanggo ngapusi AI supaya nyaranake listing sing salah, utawa luwih ala maneh, nyolong informasi kertu kredit panjenengan.

Iku mung sawetara conto serangan “injeksi prompt”—instruksi mbebayani sing dirancang kanggo ngapusi AI supaya nindakake perkara sing ora panjenengan karepake, asring didhelikake ing konten biasa kayata kaca web, dokumen, utawa email.

Risiko iki tambah gedhe nalika AI nduweni akses menyang data sing luwih sensitif lan njupuk inisiatif luwih akeh uga tugas sing luwih dawa.

Ringkesan

Sing panjenengan jaluk marang AI

Sing ditindakake penyerang

Asil sing bisa kedadeyan yen serangan kasil

Panjenengan njaluk AI neliti apartemen, lan AI kena injeksi prompt nganti nyaranake listing sing dudu pilihan paling apik kanggo panjenengan.

Panjenengan njaluk AI neliti apartemen nganggo sawetara kritéria sing diwenehake.

Penyerang wis nyelipake serangan injeksi prompt ing listing apartemen kanggo ngapusi AI supaya mikir yen listing-e kudu dipilih tanpa preduli preferensi pangguna sing wis diandharake.

Yen serangan kasil, AI bisa salah nyaranake listing apartemen sing kurang cocog adhedhasar preferensi panjenengan.

Panjenengan njaluk agen AI mbales email sing mlebu sewengi, nanging pungkasane malah nuduhake rekening koran bank panjenengan.

Panjenengan njaluk agen AI supaya umume mbales email sing mlebu sewengi amarga esuk iki panjenengan sibuk.

Delengen “Yen bisa, wenehana agen pandhuan sing cetha” ing ngisor iki


Penyerang ngirim email marang panjenengan sing ngemot misinformasi kanggo ngapusi model supaya golek rekening koran bank panjenengan lan nuduhake marang penyerang.

Yen serangan kasil, agen bisa nggoleki apa wae kaya rekening koran bank ing email panjenengan (sing wis panjenengan paringi akses kanggo tugas iki) lan bakal nuduhake marang penyerang.

Cara kami nglindhungi pangguna

Mbela saka injeksi prompt iku tantangan ing saindenging industri AI lan dadi fokus inti ing OpenAI. Sanadyan kami ngarepake mungsuh bakal terus ngembangake serangan kaya mangkene, kami mbangun pertahanan sing dirancang supaya bisa nindakake tugas sing dikarepake pangguna sanajan ana wong sing aktif nyoba nyasarake. Kapabilitas kuwi penting kanggo nggayuh manfaat AGI kanthi aman.

Kanggo nglindhungi pangguna kami, lan kanggo mbantu ningkatake model kami ngadhepi serangan iki, kami nggunakake pendekatan berlapis, kalebu kaya ing ngisor iki:

Pelatihan keamanan

Kami pengin AI sing bisa ngenali injeksi prompt lan ora kepancing. Nanging, ketahanan marang serangan adversarial wis suwe dadi tantangan kanggo machine learning lan AI, mula iki masalah sing angel lan isih kabuka. Kami wis ngembangake riset sing diarani Instruction Hierarchy kanggo ngupaya model bisa mbedakake instruksi sing dipercaya lan sing ora dipercaya. Kami terus ngembangake pendekatan anyar kanggo nglatih model supaya luwih apik ngenali pola injeksi prompt supaya bisa nglirwakake utawa menehi tandha marang pangguna. Salah siji teknik sing kami gunakake yaiku red-teaming otomatis, sawijining bidang sing wis suwe kami teliti(mbukak ing jendhela anyar) nganti pirang-pirang taun, kanggo ngembangake serangan injeksi prompt anyar.

Pemantauan

Kami wis ngembangake macem-macem monitor otomatis bertenaga AI kanggo ngenali lan mblokir serangan injeksi prompt. Iki nglengkapi pendekatan pelatihan keamanan amarga bisa dianyari kanthi cepet kanggo langsung mblokir serangan anyar apa wae sing kami temokake. Monitor iki ora mung mbantu ngenali potensi serangan injeksi prompt marang pangguna kami, nanging uga bisa ngidini kami nyegat riset lan pengujian injeksi prompt sing adversarial nggunakake platform kami, sadurunge serangan kasebut disebarake ing donya nyata.

Proteksi keamanan

Kami ngrancang produk lan infrastruktur kami nganggo macem-macem proteksi keamanan sing tumpang tindih kanggo mbantu njaga data pangguna. Fitur-fitur iki, sing bakal kami jlentrehake kanthi luwih teknis ing kiriman sabanjure, disesuaikan kanggo saben produk. Contone, kanggo mbantu panjenengan ngindhari situs sing ora dipercaya, kami bakal njaluk panjenengan nyetujoni pranala tartamtu ing ChatGPT, utamane ing situs web sing njaluk kami supaya ora ngatalogake(mbukak ing jendhela anyar), sadurunge bisa dibukak. Nalika AI kami nggunakake alat kanggo mbukak program utawa kode liyane (kaya ing Canvas, utawa alat pangembangan kami Codex), kami nggunakake teknik sing diarani sandboxing kanggo nyegah model nggawe owah-owahan mbebayani sing bisa dadi asil saka injeksi prompt.

Menehi kontrol marang pangguna

Kami nyakup kontrol bawaan ing produk kami kanggo mbantu pangguna nglindhungi awake dhewe. Contone, ing ChatGPT Atlas, panjenengan bisa milih mode logged-out sing ngidini agen ChatGPT miwiti tugas tanpa login menyang situs. Agen ChatGPT uga ngaso lan njaluk konfirmasi sadurunge njupuk langkah sensitif kayata ngrampungake tuku. Nalika agen lagi operasi ing situs sensitif, kami uga wis ngetrapake “Watch Mode” sing menehi tandha marang panjenengan babagan sifat sensitif situs kasebut lan mbutuhake panjenengan supaya tab kasebut tetep aktif kanggo ngawasi agen nindakake tugasé. Agen bakal ngaso yen panjenengan pindhah saka tab sing ngemot informasi sensitif. Iki njamin panjenengan tetep waspada—lan tetep nyekel kontrol—marang tumindak apa sing ditindakake agen.

Red-teaming

Kami nindakake red-teaming kanthi ekstensif karo tim internal lan eksternal kanggo nguji lan ningkatake pertahanan kami, niru prilaku penyerang, lan nemokake cara anyar kanggo ningkatake keamanan kami. Iki kalebu ewonan jam sing mligi fokus marang injeksi prompt. Nalika kami nemokake teknik lan serangan anyar, tim kami kanthi proaktif ngatasi kerentanan keamanan lan ningkatake mitigasi model kami.

Bug bounty

Kanggo nyengkuyung peneliti keamanan independen sing tumindak kanthi itikad apik supaya mbantu kami nemokake teknik lan serangan injeksi prompt anyar, kami menehi ganjaran finansial liwat program bug bounty(mbukak ing jendhela anyar) nalika dheweke nuduhake jalur serangan sing realistis lan bisa nyebabake kebocoran data pangguna sing ora disengaja. Kami menehi insentif marang kontributor eksternal supaya cepet ngunggahake masalah iki supaya bisa kami rampungake lan luwih nguwatake pertahanan kami.

Ayo pangguna mutusake

Kami ndhidhik pangguna babagan risiko nggunakake fitur tartamtu ing produk supaya pangguna bisa nggawe keputusan kanthi informasi. Contone, nalika nyambungake ChatGPT menyang app liyane, kami nerangake data apa wae sing bisa diakses, kepiye data kasebut bisa digunakake, lan risiko apa sing bisa muncul kayata situs sing nyoba nyolong data panjenengan, bebarengan karo pranala kanggo sinau carane tetep luwih aman. Kami uga menehi kontrol marang organisasi babagan fitur apa wae sing bisa diaktifake utawa digunakake dening pangguna ing papan kerja.

Langkah-langkah sing bisa panjenengan tindakake supaya luwih aman

Injeksi prompt yaiku tantangan keamanan tercanggih sing kami kira bakal terus berkembang saka wektu ke wektu. Tingkat kapinteran lan kapabilitas anyar mbutuhake teknologi, masyarakat, lan strategi mitigasi risiko supaya berkembang bareng. Lan kaya virus komputer ing awal taun 2000-an, kami mikir penting supaya saben wong paham ancaman injeksi prompt lan cara ngadhepi risikone, supaya kita kabeh bisa sinau ngrasakake manfaat teknologi iki kanthi aman. Tetep waspada lan ngati-ati mbantu njaga data panjenengan luwih aman nalika nggunakake AI lan fitur agen sing bisa tumindak atas jeneng panjenengan.

Gunakake fitur bawaan kanggo matesi akses menyang data sensitif

Yen bisa, matesi akses agen mung menyang data sensitif utawa kredensial sing dibutuhake kanggo ngrampungake tugas. Contone, nalika nggunakake mode agen ing ChatGPT Atlas kanggo riset liburan, yen agen mung nindakake riset lan ora butuh akses login, gunakna mode “logged out”.

Nalika agen njaluk konfirmasi, priksa kanthi teliti manawa agen arep nindakake perkara sing bener

Kami kerep ngrancang agen supaya njaluk konfirmasi pungkasan saka panjenengan sadurunge njupuk tumindak penting kayata ngrampungake tuku utawa ngirim email. Nalika agen njaluk panjenengan ngonfirmasi tumindak, priksa kanthi teliti manawa tumindak kasebut katon bener lan manawa informasi sing dienggo bareng pancen trep kanggo dienggo bareng ing konteks kasebut.

Nalika agen lagi operasi ing situs sensitif, kayata bank panjenengan, awasi agen nalika nindakake tugase. Iki padha karo ngawasi mobil nyopir otomatis kanthi njaga tangan tetep ing setir.

Yen bisa, wenehana agen pandhuan sing cetha

Menehi agen instruksi sing amba banget kayata "tinjau email-emailku lan tindakna apa wae sing dibutuhake" bisa nggampangake konten ala sing didhelikake kanggo nyasarake model, sanajan model kasebut dirancang kanggo mriksa karo panjenengan sadurunge njupuk tumindak sensitif.

Luwih aman yen panjenengan njaluk agen nindakake perkara sing spesifik, lan aja menehi kalonggaran sing amba supaya bisa wae nuruti instruksi mbebayani saka papan liya kaya email. Sanadyan iki ora njamin ora bakal ana serangan, iki nggawe penyerang luwih angel kanggo kasil.

Tetep ngerti lan tindakna praktik keamanan sing paling apik

Nalika teknologi AI berkembang, risiko lan proteksi anyar bakal muncul. Tindakake kabar anyar saka OpenAI lan sumber liyane sing dipercaya kanggo sinau praktik paling apik.

Ndelok menyang ngarep

Injeksi prompt tetep dadi masalah riset tercanggih sing tantangan, lan kaya penipuan tradisional ing web, kami ngarepake karya kami bakal terus lumaku. Sanadyan kami durung weruh adopsi teknik iki kanthi signifikan dening penyerang, kami ngarepake mungsuh bakal ngentekake wektu lan sumber daya sing gedhe kanggo nemokake cara supaya AI kepancing serangan iki. Kami terus nandur modal gedhe kanggo njaga produk kami aman lan ing riset kanggo majokake ketahanan AI marang risiko iki. Kami bakal nuduhake kabar anyar nalika kami sinau luwih akeh, kalebu kemajuan sing terus lumaku ing karya keamanan kami ing babagan iki. Contone, kami lagi mbangun laporan sing bakal enggal kami terbitake sing nuduhake rincian liyane babagan carane kami ndeteksi apa komunikasi AI panjenengan karo internet bakal ngirim informasi saka pacelathon panjenengan.

Tujuan kami yaiku nggawe sistem iki bisa dipercaya lan aman kaya makarya karo kolega utawa kanca sing paling bisa dipercaya lan paling paham keamanan. Kami bakal terus sinau saka panggunaan ing donya nyata, nindakake iterasi kanthi aman, lan nerbitake apa sing kami sinau nalika teknologi iki maju.