Nobyembre 7, 2025

Pag-unawa sa prompt injection: isang hamon sa seguridad ng frontier

Nagsisimula nang gumawa ng higit pa ang mga AI tool kaysa sa pagsagot lang ng mga tanong. Maaari na silang mag-browse sa web, tumulong sa pananaliksik, magplano ng mga biyahe, at tumulong sa pagbili ng mga produkto. Habang nagiging mas may kakayahan ang mga ito, na may kakayahang ma-access ang iyong data sa iba pang mga app at magsagawa ng mga aksyon sa iyong ngalan, lumilitaw ang mga bagong hamon sa seguridad. Isa sa mga pangunahing pinagtutuunan namin ng pansin ay ang prompt injection.

Isang diagram na nagpapakita kung paano gumagana ang pag-atakeng prompt injection. Sa kaliwa, may icon ng nakangiting user na may label na “Humihingi ang user ng tulong sa AI para sa isang gawain.” May arrow na nakaturo sa gitna kung saan ang icon ng screen ng computer ay may label na “Nakikita ng AI ang isang website na may pag-atake,” at sa itaas nito ay may maliit na pigura na may sombrero at ngising-aso na may label na “Nagpasok ang attacker ng prompt injection.” Isa pang arrow ang nakaturo sa kanan na nagpapakita ng icon ng dokumento na may tatsulok na babala na may label na “AI na nalinlang sa hindi sinasadyang aksyon.” Ipinapakita ng daloy kung paano maaaring manipulahin ng umaatake ang AI sa pamamagitan ng mga na-inject na prompt.

Ano ang prompt injection?

Ang prompt injection ay isang uri ng pag-atake sa social engineering na partikular sa kombersasyonal na AI. Ang mga unang sistema ng AI ay mga pag-uusap sa pagitan ng user at AI agent. Sa mga produktong AI ngayon, maaaring maglaman ang iyong pag-uusap ng nilalaman mula sa iba't ibang pinagmulan, kabilang ang internet. Ang ideya na maaaring iligaw ng third party (hindi ang user at hindi ang AI) ang modelo sa pamamagitan ng pag-inject ng mga nakakapinsalang tagubilin sa konteksto ng pag-uusap ay nagbunsod sa terminong “prompt injection”.

Katulad ng kung paano sinusubukan ng mga phishing email o scam sa web na linlangin ang mga tao para ibigay ang sensitibong impormasyon, sinusubukan ng mga prompt injection na linlangin ang mga AI na gumawa ng bagay na hindi mo hiniling.

Halimbawa, nagpatulong ka sa AI na magsaliksik online para sa bakasyon, at habang ginagawa nito iyon, nakakatagpo ito ng mapanlinlang na nilalaman o nakapipinsalang tagubilin na nakatago sa isang webpage, gaya ng sa komento sa isang listahan o pagsusuri. Maaaring maingat na likhain ang nilalaman upang subukang linlangin ang isang AI na irekomenda ang maling listahan, o mas masahol pa, upang nakawin ang impormasyon ng iyong credit card.

Ilan lamang ito sa mga halimbawa ng mga pag-atakeng “prompt injection”—mga nakakapinsalang tagubilin na dinisenyo upang linlangin ang AI na gumawa ng bagay na hindi mo sinasadya, na kadalasang nakatago sa loob ng ordinaryong nilalaman gaya ng web page, dokumento, o email.

Tumataas ang mga panganib na ito habang nagkakaroon ng access ang mga AI sa mas sensitibong data at mas nagkakaroon ng inisyatibo at mas mahahabang gawain.

Buod

Ang ipinagawa mo sa AI

Ang ginagawa ng umaatake

Posibleng resulta kung magtagumpay ang pag-atake

Nagpasaliksik ka sa AI ng mga apartment, at ito ay na-prompt inject upang magrekomenda ng listahan na hindi ang pinakamahusay na opsyon para sa iyo.

Nagpasaliksik ka sa AI ng mga apartment gamit ang ilang ibinigay na pamantayan.

Isinama ng umaatake ang prompt injection na atake sa listahan ng apartment upang linlangin ang AI na isipin na ang kanilang listahan ay kailangang piliin kahit ano pa ang mga nakasaad na kagustuhan ng user.

Kung magtagumpay ang pag-atake, maaaring magkamali ang AI sa pagrekomenda ng hindi angkop na listing ng apartment batay sa iyong mga kagustuhan.

Pinasagot mo sa AI agent ang iyong mga email mula kagabi, ngunit nauwi ito sa pagbabahagi ng iyong mga bank statement.

Pinasagot mo sa AI agent ang iyong mga email mula kagabi dahil abala ka ngayong umaga.

Tingnan ang “Kapag posible, magbigay ng malinaw na tagubilin sa agent” sa ibaba

Nagpadala sa iyo ang umaatake ng email na naglalaman ng maling impormasyon na nililinlang ang modelo upang hanapin ang iyong mga bank statement at ibahagi ang mga ito sa umaatake.

Kung magtagumpay ang pag-atake, maaaring maghanap ang agent ng mga bagay tulad ng mga bank statement sa iyong email (na binigyan mo ng access para sa gawain) at ibabahagi ang mga ito sa umaatake.

Ang aming pamamaraan sa pagprotekta sa user

Ang pagdepensa laban sa prompt injection ay hamon sa buong industriya ng AI at isang pangunahing pokus ng OpenAI. Habang inaasahan naming patuloy na magde-develop ang mga kalaban ng ganitong mga pag-atake, bumubuo kami ng mga depensa na dinisenyo upang maisagawa ang nilalayong gawain ng user kahit na may sumusubok na iligaw sila. Mahalaga ang kakayahang iyon para ligtas na makamit ang mga benepisyo ng AGI.

Upang protektahan ang aming mga user at makatulong na mapabuti ang aming mga modelo laban sa mga pag-atakeng ito, gumagamit kami ng maraming layer na pamamaraan, kabilang ang mga sumusunod:

Pagsasanay sa kaligtasan

Gusto naming makilala ng AI ang mga prompt injection at hindi nalilinlang ng mga ito. Gayunpaman, ang katatagan laban sa mga pag-atake ng kalaban ay pangmatagalang hamon para sa machine learning at AI, kaya nagiging mahirap at bukas na problema ito. Nakabuo kami ng pananaliksik na tinatawag na Hierarchy ng Tagubilin⁠ upang magsikap tungo sa mga modelo na nakikilala sa pagitan ng mga tagubilin na pinagkakatiwalaan at hindi pinagkakatiwalaan. Patuloy kaming nagde-develop ng mga bagong pamamaraan para sanayin ang mga modelo na mas mahusay na makilala ang mga pattern ng prompt injection upang maaari nilang balewalain ang mga ito o i-flag ang mga ito sa mga user. Isa sa mga teknik na ginagamit namin ay automated red-teaming, isang larangan na pinag-aaralan⁠(magbubukas sa bagong window) namin sa loob ng maraming taon, upang makabuo ng mga bagong pag-atakeng prompt injection.

Pagsubaybay

Nakabuo kami ng maraming automated na AI-powered monitor⁠ upang matukoy at harangan ang mga pag-atakeng prompt injection. Ang mga ito ay umaakma sa mga diskarte sa pagsasanay sa kaligtasan dahil maaari silang mabilis na ma-update upang agad na maharang ang anumang bagong pag-atake na aming matutuklasan. Ang mga monitor na ito ay hindi lamang nakakatulong sa pagtukoy ng mga potensyal na pag-atakeng prompt injection laban sa aming mga user, kundi maaari din kaming tulungan na mahuli ang salungat na pananaliksik at pagsubok sa prompt injection na gumagamit ng aming platform, bago pa man ma-deploy ang mga pag-atake sa aktwal na mundo.

Mga proteksyon sa seguridad

Dinisenyo namin ang aming mga produkto at imprastraktura na may iba't ibang magkakapatong na proteksyon sa seguridad upang makatulong na mapangalagaan ang data ng gumagamit. Ang mga tampok na ito, na tatalakayin namin nang mas detalyado sa mas teknikal na paraan sa mga susunod na post, ay iniangkop sa bawat produkto. Halimbawa, upang matulungan kang maiwasan ang mga hindi mapagkakatiwalaang site, hihilingin namin sa iyo na aprubahan ang ilang partikular na link sa ChatGPT, lalo na sa mga website na humihiling sa amin na huwag silang i-catalogue⁠(magbubukas sa bagong window), bago sila mapuntahan. Kapag gumagamit ang aming AI ng mga tool para magpatakbo ng iba pang programa o code (gaya ng sa Canvas, o sa aming development tool na Codex), gumagamit kami ng teknik na tinatawag na sandboxing upang pigilan ang modelo sa paggawa ng mga mapaminsalang pagbabago na maaaring dulot ng prompt injection.

Bigyan ng kontrol ang user

Nagsasama kami ng mga built-in na kontrol sa aming mga produkto upang matulungan ang mga user na maprotektahan ang kanilang mga sarili. Halimbawa, sa ChatGPT Atlas, maaari mong piliin ang mode na hindi naka-log in na nagbibigay-daan sa ChatGPT agent na magsimula ng mga gawain nang hindi naka-log in sa mga site. Ang ChatGPT agent ay hihinto din at hihingi ng kumpirmasyon bago isagawa ang mga sensitibong hakbang tulad ng pagkumpleto ng pagbili. Kapag kumikilos ang agent sa mga sensitibong site, nagpatupad din kami ng “Watch Mode” na nag-aalerto sa iyo tungkol sa sensitibong katangian ng site at hinihiling sa iyo na iang tab -activate ang tab para mapanood mong ginagawa ng agent ang trabaho nito. Hihinto ang agent kung lilipat ka mula sa tab na naglalaman ng sensitibong impormasyon. Tinitiyak nito na mananatili kang may-alam—at may kontrol—sa mga aksyon na isinasagawa ng agent.

Red-teaming

Nagsasagawa kami ng malawakang red-teaming kasama ang mga panloob at panlabas na team upang subukan at pahusayin ang aming mga depensa, gayahin ang pag-uugali ng mga umaatake, at makahanap ng mga bagong paraan upang mapabuti ang aming seguridad. Kasama rito ang libu-libong oras na nakatuon partikular sa prompt injection. Habang nakakatuklas kami ng mga bagong teknik at pag-atake, maagap na tinutugunan ng aming mga team ang mga kahinaan sa seguridad at pinapahusay ang aming mga hakbang sa pag-iwas para sa modelo.

Bug bounty

Para hikayatin ang mga independiyenteng tagapagsaliksik ng seguridad na may mabuting hangarin na tulungan kaming matuklasan ang mga bagong teknik at pag-atake sa prompt injection, nag-aalok kami ng mga pinansyal na gantimpala alinsunod sa aming bug bounty na programa⁠(magbubukas sa bagong window) kapag nagpakita sila ng isang makatotohanang landas ng pag-atake na maaaring magresulta sa hindi sinasadyang paglalantad ng data ng user. Nagbibigay kami ng mga insentibo sa mga panlabas na tagapag-ambag upang mabilis na mailantad ang mga isyung ito, upang maayos namin ang mga ito at higit pang mapalakas ang aming mga depensa.

Pabayaan ang mga user na magpasya

Tinuturuan namin ang mga user tungkol sa mga panganib ng paggamit ng ilang tampok ng produkto upang mapakagpasya sila nang tama. Halimbawa, kapag ikinokonekta ang ChatGPT sa iba pang app, ipinapaliwanag namin kung anong data ang maaaring ma-access, kung paano ito maaaring gamitin, at kung anong mga panganib ang maaaring lumitaw gaya ng isang site na maaaring sumubok na nakawain ang iyong data, kasama ang isang link para matutunan kung paano manatiling mas ligtas. Binibigyan din namin ang mga organisasyon ng kontrol kung aling mga tampk ang pwedeng i-enable o gamitin ng mga user sa kanilang mga workspace.

Mga hakbang na maaari mong gawin upang manatiling mas ligtas

Ang prompt injection ay hamon sa seguridad ng frontier na inaasahan naming patuloy na magbabago sa paglipas ng panahon. Iniaatas ng bagong antas ng katalinuhan at kakayahan na ang teknolohiya, lipunan, at ang estratehiya sa pagpapagaan ng panganib ay magkasamang umunlad. At tulad ng mga computer virus noong unang bahagi ng 2000s, sa tingin namin mahalaga na maunawaan ng lahat ang banta ng mga prompt injection at kung paano i-navigate ang panganib, para matuto tayong lahat na makinabang sa teknolohiyang ito nang ligtas. Ang pagiging mapagmatyag at maingat ay nakakatulong na mapanatiling mas ligtas ang iyong data kapag gumagamit ng AI at mga agentic na tampok na maaaring kumilos sa iyong ngalan.

Gamitin ang mga built-in na tampok upang limitahan ang pag-access sa sensitibong data

Kung maaari, limitahan ang access ng agent sa tanging sensitibong data o mga kredensyal na kinakailangan nito upang makumpleto ang gawain. Halimbawa, kapag gumagamit ng agent mode sa ChatGPT Atlas para sa pananaliksik sa bakasyon, kung ang agent ay nagsasagawa lamang ng pananaliksik at hindi kailangan ng naka-log in na access, gamitin ang “logged out” mode.

Kapag humihingi ng kumpirmasyon ang isang agent, maingat na suriin kung tama ang gagawin nito

Madalas naming dinidisenyo ang mga ahente upang makakuha ng huling kumpirmasyon mula sa iyo bago isagawa ang ilang mahahalagang aksyon tulad ng pagkumpleto ng pagbili o pagpapadala ng email. Kapag hiniling sa iyo ng isang agent na kumpirmahin ang aksyon, maingat na suriin kung tama ang aksyon at kung angkop na ibahagi ang anumang impormasyon sa konteksto na iyon.

Kapag ang agent ay kumikilos sa sensitibong site, tulad ng iyong bangko, panoorin ang agent habang ginagawa nito ang trabaho. Ito ay katulad ng pagmamasid sa self-driving na kotse sa pamamagitan ng paghawak sa manibela.

Kapag posible, magbigay ng malinaw na tagubilin sa agent

Ang pagbibigay sa agent ng napakalawak na tagubilin tulad ng "suriin ang aking mga email at gawin ang anumang kinakailangang aksyon" ay maaaring magpadali para sa mga nakatagong mapanlinlang na nilalaman na linlangin ang modelo, kahit na ito ay dinisenyo upang mag-check sa iyo bago gumawa ng mga sensitibong aksyon.

Mas ligtas na ipagawa sa iyong agent ang mga espesipikong bagay, at huwag itong bigyan ng malawak na kalayaan na posibleng sumunod sa mga mapanganib na tagubilin mula sa ibang lugar tulad ng mga email. Bagaman hindi nito ginagarantiya na walang magaganap na mga pag-atake, mas pinapahirap nitong magtagumpay ang mga umaatake.

Manatiling may alam at sundin ang mga pinakamahusay na kasanayan sa seguridad

Habang umuunlad ang teknolohiya ng AI, lilitaw ang mga bagong panganib at pag-iingat. Sundan ang mga update mula sa OpenAI at iba pang pinagkakatiwalaang mapagkukunan upang matuto tungkol sa pinakamahuhusay na kasanayan.

Pagtingin sa hinaharap

Ang prompt injection ay nananatiling frontier at mapanghamong problema sa pananaliksik, at tulad ng mga tradisyonal na scam sa web, inaasahan naming magpapatuloy ang aming trabaho. Bagama't hindi pa namin nakikita ang makabuluhang pag-adopt ng teknik na ito ng mga umaatake, inaasahan naming maglalaan ang mga kalaban ng maraming oras at mapagkukunan upang makahanap ng mga paraan upang malinlang ang mga AI sa mga pag-atakeng ito. Patuloy kaming namumuhunan nang malaki upang gawing ligtas ang aming mga produkto at sa pananaliksik upang mapabuti ang katatagan ng AI laban sa panganib na ito. Ibabahagi namin ang mga update habang mas marami kaming nalalaman, kabilang ang patuloy na pag-unlad sa aming gawaing panseguridad sa larangang ito. Halimbawa, gumagawa kami ng ulat na ilalathala namin sa lalong madaling panahon, na magbabahagi ng higit pang detalye kung paano namin natutukoy kung ang komunikasyon ng iyong AI sa internet ay maaaring magpadala ng impormasyon mula sa iyong pag-uusap.

Ang layunin namin ay gawing kasing maaasahan at ligtas ang mga sistemang ito gaya ng pakikipagtulungan sa iyong pinakamapagkakatiwalaan at mahusay sa seguridad na katrabaho o kaibigan. Patuloy kaming matututo mula sa aktwal na paggamit, ligtas na mag-uulit, at ilalathala ang aming natutunan habang umuunlad ang teknolohiya.

Magpatuloy sa pagbabasa

Tingnan lahat

Daybreak: Mga tool para sa pagprotekta sa bawat organisasyon sa mundo

SeguridadHun 22, 2026

Patch the Planet: a Daybreak initiative to support open source maintainers

SeguridadHun 22, 2026

Pagbuo ng ligtas at epektibong sandbox para paganahin ang Codex sa Windows

EngineeringMay 13, 2026