Patuloy na pinatatatag ang ChatGPT Atlas laban sa mga prompt injection attack
Tinutulungan kami ng automated red teaming—powered ito ng reinforcement learning o pagpapatibay ng pag-aaral—na proactive na ma-discover at ma-patch ang mga pang-i-exploit sa agent sa real world bago pa ito magamit na sandata.
Ang agent mode sa ChatGPT Atlas ang isa pinakapang-general-purpose na mga agentic feature na nai-release namin hanggang sa ngayon. Sa mode na ito, nagagawang ma-view ng browser agent ang mga webpage at umaksyon, ang mga click, at mga keystroke sa loob ng browser mo, gaya ng gagawin mo. Dahil dito, direktang makakatrabaho ang ChatGPT sa maraming pang-araw-araw na workflow mo gamit ang parehong space, context, at data.
Habang natutulungan ka ng browser agent na magawa ang mas maraming trabaho, mas nagiging puntirya rin ito ng pag-atake ng mga kalaban. Ito ang dahilan kung bakit mahalaga ang AI security. Bago pa namin inilunsad ang ChatGPT Atlas, noon pa man ay patuloy na naming bini-build at pinatitibay ang mga depensa nito laban sa mga umuusbong na threat na partikular nang tumatarget sa bagong paradigm na ito na “agent sa browser”. Ang prompt injection ang isa sa pinakamalaking banta na aktibong nilalabanan namin para masigurong secure na makakapag-operate ang ChatGPT Atlas para sa iyo.
Bilang bahagi ng pagsisikap na ito, nagpadala kami kamakailan ng security update sa browser agent ng Atlas, kasama ang isang bagong model na na-train adversarially (na-train sa mga input na dinisenyong manlinlang sa model) at pinalakas na mga safeguard sa palibot. Ang update na ito ay bunsod ng bagong uri ng mga prompt injection attack na natuklasan sa pamamagitan ng aming internal na automated red teaming.
Sa post na ito, ipinapaliwanag namin kung paano maaaring magkaroon ng prompt-injection risk mula sa mga web-based na agent, at isini-share namin ang isang mabilis na response loop na bini-build namin para patuloy na matuklasan ang mga bagong pag-atake at mabilis na makapagpadala ng mga mitigasyon—gaya ng ipinapakita ng kamakailang security update na ito.
Itinuturing naming pangmatagalang hamon sa AI security ang prompt injection, at kakailanganin naming patuloy na palakasin ang aming mga depensa laban dito (katulad ng patuloy na nagbabagong mga online scam na pumupuntirya sa mga tao). Ang aming pinakabago at mabilis na response cycle ay kinakikitaan ng maagang potensyal bilang mahalagang tool sa paglalakbay na iyan: may natuklasan kaming mga internal na bagong attack strategy bago pa makalabas ang mga iyon. Ang pangmatagalang vision namin ay ganap na magamit (1) ang aming white-box access sa mga model namin, (2) malalim na maunawaan ang mga depensa namin, at (3) makapagpalawak para malabanan ang mga external na pag-atake—maagang makita ang mga pang-i-exploit, mas mabilis na makapagpadala ng mga mitigasyon, at patuloy na mahigpitan ang loop.— Pinagsasama namin ang frontier research tungkol sa mga bagong technique sa pag-address sa prompt injection at dinadagdagan ang pag-i-invest sa iba pang mga security control, makakatulong ang pinagsamang cycle na ito na maging mas mahirap at magastos ang mga pag-atake, na makakabawas sa pangnib ng prompt injection sa real world. Sa bandang huli, ang goal namin ay magtiwala kang ipagamit sa isang ChatGPT agent ang browser mo gaya ng pagtitiwala mo sa isang napakagaling na colleague o kaibigan mo na may alam sa security.
Tinatarget ng prompt injection attack ang mga AI agent sa pamamagitan ng pag-embed ng malicious o mapanlinlang na mga instruction sa content na pinoproseso ng agent. Dinisenyo ang mga instruction na iyon na i-override o i-redirect ang behavior ng agent—sa gayo'y hina-hijack ito at pinapasunod sa gusto ng attacker, imbes na gusto ng user.
Para sa browser agent na gaya ng nasa ChatGPT Atlas, may dagdag na bagong threat ang prompt injection bukod pa sa tradisyonal na mga web security risk (na gaya ng user error o mga kahinaan ng software). Sa halip na mag-phishing sa mga tao o i-exploit ang mga kahinaan ng system ng browser, ang agent na nag-o-operate sa loob ng browser ang tinatarget ng attacker.
Bilang hypothetical na halimbawa, puwedeng magpadala ng malicious na email ang isang attacker para linlangin ang isang agent na huwag pansinin ang request ng user at i-forward sa email address na kontrolado ng attacker ang mga sensitibong dokumento ng buwis. Kapag ni-request ng user sa agent na i-review ang mga hindi pa nababasang email at i-summarize ang mga pangunahin point, maaaring ma-injest o maisama ng agent ang malicious email na iyon sa panahon ng workflow. Kapag sinunod nito ang mga na-inject na instruction, puwedeng iba ang gawing task nito—at maling mai-share ang sensitibong impormasyon.
Isang partikular na senaryo lang ito. Ang pangkaraniwan at kapaki-pakinabang na paggamit sa browser agent ang siya ring dahilan kung bakit malawakang nanganganib ito: posibleng maka-encounter ang agent ng mga di-mapagkakatiwalaang instruction sa mga area na halos walang mga boundary gaya ng mga email at attachment, mga calendar invite, mga shared document, forum, social media post, at mga arbitrary webpage. Dahil marami ring magagawa sa browser ang isang agent gaya ng user, posible rin maging ganoon kalawak ang impact kapag nagtagumpay ang isang pag-atake: magagawa nitong mag-forward ng sensitibong mga email: magpadala ng pera, mag-edit o mag-delete ng mga file sa cloud, at iba pa.
May nagawa na kaming pagsulong sa pagdepensa laban sa prompt injection sa pamamagitan ng maraming layer ng pag-iingat, gaya ng ibinahagi namin sa isang naunang post. Gayunpaman, nananatiling isang bukas na hamon ang prompt injection sa security ng agent, at isang bagay ito na inaasahan naming patuloy naming tatrabahuhin susunod na mga taon.
Para mapalakas ang aming mga depensa, patuloy kaming naghahanap ng mga bagong prompt injection attack laban sa mga agent system na nasa produksyon. Mahalagang makita ang mga pag-atakeng ito para makagawa ng matatag na mga mitigasyon: tinutulungan kami nitong maintindihan ang mga panganib sa real world, ma-expose ang mga gap sa depensa namin, at makapag-drive ng mga konkretong patch o solusyon.
Para malawakang magawa ito, nag-build kami ng LLM-based na automated attacker at sinanay ito para maghanap ng mga prompt injection attack na puwedeng matagumpay na umatake sa isang browser agent. Sinanay namin ang attacker na ito nang end-to-end gamit ang reinforcement learning, kaya natututo ito mula sa sarili nitong mga tagumpay at failure para ma-improve ang mga red teaming skill nito. Hinayaan din naming “masubukan ito bago ipadala”, na ang ibig naming sabihin: sa panahon ng chain-of-thought reasoning nito o sunod-sunod na pangangatuwiran, makakapag-propose ang attacker ng isang candidate injection at ipinapadala ito sa isang external simulator. Ang simulator ay nagra-run ng counterfactual na rollout kung paano magbe-behave ang target na biktimang agent (ang defender) kapag na-encounter nito ang injection, at nagbabalik ng full reasoning at action trace ng biktimang agent. Ginagamit ng attacker ang trace na iyon bilang feedback, ina-adjust ang pag-atake, at nira-run ulit ang simulation—sa gayo'y inuulit-ulit ang loop na ito nang maraming beses bago magsagawa ng final na pag-atake. Naglalaan ito ng mas mayamang in-context feedback sa attacker kumpara sa single pass/fail signal. Napapalawak din nito ang test-time compute ng attacker. Bukod pa rito, ang limitadong access sa mga reasoning trace (na hindi namin dini-disclose sa mga external user) ng defender ay nakakapagbigay sa mga internal attacker namin ng mahusay na advantage—kaya lumalaki ang chance na madaig ang mga external na kalaban.
Bakit mahalaga ang reinforcement learning (RL)? Pinili namin ang reinforcement learning para i-train ang automated attacker sa maraming dahilan:
- Ino-optimize ang mahahaba at hindi tuloy-tuloy na mga objective ng attacker. Ang goal namin ay maghanap ng mga prompt injection attack na makakalinlang sa agent na magsagawa ng mga sopistikado at mapandayang task (hal., magpadala ng mga email, mga bank transaction) na posibleng mangyari sa real world. Ang mga mapandaya o adversarial task na ito ay likas na mahahaba, at nangangailangan ng maraming step ng pangangatwiran at interaction sa environment, na may pailan-ilan at delayed na mga success signal. Bagay na bagay ang reinforcement learning sa pailan-ilan at delayed na reward structure na ito.
- Ginagamit ang mga capability ng frontier LLM. Direkta naming sinanay ang mga frontier LLM bilang mga auto-red-teamer, kaya direktang nakikinabang ang mga attacker sa mga improvement sa reasoning at planning sa mga frontier model. Habang lumalakas ang mga base model, likas na nagiging mas may kakayahan din ang mga attacker—sa gayo'y nagsisilbing mabisang paraan ito para mapanatili ang pressure sa mga depensa namin habang nag-i-evolve ang mga model namin.
- Pinalalawak ang computation at ginagaya ang mga adaptive attacker. Bagay na bagay ang reinforcement learning para sa pagpapalawak ng computation na ginugol sa paghahanap ng mga pag-atake sa malalaking bilang ng mga sampling at learning step, at halos naipapakita rin nito kung paano nagbe-behave ang mga human attacker: patuloy na inuulit-ulit ang mga strategy, pinag-aaralan ang mga outcome, at nire-reinforce ang mga successful na behavior.
Kayang end-to-end na i-discover ng automated attacker namin ang mga bago at realistic na prompt-injection attack. Hindi tulad ng karamihan sa mga naunang automated na red teaming work, na nagharap lang ng mga simpleng failure gaya ng pag-elicit o pagkuha ng mga specific na output string o pag-trigger ng isang di-intensyong single-step na tool call mula sa agent, kayang maimpluwensyahan ng RL-trained na attacker namin ang isang agent na magsagawa ng mga sopistikado, mahahaba, at nakakapinsalang workflow nang mahigit sampung step (o daan-daang step pa nga) bago mangyari. May nakita rin kaming mga bagong strategy ng pag-atake na hindi lumitaw sa aming human red teaming campaign o sa mga external report.
Ipinapakita ng demo sa ibaba ang isang konkretong prompt injection exploit na nakita ng aming automated attacker, na ginamit naman namin para mas mapatatag pa ang mga depensa ng ChatGPT Atlas. Nagtanim ang attacker sa inbox ng user ng malicious na email na may prompt injection na nag-uutos sa agent na magpadala ng resignation letter sa CEO ng user. Pagkatapos, nang magpa-draft ang user sa agent ng isang out-of-office reply, na-encounter ng agent ang email na iyon sa panahon ng normal na pag-execute ng task, itinuring nito na authoritative ang naka-inject na prompt, at sinunod ito. Walang naisulat na out-of-office reply, sa halip ni-resign ng agent ang user.

1. Nagpapatulong sa agent na mag-manage ng email

2. Binubuksan ng agent ang pinakabagong email na hindi pa nababasa

3. May malicious na mga instruction ang email

4. Nagpadala ng hindi sinasadyang resignation email ang agent.

5. Pagkatapos ng security update namin, may na-detect na prompt injection attempt ang agent mode
Dahil sa nature ng prompt injection, hamon na masiguro ang security, pero sa pagpapalawak ng mga automated security research namin, adversarial testing, at paghihigpit sa mabilis na response loop namin, na-improve namin ang katatagan at mga depensa ng model - bago pa mangyari ang pag-atake.
Isini-share namin ang demo na ito para matulungan ang mga user at researcher na mas maintindihan ang nature ng mga pag-atakeng ito—at kung paano kami aktibong dumedepensa laban sa mga ito. Naniniwala kaming naipapakita nito kung ano ang kayang gawin ng automated red teaming, at talagang excited na excited na kaming ipagpatuloy ang research namin.
Ang automated red teaming namin ay nagda-drive ng proactive at mabilis na response loop: kapag may natuklasang isang bagong uri ng mga successful na prompt injection attack ang automated attacker, agad itong gumagawa ng konkretong target para ma-improve ang mga depensa namin.
Nagsasagawa ng adversarial training laban sa mga bagong natuklasang pag-atake. Patuloy naming tini-train ang mga updated agent model sa napakahusay na automated attacker namin—na nuuna ang mga pag-atakeng hindi napapagtagumpayan sa kasalukuyan ng mga target agent. Ang goal ay turuan ang mga agent na huwag pansinin ang mga mapanlinlang na instruction at manatiling nakaayon sa intensyon ng user, sa gayo'y nai-improve ang paglaban sa mga bagong natuklasang prompt-injection strategy. Nagagawa nito na direktang “mag-burn in“ o maglinang ng katatagan laban sa mga bago at malalakas na pag-atake sa checkpoint ng model. Halimbawa, ang kamakailang automated red teaming ay direktang nakapag-produce ng isang bagong browser-agent checkpoint na adversarially trained at na-roll out na ito sa lahat ng user ng ChatGPT Atlas. Sa bandang huli, nakakatulong ito na mas maprotektahan ang mga user namin laban sa mga bagong uri ng pag-atake.
Ginagamit ang mga trace ng pag-atake para ma-improve ang mas malawak na hanay ng depensa. Marami sa mga attack path na natuklasan ng aming automated red teamer ang nagsisiwalat ng mga oportunidad para sa improvement sa labas ng model mismo—gaya ng pag-monitor, mga safety instruction na inilalagay namin sa context ng model, o mga system-level na safeguard. Nakakatulong sa amin ang findings na ito na paulit-ulit na mai-adjust ang buong hanay ng depensa, hindi lang ang checkpoint ng agent.
Pagtugon sa mga aktibong pag-atake. Makakatulong din ang loop na ito para mas mahusay na makatugon sa mga aktibong pag-atake. Habang tinitingnan natin ang global footprint natin para sa potensyal na pag-atake, puwede rin tayong matuto sa mga technique at taktika na nakikita nating ginagamit ng mga external na kalaban, isama ang mga iyon sa loop na ito, i-emulate ang activity nila, at mag-drive ng defensive na pagbabago sa platform natin.
Pinapalakas ang kakayahan naming mag-red team ng mga agent at gamitin ang pinaka-capable na mga model namin para ma-automate ang mga bahagi ng trabahong iyon—na nakakatulong para maging mas matatag ang browser agent ng Atlas sa pamamagitan ng pagpapalawak sa discovery-to-fix na loop. Pinatitibay ng pagpapatatag na ito ang isang pamilyar na aral sa security: ang pinakagamit na gamit na daan tungo sa mas matibay na proteksyon ay ang patuloy na pag-pressure at pag-test sa mga tunay na system, pag-react sa mga failure, at paghahatid ng mga konkretong solusyon.
Inaasahan naming patuloy na mag-a-adapt ang mga kalaban. Ang prompt injection, gaya ng mga scam at social engineering sa web, ay malamang na hindi lubusang “malulutas”. Pero optimistiko kaming sa paglipas ng panahon, patuloy na mababawasan ng proactive at napaka-responsive at mabilis na response loop ang mga panganib sa real world. Kapag pinagsama-sama ang mga automated na pag-discover sa pag-atake, adversarial training, at mga system level na safeguard, matutukoy natin nang mas maaga ang mga bagong pattern ng pag-atake, mas mabilis na mapapaliit ang mga gap, at patuloy na mapapataas ang gastos sa pang-i-exploit.
Makapangyarihan ang agent mode sa ChatGPT Atlas—at dahil din dito kung kaya lumalawak ang banta sa security. Bahagi ng responsableng pag-build ang malinaw na pagkilala sa pakinabang at peligrong ito. Ang goal namin ay gawing makabuluhan at mas secure ang Atlas sa bawat pag-ulit: nai-improve ang katatagan ng model, napapalakas ang nakapalibot na hanay ng depensa, at namo-monitor ang mga umuusbong na pattern ng pang-aabuso.
Patuloy kaming mag-iinvest sa research at deployment, magde-develop ng mas mahuhusay na method ng automated red teaming, magro-roll out ng mga layer ng mitigasyon, at agad na paulit-ulit na mag-a-adjust habang natututo kami. Ibabahagi rin namin sa mas malawak na community ang mga puwede naming i-share.
Habang patuloy naming pinapalakas ang Atlas sa system level, may mga hakbang na puwedeng gawin ang mga user para mabawasan ang panganib kapag gumagamit ng mga agent.
Limitahan ang logged-in access kapag posible. Patuloy naming inirerekomenda na i-take advantage ng mga user ang logged-out mode(magbubukas sa bagong window) kapag ginagamit ang Agent sa Atlas kung hindi naman kailangang naka-log in kayo sa mga website para sa mga ginagawang task, o limitahan ang pag-access sa mga specific na site kung saan kayo nag-sign-in sa panahon ng task.
Maingat na i-review ang mga request para sa confirmation. Para sa ilang mahahalagang aksyon, tulad ng pagkumpleto sa pagbili o pagpapadala ng email, ang mga agent ay dinisenyong humingi muna ng confirmation mo bago magpatuloy. Kapag may pinapa-confirm na aksyon sa iyo ang isang agent, huminto muna sandali at i-verify kung tama ang aksyon at kung angkop sa context ang kahit anong impormasyon na ibinabahagi.
Magbigay ng malinaw na instruction sa mga agent kapag posible. Iwasan ang masyadong malawak na mga prompt gaya ng “review my emails and take whatever action is needed.” Mas madaling maimpluwensyahan ng mga nakatago o malicious na content ang mga agent kapag malawak ang instruction, kahit may mga safeguard pa na inilagay. Mas safe na magpagawa sa agent ng specific na mga task na may malinaw na scope o saklaw. Bagaman hindi nito lubusang maaalis ang panganib, mas mapapahirap naman nito na maisagawa ang mga pag-atake.
Kung ang mga agent ay magiging mapagkakatiwalaang partner sa araw-araw na mga task, dapat na maging resilient o di-natitinag ito sa mga uri ng manipulasyon na posible sa open web. Pangmatagalang commitment ang pagpapatatag laban sa prompt injection at isa ito sa mga pangunahing priyoridad namin. May mga ibabahagi pa kami tungkol sa trabahong ito sa susunod.


