Aqbeż għall-kontenut prinċipali
OpenAI

22 ta’ Diċembru 2025

Sigurtà

Insaħħu kontinwament lil ChatGPT Atlas kontra attakki ta’ injezzjoni tal-prompts

Red teaming awtomatizzat—imħaddem minn apprendiment ta' tisħiħ—jgħinna niskopru u nsewwu b’mod proattiv exploits reali tal-aġenti qabel ma jiġu armati fil-prattika.

Qed jillowdja…

Il-modalità Agent f’ChatGPT Atlas hija waħda mill-aktar karatteristiċi aġentiċi għal skop ġenerali li ħriġna sal-lum. F’din il-modalità, l-aġent tal-browser jara paġni web u jwettaq azzjonijiet, klikks u keystrokes fil-browser tiegħek, proprju kif tagħmel int. Dan jippermetti lil ChatGPT jaħdem direttament fuq ħafna mill-flussi tax-xogħol tiegħek ta’ kuljum billi juża l-istess spazju, kuntest u data.

Hekk kif l-aġent tal-browser jgħinek tagħmel aktar, isir ukoll mira ta’ valur ogħla għal attakki avversarjali. Dan jagħmel is-sigurtà tal-IA partikolarment importanti. Ħafna qabel ma nedjna ChatGPT Atlas, konna qed nibnu u nsaħħu kontinwament difiżi kontra theddid emerġenti li jimmira speċifikament lejn din il-paradigma ġdida ta’ “aġent fil-browser”. Injezzjoni tal-prompts hija wieħed mill-aktar riskji sinifikanti li niddefendu kontrihom b’mod attiv biex ngħinu niżguraw li ChatGPT Atlas jista’ jopera b’mod sigur f’ismek. 

Bħala parti minn dan l-isforz, reċentement ħriġna aġġornament ta’ sigurtà għall-aġent tal-browser ta’ Atlas, inkluż mudell ġdid imħarreġ b’mod avversarjali u salvagwardji ta’ madwaru msaħħa. Dan l-aġġornament ġie mqanqal minn klassi ġdida ta’ attakki ta’ injezzjoni tal-prompts żvelati permezz tar-red teaming awtomatizzat intern tagħna.

F’din il-kariga, nispjegaw kif jista’ jinqala’ r-riskju ta’ injezzjoni tal-prompts għall-aġenti bbażati fuq il-web, u naqsmu ċiklu ta’ rispons rapidu li ilna nibnu biex niskopru kontinwament attakki ġodda u nibagħtu mitigazzjonijiet malajr—illustrati b’dan l-aġġornament ta’ sigurtà reċenti.

Aħna nqisu l-injezzjoni tal-prompts bħala sfida fit-tul għas-sigurtà tal-IA, u se jkollna bżonn inkomplu nsaħħu d-difiżi tagħna kontriha (ħafna bħall-iskams online li dejjem jevolvu u jimmiraw lejn il-bnedmin). L-aħħar ċiklu tagħna ta’ rispons rapidu qed juri wegħda bikrija bħala għodda kritika f’dik il-mixja: qed niskopru strateġiji ta’ attakk ġodda internament qabel ma jidhru fil-prattika. Il-viżjoni tagħna fit-tul hi li nisfruttaw bis-sħiħ (1) l-aċċess white-box tagħna għall-mudelli tagħna, (2) fehim profond tad-difiżi tagħna, u (3) skala komputazzjonali biex nibqgħu pass ’il quddiem mill-attakkanti esterni—insibu exploits aktar kmieni, nibagħtu mitigazzjonijiet aktar malajr, u nissikkaw iċ-ċiklu kontinwament. Flimkien mar-riċerka fruntiera fuq tekniki ġodda biex tiġi indirizzata l-injezzjoni tal-prompts u investiment akbar f’kontrolli oħra ta’ sigurtà, dan iċ-ċiklu kumulattiv jista’ jagħmel l-attakki dejjem aktar diffiċli u għaljin, u jnaqqas b’mod materjali r-riskju reali tal-injezzjoni tal-prompts. Fl-aħħar mill-aħħar, il-mira tagħna hi li inti tkun tista’ tafda aġent ta’ ChatGPT biex juża l-browser tiegħek bħalma tafda kollega jew ħabib kompetenti ħafna u konxju tas-sigurtà.

L-injezzjoni tal-prompts bħala sfida miftuħa għas-sigurtà tal-aġenti

Attakk ta’ injezzjoni tal-prompts jimmira lejn aġenti tal-IA billi jinkorpora istruzzjonijiet malizzjużi fil-kontenut li jipproċessa l-aġent. Dawk l-istruzzjonijiet huma mfassla biex jaqbżu jew jidderieġu mill-ġdid l-imġiba tal-aġent—jaħtfuh biex isegwi l-intenzjoni ta’ attakkant, aktar milli tal-utent.

Għal aġent tal-browser bħal dak ġewwa ChatGPT Atlas, l-injezzjoni tal-prompts iżżid vettur ta’ theddida ġdid lil hinn mir-riskji tradizzjonali tas-sigurtà tal-web (bħal żball tal-utent jew vulnerabbiltajiet tas-software). Minflok phishing tal-bnedmin jew sfruttament ta’ vulnerabbiltajiet tas-sistema tal-browser, l-attakkant jimmira lejn l-aġent li jopera ġo fih.

Bħala eżempju ipotetiku, attakkant jista’ jibgħat email malizzjuża li tipprova tqarraq b’aġent biex jinjora t-talba tal-utent u minflok jibgħat dokumenti sensittivi tat-taxxa lil indirizz tal-email ikkontrollat mill-attakkant. Jekk utent jitlob lill-aġent jirrevedi emails mhux moqrija u jiġbor fil-qosor il-punti ewlenin, l-aġent jista’ jassorbi dik l-email malizzjuża waqt il-fluss tax-xogħol. Jekk isegwi l-istruzzjonijiet injettati, jista’ joħroġ mit-triq it-tajba—u jaqsam informazzjoni sensittiva b’mod żbaljat.

Dan huwa biss xenarju speċifiku wieħed. L-istess ġeneralità li tagħmel lill-aġenti tal-browser utli tagħmel ukoll ir-riskji usa’: l-aġent jista’ jiltaqa’ ma’ istruzzjonijiet mhux fdati fuq erja prattikament mingħajr limiti—emails u attachments, stediniet tal-kalendarju, dokumenti maqsuma, forums, posts fuq il-midja soċjali, u paġni web arbitrarji. Billi l-aġent jista’ jieħu ħafna mill-istess azzjonijiet li jista’ jieħu utent fil-browser, l-impatt ta’ attakk ta’ suċċess jista’ ipotetikament ikun wiesa’ bl-istess mod: jibgħat ’il quddiem email sensittiva, jibgħat flus, jeditja jew iħassar fajls fis-sħaba, u aktar.

Għamilna progress fid-difiża kontra l-injezzjoni tal-prompts permezz ta’ diversi saffi ta’ salvagwardji, kif qsamna f’kariga preċedenti. Madankollu, l-injezzjoni tal-prompts tibqa’ sfida miftuħa għas-sigurtà tal-aġenti, u waħda li nistennew li nibqgħu naħdmu fuqha għas-snin li ġejjin.

Skoperta awtomatizzata ta’ attakki ta’ injezzjoni tal-prompts permezz ta’ apprendiment ta' tisħiħ end-to-end u b’komputazzjoni għolja

Biex insaħħu d-difiżi tagħna, ilna nfittxu kontinwament attakki ġodda ta’ injezzjoni tal-prompts kontra sistemi ta’ aġenti fil-produzzjoni. Is-sejba ta’ dawn l-attakki hija prekundizzjoni meħtieġa biex nibnu mitigazzjonijiet robusti: tgħinna nifhmu r-riskju fid-dinja reali, tikxef lakuni fid-difiżi tagħna, u tmexxi patches konkreti.

Biex nagħmlu dan fuq skala, bnejna attakkant awtomatizzat ibbażat fuq LLM u ħarreġnieh biex jikkaċċa attakki ta’ injezzjoni tal-prompts li jistgħu jattakkaw b’suċċess aġent tal-browser. Ħarriġna dan l-attakkant end-to-end b’apprendiment ta' tisħiħ, sabiex jitgħallem mis-suċċessi u l-fallimenti tiegħu stess biex itejjeb il-ħiliet tiegħu fir-red teaming. Ħallejnieh ukoll “jipprova qabel ma jibgħat”, li biha nfissru dan: waqt ir-raġunament tiegħu chain of thought, l-attakkant jista’ jipproponi injezzjoni kandidata u jibgħatha lil simulatur estern. Is-simulatur imexxi rollout kontrofattwali ta’ kif l-aġent vittma fil-mira (id-difensur) iġib ruħu jekk jiltaqa’ mal-injezzjoni, u jirritorna traċċa sħiħa tar-raġunament u tal-azzjonijiet tal-aġent vittma. L-attakkant juża dik it-traċċa bħala feedback, itejjeb l-attakk, u jerġa’ jmexxi s-simulazzjoni—u jirrepeti dan iċ-ċiklu diversi drabi qabel ma jimpenja ruħu għal attakk finali. Dan jipprovdi feedback aktar rikk fil-kuntest lill-attakkant minn sinjal wieħed ta’ suċċess/falliment. Jkabbar ukoll il-komputazzjoni tat-test-time tal-attakkant. Barra minn hekk, aċċess privileġġjat għat-traċċi tar-raġunament (li ma niżvelawx lill-utenti esterni) tad-difensur jagħti lill-attakkant intern tagħna vantaġġ asimmetriku—u jżid iċ-ċansijiet li jista’ jaqbeż lill-avversarji esterni.

Mockup ta’ paġna web fil-modalità ċara li juri apprendiment ta' tisħiħ, b’driegħ robotiku stilizzat jinteraġixxi ma’ forom ġeometriċi li jżommu fl-arja fuq sfond qawwi bi gradjent.

Għaliex apprendiment ta' tisħiħ (RL)? Għażilna apprendiment ta' tisħiħ biex inħarrġu l-attakkant awtomatizzat għal diversi raġunijiet:

  1. L-ottimizzazzjoni ta’ objettivi tal-attakkant fit-tul u mhux kontinwi. Il-mira tagħna hi li nfittxu attakki ta’ injezzjoni tal-prompts li jistgħu jqarrqu bl-aġent biex iwettaq kompiti avversarjali sofistikati (eż., jibgħat emails, tranżazzjonijiet bankarji) li jistgħu jseħħu fid-dinja reali. Dawn il-kompiti avversarjali huma intrinsikament fit-tul, u jeħtieġu ħafna passi ta’ raġunament u interazzjoni mal-ambjent, b’sinjali ta’ suċċess skarsi u mdewma. L-apprendiment ta' tisħiħ huwa adattat tajjeb għal din l-istruttura ta’ premju skars u mdewwem.
  2. Nieħdu vantaġġ mill-kapaċitajiet fruntiera tal-LLM. Ħarriġna LLMs fruntiera direttament bħala auto-red-teamers, sabiex l-attakkant jibbenefika direttament mit-titjib fir-raġunament u l-ippjanar fil-mudelli fruntiera. Hekk kif il-mudelli bażi jsiru aktar b’saħħithom, l-attakkant b’mod naturali jsir aktar kapaċi wkoll—u dan jagħmel dan mod skalabbli biex inżommu pressjoni fuq id-difiżi tagħna hekk kif il-mudelli tagħna jevolvu.
  3. Niskalaw il-komputazzjoni u nimitaw attakkanti adattivi. L-apprendiment ta' tisħiħ huwa adattat tajjeb biex niskalaw il-komputazzjoni minfuqa fuq it-tfittxija ta’ attakki fuq numri kbar ta’ samplings u passi ta’ tagħlim, u jirrifletti wkoll mill-qrib kif iġibu ruħhom attakkanti umani adattivi: jippruvaw strateġiji b’mod iterattiv, jitgħallmu mir-riżultati, u jsaħħu mġibiet ta’ suċċess.

L-attakkant awtomatizzat tagħna jista’ jiskopri attakki ġodda u realistiċi ta’ injezzjoni tal-prompts end-to-end. B’differenza minn ħafna xogħol preċedenti fuq red teaming awtomatizzat, li żvela fallimenti sempliċi bħal li jinkisbu strings ta’ output speċifiċi jew li jiġi attivat call ta’ għodda mhux intenzjonata b’pass wieħed mill-aġent, l-attakkant tagħna mħarreġ b’RL jista’ jidderieġi aġent biex iwettaq flussi tax-xogħol ta’ ħsara sofistikati u fit-tul li jiżvolġu fuq għexieren (jew saħansitra mijiet) ta’ passi. Osservajna wkoll strateġiji ta’ attakk ġodda li ma dehrux fil-kampanja tagħna ta’ red teaming uman jew fir-rapporti esterni.

Id-demo hawn taħt tippreżenta exploit konkret ta’ injezzjoni tal-prompts misjub mill-attakkant awtomatizzat tagħna, li mbagħad użajna biex insaħħu aktar id-difiżi ta’ ChatGPT Atlas. L-attakkant jimla l-inbox tal-utent b’email malizzjuża li fiha injezzjoni tal-prompts li tidderieġi lill-aġent biex jibgħat ittra ta’ riżenja lis-CEO tal-utent. Aktar tard, meta l-utent jitlob lill-aġent jabbozza tweġiba ta’ out-of-office, l-aġent jiltaqa’ ma’ dik l-email waqt l-eżekuzzjoni normali tal-kompitu, jittratta l-prompt injettat bħala awtorevoli, u jsegwih. Il-messaġġ ta’ out-of-office qatt ma jinkiteb u l-aġent jirriżenja f’isem l-utent minflok.

In-natura tal-injezzjoni tal-prompts tagħmel garanziji deterministiċi ta’ sigurtà diffiċli, iżda billi niskalaw ir-riċerka awtomatizzata tagħna dwar is-sigurtà, l-ittestjar avversarjali, u nissikkaw iċ-ċiklu tagħna ta’ rispons rapidu, nistgħu ntejbu r-robustezza u d-difiżi tal-mudell - qabel ma nistennew li jseħħ attakk fil-prattika. 

Qed naqsmu din id-demo biex ngħinu lill-utenti u lir-riċerkaturi jifhmu aħjar in-natura ta’ dawn l-attakki—u kif qed niddefendu b’mod attiv kontrihom. Nemmnu li dan jirrappreżenta l-fruntiera ta’ dak li jista’ jwettaq ir-red teaming awtomatizzat, u aħna eċċitati ħafna li nkomplu r-riċerka tagħna.

Insawru ChatGPT Atlas b’ċiklu proattiv ta’ rispons rapidu

Ir-red teaming awtomatizzat tagħna qed imexxi ċiklu proattiv ta’ rispons rapidu: meta l-attakkant awtomatizzat jiskopri klassi ġdida ta’ attakki ta’ injezzjoni tal-prompts ta’ suċċess, immedjatament joħloq mira konkreta biex intejbu d-difiżi tagħna.

Taħriġ avversarjali kontra attakki ġodda skoperti. Inħarrġu kontinwament mudelli ta’ aġenti aġġornati kontra l-aqwa attakkant awtomatizzat tagħna—u nagħtu prijorità lill-attakki fejn l-aġenti fil-mira bħalissa jfallu. Il-mira hi li ngħallmu lill-aġenti jinjoraw istruzzjonijiet avversarjali u jibqgħu allinjati mal-intenzjoni tal-utent, u ntejbu r-reżistenza għal strateġiji ġodda ta’ injezzjoni tal-prompts. Dan “jaħraq” robustezza kontra attakki ġodda u qawwija direttament fil-checkpoint tal-mudell. Pereżempju, red teaming awtomatizzat reċenti pproduċa direttament checkpoint ġdid ta’ aġent tal-browser imħarreġ b’mod avversarjali li diġà ġie introdott lill-utenti kollha ta’ ChatGPT Atlas. Dan fl-aħħar jgħin biex jipproteġi aħjar lill-utenti tagħna kontra tipi ġodda ta’ attakki.

L-użu ta’ traċċi ta’ attakk biex intejbu l-istruttura ta’ difiża usa’. Ħafna mogħdijiet ta’ attakk skoperti mill-red teamer awtomatizzat tagħna jiżvelaw ukoll opportunitajiet ta’ titjib barra mill-mudell innifsu—bħal fil-monitoraġġ, istruzzjonijiet ta’ sigurtà li npoġġu fil-kuntest tal-mudell, jew salvagwardji fil-livell tas-sistema. Dawk is-sejbiet jgħinuna niteraw fuq l-istruttura sħiħa tad-difiża, mhux biss fuq il-checkpoint tal-aġent.

Nirrispondu għal attakki attivi. Dan iċ-ċiklu jista’ jgħin ukoll biex nirrispondu aħjar għal attakki attivi fil-prattika. Hekk kif inħarsu madwar il-preżenza globali tagħna għal attakki potenzjali, nistgħu nieħdu t-tekniki u t-tattiċi li nosservaw li qed jużaw l-avversarji esterni, ndaħħluhom f’dan iċ-ċiklu, nimitaw l-attività tagħhom, u nmexxu bidla difensiva fil-pjattaforma kollha tagħna.

Perspettiva: l-impenn fit-tul tagħna għas-sigurtà tal-aġenti

It-tisħiħ tal-kapaċità tagħna li nagħmlu red teaming għall-aġenti u l-użu tal-aktar mudelli kapaċi tagħna biex nawtomatizzaw partijiet minn dak ix-xogħol—jgħin biex l-aġent tal-browser ta’ Atlas isir aktar robust billi jiskala ċ-ċiklu minn skoperta għal tiswija. Dan l-isforz ta’ tisħiħ isaħħaħ lezzjoni familjari mis-sigurtà: triq magħrufa sew lejn protezzjoni aktar b’saħħitha hi li tittestja kontinwament sistemi reali taħt pressjoni, tirreaġixxi għall-fallimenti, u tibgħat tiswijiet konkreti.

Nistennew li l-avversarji jibqgħu jadattaw. L-injezzjoni tal-prompts, ħafna bħall-iskams u l-inġinerija soċjali fuq il-web, x’aktarx qatt ma tiġi “solvuta” kompletament. Iżda aħna ottimisti li ċiklu proattiv u reattiv ħafna ta’ rispons rapidu jista’ jkompli jnaqqas b’mod materjali r-riskju fid-dinja reali maż-żmien. Billi ngħaqqdu skoperta awtomatizzata ta’ attakki ma’ taħriġ avversarjali u salvagwardji fil-livell tas-sistema, nistgħu nidentifikaw mudelli ġodda ta’ attakk aktar kmieni, nagħlqu l-lakuni aktar malajr, u nkomplu ngħollu l-ispiża tal-isfruttament.

Il-modalità Agent f’ChatGPT Atlas hija qawwija—u tespandi wkoll il-wiċċ tat-theddid għas-sigurtà. Li nkunu ċari dwar dak il-kompromess huwa parti mill-bini responsabbli. Il-mira tagħna hi li nagħmlu lil Atlas b’mod sinifikanti aktar sigur ma’ kull iterazzjoni: intejbu r-robustezza tal-mudell, insaħħu l-istruttura tad-difiża ta’ madwaru, u nimmonitorjaw għal mudelli emerġenti ta’ abbuż fil-prattika.

Se nkomplu ninvestu fir-riċerka u fid-distribuzzjoni, niżviluppaw metodi aħjar ta’ red teaming awtomatizzat, inħaddmu mitigazzjonijiet f’saffi, u niteraw malajr hekk kif nitgħallmu. Se naqsmu wkoll dak li nistgħu mal-komunità usa’.

Rakkomandazzjonijiet biex tuża l-aġenti b’mod sigur

Filwaqt li nkomplu nsaħħu lil Atlas fil-livell tas-sistema, hemm passi li l-utenti jistgħu jieħdu biex inaqqsu r-riskju meta jużaw l-aġenti. 

Illimita l-aċċess meta tkun illoggjat fejn possibbli. Inkomplu nirrakkomandaw li l-utenti jieħdu vantaġġ mill-modalità meta ma tkunx illoggjat(jinfetaħ f’tieqa ġdida) meta jużaw Agent f’Atlas kull meta l-aċċess għal websajts li int illoggjat fihom ma jkunx meħtieġ għall-kompitu inkwistjoni, jew biex tillimita l-aċċess għal siti speċifiċi li tidħol fihom waqt il-kompitu. 

Irrevedi bir-reqqa t-talbiet għall-konferma. Għal ċerti azzjonijiet b’konsegwenzi importanti, bħal tlestija ta’ xiri jew tibgħat email, l-aġenti huma mfassla biex jitolbu l-konferma tiegħek qabel ikomplu. Meta aġent jitolbok tikkonferma azzjoni, ħu mument biex tivverifika li l-azzjoni hija korretta u li kull informazzjoni li qed tinqasam hija xierqa għal dak il-kuntest.

Agħti istruzzjonijiet espliċiti lill-aġenti meta possibbli. Evita prompts wesgħin iżżejjed bħal “irrevedi l-emails tiegħi u ħu kwalunkwe azzjoni meħtieġa.” Latitudni wiesgħa tagħmilha aktar faċli biex kontenut moħbi jew malizzjuż jinfluwenza lill-aġent, anke meta jkun hemm salvagwardji fis-seħħ. Huwa aktar sigur li titlob lill-aġent iwettaq kompiti speċifiċi u delimitati sew. Filwaqt li dan ma jeliminax ir-riskju, jagħmel l-attakki aktar diffiċli biex jitwettqu.

Jekk l-aġenti għandhom isiru sħab fdati għal kompiti ta’ kuljum, għandhom ikunu reżiljenti għat-tipi ta’ manipulazzjoni li tippermetti l-web miftuħa. It-tisħiħ kontra l-injezzjoni tal-prompts huwa impenn fit-tul u waħda mill-ogħla prijoritajiet tagħna. Dalwaqt se naqsmu aktar dwar dan ix-xogħol.

Awtur

OpenAI