Nenehno utrjevanje ChatGPT Atlasa proti napadom z vstavljanjem zavajajočega poziva
Avtomatizirano simulirano iskanje šibkih točk v nadzorovanem okolju, ki ga poganja okrepljeno učenje, nam omogoča proaktivno odkrivanje in odpravljanje izkoriščanj agenta v resničnem svetu, še preden so ta uporabljena kot orožje v naravi.
Agentski način v ChatGPT Atlas je ena najbolj splošnonamenskih agentskih funkcionalnosti, ki smo jih doslej izdali. V tem načinu agent brskalnika ogleduje spletne strani ter v vašem brskalniku izvaja dejanja, klike in pritiske tipk, enako kot bi jih vi. To omogoča, da ChatGPT neposredno deluje na številnih vaših vsakodnevnih delovnih tokovih z uporabo istega prostora, konteksta in podatkov.
Ker vam agent brskalnika pomaga opraviti več dela, hkrati postaja tarča z višjo vrednostjo za nasprotniške napade. Zaradi tega je varnost UI še posebej pomembna. Že dolgo pred lansiranjem ChatGPT Atlasa smo neprekinjeno gradili in utrjevali obrambo pred nastajajočimi grožnjami, ki so posebej usmerjene v novo paradigmo »agent v brskalniku«. Vstavljanje zavajajočega poziva je eno najpomembnejših tveganj, pred katerim se aktivno branimo, da bi zagotovili, da lahko ChatGPT Atlas v vašem imenu deluje varno.
V okviru teh prizadevanj smo nedavno lansirali varnostno posodobitev za Atlasovega agenta brskalnika, ki vključuje novo nasprotniško naučen model in okrepljene spremljevalne zaščitne mehanizme. To posodobitev je sprožil nov razred napadov z vstavljanjem zavajajočega poziva, odkritih z našim internim avtomatiziranim simuliranim iskanjem šibkih točk v nadzorovanem okolju.
V tej objavi pojasnjujemo, kako lahko tveganje vstavljanja zavajajočega poziva nastane pri spletnih agentih, ter predstavljamo zanko hitrega odzivanja, ki jo gradimo za nenehno odkrivanje novih napadov in hitro uvajanje omilitvenih ukrepov, kar ponazarja ta nedavna varnostna posodobitev.
Vstavljanje zavajajočega poziva obravnavamo kot dolgoročni izziv varnosti UI, zato bomo morali svojo obrambo proti njemu nenehno krepiti (podobno kot se nenehno razvijajo spletne prevare, ki ciljajo na ljudi). Naš najnovejši cikel hitrega odzivanja že kaže zgodnje obetavne rezultate kot ključno orodje na tej poti: nove strategije napadov interno odkrivamo, še preden se pojavijo v naravi. Naša dolgoročna vizija je v celoti izkoristiti (1) naš dostop do notranje strukture in delovanja modelov, (2) poglobljeno razumevanje naših obrambnih mehanizmov in (3) obseg računske zmogljivosti, da ostanemo pred zunanjimi napadalci, tako da izkoriščanja odkrijemo prej, omilitvene ukrepe uvedemo hitreje in zanko nenehno dodatno zategujemo. V kombinaciji z naprednimi raziskavami novih tehnik za obravnavo vstavljanja zavajajočega poziva ter povečanimi vlaganji v druge varnostne kontrole lahko ta kumulativni cikel napade naredi vse zahtevnejše in dražje ter bistveno zmanjša tveganje vstavljanja zavajajočega poziva v resničnem svetu. Navsezadnje je naš cilj, da lahko zaupate agentu ChatGPT, da uporablja vaš brskalnik na enak način, kot bi zaupali zelo sposobnemu sodelavcu ali prijatelju, ki se zaveda varnosti.
Napad z vstavljanjem zavajajočega poziva cilja na UI agente tako, da v vsebino, ki jo agent obdeluje, vključi zlonamerna navodila. Ta navodila so zasnovana tako, da preglasijo ali preusmerijo vedenje agenta in ga ugrabijo v sledenje namenu napadalca namesto namenu uporabnika.
Za brskalniškega agenta, kot je v ChatGPT Atlas, vstavljanje zavajajočega poziva predstavlja nov vektor groženj, ki presega tradicionalna tveganja spletne varnosti (kot so uporabniške napake ali programske ranljivosti). Namesto ribarjenja uporabnikov ali izkoriščanja sistemskih ranljivosti brskalnika napadalec cilja na agenta, ki deluje znotraj njega.
Kot hipotetičen primer lahko napadalec pošlje zlonamerno elektronsko sporočilo, s katerim poskuša agenta zavesti, da prezre zahtevo uporabnika in namesto tega posreduje občutljive davčne dokumente na elektronski naslov pod nadzorom napadalca. Če uporabnik agenta prosi, naj pregleda neprebrana elektronska sporočila in povzame ključne točke, lahko agent med delovnim tokom obdela to zlonamerno sporočilo. Če sledi vstavljenim navodilom, lahko odstopi od naloge in napačno razkrije občutljive informacije.
To je le en konkreten scenarij. Ista splošnost, zaradi katere so agenti brskalnika uporabni, hkrati razširja tudi tveganja: agent lahko naleti na nezaupanja vredna navodila na praktično neomejeni površini, kot so elektronska sporočila in priponke, koledarska vabila, deljeni dokumenti, forumi, objave na družbenih omrežjih in poljubne spletne strani. Ker lahko agent v brskalniku izvede številna ista dejanja kot uporabnik, je lahko učinek uspešnega napada hipotetično prav tako širok, na primer posredovanje občutljivega elektronskega sporočila, pošiljanje denarja, urejanje ali brisanje datotek v oblaku in drugo.
Pri obrambi pred vstavljanjem zavajajočega poziva smo z več plastmi zaščitnih ukrepov že dosegli določen napredek, kot smo delili v prejšnji objavi. Kljub temu vstavljanje zavajajočega poziva ostaja odprt izziv za varnost agentov, na katerem pričakujemo, da bomo delali še vrsto let.
Za okrepitev naše obrambe smo neprekinjeno iskali nove napade z vstavljanjem zavajajočega poziva proti agentskim sistemom v produkciji. Odkrivanje teh napadov je nujen predpogoj za izgradnjo robustnih omilitvenih ukrepov, saj nam pomaga razumeti tveganja v resničnem svetu, razkriva vrzeli v naši obrambi in spodbuja uvedbo konkretnih popravkov.
Da bi to dosegli v velikem obsegu, smo zgradili avtomatiziranega napadalca na velikem jezikovnem modelu, in ga naučili iskati napade z vstavljanjem zavajajočega poziva, ki lahko uspešno napadejo agenta brskalnika. Tega napadalca smo učili od začetka do konca z okrepljenim učenjem, tako da se iz lastnih uspehov in neuspehov uči ter izboljšuje svoje zmožnosti simuliranega iskanja šibkih točk v nadzorovanem okolju. Poleg tega smo mu omogočili, da »preizkusi, preden je lansirano«, kar pomeni, da lahko med svojim procesom verige sklepanja predlaga kandidata za vstavljanje zavajajočega poziva in ga pošlje zunanjemu simulatorju. Simulator izvede simulacijo hipotetičnega poteka delovanja ciljanega agenta (branilca), torej kako bi se vedel, če bi naletel na vstavljanje zavajajočega poziva, ter vrne celotno sled sklepanja in dejanj ciljanega agenta. Napadalec to sled uporabi kot povratno informacijo, na napad iterira in simulacijo ponovno zažene, pri čemer to zanko večkrat ponovi, preden se zaveže k končnemu napadu. Tak pristop napadalcu zagotavlja bogatejšo povratno informacijo v kontekstu kot zgolj enkratni signal uspeh ali neuspeh. Hkrati povečuje računsko moč napadalca v času testiranja. Poleg tega privilegiran dostop do sledi sklepanja branilca (ki jih ne razkrivamo zunanjim uporabnikom) našemu internemu napadalcu zagotavlja asimetrično prednost in povečuje verjetnost, da prehiti zunanje nasprotnike.
Zakaj okrepljeno učenje? Avtomatiziranega napadalca smo izurili z okrepljenim učenjem iz več razlogov:
- Optimizacija dolgoročnih in nekontinuiranih ciljev napadalca Naš cilj je iskati napade z vstavljanjem zavajajočega poziva, ki lahko agenta zavedejo v izvajanje zapletenih nasprotniških nalog (npr. pošiljanje elektronskih sporočil ali izvajanje bančnih transakcij), ki se lahko pojavijo v resničnem svetu. Te nasprotniške naloge so po svoji naravi dolgoročne, saj zahtevajo številne korake sklepanja in interakcije z okoljem ter imajo redke in zakasnele signale uspeha. Okrepljeno učenje je zato dobro prilagojeno tej strukturi redkih in zakasnjenih nagrad.
- Izkoriščanje zmožnosti najnaprednejših velikih jezikovnih modelov Najnaprednejše velike jezikovne modele smo neposredno učili kot avtomatizirane izvajalce simuliranega iskanja šibkih točk v nadzorovanem okolju, zato napadalec neposredno izkorišča izboljšave v sklepanju in načrtovanju, ki jih prinašajo napredni modeli. Ko osnovni modeli postajajo zmogljivejši, postaja tudi napadalec sposobnejši, zaradi gre tukaj za skalabilen način pritiskanja na naše obrambne mehanizme vzporedno z razvojem naših modelov.
- Povečevanje računske zmogljivosti in posnemanje prilagodljivih napadalcev Okrepljeno učenje je posebej primerno za povečevanje količine računanja, namenjene iskanju napadov prek velikega števila vzorčenj in učnih korakov, hkrati pa tesno odraža vedenje prilagodljivih človeških napadalcev. Ti namreč strategije preizkušajo iterativno, se učijo iz izidov in utrjujejo vedenja, ki se izkažejo za uspešna.
Naš avtomatizirani napadalec lahko od začetka do konca odkrije nove, realistične napade z vstavljanjem zavajajočega poziva Za razliko od večine dosedanjega avtomatiziranega simuliranega iskanja šibkih točk v nadzorovanem okolju, ki je razkrivalo predvsem preproste napake, kot so izzivanje določenih izhodnih nizov ali sprožitev nenamernega enokoračnega priklica orodja pri agentu, lahko naš napadalec, naučen z RL, usmeri agenta v izvajanje zapletenih, škodljivih delovnih tokov z dolgoročnim potekom, ki se raztezajo čez več deset (ali celo več sto) korakov. Poleg tega smo zaznali nove napadalne strategije, ki se niso pojavile niti v naših kampanjah simuliranega iskanja šibkih točk z udeležbo ljudi niti v zunanjih poročilih.
Spodnja predstavitev prikazuje konkreten primer izkoriščanja z vstavljanjem zavajajočega poziva, ki ga je odkril naš avtomatizirani napadalec in ki smo ga nato uporabili za dodatno utrjevanje obrambnih mehanizmov ChatGPT Atlasa. Napadalec v uporabnikovo prejeto pošto vnese zlonamerno elektronsko sporočilo, ki vsebuje vstavljanje zavajajočega poziva in agentu narekuje, naj pošlje odstopno pismo generalnemu direktorju uporabnikovega podjetja. Ko uporabnik pozneje agenta zaprosi, naj pripravi samodejni odgovor o odsotnosti, agent med običajnim izvajanjem naloge naleti na to elektronsko sporočilo, obravnava vstavljeni poziv kot avtoritativen in mu sledi. Samodejni odgovor o odsotnosti nikoli ni napisan, agent pa v imenu uporabnika poda odstopno izjavo.

1. Pomoč agenta pri upravljanju e-pošte

2. Agent odpre najnovejše neprebrano e-poštno sporočilo

3. E-poštno sporočilo vsebuje zlonamerna navodila

4. Agent pošlje nenamerno e-pošto o odpovedi

5. Po varnostni posodobitvi agentski način uspešno zazna poskus vstavljanja zavajajočega poziva
Narava vstavljanja zavajajočega poziva otežuje zagotavljanje determinističnih varnostnih jamstev. Kljub temu lahko z razširjanjem avtomatiziranih varnostnih raziskav, nasprotniškim testiranjem in dodatnim zategovanjem zanke hitrega odziva izboljšujemo robustnost modela in njegove obrambne mehanizme, še preden do napada pride v realnem okolju.
To predstavitev delimo zato, da bi uporabnikom in raziskovalcem pomagali bolje razumeti naravo teh napadov ter načine, kako se proti njim dejavno branimo. Prepričani smo, da to predstavlja trenutno mejo zmožnosti avtomatiziranega simuliranega iskanja šibkih točk v nadzorovanem okolju, in nadaljujemo raziskovalno delo.
Naše avtomatizirano simulirano iskanje šibkih točk v nadzorovanem okolju poganja proaktivno zanko hitrega odziva. Ko avtomatizirani napadalec odkrije nov razred uspešnih napadov z vstavljanjem zavajajočega poziva, se s tem takoj vzpostavi konkreten cilj za izboljšanje naših obrambnih mehanizmov.
Nasprotniško učenje na podlagi na novo odkritih napadov Posodobljene modele agentov neprekinjeno učimo v soočenju z našim najboljšim avtomatiziranim napadalcem, pri čemer dajemo prednost napadom, pri katerih ciljani agenti trenutno odpovedujejo. Cilj je agente naučiti, da prezrejo nasprotniška navodila in ostanejo usklajeni z namenom uporabnika, s čimer povečujemo odpornost proti na novo odkritim strategijam vstavljanja zavajajočega poziva. Na ta način se robustnost proti novim, visoko intenzivnim napadom neposredno 'vtisne' v kontrolno točko modela. Tako je na primer nedavno avtomatizirano simulirano iskanje šibkih točk neposredno privedlo do nove, nasprotniško naučene kontrolne točke brskalniškega agenta, ki je bila že uvedena za vse uporabnike ChatGPT Atlasa. To na koncu pripomore k še boljši zaščiti naših uporabnikov pred novimi vrstami napadov.
Uporaba sledi napadov za izboljšanje širšega nabora obrambnih tehnologij Številne poti napadov, ki jih odkrije naš avtomatiziran izvajalec simuliranega iskanja šibkih točk v nadzorovanem okolju, razkrijejo tudi priložnosti za izboljšave zunaj samega modela, na primer pri nadzoru, varnostnih navodilih, ki jih umeščamo v kontekst modela, ali pri varovalnih mehanizmih na ravni sistema. Te ugotovitve nam pomagajo iterirati celoten nabor obrambnih tehnologij, ne le kontrolne točke agenta.
Odzivanje na aktivne napade Ta zanka lahko pripomore tudi k učinkovitejšemu odzivanju na aktivne napade v praksi. Ko v našem globalnem okolju iščemo morebitne napade, lahko tehnike in taktike, ki jih opažamo pri zunanjih nasprotnikih, vključimo v to zanko, posnemamo njihovo dejavnost in na tej podlagi spodbudimo obrambne spremembe na celotni platformi.
Krepitev naše sposobnosti simuliranega iskanja šibkih točk za agente in uporaba naših najbolj zmogljivih modelov za avtomatizacijo delov tega dela prispevata k večji robustnosti brskalniškega agenta Atlas, ker povečujeta obseg zanke od odkritja do odprave. To utrjevanje potrjuje znano spoznanje iz varnosti: preizkušena pot do močnejše zaščite je, da resnične sisteme nenehno obremenitveno preverjamo, se odzivamo na odpovedi in lansiramo konkretne popravke.
Pričakujemo, da se bodo nasprotniki še naprej prilagajali. Vstavljanje zavajajočega poziva, podobno kot prevare in socialni inženiring na spletu, verjetno nikoli ne bo v celoti »rešeno«. Vendar smo optimistični, da lahko proaktivna in zelo odzivna zanka hitrega odzivanja sčasoma bistveno zmanjša tveganje v praksi S povezovanjem avtomatiziranega odkrivanja napadov, nasprotniškega učenja in varovalnih mehanizmov na ravni sistema lahko nove vzorce napadov prepoznamo prej, vrzeli zapremo hitreje in strošek izkoriščanja neprekinjeno zvišujemo.
Agentski način v ChatGPT Atlasu je zmogljiv, hkrati pa razširja površino varnostnih groženj. Jasno zavedanje tega kompromisa je del odgovornega razvoja. Naš cilj je, da Atlas z vsako iteracijo postane občutno varnejši: da izboljšujemo robustnost modela, krepimo okoliški obrambni sklad in v praksi spremljamo nove vzorce zlorab.
Še naprej bomo vlagali v raziskave in uvedbo, razvijali boljše metode avtomatiziranega simuliranega iskanja šibkih točk v nadzorovanem okolju, uvajali večplastne omilitvene ukrepe in hitro iterirali, ko se učimo. S širšo skupnostjo bomo delili tudi vse, kar bo možno.
Medtem ko Atlas še naprej utrjujemo na ravni sistema, lahko uporabniki pri uporabi agentov z določenimi koraki zmanjšajo tveganje.
Omejite dostop za prijavo, kadar je mogoče Še naprej priporočamo, da uporabniki izkoristijo način odjave(odpre se v novem oknu) pri uporabi agenta v Atlasu, kadar dostop do spletnih mest, na katera ste vpisani, ni potreben za nalogo, ali za omejitev dostopa do določenih spletnih mest, na katera se vpišete med nalogo.
Pozorno preglejte zahteve za potrditev Pri nekaterih posledičnih dejanjih, na primer pri dokončanju nakupa ali pošiljanju e-pošte, so agenti zasnovani tako, da pred nadaljevanjem zahtevajo vašo potrditev. Ko vas agent prosi, da potrdite dejanje, si vzemite trenutek in preverite, ali je dejanje pravilno ter ali so informacije, ki se delijo, za ta kontekst ustrezne.
Agentom dajte eksplicitna navodila, kadar je to mogoče Izogibajte se preveč splošnim pozivom, kot je »preglej mojo e-pošto in naredi vse, kar je potrebno«. Prevelika svoboda pri odločanju olajša, da na agenta vpliva skrita ali zlonamerna vsebina, tudi kadar so varovalni mehanizmi že vzpostavljeni. Varneje je, da agenta prosite za konkretne, jasno omejene naloge. Tveganj to sicer ne odpravi, vsekakor pa oteži izvedbo napadov.
Če naj agenti postanejo zaupanja vredni partnerji pri vsakodnevnih opravilih, morajo biti odporni na vrste manipulacij, ki jih omogoča odprti splet. Utrjevanje proti vstavljanju zavajajočega poziva je dolgoročna zaveza in ena naših najvišjih prioritet. O tem bomo kmalu rekli kaj več.


