Kontinuirano jačanje ChatGPT Atlasa protiv napada umetanjem upita
Automatizirano simuliranje napada (red teaming) — pokretano učenjem putem povratnih informacija — pomaže nam proaktivno otkriti i popraviti stvarne eksploatacije izvršitelja (agenta) prije nego što budu iskorištene.
Način rada izvršitelja u ChatGPT Atlasu jedna je od najopćenitijih značajki izvršitelja koje smo do sada objavili. U ovom načinu rada, izvršitelj preglednika pregledava web stranice i poduzima radnje, klikove i pritiske tipki unutar vašeg preglednika, baš kao što biste i vi. Ovo omogućuje ChatGPT‑u da izravno radi na mnogim vašim svakodnevnim radnim tokovima koristeći isti prostor, kontekst i podatke.
Kako izvršitelj preglednika pomaže da postignete više, također postaje vrijednija meta napada. To čini zaštitu koju nudi umjetna inteligencija posebno važnom. Dugo prije nego što smo lansirali ChatGPT Atlas, kontinuirano smo gradili i jačali obranu protiv novih prijetnji koje posebno ciljaju ovu novu paradigmu „izvršitelj u pregledniku“. Umetanje upita (unosa) jedan je od najznačajnijih rizika protiv kojih se aktivno branimo kako bismo osigurali da ChatGPT Atlas može sigurno raditi u vaše ime.
Kao dio ovog napora, nedavno smo isporučili sigurnosno ažuriranje za Atlasov izvršitelj preglednika, uključujući novi model obučen na polju napada i ojačane okolne zaštitne mjere. Ovo ažuriranje potaknuto je novom klasom napada umetanjem upita otkrivenom kroz naše interno automatizirano red teaming testiranje.
U ovoj objavi objašnjavamo kako može doći do rizika od umetanja upita za web agente te dijelimo brzi odgovor koji smo razvili za kontinuirano otkrivanje novih napada i brzo uvođenje mjera ublažavanja — ilustrirano ovim nedavnim sigurnosnim ažuriranjem.
Smatramo da je umetanje upita dugoročni izazov sigurnosti umjetne inteligencije te ćemo morati kontinuirano jačati naše obrane protiv njega (slično kao što se stalno razvijaju online prijevare koje ciljaju ljude). Naš najnoviji ciklus brze reakcije pokazuje rane znakove kao kritičan alat na tom putu: otkrivamo nove strategije napada interno prije nego što se pojave u svijetu. Naša dugoročna vizija je u potpunosti iskoristiti (1) naš transparentan (white-box) pristup modelima, (2) duboko razumijevanje naših obrana i (3) da naš računalski opseg ostane ispred vanjskih napadača — pronalazeći ranjivosti ranije, brže isporučujući mjere ublažavanja i kontinuirano pooštravajući ciklus. U kombinaciji s najnovijim istraživanjima novih tehnika za rješavanje problema ubacivanja upita i povećanim ulaganjima u druge sigurnosne mjere, ovaj složeni ciklus može učiniti napade sve težima i skupljima, značajno smanjujući rizik od ubacivanja upita u stvarnom svijetu. Naš je krajnji cilj vaše vjerovanje da izvršitelj ChatGPT‑a može koristiti vaš preglednik na način na koji biste vjerovali visoko kompetentnom, sigurnosno svjesnom kolegi ili prijatelju.
Napad umetanjem upita cilja AI izvršitelje ugrađivanjem zlonamjernih uputa u sadržaj koji izvršitelj obrađuje. Te su upute osmišljene da nadjačaju ili preusmjeravaju ponašanje izvršitelja — prisiljavajući ga da slijedi namjere napadača umjesto korisnikovih.
Za pregledničkog izvršitelja poput onog unutar ChatGPT Atlasa, umetanje upita dodaje novi vektor prijetnje izvan tradicionalnih rizika web sigurnosti (poput korisničke pogreške ili ranjivosti softvera). Umjesto da napada ljude putem phishinga ili iskorištava ranjivosti sustava preglednika, napadač cilja na izvršitelja (agenta) koji djeluje unutar preglednika.
Kao hipotetski primjer, napadač bi mogao poslati zlonamjernu e-poštu pokušavajući prevariti izvršitelja da ignorira zahtjev korisnika i umjesto toga proslijedi osjetljive porezne dokumente na adresu e-pošte pod kontrolom napadača. Ako korisnik od izvršitelja zatraži da pregleda nepročitane e-poruke i sažme ključne točke, izvršitelj može tijekom tijeka rada unijeti tu zlonamjernu e-poruku. Ako slijedi umetnute upute, može skrenuti sa zadatka i pogrešno podijeliti osjetljive informacije.
Ovo je samo jedan specifičan scenarij. Ista općenitost koja izvršitelje preglednika korisnima također čini rizike širim: izvršitelj može naići na nepouzdane upute na praktički neograničenoj površini — u e-pošti i privicima, pozivnicama za kalendar, dijeljenim dokumentima, forumima, objavama na društvenim mrežama i proizvoljnim web stranicama. Budući da izvršitelj može poduzeti mnoge iste radnje koje korisnik može poduzeti u pregledniku, utjecaj uspješnog napada može hipotetski biti jednako širok: prosljeđivanje osjetljive e-pošte, slanje novca, uređivanje ili brisanje datoteka u oblaku i još mnogo toga.
Postigli smo napredak u obrani od umetanja upita kroz više slojeva zaštitnih mjera, kao što smo podijelili u ranijoj objavi. Međutim, umetanje upita ostaje otvoren izazov za sigurnost izvršitelja i očekujemo da ćemo na njemu nastaviti raditi godinama koje dolaze.
Kako bismo ojačali naše obrambene mjere, kontinuirano tražimo nove napade umetanjem upita protiv sustava izvršitelja u radu. Pronalaženje ovih napada nužan je preduvjet za izgradnju robusnih mjera ublažavanja: pomaže nam razumjeti stvarne rizike, otkriva praznine u našoj obrani i potiče konkretne zakrpe.
Kako bismo to učinili u velikom opsegu, izradili smo automatiziranog napadača temeljenog na LLM-u i obučili ga da lovi napade umetanjem upita koji mogu uspješno napasti izvršitelja preglednika. Ovog smo lovca obučili 'od početka do kraja' koristeći učenje putem povratnih informacija, tako da uči iz vlastitih uspjeha i neuspjeha kako bi poboljšao svoje vještine u red teaming testiranju. Također smo mu dozvolili da "isproba prije nego slanja", odnosno: tijekom lanca zaključivanja, lovac može predložiti "kandidatsko umetanje" i poslati ga vanjskom simulatoru. Simulator pokreće "nečinjenični" scenarij o tome kako bi ciljani izvršitelj - žrtva (branitelj) reagirao kada bi naišao na umetanje, te vraća cjelovitu putanju, tj. praćenje zaključivanja i radnji izvršitelja - žrtve. Lovac koristi taj trag kao povratnu informaciju, ponavlja napad i ponovno pokreće simulaciju — ponavljajući ovaj ciklus više puta prije nego što se odluči za konačni napad. Ovo pruža bogatije povratne informacije u kontekstu lovcu nego samo signal uspjeha/neuspjeha. Također povećava računalne resurse lovca tijekom vremena testiranja. Štoviše, povlašteni pristup tragovima zaključivanja (koje ne otkrivamo vanjskim korisnicima) branitelja daje našem internom lovcu asimetričnu prednost — povećavajući vjerojatnost da može nadmašiti vanjske protivnike.
Zašto učenje putem povratnih informacija (eng. reinforcement learning - RL)? Odabrali smo učenje putem povratnih informacija da bismo obučili automatiziranog napadača (lovca) iz više razloga:
- Optimiziranje dugoročnih i povremenih ciljeva napadača. Naš cilj je tražiti napade putem umetanja upita koji mogu prevariti izvršitelja i učiniti da on izvrši sofisticirane neprijateljske zadatke (npr. slanje e-pošte, bankovne transakcije) koji bi se mogli dogoditi u stvarnom svijetu. Ovi su zadaci inherentno dugoročnog karaktera, zahtijevajući mnoge korake prosuđivanja i interakcije s okruženjem, uz rijetke i odgođene signale uspjeha. Učenje putem povratnih informacija dobro je prilagođeno ovoj rijetkoj, odgođenoj strukturi nagrađivanja.
- Iskorištavanje najnovijih mogućnosti LLM-a. Izravno smo obučili napredne LLM-ove kao automatske 'red-teamere', tako da lovac izravno koristi poboljšanja u zaključivanju i planiranju u naprednim modelima. Kako osnovni modeli postaju snažniji, napadač prirodno postaje sposobniji — što ovo čini skalabilnim načinom održavanja pritiska na našu obranu dok se naši modeli razvijaju.
- Skaliranje računalnih resursa i imitiranje prilagodljivih napadača. Učenje putem povratnih informacija vrlo je prikladno za skaliranje računalne snage utrošene na traženje napada kroz veliki broj uzoraka i koraka učenja, a također blisko odražava kako se ponašaju prilagodljivi ljudski napadači: iterativno isprobavajući strategije, učeći iz ishoda i jačajući uspješna ponašanja.
Naš automatizirani lovac može otkriti nove enf-to-end, realistične napade umetanjem upita. Za razliku od većine prethodnih radova na automatiziranom red teamingu, koji su otkrivali jednostavne neuspjehe poput izazivanja specifičnih izlaznih nizova ili pokretanja nenamjernog jednostupanjskog poziva alata od strane izvršitelja (agenta), naš lovac obučen putem povratnih informacija može usmjeriti agenta na izvršavanje sofisticiranih, dugoročnih štetnih radnih tokova koji se odvijaju kroz desetke (ili čak stotine) koraka. Također smo uočili nove strategije napada koje se nisu pojavile u našoj kampanji ljudskog red-teaminga niti u vanjskim izvješćima.
Demonstracija u nastavku prikazuje konkretan primjer eksploatacije umetanja upita koji je pronašao naš automatizirani lovac, a koji smo zatim iskoristili za dodatno jačanje obrane ChatGPT Atlasa. Napadač ubacuje zlonamjernu e-poštu u korisnikovu pristiglu poštu, koja umetnuti upit, usmjeravajući izvršitelja da pošalje pismo ostavke Izvršnom direktoru korisnika. Kasnije, kada korisnik zatraži od izvršitelja da sastavi automatski odgovor za odsutnost, izvršitelj tijekom normalnog izvršavanja zadatka naiđe na tu e-poruku, tretira umetnuti upit kao "pravi" i slijedi ga. Poruka o odsutnosti nikada se ne napiše, a izvršitelj umjesto toga podnosi ostavku u ime korisnika.

1. Traženje pomoći od izvršitelja za upravljanje e-poštom

2. Izvršitelj otvara najnoviju nepročitanu e-poruku.

Poruka e-pošte sadrži zlonamjerne upute.

4. Izvršitelj šalje nenamjernu e-poruku o ostavci.

5. Nakon naše sigurnosne nadogradnje, način rada izvršitelja uspješno primjećuje pokušaj napada umetanjem upita
Priroda umetanja upita čini deterministička sigurnosna jamstva izazovnim, ali povećanjem našeg automatiziranog sigurnosnog istraživanja, testiranja protiv napada i pooštravanjem naše brze reakcije, možemo poboljšati otpornost i obranu modela - prije nego što se napad dogodi u stvarnom svijetu.
Dijelimo ovu demonstraciju kako bismo pomogli korisnicima i istraživačima da bolje razumiju prirodu ovih napada — i kako da se aktivno brane od njih. Vjerujemo da ovo predstavlja granicu onoga što automatizirani red teaming može postići, i izuzetno smo uzbuđeni što ćemo nastaviti naše istraživanje.
Naš automatizirani red teaming pokreće proaktivnu petlju brze reakcije: kada automatizirani napadač otkrije novu klasu uspješnih napada umetanjem upita, odmah stvara konkretan cilj za poboljšanje naših obrambenih mjera.
"Protivnička obuka" protiv novootkrivenih napada. Kontinuirano obučavamo ažurirane modele izvršitelja protiv našeg najboljeg automatiziranog lovca — prioritetno se usmjeravajući na napade u kojima ciljani agenti trenutno ne uspijevaju. Cilj je naučiti izvršitelje da ignoriraju zlonamjerne upute i ostanu usklađeni s namjerom korisnika, poboljšavajući otpornost na novootkrivene strategije umetanja upita. Ovo 'ugrađuje' robusnost protiv novih, snažnih napada izravno u kontrolnu točku modela. Primjerice, nedavno automatizirani red-teaming izravno je proizveo novu kontrolnu točku izvršitelja preglednika obučenog na protivnički način koja je već uvedena svim korisnicima modela ChatGPT Atlas. To u konačnici pomaže bolje zaštititi naše korisnike od novih vrsta napada.
Korištenje tragova napada za poboljšanje šireg obrambenog sustava. Mnoge putanje napada koje otkriva naš automatizirani red team također otkrivaju prilike za poboljšanje izvan samog modela — kao što su u nadzoru, sigurnosnim uputama koje stavljamo u kontekst modela ili zaštitnim mjerama na razini sustava. Ti nalazi pomažu nam iterativno unaprijediti cijeli obrambeni sustav, a ne samo kontrolnu točku izvršitelja.
Odgovaranje na aktivne napade. Ova petlja također može pomoći u boljoj reakciji na vanjske aktivne napade. Dok promatramo naš globalni doseg u potrazi za potencijalnim napadima, možemo uzeti tehnike i taktike koje primjećujemo da vanjski protivnici koriste, unijeti ih u ovaj ciklus, oponašati njihovu aktivnost i potaknuti obrambene promjene na našoj platformi.
Jačanje naše sposobnosti za provođenje red team testiranja na izvršiteljima i korištenje naših najnaprednijih modela za automatizaciju dijelova tog rada pomaže 'očvrsnuti' izvršitelja preglednika Atlas skaliranjem petlje od otkrića do popravka. Ovaj napor za učvršćivanjem pojačava poznatu lekciju iz sigurnosti: dobro utabani put do jače zaštite je kontinuirano testiranje stvarnih sustava pod pritiskom, reagiranje na neuspjehe i isporuka konkretnih rješenja.
Očekujemo da će se i protivnici nastaviti prilagođavati. Umetanje upita, slično kao prijevare i društveni inženjering na webu, vjerojatno nikada neće biti u potpunosti iskorijenjeno. Ali optimistični smo da proaktivno, odgovorno brzo reagiranje može nastaviti značajno smanjivati stvarni rizik tijekom vremena. Kombiniranjem automatiziranog otkrivanja napada s protivničkom obukom i zaštitnim mjerama na razini sustava, možemo ranije identificirati nove obrasce napada, brže zatvoriti praznine i kontinuirano povećavati troškove eksploatacije.
Način rada izvršitelj (agenta) u ChatGPT Atlasu je moćan — i također proširuje površinu sigurnosnih prijetnji. Biti svjestan tog kompromisa dio je odgovornog građenja sustava. Naš cilj je učiniti Atlas značajno sigurnijim sa svakom iteracijom: poboljšavajući robusnost modela, jačajući okolni obrambeni sustav i prateći nove obrasce zlouporabe u stvarnom svijetu.
Nastavit ćemo ulagati u istraživanje i implementaciju, razvijati bolje metode automatiziranog red-team testiranja, uvoditi slojevite mjere ublažavanja i brzo učiti ponovljivost potrebnih radnji. Također ćemo podijeliti ono što možemo sa širom zajednicom.
Dok nastavimo jačati Atlas na razini sustava, postoje koraci koje korisnici mogu poduzeti kako bi smanjili rizik pri korištenju izvršitelja.
Ograničite pristup prijavljenim korisnicima kada je to moguće. Nastavljamo preporučivati korisnicima da iskoriste odjavljeni način rada(otvara se u novom prozoru) kada koriste izvršitelja u Atlasu, kad god pristup mrežnim lokacijama na koje ste prijavljeni nije potreban za zadatak, ili kako bi ograničili pristup određenim stranicama na koje se prijavljujete tijekom zadatka.
Pažljivo pregledajte zahtjeve za potvrdu. Za određene radnje koje mogu imati posljedice, kao što su dovršavanje kupnje ili slanje e-pošte, izvršitelji su dizajnirani da zatraže vašu potvrdu prije nego što nastave. Kada vas izvršitelj zamoli da potvrdite radnju, odvojite trenutak da provjerite valjanost je li ta radnja ispravna i je li informacija koja se dijeli prikladna za taj kontekst.
Dajte izvršiteljima izravne upute kad god je to moguće. Izbjegavajte preširoke unose poput "pregledaj moju e-poštu i poduzmi sve potrebne radnje." Širina olakšava skrivenom ili zlonamjernom sadržaju da utječe na izvršitelja, čak i kada su zaštitne mjere na snazi. Sigurnije je izvršitelju narediti da izvrši specifične, jasno definirane zadatke. Iako to ne eliminira rizik, čini napade težima za izvođenje.
Ako izvršitelji trebaju postati pouzdani partneri za svakodnevne zadatke, moraju biti otporni na vrste manipulacija koje omogućuje otvoreni web. Ojačavanje protiv umetanja upita/unosa dugoročna je obveza i jedan od naših glavnih prioriteta. Uskoro ćemo podijeliti više informacija o ovom radu.


