Kontinuirano jačanje ChatGPT Atlasa protiv napada injekcija upita
Automatizirano red teaming—pokretano pojačanim učenjem—pomaže nam da proaktivno otkrijemo i zakrpimo stvarne eksploatacije agenta prije nego što budu upotrijebljene u stvarnom svijetu.
Način rada agenta u ChatGPT Atlasu je jedna od najopćenitijih agentnih funkcija koje smo do sada objavili. U ovom načinu rada, agent pretraživača pregledava web stranice i poduzima radnje, klikove i pritiske tipki unutar vašeg pretraživača, baš kao što biste i vi. Ovo omogućava ChatGPT‑u da direktno radi na mnogim vašim svakodnevnim tijekovima rada koristeći isti prostor, kontekst i podatke.
Kako vam agent pretraživača pomaže da postignete više, takođe postaje vrednija meta napadača. Ovo čini sigurnost AI posebno važnom. Dugo prije nego što smo lansirali ChatGPT Atlas, kontinuirano smo gradili i jačali odbrane protiv novih prijetnji koje specifično ciljaju ovaj novi "agent u pretraživaču" paradigm. Prompt injection je jedan od najznačajnijih rizika protiv kojih se aktivno branimo kako bismo osigurali da ChatGPT Atlas može sigurno raditi u Vaše ime.
Kao dio ovog napora, nedavno smo isporučili sigurnosno ažuriranje za Atlasovog agenta pretraživača, uključujući novotrenirani model obučavan za suprotstavljanje i ojačane okolne zaštitne mjere. Ovo ažuriranje je potaknuto novom klasom napada injekcijom upita, otkrivenom kroz naše interno automatizirano red teaming.
U ovom postu objašnjavamo kako može doći do rizika od upit-injekcije za web-bazirane agente i dijelimo brzi odgovor koji smo razvili za kontinuirano otkrivanje novih napada i brzo uvođenje mjera ublažavanja—ilustrirano ovim nedavnim sigurnosnim ažuriranjem.
Smatramo da je injekcija upita dugoročni izazov za sigurnost UI, i moraćemo kontinuirano jačati naše obrane protiv nje (slično kao što se stalno razvijaju online prevare koje ciljaju ljude). Naš najnoviji ciklus brzog odgovora pokazuje rane znakove kao kritičan alat na tom putu: otkrivamo nove strategije napada interno prije nego što se pojave u stvarnom svijetu. Naša dugoročna vizija je da u potpunosti iskoristimo (1) naš pristup modelima kao bijeloj kutiji, (2) duboko razumijevanje naših odbrana i (3) računalnu skalu kako bismo ostali ispred vanjskih napadača—pronalazeći ranjivosti ranije, brže isporučujući mjere ublažavanja i kontinuirano zatežući proces. U kombinaciji s istraživanjem na granici novih tehnika za rješavanje upit injekcija i povećanim ulaganjem u druge sigurnosne kontrole, ovaj složeni ciklus može učiniti napade sve težim i skupljim, materijalno smanjujući rizik od upit injekcija u stvarnom svijetu. Na kraju, naš cilj je da možete vjerovati agentu ChatGPT da koristi vaš pretraživač na način na koji biste vjerovali visoko kompetentnom, sigurnosno svjesnom kolegi ili prijatelju.
Napad injekcije upita cilja UI agente tako što ugrađuje zlonamjerne upute u sadržaj koji agent obrađuje. Te upute su osmišljene da nadjačaju ili preusmjeravaju ponašanje agenta—prisiljavajući ga da slijedi namjere napadača, umjesto korisnikovih.
Za pretraživač agenta poput onog unutar ChatGPT Atlas, ubrizgavanje upita dodaje novi vektor prijetnje izvan tradicionalnih rizika web sigurnosti (kao što su greške korisnika ili ranjivosti softvera). Umjesto da napada ljude putem phishinga ili iskorištava ranjivosti sistema pretraživača, napadač cilja na agenta koji radi unutar njega.
Kao hipotetički primjer, napadač bi mogao poslati zlonamjernu e-poštu pokušavajući prevariti agenta da ignorira zahtjev korisnika i umjesto toga proslijedi osjetljive porezne dokumente na adresu e-pošte pod kontrolom napadača. Ako korisnik zatraži od agenta da pregleda nepročitane e-mailove i sažme ključne tačke, agent može unijeti taj zlonamjerni e-mail tokom toka rada. Ako slijedi ubačene upute, može se Go od zadatka i pogrešno podijeliti osjetljive informacije.
Ovo je samo jedan specifičan scenarij. Ista općenitost koja čini agente pretraživača korisnim također čini rizike širim: agent može naići na nepouzdane upute preko efektivno neograničene površine—e-mailovi i prilozi, pozivnice za kalendar, dijeljeni dokumenti, forumi, objave na društvenim mrežama i proizvoljne web stranice. Budući da agent može poduzeti mnoge iste radnje koje korisnik može poduzeti u pretraživaču, utjecaj uspješnog napada može hipotetički biti jednako širok: prosljeđivanje osjetljivog emaila, slanje novca, uređivanje ili izbrisati datoteka u oblaku i više.
Postigli smo napredak u odbrani protiv ubrizgavanja upita kroz više slojeva zaštitnih mjera, kako smo podijelili u ranijem postu. Međutim, upit injekcija ostaje otvoren izazov za sigurnost agenta, i očekujemo da ćemo nastaviti raditi na tome u godinama koje dolaze.
Kako bismo ojačali naše odbrane, kontinuirano tražimo nove napade ubrizgavanja upita protiv agent sistema u produkciji. Pronalaženje ovih napada je neophodan preduvjet za izgradnju robusnih mjera ublažavanja: pomaže nam da razumijemo stvarni rizik, otkriva praznine u našoj obrani i pokreće konkretne zakrpe.
Da bismo to učinili u velikom obimu, izgradili smo automatskog napadača zasnovanog na LLM-u i obučili ga da lovi napade ubrizgavanja upita koji mogu uspješno napasti agenta pretraživača. Obučili smo ovog napadača end-to-end pojačanim učenjem, tako da uči iz vlastitih uspjeha i neuspjeha kako bi poboljšao svoje vještine u red teamingu. Također dopuštamo da se "pokuša prije nego što se isporuči", čime mislimo: tokom razmišljanja u lancu misli, napadač može predložiti kandidatsku injekciju i poslati je vanjskom simulatoru. Simulator pokreće kontrafaktualnu simulaciju kako bi ciljani agent žrtva (branitelj) postupao ako bi naišao na injekciju, i vraća potpuni trag rezonovanja i radnji agenta žrtve. Napadač koristi taj trag kao povratni odgovor, ponavlja napad i ponovo pokreće simulaciju—ponavljajući ovaj ciklus više puta prije nego što se odluči za konačni napad. Ovo pruža bogatiji povratni odgovor napadaču u kontekstu nego samo signal prolaza/neuspjeha. Također povećava računalne resurse napadača tokom testiranja. Štaviše, privilegovan pristup tragovima razmišljanja (koje ne otkrivamo vanjskim korisnicima) od strane branioca daje našem internom napadaču asimetričnu prednost—povećavajući šanse da može nadmašiti vanjske protivnike.
Zašto pojačano učenje (RL)? Odabrali smo pojačano učenje da obučavamo automatiziranog napadača iz više razloga:
- Optimiziranje dugoročnih i diskontinuiranih ciljeva napadača. Naš cilj je tražiti napade injekcije upita koji mogu prevariti agenta da izvrši sofisticirane neprijateljske zadatke (npr. slanje e-mailova, bankovne transakcije) koji bi se mogli dogoditi u stvarnom svijetu. Ovi suparnički zadaci su inherentno dugoročni, zahtijevaju mnogo koraka rezonovanja i interakcije s okruženjem, uz rijetke i odgođene signale uspjeha. Pojačano učenje je dobro prilagođeno ovoj oskudnoj, odgođenoj strukturi nagrada.
- Korištenje naprednih mogućnosti LLM-a. Obučili smo granične LLM-ove direktno kao auto-red-teamere, tako da napadač direktno koristi poboljšanja u rezonovanju i planiranju u graničnim modelima. Kako osnovni modeli postaju jači, napadač prirodno postaje sposobniji—što čini ovo skalabilnim načinom da se održi pritisak na naše odbrane dok se naši modeli razvijaju.
- Skaliranje računalnih resursa i oponašanje prilagodljivih napadača. Pojačano učenje je dobro prilagođeno za skaliranje računanja utrošenog na traženje napada kroz veliki broj uzoraka i koraka učenja, a također blisko odražava ponašanje adaptivnih ljudskih napadača: iterativno isprobavanje strategija, učenje iz ishoda i jačanje uspješnih ponašanja.
Naš automatizirani napadač može otkriti nove, realistične napade injekcije upita od početka do kraja. Za razliku od većine prethodnih radova na automatiziranom red teamingu, koji su otkrivali jednostavne greške poput izazivanja specifičnih izlaznih nizova ili pokretanja nenamjernog jednostepenog poziva alata od strane agenta, naš napadač obučen putem RL-a može usmjeriti agenta da izvrši sofisticirane, dugoročne štetne radne tokove koji se odvijaju kroz desetine (ili čak stotine) koraka. Također smo primijetili nove strategije napada koje se nisu pojavile u našoj kampanji ljudskog red timinga ili vanjskim izvještajima.
Demo ispod predstavlja konkretan primjer eksploatacije injekcije upita koji je pronašao naš automatizirani napadač, a koji smo zatim iskoristili za dodatno jačanje odbrambenih mehanizama ChatGPT Atlas. Napadač ubacuje zlonamjernu e-poštu u korisnikov inbox koja sadrži upit injekciju koja usmjerava agenta da pošalje pismo ostavke Izvršnom direktoru korisnika. Kasnije, kada korisnik zatraži od agenta da sastavi odgovor za vrijeme odsustva, agent naiđe na taj email tokom normalnog izvršavanja zadatka, tretira ubačeni upit kao autoritativan i slijedi ga. Poruka o odsutnosti nikada nije napisana, a agent umjesto toga podnosi ostavku u ime korisnika.

1. Traženje pomoći od agenta za upravljanje e-poštom

2. Agent otvara najnoviji nepročitani email

3. Email sadrži zlonamjerne upute

4. Agent šalje nenamjernu e-poštu o ostavci

5. Nakon naše sigurnosne nadogradnje, način rada agenta uspješno otkriva pokušaj ubrizgavanja upita
Priroda upit injekcije čini determinističke sigurnosne garancije izazovnim, ali povećanjem našeg automatiziranog sigurnosnog istraživanja, testiranja protiv napada i pooštravanjem našeg brzog odgovora, možemo poboljšati otpornost i odbranu modela - prije nego što se napad dogodi u stvarnom svijetu.
Dijelimo ovu demonstraciju kako bismo pomogli korisnicima i istraživačima da bolje razumiju prirodu ovih napada—i kako se aktivno branimo protiv njih. Vjerujemo da ovo predstavlja granicu onoga što automatizirani red teaming može postići, i izuzetno smo uzbuđeni što ćemo nastaviti naše istraživanje.
Naš automatizirani red teaming pokreće proaktivan brzi odgovor: kada automatizirani napadač otkrije novu klasu uspješnih napada injekcijama upita, odmah kreira konkretan cilj za poboljšanje naših odbrana.
Adversarijalna obuka protiv novootkrivenih napada. Kontinuirano obučavamo ažurirane modele agenata protiv našeg najboljeg automatiziranog napadača—prioritetno se fokusirajući na napade u kojima ciljani agenti trenutno ne uspijevaju. Cilj je naučiti agente da ignorišu neprijateljske instrukcije i ostanu usklađeni s namjerom korisnika, poboljšavajući otpornost na novootkrivene strategije ubrizgavanja upita. Ovo 'ugrađuje' robusnost protiv novih, snažnih napada direktno u kontrolnu tačku modela. Na primjer, nedavno automatizirano testiranje crvenim timom direktno je proizvelo novi kontrolni punkt pretraživač-agenta obučenog za suprotstavljanje, koji je već implementiran za svakog korisnika ChatGPT Atlas. Ovo na kraju pomaže da bolje zaštitimo naše korisnike od novih vrsta napada.
Korištenje tragova napada za poboljšanje šireg obrambenog sloja. Mnogi putevi napada koje otkrije naš automatizirani crveni tim također otkrivaju mogućnosti za poboljšanje izvan samog modela—kao što su u nadzoru, sigurnosnim uputama koje stavljamo u kontekst modela ili zaštitnim mjerama na razini sustava. Ti nalazi nam pomažu da unaprijedimo cijeli odbrambeni sistem, a ne samo kontrolni punkt agenta.
Odgovaranje na aktivne napade. Ova petlja također može pomoći u boljem odgovoru na aktivne napade u stvarnom svijetu. Dok posmatramo naš globalni otisak u potrazi za potencijalnim napadima, možemo uzeti tehnike i taktike koje primjećujemo da koriste vanjski protivnici, unijeti ih u ovaj ciklus, oponašati njihovu aktivnost i pokrenuti promjene u odbrani na našoj platformi.
Jačanje naše sposobnosti da testiramo red tim agente i korištenje naših najnaprednijih modela za automatizaciju dijelova tog rada—pomaže da Atlas pretraživač agent postane robusniji skaliranjem ciklusa otkrivanja i popravljanja. Ovaj napor na očvršćavanju pojačava poznatu lekciju iz sigurnosti: dobro utabani put ka jačoj zaštiti je kontinuirano testiranje stvarnih sistema pod pritiskom, reagovanje na neuspjehe i isporuka konkretnih rješenja.
Očekujemo da će se protivnici nastaviti prilagođavati. Injekcija upita, slično kao prevare i socijalni inženjering na webu, vjerovatno nikada neće biti potpuno "riješena". Ali smo optimistični da proaktivan, visoko responzivan brzi odgovor može nastavi materijalno smanjivati rizik u stvarnom svijetu tokom vremena. Kombiniranjem automatiziranog otkrivanja napada s obukom protiv napada i zaštitnim mjerama na razini sustava, možemo ranije identificirati nove obrasce napada, brže zatvoriti praznine i kontinuirano povećavati troškove eksploatacije.
Način rada agenta u ChatGPT Atlasu je moćan—i takođe proširuje površinu prijetnji po sigurnost. Biti svjestan tog kompromisa dio je odgovornog građenja. Naš cilj je da Atlas učinimo značajno sigurnijim sa svakom iteracijom: poboljšavajući robusnost modela, jačajući okolni sigurnosni sloj i prateći nove obrasce zloupotrebe u stvarnom svijetu.
Nastavit ćemo ulagati u istraživanje i implementaciju, razvijajući bolje automatizirane metode crvenih timova, uvodeći slojevite mjere ublažavanja i brzo iterirajući kako učimo. Također ćemo podijeliti ono što možemo sa širom zajednicom.
Dok nastavljamo jačati Atlas na nivou sistema, postoje koraci koje korisnici mogu poduzeti kako bi smanjili rizik prilikom korištenja agenata.
Ograničite pristup prijavljenim korisnicima kada god je to moguće. Nastavljamo preporučivati da korisnici iskoriste režim odjavljivanja(otvara se u novom prozoru) kada koriste agenta u Atlasu, kad god pristup web stranicama na koje ste prijavljeni nije potreban za zadatak, ili da ograniče pristup specifičnim stranicama na koje se prijavite tokom zadatka.
Pažljivo pregledajte zahtjeve za potvrdu. Za određene posljedične radnje, kao što su dovršavanje kupovine ili slanje emaila, agenti su dizajnirani da traže vašu potvrdu prije nego što nastave. Kada vas agent zamoli da potvrdite radnju, odvojite trenutak da provjerite je li radnja ispravna i jesu li informacije koje se dijele prikladne za taj kontekst.
Dajte agentima eksplicitne upute kada god je to moguće. Izbjegavajte preširoke upite poput „pregledajte moje e-mailove i poduzmite sve potrebne radnje.“ Široka sloboda olakšava skrivenom ili zlonamjernom sadržaju da utiče na agenta, čak i kada su zaštitne mjere na snazi. Sigurnije je zamoliti agenta da izvrši specifične, dobro definisane zadatke. Iako ovo ne eliminiše rizik, otežava izvođenje napada.
Ako agenti trebaju postati pouzdani partneri za svakodnevne zadatke, moraju biti otporni na vrste manipulacija koje omogućava otvoreni web. Ojačavanje protiv injekcija upita je dugoročna obaveza i jedan od naših glavnih prioriteta. Uskoro ćemo podijeliti više informacija o ovom radu.


