Consolidăm permanent ChatGPT Atlas împotriva atacurilor cu injectări de solicitări
Red teamingul automatizat — bazat pe învățarea prin consolidare — ne ajută să descoperim și corectăm proactiv exploatările agenților reali înainte de a fi utilizate în scopuri răuvoitoare.
Modul Agent din ChatGPT Atlas este printre cele mai versatile funcții agentice pe care le-am lansat până acum. În acest mod, agentul din browser vizualizează pagini web și efectuează acțiuni, clicuri și apăsări de taste în browserul, exact așa cum ai face tu. Acest lucru permite ca ChatGPT să funcționeze direct în multe dintre fluxurile de lucru zilnice, utilizând aceleași spații, contexte și date.
Pe măsură ce agentul din browser te ajută să realizezi mai multe, devine totodată și o țintă mai valoroasă pentru atacurile adversarilor. Acest lucru face ca securitatea inteligenței artificiale să fie deosebit de importantă. Cu mult înainte de lansarea ChatGPT Atlas, am construit și consolidat în mod continuu apărarea împotriva amenințărilor emergente care vizează în mod specific această nouă paradigmă a „agentului din browser”. Injectarea de solicitări este unul dintre cele mai grave riscuri împotriva cărora ne apărăm în mod activ, pentru a ne asigura că ChatGPT Atlas poate funcționa în siguranță în numele tău.
În cadrul acestui efort, am lansat recent o actualizare de securitate pentru agentul din browserul Atlas, care include un model nou instruit adversarial și măsuri de siguranță consolidate. Această actualizare a fost determinată de o nouă categorie de atacuri de injectare de solicitări descoperite prin activitățile noastre interne de red teaming automatizate.
În această postare, vom explica în ce mod poate apărea riscul de injectare de solicitări pentru agenții web și vom prezenta o buclă de răspuns rapid pe care am creat-o pentru a descoperi continuu atacurile noi și pentru a furniza rapid măsuri de atenuare, ilustrată prin această actualizare recentă de securitate.
Considerăm că injectarea de solicitări reprezintă o provocare pe termen lung pentru securitatea inteligenței artificiale și va trebui să ne consolidăm în mod continuu apărarea împotriva acesteia (la fel ca și în cazul escrocheriilor online mereu în evoluție care vizează persoanele). Cel mai recent ciclu de răspuns rapid se dovedește a fi un instrument esențial în acest demers: descoperim strategii de atac noi la nivel intern, înainte ca acestea să apară în mediul real. Viziunea noastră pe termen lung este să valorificăm pe deplin (1) accesul white-box la modelele noastre, (2) înțelegerea aprofundată a sistemelor noastre de apărare și (3) capacitatea de calcul pentru a ne menține în avantaj față de atacatorii externi, identificând mai repede vulnerabilitățile, implementând mai rapid măsurile de atenuare și consolidând continuu bucla. În combinație cu cercetarea de frontieră privind noile tehnici de combatere a injectării de solicitări și creșterea investițiilor în alte controale de securitate, acest ciclu compus poate face atacurile tot mai dificile și costisitoare, reducând considerabil riscul real de injectare de solicitări. În cele din urmă, obiectivul nostru este ca tu să poți avea încredere în utilizarea browserului tău de către un agent ChatGPT, la fel cum ai avea încredere într-un coleg sau prieten extrem de competent și conștient de securitate.
Un atac de injectare de solicitări vizează agenții de inteligență artificială prin încorporarea de instrucțiuni rău intenționate în conținutul procesat de agent. Aceste instrucțiuni sunt concepute pentru a înlocui sau redirecționa comportamentul agentului, determinându-l să urmeze intenția atacatorului și nu pe cea a utilizatorului.
Pentru un agent de browser precum cel din ChatGPT Atlas, injectarea de solicitări adaugă un nou factor de risc, pe lângă riscurile tradiționale de securitate web (cum ar fi erorile utilizatorilor sau vulnerabilitățile software-ului). În loc să vizeze utilizatorii sau să exploateze vulnerabilitățile sistemului browserului, atacatorul vizează agentul care funcționează în interiorul său.
Spre exemplu, un atacator ar putea trimite un e-mail rău intenționat pentru a încerca să păcălească un agent să ignore solicitarea utilizatorului și să-i redirecționeze documentele fiscale confidențiale către o adresă de e-mail controlată de atacator. Dacă un utilizator îi cere agentului să-i revizuiască e-mailurile necitite și să rezume punctele cheie, agentul poate ingera acel e-mail rău intenționat în timpul fluxului de lucru. Dacă urmează instrucțiunile injectate, poate devia de la sarcină și partaja în mod eronat informații confidențiale.
Acesta este doar un singur scenariu specific. Aceeași generalitate care face agenții de browser utili amplifică și riscurile: agentul poate întâlni instrucțiuni neautorizate într-o sferă practic nelimitată — e-mailuri și atașări, invitații din calendar, documente partajate, forumuri, postări pe rețelele sociale și pagini web arbitrare. Deoarece agentul poate efectua multe dintre acțiunile unui utilizator într-un browser, impactul unui atac reușit poate fi, în ipoteză, la fel de amplu: redirecționarea unui e-mail confidențial, trimiterea de bani, editarea sau ștergerea fișierelor din cloud și multe altele.
Am înregistrat progrese în apărarea împotriva injectării de solicitări prin mai multe straturi de măsuri de protecție, după cum am menționat într-o postare anterioară. Totuși, injectarea de solicitări rămâne o provocare deschisă pentru securitatea agenților, pe care ne așteptăm să continuăm să o abordăm în următorii ani.
Pentru a ne consolida apărarea, am căutat în permanență noi atacuri de injectare de solicitări împotriva sistemelor de agenți din producție. Identificarea acestor atacuri este o condiție prealabilă necesară pentru crearea unor măsuri de atenuare solide: ne ajută să înțelegem riscurile reale, ne dezvăluie lacunele din sistemele de apărare și ne determină să aplicăm corecții concrete.
Pentru a realiza acest lucru la scară largă, am creat un atacator automatizat bazat pe un model lingvistic mare și l-am instruit să depisteze atacurile de injectare de solicitări care pot ataca cu succes un agent de browser. Am instruit acest atacator de la un capăt la altul cu ajutorul învățării prin consolidare, astfel încât să învețe din propriile succese și eșecuri pentru a-și îmbunătăți abilitățile de red teaming. De asemenea, îi permitem să „încerce înainte de a lansa”, ceea ce înseamnă că, în timpul procesului de raționament, atacatorul poate propune o injecție potențială și o poate trimite către un simulator extern. Simulatorul rulează o simulare contrafactuală a modului în care agentul victimă vizat (apărătorul) s-ar comporta dacă ar întâlni injectarea și returnează o urmărire completă a raționamentului și acțiunilor agentului victimă. Atacatorul folosește acea urmă ca feedback, repetă atacul și reia simularea, repetând această buclă de mai multe ori înainte de a trece la atacul final. Acest lucru îi oferă atacatorului un feedback contextual mai complex decât un simplu semnal de reușită/eșec. De asemenea, scalează timpul de calcul al atacatorului în timpul testării. Mai mult, accesul privilegiat la urmele raționamentului (pe care nu le dezvăluim utilizatorilor externi) ale apărătorului îi conferă atacatorului intern un avantaj asimetric, crescând șansele ca acesta să devanseze adversarii externi.
De ce folosim învățarea prin consolidare (RL)? Am ales învățarea prin consolidare pentru a instrui atacatorul automatizat din mai multe motive:
- Optimizarea obiectivelor atacatorilor pe termen lung și fără continuitate. Obiectivul nostru este să căutăm atacuri de injectare de solicitări care să poată păcăli agentul să execute sarcini sofisticate adversariale (de exemplu, trimiterea de e-mailuri, tranzacții bancare) care ar putea avea loc în realitate. Aceste sarcini adversariale au un orizont inerent îndelungat, necesitând mai mulți pași de raționament și interacțiune cu mediul, cu semnale de succes rare și întârziate. Învățarea prin consolidare este bine adaptată la această structură de recompense rare și întârziate.
- Valorificarea capacităților modelelor lingvistice mari de frontieră. Am instruit modelele lingvistice mari de frontieră direct ca echipe automatizate de red teaming, astfel încât atacatorul să beneficieze direct de îmbunătățirile raționamentului și planificării modelelor de frontieră. Odată cu fortificarea modelelor de bază, atacatorul devine, în mod natural, mai capabil, ceea ce îl transformă într-un mijloc scalabil de a menține presiunea asupra apărării noastre pe măsură ce modelele noastre evoluează.
- Scalarea resurselor de calcul și imitarea atacatorilor adaptivi. Învățarea prin consolidare este potrivită pentru scalarea calculului necesar pentru a căuta atacuri într-un număr mare de eșantionări și pași de învățare și, totodată, reflectă fidel comportamentul adaptativ al atacatorilor umani: încercarea iterativă a strategiilor, învățarea din rezultate și consolidarea comportamentelor de succes.
Atacatorul nostru automatizat poate descoperi atacuri noi și realiste de injectare de solicitări de la un capăt la altul. Spre deosebire de majoritatea activităților automatizate anterioare de red teaming, care au dezvăluit eșecuri simple, precum obținerea unor șiruri de ieșire specifice sau declanșarea unei apelări neintenționate a unui instrument cu un singur pas de către agent, atacatorul nostru instruit prin învățarea prin consolidare poate determina un agent să execute fluxuri de lucru sofisticate și dăunătoare, cu orizont lung, care se desfășoară în zeci (sau chiar sute) de pași. Totodată, am observat strategii de atac noi, care nu au apărut în campania noastră de red teaming cu persoane sau în rapoartele externe.
Demonstrația de mai jos prezintă o exploatare concretă prin injectare de solicitări descoperită de atacatorul nostru automatizat, pe care am utilizat-o apoi pentru a consolida și mai mult apărarea ChatGPT Atlas. Atacatorul trimite în căsuța poștală a utilizatorului un e-mail rău intenționat care conține o injectare de solicitări care îi indică agentului să trimită o scrisoare de demisie către directorul general al utilizatorului. Ulterior, când utilizatorul îi cere agentului să redacteze un răspuns de absență de la birou, agentul întâlnește acel e-mail în timpul executării normale a sarcinii, tratează solicitarea introdusă ca fiind autorizată și o urmează. Mesajul de absență de la birou nu este niciodată scris, iar agentul demisionează în numele utilizatorului.

1. Solicitarea ajutorului agentului pentru gestionarea e-mailurilor

2. Agentul deschide cel mai recent e-mail necitit

3. E-mailul conține instrucțiuni rău intenționate

4. Agentul trimite un e-mail de demisie neintenționat

5. În urma actualizării de securitate, modul agent detectează cu succes o încercare de injectare de solicitări
Natura injectării de solicitări face ca garanțiile de securitate deterministe să fie dificile, dar prin extinderea cercetării noastre în domeniul securității automatizate, testarea adversarială și consolidarea buclei de răspuns rapid, putem îmbunătăți robustețea și apărarea modelului, înainte ca un atac să aibă loc în mediul real.
Împărtășim această demonstrație pentru a ajuta utilizatorii și cercetătorii să înțeleagă mai bine natura acestor atacuri și modul în care ne apărăm activ împotriva lor. Considerăm că aceasta reprezintă limita maximă a ceea ce poate realiza activitatea de red teaming automatizat și suntem foarte entuziasmați să ne continuăm cercetările.
Activitatea noastră de red teaming automatizat generează o buclă de răspuns rapid și proactiv: atunci când atacatorul automatizat descoperă o nouă clasă de atacuri de injectare de solicitări reușite, creează imediat o țintă concretă pentru îmbunătățirea apărării noastre.
Instruire adversarială împotriva atacurilor recent descoperite. Ne instruim continuu modelele agenților actualizate împotriva celui mai eficient atacator automatizat pe care îl deținem, acordând prioritate atacurilor în care agenții țintă eșuează în prezent. Scopul este de a învăța agenții să ignore instrucțiunile adversariale și să continue să se alinieze intenției utilizatorului, îmbunătățind rezistența împotriva strategiilor de injectare de solicitări recent descoperite. Aceasta „încorporează” robustețea împotriva atacurilor noi, de mare intensitate, direct în punctul de control al modelului. De exemplu, activitatea recentă de red teaming automatizat a generat direct un nou punct de control pentru agentul din browser, instruit adversarial, care a fost deja implementat pentru toți utilizatorii ChatGPT Atlas. În cele din urmă, acest lucru ne protejează mai bine utilizatorii împotriva noilor tipuri de atacuri.
Utilizarea urmelor atacurilor pentru îmbunătățirea sistemului de apărare general. Multe căi de atac descoperite de activitatea noastră de red teaming automatizat au dezvăluit și oportunități de îmbunătățire dincolo de modelul în sine, cum ar fi monitorizarea, instrucțiunile de siguranță pe care le-am inclus în contextul modelului sau măsurile de siguranță la nivel de sistem. Aceste constatări ne ajută să iterăm asupra întregii stive de apărare și nu doar asupra punctului de control al agentului.
Răspunsul la atacuri active. Această buclă poate ajuta și la o mai bună reacție la atacurile active din mediul real. Pe măsură ce ne analizăm amprenta globală în căutarea unor potențiale atacuri, putem prelua tehnicile și tacticile pe care le observăm la adversarii externi, le putem introduce în această buclă, le putem imita activitatea și putem genera schimbări defensive la nivelul întregii platforme.
Consolidarea capacității noastre de a forma agenți de red teaming și utilizarea celor mai performante modele pentru automatizarea unor părți ale acestei activități contribuie la consolidarea agentului din browserul Atlas prin extinderea buclei de descoperire-remediere. Acest efort de consolidare reafirmă o învățătură binecunoscută în domeniul securității: pentru o protecție mai puternică, este necesară testarea continuă a sistemelor reale, reacționarea la defecțiuni și furnizarea de soluții concrete.
Ne așteptăm ca adversarii să continue să se adapteze. Injectarea de solicitări, la fel ca înșelătoriile și ingineria socială pe internet, este puțin probabil să fie vreodată „rezolvată” complet. Dar considerăm că o buclă de răspuns rapid, proactivă și extrem de receptivă poate continua să reducă semnificativ riscurile reale de-a lungul timpului. Prin combinarea detectării automate a atacurilor cu instruirea adversarială și măsurile de siguranță la nivel de sistem, putem identifica mai devreme noi modele de atac, putem reduce mai rapid decalajele și putem crește continuu costul exploatării.
Modul agent din ChatGPT Atlas este performant, dar extinde și suprafața de expunere la amenințări de securitate. Conștientizarea clară a acestui compromis constituie parte integrantă a dezvoltării responsabile. Obiectivul nostru este să îmbunătățim semnificativ securitatea Atlas cu fiecare iterație: prin îmbunătățirea robusteții modelului, consolidarea sistemului de apărare și monitorizarea apariției unor noi modele de abuz în mediul real.
Vom continua să investim în cercetare și implementare, dezvoltând metode mai bune de red teaming automatizat, lansând măsuri de atenuare stratificate și iterând rapid pe măsură ce învățăm. De asemenea, vom împărtăși ce putem cu comunitatea extinsă.
Chiar dacă vom continua să îmbunătățim Atlas la nivel de sistem, există măsuri pe care utilizatorii le pot lua pentru a reduce riscurile atunci când folosesc agenți.
Limitează accesul utilizatorilor conectați, atunci când este posibil. Le recomandăm în continuare utilizatorilor să folosească modul deconectat(se deschide într-o fereastră nouă) atunci când utilizează agentul din Atlas, ori de câte ori accesul la site-urile web la care sunt conectați nu este necesar pentru sarcina în curs sau pentru a limita accesul la anumite site-uri la care te conectezi pe parcursul sarcinii.
Revizuiește cu atenție solicitările de confirmare. Pentru anumite acțiuni importante, cum ar fi finalizarea unei achiziții sau trimiterea unui e-mail, agenții sunt programați să-ți ceară confirmarea înainte de a continua. Când un agent îți cere să confirmi o acțiune, verifică dacă aceasta este corectă și dacă informațiile partajate sunt adecvate pentru contextul respectiv.
Oferă-le agenților instrucțiuni explicite atunci când este posibil. Evită solicitările excesiv de generale, precum „verifică-mi e-mailurile și ia măsurile necesare”. O libertate de acțiune extinsă facilitează influențarea agentului de către conținuturi ascunse sau rău intenționate, chiar și atunci când există măsuri de siguranță. Este mai sigur să-i soliciți agentului să îndeplinească sarcini specifice, bine definite. Deși acest lucru nu elimină riscul, face ca atacurile să fie mai greu de realizat.
Pentru ca agenții să devină parteneri de încredere în sarcinile cotidiene, trebuie să reziste la tipurile de manipulare pe care le permite web-ul deschis. Consolidarea împotriva injectării de solicitări este un angajament pe termen lung și una dintre prioritățile noastre principale. Vom împărtăși mai multe despre această activitate în curând.


