Razumevanje umetanja instrukcija: granični bezbednosni izazov
AI alati počinju da rade više od pukog odgovaranja na pitanja. Sada mogu da pretražuju veb, pomažu u istraživanju, planiraju putovanja i pomažu pri kupovini proizvoda. Kako postaju sposobniji, uz mogućnost pristupa vašim podacima u drugim aplikacijama i preduzimanja radnji u vaše ime, pojavljuju se novi bezbednosni izazovi. Jedan na koji smo posebno fokusirani jeste umetanje instrukcije.
Umetanje instrukcije je vrsta napada socijalnog inženjeringa specifična za konverzacionu AI. Rani AI sistemi bili su razgovori između jednog korisnika i jednog AI agenta. U današnjim AI proizvodima, vaš razgovor može uključivati sadržaj iz mnogih izvora, uključujući internet. Ideja da treća strana (koja nije korisnik i nije AI) može da zavede model ubacivanjem zlonamernih instrukcija u kontekst razgovora dovela je do pojma „umetanje instrukcije“.
Na isti način na koji phishing imejlovi ili prevare na vebu pokušavaju da navedu ljude da odaju osetljive informacije, umetanja instrukcija pokušavaju da navedu AI sisteme da urade nešto što niste tražili.
Zamislite da ste tražili od AI-ja da vam pomogne u istraživanju odmora na internetu, i dok to radi naiđe na obmanjujući sadržaj ili štetne instrukcije skrivene na veb-stranici, na primer u komentaru uz oglas ili u recenziji. Sadržaj može biti pažljivo osmišljen u pokušaju da navede AI da preporuči pogrešan oglas, ili još gore, da ukrade podatke vaše kreditne kartice.
Ovo je samo nekoliko primera napada „umetanjem instrukcije“ — štetnih instrukcija osmišljenih da navedu AI da uradi nešto što niste nameravali, često skrivenih u običnom sadržaju kao što su veb-stranica, dokument ili imejl.
Ovi rizici rastu kako AI sistemi dobijaju pristup osetljivijim podacima i preuzimaju više inicijative i duže zadatke.
Sažetak | Šta ste tražili od AI-ja da uradi | Šta napadač radi | Mogući rezultat ako napad uspe |
Tražite od AI-ja da istraži stanove, a u njega je umetnuta instrukcija da preporuči oglas koji nije najbolja opcija za vas. | Tražite od AI-ja da istraži stanove prema zadatim kriterijumima. | Napadač je u oglas za stan ubacio napad umetanjem instrukcije kako bi naveo AI da pomisli da njihov oglas mora biti izabran bez obzira na korisnikove navedene preference. | Ako napad uspe, AI može pogrešno preporučiti manje optimalan oglas za stan na osnovu vaših preferencija. |
Tražite od AI agenta da odgovori na vaše imejlove pristigle tokom noći, a on na kraju podeli vaše bankovne izvode. | Tražite od AI agenta da uglavnom odgovara na vaše imejlove pristigle tokom noći jer ste ovog jutra zauzeti. Pogledajte „Kad god je moguće, dajte agentu izričite instrukcije“ u nastavku | Napadač vam je poslao imejl koji sadrži dezinformacije koje navedu model da pronađe vaše bankovne izvode i podeli ih sa napadačem. | Ako napad uspe, agent može tražiti sve što liči na bankovne izvode u vašem imejlu (kome ste mu dali pristup za zadatak) i podeliti ih sa napadačem. |
Odbrana od umetanja instrukcije predstavlja izazov u celoj AI industriji i ključni je fokus u OpenAI-ju. Iako očekujemo da će protivnici nastaviti da razvijaju ovakve napade, gradimo odbrane osmišljene da sprovedu korisnikov nameravani zadatak čak i kada neko aktivno pokušava da ih zavede. Ta sposobnost je od suštinskog značaja za bezbedno ostvarivanje koristi od AGI-ja.
Da bismo zaštitili naše korisnike i pomogli unapređenju naših modela protiv ovih napada, primenjujemo višeslojni pristup, uključujući sledeće:
Želimo AI koji prepoznaje umetanja instrukcija i ne naseda na njih. Međutim, otpornost na protivničke napade je dugogodišnji izazov za mašinsko učenje i AI, što ovaj problem čini teškim i još otvorenim. Razvili smo istraživanje pod nazivom Hijerarhija instrukcija kako bismo radili na tome da modeli razlikuju pouzdane i nepouzdane instrukcije. Nastavljamo da razvijamo nove pristupe za obučavanje modela da bolje prepoznaju obrasce umetanja instrukcija kako bi mogli da ih ignorišu ili označe korisnicima. Jedna od tehnika koju primenjujemo jeste automatizovani red-teaming, oblast koju proučavamo(отвара се у новом прозору) godinama, radi razvoja novih napada umetanjem instrukcija.
Razvili smo više automatizovanih monitora koje pokreće AI za identifikovanje i blokiranje napada umetanjem instrukcija. Oni dopunjuju pristupe obuke za bezbednost jer mogu brzo da se ažuriraju kako bi se brzo blokirali novi napadi koje otkrijemo. Ovi monitori ne pomažu samo u identifikovanju potencijalnih napada umetanjem instrukcija protiv naših korisnika, već nam mogu omogućiti i da uočimo protivnička istraživanja i testiranja umetanja instrukcija na našoj platformi pre nego što ti napadi budu pušteni u stvarni svet.
Naše proizvode i infrastrukturu osmislili smo sa različitim preklapajućim bezbednosnim zaštitama kako bismo pomogli u zaštiti korisničkih podataka. Ove funkcije, koje ćemo detaljnije tehnički obraditi u budućim objavama, prilagođene su svakom proizvodu pojedinačno. Na primer, da bismo vam pomogli da izbegnete nepouzdane sajtove, tražićemo da odobrite određene linkove u ChatGPT‑u, posebno na veb-sajtovima koji traže da ih ne katalogizujemo(отвара се у новом прозору), pre nego što ih posetite. Kada naš AI koristi alate za pokretanje drugih programa ili koda (kao u platnu ili našem razvojnom alatu Codex), koristimo tehniku zvanu sandboxing da sprečimo model da napravi štetne izmene koje mogu biti posledica umetanja instrukcije.
U naše proizvode ugrađujemo kontrole koje pomažu korisnicima da se zaštite. Na primer, u ChatGPT Atlasu možete izabrati režim odjavljenog korisnika, koji omogućava ChatGPT agentu da započne zadatke bez prijave na sajtove. ChatGPT agent takođe zastaje i traži potvrdu pre preduzimanja osetljivih koraka, kao što je završavanje kupovine. Kada agent radi na osetljivim sajtovima, uveli smo i „Režim nadzora“, koji vas upozorava na osetljivu prirodu sajta i zahteva da kartica bude aktivna kako biste nadgledali rad agenta. Agent će pauzirati ako se udaljite sa kartice koja sadrži osetljive informacije. To obezbeđuje da ostanete svesni — i zadržite kontrolu nad — radnjama koje agent obavlja.
Sprovodimo opsežan red-teaming sa internim i eksternim timovima kako bismo testirali i unapredili naše odbrane, oponašali ponašanje napadača i pronalazili nove načine za unapređenje naše bezbednosti. To uključuje hiljade sati posebno usmerenih na umetanje instrukcija. Kako otkrivamo nove tehnike i napade, naši timovi proaktivno rešavaju bezbednosne ranjivosti i unapređuju ublažavanja u našem modelu.
Da bismo podstakli nezavisne istraživače bezbednosti koji postupaju u dobroj veri da nam pomognu da otkrijemo nove tehnike i napade umetanja instrukcija, nudimo novčane nagrade kroz naš program nagrada za prijavu bagova(отвара се у новом прозору) kada pokažu realističan put napada koji bi mogao dovesti do nenamernog izlaganja korisničkih podataka. Podstičemo eksterne saradnike da brzo ukažu na ove probleme kako bismo ih rešili i dodatno ojačali naše odbrane.
Obučavamo korisnike o rizicima korišćenja određenih funkcija u proizvodu kako bi mogli da donose informisane odluke. Na primer, kada povezujete ChatGPT sa drugim aplikacijama, objašnjavamo kojim podacima može biti pristupljeno, kako se oni mogu koristiti i koji rizici mogu nastati, kao što je pokušaj sajta da ukrade vaše podatke, uz link gde možete saznati kako da ostanete bezbedniji. Takođe dajemo organizacijama kontrolu nad tim koje funkcije korisnici u svojim radnim prostorima mogu da omoguće ili koriste.
Umetanje instrukcija je granični bezbednosni izazov za koji očekujemo da će nastaviti da se razvija tokom vremena. Novi nivoi inteligencije i sposobnosti zahtevaju da se tehnologija, društvo i strategija ublažavanja rizika zajednički razvijaju. I kao što je bilo sa računarskim virusima početkom 2000-ih, mislimo da je važno da svi razumeju pretnju umetanja instrukcija i kako da upravljaju tim rizikom, kako bismo svi mogli da naučimo da bezbedno imamo koristi od ove tehnologije. Ostati svestan i oprezan pomaže da vaši podaci budu bezbedniji kada koristite AI i agentske funkcije koje mogu da deluju u vaše ime.
Kad god je moguće, ograničite pristup agenta samo na osetljive podatke ili akreditive koji su mu potrebni da završi zadatak. Na primer, kada koristite agentski režim u ChatGPT Atlasu za istraživanje odmora, ako agent samo istražuje i nije mu potreban prijavljen pristup, koristite režim „odjavljen“.
Često projektujemo agente tako da od vas dobiju konačnu potvrdu pre nego što preduzmu određene značajne radnje, poput završavanja kupovine ili slanja imejla. Kada agent zatraži da potvrdite radnju, pažljivo proverite da li radnja izgleda ispravno i da li je svaka informacija koja se deli primerena za deljenje u tom kontekstu.
Kada agent radi na osetljivom sajtu, kao što je vaša banka, posmatrajte kako obavlja svoj posao. To je slično nadzoru samovozećeg automobila tako što držite ruke na volanu.
Davanje veoma široke instrukcije agentu, kao što je „pregledaj moje imejlove i preduzmi sve potrebne radnje“, može olakšati skrivenom zlonamernom sadržaju da zavede model, iako je on osmišljen tako da proveri s vama pre preduzimanja osetljivih radnji.
Bezbednije je tražiti od agenta da radi određene konkretne stvari i ne davati mu veliku slobodu da potencijalno sledi štetne instrukcije odnekud drugde, poput imejlova. Iako to ne garantuje da napada neće biti, otežava napadačima da budu uspešni.
Kako se AI tehnologija razvija, pojavljivaće se novi rizici i zaštitne mere. Pratite novosti od OpenAI-ja i drugih pouzdanih izvora da biste saznali više o najboljim praksama.
Umetanje instrukcija ostaje granični i izazovan istraživački problem, i baš kao tradicionalne prevare na vebu, očekujemo da će naš rad biti trajan. Iako još nismo videli značajno usvajanje ove tehnike od strane napadača, očekujemo da će protivnici uložiti značajno vreme i resurse kako bi pronašli načine da navedu AI sisteme da nasednu na ove napade. Nastavljamo da snažno ulažemo u bezbednost naših proizvoda i u istraživanje radi unapređenja otpornosti AI-ja na ovaj rizik. Delićemo novosti kako budemo saznavali više, uključujući kontinuirani napredak našeg bezbednosnog rada u ovoj oblasti. Na primer, gradimo izveštaj koji ćemo uskoro objaviti, a koji će podeliti više detalja o tome kako otkrivamo da li bi komunikacija vašeg AI-ja sa internetom prenela informacije iz vašeg razgovora.
Naš cilj je da ove sisteme učinimo pouzdanim i bezbednim poput rada sa vašim najpouzdanijim i bezbednosno osvešćenim kolegom ili prijateljem. Nastavićemo da učimo iz upotrebe u stvarnom svetu, bezbedno unapređujemo sistem i objavljujemo ono što naučimo kako tehnologija bude napredovala.


