Razumijevanje ubrizgavanja upita: izazov granične sigurnosti
AI alati počinju raditi više od pukog odgovaranja na pitanja. Sada mogu pretraživati web, pomoći u istraživanju, planirati putovanja i pomoći pri kupovini proizvoda. Kako postaju sposobniji, s mogućnošću pristupa tvojim podacima u drugim aplikacijama i poduzimanja radnji u tvoje ime, pojavljuju se novi sigurnosni izazovi. Jedna od stvari na koju smo jako fokusirani je ubrizgavanje upita.
Ubrizgavanje upita je vrsta napada socijalnog inženjeringa specifična za konverzacijsku umjetnu inteligenciju. Rani AI sistemi su bili razgovori između jednog korisnika i jednog AI agenta. U današnjim AI proizvodima, tvoj razgovor može sadržavati informacije iz različitih izvora, uključujući internet. Ideja da bi treća strana (koja nije korisnik i nije AI) mogla obmanuti model ubacivanjem zlonamjernih uputa u kontekst razgovora dovela je do termina „ubrizgavanje upita“.
Na isti način na koji phishing e-pošta ili prevare na webu pokušavaju prevariti ljude da odaju osjetljive informacije, ubrizgavanja upita pokušavaju prevariti AI sisteme da urade nešto što niste tražili.
Zamisli da si zamolio AI da ti pomogne da istražiš nešto o odmoru na internetu, i dok to radi, naiđe na obmanjujući sadržaj ili štetne upute skrivene na web-stranici, kao što su komentari na oglase ili recenzije. Sadržaj bi mogao biti pažljivo osmišljen kako bi prevario AI da preporuči pogrešan oglas ili, još gore, da ukrade podatke s vaše kreditne kartice.
Ovo su samo neki primjeri napada „ubrizgavanje upita”—štetnih uputa osmišljenih da prevare AI da uradi nešto što niste namjeravali, često skrivenih unutar običnog sadržaja kao što su web stranica, dokument ili e-pošta.
Ovi rizici rastu kako AI-ovi dobijaju pristup sve osjetljivijim podacima i preuzimaju više inicijative i duže zadatke.
Sažetak | Ono što tražite od AI-ja da uradi | Šta napadač radi | Mogući ishod ako napad uspije |
Tražite od AI da istraži stanove, a u njega se ubaci upit kako bi preporučio oglas koji nije najbolja opcija za vas. | Tražite od AI-a da istraži stanove prema nekim zadanim kriterijima. | Napadač je uključio napad ubrizgavanja upita u oglas za stan kako bi prevario AI da misli da njihov oglas treba biti odabran bez obzira na korisnikove navedene preferencije. | Ako napad uspije, AI može pogrešno preporučiti suboptimalan oglas za stan na osnovu tvojih preferencija. |
Zamolite AI agenta da odgovori na vaše e-mailove od sinoć, a on na kraju podijeli tvoje bankovne izvode. | Zamolite AI agenta da odgovara na vaše e-mailove od sinoć jer si jutros zauzet. Pogledajte „Kada god je moguće, daj agentu eksplicitne upute“ ispod. | Napadač vam je poslao e-mail koji sadrži dezinformacije kako bi prevario model da pronađe vaše bankovne izvode i podijeli ih s napadačem. | Ako napad uspije, agent može potražiti bilo šta poput bankovnih izvoda u vašoj e-pošti (kojom ste dali pristup za zadatak) i podijeliti ih s napadačem. |
Odbrana od ubrizgavanja upita predstavlja izazov u cijeloj AI industriji i ključni je fokus u OpenAI. Iako očekujemo da će protivnici nastaviti razvijati takve napade, gradimo odbrane osmišljene da izvrše korisnikov namjeravani zadatak čak i kada neko aktivno pokušava da ga dovede u zabludu. Ta sposobnost je ključna za sigurno ostvarivanje koristi od AGI-ja.
Da bismo zaštitili naše korisnike i poboljšali naše modele protiv ovih napada, koristimo višeslojni pristup, uključujući sljedeće:
Želimo AI koji prepoznaje ubrizgavanje upita i ne podliježe im. Međutim, otpornost na napade protivnika je dugogodišnji izazov za mašinsko učenje i AI, što ovo čini teškim i otvorenim problemom. Razvili smo istraživanje pod nazivom Hijerarhija instrukcija kako bismo radili na modelima koji razlikuju između instrukcija kojima se vjeruje i onih kojima se ne vjeruje. Nastavljamo razvijati nove pristupe za obučavanje modela kako bi bolje prepoznavali obrasce ubrizgavanja upita, kako bi ih mogli ignorisati ili označiti korisnicima. Jedna od tehnika koje primjenjujemo je automatizirani red teaming, oblast koju već godinama proučavamo(otvara se u novom prozoru) kako bismo razvili nove napade ubrizgavanjem upita.
Razvili smo više automatiziranih AI-pokretanih monitora kako bismo identificirali i blokirali napade ubrizgavanja upita. Ovo nadopunjuje pristupe obuci o sigurnosti jer se mogu brzo ažurirati kako bi brzo blokirali sve nove napade koje otkrijemo. Ovi monitori ne samo da pomažu u identifikaciji potencijalnih napada ubrizgavanja upita protiv naših korisnika, već nam također mogu omogućiti da uhvatimo istraživanje i testiranje protivničkog ubrizgavanja upita koristeći našu platformu, prije nego što se ti napadi primijene u stvarnom svijetu.
Dizajnirali smo naše proizvode i infrastrukturu s raznim sigurnosnim zaštitama koje se preklapaju kako bismo zaštitili podatke korisnika. Ove funkcije, koje ćemo detaljnije istražiti u budućim objavama, prilagođene su za svaki proizvod posebno. Na primjer, da ti pomognemo da izbjegneš nepouzdane stranice, tražit ćemo od tebe da odobriš određene linkove u ChatGPT‑u, posebno na web stranicama koje traže da ih ne katalogiziramo(otvara se u novom prozoru), prije nego što ih možeš posjetiti. Kada naša AI koristi alate za pokretanje drugih programa ili koda (kao u canvasu ili našem razvojnom alatu Codex), koristimo tehniku koja se zove sandboxing kako bismo spriječili model da napravi štetne promjene koje bi mogle biti rezultat ubrizgavanja upita.
U naše proizvode uključujemo ugrađene kontrole kako bismo vam pomogli da se zaštitite. Na primjer, u ChatGPT Atlasu možete odabrati odjavljeni režim koji omogućava ChatGPT agentu da započne zadatke bez prijave na web stranice. ChatGPT agent također pauzira i traži potvrdu prije nego što poduzme osjetljive korake, kao što je završavanje kupovine. Kada agent radi na osjetljivim stranicama, implementirali smo i „Režim nadzora“ koji te upozorava na osjetljivu prirodu stranice i zahtijeva da kartica bude aktivna kako bi mogao gledati agenta dok obavlja svoj posao. Agent će se pauzirati ako se udaljiš od kartice s osjetljivim informacijama. Ovo osigurava da ostanete svjesni—i u kontroli—nad radnjama koje agent obavlja.
Provodimo opsežan red teaming s internim i vanjskim timovima kako bismo testirali i unaprijedili naše obrambene mjere, oponašali ponašanje napadača i pronašli nove načine za poboljšanje naše sigurnosti. Ovo uključuje hiljade sati posebno posvećenih ubrizgavanju upita. Kako otkrivamo nove tehnike i napade, naši timovi proaktivno rješavaju sigurnosne ranjivosti i poboljšavaju mjere ublažavanja za naš model.
Da bismo potaknuli nezavisne sigurnosne istraživače koji djeluju u dobroj vjeri da nam pomognu otkriti nove tehnike i napade ubrizgavanja upita, nudimo finansijske nagrade u okviru našeg programa nagrada za greške(otvara se u novom prozoru) kada pokažu realističan put napada koji bi mogao rezultirati nenamjernim izlaganjem korisničkih podataka. Potičemo vanjske saradnike da brzo ukažu na ove probleme kako bismo ih mogli riješiti i dodatno ojačati našu obranu.
Obavještavamo korisnike o rizicima korištenja određenih funkcija u proizvodu kako bi mogli donijeti informirane odluke. Na primjer, kada povezujete ChatGPT s drugim aplikacijama, objašnjavamo kojim podacima se može pristupiti, kako se mogu koristiti i koji rizici mogu nastati, kao što je web-lokacija koja pokušava ukrasti vaše podatke, zajedno s poveznicom da saznate kako ostati sigurniji. Također dajemo organizacijama kontrolu nad time koje funkcije korisnici mogu omogućiti ili koristiti u svojim radnim prostorima.
Ubrizgavanje upita je granični sigurnosni izazov za koji očekujemo da će se nastaviti razvijati s vremenom. Novi nivoi inteligencije i sposobnosti zahtijevaju da tehnologija, društvo i strategija za ublažavanje rizika zajedno evoluiraju. Kao i s računalnim virusima početkom 2000-ih, smatramo da je važno da svi razumiju prijetnju ubrizgavanju upita i kako upravljati rizikom, kako bismo svi mogli naučiti sigurno koristiti ovu tehnologiju. Biti svjestan i oprezan pomaže da vaši podaci budu sigurniji kada koristite AI i funkcije koje mogu djelovati u vaše ime.
Gdje god je moguće, ograničite pristup agenta samo na osjetljive podatke ili vjerodajnice koje su mu potrebne za dovršavanje zadatka. Na primjer, kada koristite način rada agenta u ChatGPT Atlasu za istraživanje odmora, ako agent samo radi istraživanje i ne treba prijavljeni pristup, koristite način rada „odjavljen“.
Često dizajniramo agente da dobiju konačnu potvrdu od tebe prije nego što poduzmu određene važne radnje, kao što su dovršavanje kupovine ili slanje e-pošte. Kada te agent zamoli da potvrdiš radnju, pažljivo provjeri da li radnja izgleda ispravno i da li su informacije koje se dijele prikladne za dijeljenje u tom kontekstu.
Kada agent radi na osjetljivoj stranici, kao što je tvoja banka, prati kako agent obavlja svoj posao. Ovo je kao nadzirati samovozeći automobil držeći ruke na volanu.
Davanje agentu vrlo široke upute, poput „pregledaj moju e-poštu i poduzmi sve potrebne radnje“, može olakšati skrivenom zlonamjernom sadržaju da zavara model, iako je dizajniran da se posavjetuje s vama prije nego što poduzme osjetljive radnje.
Sigurnije je zamoliti svog agenta da obavlja određene zadatke, a ne da mu date široku slobodu da potencijalno slijedi štetne upute iz drugih izvora, poput e-mailova. Iako ovo ne garantuje da neće biti napada, otežava napadačima da postignu uspjeh.
Kako se AI tehnologija razvija, pojavit će se novi rizici i mjere zaštite. Prati ažuriranja od OpenAI i drugih pouzdanih izvora da saznaš o najboljim praksama.
Ubrizgavanje upita ostaje izazovan istraživački problem na granici, i baš kao tradicionalne prevare na webu, očekujemo da će naš rad biti kontinuiran. Iako još nismo primijetili značajno usvajanje ove tehnike od strane napadača, očekujemo da će protivnici uložiti značajno vrijeme i resurse kako bi pronašli načine da navedu AI sisteme da podlegnu ovim napadima. Nastavljamo značajno ulagati u sigurnost naših proizvoda i istraživanja kako bismo unaprijedili robusnost AI u odnosu na ovaj rizik. Podijelit ćemo ažuriranja kako budemo saznali više, uključujući tekući napredak u našem sigurnosnom radu u ovoj oblasti. Na primjer, pravimo izvještaj koji ćemo uskoro objaviti, a koji će pružiti više detalja o tome kako otkrivamo da li bi komunikacija vašeg AI s internetom mogla prenijeti informacije iz vašeg razgovora.
Naš cilj je da ove sisteme učinimo pouzdanim i sigurnim kao rad s tvojim najpouzdanijim i sigurnosno svjesnim kolegom ili prijateljem. Nastavit ćemo učiti iz stvarne upotrebe, sigurno iterirati i objavljivati ono što naučimo dok tehnologija napreduje.


