Razumevanje vstavljanja zavajajočega poziva: mejni varnostni izziv
Orodja UI začenjajo početi več kot samo odgovarjati na vprašanja. Zdaj lahko brskajo po spletu, pomagajo pri raziskovanju, načrtujejo potovanja in pomagajo pri nakupu izdelkov. Ko postajajo bolj sposobni, z možnostjo dostopa do vaših podatkov v drugih aplikacijah in izvajanja dejanj v vašem imenu, se pojavijo novi varnostni izzivi. Ena, na katero se močno osredotočamo, je vstavljanje zavajajočega poziva.
Vstavljanje zavajajočega poziva je vrsta napada socialnega inženiringa, ki je značilna za pogovorno umetno inteligenco. Zgodnji sistemi umetne inteligence so bili pogovori med enim uporabnikom in enim agentom. V današnjih UI izdelkih lahko vaš pogovor vključuje vsebino iz različnih virov, vključno z internetom. Ideja, da bi lahko tretja oseba (ki ni uporabnik in ni umetna inteligenca) zavajala model z vnosom zlonamernih navodil v kontekst pogovora, je privedla do izraza »vstavljanje zavajajočega poziva«.
Na enak način kot e-poštna sporočila z lažnim predstavljanjem ali spletne prevare poskušajo ljudi pretentati, da razkrijejo občutljive informacije, poskuša vstavljanje zavajajočega poziva pretentati umetno inteligenco, da naredi nekaj, česar niste zahtevali.
Predstavljajte si, da ste umetno inteligenco prosili, da vam pomaga pri spletnem raziskovanju za dopust, in medtem ko to počne, naleti na zavajajočo vsebino ali škodljiva navodila, skrita na spletni strani, na primer v komentarju pri oglasu ali oceni. Vsebina bi lahko bila skrbno oblikovana, da bi poskušala zavajati UI, da priporoči napačen seznam, ali še huje, da bi ukradla podatke o vaši kreditni kartici.
To je le nekaj primerov napadov “vstavljanja zavajajočega poziva”—škodljivih navodil, zasnovanih tako, da pretentajo umetno inteligenco, da naredi nekaj, česar niste nameravali, pogosto skritih v običajni vsebini, kot so spletna stran, dokument ali e-pošta.
Ta tveganja se povečujejo, ko imajo sistemi umetne inteligence dostop do bolj občutljivih podatkov in prevzemajo več pobude ter daljše naloge.
Povzetek | Kaj ste prosili UI, naj naredi | Kaj počne napadalec | Možen izid, če napad uspe |
Prosite UI, naj razišče stanovanja, in vanjo se vstavi poziv, da priporoči oglas, ki ni najboljša možnost za vas. | Prosite umetno inteligenco, da razišče stanovanja na podlagi določenih kriterijev. | Napadalec je v oglas za stanovanje vključil napad z vstavljanjem zavajajočega poziva, da bi UI pretental, da je treba njihov oglas izbrati ne glede na uporabnikove navedene preference. | Če napad uspe, lahko umetna inteligenca na podlagi vaših preferenc napačno priporoči neoptimalen seznam stanovanj. |
Prosite agenta UI, naj odgovori na vaša e-poštna sporočila iz prejšnje noči, vendar na koncu deli vaše bančne izpiske. | Prosite agenta AI, naj na splošno odgovarja na vaša e-poštna sporočila, ki so prispela čez noč, ker ste danes zjutraj zasedeni. Glejte “Kadar je mogoče, dajte agentu jasna navodila” spodaj | Napadalec vam je poslal e-pošto, ki vsebuje napačne informacije, s katerimi model zavede, da najde vaše bančne izpiske in jih deli z napadalcem. | Če napad uspe, lahko agent v vaši e-pošti (do katere ste mu za to nalogo omogočili dostop) poišče karkoli, na primer bančne izpiske, in jih deli z napadalcem. |
Obramba pred vstavljanjem zavajajočega poziva je izziv v celotni industriji umetne inteligence in osrednja usmeritev pri OpenAI. Čeprav pričakujemo, da bodo nasprotniki še naprej razvijali takšne napade, gradimo obrambne mehanizme, zasnovane tako, da izvedejo uporabnikovo nameravano nalogo, tudi ko nekdo poskuša uporabnika aktivno zavesti. Ta zmožnost je bistvena za varno uresničevanje prednosti SUI.
Da bi zaščitili naše uporabnike in izboljšali naše modele pred temi napadi, uporabljamo večplastni pristop, ki vključuje naslednje:
Želimo umetno inteligenco, ki prepozna vstavljanja zavajajočih pozivov in se ne pusti pretentati. Vendar je robustnost proti napadom nasprotnikov dolgotrajen izziv za strojno učenje in umetno inteligenco, kar predstavlja težaven in odprt problem. Razvili smo raziskavo z naslovom Hierarhija navodil, da bi razvili modele, ki razlikujejo med zaupanja vrednimi in nezaupanja vrednimi navodili. Še naprej razvijamo nove pristope za usposabljanje modelov, da bi bolje prepoznavali vzorce vstavljanja zavajajočega poziva, tako da jih lahko ignorirajo ali jih označijo uporabnikom. Ena od tehnik, ki jih uporabljamo, je avtomatiziran preizkus odpornosti, področje, ki ga že leta preučujemo(odpre se v novem oknu), da bi razvili nove napade z vstavljanjem zavajajočega poziva.
Razvili smo več avtomatiziranih nadzornih sistemov, ki jih poganja umetna inteligenca, monitorjev za prepoznavanje in blokiranje napadov z vstavljanjem zavajajočega poziva. Ti dopolnjujejo pristope k varnostnemu usposabljanju, saj jih je mogoče hitro posodabljati, da lahko hitro blokiramo vse nove napade, ki jih odkrijemo. Ti nadzorniki ne pomagajo le prepoznati morebitnih napadov z vstavljanjem zavajajočega poziva proti našim uporabnikom, temveč nam lahko tudi omogočijo, da zaznamo raziskave nasprotnikov in testiranje vstavljanja zavajajočega poziva z uporabo naše platforme, še preden so ti napadi uvedeni v naravnem okolju.
Naše izdelke in infrastrukturo smo zasnovali z različnimi prekrivajočimi se varnostnimi zaščitami, da bi pomagali varovati uporabniške podatke. Te funkcije, ki jih bomo v prihodnjih objavah podrobneje tehnično obravnavali, so prilagojene za vsak posamezen izdelek. Na primer, da bi vam pomagali preprečiti dostop do nezaupanja vrednih spletnih mest, vas bomo prosili, da v ChatGPT odobrite določene povezave, še posebej na spletnih mestih, ki nas prosijo, naj jih ne katalogiziramo(odpre se v novem oknu), preden jih lahko obiščete. Ko naša umetna inteligenca uporablja orodja za zagon drugih programov ali kode (kot v Canvas ali v našem razvojnem orodju Codex), uporabljamo tehniko, imenovano peskovanje, da preprečimo, da bi model izvajal škodljive spremembe, ki bi lahko bile posledica vstavljanja zavajajočega poziva.
V naše izdelke vključujemo vgrajene nadzore, ki uporabnikom pomagajo, da se zaščitijo. Na primer, v ChatGPT Atlasu lahko izberete odjavljen način, ki omogoča, da agent ChatGPT začne naloge, ne da bi bil prijavljen v spletna mesta. Agent ChatGPT se ustavi in zahteva potrditev, preden izvede občutljive korake, kot je dokončanje nakupa. Ko agent deluje na občutljivih spletnih mestih, smo uvedli tudi »Način spremljanja«, ki vas opozori na občutljivo naravo spletnega mesta in zahteva, da imate zavihek aktiven, da lahko spremljate, kako agent opravlja svoje delo. Agent se bo ustavil, če se odmaknete od zavihka z občutljivimi informacijami. To zagotavlja, da ste obveščeni in imate nadzor nad tem, katera dejanja agent izvaja.
Izvajamo obsežen preizkus odpornosti z internimi in zunanjimi ekipami, da preizkusimo in izboljšamo naše obrambne mehanizme, posnemamo vedenje napadalcev in najdemo nove načine za izboljšanje naše varnosti. To vključuje na tisoče ur, osredotočenih posebej na vstavljanje zavajajočega poziva. Ker smo odkrili nove tehnike in napade, naše ekipe proaktivno obravnavajo varnostne ranljivosti in izboljšujejo omilitve našega modela.
Da bi spodbudili neodvisne varnostne raziskovalce, ki delujejo v dobri veri, da nam pomagajo odkriti nove tehnike in napade z vstavljanjem zavajajočega poziva, ponujamo finančne nagrade v okviru našega programa nagrajevanja za odkrite programske napake(odpre se v novem oknu), ko pokažejo realističen potek napada, ki bi lahko povzročil nenamerno razkritje uporabniških podatkov. Spodbujamo zunanje sodelavce, da hitro izpostavijo te težave, da jih lahko odpravimo in dodatno okrepimo naše obrambe.
Uporabnike poučujemo o tveganjih uporabe določenih funkcij v izdelku, da lahko sprejemajo informirane odločitve. Na primer, ko ChatGPT povežete z drugimi aplikacijami, pojasnimo, do katerih podatkov je mogoče dostopati, kako se lahko uporabijo in kakšna tveganja lahko nastanejo, na primer, da bi spletno mesto poskušalo ukrasti vaše podatke, skupaj s povezavo, kjer lahko izveste, kako ostati varni. Organizacijam omogočamo tudi nadzor nad tem, katere funkcije so lahko omogočene ali uporabljene s strani uporabnikov v njihovih delovnih prostorih.
Vstavljanje zavajajočega poziva je mejni varnostni izziv, za katerega pričakujemo, da se bo sčasoma še naprej razvijal. Nove ravni inteligence in zmogljivosti zahtevajo, da se tehnologija, družba in strategija za zmanjšanje tveganj razvijajo sočasno. In tako kot pri računalniških virusih v zgodnjih 2000-ih menimo, da je pomembno, da vsi razumejo grožnjo vstavljanja zavajajočih pozivov in kako obvladovati tveganje, da se lahko vsi naučimo varno izkoristiti prednosti te tehnologije. Ohranjanje zavedanja in previdnost pomagata ohranjati vaše podatke varnejše pri uporabi funkcij umetne inteligence in agentnih funkcij, ki lahko delujejo v vašem imenu.
Kadar je mogoče, omejite dostop agenta samo na občutljive podatke ali poverilnice, ki jih potrebuje za dokončanje naloge. Na primer, ko uporabljate način agenta v ChatGPT Atlas za raziskovanje počitnic, če agent opravlja samo raziskavo in ne potrebuje prijavljenega dostopa, uporabite način »odjavljen«.
Agente pogosto zasnujemo tako, da pred izvedbo nekaterih posledičnih dejanj, kot sta dokončanje nakupa ali pošiljanje e-pošte, od vas pridobijo končno potrditev. Ko vas agent prosi, da potrdite dejanje, skrbno preverite, ali je dejanje videti pravilno in ali so informacije, ki se delijo, primerne za deljenje v tem kontekstu.
Ko agent deluje na občutljivem mestu, kot je vaša banka, opazujte, kako agent opravlja svoje delo. To je podobno, kot da bi nadzorovali samovozeči avtomobil tako, da imate roke na volanu.
Če agentu daste zelo splošno navodilo, kot je "preglej mojo e-pošto in naredi vse, kar je potrebno", lahko skrita zlonamerna vsebina lažje zavede model, čeprav je zasnovan tako, da se pred izvedbo občutljivih dejanj posvetuje z vami.
Varneje je prositi svojega agenta, naj opravi določene naloge, in mu ne dati prevelike svobode, da bi lahko sledil škodljivim navodilom iz drugih virov, kot so e-poštna sporočila. Čeprav to ne zagotavlja, da napadov ne bo, napadalcem , da bi bili uspešni.
Ko se tehnologija umetne inteligence razvija, se bodo pojavila nova tveganja in zaščitni ukrepi. Spremljajte posodobitve OpenAI in drugih zaupanja vrednih virov, da se seznanite z najboljšimi praksami.
Vstavljanje zavajajočega poziva ostaja mejno, zahteven raziskovalni problem in tako kot tradicionalne prevare na spletu pričakujemo, da bo naše delo potekalo neprekinjeno. Čeprav še nismo opazili znatnega sprejetja te tehnike s strani napadalcev, pričakujemo, da bodo nasprotniki vložili veliko časa in sredstev v iskanje načinov, kako umetno inteligenco pripraviti do tega, da podleže tem napadom. Še naprej veliko vlagamo v zagotavljanje varnosti naših izdelkov in v raziskave za povečanje robustnosti umetne inteligence proti temu tveganju. Posodobitve bomo delili, ko bomo izvedeli več, vključno s sprotnim napredkom pri našem varnostnem delu na tem področju. Na primer, pripravljamo poročilo, ki ga bomo kmalu objavili in ki bo vsebovalo več podrobnosti o tem, kako zaznamo, ali bi komunikacija vaše umetne inteligence z internetom prenesla informacije iz vašega pogovora.
Naš cilj je, da ti sistemi postanejo tako zanesljivi in varni kot delo z vašim najbolj zaupanja vrednim in varnostno ozaveščenim sodelavcem ali prijateljem. Nadaljevali bomo z učenjem iz resnične uporabe, varno ponavljali in objavljali, kar se naučimo, ko tehnologija napreduje.


