Pochopenie vkladania falošných príkazov: prelomová bezpečnostná výzva
Nástroje AI začínajú robiť viac než len odpovedať na otázky. Teraz môžu prehliadať web, pomáhať s výskumom, plánovať výlety a pomáhať s kúpou produktov. Ako sa stávajú schopnejšími a keďže majú schopnosť pristupovať k tvojim údajom v iných aplikáciách a konať v tvojom mene, objavujú sa nové bezpečnostné výzvy. Jedna z vecí, na ktorú sa intenzívne zameriavame, je vkladanie falošných príkazov.
Vkladanie falošných príkazov je typ útoku sociálneho inžinierstva, ktorý je špecifický pre konverzačnú AI. Počiatočné systémy AI boli rozhovory medzi jedným používateľom a jedným AI agentom. V dnešných produktoch AI môže vaša konverzácia obsahovať obsah z rôznych zdrojov, vrátane internetu. Myšlienka, že tretia strana (t. j. nie používateľ a nie AI) by mohla uviesť model do omylu vložením škodlivých inštrukcií do kontextu konverzácie, viedla k pojmu „vkladanie falošných príkazov“.
Rovnako ako phishingové e-maily alebo podvody na webe sa snažia oklamať ľudí, aby prezradili citlivé informácie, vkladanie falošných príkazov sa snaží oklamať AI, aby vykonala niečo, o čo si nežiadal/-a.
Predstav si, že si požiadal/-a AI, aby ti pomohla urobiť online prieskum dovolenky, a kým to robí, narazí na zavádzajúci obsah alebo škodlivé pokyny skryté na webovej stránke, napríklad v komentári pri ponuke alebo v recenzii. Obsah môže byť starostlivo vytvorený s cieľom oklamať umelú inteligenciu, aby odporučila nesprávnu ponuku, alebo ešte horšie, aby ukradla informácie o tvojej kreditnej karte.
Toto sú len niektoré príklady „vkladania falošných príkazov“ – škodlivých inštrukcií navrhnutých tak, aby oklamali AI a prinútili ju vykonať niečo, čo nebolo tvojim úmyslom, často skrytých v bežnom obsahu, ako je webová stránka, dokument alebo e-mail.
Tieto riziká sa zvyšujú, keď rôzne AI majú prístup k citlivejším údajom a preberajú viac iniciatívy a dlhšie úlohy.
Súhrn | O čo si požiadal/-a AI | Čo robí útočník | Možný výsledok, ak útok uspeje |
Požiadaš AI, aby preskúmala byty, a dôjde k vloženiu falošných príkazov, ktoré ju prinútia odporučiť ponuku, ktorá pre teba nie je tou najlepšou možnosťou. | Požiadaš AI, aby preskúmala byty podľa zadaných kritérií. | Útočník zahrnul do inzerátu na byt útok vkladania falošných príkazov, aby oklamal AI a prinútil ju myslieť si, že jeho inzerát treba vybrať bez ohľadu na preferencie uvedené používateľom. | Ak útok uspeje, AI môže nesprávne odporučiť menej ponuku bytu podľa tvojich preferencií, ktorá nie je dostatočne vhodná. |
Požiadaš agenta umelej inteligencie, aby odpovedal na tvoje nočné e-maily, a on nakoniec zdieľa tvoje bankové výpisy. | Požiadaš AI agenta, aby všeobecne odpovedal na tvoje nočné e-maily, pretože si dnes ráno zaneprázdnený/-á. Pozri nižšie „Keď je to možné, daj agentovi jasné pokyny“ | Útočník ti poslal e-mail obsahujúci dezinformácie, ktoré oklamú model, aby našiel tvoje bankové výpisy a zdieľal ich s útočníkom. | Ak útok uspeje, agent môže v tvojom e-maile (ku ktorému si mu pre túto úlohu udelil/-a prístup) vyhľadať čokoľvek, napríklad bankové výpisy, a zdieľať ich s útočníkom. |
Obrana proti vkladaniu falošných príkazov je výzvou v celom odvetví AI a kľúčovým zameraním OpenAI. Aj keď očakávame, že protivníci budú naďalej vyvíjať takéto útoky, budujeme obrany, ktoré sú navrhnuté tak, aby vykonali zamýšľanú úlohu používateľa, aj keď sa ich niekto aktívne snaží uviesť do omylu. Táto schopnosť je nevyhnutná na bezpečné využitie prínosov všeobecnej umelej inteligencie (AGI).
Aby sme chránili našich používateľov a zlepšili naše modely proti týmto útokom, používame viacvrstvový prístup, ktorý zahŕňa nasledujúce kroky:
Chceme AI, ktorá rozpozná vkladanie falošných príkazov a nenaletí im. Robustnosť voči útokom je však dlhodobou výzvou pre strojové učenie a umelú inteligenciu, čo z toho robí náročný, otvorený problém. Vyvinuli sme výskum s názvom Hierarchia inštrukcií, aby sme pracovali na modeloch, ktoré rozlišujú medzi dôveryhodnými a nedôveryhodnými inštrukciami. Naďalej vyvíjame nové prístupy na trénovanie modelov, aby lepšie rozpoznávali vzory vkladania falošných príkazov, aby ich mohli ignorovať alebo ich označiť používateľom. Jednou z techník, ktoré používame, je automatizované testovanie červeným tímom, oblasť, ktorú už roky študujeme(otvorí sa v novom okne), aby sme vyvinuli nové útoky typu vkladania falošných príkazov.
Vyvinuli sme viacero automatizovaných AI-poháňaných monitorov na identifikáciu a blokovanie útokov vkladania falošných príkazov. Tieto dopĺňajú prístupy k bezpečnostnému školeniu, pretože ich môžeme rýchlo aktualizovať na zablokovanie akýchkoľvek nových útokov, ktoré odhalíme. Tieto monitory nielen pomáhajú identifikovať potenciálne útoky typu vkladanie falošných príkazov proti našim používateľom, ale nám tiež môžu umožniť zachytiť nepriateľský výskum a testovanie vkladania falošných príkazov využívajúce našu platformu ešte predtým, ako budú tieto útoky nasadené v reálnom prostredí.
Navrhli sme naše produkty a infraštruktúru s rôznymi prekrývajúcimi sa bezpečnostnými opatreniami, aby sme pomohli chrániť údaje používateľov. Tieto funkcie, ktoré preskúmame podrobnejšie z technického hľadiska v budúcich príspevkoch, sú prispôsobené pre každý produkt osobitne. Napríklad, aby sme ti pomohli vyhnúť sa nedôveryhodným stránkam, požiadame ťa, aby si v ChatGPT schválil určité odkazy, najmä na webových stránkach, ktoré nás žiadajú, aby sme ich nekatalogizovali(otvorí sa v novom okne) predtým, ako ich budeš môcť navštíviť. Keď naša AI používa nástroje na spúšťanie iných programov alebo kódu (ako v Canvas alebo v našom vývojovom nástroji Codex), používame techniku nazývanú sandboxing, aby sme zabránili modelu vykonávať škodlivé zmeny, ktoré by mohli byť výsledkom vkladania falošných príkazov.
Do našich produktov zahŕňame vstavané ovládacie prvky, aby sme ti pomohli chrániť sa. Napríklad v ChatGPT Atlas môžete zvoliť režim odhlásenia, ktorý umožňuje agentovi ChatGPT spúšťať úlohy bez toho, aby si sa musel/-a prihlásovať na stránky. Agent ChatGPT sa tiež zastaví a pred vykonaním citlivých krokov, ako je dokončenie nákupu, požiada o potvrdenie. Keď agent pracuje na citlivých webových lokalitách, implementovali sme aj „Režim sledovania“, ktorý ťa upozorní na citlivú povahu lokality a vyžaduje, aby si mal/-a kartu aktívnu a sledoval/-a, ako agent vykonáva svoju prácu. Agent sa pozastaví, ak opustíš kartu s citlivými informáciami. Toto zabezpečuje, že máš povedomie a kontrolu nad tým, čo agent robí.
Vykonávame rozsiahle testovanie červeným tímom s internými a externými tímami, aby sme otestovali a zlepšili našu obranu, napodobnili správanie útočníkov a našli nové spôsoby, ako zlepšiť našu bezpečnosť. To zahŕňa tisíce hodín zameraných konkrétne na vkladanie falošných príkazov. Ako sme objavili nové techniky a útoky, naše tímy proaktívne riešia bezpečnostné zraniteľnosti a zlepšujú opatrenia modelu.
Aby sme povzbudili nezávislých bezpečnostných výskumníkov konajúcich v dobrej viere, aby nám pomohli objaviť nové techniky a útoky typu vkladania falošných príkazov, ponúkame finančné odmeny v rámci nášho programu odmien za odhaľovanie chýb(otvorí sa v novom okne), keď preukážu realistickú cestu útoku, ktorá by mohla viesť k neúmyselnému odhaleniu údajov používateľov. Motivujeme externých prispievateľov, aby tieto problémy rýchlo odhalili, aby sme ich mohli vyriešiť a ďalej posilnili našu obranu.
Používateľov informujeme o rizikách používania určitých funkcií v produkte, aby mohli robiť informované rozhodnutia. Napríklad, keď pripojíš ChatGPT k iným aplikáciám, vysvetlíme ti, ku ktorým údajom sa môže pristupovať, ako sa môžu používať a aké riziká môžu vzniknúť, napríklad že sa stránka pokúsi ukradnúť tvoje údaje, spolu s odkazom, kde sa dozvieš, ako zostať v bezpečí. Organizáciám tiež dávame možnosť rozhodovať o tom, ktoré funkcie môžu byť povolené alebo používané používateľmi v ich pracovných priestoroch.
Vkladanie falošných príkazov je prelomová bezpečnostná výzva, o ktorej očakávame, že sa bude časom naďalej vyvíjať. Nové úrovne inteligencie a schopností si vyžadujú, aby technológia, spoločnosť a stratégia zmierňovania rizík koexistovali a vyvíjali sa spoločne. A rovnako ako pri počítačových vírusoch na začiatku 2000-tych rokov si myslíme, že je dôležité, aby každý pochopil hrozbu vkladania falošných príkazov a ako sa orientovať v riziku, aby sme sa všetci mohli naučiť bezpečne využívať výhody tejto technológie. Zostať v strehu a byť opatrný pomáha udržať tvoje údaje v bezpečí pri používaní AI a agentických funkcií, ktoré môžu konať v tvojom mene.
Ak je to možné, obmedz prístup agenta len na tie citlivé údaje alebo poverenia, ktoré sú nevyhnutné na dokončenie úlohy. Napríklad pri používaní režimu agenta v ChatGPT Atlas na prieskum dovolenky – ak agent robí iba prieskum a nepotrebuje prístup po prihlásení – použi režim „odhlásený“.
Často navrhujeme agentov tak, aby si od teba pred vykonaním určitých dôležitých akcií, ako je dokončenie nákupu alebo odoslanie e-mailu, vyžiadali záverečné potvrdenie. Keď ťa agent požiada o potvrdenie akcie, dôkladne skontroluj, či akcia vyzerá správne a či sú zdieľané informácie vhodné na zdieľanie v danom kontexte.
Keď agent pracuje na citlivej stránke, ako je tvoja banka, sleduj, ako agent vykonáva svoju prácu. Je to ako sledovať samoriadiace auto s rukami na volante.
Ak dáš agentovi veľmi všeobecný pokyn, ako napríklad „skontroluj moje e-maily a vykonaj akúkoľvek potrebnú akciu“, môže uľahčiť skrytému škodlivému obsahu zaviesť model, aj keď je navrhnutý tak, aby si pred vykonaním citlivých akcií od teba vyžiadal potvrdenie.
Je bezpečnejšie požiadať svojho agenta, aby vykonával konkrétne úlohy, a neumožniť mu širokú voľnosť, ktorá by mohla viesť k nasledovaniu škodlivých pokynov z iných zdrojov, ako sú napríklad e-maily. Hoci to nezaručuje, že nedôjde k útokom, sťažuje to útočníkom dosiahnutie úspechu.
Ako sa bude technológia AI vyvíjať, objavia sa nové riziká a ochrany. Sleduj aktualizácie od OpenAI a iných dôveryhodných zdrojov, aby si sa dozvedel/-a o osvedčených postupoch.
Vkladanie falošných príkazov zostáva prelomovým a náročným výskumným problémom, a očakávame, rovnako ako pri tradičných podvodoch na webe, že naša bude potrebná neustále. Hoci sme zatiaľ nezaznamenali významné rozšírenie tejto techniky medzi útočníkmi, očakávame, že protivníci strávia značné množstvo času a zdrojov hľadaním spôsobov, ako prinútiť umelú inteligenciu, aby týmto útokom podľahla. Naďalej investujeme značné prostriedky do zaistenia bezpečnosti našich produktov a do výskumu na zvýšenie odolnosti umelej inteligencie voči tomuto riziku. Budeme zdieľať aktualizácie postupne, ako sa budeme dozvedať viac, a takisto aktualizácie prebiehajúceho pokroku v našej práci na bezpečnosti v tejto oblasti. Napríklad pripravujeme správu, ktorú čoskoro zverejníme a ktorá poskytne viac podrobností o tom, ako zisťujeme, či by komunikácia vašej AI s internetom prenášala informácie z tvojej konverzácie.
Naším cieľom je, aby boli tieto systémy rovnako spoľahlivé a bezpečné ako práca s vaším najdôveryhodnejším a bezpečnostne uvedomelým kolegom alebo priateľom. Budeme sa naďalej učiť z reálneho používania, bezpečne iterovať a zverejňovať, čo sa naučíme, ako sa technológia vyvíja.


