Porozumění injektáži promptů: hraniční bezpečnostní výzva
Nástroje AI začínají dělat víc než jen odpovídat na otázky. Nyní mohou procházet web, pomáhat s výzkumem, plánovat cesty a pomáhat s nákupem produktů. S tím, jak se stávají schopnějšími a mají možnost přistupovat k tvým datům v jiných aplikacích a provádět akce tvým jménem, se objevují nové bezpečnostní výzvy. Jednou z oblastí, na kterou se intenzivně zaměřujeme, je injektáž promptů.
Injektáž promptů je typ útoku sociálního inženýrství specifický pro konverzační umělou inteligenci. První systémy umělé inteligence byly konverzace mezi jedním uživatelem a jedním agentem AI. V dnešních produktech umělé inteligence může konverzace zahrnovat obsah z mnoha zdrojů, včetně internetu. Myšlenka, že by třetí strana (která není uživatelem ani umělou inteligencí) mohla uvést model v omyl tím, že do kontextu konverzace vloží škodlivé instrukce, dala vzniknout termínu „injektáž promptů“.
Stejně jako phishingové e-maily nebo podvody na webu se snaží oklamat lidi, aby prozradili citlivé informace, injektáže promptů se snaží oklamat umělou inteligenci, aby udělala něco, o co jste ji nežádali.
Představ si, že jsi požádal/a umělou inteligenci, aby ti pomohla udělat online průzkum pro dovolenou, a ta při tom narazí na zavádějící obsah nebo škodlivé pokyny skryté na webové stránce, například v komentáři u nabídky nebo v recenzi. Obsah může být pečlivě vytvořen ve snaze oklamat umělou inteligenci tak, aby doporučila nesprávnou nabídku, nebo ještě hůře, aby ukradla informace o tvé kreditní kartě.
Toto je jen několik příkladů útoků s využitím „injektáže promptů“– škodlivých instrukcí navržených k tomu, aby oklamaly AI a přiměly ji udělat něco, co nebylo jsi nezamýšlel(a). Často Se skrývají v běžném obsahu, jako je webová stránka, dokument nebo e-mail.
Tato rizika se zvyšují, pokud má umělá inteligence přístup k citlivějším datům a přebírá větší iniciativu a delší úkoly.
Shrnutí | Co podle tebe měla umělá inteligence udělat? | Co dělá útočník? | Možný výsledek v případě, že útok uspěje |
Požádáš AI, aby prozkoumala byty, a ta je pomocí injektáže promptů ovlivněna, aby doporučila nabídku, která pro tebe není tou nejlepší volbou. | Pořádej AI, aby prozkoumala byty podle zadaných kritérií. | Útočník zahrnul do nabídky bytu útok injektáží promptu s cílem oklamat umělou inteligenci a přimět ji si myslet, že si jeho nabídku má vybrat bez ohledu na preference uživatele. | Pokud útok uspěje, může umělá inteligence na základě tvých preferencí nesprávně doporučit neoptimální nabídku bytu. |
Požádáš AI agenta, aby odpovídal tvé e-maily z noci, a on nakonec sdílí tvé bankovní výpisy. | Požádej AI agenta, aby obecně odpovídal na tvé noční e-maily, protože dnes ráno nemáš čas. Viz níže článek „Pokud je to možné, dávejte agentům explicitní pokyny“ | Útočník ti poslal e-mail s dezinformacemi, které model oklamou a přimějí k nalezení tvých bankovních výpisů a jejich sdílení s útočníkem. | Pokud útok uspěje, může agent ve tvém e-mailu (ke kterému dostal pro tento úkol přístup) vyhledat cokoli, například bankovní výpisy, a sdílet je s útočníkem. |
Bránit se proti injektáži promptů představuje výzvu v rámci celého odvětví AI a prioritní záměr společnosti OpenAI. I když očekáváme, že protivníci budou takové útoky i nadále vyvíjet, budujeme obranu navrženou tak, aby plnila zamýšlený úkol uživatele, i když se ji někdo aktivně snaží uvést v omyl. Tato schopnost je nezbytná pro bezpečné využití výhod AGI.
Abychom chránili naše uživatele a zlepšili naše modely proti těmto útokům, uplatňujeme vícevrstvý přístup, který zahrnuje následující:
Chceme umělou inteligenci, která rozpozná injektáž promptů a nenaletí na ni. Odolnost vůči nepřátelským útokům je však dlouhodobou výzvou pro strojové učení a umělou inteligenci, což z ní činí obtížný a otevřený problém. Vyvinuli jsme výzkum nazvaný Hierarchie instrukcí, jehož cílem je vyvíjet modely, které rozlišují mezi důvěryhodnými a nedůvěryhodnými instrukcemi. Neustále vyvíjíme nové přístupy k trénování modelů, abychom lépe rozpoznávali vzorce injektáže promptů tak, aby je modely mohly ignorovat nebo na ně uživatele upozornit. Jednou z technik, které používáme, je automatizovaný red-teaming. Je to oblast, kterou už roky zkoumáme(otevře se v novém okně), abychom vyvinuli nové injektáže promptů.
Vyvinuli jsme několik automatizovaných monitorovacích mechanismů založených na umělé inteligenci k identifikaci a blokování útoků typu injektáže promptů. Ty doplňují přístupy založené na bezpečnostním školení, protože je lze rychle aktualizovat a rychle tak zablokovat jakékoli nové útoky, které odhalíme. Tyto monitorovací mechanismy nejen pomáhají identifikovat potenciální útoky injektáží promptů proti našim uživatelům, ale umožňují nám také zachycovat nepřátelský výzkum a testování injektáže na naší platformě ještě předtím, než budou tyto útoky nasazeny v reálném prostředí.
Naše produkty a infrastrukturu jsme navrhli s různými překrývajícími se bezpečnostními opatřeními tak, abychom pomohli chránit uživatelská data. Tyto funkce, které podrobněji z technického hlediska probereme v budoucích příspěvcích, jsou přizpůsobeny zvlášť pro každý produkt. Například, abychom vám pomohli vyhnout se nedůvěryhodným webům, požádáme vás, abyste v ChatGPT přes návštěvou určité odkazy schvalovali, zejména na webech, které nás žádají, abychom je nekatalogizovali(otevře se v novém okně). Když naše AI používá nástroje ke spouštění jiných programů nebo kódu (například v Canvasu nebo v našem vývojovém nástroji Codex), používáme techniku zvanou sandboxing, abychom zabránili modelu provést škodlivé změny, které by mohly být důsledkem injektáže promptů.
Do našich produktů zahrnujeme integrované ovládací prvky, které uživatelům pomáhají v jejich ochraně. V ChatGPT Atlas lze například vybrat režim odhlášení, který umožňuje agentovi ChatGPT spouštět úkoly, aniž by byl přihlášen k webům. Agent ChatGPT se také zastaví a před provedením citlivých kroků, jako je dokončení nákupu, požádá o potvrzení. Pro případy, kdy agent pracuje na citlivých stránkách, jsme také zavedli „Režim sledování“, který tě upozorní na citlivou povahu stránky a vyžaduje aktivní kartu, abys mohl/a sledovat práci agenta. Pokud opustíš kartu s citlivými informacemi, agent se zastaví. Díky tomu máš přehled o tom, jaké akce agent provádí, a máš nad nimi kontrolu.
Provádíme rozsáhlý red-teaming s interními i externími týmy, abychom otestovali a vylepšili naši obranu, napodobili chování útočníků a našli nové způsoby, jak zlepšit naše zabezpečení. To zahrnuje tisíce hodin zaměřených konkrétně na injektáž promptů. S tím, jak objevujeme nové techniky a útoky, naše týmy proaktivně řeší bezpečnostní zranitelnosti a vylepšují naše modely zmírňování rizik.
Abychom povzbudili nezávislé bezpečnostní výzkumníky jednající s dobrými úmysly, aby nám pomohli objevovat nové techniky a injektáže promptů a útoky, nabízíme v rámci našeho programu odměn za chyby(otevře se v novém okně) finanční odměny pro ty, kdo prokáží realistickou cestu útoku, která by mohla vést k neúmyslnému odhalení uživatelských dat. Motivujeme externí přispěvatele, aby tyto problémy rychle odhalili, abychom je mohli vyřešit a dále posílit naši obranu.
Informujeme uživatele o rizicích používání určitých funkcí v produktu, aby se mohli rozhodovat na základě informací Například při propojování ChatGPT s jinými aplikacemi vysvětlujeme, ke kterým datům lze přistupovat, jak je lze použít a jaká rizika mohou vzniknout, například když se webová stránka pokusí vaše data ukrást. Zároveň poskytujeme odkaz s informacemi, jak zůstat v bezpečí. Organizacím také poskytujeme kontrolu nad tím, které funkce mohou uživatelé v jejich pracovních prostorech povolit nebo používat.
Injektáž promptů je hraniční bezpečnostní výzvou, u které očekáváme, že se bude časem dále vyvíjet. Nové úrovně inteligence a schopností vyžadují, aby se technologie, společnost a strategie zmírňování rizik vyvíjely společně. Domníváme se, že stejně jako u počítačových virů na počátku 21. století je důležité, aby každý rozuměl hrozbě injektáže promptů a věděl, jak se v tomto riziku orientovat, abychom se všichni mohli naučit bezpečně využívat výhody této technologie. Bdělost a opatrnost pomáhají chránit tvá data při používání umělé inteligence a agentních funkcí, které mohou jednat tvým jménem.
Pokud je to možné, omez přístup agenta pouze na citlivé údaje nebo přihlašovací údaje, které potřebuješ k dokončení úkolu. Pokud například použiješ režim agenta v ChatGPT Atlas k průzkumu dovolené a agent pouze provádí průzkum a nepotřebuje přihlášený přístup, použij režim „odhlášený“.
Agenty často navrhujeme tak, aby před provedením určitých důležitých akcí, jako je dokončení nákupu nebo odeslání e-mailu, získali závěrečné potvrzení. Když tě agent požádá o potvrzení akce, pečlivě zkontroluj, zda akce vypadá správně a zda jsou všechny sdílené informace v daném kontextu vhodné ke sdílení.
Když agent pracuje na citlivém webu, například na webu tvé banky, sleduj, jak agent svou práci vykonává. Je to podobné jako sledovat s rukama na volantu autonomní vozidlo.
Dát agentovi velmi obecný pokyn, například „zkontroluj mé e-maily a podnikni veškeré potřebné kroky“, může usnadnit skrytému škodlivému obsahu uvedení modelu v omyl. A to i přesto, že je navržen tak, aby si s vámi před provedením citlivých akcí ověřil informace.
Je bezpečnější požádat svého agenta, aby udělal konkrétní úkoly, a nenechávat mu přílišnou volnost, která by mohla vést k tomu, že bude postupovat podle škodlivých pokynů z jiných zdrojů, jako jsou e-maily. I když to nezaručuje, že nedojde k útokům, útočníkům to ztěžuje úspěch.
S vývojem technologie umělé inteligence se objevují nová rizika a ochranná opatření. Sleduj aktualizace od společnosti OpenAI a dalších důvěryhodných zdrojů a seznam se s osvědčenými postupy.
Injektáž promptů zůstává hraničním a náročným výzkumným problémem a stejně jako u tradičních podvodů na webu očekáváme, že naše práce bude pokračovat. I když jsme zatím nezaznamenali významné využití této techniky útočníky, očekáváme, že protivníci vynaloží značný čas a zdroje na nalezení způsobů, jak přimět umělou inteligenci, aby těmto útokům podlehla. Neustále investujeme značné prostředky do bezpečnosti našich produktů a do výzkumu tak, abychom zvýšili odolnost umělé inteligence vůči tomuto riziku. Jakmile se dozvíme více, podělíme se o aktualizace, včetně průběžného pokroku v tom, jak pracujeme na bezpečnosti v této oblasti. Připravujeme například zprávu, kterou brzy zveřejníme, a ve které se podělíme o více podrobností o tom, jak zjišťujeme, zda by komunikace AI s internetem přenášela informace z vaší konverzace.
Naším cílem je, aby tyto systémy byly stejně spolehlivé a bezpečné, jako byste spolupracovali s vaším nejdůvěryhodnějším kolegou nebo přítelem, který se vyzná v oblasti bezpečnosti. S tím, jak se technologie vyvíjí, budeme se nadále učit z reálného používání, bezpečně iterovat a zveřejňovat, co jsme se naučili.


