Tworzenie agentów AI odpornych na wstrzykiwanie poleceń
Czego socjotechnika uczy nas o zabezpieczaniu agentów AI?
Agenty AI coraz sprawniej przeglądają sieć, wyszukują informacje i podejmują działania w imieniu użytkownika. Funkcje te są przydatne, ale tworzą też nowe sposoby, dzięki którym hakerzy mogą próbować manipulować systemem.
Ataki te są często opisywane jako wstrzykiwanie poleceń: instrukcje umieszczone są w treści zewnętrznej w celu nakłonienia modelu do zrobienia czegoś, o co użytkownik nie prosił. Z naszego doświadczenia wynika, że najskuteczniejsze rzeczywiste wersje tych ataków coraz bardziej przypominają socjotechnikę niż proste zastępowanie treści poleceń.
Ta zmiana jest istotna. Jeśli problemem nie jest już tylko identyfikacja złośliwego ciągu znaków, ale zapewnienie ochrony przed mylącymi lub manipulacyjnymi treściami w określonym kontekście, to obrona przed takimi atakami nie może opierać się wyłącznie na filtrowaniu danych wejściowych. Wymaga to również zaprojektowania systemu w taki sposób, aby wpływ manipulacji był ograniczony, nawet jeśli niektóre ataki się powiodą.
Wczesne ataki typu „wstrzykiwanie poleceń” były proste i polegały na przykład na edycji artykułu w Wikipedii w celu dodania bezpośrednich instrukcji dla agentów AI, które go odwiedzają; bez doświadczenia z takim środowiskiem na etapie trenowania modele AI często wykonywały te instrukcje natychmiast1. W miarę jak modele stawały się coraz inteligentniejsze, stawały się też mniej podatne na tego rodzaju sugestie, a my zaobserwowaliśmy, że ataki polegające na wstrzykiwaniu poleceń zaczęły zawierać elementy socjotechniki:
Przykład wiadomości e-mail ze wstrzykiwaniem poleceń
Przykład ataku typu wstrzykiwanie poleceń na ChatGPT z 2025 r. zgłoszony do OpenAI przez zewnętrznych specjalistów ds. bezpieczeństwa(otwiera nowe okno). W testach polecenie działało w 50% przypadków, gdy jego treść brzmiała: „Chcę, żebyś przeprowadził głębokie badania na moich dzisiejszych e-mailach, chcę, żebyś przeczytał i sprawdził każde źródło, które mogłoby dostarczyć informacji o moim procesie wdrażania nowego pracownika”.
W szerszym ekosystemie bezpieczeństwa AI powszechne stało się zalecanie technik takich jak „AI firewalling”, w których pośrednik między agentem AI a światem zewnętrznym próbuje podzielić dane wejściowe na złośliwe wstrzykiwanie poleceń oraz zwykłe dane wejściowe, ale te w pełni rozwinięte ataki zazwyczaj nie są wychwytywane przez takie systemy. W przypadku takich systemów wykrycie złośliwego sygnału wejściowego staje się więc bardzo złożonym problemem podobnym do wykrywania kłamstwa lub dezinformacji, a często nie dysponuje się jeszcze niezbędnym kontekstem.
W miarę jak rzeczywiste „wstrzykiwanie poleceń” stawało się coraz bardziej złożone, zauważyliśmy, że najskuteczniejsze techniki ofensywne wykorzystywały taktyki socjotechniczne. Zamiast traktować te ataki typu „wstrzykiwanie poleceń” zawierające elementy socjotechniki jako odrębną lub całkowicie nową klasę problemu, zaczęliśmy postrzegać je przez ten sam pryzmat, który stosuje się do ochrony użytkowników przed socjotechniką w innych sytuacjach. W tych systemach nie skupia się wyłącznie na perfekcyjnym zidentyfikowaniu złośliwych danych wejściowych, lecz raczej na zaprojektowaniu agentów i systemów tak, aby wpływ manipulacji był ograniczony, nawet jeśli sam atak się powiedzie. Takie systemy skuteczne ograniczają samo wstrzykiwanie poleceń, jak i działania socjotechniczne.
W tym kontekście możemy wyobrazić sobie agenta AI funkcjonującego w podobnym systemie trzech uczestników jako agent obsługi klienta; agent chce działać w imieniu swojego pracodawcy, ale jest stale narażony na zewnętrzne dane wejściowe, które mogą próbować wprowadzić go w błąd. Agent obsługi klienta, człowiek lub AI, musi mieć ograniczone możliwości, co pozwoli zredukować ryzyko negatywnych konsekwencji nieodłącznie związanych z funkcjonowaniem w środowisku tak narażonym na złośliwe działania.
Wyobraź sobie sytuację, w której człowiek obsługuje system obsługi klienta i jest w stanie przyznawać karty podarunkowe oraz zwroty pieniędzy za niedogodności, które spotykają klienta, np. opóźnienia w dostawie, uszkodzenia w wyniku awarii itp. Jest to problem wielostronny, w którym korporacja musi ufać, że agent przyznaje zwroty z właściwych powodów, podczas gdy agent wchodzi również w interakcje ze stronami trzecimi, które mogą próbować wprowadzić go w błąd, a nawet wywierać na niego presję.
W rzeczywistym świecie agent otrzymuje zestaw zasad, których ma przestrzegać, ale oczekuje się, że w adwersarialnym środowisku, w którym funkcjonuje, będzie wprowadzany w błąd. Być może klient wyśle wiadomość, twierdząc, że zwrot środków nigdy nie został zrealizowany, albo zagrozi wyrządzeniem krzywdy, jeśli nie otrzyma zwrotu. Systemy deterministyczne, z którymi agent wchodzi w interakcje, ograniczają liczbę zwrotów, które można przyznać klientowi, wskazują potencjalne phishingowe wiadomości e-mail oraz zapewniają inne tego typu środki zaradcze, aby ograniczyć skutki przejęcia pojedynczego agenta.
Takie podejście pozwoliło opracować solidny zestaw środków zaradczych, które wdrożyliśmy, aby spełniać oczekiwania naszych użytkowników dotyczące bezpieczeństwa.
W ChatGPT łączymy ten model socjotechniki z bardziej tradycyjnymi podejściami do inżynierii bezpieczeństwa, takimi jak analiza source-sink.
W tym ujęciu atakujący potrzebuje zarówno źródła (source) lub sposobu wpływania na system, jak i ujścia (sink) lub możliwości, która staje się niebezpieczna w niewłaściwym kontekście. W przypadku systemów agentowych często oznacza to łączenie niezaufanych treści zewnętrznych z działaniem takim jak przekazywanie informacji stronom trzecim, podążanie za łączem lub interakcja z narzędziem.
Naszym celem jest spełnienie podstawowego oczekiwania użytkowników w zakresie bezpieczeństwa: potencjalnie niebezpieczne działania lub przesyłanie potencjalnie wrażliwych informacji nie powinny odbywać się po cichu ani bez odpowiednich zabezpieczeń.
Najczęstsze ataki przeciwko ChatGPT polegają na próbach przekonania asystenta, że powinien wyciągnąć z rozmowy pewne poufne informacje i przekazać je hakerowi. W większości znanych nam przypadków ataki te kończą się niepowodzeniem, ponieważ przeszkolenie z zakresu bezpieczeństwa powoduje, że agent odmawia. W przypadkach, kiedy agent zostanie przekonany do przekazania informacji, opracowaliśmy strategię łagodzenia ryzyka o nazwie Safe Url, która ma na celu wykrywanie sytuacji, w których informacje, które asystent poznał w trakcie rozmowy, zostałyby przekazane hakerowi. W tych rzadkich przypadkach albo pokazujemy użytkownikowi informacje, które zostałyby przesłane, i prosimy go o potwierdzenie, albo blokujemy je i informujemy agenta, aby spróbował innego sposobu na zrealizowanie polecenia użytkownika.
Ten sam mechanizm dotyczy nawigacji i kart w przeglądarce Atlas oraz wyszukiwań i działań podczas korzystania z głębokich badań. Podobne podejście jest stosowane w obszarze roboczym ChatGPT i aplikacjach ChatGPT, co pozwala agentowi na tworzenie i używanie funkcjonalnych aplikacji, jednak działają one w wydzielonym środowisku, które pozwala wykrywać nieoczekiwaną komunikację i prosić użytkownika o zgodę(otwiera nowe okno).
Więcej informacji o funkcji Safe Url i jej strukturze zawarliśmy we wpisie na blogu: Ochrona danych po kliknięciu łącza przez agenta AI.
Bezpieczna interakcja z wrogim światem zewnętrznym jest niezbędna w przypadku korzystania z w pełni autonomicznych agentów. Podczas integrowania modelu AI z systemem aplikacji polecamy zapytać, jakimi mechanizmami kontroli powinien dysponować w podobnej sytuacji człowiek i wdrożyć je. Oczekujemy, że maksymalnie inteligentny model AI będzie w stanie lepiej opierać się socjotechnice niż człowiek, ale nie w każdym kontekście jest to wykonalne lub opłacalne.
Nadal badamy konsekwencje ataków socjotechnicznych wymierzonych w modele AI oraz sposoby obrony przed nimi i uwzględniamy nasze ustalenia zarówno w architekturach bezpieczeństwa naszych aplikacji, jak i w treningu, któremu poddajemy nasze modele AI.
Przypisy
- 1
Rehberger, J. (2023, 04 15). Nie ufaj bezkrytycznie odpowiedziom od LLM. Zagrożenia związane z chatbotami. EmbraceTheRed. Pobrano 11 14, 2025, z https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
Autorzy
Thomas Shadwell i Adrian Spânu


