Przejdź do treści głównej
OpenAI

7 listopada 2025

Zabezpieczenia

Zrozumienie wstrzykiwania poleceń: pionierskie wyzwanie dla bezpieczeństwa

Narzędzia sztucznej inteligencji zaczynają robić coś więcej niż odpowiadać na pytania. Teraz mogą przeglądać Internet, pomagać w badaniach, planować podróże i pomagać w kupowaniu produktów. W miarę jak stają się coraz bardziej zaawansowane, z możliwością uzyskiwania dostępu do Twoich danych w innych aplikacjach i podejmowania działań w Twoim imieniu, pojawiają się nowe wyzwania związane z bezpieczeństwem. Jednym z nich, na którym jesteśmy mocno skoncentrowani, jest wstrzykiwanie poleceń.

Diagram ilustrujący, jak działa atak typu wstrzykiwanie poleceń. Po lewej stronie znajduje się ikona uśmiechniętego użytkownika opisana jako „Użytkownik prosi AI o pomoc w zadaniu”. Strzałka wskazuje środek ikoną ekranu komputera opisaną jako „AI widzi stronę internetową z atakiem”, a nad nią widnieje mała postać w kapeluszu i z szyderczym uśmieszkiem jest opisana jako „Atakujący wykonał wstrzykiwanie poleceń.” Kolejna strzałka prowadzi w prawo, pokazując ikonę dokumentu z trójkątem ostrzegawczym oznaczonym jako „AI oszukane w celu niezamierzonego działania”. Przepływ pokazuje, jak atakujący może manipulować AI za pomocą wstrzykniętych poleceń.

Czym jest wstrzykiwanie poleceń?

Wstrzykiwanie poleceń to rodzaj ataku z zakresu inżynierii społecznej specyficzny dla konwersacyjnej sztucznej inteligencji. Wczesne systemy AI były rozmowami między jednym użytkownikiem a jednym agentem AI. W dzisiejszych produktach AI Twoja rozmowa może zawierać treści z wielu źródeł, w tym z internetu. Pomysł, że strona trzecia (czyli nie użytkownik i nie AI) mogłaby wprowadzić model w błąd poprzez wstrzyknięcie złośliwych poleceń do kontekstu rozmowy, doprowadził do powstania terminu „wstrzykiwanie poleceń”.

Podobnie jak wiadomości e-mail typu phishing lub oszustwa w sieci próbują nakłonić ludzi do ujawnienia poufnych informacji, tak wstrzykiwanie poleceń próbuje nakłonić sztuczną inteligencję do wykonania czegoś, o co użytkownik nie prosił.

Wyobraź sobie, że prosisz AI o pomoc w zrobieniu rozeznania w Internecie na temat wakacji, a podczas tego narzędzie natrafia na wprowadzające w błąd treści lub szkodliwe instrukcje ukryte w witrynie internetowej, na przykład w komentarzu do oferty lub w recenzji. Treść może być starannie przygotowana, aby oszukać AI i skłonić narzędzie do polecenia niewłaściwej oferty, a co gorsza, do kradzieży informacji o Twojej karcie kredytowej.

To tylko kilka przykładów ataków typu „wstrzykiwanie poleceń” — szkodliwych instrukcji zaprojektowanych w celu nakłonienia AI do wykonania czegoś, czego użytkownik nie zamierzał, często ukrytych w zwykłej treści, takiej jak strona internetowa, dokument lub wiadomość e-mail.

Ryzyko to wzrasta, gdy AI uzyskuje dostęp do bardziej wrażliwych danych i przejmuje większą inicjatywę oraz dłuższe zadania.

Podsumowanie

O co użytkownik poprosił AI

Co robi atakujący

Potencjalny wynik, jeśli atak się powiedzie

Prosisz AI o zbadanie ofert mieszkań, a model zostaje poddany atakowi polegającemu na wstrzyknięciu polecenia, aby polecić ofertę, która nie jest dla Ciebie najlepszą opcją.

Prosisz AI o wyszukanie mieszkań zgodnie z podanymi kryteriami.

Atakujący umieścił w ogłoszeniu o wynajmie mieszkania atak typu wstrzykiwanie poleceń, aby oszukać AI i skłonić model do uznania, że to jego oferta musi zostać wybrana, niezależnie od preferencji użytkownika.

Jeśli atak się powiedzie, AI może błędnie zarekomendować nieoptymalną ofertę mieszkań w oparciu o preferencje użytkownika.

Prosisz agenta AI, aby odpowiedział na Twoje nocne e-maile, a on udostępnia Twoje wyciągi bankowe.

Prosisz agenta AI, aby generalnie odpowiadał na Twoje e-maile z dnia na dzień, ponieważ dziś rano nie masz czasu.

Zobacz „Gdy to możliwe, przekaż agentowi wyraźne instrukcje” poniżej


Atakujący wysłał Ci e-mail zawierający dezinformację, która wprowadza model w błąd, aby znalazł Twoje wyciągi bankowe i udostępnił je atakującemu.

Jeśli atak się powiedzie, agent może przeszukać pocztę e-mail użytkownika w poszukiwaniu czegoś, co przypomina wyciągi bankowe (do której użytkownik udzielił dostępu na potrzeby zadania), i udostępnić je atakującemu.

Nasze podejście do ochrony użytkowników

Obrona przed wstrzykiwaniem poleceń jest wyzwaniem w całej branży sztucznej inteligencji i głównym celem OpenAI. Chociaż spodziewamy się, że atakujący będą nadal opracowywać takie ataki, tworzymy zabezpieczenia tak zaprojektowane, aby realizować zamierzone przez użytkownika zadanie nawet wtedy, gdy ktoś aktywnie próbuje wprowadzić go w błąd. Ta zdolność jest niezbędna do bezpiecznego zrealizowania korzyści płynących z AGI.

Aby chronić naszych użytkowników i zwiększyć odporność naszych modeli na te ataki, stosujemy podejście wielowarstwowe, obejmujące następujące elementy:

Szkolenie z bezpieczeństwa

Chcemy sztucznej inteligencji, która rozpoznaje wstrzykiwanie poleceń i nie daje się na nie nabrać. Jednak odporność na ataki przeciwników jest od dawna wyzwaniem dla uczenia maszynowego i sztucznej inteligencji, co sprawia, że jest to trudny, otwarty problem. Opracowaliśmy badanie o nazwie Hierarchia instrukcji, aby pracować nad modelami rozróżniającymi instrukcje zaufane i niezaufane. Nadal opracowujemy nowe podejścia do trenowania modeli, aby lepiej rozpoznawały wzorce wstrzykiwania poleceń, dzięki czemu mogą je ignorować lub oznaczać je użytkownikom. Jedną z technik, które stosujemy, jest zautomatyzowany kontrolowany atak, obszar, który od lat badamy(otwiera nowe okno), aby opracowywać nowe ataki typu wstrzykiwanie poleceń.

Monitorowanie

Opracowaliśmy wiele zautomatyzowanych monitorów opartych na sztucznej inteligencji, aby identyfikować i blokować ataki wstrzykiwania poleceń. Uzupełniają one podejścia do szkolenia z zakresu bezpieczeństwa, ponieważ można je szybko aktualizować, aby szybko blokować wszelkie nowe ataki, które wykryjemy. Te monitory nie tylko pomagają identyfikować potencjalne ataki typu wstrzykiwanie poleceń przeciwko naszym użytkownikom, ale mogą również pozwolić nam wychwycić badania i testy przeciwników wykorzystujące naszą platformę, zanim ataki te zostaną wdrożone na wolności.

Ochrona bezpieczeństwa

Zaprojektowaliśmy nasze produkty i infrastrukturę z wykorzystaniem różnych, nakładających się zabezpieczeń, aby chronić dane użytkowników. Te funkcje, które omówimy bardziej szczegółowo od strony technicznej w przyszłych wpisach, są dostosowywane dla każdego produktu z osobna. Na przykład, aby pomóc Ci unikać niezaufanych witryn, poprosimy Cię o zatwierdzenie niektórych linków w ChatGPT, zwłaszcza na witrynach, które proszą nas o niekatalogowanie ich(otwiera nowe okno), zanim będzie można je odwiedzić. Kiedy nasza sztuczna inteligencja używa narzędzi do uruchamiania innych programów lub kodu (jak w obszarze roboczym lub naszym narzędziu programistycznym Codex), stosujemy technikę zwaną piaskownicą, aby zapobiec wprowadzaniu przez model szkodliwych zmian, które mogłyby być wynikiem wstrzykiwania poleceń.

Kontrola w rękach użytkowników

Nasze produkty zawierają wbudowane mechanizmy kontroli, które pomagają użytkownikom chronić się przed zagrożeniami. Na przykład w ChatGPT Atlas można wybrać tryb wylogowania, który umożliwia agentowi ChatGPT uruchamianie zadań bez logowania do witryn. Agent ChatGPT również wstrzymuje się i prosi użytkownika o potwierdzenie przed podjęciem wrażliwych działań, takich jak sfinalizowanie zakupu. Ponieważ agent działa na wrażliwych stronach, wdrożyliśmy również „Tryb obserwatora”, który ostrzega o wrażliwym charakterze witryny i wymaga, aby karta była aktywna, aby obserwować, jak agent wykonuje swoją pracę. Agent wstrzyma działanie, jeśli przejdziesz do innej karty niż ta z wrażliwymi informacjami. Dzięki temu będziesz mieć świadomość i kontrolę nad działaniami wykonywanymi przez agenta.

Czerwone zespoły

Prowadzimy szeroko zakrojone kontrolowane ataki z wewnętrznymi i zewnętrznymi zespołami w celu testowania i ulepszania naszych zabezpieczeń, naśladowania zachowań atakujących i znajdowania nowych sposobów na poprawę naszych zabezpieczeń. Obejmuje to tysiące godzin poświęconych szczególnie wstrzykiwaniu poleceń. W miarę odkrywania nowych technik i ataków nasze zespoły proaktywnie zajmują się lukami w zabezpieczeniach i ulepszają mechanizmy ograniczające ryzyko w naszym modelu.

Bug Bounty

Aby zachęcić niezależnych badaczy bezpieczeństwa działających w dobrej wierze do pomocy w odkrywaniu nowych technik i ataków typu wstrzykiwanie poleceń, oferujemy nagrody finansowe w ramach programu Bug Bounty(otwiera nowe okno), gdy przedstawią realistyczną ścieżkę ataku, która mogłaby doprowadzić do niezamierzonego ujawnienia danych użytkowników. Zachęcamy zewnętrznych współpracowników do szybkiego zgłaszania tych problemów, abyśmy mogli je rozwiązać i jeszcze bardziej wzmocnić nasze zabezpieczenia.

Niech decydują użytkownicy

Informujemy użytkowników o ryzyku związanym z korzystaniem z niektórych funkcji produktu, tak aby mogli oni podejmować świadome decyzje. Na przykład podczas łączenia ChatGPT z innymi aplikacjami wyjaśniamy, jakie dane mogą być dostępne, jak mogą być wykorzystywane oraz jakie ryzyka mogą się pojawić, na przykład gdy strona będzie próbowała ukraść Twoje dane, wraz z linkiem, który pozwala dowiedzieć się, jak zachować większe bezpieczeństwo. Dajemy też organizacjom kontrolę nad tym, które funkcje mogą być włączone lub używane przez użytkowników w ich przestrzeniach roboczych.

Kroki, które możesz podjąć, aby zachować bezpieczeństwo

Wstrzykiwanie poleceń to pionierskie wyzwanie w obszarze bezpieczeństwa, które, jak przewidujemy, będzie się rozwijać z biegiem czasu. Nowe poziomy inteligencji i możliwości wymagają, aby technologia, społeczeństwo oraz strategia działań zaradczych w zakresie ryzyka wspólnie się rozwijały. Podobnie jak w przypadku wirusów komputerowych na początku XXI wieku, uważamy, że ważne jest, aby wszyscy rozumieli zagrożenie związane z wstrzykiwaniem poleceń i wiedzieli, jak poruszać się wśród ryzyk, tak abyśmy wszyscy mogli nauczyć się bezpiecznie korzystać z tej technologii. Zachowanie świadomości i ostrożności pomaga lepiej chronić Twoje dane podczas korzystania z AI oraz funkcji agentowych, które mogą działać w Twoim imieniu.

Wykorzystaj wbudowane funkcje, aby ograniczyć dostęp do danych wrażliwych

Tam, gdzie to możliwe, ogranicz dostęp agenta tylko do tych wrażliwych danych lub poświadczeń, które są niezbędne do wykonania zadania. Przykład: gdy używasz trybu agenta w ChatGPT Atlas do wyszukiwania informacji o wakacjach, jeśli agent wykonuje tylko wyszukiwanie i nie potrzebuje dostępu po zalogowaniu, użyj trybu „wylogowany”.

Kiedy agent prosi o potwierdzenie, dokładnie sprawdź, czy zamierza wykonać właściwą czynność

Często projektujemy agentów tak, aby przed podjęciem niektórych działań o istotnych konsekwencjach, takich jak sfinalizowanie zakupu lub wysłanie wiadomości e-mail, uzyskali od użytkownika ostateczne potwierdzenie. Gdy agent poprosi użytkownika o potwierdzenie działania, należy poświęcić chwilę na sprawdzenie, czy działanie jest prawidłowe, a udostępniane informacje są odpowiednie w danym kontekście.

Gdy agent działa na wrażliwej stronie, takiej jak Twój bank, obserwuj, jak agent wykonuje swoją pracę. Przypomina to monitorowanie samojezdnego samochodu poprzez trzymanie rąk na kierownicy.

Jeśli to możliwe, należy przekazać agentowi wyraźne instrukcje

Przekazanie agentowi bardzo szerokiej instrukcji, takiej jak „przejrzyj moje e-maile i podejmij wszelkie potrzebne działania” może ułatwić ukrytym złośliwym treściom wprowadzenie modelu w błąd, mimo że został on zaprojektowany do sprawdzania użytkownika przed podjęciem wrażliwych działań.

Bezpieczniej jest poprosić agenta o wykonanie określonych czynności i nie dawać mu szerokiej swobody w wykonywaniu potencjalnie szkodliwych instrukcji z innych źródeł, takich jak wiadomości e-mail. Chociaż nie gwarantuje to, że nie dojdzie do ataków, utrudnia to atakującym odniesienie sukcesu.

Bądź na bieżąco i przestrzegaj najlepszych praktyk w zakresie bezpieczeństwa

Wraz z rozwojem technologii AI pojawią się nowe zagrożenia i zabezpieczenia. Śledź aktualizacje OpenAI i innych zaufanych źródeł, aby poznać najlepsze praktyki.

Przyszłość

Wstrzykiwanie poleceń pozostaje pionierskim, wymagającym problemem badawczym i podobnie jak w przypadku tradycyjnych oszustw w sieci, spodziewamy się, że nasza praca będzie kontynuowana. Chociaż nie zaobserwowaliśmy jeszcze znaczącego wykorzystania tej techniki przez atakujących, spodziewamy się, że przeciwnicy poświęcą dużo czasu i zasobów, aby znaleźć sposoby, aby sztuczna inteligencja padła ofiarą tych ataków. Wciąż intensywnie inwestujemy w bezpieczeństwo naszych produktów i badania mające na celu zwiększenie odporności sztucznej inteligencji na to ryzyko. Będziemy przekazywać kolejne aktualizacje, gdy dowiemy się więcej, w tym na temat bieżących postępów w naszych działaniach na rzecz bezpieczeństwa w tym obszarze. Na przykład, tworzymy raport, który wkrótce opublikujemy, zawierający więcej informacji na temat tego, jak wykrywamy, czy komunikacja Twojej sztucznej inteligencji z Internetem może przekazywać informacje z rozmowy.

Naszym celem jest, aby te systemy były tak niezawodne i bezpieczne, jak praca z najbardziej zaufanym i świadomym bezpieczeństwa współpracownikiem lub przyjacielem. Będziemy nadal uczyć się na podstawie rzeczywistych zastosowań, bezpiecznie iterować i publikować to, czego się uczymy, w miarę postępu technologii.