Ugrás a fő tartalomra
OpenAI

2025. november 7.

Kiberbiztonság

Az utasítás injekciók megértése: egy élvonalbeli biztonsági kihívás

Az AI-eszközök kezdenek többet tenni, mint hogy kérdésekre válaszoljanak. Most már böngészhetnek az interneten, segíthetnek a kutatásban, utazásokat tervezhetnek, és segíthetnek termékeket vásárolni. Ahogy egyre nagyobb képességekre tesznek szert, és képesek hozzáférni az adataidhoz más alkalmazásokban, valamint a nevedben műveleteket végrehajtani, új biztonsági kihívások merülnek fel. Az egyik, amire erősen összpontosítunk, az az utasítás injekció.

Egy diagram, amely bemutatja, hogyan működik az utasítás injekciós támadás. Bal oldalon egy mosolygó felhasználót ábrázoló ikon látható, amelyen a „Felhasználó segítséget kér az AI-tól egy feladathoz.” felirat szerepel. Egy nyíl a középpont felé mutat, ahol egy számítógép-képernyő ikonja „Az AI egy weboldalt lát a támadással” felirattal van ellátva, és felette egy kis, kalapos és kajánul mosolygó figura „A támadó utasítás injekciót szúrt be” felirattal van ellátva. Egy másik nyíl jobbra mutat, és egy dokumentumikont ábrázol egy figyelmeztető háromszöggel, amelyen a „Mesterséges intelligenciát nem szándékolt cselekvésre vették rá” felirat szerepel. A folyamat bemutatja, hogyan képes egy támadó bejuttatott utasításokkal manipulálni a mesterséges intelligenciát.

Mi az az utasítás injekció?

Az utasítás injekció egy olyan szociális manipulációs támadás, amely kifejezetten a társalgási MI-re jellemző. A korai AI-rendszerek egyetlen felhasználó és egyetlen AI-ügynök közötti beszélgetésekből álltak. A mai AI-termékekben a beszélgetések sok forrásból származó tartalmat tartalmazhatnak, beleértve az internetet. Az az elképzelés, hogy egy harmadik fél (aki nem a felhasználó és nem az AI) rosszindulatú utasítások beszélgetési kontextusba történő bejuttatásával félrevezetheti a modellt, vezetett az „utasítás injekció” kifejezéshez.

Ugyanúgy, ahogy az adathalász e-mailek vagy az internetes csalások megpróbálják rávenni az embereket, hogy kiadják az érzékeny információkat, az utasítás injekció is megpróbálja rávenni a mesterséges intelligenciákat, hogy olyasmit tegyenek, amit nem kértek.

Képzeld el, hogy megkértél egy mesterséges intelligenciát, hogy segítsen neked online utánanézni a nyaralásnak, és miközben ezt teszi, félrevezető tartalommal vagy egy weboldalon elrejtett káros utasításokkal találkozik, például egy hirdetéshez fűzött megjegyzésben vagy egy értékelésben. A tartalmat gondosan megfogalmazhatják annak érdekében, hogy megtévesszenek egy AI-t, és rávegyék, hogy a helytelen hirdetést ajánlja, vagy ami még rosszabb, hogy ellopják a hitelkártyaadataidat.

Ezek csak néhány példa az „utasítás injekció” támadásokra—olyan káros utasításokra, amelyek célja, hogy rászedjenek egy AI-t arra, hogy olyasmit tegyen, amit nem szándékoztál, és amelyek gyakran hétköznapi tartalmakba vannak elrejtve, például weboldalakba, dokumentumokba vagy e-mailekbe.

Ezek a kockázatok növekednek, ahogy a mesterséges intelligenciák egyre érzékenyebb adatokhoz férnek hozzá, egyre több kezdeményezést vállalnak, és hosszabb feladatokat látnak el.

Összegzés

Amit az AI-tól kértél, hogy tegyen

Mit csinál a támadó

A támadás sikeres végrehajtása esetén várható eredmény

Megkérsz egy mesterséges intelligenciát, hogy kutasson fel lakásokat, és utasítás-injekciót kap, hogy egy olyan hirdetést ajánljon, amely nem a legjobb választás számodra.

Megkérsz egy mesterséges intelligenciát, hogy a megadott kritériumok alapján keressen lakásokat.

A támadó utasítás injekciós támadást helyezett el a lakáshirdetésben, hogy rászedje az AI-t, és elhitesse vele, hogy a hirdetését a felhasználó által megadott preferenciáktól függetlenül kell kiválasztani.

Ha a támadás sikeres, az AI tévesen ajánlhat egy nem optimális lakáshirdetést a preferenciáid alapján.

Megkérsz egy AI ügynököt, hogy válaszoljon az éjszaka érkezett e-mailjeidre, de végül megosztja a bankszámlakivonataidat.

Megkéred az AI-ügynököt, hogy általánosságban válaszoljon az éjszaka érkezett e-mailjeidre, mert ma reggel elfoglalt vagy.

Lásd alább: „Amikor csak lehet, adjon az ügynöknek egyértelmű utasításokat”


A támadó küldött neked egy e-mailt, amely félretájékoztatást tartalmaz, és ezzel becsapja a modellt, hogy megkeresse a bankszámlakivonataidat, és megossza azokat a támadóval.

Ha a támadás sikerrel jár, az ügynök megpróbálhat az e-mailjeidben (amelyekhez a feladat elvégzéséhez hozzáférést adtál) bankszámlakivonatokhoz hasonló adatokat keresni, és megosztja azokat a támadóval.

A felhasználók védelmére irányuló megközelítésünk

Az utasítás injekció elleni védekezés kihívást jelent az AI-iparág egészében, és az OpenAI egyik központi fókuszterülete. Bár arra számítunk, hogy a támadók továbbra is fejlesztenek ilyen támadásokat, olyan védelmi megoldásokat építünk, amelyek lehetővé teszik a felhasználó szándékolt feladatának végrehajtását még akkor is, ha valaki aktívan próbálja félrevezetni őket. Ez a képesség elengedhetetlen az AGI előnyeinek biztonságos kihasználásához.

Felhasználóink védelme és modelljeink ilyen támadásokkal szembeni fejlesztése érdekében többrétegű megközelítést alkalmazunk, amely az alábbiakat tartalmazza:

Biztonsági oktatás

Olyan AI-t szeretnénk, amely felismeri az utasítás injekciókat, és nem dől be nekik. Azonban a támadásokkal szembeni robusztusság régóta fennálló kihívás a gépi tanulás és a mesterséges intelligencia számára, ami egy nehéz, nyitott problémát jelent. Kifejlesztettünk egy Utasításhierarchia nevű kutatást annak érdekében, hogy olyan modelleket hozzunk létre, amelyek képesek megkülönböztetni a megbízható és a nem megbízható utasításokat. Továbbra is új megközelítéseket fejlesztünk a modellek betanítására, hogy jobban felismerjék az utasítás injekció mintázatait, így figyelmen kívül hagyhatják azokat, vagy jelezhetik a felhasználóknak. Az általunk alkalmazott technikák egyike az automatizált piros csapatos tesztelés, egy olyan terület, amelyet évek óta tanulmányozunk(új ablakban nyílik meg), hogy új utasítás injekció támadásokat fejlesszünk ki.

Felügyelet

Több automatizált, AI-alapú monitor fejlesztettünk ki az utasítás injekciós támadások azonosítására és blokkolására.- Ezek kiegészítik a biztonsági képzési módszereket, mivel gyorsan frissíthetők, hogy az általunk felfedezett új támadásokat gyorsan blokkolják. Ezek a monitorok nemcsak segítenek azonosítani a felhasználóink elleni potenciális utasítás injekció támadásokat, hanem lehetővé teszik számunkra, hogy még azelőtt észleljük a platformunkat használó, ellenséges utasítás injekció kutatást és tesztelést, mielőtt ezeket a támadásokat a valós környezetben bevetnék.

Biztonsági védelmek

Termékeinket és infrastruktúránkat különféle, egymást átfedő biztonsági intézkedésekkel terveztük meg, hogy megóvjuk a felhasználói adatokat. Ezek a funkciók, amelyeket a jövőbeli bejegyzésekben részletesebben technikai szempontból is megvizsgálunk, termékenként kerülnek testreszabásra. Például, hogy elkerüld a nem megbízható webhelyeket, megkérünk, hogy hagyj jóvá bizonyos hivatkozásokat a ChatGPT‑ben, különösen azokon a webhelyeken, amelyek azt kérik, hogy ne katalogizáljuk őket(új ablakban nyílik meg), mielőtt meglátogathatók lennének. Amikor a mesterséges intelligenciánk eszközöket használ más programok vagy kód futtatására (mint a Canvasban vagy a Codex nevű fejlesztőeszközünkben), egy sandboxing nevű technikát alkalmazunk, hogy megakadályozzuk, hogy a modell káros változtatásokat hajtson végre, amelyek egy utasítás injekció eredményei lehetnek.

Felhasználói vezérlés megadása

Beépített vezérlőket tartalmaznak a termékeink, hogy segítsenek a felhasználóknak megvédeni magukat. Például a ChatGPT Atlasban kiválaszthatod a kijelentkezett módot, amely lehetővé teszi, hogy a ChatGPT ügynök bejelentkezés nélkül indítson el feladatokat a webhelyeken. A ChatGPT ügynök szünetet tart, és megerősítést kér, mielőtt érzékeny lépéseket tenne, például egy vásárlás befejezése előtt. Amikor az ügynök érzékeny webhelyeken működik, bevezettünk egy „Watch Mode” funkciót, amely figyelmeztet a webhely érzékeny jellegére, és megköveteli, hogy a lap aktív legyen, hogy figyelemmel kísérhesd az ügynök munkáját. Az ügynök szünetel, ha elnavigálsz az érzékeny információkat tartalmazó fülről. Ez biztosítja, hogy tisztában legyél azzal, és irányítás alatt tartsd, hogy az ügynök milyen műveleteket hajt végre.

Piros csapatos tesztelés

Kiterjedt piros csapatos tesztelést végzünk belső és külső csapatokkal, hogy teszteljük és javítsuk védelmi rendszereinket, szimuláljuk a támadók viselkedését, és új módszereket találjunk biztonságunk fejlesztésére. Ez több ezer órát foglal magában, amelyek kifejezetten az utasítás injekcióra összpontosítanak. Ahogy új technikákat és támadásokat fedezünk fel, csapataink proaktívan kezelik a biztonsági sebezhetőségeket, és javítják a modell enyhítő intézkedéseit.

Hibavadász program

Annak érdekében, hogy ösztönözzük a jóhiszemű, független biztonsági kutatókat az új utasítás injekciós technikák és támadások felfedezésére, pénzügyi jutalmat kínálunk a bug bounty programunk(új ablakban nyílik meg) keretében, amikor egy olyan reális támadási útvonalat mutatnak be, amely nem szándékolt felhasználói adat-kitettséghez vezethet. Ösztönözzük a külső közreműködőket, hogy gyorsan hozzák felszínre ezeket a problémákat, hogy megoldhassuk őket, és tovább erősíthessük a védelmünket.

Engedjük a felhasználóknak, hogy döntsenek

Tájékoztatjuk a felhasználókat a termék bizonyos funkcióinak használatával járó kockázatokról, hogy tájékozott döntéseket hozhassanak. Például, amikor a ChatGPT‑t más alkalmazásokhoz csatlakoztatják, elmagyarázzuk, hogy milyen adatokhoz lehet hozzáférni, hogyan lehet azokat felhasználni, és milyen kockázatok merülhetnek fel, például ha egy webhely megpróbálja ellopni az adataidat, valamint adunk egy hivatkozást, ahol megtudhatod, hogyan maradhatsz nagyobb biztonságban. A szervezetek számára lehetővé tesszük, hogy ellenőrizzék, mely funkciók engedélyezhetők vagy használhatók a felhasználók munkaterületein.

Lépések, amelyeket megtehet a nagyobb biztonság érdekében

Az utasítás injekció egy élvonalbeli biztonsági kihívás, amely várhatóan idővel tovább fog fejlődni. Az intelligencia és képességek új szintjei megkövetelik, hogy a technológia, a társadalom és a kockázatkezelési stratégia együtt fejlődjön. Ahogy a 2000-es évek elején a számítógépes vírusokkal kapcsolatban, úgy gondoljuk, fontos, hogy mindenki megértse az utasítás injekciók jelentette fenyegetést és azt, hogyan kezelje a kockázatot, hogy mindannyian biztonságosan tanulhassunk meg profitálni ebből a technológiából. Az éberség és az óvatosság segít megőrizni adataid biztonságát, amikor mesterséges intelligenciát és olyan ügynöki funkciókat használsz, amelyek a nevedben eljárhatnak.

Használd a beépített funkciókat az érzékeny adatokhoz való hozzáférés korlátozására

Lehetőség szerint korlátozd az ügynök hozzáférését csak azokra az érzékeny adatokra vagy hitelesítő adatokra, amelyek szükségesek a feladat elvégzéséhez. Például, ha a ChatGPT Atlasban az ügynök módot használod nyaraláskutatáshoz, és az ügynök csak kutatást végez, nincs szüksége bejelentkezett hozzáférésre, használd a „kijelentkezett” módot.

Amikor egy ügynök megerősítést kér, alaposan ellenőrizd, hogy a helyes lépést készül végrehajtani

Gyakran úgy tervezzük az ügynököket, hogy bizonyos jelentősebb következményekkel járó műveletek – például vásárlás befejezése vagy e-mail küldése – előtt végső megerősítést kérjenek. Amikor egy ügynök arra kér, hogy erősíts meg egy műveletet, alaposan ellenőrizd, hogy a művelet helyesnek tűnik-e, és hogy az adott kontextusban megosztott információk megosztása megfelelő-e.

Amikor egy ügynök egy érzékeny webhelyen dolgozik, például a bankodban, figyeld meg, ahogy az ügynök végzi a munkáját. Ez olyan, mintha egy önvezető autót úgy felügyelnél, hogy közben a kezed a kormányon tartod.

Amikor lehetséges, adj egyértelmű utasításokat az ügynöknek

Ha egy ügynöknek nagyon általános utasítást adsz, mint például "nézd át az e-mailjeimet, és tedd meg a szükséges lépéseket", az megkönnyítheti, hogy a rejtett rosszindulatú tartalom félrevezesse a modellt, még akkor is, ha úgy van tervezve, hogy érzékeny műveletek előtt egyeztessen veled.

Biztonságosabb, ha konkrét feladatokkal bízod meg az ügynököt, és nem adsz neki túl nagy szabadságot, hogy máshonnan, például e-mailekből származó, potenciálisan káros utasításokat kövessen. Bár ez nem garantálja, hogy nem lesznek támadások, megnehezíti a támadók számára a sikeres végrehajtást.

Maradj tájékozott, és kövesd a legjobb biztonsági gyakorlatokat

Ahogy az AI-technológia fejlődik, új kockázatok és védelmi intézkedések jelennek meg. Kövesd az OpenAI és más megbízható források frissítéseit, hogy megismerd a legjobb gyakorlatokat.

Előretekintés

Az utasítás injekció továbbra is egy élvonalbeli, kihívást jelentő kutatási probléma, és a weben megszokott hagyományos csalásokhoz hasonlóan arra számítunk, hogy a munkánk folyamatos lesz. Bár a támadók részéről még nem tapasztaltuk ennek a technikának a jelentős elterjedését, várható, hogy az ellenfelek jelentős időt és erőforrásokat fognak fordítani arra, hogy megtalálják a módját annak, hogyan tudják rávenni a mesterséges intelligenciákat, hogy bedőljenek ezeknek a támadásoknak. Továbbra is jelentős összegeket fektetünk termékeink biztonságossá tételébe és a kutatásba, hogy növeljük a mesterséges intelligencia robusztusságát ezen kockázatokkal szemben. Frissítéseket fogunk megosztani, amint többet megtudunk, beleértve a biztonsági munkánk folyamatos előrehaladását ezen a területen. Például készítünk egy jelentést, amelyet hamarosan közzéteszünk, és amely részletesebben bemutatja, hogyan észleljük, ha az AI internetes kommunikációja információt továbbítana a beszélgetésből.

Célunk, hogy ezeket a rendszereket olyan megbízhatóvá és biztonságossá tegyük, mint a legmegbízhatóbb és legbiztonság-tudatosabb kolléga vagy barát. Továbbra is tanulunk a valós használatból, biztonságosan iterálunk, és közzétesszük, amit tanulunk, ahogy a technológia fejlődik.