A ChatGPT Atlas védelmét folyamatosan erősítjük a prompt injection támadásokkal szemben
A megerősítő tanulásra épülő automatizált red teaming segít abban, hogy proaktívan feltárjuk és kijavítsuk a valós környezetben megjelenő, ügynököket célzó támadási lehetőségeket, még mielőtt azokat ténylegesen fegyverként használnák.
A ChatGPT Atlas ügynök módja az egyik legáltalánosabb célú ügynökfunkció, amelyet eddig kiadtunk. Ebben a módban a böngészőügynök weboldalakat tekint meg, műveleteket hajt végre, kattintásokat és billentyűleütéseket végez a böngészőben – ugyanúgy, ahogyan Ön tenné. Ez lehetővé teszi, hogy a ChatGPT számos mindennapi munkafolyamatban közvetlenül segítse Önt, ugyanazon a felületen, azonos kontextus és adatok mellett.
Miközben a böngészőügynök segít hatékonyabban elvégezni a feladatokat, egyúttal nagyobb értékű célponttá is válik a támadók számára. Ezért is különösen fontos az MI biztonság. Már jóval a ChatGPT Atlas elindítása előtt folyamatosan építettük és erősítettük azokat a védelmi mechanizmusokat, amelyek a kifejezetten az új „böngészőben futó ügynök” paradigmát célzó, feltörekvő fenyegetések ellen nyújtanak védelmet. A prompt injection az egyik legjelentősebb kockázat, amellyel szemben aktívan védekezünk annak érdekében, hogy a ChatGPT Atlas biztonságosan működhessen az Ön nevében.
Ennek részeként nemrégiben egy biztonsági frissítést vezettünk be az Atlas böngészőügynökéhez, amely egy új, adverszariálisan betanított modellt, valamint megerősített kísérő védelmi intézkedéseket tartalmaz. Ez a frissítés egy új prompt injection támadási osztály hatására született, amelyet belső automatizált red teaming folyamataink tártak fel.
Ebben a bejegyzésben bemutatjuk, miként alakulhat ki a prompt injection kockázata webalapú ügynökök esetében, valamint ismertetjük azt a gyors reagálási ciklust, amelyet annak érdekében építünk, hogy folyamatosan azonosítsuk az új támadásokat, és gyorsan bevezessük a szükséges mitigációs intézkedéseket – ezt a megközelítést a legutóbbi biztonsági frissítés is szemlélteti.
A prompt injection-t hosszú távú mesterségesintelligencia-biztonsági kihívásként kezeljük, és folyamatosan erősítenünk kell ellene a védelmi mechanizmusainkat – hasonlóan ahhoz, (ahogyan az embereket célzó átverések is folyamatosan fejlődnek). Legutóbbi gyors reagálási ciklusunk már most komoly előrelépést mutat ezen az úton: az új támadási stratégiákat belsőleg fedezzük fel, még mielőtt azok a való világban megjelennének. Hosszú távú víziónk az, hogy: (1) kihasználjuk a modelljeinkhez való „white-box” hozzáférést, (2) mélyebb megértést szerezzünk védelmi rendszereink működéséről, valamint (3) számítási kapacitásainkat arra használjuk, hogy az externális támadók előtt járjunk – a sebezhetőségek korábbi azonosításával, a védekezési intézkedések gyorsabb bevezetésével, és a teljes ciklus folyamatos szorosabbra zárásával. Ha mindezt ötvözzük a prompt injection elleni új technikákra irányuló élvonalbeli kutatással és a további biztonsági kontrollokba történő megnövelt befektetéssel, ez az egymást erősítő ciklus egyre nehezebbé és költségesebbé teheti a támadásokat, és érdemben csökkentheti a valós környezetben jelentkező prompt injection kockázatát. Végső célunk az, hogy Ön ugyanúgy megbízhasson egy ChatGPT‑ügynökben, amely az Ön böngészőjét használja, mint egy magasan képzett, biztonságtudatos kollégában vagy barátban.
A prompt injection típusú támadás során a támadó rosszindulatú utasításokat ágyaz be abba a tartalomba, amelyet az ügynök feldolgoz. Ezeket az utasításokat kifejezetten úgy alakítják ki, hogy felülírják vagy eltérítsék az ügynök viselkedését – és arra kényszerítsék, hogy a felhasználó helyett a támadó szándékait kövesse.
Egy olyan böngészőügynök esetében, mint a ChatGPT Atlas, a prompt injection a hagyományos webbiztonsági kockázatokon (például felhasználói hibákon vagy szoftversebezhetőségeken) túl egy új támadási vektort jelent. Ahelyett, hogy embereket próbálna megadathalászattal megtéveszteni, vagy a böngésző rendszerhibáit használná ki, a támadó közvetlenül az ügynök belső működését célozza.
Egy elméleti példában egy támadó küldhet egy rosszindulatú e-mailt, amelynek célja az, hogy az ügynököt arra vegye rá: hagyja figyelmen kívül a felhasználó kérését, és helyette érzékeny adatokat továbbítson egy támadó által kontrollált e-mail-címre. Ha a felhasználó arra kéri az ügynököt, hogy tekintse át az olvasatlan e-maileket és foglalja össze a főbb pontokat, az ügynök a munkafolyamat során befogadhatja ezt a rosszindulatú e-mailt is. Amennyiben követi a bejuttatott utasításokat, az ügynök letérhet az eredeti feladatról, és tévesen megoszthat érzékeny információkat.
Ez csupán egyetlen konkrét forgatókönyv. Ugyanaz az általános célú felépítés, amely hasznossá teszi a böngészőügynököket, egyben kiszélesíti a kockázati felületet is: az ügynök nem megbízható utasításokkal találkozhat egy gyakorlatilag korlátlan támadási felületen, például e-mailekben és mellékletekben, naptármeghívókban, megosztott dokumentumokban, fórumokon, közösségimédia-bejegyzésekben vagy tetszőleges weboldalakon. Mivel az ügynök ugyanazokat a műveleteket hajthatja végre, mint a felhasználó a böngészőben, egy sikeres támadás hatása elméletileg rendkívül széleskörű lehet: érzékeny e-mailek továbbítása, pénzküldés, felhőben tárolt fájlok szerkesztése vagy törlése, és még sok más.
Többrétegű védelmi mechanizmusok bevezetésével előrelépést értünk el a prompt injection elleni védekezésben, ahogy azt egy korábbi bejegyzésben megosztottuk. Ugyanakkor a prompt injection továbbra is nyitott kihívást jelent az ügynöki biztonság területén, és várakozásaink szerint még évekig dolgoznunk kell a megoldásán.
Védelmi képességeink erősítése érdekében folyamatosan új, a gyártási környezetben működő ügynökrendszereket célzó prompt injection támadási módszereket keresünk. E támadások azonosítása elengedhetetlen előfeltétele a robusztus mitigációk kialakításának: segít megérteni a valós környezetben jelentkező kockázatokat, feltárja védelmi hiányosságainkat, és konkrét javításokat ösztönöz.
Ahhoz, hogy ezt a léptéket elérjük, létrehoztunk egy LLM-alapú automatizált támadót, és kifejezetten arra tanítottuk be, hogy prompt injection támadásokat keressen, amelyek sikeresen képesek megtámadni egy böngészőügynököt. A támadót végponttól végpontig megerősítő tanulással képeztük ki, így saját sikereiből és kudarcaiból tanulva képes javítani red teaming készségeit. A támadót „próbálkozásra” is ösztönöztük: ez alatt azt értjük, hogy a gondolatmenet-alapú érvelési folyamata során képes egy lehetséges injekciót javasolni, majd azt egy külső szimulátorba továbbítani. A szimulátor egy ellenfaktuális forgatókönyvet futtat le arról, hogyan viselkedne a célzott ágens (a védelmi oldal), ha találkozna az adott injekcióval, majd visszaadja az áldozat ágens érvelési és cselekvési nyomvonalát. A támadó ezt a nyomvonalat visszacsatolásként használja, finomítja a támadást, majd újra lefuttatja a szimulációt – ezt többször megismételve, mielőtt végleges támadást hajtana végre. Ez a megközelítés gazdagabb, kontextuson belüli visszajelzést biztosít a támadó számára, mint egy egyszerű sikeres/sikertelen jelzés. Emellett a támadó tesztelési időszak alatti számítási kapacitását is növeli. Továbbá a privilegizált hozzáférés a belső érvelési nyomvonalakhoz (amelyeket külső felhasználók számára nem teszünk elérhetővé) aszimmetrikus előnyt biztosít a támadó számára, növelve annak esélyét, hogy túljárjon a külső támadók eszén.
Miért megerősítő tanulás (RL)? A megerősítő tanulást több okból is az automatizált támadó betanítására választottuk:
- Hosszú távú és nem folytonos támadói célok optimalizálása.. Célunk olyan prompt injection támadások felkutatása, amelyek képesek az ügynököt kifinomult, a valós környezetben is előforduló adverszariális feladatok végrehajtására rávenni, (például e-mailek küldésére vagy pénzügyi tranzakciók lebonyolítására). Ezek az ellenséges jellegű feladatok természetüknél fogva hosszú időtávúak, soklépcsős érvelést és a környezettel való folyamatos interakciót igényelnek, miközben a siker visszajelzése ritka és késleltetett. A megerősítő tanulás különösen jól illeszkedik ehhez a ritka és késleltetett jutalmazási struktúrához.
- A frontier LLM-ek képességeinek kihasználása. A legfejlettebb LLM-eket közvetlenül automatizált red teaming szerepkörben képeztük ki, így a támadó közvetlenül profitál a legmodernebb modellek érvelési és tervezési képességeinek fejlődéséből. Ahogy a modellek egyre erősebbé válnak, a támadó képességei is természetes módon fejlődnek – ez skálázható módot biztosít arra, hogy védelmi rendszereinkre folyamatos nyomást gyakoroljunk a modellek evolúciójával párhuzamosan.
- A számítási kapacitás búővítése és az adaptív támadók viselkedésének modellezése. A megerősítő tanulás különösen jól alkalmas arra, hogy nagyszámú mintavétel és tanulási lépés során skálázza a támadások felkutatására fordított számítási erőforrásokat, miközben jól tükrözi az adaptív emberi támadók működését is: stratégiáikat iteratívan finomítják, tanulnak az eredményekből, és megerősítik a sikeres viselkedésmintákat.
Automatizált támadónk képes új, valósághű prompt injection támadásokat teljes folyamatukban felfedezni. A korábbi automatizált red teaming megközelítésekkel szemben – amelyek jellemzően egyszerű hibákat tártak fel, például konkrét kimeneti szövegek kiváltását vagy nem szándékolt, egylépéses ügynökhívásokat –, az RL-alapú támadó képes az ügynököt összetett, hosszú időtávú, káros munkafolyamatok végrehajtására irányítani, amelyek akár több tucat (vagy több száz) lépésen keresztül bontakoznak ki. Megfigyeltünk olyan új támadási stratégiákat is, amelyek sem az emberi red teaming kampányunkban, sem külső jelentésekben nem jelentek meg.
Az alábbi bemutató egy konkrét prompt injection kihasználási módot szemléltet, amelyet automatizált támadónk azonosított, és amelynek hatására további védelmi megerősítéseket vezettünk be a ChatGPT Atlas rendszerében. A támadó egy rosszindulatú e-mailt juttat el a felhasználó postaládájába, amely prompt injectiont tartalmaz, és arra utasítja az ügynököt, hogy a felhasználó vezérigazgatójának címzett felmondólevelet küldjön. Később, amikor a felhasználó megkéri az ügynököt, hogy készítsen egy munkahelyen kívüli automatikus válaszüzenetet, az ügynök a normál feladatvégrehajtás során találkozik ezzel az e-maillel, hitelesnek tekinti a beágyazott utasítást, és végrehajtja azt. Az automatikus válaszüzenet végül nem készül el, ehelyett az ügynök a felhasználó nevében benyújtja a felmondást.

Az ügynök bevonása egy e-mail kezelésébe.

2. Az ügynök megnyitja a legutóbbi olvasatlan e-mailt.

3. Az e-mail rosszindulatú utasításokat tartalmaz.

4. Az ügynök nem szándékolt felmondó e-mailt küld.

5. A biztonsági frissítést követően az ügynök mód sikeresen észlel egy prompt injection kísérletet
A prompt injection természete megnehezíti a determinisztikus biztonsági garanciák biztosítását, azonban az automatizált biztonsági kutatás skálázásával, a támadó jellegű tesztelés erősítésével, valamint a gyors reagálási ciklusunk szorosabbra zárásával képesek vagyunk javítani a modellek robusztusságát és védelmét – még mielőtt a támadás a valós környezetben megjelenne.
Ezt a bemutatót azért osztjuk meg, hogy segítsünk a felhasználóknak és a kutatóknak jobban megérteni ezeknek a támadásoknak a természetét—és hogy hogyan védekezünk aktívan ellenük. Úgy véljük, ez jól szemlélteti az automatizált red teaming jelenlegi határait és lehetőségeit, és rendkívül izgatottak vagyunk a kutatás további folytatása miatt.
Automatizált red teaming folyamataink egy proaktív gyors reagálási ciklust működtetnek: amikor az automatizált támadó egy új, sikeres prompt injection támadási mintát azonosít, az azonnal konkrét célkitűzéseket hoz létre védelmi rendszereink fejlesztéséhez.
Ellenséges jellegű betanítás az újonnan felfedezett támadásokkal szemben. Folyamatosan frissítjük modelljeinket a legjobban teljesítő automatizált támadónk segítségével, előnyben részesítve azokat a támadásokat, amelyekkel szemben az ügynökök jelenleg sebezhetőek. A cél az, hogy az ügynökök megtanulják figyelmen kívül hagyni az ellenséges utasításokat, és következetesen a felhasználó szándékához igazodjanak, ezáltal növelve ellenálló képességüket az új prompt injection stratégiákkal szemben. Ez a robusztusság közvetlenül a modell mentett állapotába épül be. Ennek egyik példája egy nemrég lezajlott automatizált red teaming folyamat, amely egy új, ellenséges betanítással megerősített böngészőügynök-modellt eredményezett, és amelyet már minden ChatGPT Atlas-felhasználó számára bevezettünk. Mindez végső soron hatékonyabban védi a felhasználókat az új támadástípusokkal szemben.
A támadási nyomvonalak felhasználása a szélesebb védelmi réteg fejlesztésére. Az automatizált red teaming által feltárt számos támadási útvonal olyan fejlesztési lehetőségekre is rávilágít, amelyek a modell saját hatókörén kívül esnek – például a monitorozás, a biztonsági utasítások, a modell kontextuskezelése vagy a rendszer szintű védelmi mechanizmusok területén. Ezek az eredmények segítenek a teljes védelmi struktúra folyamatos finomításában, nem csupán az ügynök mentett állapotának szintjén.
Reagálás aktív támadásokra. Ez a ciklus a valós környezetben zajló aktív támadásokra való hatékonyabb reagálást is támogatja. Amikor globális jelenlétünkben potenciális támadásokat vizsgálunk, a külső támadók által alkalmazott technikákat és taktikákat be tudjuk csatornázni ebbe a ciklusba, szimulálhatjuk azok működését, és ennek alapján védelmi változtatásokat vezethetünk be platformunkon.
Az ügynökök megerősítése és legképzettebb modelljeink bevonása az automatizálásba olyan munkafolyamatokban, amelyek korábban emberi közreműködést igényeltek – mindez segít abban, hogy az Atlas böngészőügynök ellenállóbbá váljon az azonosítástól a javításig tartó ciklus skálázásával. Ez a megerősítési törekvés egy jól ismert biztonsági tanulságot erősít meg: az erősebb védelemhez vezető bevált út a valós rendszerek folyamatos terheléses tesztelése, a hibákra való gyors reagálás és a konkrét javítások mielőbbi bevezetése.
Várakozásaink szerint a támadók továbbra is alkalmazkodni fognak. A prompt injection – akárcsak az internetes csalások és a webes social engineering – várhatóan soha nem lesz teljes mértékben „megoldva”. Ugyanakkor bízunk benne, hogy egy proaktív, gyors reagálású ciklus, amely képes magas szintű válaszkészséget fenntartani, idővel érdemben csökkentheti a valós környezetben jelentkező kockázatokat. Az automatizált támadásfelderítés, az ellenséges jellegű betanítás és a rendszer szintű védelmi intézkedések együttes alkalmazásával képesek vagyunk az új támadási mintákat korán azonosítani, időben lezárni a hiányosságokat, és folyamatosan növelni a kihasználás költségét.
Az ügynök mód a ChatGPT Atlas rendszerében jelentős képességnövekedést biztosít – ugyanakkor a támadási felületet is kibővíti. Ennek az egyensúlynak a tudatos kezelése a felelős rendszerépítés alapvető része. Célunk, hogy az Atlas minden egyes iterációval érdemben biztonságosabbá váljon: a modell robusztusságának növelésével, a környező védelmi réteg megerősítésével, valamint a valós környezetben megjelenő visszaélési minták folyamatos monitorozásával.
Továbbra is beruházunk a kutatásba és az üzemeltetésbe, fejlettebb automatizált red teaming módszereket dolgozunk ki, erősebb mitigációkat vezetünk be, és tanulásaink alapján gyors ütemben iterálunk. A szélesebb közösséggel is megosztjuk mindazt, amit megoszthatónak tartunk.
Miközben rendszer szinten tovább erősítjük az Atlas védelmét, a felhasználók is tehetnek lépéseket a kockázatok csökkentése érdekében az ügynök mód használata során.
Lehetőség szerint korlátozza a bejelentkezett hozzáférést.Továbbra is azt javasoljuk, hogy az Atlas ügynök mód használatakor kerülje az olyan weboldalakat, ahol a bejelentkezés nem szükséges(új ablakban nyílik meg) az adott feladat elvégzéséhez, vagy korlátozza azokat az oldalakat, amelyekre a feladat során bejelentkezik.
A megerősítési kérések gondos áttekintése. Bizonyos jelentősebb következményekkel járó műveletek esetén – például vásárlás befejezésekor vagy e-mail küldésekor – az ügynökök úgy vannak kialakítva, hogy a végrehajtás előtt megerősítést kérjenek. Amikor az ügynök egy művelet megerősítését kéri, érdemes időt szánni annak ellenőrzésére, hogy a művelet valóban helyes-e, és hogy az adott kontextusban megosztott információk megfelelőek-e.
Adjon egyértelmű utasításokat, amikor csak lehetséges. Kerülje az olyan túlzottan tág megfogalmazású kéréseket, mint például: „nézze át az e-mailjeimet, és tegye meg a szükséges lépéseket”. A túl nagy mozgástér megkönnyíti, hogy rejtett vagy rosszindulatú tartalom befolyásolja az ügynököt, még akkor is, ha védelmi intézkedések vannak érvényben. Érdemes inkább konkrét, jól körülhatárolt feladatokat adni az ügynöknek. Bár ez nem szünteti meg teljesen a kockázatot, jelentősen megnehezíti a támadások végrehajtását.
Ahhoz, hogy az ügynökök a mindennapi feladatokban megbízható partnerekké válhassanak, ellenállónak kell lenniük azokkal a manipulációs technikákkal szemben, amelyeket a nyílt web lehetővé tesz. A prompt injection elleni védelem hosszú távú elköteleződést igényel, és az egyik legfontosabb prioritásunk. Erről a munkáról hamarosan további részleteket is megosztunk.


