ChatGPT Atlase pidev tugevdamine viipade süstimise rünnakute vastu
Automatiseeritud lööktestimine – mida toetab kinnistav õppimine – aitab meil proaktiivselt avastada ja parandada reaalse maailma agendi ärakasutusi enne, kui neid relvaks muudetakse.
Agendi režiim ChatGPT Atlases on üks üldisemaid agendifunktsioone, mille oleme seni välja andnud. Selles režiimis vaatab lehitseja agent veebilehti ja sooritab toiminguid, klikke ja klahvivajutusi sinu lehitsejas täpselt nii, nagu sina teeksid. See võimaldab ChatGPT‑l töötada otse paljude su igapäevaste töövoogudega, kasutades sama ruumi, konteksti ja andmeid.
Kuna lehitseja agent aitab rohkem tehtud saada, muutub see ka väärtuslikumaks sihtmärgiks vaenulikele rünnakutele. See muudab tehisintellekti turvalisuse eriti oluliseks. Juba ammu enne ChatGPT Atlase käivitamist oleme pidevalt ehitanud ja tugevdanud kaitset uute ohtude vastu, mis on suunatud spetsiaalselt sellele uuele „agent lehitsejas“ paradigmale. Viipade süstimine on üks olulisemaid riske, mille vastu me aktiivselt kaitseme, et tagada ChatGPT Atlase turvaline toimimine sinu nimel.
Osana sellest pingutusest saatsime hiljuti välja Atlase lehitseja agendi turvavärskenduse, mis sisaldab vastasekoolitusega uut mudelit ja tugevdatud ümbritsevaid kaitsemeetmeid. See värskendus oli ajendatud meie sisemise automatiseeritud lööktestimise abil avastatud uue klassi viipade süstimise rünnakutest.
Selles postituses selgitame, kuidas veebipõhiste agentide puhul võib tekkida kohese süstimise risk, ning jagame kiirreageerimisahelat, mille oleme loonud uute rünnakute pidevaks avastamiseks ja leevendusmeetmete kiireks pakkumiseks, mida illustreerib see hiljutine turvavärskendus.
Me näeme viipade süstimist pikaajalise tehisintellekti turvalisuse väljakutsena ning peame pidevalt tugevdama oma kaitset selle vastu (sarnaselt pidevalt arenevatele veebipettustele, mis sihivad inimesi). Meie viimane kiire reageerimise tsükkel näitab varajast lubadust kui kriitiline tööriist sellel teekonnal: avastame uusi rünnakustrateegiaid sisemiselt enne, kui need ilmnevad. Meie pikaajaline visioon on täielikult ära kasutada (1) meie valge kasti juurdepääsu mudelitele, (2) sügavat arusaamist kaitsemehhanismidest ja (3) arvutusvõimsuse ulatust, et püsida väliste ründajate ees—leides haavatavusi varem, pakkudes kiiremini leevendusi ja pidevalt tihendades tsüklit. Koos uute tehnikate piiriuuringutega viipade süstimise käsitlemiseks ja suurenenud investeeringutega teistesse turvakontrollidesse võib see kumulatiivne tsükkel muuta rünnakud järjest keerulisemaks ja kulukamaks, vähendades oluliselt reaalmaailma viipade süstimise riski. Lõppkokkuvõttes on meie eesmärk, et sa saaksid usaldada ChatGPT agenti kasutama oma lehitsejat samamoodi, nagu usaldaksid väga pädevat ja turvateadlikku kolleegi või sõpra.
Viipade süstimise rünnak sihib tehisintellekti agente, lisades pahatahtlikke juhiseid sisu, mida agent töötleb. Need juhised on loodud agendi käitumise ümbersuunamiseks või muutmiseks, et see järgiks ründaja kavatsusi, mitte kasutaja omi.
Lehitseja agendi jaoks, nagu see, mis on ChatGPT Atlases, lisab viipade süstimine uue ohuvektori traditsiooniliste veebiturvariskide (nagu kasutajavead või tarkvara haavatavused) kõrval. Selle asemel, et püüda inimesi või ära kasutada lehitseja süsteemi haavatavusi, sihib ründaja selles töötavat agenti.
Hüpoteetilise näitena võiks ründaja saata pahatahtliku e-kirja, püüdes petta agenti ignoreerima kasutaja taotlust ja selle asemel edastama tundlikke maksudokumente ründaja kontrollitud e-posti aadressile. Kui kasutaja palub agendil vaadata läbi lugemata e-kirjad ja kokku võtta peamised punktid, võib agent töövoo käigus kogemata töödelda pahatahtlikku e-kirja. Kui see järgib süstitud juhiseid, võib see ülesandest kõrvale kalduda ja ekslikult jagada tundlikku teavet.
See on vaid üks konkreetne olukord. Sama üldisus, mis muudab lehitseja agendid kasulikuks, laiendab ka riske: agent võib kohata mitteusaldusväärseid juhiseid üle praktiliselt piiramatu pinna – e-kirjad ja manused, kalendrikutsed, jagatud dokumendid, foorumid, sotsiaalmeedia postitused ja suvalised veebilehed. Kuna agent saab teha paljusid samu toiminguid, mida kasutaja saab brauseris teha, võib eduka rünnaku mõju hüpoteetiliselt olla sama lai: tundliku e-kirja edastamine, raha saatmine, failide muutmine või kustutamine pilves ja palju muud.
Oleme teinud edusamme viipade süstimise vastu kaitsmisel mitme kaitsekihi abil, nagu me jagasime varasemas postituses. Siiski jääb viipade süstimine agendi turvalisuse avatud väljakutseks ja me eeldame, et jätkame selle kallal töötamist veel aastaid.
Meie kaitse tugevdamiseks oleme pidevalt otsinud uusi viipade süstimise rünnakuid agentide süsteemide vastu tootmiskeskkonnas. Nende rünnakute leidmine on vajalik eeltingimus tugevate leevendusmeetmete loomiseks: see aitab meil mõista reaalse maailma riske, paljastab meie kaitsesüsteemide lüngad ja viib konkreetsete parandusteni.
Selleks, et seda suuremas mahus teha, lõime LLM-põhise automatiseeritud ründaja ja koolitasime selle jahtima viipade süstimise rünnakuid, mis suudavad edukalt rünnata lehitseja agenti. Me koolitasime seda ründajat otsast lõpuni kinnistava õppimise abil, nii et see õpib omaenda õnnestumistest ja ebaõnnestumistest, et parandada oma lööktestimise oskusi. Samuti laseme sellel „proovida enne saatmist“, millega mõtleme: oma mõttekäigu ajal saab ründaja esitada kandidaatsüstimise ja saata selle välisele simulaatorile. Simulaator viib läbi vastandliku stsenaariumi, kuidas sihitud ohvri agent (kaitsja) käituks, kui see puutuks kokku süstimisega, ning tagastab ohvri agendi täieliku põhjenduse ja toimingute jälje. Ründaja kasutab seda jälge tagasisidena, kordab rünnakut ja käivitab simulatsiooni uuesti, korrates seda tsüklit mitu korda enne lõpliku rünnaku sooritamist. See pakub ründajale rikkalikumat kontekstipõhist tagasisidet kui üksik läbimise/ebaõnnestumise signaal. See suurendab ka ründaja testimisaja arvutusvõimsust. Pealegi annab privilegeeritud juurdepääs kaitsja põhjenduste jälgedele (mida me välistele kasutajatele ei avalda) meie sisemisele ründajale asümmeetrilise eelise, suurendades tõenäosust, et see suudab välistest vastastest ette jõuda.
Miks kinnistav õppimine (RL)? Valisime automatiseeritud ründaja koolitamiseks kinnistava õppimise mitmel põhjusel:
- Pikaajaliste ja mitte-jätkuvate ründaja eesmärkide optimeerimine. Meie eesmärk on otsida viipade injekteerimisrünnakuid, mis võivad petta agenti täitma keerukaid vastandlikke ülesandeid (nt e-kirjade saatmine, pangatehingud), mis võivad aset leida reaalses maailmas. Need vastandlikud ülesanded on oma olemuselt pikaajalised, nõudes mitmeid arutlemise ja keskkonnaga suhtlemise samme, kusjuures edu signaalid on harvad ja viivitusega. Kinnistav õppimine sobib hästi selle hõreda ja viivitatud preemiastruktuuriga.
- Eesrindlike LLM-i võimekuste rakendamine. Koolitasime eesrindlikke LLM-e otse automaatsete punaste meeskondadena, nii et ründaja saab otseselt kasu arutlus- ja planeerimisvõimekuse paranemisest eesrindlikes mudelites. Kuna põhimudelid muutuvad tugevamaks, muutub ka ründaja loomulikult võimekamaks, muutes selle skaleeritavaks viisiks, kuidas hoida meie kaitset surve all, kui meie mudelid arenevad.
- Arvutusvõimsuse suurendamine ja kohanemisvõimeliste ründajate jäljendamine. Kinnistav õppimine sobib hästi arvutusvõimsuse suurendamiseks, mida kasutatakse rünnakute otsimiseks suure hulga proovide ja õppimisetappide kaudu, ning see peegeldab ka täpselt, kuidas kohanemisvõimelised inimründajad käituvad: strateegiate korduv katsetamine, tulemustest õppimine ja edukate käitumiste tugevdamine.
Meie automatiseeritud ründaja suudab avastada uudseid, realistlikke viipade süstimise rünnakuid algusest lõpuni. Erinevalt enamikust varasematest automatiseeritud lööktestimise töödest, mis tõid esile lihtsaid tõrkeid, nagu konkreetsete väljundstringide esilekutsumine või agendi tahtmatu ühe sammu tööriistakõne käivitamine, suudab meie RL-treenitud ründaja juhtida agenti keerukate, pikaajaliste kahjulike töövoogude täitmisele, mis arenevad kümnete (või isegi sadade) sammude jooksul. Samuti täheldasime uusi ründestrateegiaid, mis ei esinenud meie inimeste lööktestimise kampaanias ega välistes aruannetes.
Allpool olev demo esitleb konkreetset viipade süstimise ärakasutamist, mille leidis meie automatiseeritud ründaja ja mida me seejärel kasutasime ChatGPT Atlase kaitse tugevdamiseks. Ründaja külvab kasutaja postkasti pahatahtliku e-kirjaga, mis sisaldab viiba süstimist, mis suunab agendi saatma lahkumisavaldust kasutaja tegevjuhile. Hiljem, kui kasutaja palub agendil koostada kontorist väljasoleku vastuse, kohtab agent seda e-kirja tavapärase ülesande täitmise käigus, käsitleb süstitud viipa juhisenaja järgib seda. Kontorist väljasoleku teadet ei kirjutata kunagi ja agent astub kasutaja nimel tagasi.

1. Agendilt e-posti haldamise abi palumine

2. Agent avab viimase lugemata e-kirja

3. E-kiri sisaldab pahatahtlikke juhiseid

4. Agent saatis kogemata lahkumisavalduse e-kirja

5. Pärast meie turvavärskendust tuvastab agendi režiim edukalt viiba süstimise katse
Viipade süstimise olemus muudab deterministlike turvagarantiide andmise keeruliseks, kuid suurendades meie automatiseeritud turvauuringuid, vastaseid testimisi ja karmistades meie kiire reageerimise tsüklit, suudame parandada mudeli vastupidavust ja kaitset – enne kui rünnak tegelikkuses aset leiab.
Jagame seda demo, et aidata kasutajatel ja teadlastel paremini mõista nende rünnakute olemust – ja kuidas me aktiivselt nende vastu kaitseme. Usume, et see esindab automatiseeritud lööktestimise töövõime piire, ja oleme äärmiselt põnevil, et saame oma uurimistööd jätka.
Meie automatiseeritud lööktestimise tegevus käivitab proaktiivse kiire reageerimise tsükli: kui automatiseeritud ründaja avastab uue eduka viipade süstimise rünnakute klassi, loob see kohe konkreetse sihtmärgi meie kaitsemeetmete täiustamiseks.
Vastaspoolte koolitus äsja avastatud rünnakute vastu. Me koolitame pidevalt uuendatud agentide mudeleid meie parima automatiseeritud ründaja vastu, keskendudes rünnakutele, kus sihtagendid praegu ebaõnnestuvad. Eesmärk on õpetada agente ignoreerima pahatahtlikke juhiseid ja jääma kooskõlla kasutaja kavatsustega, parandades vastupanuvõimet äsja avastatud viipade süstimise strateegiate vastu. See „põletab sisse“ vastupidavuse uute, kõrge tugevusega rünnakute vastu otse mudeli kontrollpunkti. Näiteks on hiljutine automatiseeritud lööktestimise tegevus otseselt tootnud uue vastase poolt treenitud lehitseja-agendi kontrollpunkti, mis on juba kõigile ChatGPT Atlase kasutajatele kasutusele võetud. See aitab lõppkokkuvõttes paremini kaitsta meie kasutajaid uute rünnakutüüpide eest.
Rünnakujälgede kasutamine laiemas kaitsevirnas täiustamiseks. Paljud meie automatiseeritud lööktestija avastatud ründeteed paljastavad ka võimalusi täiustamiseks väljaspool mudelit ennast, näiteks jälgimises, ohutusjuhistes, mida me mudeli konteksti lisame, või süsteemitasandi kaitsemeetmetes. Need leiud aitavad meil iteratsiooni teha kogu kaitsevirna ulatuses, mitte ainult agendi kontrollpunktis.
Reageerimine aktiivsetele rünnakutele. See tsükkel võib samuti aidata paremini reageerida aktiivsetele rünnakutele looduses. Kui vaatame üle oma globaalse haarde potentsiaalsete rünnakute osas, saame võtta väliste vastaste kasutatavad tehnikad ja taktikad, sisestada need sellesse tsüklisse, jäljendada nende tegevust ja viia läbi kaitsemeetmete muutusi kogu meie platvormil.
Meie võimekuse tugevdamine lööktestimisagentide testimiseks ja meie kõige võimekamate mudelite kasutamine selle töö osade automatiseerimiseks aitab muuta Atlas lehitseja agendi vastupidavamaks, skaleerides avastamise ja parandamise tsüklit. See tugevdamispüüdlus kinnitab tuttavat turvalisuse õppetundi: tugevama kaitse saavutamiseks on hästi tuntud tee pidevalt testida reaalsüsteeme, reageerida ebaõnnestumistele ja rakendada konkreetseid parandusi.
Me eeldame, et vastased jätkavad kohandumist. Viip-injektsioon, sarnaselt veebipettuste ja sotsiaalse manipuleerimisega veebis, ei ole tõenäoliselt kunagi täielikult "lahendatud". Kuid oleme optimistlikud, et proaktiivne ja väga reageeriv kiire reageerimise tsükkel võib aja jooksul jätka oluliselt vähendada reaalse maailma riske. Kombineerides automatiseeritud rünnakute avastamise, vastaspoole koolituse ja süsteemitasandi kaitsemeetmed, saame tuvastada uusi rünnakumustreid varem, sulgeda lüngad kiiremini ja pidevalt tõsta ärakasutamise hinda.
Agendi režiim ChatGPT Atlases on võimas – ja see laiendab ka turvaohtude pinda. Selgelt mõista seda kompromissi on vastutustundliku ehitamise osa. Meie eesmärk on muuta Atlas iga iteratsiooniga märkimisväärselt turvalisemaks: parandada mudeli vastupidavust, tugevdada ümbritsevat kaitsekihti ja jälgida uusi kuritarvitusmustreid.
Jätkame investeerimist nii uurimis- kui ka juurutusvaldkonnas, arendades paremaid automatiseeritud lööktestimise meetodeid, rakendades kihilisi leevendusi ja kiiresti kohandudes, kui õpime. Jagame ka seda, mida saame, laiema kogukonnaga.
Kuigi me jätkame Atlase tugevdamist süsteemitasandil, on samme, mida kasutajad saavad astuda, et vähendada riski agentide kasutamisel.
Piira logi sisse juurdepääsu, kui võimalik. Soovitame jätkuvalt, et kasutajad kasutaksid väljalogitud režiimi(avaneb uues aknas), kui nad kasutavad agenti Atlases, kui veebisaitidele, kuhu oled sisse logitud, juurdepääs ei ole ülesande täitmiseks vajalik või et piirata juurdepääsu konkreetsetele saitidele, kuhu ülesande ajal sisse logid.
Vaata kinnitustaotlused hoolikalt üle. Teatud oluliste toimingute, nagu ostu sooritamine või e-kirja saatmine, puhul on agendid loodud küsima su kinnitust enne jätkamist. Kui agent palub sul toimingut kinnitada, võta hetk, et kinnita, et toiming on õige ja et jagatav teave on sellele kontekstile sobiv.
Anna agentidele võimalusel täpsed juhised. Väldi liiga üldisi viipasid, nagu „vaata mu e-kirjad üle ja tee vajalikud toimingud.” Lai tegevusvabadus muudab varjatud või pahatahtliku sisu agendi mõjutamise lihtsamaks, isegi kui kaitsemeetmed on olemas. On turvalisem paluda agendil täita konkreetseid, hästi määratletud ülesandeid. Kuigi see ei kõrvalda riski, muudab see rünnakute läbiviimise keerulisemaks.
Kui agendid tahavad saada usaldusväärseteks partneriteks igapäevaste ülesannete jaoks, peavad nad olema vastupidavad manipuleerimisele, mida avatud veeb lubab. Viipade süstimise vastu kaitsmine on pikaajaline kohustus ja üks meie peamisi prioriteete. Peagi jagame selle töö kohta rohkem infot.


