ChatGPT Atlasin jatkuva vahvistaminen kehoteinjektiohyökkäyksiä vastaan
Vahvistusoppimisen tukema automatisoitu red teaming auttaa meitä löytämään ja korjaamaan ennakoivasti todellisia agenttihyökkäyksiä, ennen kuin niitä käytetään aseena reaalimaailmassa.
ChatGPT Atlasin agenttitila on yksi yleiskäyttöisimmistä tähän mennessä julkaisemistamme agenttiominaisuuksista. Tässä tilassa selainagentti tarkastelee verkkosivuja ja suorittaa toimintoja, klikkauksia ja näppäinpainalluksia selaimessasi aivan kuten sinä tekisit. Näin ChatGPT voi toimia suoraan monissa päivittäisissä työnkuluissasi käyttäen samaa tilaa, kontekstia ja tietoja.
Samalla kun selainagentti auttaa sinua saamaan enemmän aikaan, siitä tulee myös arvokkaampi kohde vihamielisille hyökkäyksille. Tämän vuoksi tekoälyn tietoturva on erityisen tärkeää. Jo kauan ennen ChatGPT Atlasin käyttöönottoa olemme jatkuvasti rakentaneet ja vahvistaneet suojausta uusia uhkia vastaan, jotka kohdistuvat erityisesti tähän uuteen "agentti selaimessa" -paradigmaan. Kehoteinjektio on yksi merkittävimmistä riskeistä, joita vastaan suojaudumme aktiivisesti varmistaaksemme, että ChatGPT Atlas voi toimia turvallisesti puolestasi.
Osana tätä työtä toimitimme äskettäin Atlasin selainagentille tietoturvapäivityksen, joka sisälsi uuden vastustajakoulutetun mallin ja vahvistetut suojausmenetelmät. Päivityksen taustalla oli uudenlainen kehoteinjektiohyökkäysten luokka, joka paljastui sisäisen automaattisen red teaming -prosessimme kautta.
Tässä julkaisussa kerromme, miten kehoteinjektioriski voi syntyä verkkopohjaisten agenttien kohdalla, ja esittelemme nopean reagointiprosessin, jonka olemme kehittäneet, jotta voimme löytää jatkuvasti uusia hyökkäyksiä ja tarjota lieventämistoimia nopeasti – esimerkkinä tämä äskettäinen tietoturvapäivitys.
Pidämme kehoteinjektiota tekoälyn pitkäaikaisena turvallisuushaasteena, ja meidän on jatkuvasti vahvistettava puolustustamme sitä vastaan (aivan kuten jatkuvasti kehittyviä ihmisiin kohdistuvia verkkohuijauksia). Uusin nopean reagoinnin syklimme on osoittautunut jo varhaisessa vaiheessa lupaavaksi kriittiseksi työkaluksi tällä matkalla: löydämme uusia hyökkäysstrategioita sisäisesti ennen kuin ne näkyvät reaalimaailmassa. Pitkän aikavälin visiomme on hyödyntää täysin (1) valkoisen laatikon pääsyämme malleihimme, (2) syvällistä ymmärrystämme puolustuksestamme ja (3) laskentatehoamme pysyäksemme ulkoisten hyökkääjien edellä – löytämällä hyökkäykset aikaisemmin, tarjoamalla lieventämistoimia nopeammin ja tiukentamalla prosessia jatkuvasti. Kun tähän yhdistetään kehoteinjektion torjumiseksi tehtävä, uusia tekniikoita koskeva pioneeritutkimus ja suuremmat investoinnit muihin tietoturvatoimiin, tällainen yhdistetty sykli voi tehdä hyökkäyksistä yhä vaikeampia ja kalliimpia, mikä vähentää merkittävästi todellista kehoteinjektioriskiä. Viime kädessä tavoitteemme on, että voit luottaa ChatGPT:n agentin käyttävän selaintasi samalla tavalla kuin voisit luottaa erittäin pätevään ja tietoturvatietoiseen kollegaan tai ystävään.
Kehoteinjektiohyökkäys kohdistuu tekoälyagentteihin upottamalla haitallisia ohjeita agentin käsittelemään sisältöön. Ohjeet on laadittu siten, että ne ohittavat tai uudelleenohjaavat agentin toiminnan ja pakottavat sen noudattamaan hyökkääjän aikomusta käyttäjän aikomuksen sijaan.
ChatGPT Atlasin kaltaiselle selainagentille kehoteinjektio lisää uuden uhkakuvion perinteisten verkkoturvariskien (kuten käyttäjävirheiden tai ohjelmistohaavoittuvuuksien) lisäksi. Sen sijaan, että hyökkääjä kalastelisi ihmisiä tai käyttäisi hyväkseen selaimen haavoittuvuuksia, se kohdistaa hyökkäyksensä selaimen sisällä toimivaan agenttiin.
Hypoteettisena esimerkkinä hyökkääjä voisi lähettää haitallisen sähköpostiviestin yrittäen huijata agenttia sivuuttamaan käyttäjän pyynnön ja lähettämään sen sijaan arkaluonteisia veroasiakirjoja hyökkääjän hallinnoimaan sähköpostiosoitteeseen. Jos käyttäjä pyytää agenttia tarkistamaan lukemattomat sähköpostiviestit ja tekemään yhteenvedon keskeisistä kohdista, agentti voi sisällyttää kyseisen haitallisen sähköpostiviestin työnkulkuunsa. Jos agentti noudattaa injektoituja ohjeita, se voi poiketa tehtävästään ja jakaa virheellisesti arkaluonteisia tietoja.
Tämä on vain yksi mahdollinen skenaario. Sama yleisluonteisuus, joka tekee selainagenteista hyödyllisiä, tekee myös riskeistä laaja-alaisempia: agentti voi kohdata epäluotettavia ohjeita käytännössä rajattomalla alueella – sähköpostit ja liitteet, kalenterikutsut, jaetut asiakirjat, foorumit, sosiaalisen median julkaisut ja mielivaltaiset verkkosivut. Koska agentti voi tehdä selaimessa monia samoja toimintoja kuin käyttäjä, onnistuneen hyökkäyksen vaikutukset voivat hypoteettisesti olla yhtä laaja-alaiset: arkaluontoisen sähköpostin välittäminen eteenpäin, rahan siirtäminen, pilvessä olevien tiedostojen muokkaaminen tai poistaminen jne.
Olemme edistyneet puolustautumisessa kehoteinjektiota vastaan useiden suojakerrosten avulla, kuten kerroimme aikaisemmassa julkaisussa. Kehoteinjektio on kuitenkin yhä avoin haaste agenttien turvallisuudelle, ja odotamme jatkavamme sen vastaista työskentelyä vielä vuosia.
Vahvistaaksemme puolustustamme etsimme jatkuvasti uusia kehoteinjektiohyökkäyksiä kehitysvaiheessa olevia agenttijärjestelmiä vastaan. Näiden hyökkäysten löytäminen on välttämätön edellytys vankkojen lieventämistoimien kehittämiselle: se auttaa meitä ymmärtämään todellisia riskejä, paljastaa puolustuksessamme olevia aukkoja ja auttaa meitä tekemään konkreettisia korjauksia.
Tämän toteuttamiseksi laajassa mittakaavassa rakensimme LLM-pohjaisen automatisoidun hyökkääjän ja koulutimme sen etsimään kehoteinjektiohyökkäyksiä, jotka voisivat hyökätä onnistuneesti selainagenttiin. Koulutimme tämän hyökkääjän alusta loppuun vahvistusoppimisen avulla, jotta se oppii omista onnistumisistaan ja epäonnistumisistaan parantaakseen red teaming -taitojaan. Annamme sen myös "kokeilla ennen kuin se toimitetaan", mikä tarkoittaa sitä, että hyökkääjä voi ajatusketjupäättelynsä aikana ehdottaa injektioehdokasta ja lähettää sen ulkoiseen simulaattoriin. Simulaattori suorittaa kontrafaktuaalisen skenaarion siitä, miten kohteena oleva uhriagentti (puolustaja) käyttäytyisi kohdatessaan injektion, ja palauttaa uhriagentin täydellisen päättely- ja toimintajäljen. Hyökkääjä käyttää tätä jälkeä palautteena, iteroi hyökkäyksen ja suorittaa simulaation uudelleen toistamalla tämän prosessin useita kertoja ennen kuin se tekee lopullisen hyökkäyksen. Tämä antaa hyökkääjälle monipuolisempaa kontekstuaalista palautetta kuin pelkkä yksittäinen hyväksytty/hylätty-signaali. Se myös lisää hyökkääjän testiaikaista laskentatehoa. Lisäksi etuoikeutettu pääsy puolustajan päättelyjälkiin (joita emme paljasta ulkopuolisille käyttäjille) antaa sisäiselle hyökkääjällemme epäsymmetrisen edun. Tämä lisää sen todennäköisyyttä, että se voi päihittää ulkoiset vastustajat.
Miksi valitsimme vahvistusoppimisen (RL)? Valitsimme vahvistusoppimisen automaattisen hyökkääjän kouluttamiseen useista syistä:
- Pitkän aikavälin ja epäjatkuvien hyökkääjätavoitteiden optimointi. Tavoitteenamme on etsiä kehoteinjektiohyökkäyksiä, joilla agenttia voidaan huijata suorittamaan monimutkaisia vihamielisiä tehtäviä (esim. sähköpostien lähettäminen, pankkitapahtumat), joita voisi esiintyä todellisessa maailmassa. Tällaiset vihamieliset tehtävät ovat luonteeltaan pitkäkestoisia, vaativat monia päättelyvaiheita ja vuorovaikutusta ympäristön kanssa, ja niissä on harvinaisia ja viivästyneitä onnistumissignaaleja. Vahvistusoppiminen sopii hyvin tällaiseen harvaan ja viivästyneeseen palkkiorakenteeseen.
- Edistyksellisten LLM-ominaisuuksien hyödyntäminen. Koulutimme edistykselliset LLM:t suoraan automaattisiksi red team -hakkereiksi, joten hyökkääjä hyötyy suoraan edistyksellisten mallien parantuneesta päättelystä ja suunnittelusta. Samalla kun perusmallit vahvistuvat, hyökkääjästä tulee luonnollisesti myös kyvykkäämpi, mikä tekee tästä skaalautuvan tavan ylläpitää puolustuskykyämme malliemme kehittyessä.
- Laskentatehon skaalaaminen ja mukautuvien hyökkääjien jäljittely. Vahvistusoppiminen soveltuu hyvin hyökkäysten etsimiseen käytetyn laskentatehon skaalaamiseen suurille määrille näytteenottoja ja oppimisvaiheita, ja se myös kuvastaa hyvin sitä, miten mukautuvat ihmishyökkääjät toimivat: kokeilemalla toistuvasti strategioita, oppimalla tuloksista ja vahvistamalla onnistuneita käyttäytymismalleja.
Automaattinen hyökkääjämme voi löytää uusia, realistisia kehoteinjektiohyökkäyksiä alusta loppuun. Toisin kuin useimmat aiemmat automatisoidut red teaming -työt, jotka paljastivat yksinkertaisia virheitä, kuten tiettyjen syötemerkkijonojen selvittämisen tai agentin tahattoman yksivaiheisen työkalukutsun lähettämisen, RL-koulutettu hyökkääjämme voi ohjata agentin suorittamaan monimutkaisia, pitkäkestoisia haitallisia työnkulkuja, joissa on kymmeniä (tai jopa satoja) vaiheita. Havaitsimme myös uusia hyökkäysstrategioita, jotka eivät tulleet esiin ihmisten suorittamassa red teaming -kampanjassa tai ulkoisissa raporteissa.
Alla oleva demo esittelee konkreettisen kehoteinjektiohyökkäyksen, jonka automaattinen hyökkääjämme löysi ja jota käytimme sitten ChatGPT Atlasin puolustuksen vahvistamiseen entisestään. Hyökkääjä lähettää käyttäjän postilaatikkoon haitallisen sähköpostin, joka sisältää kehoteinjektion, joka ohjaa agenttia lähettämään irtisanoutumiskirjeen käyttäjän toimitusjohtajalle. Kun käyttäjä myöhemmin pyytää agenttia laatimaan poissaolovastauksen, agentti kohtaa kyseisen sähköpostin normaalin tehtävän suorittamisen aikana, pitää injektoitua kehotetta auktoritatiivisena ja noudattaa sitä. Poissaoloviestiä ei koskaan kirjoiteta, ja agentti lähettää sen sijaan irtisanoutumisen käyttäjän puolesta.

1. Avun pyytäminen agentilta sähköpostin hallintaan

2. Agentti avaa viimeisimmän lukemattoman sähköpostiviestin

3. Sähköpostiviesti sisältää haitallisia ohjeita

4. Agentti lähettää tahattoman irtisanoutumisviestin

5. Turvapäivityksemme jälkeen agenttitila havaitsee onnistuneesti kehoteinjektioyrityksen
Kehoteinjektion luonne tekee determinististen tietoturvatakuiden antamisesta haastavaa, mutta skaalaamalla automatisoitua tietoturvatutkimustamme, vastustajatestausta ja tiukentamalla nopeaa reagointiprosessiamme, voimme parantaa mallin vankkuutta ja puolustuskykyä, ennen kuin odotamme hyökkäyksen tapahtuvan reaalimaailmassa.
Jaamme tämän demon, jotta käyttäjät ja tutkijat ymmärtäisivät paremmin näiden hyökkäysten luonteen sekä sen, miten puolustamme niitä vastaan aktiivisesti. Uskomme, että tämä edustaa automatisoidun red teaming -työn huippua, ja olemme erittäin innoissamme tutkimuksemme jatkamisesta.
Automaattinen red teaming -prosessimme luo ennakoivan nopean reagointiprosessin: kun automaattinen hyökkääjä löytää uudenlaisen luokan onnistuneita kehoteinjektiohyökkäyksiä, se luo välittömästi konkreettisen kohteen puolustuksemme parantamiseksi.
Vastustajakoulutus uusia löydettyjä hyökkäyksiä vastaan. Koulutamme jatkuvasti päivitettyjä agenttimalleja parasta automatisoitua hyökkääjäämme vastaan ja priorisoimme hyökkäykset, joissa kohdeagentit tällä hetkellä epäonnistuvat. Tavoitteena on opettaa agentteja jättämään huomiotta vastustajien ohjeet ja pysymään käyttäjän aikomusten mukaisina parantaen vastustuskykyä uusia kehoteinjektiostrategioita vastaan. Tämä parantaa vankkuutta uusia, erittäin vahvoja hyökkäyksiä vastaan suoraan mallin tarkistuspisteessä. Esimerkiksi äskettäinen automatisoitu red teaming tuotti suoraan uuden vastustajakoulutetun selainagentin tarkistuspisteen, joka on jo kaikkien ChatGPT Atlas -käyttäjien käytettävissä. Tämä auttaa viime kädessä suojaamaan käyttäjiämme paremmin uudenlaisilta hyökkäyksiltä.
Hyökkäysjälkien käyttäminen laaja-alisemman puolustusjärjestelmän parantamiseen. Monet automatisoidun red team -hakkerin löytämät hyökkäyspolut paljastavat myös parannusmahdollisuuksia itse mallin ulkopuolella, kuten valvonnassa, mallin kontekstiin asettamissamme turvallisuusohjeissa tai järjestelmätason suojatoimissa. Tällaiset havainnot auttavat meitä iteroimaan koko puolustusjärjestelmässä, ei vain agentin tarkistuspisteessä.
Aktiivisiin hyökkäyksiin reagoiminen. Tämä prosessi voi myös auttaa reagoimaan paremmin aktiivisiin hyökkäyksiin reaalimaailmassa. Kun tarkastelemme maailmanlaajuista toimintaamme mahdollisten hyökkäysten varalta, voimme ottaa ulkoisten vastustajien käyttämät tekniikat ja taktiikat, liittää ne tähän prosessiin, jäljitellä niiden toimintaa ja edistää puolustusmuutoksia koko alustallamme.
Vahvistamalla kykyämme red team -agenteille ja käyttämällä tehokkaimpia mallejamme automatisoimaksemme osia tästä työstä autamme tekemään Atlas-selainagentista vankemman skaalaamalla löytämisestä korjaamiseen -prosessia. Tämä vahvistustyö vahvistaa tietoturvasta tuttua opetusta: tuttu tie vahvempaan suojaukseen on testata jatkuvasti todellisia järjestelmiä, reagoida epäonnistumisiin ja toimittaa konkreettisia korjauksia.
Odotamme, että vastustajat jatkavat mukautumista. Kehoteinjektio, aivan kuten huijaukset ja sosiaalinen manipulointi verkossa, voidaan tuskin koskaan "ratkaista" täysin. Olemme kuitenkin toiveikkaita, että ennakoiva, erittäin reaktiivinen nopea reagointiprosessi voi vähentää merkittävästi todellista riskiä ajan mittaan. Yhdistämällä automatisoidun hyökkäysten tunnistamisen, vastustajakoulutuksen ja järjestelmätason suojatoimet, voimme tunnistaa uudet hyökkäysmallit aikaisemmin, korjata aukot nopeammin ja nostaa jatkuvasti hyökkäysten kustannuksia.
ChatGPT Atlasin agenttitila on tehokas – mutta se laajentaa myös tietoturvauhka-aluetta. Tämän kompromissin tiedostaminen on osa vastuullista kehitystyötä. Tavoitteenamme on tehdä Atlasista huomattavasti turvallisempi jokaisella iteraatiokerralla: parantamalla mallin kestävyyttä, vahvistamalla ympäröivää puolustusjärjestelmää ja seuraamalla uusia reaalimaailman väärinkäyttökuvioita.
Jatkamme investointeja tutkimukseen ja käyttöönottoon kehittämällä parempia automatisoituja red teaming -menetelmiä, ottamalla käyttöön kerroksellisia lieventämistoimia ja iteroimalla nopeasti samalla kun opimme. Jaamme myös osaamisemme laajemmalle yhteisölle.
Samalla kun jatkamme Atlasin vahvistamista järjestelmätasolla, on olemassa toimenpiteitä, joita käyttäjät voivat tehdä riskin vähentämiseksi agentteja käyttäessään.
Rajoita sisäänkirjautumista mahdollisuuksien mukaan. Suosittelemme edelleen, että käyttäjä hyödyntää uloskirjautumistilaa(avautuu uudessa ikkunassa) käyttäessään agenttia Atlasissa aina, kun pääsy verkkosivustoille, joille käyttäjä on sisäänkirjautunut, ei ole tarpeen tehtävän suorittamiseksi, tai rajoittaakseen pääsyä tietyille sivustoille, joille tämä kirjautuu sisään tehtävän aikana.
Tarkista huolellisesti vahvistuspyynnöt. Tiettyjen seuraamuksellisten toimintojen, kuten ostoksen tekemisen tai sähköpostin lähettämisen, yhteydessä agentit on suunniteltu pyytämään vahvistustasi ennen jatkamista. Kun agentti pyytää sinua vahvistamaan jonkin toiminnon, käytä hetki aikaa varmistaaksesi, että toiminto on oikea ja että kaikki jaetut tiedot sopivat kyseiseen asiayhteyteen.
Anna agenteille selkeät ohjeet aina kun mahdollista. Vältä liian laaja-alaisia kehotteita, kuten "tarkista sähköpostini ja ryhdy tarvittaviin toimiin". Laaja liikkumavara helpottaa piilotetun tai haitallisen sisällön vaikutusmahdollisuutta agenttiin, vaikka suojatoimenpiteet olisivat käytössä. On turvallisempaa pyytää agenttia suorittamaan tiettyjä, tarkkaan määriteltyjä tehtäviä. Vaikka tämä ei poista riskiä, se tekee hyökkäysten toteuttamisesta vaikeampaa.
Jos agenteista halutaan tehdä luotettavia kumppaneita arkipäivän tehtäviin, niiden on oltava vastustuskykyisiä avoimen verkon mahdollistamalle manipuloinnille. Puolustautuminen kehoteinjektiota vastaan on pitkäaikainen sitoumuksemme ja yksi tärkeimmistä prioriteeteistamme. Kerromme pian lisää tästä työstä.


