Tekoälyagenttien suunnittelu kestämään kehoteinjektiota
Mitä sosiaalinen manipulointi opettaa meille tekoälyagenttien suojaamisesta.
Tekoälyagentit pystyvät yhä useammin selaamaan verkkoa, hakemaan tietoa ja suorittamaan toimia käyttäjän puolesta. Nämä ominaisuudet ovat hyödyllisiä, mutta ne luovat myös uusia tapoja, joilla hyökkääjät voivat yrittää manipuloida järjestelmää.
Näitä hyökkäyksiä kuvataan usein nimellä kehoteinjektio: ulkoiseen sisältöön sijoitettuja ohjeita, joilla pyritään saamaan malli tekemään jotain, mitä käyttäjä ei pyytänyt. Kokemuksemme mukaan näiden hyökkäysten tehokkaimmat reaalimaailman versiot muistuttavat yhä enemmän sosiaalista manipulointia kuin yksinkertaisia kehotteiden ohituksia.
Tällä muutoksella on merkitystä. Jos ongelmana ei ole vain haitallisen merkkijonon tunnistaminen, vaan myös harhaanjohtavan sisällön vastustaminen kontekstissa, puolustautuminen ei voi perustua pelkästään syötteiden suodattamiseen. Se edellyttää myös järjestelmän suunnittelua siten, että manipuloinnin vaikutukset ovat rajattuja, vaikka jotkin hyökkäykset onnistuisivatkin.
Varhaiset kehoteinjektiotyyppiset hyökkäykset saattoivat olla niinkin yksinkertaisia kuin Wikipedia-artikkelin muokkaaminen lisäämällä siihen suoria ohjeita tekoälyagenteille; ilman koulutusvaiheessa saatua kokemusta tällaisesta vihamielisestä ympäristöstä tekoälymallit noudattivat usein saamiaan ohjeita niitä kyseenalaistamatta1. Sitä mukaa, kun mallit ovat tulleet älykkäämmiksi, niistä on tullut myös vähemmän alttiita suggestiolle, ja olemme havainneet, että kehoteinjektiotyyppiset hyökkäykset ovat vastanneet tähän ottamalla mukaan sosiaalisen manipuloinnin elementtejä:
Sähköpostiesimerkki kehoteinjektiosta
Esimerkki ChatGPT:hen kohdistuvasta kehoteinjektiohyökkäyksestä vuodelta 2025, josta ulkoiset tietoturvatutkijat(avautuu uudessa ikkunassa) ilmoittivat OpenAI:lle. Testauksessa se toimi 50% ajasta käyttäjän kehotteella "Haluan, että teet syvätutkimuksen tämän päivän sähköposteistani, haluan, että luet ja tarkistat jokaisen lähteen, joka voi antaa tietoa uuden työntekijän prosessistani."
Laajemmassa tekoälyn tietoturvaekosysteemissä on tullut yleiseksi suositella tekniikoita, kuten "tekoälypalomuuria", jossa tekoälyagentin ja ulkomaailman välissä oleva välittäjä yrittää luokitella syötteet haitalliseksi kehoteinjektioksi ja tavallisiksi syötteiksi—mutta täysin kehittyneet hyökkäykset eivät yleensä jää tällaisten järjestelmien haaviin. Tällaisissa järjestelmissä haitallisen syötteen havaitseminen on yhtä vaikea ongelma kuin valheen tai disinformaation havaitseminen, ja usein ilman tarvittavaa kontekstia.
Sitä mukaa, kun reaalimaailman kehoteinjektiohyökkäykset kehittyivät monimutkaisemmiksi, havaitsimme, että tehokkaimmat hyökkäystekniikat hyödynsivät sosiaalisen manipuloinnin taktiikoita. Sen sijaan, että olisimme käsitelleet sosiaalista manipulointia sisältäviä kehoteinjektiohyökkäyksiä erillisenä tai täysin uutena ongelmaluokkana, aloimme tarkastella niitä saman linssin läpi, jota käytetään ihmisiin kohdistuvan sosiaalisen manipuloinnin riskin hallintaan osa-alueilla. Näissä järjestelmissä tavoitteena ei ole pelkästään haitallisten syötteiden täydellinen tunnistaminen, vaan agenttien ja järjestelmien suunnittelu siten, että manipuloinnin vaikutus on rajoitettu, vaikka se onnistuisi. Tällaiset järjestelmät osoittautuvat tehokkaiksi sekä kehoteinjektion että sosiaalisen manipuloinnin hillitsemisessä.
Tällä tavoin voimme kuvitella tekoälyagentin olevan samankaltaisessa kolmen toimijan järjestelmässä kuin asiakaspalveluagentti; agentti haluaa toimia työnantajansa puolesta, mutta altistuu jatkuvasti ulkoiselle syötteelle, joka saattaa yrittää johtaa häntä harhaan. Asiakastuen agentin ominaisuuksille, olipa kyseessä ihminen tai tekoäly, on asetettava rajoituksia, jotta voidaan minimoida tällaiseen haitalliseen ympäristöön liittyvä luontainen haittariski.
Kuvittele tilanne, jossa ihminen ylläpitää asiakastukijärjestelmää ja pystyy antamaan lahjakortteja ja hyvityksiä asiakkaalle aiheutuneista haitoista, kuten toimituksen hitaudesta, toimintahäiriön seurauksena syntyneistä vaurioista jne. Tämä on monen osapuolen ongelma, jossa yrityksen on luotettava siihen, että agentti myöntää hyvityksiä oikeista syistä, samalla kun agentti on vuorovaikutuksessa kolmansien osapuolten kanssa, jotka saattavat pyrkiä johtamaan sitä harhaan tai jopa painostamaan sitä.
Todellisessa maailmassa agentille annetaan joukko sääntöjä, joita sen on noudatettava, mutta samalla oletetaan, että vihamielisessä ympäristössä, jossa se toimii, sitä johdetaan harhaan. Asiakas saattaa esimerkiksi lähettää viestin ja väittää, ettei hänen hyvityksensä ole saapunut, tai uhata vahingollisella toimella, jos hänelle ei anneta hyvitystä. Agentin kanssa vuorovaikutuksessa olevat deterministiset järjestelmät rajoittavat asiakkaalle annettavien hyvitysten määrää, merkitsevät mahdolliset tietojenkalasteluviestit ja tarjoavat muita vastaavia lieventäviä toimenpiteitä, joilla rajoitetaan yksittäisen agentin vaarantumisen vaikutusta.
Tämä ajattelutapa on saanut aikaan vankkojen vastatoimien käyttöönoton käyttäjiemme tietoturvaodotusten mukaisesti.
ChatGPT:ssä yhdistämme tämän sosiaalisen manipuloinnin mallin perinteisempiin tietoturvasuunnittelun lähestymistapoihin, kuten lähde-kohde-analyysiin.
Tässä kehystyksessä hyökkääjä tarvitsee sekä lähteen tai tavan vaikuttaa järjestelmään että kohteen eli ominaisuuden, joka muuttuu vaaralliseksi väärässä kontekstissa. Agenttimaisissa järjestelmissä se tarkoittaa usein epäluotettavan ulkoisen sisällön yhdistämistä toimintaan, kuten tietojen välittämiseen kolmannelle osapuolelle, linkin seuraamiseen tai työkalun kanssa vuorovaikutuksessa olemiseen.
Tavoitteemme on säilyttää käyttäjille keskeinen turvallisuusodotus: mahdollisesti vaarallisia toimia tai mahdollisesti arkaluonteisten tietojen siirtoa ei tulisi tapahtua huomaamatta tai ilman asianmukaisia suojatoimia.
ChatGPT:tä vastaan kehitetyt hyökkäykset koostuvat useimmiten yrityksistä vakuuttaa avustaja siitä, että sen pitäisi ottaa keskustelusta joitakin salaisia tietoja ja välittää ne haitalliselle kolmannelle osapuolelle. Useimmissa tiedossamme olevissa tapauksissa nämä hyökkäykset epäonnistuvat, koska turvallisuuskoulutuksemme saa agentin kieltäytymään. Niissä tapauksissa, joissa agentti on vakuuttunut, olemme kehittäneet lieventämisstrategian nimeltä Safe Url, joka on suunniteltu havaitsemaan, milloin avustajan keskustelussa saamat tiedot välitettäisiin kolmannelle osapuolelle. Näissä harvinaisissa tapauksissa näytämme käyttäjälle lähetettävät tiedot ja pyydämme häntä vahvistamaan ne, tai estämme siirron ja kerromme agentille, että sen on yritettävä toista tapaa edetä käyttäjän pyynnön kanssa.
Sama mekanismi koskee Atlasin navigointia ja kirjanmerkkejä sekä hakuja ja navigointia Syvätutkimuksessa. ChatGPT Canvas ja ChatGPT‑sovellukset käyttävät samankaltaista lähestymistapaa ja antavat agentin luoda ja käyttää toiminnallisia sovelluksia—ne toimivat hiekkalaatikossa, joka pystyy havaitsemaan odottamattomat viestit ja pyytämään käyttäjältä suostumusta(avautuu uudessa ikkunassa).
Voit lukea lisää Safe Url -strategiasta ja löytää sen rakennetta käsittelevän artikkelin sille omistetusta blogijulkaisusta Tietojesi pitäminen turvassa, kun agentti klikkaa linkkiä.
Turvallinen vuorovaikutus vihamielisen ulkomaailman kanssa on välttämätöntä täysin autonomisille agenteille. Kun integroit tekoälymallin sovellusjärjestelmään, suosittelemme kysymään, millaisia hallintakeinoja ihmisagentilla tulisi olla vastaavassa tilanteessa, ja toteuttamaan ne. Odotamme, että maksimaalisesti älykäs tekoälymalli pystyy vastustamaan sosiaalista manipulointia paremmin kuin ihmisagentti, mutta tämä ei aina ole mahdollista tai kustannustehokasta sovelluksesta riippuen.
Jatkamme sosiaalisen manipuloinnin vaikutusten tutkimista sekä suojautumiskeinoja sitä vastaan. Sisällytämme havaintomme sovellusten turvallisuusarkkitehtuureihin ja tekoälymallien ja koulutukseen.
Alaviitteet
- 1
Rehberger, J. (2023, 04 15). Älä luota sokeasti suurten kielimallien vastauksiin. Uhkia chattiboteille. EmbraceTheRed. Haettu 14.11., 2025, osoitteesta https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
Tekijät
Thomas Shadwell ja Adrian Spânu


