Siirry pääsisältöön
OpenAI

7. marraskuuta 2025

Turvallisuus

Kehoteinjektioiden ymmärtäminen: edistynyt tietoturvahaaste

Tekoälytyökalut alkavat tehdä muutakin kuin vain vastata kysymyksiin. Ne voivat nyt selata verkkoa, auttaa tutkimuksissa, suunnitella matkoja ja auttaa ostamaan tuotteita. Kun ne kehittyvät entistä kyvykkäämmiksi ja pystyvät pääsemään käsiksi tietoihisi muissa sovelluksissa sekä suorittamaan toimia puolestasi, syntyy uusia tietoturvahaasteita. Keskitymme erityisesti kehoteinjektioon.

Kaavio, joka havainnollistaa, miten kehoteinjektio-hyökkäys toimii. Vasemmalla on hymyilevän käyttäjän kuvake, johon on merkitty teksti ”Käyttäjä pyytää tekoälyltä apua tehtävään.” Nuoli osoittaa keskelle, jossa tietokoneen näytön kuvakkeessa lukee ”Tekoäly näkee verkkosivuston hyökkäyksen”, ja sen yläpuolella pieni hattupäinen, virnistävä hahmo tekstillä ”Hyökkääjä lisäsi kehoteinjektion.” Toinen nuoli osoittaa oikealle ja näyttää asiakirjakuvakkeen, jossa on varoituskolmio ja teksti ”Tekoäly huijattiin tekemään tahatonta toimintaa”. Prosessi havainnollistaa, miten hyökkääjä voi manipuloida tekoälyä injektoitujen kehotteiden avulla.

Mikä on kehoteinjektio?

Kehoteinjektio on keskustelevalle tekoälylle tyypillinen sosiaalisen manipuloinnin hyökkäys. Varhaiset tekoälyjärjestelmät olivat keskusteluja yhden käyttäjän ja yhden tekoälyagentin välillä. Nykyisissä tekoälytuotteissa keskustelusi saattaa sisältää sisältöä monista lähteistä, kuten internetistä. Ajatus siitä, että kolmas osapuoli (joka ei ole käyttäjä eikä tekoäly) voisi johtaa mallia harhaan syöttämällä keskustelukontekstiin haitallisia ohjeita, johti termiin ”kehoteinjektio”.

Samalla tavalla kuin tietojenkalasteluviestit tai verkkohuijaukset yrittävät huijata ihmisiä luovuttamaan arkaluonteisia tietoja, kehoteinjektiot yrittävät huijata tekoälyjä tekemään jotain, mitä ei ole pyydetty.

Kuvittele, että olet pyytänyt tekoälyä auttamaan sinua lomamatkan suunnittelussa verkossa, ja sitä tehdessään se kohtaa harhaanjohtavaa sisältöä tai haitallisia ohjeita, jotka on piilotettu verkkosivulle, esimerkiksi listaukseen tai arvosteluun lisättyyn kommenttiin. Sisältö voidaan laatia huolellisesti yrityksenä huijata tekoälyä suosittelemaan väärää ilmoitusta tai, mikä pahempaa, varastamaan luottokorttitietosi.

Nämä ovat vain muutamia esimerkkejä ”kehoteinjektio”-hyökkäyksistä – haitallisista ohjeista, jotka on suunniteltu huijaamaan tekoälyä tekemään jotain, mitä et tarkoittanut, ja jotka on usein piilotettu tavalliseen sisältöön, kuten verkkosivulle, asiakirjaan tai sähköpostiin.

Nämä riskit kasvavat, kun tekoälyllä on pääsy yhä arkaluonteisempaan tietoon ja se ottaa yhä enemmän aloitteita ja suorittaa yhä pidempiä tehtäviä.

Yhteenveto

Mitä pyysit tekoälyltä tekemään

Mitä hyökkääjä tekee

Mahdollinen lopputulos, jos hyökkäys onnistuu

Pyydät tekoälyä etsimään asuntoja, ja siihen tehdään kehoteinjektio, jotta se suosittelee ilmoitusta, joka ei ole sinulle paras vaihtoehto.

Pyydät tekoälyä etsimään asuntoja tiettyjen kriteerien perusteella.

Hyökkääjä on lisännyt asuntoilmoitukseen kehoteinjektiohyökkäyksen, jolla tekoälyä huijataan luulemaan, että hyökkääjän ilmoitus on valittava käyttäjän ilmoittamista mieltymyksistä riippumatta.

Jos hyökkäys onnistuu, tekoäly saattaa virheellisesti suositella mieltymystesi perusteella epäoptimaalista asuntoilmoitusta.

Pyydät tekoälyagenttia vastaamaan yön aikana saamiisi sähköposteihin, ja se päätyy jakamaan pankkitiliotteesi.

Pyydät tekoälyagenttia vastaamaan yleisesti yön aikana saapuneisiin sähköposteihisi, koska olet kiireinen tänä aamuna.

Katso alla “Kun mahdollista, anna agentille selkeät ohjeet”


Hyökkääjä lähetti sinulle sähköpostin, joka sisältää harhaanjohtavaa tietoa ja huijaa mallin löytämään pankkitiliotteesi ja jakamaan ne hyökkääjän kanssa.

Jos hyökkäys onnistuu, agentti saattaa etsiä sähköpostistasi esimerkiksi tiliotteita (joihin annoit pääsyn tehtävää varten) ja jakaa ne hyökkääjän kanssa.

Lähestymistapamme käyttäjien suojaamiseen

Puolustautuminen kehoteinjektioita vastaan on haaste koko tekoälyalalle ja keskeinen painopiste OpenAI:lla. Vaikka odotamme vastustajien jatkavan tällaisten hyökkäysten kehittämistä, rakennamme puolustuksia, jotka on suunniteltu suorittamaan käyttäjän tarkoittama tehtävä, vaikka joku yrittäisi aktiivisesti harhauttaa heitä. Kyky on välttämätön, jotta yleisen tekoälyn (AGI) hyödyt voidaan saavuttaa turvallisesti.

Suojellaksemme käyttäjiämme ja parantaaksemme malliemme kykyä torjua näitä hyökkäyksiä, käytämme monikerroksista lähestymistapaa, joka sisältää seuraavat toimenpiteet:

Turvallisuuskoulutus

Haluamme tekoälyn, joka tunnistaa kehoteinjektioita eikä lankea niihin. Kestävyys vihamielisiä hyökkäyksiä vastaan on kuitenkin pitkään ollut koneoppimisen ja tekoälyn haaste, mikä tekee tästä vaikean ja ratkaisemattoman ongelman. Olemme kehittäneet tutkimuksen nimeltä Ohjehierarkia edistääksemme mallien kykyä erottaa luotettavat ja epäluotettavat ohjeet toisistaan. Jatkamme uusien lähestymistapojen kehittämistä mallien kouluttamiseksi tunnistamaan paremmin kehoteinjektioiden kaavat, jotta ne voivat jättää ne huomiotta tai ilmoittaa niistä käyttäjille. Yksi käyttämistämme tekniikoista on automatisoitu hyökkäävä tietoturvatestaus, jota olemme tutkineet(avautuu uudessa ikkunassa) jo vuosia kehittääksemme uusia kehoteinjektiohyökkäyksiä.

Seuranta

Olemme kehittäneet useita automatisoituja tekoälypohjaisia valvontamekanismeja, jotka tunnistavat ja estävät kehoteinjektiohyökkäyksiä. Nämä täydentävät turvallisuuskoulutuksen lähestymistapoja, koska ne voidaan päivittää nopeasti estämään nopeasti kaikki uudet hyökkäykset, jotka havaitsemme. Nämä valvontamekanismit eivät ainoastaan auta tunnistamaan käyttäjiimme kohdistuvia mahdollisia kehoteinjektiohyökkäyksiä, vaan niiden avulla voimme myös havaita alustallamme tehtävää vihamielistä kehoteinjektiotutkimusta ja -testausta ennen kuin tällaiset hyökkäykset pääsevät leviämään.

Turvatoimet

Olemme suunnitelleet tuotteemme ja infrastruktuurimme useilla päällekkäisillä tietoturvatoimenpiteillä, jotka auttavat suojaamaan käyttäjätietoja. Nämä ominaisuudet, joita tarkastelemme tulevissa julkaisuissa tarkemmin teknisestä näkökulmasta, on räätälöity tuotekohtaisesti. Esimerkiksi auttaaksemme sinua välttämään epäluotettavia sivustoja, pyydämme sinua hyväksymään tietyt linkit ChatGPT:ssä, erityisesti verkkosivustoilla, jotka pyytävät meitä olemaan luetteloimatta niitä(avautuu uudessa ikkunassa), ennen kuin niitä voi avata. Kun tekoälymme käyttää työkaluja muiden ohjelmien tai koodin suorittamiseen (kuten Canvasissa tai kehitystyökalussamme Codexissa), käytämme tekniikkaa nimeltä hiekkalaatikointi estääksemme mallia tekemästä haitallisia muutoksia, jotka saattavat johtua kehoteinjektiosta.

Hallinnan antaminen käyttäjille

Tuotteissamme on integroituja hallintatoimintoja, joiden avulla käyttäjät voivat suojata itseään. Esimerkiksi ChatGPT Atlas -sovelluksessa voit valita kirjautumattoman tilan, joka mahdollistaa ChatGPT‑agentin tehtävien suorittamisen ilman kirjautumista sivustoille. ChatGPT‑agentti myös keskeyttää ja pyytää vahvistusta ennen arkaluonteisen toiminnon suorittamista, kuten ostoksen loppuun saattamista. Kun agentti toimii arkaluonteisilla sivustoilla, olemme ottaneet käyttöön myös ”Watch Mode” -tilan, joka varoittaa sinua sivuston arkaluonteisuudesta ja edellyttää, että välilehti on aktiivinen, jotta voit seurata agentin toimintaa. Agentti keskeyttää toiminnan, jos siirryt pois välilehdeltä, joka sisältää arkaluonteisia tietoja. Tämä varmistaa, että pysyt tietoisena agentin suorittamista toimista ja hallitset niitä.

Hyökkäävä tietoturvatestaus

Suoritamme laajamittaista hyökkäävää tietoturvatestausta sisäisten ja ulkoisten tiimien kanssa testataksemme ja parantaaksemme puolustustamme, jäljitelläksemme hyökkääjän toimintaa ja löytääksemme uusia tapoja parantaa tietoturvaamme. Tämä sisältää tuhansia tunteja, jotka on erityisesti kohdistettu kehoteinjektioon. Uusia tekniikoita ja hyökkäyksiä löydettyämme tiimimme puuttuvat ennakoivasti tietoturvahaavoittuvuuksiin ja parantavat mallimme suojauskeinoja.

Bug bounty -haavoittuvuuspalkkio-ohjelma

Kannustaaksemme vilpittömiä riippumattomia tietoturvatutkijoita auttamaan meitä löytämään uusia kehoteinjektioita ja -hyökkäyksiä, tarjoamme taloudellisia palkkioita bug bounty -ohjelmamme(avautuu uudessa ikkunassa) kautta, kun he osoittavat realistisen hyökkäyspolun, joka voisi johtaa käyttäjätietojen tahattomaan paljastumiseen. Kannustamme ulkopuolisia avustajia tuomaan nämä ongelmat nopeasti esille, jotta voimme ratkaista ne ja vahvistaa puolustustamme entisestään.

Anna käyttäjien päättää

Koulutamme käyttäjiä tiettyjen tuotteen ominaisuuksien käytön riskeistä, jotta he voivat tehdä tietoon perustuvia päätöksiä. Esimerkiksi, kun yhdistät ChatGPT:n muihin sovelluksiin, kerromme, mitä tietoja voidaan käyttää, miten niitä voidaan käyttää ja mitä riskejä voi ilmetä, kuten sivuston yritys varastaa tietosi, sekä linkin, josta voit oppia pysymään turvassa. Annamme organisaatioille myös mahdollisuuden hallita, mitä ominaisuuksia käyttäjät voivat ottaa käyttöön tai käyttää työtiloissaan.

Toimenpiteitä, joilla voit pysyä turvassa

Kehoteinjektio on edistynyt tietoturvahaaste, jonka odotamme kehittyvän ajan myötä. Uudet älykkyyden ja kykyjen tasot edellyttävät teknologian, yhteiskunnan ja riskienhallintastrategian kehittymistä rinnakkain. Ja kuten tietokonevirusten kohdalla 2000-luvun alussa, mielestämme on tärkeää, että kaikki ymmärtävät kehoteinjektioiden uhan ja miten riskiä voidaan hallita, jotta voimme kaikki hyödyntää tätä teknologiaa turvallisesti. Tietoisena pysyminen ja varovaisuus auttavat pitämään tietosi turvallisempina, kun käytät tekoälyä ja agenttitoimintoja, jotka voivat toimia puolestasi.

Käytä sisäänrakennettuja ominaisuuksia rajoittaaksesi pääsyä arkaluonteisiin tietoihin.

Rajoita mahdollisuuksien mukaan agentin pääsy vain niihin arkaluonteisiin tietoihin tai tunnistetietoihin, joita se tarvitsee tehtävän suorittamiseen. Esimerkiksi, kun käytät ChatGPT Atlaksen agenttitilaa lomamatkojen tutkimiseen, ja agentti vain tekee tutkimusta eikä tarvitse kirjautumistunnuksia, käytä ”kirjautumaton” -tilaa.

Kun agentti pyytää vahvistusta, tarkista huolellisesti, että se on toimimassa oikein.

Suunnittelemme usein agentteja pyytämään sinulta lopullista vahvistusta ennen kuin suoritetaan tiettyjä merkittäviä toimia, kuten ostoksen tekeminen tai sähköpostin lähettäminen. Kun agentti pyytää sinua vahvistamaan toiminnon, tarkista huolellisesti, että toiminto vaikuttaa oikealta ja että jaettavat tiedot ovat sopivia jaettavaksi kyseisessä asiayhteydessä.

Kun agentti toimii arkaluonteisella sivustolla, kuten pankissasi, tarkkaile agentin toimintaa. Tämä on kuin valvoisi itseajavaa autoa pitämällä kädet ohjauspyörällä.

Anna agentille nimenomaiset ohjeet aina kun mahdollista

Antamalla agentille hyvin laajan ohjeen, kuten "tarkista sähköpostini ja ryhdy tarvittaviin toimiin", voi piilotettu haitallinen sisältö helpommin johtaa mallia harhaan, vaikka se on suunniteltu tarkistamaan sinulta ennen arkaluonteisiin toimiin ryhtymistä.

On turvallisempaa pyytää agenttiasi tekemään tiettyjä asioita eikä antaa sille laajaa liikkumavaraa noudattaa mahdollisesti haitallisia ohjeita muualta, kuten sähköposteista. Vaikka tämä ei takaa, ettei hyökkäyksiä tapahdu, se vaikeuttaa hyökkääjien onnistumista.

Pysy ajan tasalla ja noudata tietoturvan parhaita käytäntöjä

Kun tekoälyteknologia kehittyy, uusia riskejä ja suojatoimia ilmestyy. Seuraa OpenAI:n ja muiden luotettavien lähteiden päivityksiä oppiaksesi parhaista käytännöistä.

Katse tulevaisuuteen

Kehoteinjektio on edelleen edistynyt, haastava tutkimusongelma, ja aivan kuten perinteiset verkkohuijaukset, odotamme työmme jatkuvan. Vaikka hyökkääjät eivät ole vielä ottaneet tätä tekniikkaa merkittävässä määrin käyttöön, odotamme, että vastapuolet käyttävät paljon aikaa ja resursseja löytääkseen keinoja saada tekoälyt lankeamaan näihin hyökkäyksiin. Jatkamme merkittävää investointia tuotteidemme turvallisuuden parantamiseen ja tutkimukseen, joka edistää tekoälyn kestävyyttä tätä riskiä vastaan. Jaamme päivityksiä sitä mukaa kuin saamme lisätietoja, mukaan lukien jatkuva edistyminen turvallisuustyössämme tällä alueella. Esimerkiksi olemme laatimassa pian julkaistavaa raporttia, jossa kerromme tarkemmin siitä, miten havaitsemme, jos tekoälysi viestintä internetin kanssa välittää keskustelustasi peräisin olevia tietoja.

Tavoitteenamme on tehdä näistä järjestelmistä yhtä luotettavia ja turvallisia kuin työskentely luotettavimman ja tietoturvatietoisen kollegan tai ystävän kanssa. Jatkamme oppimista todellisesta käytöstä, iteroimme turvallisesti ja julkaisemme oppimamme sitä mukaa, kun teknologia kehittyy.