Viipade süstimise mõistmine: tipptaseme turvalisuse väljakutse
Tehisintellekti tööriistad hakkavad tegema enamat kui ainult küsimustele vastama. Nad saavad nüüd sirvida veebi, aidata uurimistöös, planeerida reise ja aidata tooteid osta. Kui nad muutuvad võimekamaks, suutes pääseda ligi teie andmetele teistes rakendustes ja teha teie nimel toiminguid, tekivad uued turbeprobleemid. Üks, millele me tugevalt keskendume, on viipade süstimine.
Viipade süstimine on sotsiaalse manipuleerimise rünnak, mis on iseloomulik vestluslikule tehisintellektile. Varased tehisintellekti süsteemid olid ühe kasutaja ja ühe AI agendi vahelised vestlused. Tänapäeva tehisintellekti toodetes võib teie vestlus sisaldada sisu mitmetest allikatest, sealhulgas internetist. Mõte, et kolmas osapool (mitte kasutaja ega AI) võiks mudelit eksitada, süstides vestluse konteksti pahatahtlikke juhiseid, viis terminini „viipade süstimine“.
Samamoodi nagu andmepüügi e-kirjad või veebipettused püüavad inimesi petta tundlikku teavet välja andma, püüavad viipade süstimine petta tehisintellekte tegema midagi, mida te ei ole palunud.
Kujuta ette, et oled palunud tehisintellektil aidata sul internetis puhkuse kohta uurimistööd teha, ja kui see seda teeb, satub see eksitava sisu või kahjulike juhiste peale, mis on veebilehel peidetud, näiteks kuulutuse kommentaaris või arvustuses. Sisu võib olla hoolikalt koostatud, et püüda petta tehisintellekti soovitama valet kirjet või, mis veel hullem, varastada sinu krediitkaardiandmed.
Need on vaid mõned näited „viipade süstimise“ rünnakutest – kahjulikest juhistest, mis on loodud selleks, et petta tehisintellekti tegema midagi, mida te ei kavatsenud, ning mis on sageli peidetud tavalise sisu sisse, näiteks veebilehele, dokumenti või e-kirja.
Need riskid suurenevad, kui tehisintellektidel on juurdepääs tundlikumatele andmetele ning nad võtavad rohkem initsiatiivi ja täidavad pikemaajalisi ülesandeid.
Kokkuvõte | Mida sa palusid tehisintellektil teha | Mida ründaja teeb | Võimalik tulemus, kui rünnak õnnestub |
Sa palud tehisintellektil kortereid uurida ja see on viibaga süstitud, et soovitada kuulutust, mis ei ole sinu jaoks parim valik. | Sa palud tehisintellektil uurida kortereid teatud kriteeriumide alusel. | Ründaja on lisanud korterikuulutusse viipade süstimise rünnaku, et petta tehisintellekti arvama, et nende kuulutus tuleb valida hoolimata kasutaja väljendatud eelistustest. | Kui rünnak õnnestub, võib tehisintellekt sinu eelistuste põhjal ekslikult soovitada mitteoptimaalset korterikuulutust. |
Sa palub AI agent vastata sinu öö jooksul saabunud e-kirjadele, kuid see jagab lõpuks sinu pangaväljavõtteid. | Sa palud tehisintellekti agendil üldiselt vastata sinu öö jooksul saabunud e-kirjadele, sest sul on täna hommikul kiire. Vaata allpool „Kui võimalik, anna agendile täpsed juhised“ | Ründaja saatis teile e-kirja, mis sisaldab väärinfot, et petta mudelit leidma sinu pangaväljavõtted ja jagama neid ründajaga. | Kui rünnak õnnestub, võib agent otsida sinu e-kirjadest kõike, näiteks pangaväljavõtteid (millele andsite ülesande jaoks juurdepääsu) ja jagada need ründajaga. |
Viipade süstimise vastu kaitsmine on väljakutse kogu tehisintellekti tööstuses ja OpenAI keskne fookus. Kuigi me eeldame, et vastased jätkavad selliste rünnakute arendamist, loome kaitsemeetmeid, mis on mõeldud kasutaja kavandatud ülesande täitmiseks isegi siis, kui keegi püüab neid aktiivselt eksitada. See võimekus on hädavajalik AGI eeliste ohutuks saavutamiseks.
Kasutajate kaitsmiseks ja meie mudelite täiustamiseks nende rünnakute vastu võtame kasutusele mitmekihilise lähenemise, mis sisaldab järgmist:
Soovime tehisintellekti, mis tunneb ära viipade süstimise ega lange nende lõksu. Siiski on vastupidavus vasturünnakutele masinõppes ja tehisintellektis pikaajaline väljakutse, mis teeb sellest keerulise ja lahendamata probleemi. Oleme välja töötanud uurimistöö nimega Juhiste hierarhia, et töötada mudelite kallal, mis eristavad usaldusväärseid ja ebausaldusväärseid juhiseid. Jätkame uute lähenemisviiside väljatöötamist mudelite treenimiseks, et need paremini tuvastaksid viipade süstimise mustreid, et nad saaksid neid eirata või kasutajatele märku anda. Üks tehnikaid, mida me rakendame, on automatiseeritud lööktestimine, valdkond, mida oleme aastaid uurinud(avaneb uues aknas), et arendada uudseid viipade süstimise rünnakuid.
Oleme välja töötanud mitu automatiseeritud tehisintellektil põhinevat monitori, et tuvastada ja blokeerida viipade süstimise rünnakuid. Need täiendavad ohutuskoolituse lähenemisviise, kuna neid saab kiiresti ajakohastada, et kiiresti blokeerida kõik uued rünnakud, mille me avastame. Need monitorid mitte ainult ei aita tuvastada võimalikke viipade süstimise rünnakuid meie kasutajate vastu, vaid võimaldavad meil ka avastada meie platvormi kasutavat vastase viipade süstimise uurimist ja testimist enne, kui need rünnakud päriselus kasutusele võetakse.
Oleme loonud oma tooted ja infrastruktuuri mitmesuguste kattuvate turvameetmetega, et aidata kaitsta kasutaja andmeid. Need funktsioonid, mida uurime tulevastes postitustes tehnilisemalt, on kohandatud iga toote jaoks eraldi. Näiteks, et aidata sul vältida ebausaldusväärseid saite, palume sul ChatGPT‑s teatud lingid heaks kiita, eriti veebisaitidel, mis paluvad meil neid mitte kataloogida(avaneb uues aknas), enne kui neid saab külastada. Kui meie tehisintellekt kasutab tööriistu teiste programmide või koodi käitamiseks (nagu Canvasis või meie arendustööriistas Codex), kasutame tehnikat, mida nimetatakse liivakastimiseks, et vältida mudeli kahjulike muudatuste tegemist, mis võivad olla viipade süstimise tulemus.
Lisame oma toodetesse sisseehitatud kontrollimehhanismid, et aidata kasutajatel end kaitsta. Näiteks ChatGPT Atlases saad valida välja logitud režiimi, mis võimaldab ChatGPT agendil alustada ülesandeid ilma saitidele sisse logimata. ChatGPT agent peatub samuti ja küsib kinnitust enne tundlike sammude, näiteks ostu sooritamise, tegemist. Kui agent töötab tundlikel saitidel, oleme lisanud ka “Watch Mode’i”, mis teavitab sind saidi tundlikkusest ja nõuab, et vahekaart oleks aktiivne, et saaksid jälgida agendi tegevust. Agent peatub, kui liigud tundlikku teavet sisaldavalt vahekaardilt eemale. See tagab, et oled teadlik ja hoia kontrolli all seda, milliseid toiminguid agent sooritab.
Teostame ulatuslikku lööktestimist sise- ja välismeeskondadega, et testida ja täiustada oma kaitsemeetmeid, jäljendada ründaja käitumist ning leida uusi viise oma turvalisuse parandamiseks. See hõlmab tuhandeid tunde, mis on keskendunud konkreetselt viipade süstimisele. Kuna oleme avastanud uusi tehnikaid ja rünnakuid, tegelevad meie meeskonnad ennetavalt turvanõrkuste lahendamisega ja täiustavad meie mudeli leevendusmeetmeid.
Et julgustada heas usus tegutsevaid sõltumatuid turvauurijaid aitama meil avastada uusi viipade süstimise tehnikaid ja rünnakuid, pakume rahalisi preemiaid meie veahüvitise programmi(avaneb uues aknas) raames, kui nad näitavad realistlikku ründeteed, mis võiks viia kasutajaandmete tahtmatu avalikustamiseni. Me motiveerime väliseid kaastöötajaid kiiresti neid probleeme esile tooma, et saaksime need lahendada ja oma kaitset veelgi tugevdada.
Me harime kasutajaid teatud toote funktsioonide kasutamise riskidest, et nad saaksid teha teadlikke otsuseid. Näiteks kui ühendad ChatGPT teiste rakendustega, selgitame, millistele andmetele võib juurde pääseda, kuidas neid võib kasutada ja millised riskid võivad tekkida, näiteks kui sait püüab sinu andmeid varastada, ning lisame lingi, kust saad teada, kuidas turvalisemalt tegutseda. Anname organisatsioonidele ka kontrolli selle üle, milliseid funktsioone võivad kasutajad oma tööjaamades lubada või kasutada.
Viipade süstimine on tipptaseme turvalisuse väljakutse, mille puhul eeldame, et see areneb aja jooksul edasi. Uued intelligentsuse ja võimekuse tasemed nõuavad, et tehnoloogia, ühiskond ja riskide maandamise strateegia koos areneksid. Ja nagu arvutiviiruste puhul 2000. aastate alguses, peame oluliseks, et kõik mõistaksid viipade süstimise ohtu ja oskaksid riski juhtida, et saaksime kõik sellest tehnoloogiast turvaliselt kasu saada. Teadlikkuse säilitamine ja ettevaatlikkus aitavad hoida sinu andmeid turvalisemana, kui kasutad tehisintellekti ja agentseid funktsioone, mis võivad sinu nimel tegutseda.
Võimaluse korral piira agendi juurdepääs ainult nendele tundlikele andmetele või volitustele, mida ta vajab ülesande täitmiseks. Näiteks kui kasutate ChatGPT Atlases agendirežiimi puhkuse uurimiseks ja agent teeb ainult uurimistööd ega vaja sisselogitud juurdepääsu, kasutage režiimi “välja logitud”.
Sageli kujundame agendid nii, et nad küsivad teilt enne teatud oluliste toimingute tegemist, nagu ostu sooritamine või e-kirja saatmine, lõplikku kinnitust. Kui agent palub sul toimingu kinnitada, kontrolli hoolikalt, et toiming tunduks õige ja et jagatav teave oleks selles kontekstis sobiv.
Kui agent tegutseb tundlikul saidil, näiteks sinu pangas, jälgi, kuidas agent oma tööd teeb. See on nagu isesõitva auto jälgimine, kui hoiad käed roolil.
Agendile väga laiaulatusliku juhise andmine, näiteks „vaata mu e-kirjad üle ja tee vajalikud toimingud“, võib muuta varjatud pahatahtliku sisu mudeli eksitamise lihtsamaks, isegi kui see on loodud sinuga enne tundlike toimingute tegemist konsulteerima.
On turvalisem paluda oma agent teha konkreetseid asju ja mitte anda talle laia tegevusvabadust, et see ei võiks potentsiaalselt järgida kahjulikke juhiseid mujalt, näiteks e-kirjadest. Kuigi see ei taga, et rünnakuid ei toimu, muudab see ründajate jaoks edu saavutamise keerulisemaks.
Kuna tehisintellekti tehnoloogia areneb, ilmnevad uued riskid ja kaitsemeetmed. Jälgi OpenAI ja teiste usaldusväärsete allikate uuendusi, et õppida parimaid tavasid.
Viipade süstimine jääb tipptasemel, keeruliseks uurimisprobleemiks ning sarnaselt traditsioonilistele veebipettustele eeldame, et meie töö jätkub pidevalt. Kuigi me ei ole veel näinud, et ründajad oleksid seda tehnikat märkimisväärselt kasutusele võtnud, eeldame, et vastased kulutavad palju aega ja ressursse, et leida viise, kuidas panna tehisintellektid nende rünnakute ohvriks langema. Jätkame suuri investeeringuid oma toodete turvalisuse tagamisse ja teadustöösse, et suurendada tehisintellekti vastupidavust sellele riskile. Jagame uuendusi, kui saame rohkem teada, sealhulgas jätkuvatest edusammudest meie turvatöös selles valdkonnas. Näiteks koostame aruande, mille avaldame peagi ja mis jagab rohkem üksikasju selle kohta, kuidas me tuvastame, kas sinu tehisintellekti suhtlus internetiga edastaks teavet sinu vestlusest.
Meie eesmärk on muuta need süsteemid sama usaldusväärseks ja turvaliseks kui töötamine teie kõige usaldusväärsema ja turvateadliku kolleegi või sõbraga. Jätkame reaalsest kasutusest õppimist, täiustame turvaliselt ja avaldame õpitu, kui tehnoloogia areneb.


