Pāriet uz galveno saturu
OpenAI

2025. gada 7. novembris

Aizsardzība

Izpratne par uzvedņu injekcijām – robežšķirtnes drošības izaicinājums

Mākslīgā intelekta rīki sāk darīt vairāk nekā tikai atbildēt uz jautājumiem. Tagad tie var pārlūkot tīmekli, palīdzēt veikt izpēti, plānot ceļojumus un palīdzēt iegādāties preces. Tiem kļūstot spējīgākiem, ar iespēju piekļūt taviem datiem citās lietotnēs un veikt darbības tavā vārdā, rodas jauni drošības izaicinājumi. Viena no jomām, uz kuru mēs koncentrējamies, ir uzvedņu injekcija.

Diagramma, kas parāda, kā darbojas uzvedņu injekcijas uzbrukums. Kreisajā pusē ir smaidoša lietotāja ikona ar uzrakstu “Lietotājs prasa mākslīgajam intelektam palīdzību uzdevuma veikšanā”. Bulta norāda uz centru, kur datora ekrāna ikona ir uzrakstu “Mākslīgais intelekts redz tīmekļa vietni ar uzbrukumu”, un virs tās neliels tēls ar cepuri un smīnu ar uzrakstu “Uzbrucējs ievietoja uzvedņu injekciju”. Vēl viena bulta ved pa labi, parādot dokumenta ikonu ar brīdinājuma trīsstūri ar uzrakstu “Mākslīgais intelekts maldināts veikt neparedzētu darbību”. Šī plūsma parāda, kā uzbrucējs var manipulēt ar mākslīgo intelektu, izmantojot injicētas uzvednes.

Kas ir uzvedņu injekcija?

Uzvedņu injekcija ir sociālās inženierijas uzbrukuma veids, kas tiek vērsts pret sarunvaldoas mākslīgo intelektu (MI). Agrīnās MI sistēmas bija sarunas starp vienu lietotāju un vienu MI aģentu. Mūsdienu MI produktos tava saruna var ietvert saturu no daudziem avotiem, tostarp no Interneta. Ideja, ka kāda trešā puse (ne lietotājs un ne MI) varētu maldināt modeli, sarunas kontekstā “injicējot” ļaunprātīgas instrukcijas, noveda pie termina “uzvedņu injekcija”.

Tāpat kā pikšķerēšanas e-pasti vai krāpniecība tīmeklī mēģina apmānīt cilvēkus, lai tie atklātu sensitīvu informāciju, uzvedņu injekcijas mēģina apmānīt mākslīgo intelektu (MI), lai tas izdarītu kaut ko tādu, ko tu neprasīji.

Iedomājies, ka esi prasījis MI palīdzēt tev tiešsaistē izpētīt atvaļinājuma iespējas, un, kamēr tas to dara, tas sastopas ar maldinošu saturu vai kaitīgām instrukcijām, kas paslēptas kādā tīmekļa lapā, piemēram, komentārā pie sludinājuma vai atsauksmē. Saturs var būt rūpīgi izstrādāts, lai mēģinātu piemānīt mākslīgo intelektu, lai tas ieteiktu nepareizu sludinājumu, vai, vēl ļaunāk, nozagtu tavas kredītkartes datus.

Šie ir tikai daži “uzvedņu injekcijas” uzbrukumu piemēri – tās ir kaitīgas instrukcijas, kas paredzētas, lai apmānītu MI un liktu tam darīt kaut ko, ko tu nebiji iecerējis, bieži paslēptas parastā saturā, piemēram, tīmekļa lapā, dokumentā vai e-pastā.

Šie riski palielinās, jo mākslīgajam intelektam ir piekļuve arvien sensitīvākiem datiem un tas uzņemas arvien vairāk iniciatīvas un ilgākus uzdevumus.

Kopsavilkums

Ko tu prasīji mākslīgajam intelektam darīt

Ko dara uzbrucējs

Iespējamais rezultāts, ja uzbrukums izdodas

Tu prasi MI izpētīt dzīvokļus, un tas tiek pakļauts uzvedņu injekcijai, lai ieteiktu sludinājumu, kas nav labākais variants tev.

Tu prasi MI izpētīt dzīvokļus, pamatojoties uz dažiem norādītiem kritērijiem.

Uzbrucējs ir iekļāvis uzvedņu injekcijas uzbrukumu dzīvokļa sludinājumā, lai maldinātu MI domāt, ka šis sludinājums ir jāizvēlas neatkarīgi no lietotāja norādītajām vēlmēm.

Ja uzbrukums izdodas, MI var kļūdaini ieteikt neoptimālu dzīvokļa sludinājumu, pamatojoties uz tavām vēlmēm.

Tu prasi mākslīgā intelekta aģentam atbildēt uz taviem nakts laikā saņemtajiem e-pastiem, bet tas izpauž tavus bankas konta izrakstus.

Tu prasi mākslīgā intelekta aģentam vispārīgi atbildēt uz taviem e-pastiem, kas saņemti pa nakti, jo šorīt esi aizņemts.

Skati zemāk “Kad vien iespējams, sniedz aģentam skaidras instrukcijas”


Uzbrucējs tev nosūtīja e-pasta vēstuli, kas satur nepatiesu informāciju, kas maldina modeli atrast tavus bankas izrakstus un nodot tos uzbrucējam.

Ja uzbrukums izdodas, aģents var meklēt tavā e-pastā jebko, kas izskatās pēc bankas izrakstiem (kam esi piešķīris piekļuvi uzdevuma veikšanai), un tos nodot uzbrucējam.

Mūsu pieeja lietotāju aizsardzībai

Aizsardzība pret uzvedņu injekcijām ir izaicinājums visā mākslīgā intelekta nozarē un ir OpenAI galvenā prioritāte. Lai gan mēs paredzam, ka pretinieki turpinās izstrādāt šādus uzbrukumus, mēs izstrādājam aizsardzības mehānismus, lai izpildītu lietotāja iecerēto uzdevumu pat tad, ja kāds aktīvi mēģina veikt maldināšanu. Šī spēja ir ļoti būtiska, lai izmantotu MVI sniegtos ieguvumus drošā veidā.

Lai aizsargātu lietotājus un palīdzētu uzlabot modeļus pret šiem uzbrukumiem, mēs izmantojam daudzslāņainu pieeju, kas ietver šādus elementus:

Drošības apmācība

Mēs vēlamies tādu MI, kas spēj atpazīt uzvedņu injekcijas un nepakļaujas tām. Tomēr izturība pret pretinieku uzbrukumiem ir ilgstošs izaicinājums mašīnmācīšanās un mākslīgā intelekta jomā, padarot to par sarežģītu un atklātu problēmu. Mēs esam izstrādājuši pētījumu ar nosaukumu Instrukciju hierarhija, lai veidotu modeļu spēju atšķirt uzticamas un neuzticamas instrukcijas. Mēs turpinām izstrādāt jaunas pieejas, lai apmācītu modeļus labāk atpazīt uzvedņu injekcijas shēmas, lai tie varētu tās ignorēt vai atzīmēt lietotājiem. Viena no metodēm, ko mēs izmantojam, ir automatizēta uzbrukumu simulēšana – joma, kuru mēs jau gadiem pētām(atveras jaunā logā), lai izstrādātu jaunus uzvedņu injekcijas uzbrukumus.

Uzraudzība

Mēs esam izstrādājuši vairākus automatizētus ar mākslīgo intelektu darbinātus uzraugus, lai identificētu un bloķētu uzvedņu injekcijas uzbrukumus. Tie papildina drošības apmācības pieejas, jo tos var ātri atjaunināt, lai bloķētu jaunus uzbrukumus, kurus mēs atklājam. Šie uzraugi ne tikai palīdz identificēt potenciālos uzvedņu injekcijas uzbrukumus pret mūsu lietotājiem, bet arī ļauj mums atklāt pretinieku veiktos uzvedņu injekcijas pētījumus un testēšanu, izmantojot mūsu platformu, pirms šie uzbrukumi tiek izvērsti reālajā vidē.

Drošības pasākumi

Mēs esam izstrādājuši savus produktus un infrastruktūru ar dažādiem savstarpēji pārklājošiem drošības pasākumiem, lai palīdzētu aizsargāt lietotāju datus. Šīs funkcijas, kuras mēs turpmākos ierakstos apskatīsim sīkāk no tehniskā viedokļa, ir pielāgotas katram konkrētam produktam. Piemēram, lai palīdzētu tev izvairīties no neuzticamām vietnēm, mēs prasīsim tev apstiprināt noteiktas saites ChatGPT vidē, īpaši tīmekļa vietnēs, kas lūdz mums tās neiekļaut katalogā(atveras jaunā logā), pirms tās var apmeklēt. Kad mūsu mākslīgais intelekts izmanto rīkus, lai palaistu citas programmas vai kodu (piemēram, Canvas vai mūsu izstrādes rīks Codex), mēs izmantojam mehānismu, ko dēvē par smilškasti, lai neļautu modelim veikt kaitīgas izmaiņas, kas varētu būt uzvedņu injekcijas rezultāts.

Pārvaldīšanas iespējas lietotājiem

Mēs savos produktos iekļaujam iebūvētas pārvaldīšanas iespējas, lai palīdzētu lietotājiem aizsargāties. Piemēram, programmā ChatGPT Atlas tu vari izvēlēties režīmu bez pieteikšanās, kas ļauj ChatGPT aģentam sākt uzdevumus bez pieteikšanās vietnēs. ChatGPT aģents arī apstājas un prasa apstiprinājumu pirms tādu sensitīvu darbību veikšanas kā pirkuma pabeigšana. Kad aģents darbojas sensitīvās vietnēs, mēs esam ieviesuši arī “uzraudzības režīmu”, kas brīdina tevi par vietnes sensitīvo raksturu un pieprasa, lai cilne būtu aktīva, lai tu varētu vērot, kā aģents veic darbu. Aģents apstāsies, ja tu aiziesi prom no cilnes, kurā ir sensitīva informācija. Tas nodrošina, ka tu vienmēr zini un pārvaldi, kādas darbības aģents veic.

Imitēti uzbrukumi

Mēs veicam plašus imitētos uzbrukumus ar iekšējām un ārējām komandām, lai testētu un uzlabotu savu aizsardzību, atdarinātu uzbrucēju rīcību un atrastu jaunus veidus, kā pilnveidot drošību. Tie ietver tūkstošiem stundu, kas īpaši veltītas uzvedņu injekcijai. Atklājot jaunas metodes un uzbrukumus, mūsu komandas proaktīvi novērš drošības ievainojamības un uzlabo modeļu aizsardzības mehānismus.

Atlīdzība par kļūdu atrašanu

Lai mudinātu godprātīgus neatkarīgus drošības pētniekus palīdzēt mums atklāt jaunas uzvedņu injekcijas metodes un uzbrukumus, mēs piedāvājam finansiālas atlīdzības savā kļūdu meklēšanas programmā(atveras jaunā logā), ja viņi parāda reālistisku uzbrukuma ceļu, kas varētu izraisīt neparedzētu lietotāja datu izpaušanu. Mēs motivējam ārējos pētniekus ātri identificēt šīs problēmas, lai mēs varētu tās atrisināt un vēl vairāk nostiprināt aizsardzību.

Lietotāju izvēles iespējas

Mēs izglītojam lietotājus par riskiem, kas saistīti ar noteiktu produkta funkciju izmantošanu, lai viņi varētu pieņemt pamatotus lēmumus. Piemēram, izveidojot savienojumu starp ChatGPT un citām lietotnēm, mēs paskaidrojam, kādiem datiem var piekļūt, kā tos var izmantot un kādi riski var rasties, piemēram, ja vietne mēģina nozagt tavus datus, kā arī sniedzam saiti, lai uzzinātu, kā būt drošākam. Mēs arī nodrošinām organizācijām iespēju pārvaldīt, kuras funkcijas var lietotāji var iespējot vai izmantot savās darbvietās.

Pasākumi, ko vari veikt drošības uzlabošanai

Uzvedņu injekcija ir robežšķirtnes drošības izaicinājums, kas, mūsuprāt, laika gaitā turpinās attīstīties. Jauni intelekta un spēju līmeņi prasa, lai tehnoloģijas, sabiedrība un riska mazināšanas stratēģija attīstītos līdz ar to. Un, tāpat kā ar datorvīrusiem 2000. gadu sākumā, mēs uzskatām, ka ir svarīgi, lai ikviens izprastu uzvedņu injekciju apdraudējumu un to, kā orientēties šajos riskos, lai mēs visi varētu droši izmantot šīs tehnoloģijas priekšrocības. Apzinātība un piesardzība palīdz saglabāt tavus datus drošākus, izmantojot MI un aģentiskās funkcijas, kas var darboties tavā vārdā.

Izmanto iebūvētās funkcijas, lai ierobežotu piekļuvi sensitīviem datiem

Ja iespējams, sniedz aģentam piekļuvi tikai tiem sensitīvajiem datiem vai pieteikšanās datiem, kas nepieciešami konkrētā uzdevuma izpildei. Piemēram, izmantojot aģenta režīmu ChatGPT Atlas vidē, lai veiktu atvaļinājuma iespēju izpēti, ja aģents veic tikai izpēti un tam nav nepieciešama pieteikšanās, izmantojiet režīmu bez pieteikšanās.

Kad aģents prasa apstiprinājumu, rūpīgi pārbaudi, vai tas gatavojas rīkoties pareizi

Mēs parasti izstrādājam aģentus tā, lai tie prasītu tavu galīgo apstiprinājumu pirms noteiktu svarīgu darbību veikšanas, piemēram, pirms pirkuma veikšanas vai e-pasta nosūtīšanas. Kad aģents tev prasa apstiprināt kādu darbību, rūpīgi pārbaudi, vai darbība izskatās pareiza un vai informācija, kas tiek kopīgota, ir piemērota izpaušanai šajā kontekstā.

Kad aģents darbojas sensitīvā vietnē, piemēram, tavā internetbankā, uzraugi aģenta darbu. Tas ir līdzīgi kā uzraudzīt pašbraucošu automašīnu, turot rokas uz stūres.

Kad vien iespējams, sniedz aģentam precīzus norādījumus

Dodot aģentam ļoti plašu rīkojumu, piemēram, "pārskati manus e-pastus un veic visas nepieciešamās darbības", tas var atvieglot slēpta ļaunprātīga satura iespējas modeli maldināt, pat ja tas ir izstrādāts tā, lai pirms sensitīvu darbību veikšanas prasītu tavu apstiprinājumu.

Ir drošāk likt savam aģentam veikt konkrētas darbības un nedot tam plašu rīcības brīvību izpildīt potenciāli kaitīgus norādījumus no citiem avotiem, piemēram, e-pasta. Lai gan tas negarantē, ka uzbrukumu nebūs, uzbrucējiem būs grūtāk gūt panākumus.

Esi informēts un ievēro drošības labāko praksi

Mākslīgā intelekta tehnoloģijām attīstoties, parādīsies jauni riski un aizsardzības mehānismi. Seko līdzi OpenAI un citu uzticamu avotu jaunumiem, lai uzzinātu par labāko praksi.

Skatoties uz priekšu

Uzvedņu injekcija joprojām ir sarežģīta robežšķirtnes pētniecības problēma, un, tāpat kā ar tradicionālajiem krāpšanas veidiem tīmeklī, mēs paredzam, ka mūsu darbs turpināsies pastāvīgi. Lai gan mēs vēl neesam novērojuši šīs tehnikas būtisku izmantošanu uzbrucēju vidū, mēs paredzam, ka pretinieki veltīs daudz laika un resursu, lai atrastu veidus, kā panākt, lai MI uzķertos uz šiem uzbrukumiem. Mēs turpinām ieguldīt ievērojamus līdzekļus, lai padarītu savus produktus drošus un veiktu pētījumus, lai uzlabotu mākslīgā intelekta noturību pret šo risku. Mēs sniegsim jaunāko informāciju, tiklīdz uzzināsim vairāk, tostarp par mūsu pastāvīgo progresu šajā drošības jomā. Piemēram, mēs veidojam ziņojumu, ko drīzumā publicēsim, kurā dalīsimies ar sīkāku informāciju par to, kā mēs nosakām, vai MI saziņa ar Internetu varētu pārsūtīt informāciju no tavas sarunas.

Mūsu mērķis ir panākt, lai šīs sistēmas būtu tikpat uzticamas un drošas kā darbs ar tavu uzticamāko un drošības jautājumos zinošāko kolēģi vai draugu. Mēs turpināsim mācīties no reālās pasaules lietošanas, drošā veidā ieviest uzlabojumus un publicēt to, ko uzzinām, tehnoloģijai attīstoties.