2025 m. lapkričio 7 d.

Užklausų įterpimo samprata: priešakinis saugumo iššūkis

DI įrankiai nebeapsiriboja vien atsakymais į klausimus. Dabar jie gali naršyti internete, padėti atlikti tyrimus, planuoti keliones ir padėti pirkti prekes. Jiems tampant pažangesniems, įgyjant galimybę pasiekti jūsų duomenis kitose programose ir veikti jūsų vardu, kyla naujų saugumo iššūkių. Vienas iš tų, kuriems skiriame daugiausia dėmesio, yra užklausos įterpimas.

Diagrama, iliustruojanti, kaip veikia užklausos įterpimo ataka. Kairėje esanti besišypsančio naudotojo piktograma pažymėta užrašu „User asks AI for help with a task.“ (Naudotojas prašo DI pagalbos atliekant užduotį.). Rodyklė nukreipta į centrą, kur kompiuterio ekrano piktograma pažymėta užrašu „AI sees a website with the attack“ (DI mato svetainę su ataka), o virš jos nedidelė figūrėlė su skrybėle ir šypsenėle pažymėta užrašu „Attacker inserted prompt injection.“ (Užpuolikas panaudojo užklausos įterpimą.). Kita rodyklė nukreipta į dešinę ir rodo dokumento piktogramą su įspėjamuoju trikampiu, pažymėtu užrašu „AI tricked into unintended action.“ (DI apgautas atlikti nenumatytą veiksmą.). Ši eiga parodo, kaip užpuolikas gali manipuliuoti DI naudodamas įterptas užklausas.

Kas yra užklausos įterpimas?

Užklausos įterpimas – tai pokalbio DI būdinga socialinės inžinerijos ataka. Ankstyvosiose DI sistemose pokalbiai vykdavo tik tarp vieno naudotojo ir vieno DI agento. Šiuolaikiniuose DI produktuose į jūsų pokalbį gali būti įtrauktas turinys iš daugelio šaltinių, įskaitant internetą. Mintis, kad trečioji šalis (kuri nėra nei naudotojas, nei DI) gali suklaidinti modelį į pokalbio kontekstą įterpdama kenkėjiškas instrukcijas, paskatino sukurti terminą „užklausos įterpimas“.

Taip pat, kaip sukčiavimo el. laiškais ar saityne bandoma apgauti žmones, kad jie atskleistų neskelbtiną informaciją, užklausų įterpimais bandoma apgauti DI, kad šis atliktų tai, ko neprašėte.

Įsivaizduokite, kad paprašėte DI padėti internete paieškoti informacijos apie atostogas, ir tai darydamas jis aptinka klaidinantį turinį ar kenkėjiškas instrukcijas, paslėptas interneto puslapyje, pavyzdžiui, skelbimo komentare ar atsiliepime. Turinys gali būti kruopščiai parengtas siekiant apgauti DI, kad jis rekomenduotų netinkamą skelbimą, arba, dar blogiau, pavogti jūsų kredito kortelės informaciją.

Tai tik keli „užklausos įterpimo“ atakų pavyzdžiai – žalingos instrukcijos, skirtos DI apgauti, kad šis atliktų tai, ko neplanavote. Dažnai jos paslėptos įprastame turinyje, pavyzdžiui, interneto puslapyje, dokumente ar el. laiške.

Ši rizika didėja DI gaunant prieigą prie daugiau neskelbtinų duomenų ir prisiimant daugiau iniciatyvos bei atliekant ilgesnes užduotis.

Santrauka

Ką paprašėte DI atlikti

Ką daro užpuolikas

Galimas rezultatas atakai pavykus

Paprašote DI paieškoti apartamentų, bet į prašymą įterpiama užklausa rekomenduoti skelbimą, kuris nėra jums geriausias pasirinkimas.

Paprašote DI paieškoti apartamentų pagal nurodytus kriterijus.

Užpuolikas į apartamentų skelbimą įtraukia užklausos įterpimo ataką, siekdamas apgauti DI, kad šis manytų, jog reikia pasirinkti būtent šį skelbimą, neatsižvelgiant į naudotojo nurodytus pageidavimus.

Jei ataka pavyksta, DI gali neteisingai rekomenduoti ne patį geriausią apartamentų skelbimą pagal jūsų pageidavimus.

Paprašote DI agento atsakyti į naktį gautus el. laiškus, o jis galiausiai bendrina jūsų banko išrašus.

Paprašote DI agento bendrai atsakyti į naktį gautus el. laiškus, nes šį rytą esate užsiėmę.

Žr. toliau pateiktą informaciją: „Kai įmanoma, pateikite agentui aiškias instrukcijas“

Užpuolikas atsiunčia jums el. laišką su klaidinančia informacija, apgaunančia modelį, kad šis surastų jūsų banko išrašus ir pasidalytų jais su užpuoliku.

Jei ataka pavyksta, agentas jūsų el. pašte (prie kurio suteikėte prieigą užduočiai atlikti) gali ieškoti bet ko, kas panašu į banko išrašus, ir pasidalyti jais su užpuoliku.

Kaip saugome naudotojus

Apsauga nuo užklausų įterpimo yra visos DI pramonės iššūkis ir pagrindinis „OpenAI“ prioritetas. Nors tikimės, kad piktavaliai ir toliau kurs tokias atakas, kuriame apsaugos priemones, skirtas užtikrinti, kad naudotojo numatyta užduotis būtų atlikta net ir tada, kai kas nors aktyviai bando jas suklaidinti. Šis gebėjimas yra būtinas norint saugiai pasinaudoti AGI privalumais.

Siekdami apsaugoti savo naudotojus ir padėti patobulinti savo modelius kovojant su šiomis atakomis, taikome daugiasluoksnį metodą, apimantį toliau pateiktus elementus:

saugos mokymas;

Norime DI, kuris atpažįsta užklausų įterpimus ir jiems nepasiduoda. Vis dėlto atsparumas priešiškoms atakoms yra ilgalaikis mašininio mokymosi ir DI iššūkis, todėl tai tampa sudėtinga ir neišspręsta problema. Parengėme tyrimą pavadinimu Instruction Hierarchy⁠ (Instrukcijų hierarchija), siekdami, kad modeliai atskirtų patikimas instrukcijas nuo nepatikimų. Toliau kuriame naujus metodus, skirtus modeliams mokyti, kad jie geriau atpažintų užklausų įterpimo šablonus ir galėtų juos ignoruoti ar apie juos pranešti naudotojams. Vienas iš mūsų taikomų metodų yra automatizuotas testavimas spragoms nustatyti – sritis, kurią tyrinėjame⁠(atsidaro naujame lange) jau ne vienerius metus, siekdami sukurti naujų užklausų įterpimo atakų.

stebėsena;

Sukūrėme kelias automatizuotas DI valdomas stebėjimo priemones⁠, skirtas užklausų įterpimo atakoms atpažinti ir blokuoti. Jie papildo saugos mokymo metodus, nes gali būti greitai atnaujinami siekiant blokuoti bet kokias naujas mūsų aptiktas atakas. Šie monitoriai ne tik padeda nustatyti galimas užklausų įterpimo atakas prieš mūsų naudotojus, bet ir leidžia mums užfiksuoti priešiškus užklausų įterpimo tyrimus ir bandymus naudojant mūsų platformą, kol šios atakos dar nepradėtos taikyti realiomis sąlygomis.

saugumo priemonės;

Sukūrėme savo produktus ir infrastruktūrą pritaikydami įvairias išsamias saugumo apsaugos priemones, padedančias užtikrinti naudotojų duomenų apsaugą. Šios funkcijos, kurias išsamiau techniškai aptarsime būsimuose įrašuose, yra pritaikomos kiekvienam produktui atskirai. Pavyzdžiui, padėdami jums išvengti nepatikimų svetainių, paprašysime patvirtinti tam tikras nuorodas „ChatGPT“ aplinkoje, ypač tose interneto svetainėse, kurios prašo mūsų jų nekataloguoti⁠(atsidaro naujame lange), prieš jas aplankant. Kai mūsų DI naudoja įrankius kitoms programoms ar kodui vykdyti (kaip „Canvas“ arba mūsų programavimo įrankyje „Codex“), taikome smėliadėžės (angl. sandboxing) metodą, kad modelis neatliktų žalingų pakeitimų, galinčių atsirasti dėl užklausos įterpimo.

naudotojų kontrolės užtikrinimas

Į savo produktus įtraukiame integruotus valdiklius, padedančius naudotojams apsisaugoti patiems. Pavyzdžiui, „ChatGPT Atlas“ galite pasirinkti atsijungimo režimą, leidžiantį „ChatGPT“ agentui pradėti užduotis neprisijungus prie svetainių. „ChatGPT“ agentas taip pat pristabdo veiklą ir paprašo patvirtinimo prieš atlikdamas neskelbtinus veiksmus, pavyzdžiui, užbaigdamas pirkimą. Kai agentas veikia neskelbtinose svetainėse, taip pat įdiegėme „Watch Mode“ (Stebėjimo režimą), kuris įspėja apie neskelbtiną svetainės pobūdį ir reikalauja, kad kortelė būtų aktyvi, jog galėtumėte stebėti agento darbą. Agentas pristabdys veiklą, jei pereisite iš kortelės su neskelbtina informacija. Tai užtikrina, kad stebėsite agento atliekamus veiksmus ir juos kontroliuosite.

Testavimas spragoms nustatyti

Vykdome išsamų testavimą spragoms nustatyti pasitelkdami vidines ir išorines komandas, siekdami išbandyti bei patobulinti savo apsaugos priemones, imituoti užpuoliko elgesį ir rasti naujų būdų saugumui padidinti. Tai apima tūkstančius valandų, skirtų specialiai užklausų įterpimui. Atrandant naujų metodų ir atakų, mūsų komandos iniciatyviai sprendžia saugumo pažeidžiamumo problemas ir tobulina modelio taikomas rizikos mažinimo priemones.

Programa „Bug Bounty“

Skatindami sąžiningus nepriklausomus saugumo tyrėjus padėti mums atrasti naujus užklausų įterpimo metodus ir atakas, pagal programą „Bug Bounty“⁠(atsidaro naujame lange) siūlome finansinį atlygį, kai jie parodo realistišką atakos kelią, galintį lemti nenumatytą naudotojo duomenų atskleidimą. Skatiname išorinius bendradarbius greitai atskleisti šias problemas, kad galėtume jas išspręsti ir dar labiau sustiprinti savo apsaugos priemones.

Galimybė spręsti naudotojams

Šviečiame naudotojus apie riziką, kylančią naudojant tam tikras produkto funkcijas, kad naudotojai galėtų priimti pagrįstus sprendimus. Pavyzdžiui, prijungiant „ChatGPT“ prie kitų programų, paaiškiname, kokie duomenys gali būti pasiekiami, kaip jie gali būti naudojami ir kokia rizika gali kilti, pavyzdžiui, jei svetainė bandytų pavogti jūsų duomenis. Taip pat suteikiame organizacijoms galimybę kontroliuoti, kurias funkcijas naudotojai gali įjungti ar naudoti savo darbo erdvėse.

Veiksmai, kurių galite imtis norėdami užtikrinti didesnį saugumą

Užklausų įterpimas yra priešakinis saugumo iššūkis, kuris, kaip tikimės, laikui bėgant toliau kis. Nauji intelekto ir galimybių lygiai reikalauja, kad technologijos, visuomenė ir rizikos mažinimo strategija vystytųsi kartu. Kaip ir plintant kompiuteriniams virusams 2000-ųjų pradžioje, manome, kad svarbu, jog visi suprastų užklausų įterpimo grėsmę ir žinotų, kaip valdyti riziką, kad visi galėtume išmokti saugiai naudotis šios technologijos teikiama nauda. Atidumas ir atsargumas padeda užtikrinti didesnį jūsų duomenų saugumą naudojant DI ir agentų funkcijas, galinčias veikti jūsų vardu.

Naudokite integruotas funkcijas, kad apribotumėte prieigą prie neskelbtinų duomenų

Kai įmanoma, apribokite agento prieigą, leisdami pasiekti tik tuos neskelbtinus ar prisijungimo duomenis, kurių reikia užduočiai atlikti. Pavyzdžiui, kai „ChatGPT Atlas“ naudojate agento režimą atostogų informacijai ieškoti, jei agentas atlieka tik paiešką ir jam nereikia prieigos prisijungus, naudokite režimą „logged out“ (atsijungta).

Kai agentas prašo patvirtinimo, atidžiai patikrinkite, ar jis ketina atlikti tinkamą veiksmą

Dažnai projektuojame agentus taip, kad jie gautų galutinį jūsų patvirtinimą prieš atlikdami tam tikrus reikšmingus veiksmus, pavyzdžiui, užbaigdami pirkimą ar išsiųsdami el. laišką. Kai agentas prašo jūsų patvirtinti veiksmą, atidžiai patikrinkite, ar veiksmas atrodo tinkamas ir ar bendrinamą informaciją tinka atskleisti tame kontekste.

Kai agentas veikia neskelbtinoje svetainėje, pavyzdžiui, jūsų banko puslapyje, stebėkite agento atliekamą darbą. Tai panašu į savivaldžio automobilio stebėseną, kai rankas laikote ant vairo.

Kai įmanoma, pateikite agentui aiškias instrukcijas

Pateikus agentui labai abstrakčią instrukciją, pavyzdžiui, „review my emails and take whatever action is needed“ (peržiūrėk mano el. laiškus ir imkis visų reikiamų veiksmų), paslėptam kenkėjiškam turiniui gali būti lengviau suklaidinti modelį, nors jis sukurtas taip, kad prieš atlikdamas neskelbtinus veiksmus pasitikrintų su jumis.

Saugiau prašyti agento atlikti konkrečius veiksmus ir nesuteikti jam didelės laisvės galimai vykdyti kenkėjiškas instrukcijas iš kitų šaltinių, pavyzdžiui, el. laiškų. Nors tai negarantuoja, kad atakų nebus, užpuolikams tampa sunkiau pasiekti savo tikslą.

Būkite informuoti ir laikykitės geriausios saugumo praktikos

Tobulėjant DI technologijoms, atsiras naujų rizikų ir apsaugos priemonių. Stebėkite „OpenAI“ ir kitų patikimų šaltinių naujienas, kad sužinotumėte apie geriausią praktiką.

Ateities perspektyvos

Užklausų įterpimas išlieka priešakine, sudėtinga tyrimų problema, ir, kaip ir kalbant apie tradicinį sukčiavimą internete, tikimės, kad mūsų darbas nesustos. Nors dar nepastebėjome, kad užpuolikai plačiai taikytų šį metodą, manome, jog piktavaliai skirs daug laiko ir išteklių ieškodami būdų, kaip priversti DI pasiduoti šioms atakoms. Toliau daug investuojame į tai, kad mūsų produktai būtų saugūs, ir į tyrimus, skirtus didinti DI atsparumą šiai rizikai. Sužinoję daugiau, dalysimės naujienomis, įskaitant nuolatinę mūsų saugumo užtikrinimo pažangą šioje srityje. Pavyzdžiui, rengiame ataskaitą, kurią netrukus paskelbsime ir kurioje bus pateikta daugiau informacijos apie tai, kaip nustatome, ar jūsų DI ryšys su internetu perduotų informaciją iš jūsų pokalbio.

Mūsų tikslas – padaryti šias sistemas tokias pat patikimas ir saugias, kaip ir darbas su patikimiausiu bei saugumą išmanančiu kolega ar draugu. Toliau mokysimės iš realaus naudojimo atvejų, saugiai tobulinsime sistemas ir skelbsime tai, ką sužinome tobulėjant technologijoms.

Skaityti toliau

Peržiūrėti viską

OpenAI ir Hugging Face sprendžia saugumo incidentą

Saugumas2026-07-21

„Daybreak“: priemonės, skirtos kiekvienos pasaulio organizacijos saugumui užtikrinti

Saugumas2026-06-22

Patch the Planet: a Daybreak initiative to support open source maintainers

Saugumas2026-06-22