Негізгі мазмұнға өту
OpenAI

2025 ж. 7 қараша

Қауіпсіздік

Көмексөзге зиян келтіруді түсіну: озық қауіпсіздік мәселесі

AI құралдары сұрақтарға жауап беруден де көп нәрсе істей бастады. Енді олар вебті шолып, зерттеуге көмектесіп, сапарларды жоспарлап, тауарларды сатып алуға жәрдемдесе алады. Олар басқа қолданбалардағы деректеріңізге қол жеткізіп, сіздің атыңыздан әрекет ете алатындай қабілетті бола түскен сайын, жаңа қауіпсіздік мәселелері туындайды. Біз қатты назар аударатын соның бірі — көмексөзге зиян келтіру.

Көмексөзге зиян келтіру шабуылының қалай жұмыс істейтінін көрсететін диаграмма. Сол жақта «Пайдаланушы AI-дан тапсырма бойынша көмек сұрайды» деген жазуы бар күлімсіреген пайдаланушы белгішесі тұр. Жебе ортадағы «AI шабуылы бар вебсайтты көреді» деген жазуы бар компьютер экраны белгішесіне бағытталған, ал оның үстінде «Шабуылдаушы көмексөзге зиян келтіруді енгізді» деген жазуы бар қалпақ киген, мысқылдаған кішкентай кейіпкер бейнеленген. Тағы бір жебе оң жақтағы «AI ойланбаған әрекетке алданды» деген жазуы бар ескерту үшбұрышы қойылған құжат белгішесіне апарады. Бұл ағым шабуылдаушының енгізілген көмексөздер арқылы AI-ды қалай айламен басқара алатынын көрсетеді.

Көмексөзге зиян келтіру деген не?

Көмексөзге зиян келтіру — сөйлесуге негізделген AI-ға тән әлеуметтік инженерия шабуылының бір түрі. Алғашқы AI жүйелері бір пайдаланушы мен бір AI агент арасындағы әңгімелер болатын. Бүгінгі AI өнімдерінде әңгімеңіз интернетті қоса алғанда, көптеген көздерден келген мазмұнды қамтуы мүмкін. Үшінші тараптың (яғни пайдаланушы да емес, AI да емес) әңгіме контекстіне зиянды нұсқаулар енгізу арқылы модельді адастыруы мүмкін деген ой «көмексөзге зиян келтіру» атауына алып келді.

Фишинг хаттары немесе вебтегі алаяқтықтар адамдарды құпия ақпаратын беріп қоюға алдауға тырысатыны сияқты, көмексөзге зиян келтіру де AI жүйелерін сіз сұрамаған нәрсені істеуге алдауға тырысады.

Елестетіп көріңіз: сіз AI-дан демалысыңызға қатысты интернеттен зерттеу жүргізуге көмектесуін сұрадыңыз делік, ал ол осыны істеп жатқанда веббеттегі, мысалы хабарландырудағы немесе пікірдегі түсініктемеде жасырылған жаңылыстыратын мазмұнға не зиянды нұсқауларға тап болады. Бұл мазмұн AI-ды қате хабарландыруды ұсынуға, не одан да жаманы, несие картаңыз туралы ақпаратты ұрлауға алдау үшін әдейі дайындалуы мүмкін.

Бұлар — «көмексөзге зиян келтіру» шабуылдарының бірнеше ғана мысалы: AI-ды сіз ойламаған нәрсені істеуге алдауға арналған зиянды нұсқаулар, олар көбіне веббет, құжат немесе электрондық хат сияқты кәдімгі мазмұнның ішінде жасырылады.

AI жүйелері анағұрлым сезімтал деректерге қол жеткізіп, көбірек бастама мен ұзағырақ тапсырмаларды өз мойнына алған сайын, бұл тәуекелдер арта түседі.

Қысқаша мазмұн

Сіз AI-дан не істеуді сұрадыңыз

Шабуылдаушы не істейді

Шабуыл сәтті болса, ықтимал нәтиже

Сіз AI-дан пәтерлерді зерттеуді сұрайсыз, ал оған көмексөзге зиян келтіру жасалып, сіз үшін ең жақсы нұсқа емес хабарландыруды ұсынуға мәжбүрлейді.

Сіз AI-дан берілген кейбір критерийлер бойынша пәтерлерді зерттеуді сұрайсыз.

Шабуылдаушы пәтер туралы хабарландыруға көмексөзге зиян келтіру шабуылын енгізіп, AI-ды пайдаланушының айтқан қалауларына қарамастан дәл өзінің хабарландыруын таңдауы керек деп алдауға тырысады.

Егер шабуыл сәтті болса, AI сіздің қалауларыңызға сүйеніп, оңтайлы емес пәтер хабарландыруын қате ұсынуы мүмкін.

Сіз AI агентінен түнде келген электрондық хаттарыңызға жауап беруді сұрайсыз, бірақ ол ақырында банк үзінділеріңізді бөлісіп қояды.

Таңертең бос болмайтындықтан, сіз AI агентінен түнде келген хаттарыңызға жалпы түрде жауап беруді сұрайсыз.

Төмендегі «Мүмкін болса, агентке нақты нұсқаулар беріңіз» бөлімін қараңыз


Шабуылдаушы сізге модельді банк үзінділеріңізді тауып, оларды шабуылдаушымен бөлісуге алдайтын жалған ақпарат қамтылған электрондық хат жібереді.

Егер шабуыл сәтті болса, агент сіздің электрондық поштаңыздан (тапсырма үшін оған рұқсат бердіңіз) банк үзінділеріне ұқсас кез келген нәрсені іздеп, оларды шабуылдаушымен бөлісуі мүмкін.

Пайдаланушыларды қорғауға деген ұстанымымыз

Көмексөзге зиян келтіруден қорғану — бүкіл AI саласы үшін мәселе әрі OpenAI-дағы басты басымдықтардың бірі. Қарсы тараптар мұндай шабуылдарды әрі қарай да дамытады деп күтсек те, біз біреу оларды әдейі адастыруға тырысса да, пайдаланушы көздеген тапсырманы орындауға арналған қорғаныс тетіктерін құрып жатырмыз. Мұндай қабілет AGI артықшылықтарын қауіпсіз іске асыру үшін аса маңызды.

Пайдаланушыларымызды қорғау және модельдерімізді мұндай шабуылдарға қарсы жақсартуға көмектесу үшін біз көпқабатты тәсілді қолданамыз, оған мыналар кіреді:

Қауіпсіздікке үйрету

Біз көмексөзге зиян келтіруді тани алатын және оған алданбайтын AI жасағымыз келеді. Алайда қарсылас шабуылдарға төзімділік — машиналық оқыту мен AI үшін көптен келе жатқан мәселе, сондықтан бұл күрделі әрі әлі шешімі толық табылмаған проблема. Біз модельдердің сенімді және сенімсіз нұсқауларды ажырата алуына ұмтылу үшін Нұсқаулар иерархиясы деп аталатын зерттеуді әзірледік. Модельдер көмексөзге зиян келтіру үлгілерін жақсырақ танып, оларды елемеуі немесе пайдаланушыларға белгілеуі үшін біз оқытуға жаңа тәсілдерді дамытуды жалғастырып келеміз. Біз қолданатын тәсілдердің бірі — автоматтандырылған red-teaming; бұл — жаңа көмексөзге зиян келтіру шабуылдарын әзірлеуге арналған, біз оны көп жылдан бері зерттеп(жаңа терезеде ашылады) келе жатқан сала.

Мониторинг

Біз көмексөзге зиян келтіру шабуылдарын анықтап, бұғаттау үшін AI негізіндегі бірнеше автоматтандырылған мониторды әзірледік. Бұлар қауіпсіздікке үйрету тәсілдерін толықтырады, өйткені біз анықтаған кез келген жаңа шабуылдарды жылдам бұғаттау үшін оларды тез жаңартуға болады. Бұл мониторлар пайдаланушыларымызға қарсы ықтимал көмексөзге зиян келтіру шабуылдарын анықтауға ғана емес, сондай-ақ ондай шабуылдар кең тарамай тұрып, платформамызды пайдаланып жүргізілетін қарсылас көмексөзге зиян келтіру зерттеулері мен сынақтарын байқауға мүмкіндік береді.

Қауіпсіздік қорғаныстары

Пайдаланушы деректерін қорғауға көмектесу үшін біз өнімдеріміз бен инфрақұрылымымызды бір-бірін толықтыратын әртүрлі қауіпсіздік қорғаныстарымен жобаладық. Бұл мүмкіндіктерді, біз болашақ жазбаларда техникалық тұрғыдан толығырақ қарастырамыз, әр өнімге сай бейімдейміз. Мысалы, сенімсіз сайттардан аулақ болуға көмектесу үшін, ChatGPT ішінде кейбір сілтемелерге, әсіресе бізден оларды тізімге қоспауды сұрайтын вебсайттарда(жаңа терезеде ашылады), кіру алдында сізден мақұлдау сұраймыз. AI-ымыз басқа бағдарламаларды не кодты іске қосу үшін құралдарды пайдаланғанда (мысалы, Кенепте немесе әзірлеу құралы Codex-те), модельді көмексөзге зиян келтіру салдарынан болуы мүмкін зиянды өзгерістер енгізуден сақтау үшін sandboxing деп аталатын тәсілді қолданамыз.

Пайдаланушыларға бақылау беру

Біз өнімдерімізге пайдаланушылардың өзін қорғауына көмектесетін кірістірілген басқару тетіктерін енгіземіз. Мысалы, ChatGPT Atlas-та logged-out режимін таңдай аласыз, бұл ChatGPT агентіне сайттарға кірмей-ақ тапсырмаларды бастауға мүмкіндік береді. ChatGPT агенті сатып алуды аяқтау сияқты сезімтал қадамдарды орындамас бұрын да кідіріп, растау сұрайды. Агент сезімтал сайттарда жұмыс істегенде, біз сайттың сезімтал сипаты туралы ескертетін және агенттің жұмысын бақылау үшін қойындыны белсенді ұстауыңызды талап ететін «Watch Mode» режимін де енгіздік. Егер сезімтал ақпарат бар қойындыдан кетіп қалсаңыз, агент кідіреді. Бұл агент қандай әрекеттерді орындап жатқанынан хабардар болып, бақылауды өз қолыңызда ұстауға көмектеседі.

Red-teaming

Қорғаныстарымызды сынап, жақсарту, шабуылдаушы әрекетін модельдеу және қауіпсіздігімізді жақсартудың жаңа жолдарын табу үшін біз ішкі және сыртқы топтармен ауқымды red-teaming жүргіземіз. Бұған арнайы көмексөзге зиян келтіруге бағытталған мыңдаған сағат кіреді. Жаңа тәсілдер мен шабуылдарды анықтаған сайын, командаларымыз қауіпсіздік осалдықтарын белсенді түрде түзетіп, модельдеріміздің қорғаныс шараларын жақсартады.

Қате тапқаны үшін сыйақы

Тәуелсіз қауіпсіздік зерттеушілерін жаңа көмексөзге зиян келтіру тәсілдері мен шабуылдарын табуға адал ниетпен көмектесуге ынталандыру үшін, күтпеген пайдаланушы деректерінің ашылуына әкелуі мүмкін шынайы шабуыл жолын көрсеткен жағдайда, біз bug bounty бағдарламамыз(жаңа терезеде ашылады) аясында қаржылай сыйақы ұсынамыз. Бұл мәселелерді тезірек анықтап, шешуіміз және қорғанысымызды одан әрі күшейтуіміз үшін сыртқы үлес қосушыларды ынталандырамыз.

Пайдаланушылар өздері шешсін

Пайдаланушылар саналы шешім қабылдай алуы үшін біз өнімдегі кейбір мүмкіндіктерді пайдаланудың тәуекелдері туралы ақпарат береміз. Мысалы, ChatGPT‑ті басқа қолданбаларға қосқанда, қандай деректерге қол жеткізілуі мүмкін екенін, олардың қалай пайдаланылуы мүмкін екенін және сайттың деректеріңізді ұрлауға тырысуы сияқты қандай тәуекелдер туындауы мүмкін екенін, сондай-ақ қауіпсізірек болуды үйренуге арналған сілтемемен бірге түсіндіреміз. Сондай-ақ ұйымдарға өз жұмыс кеңістіктерінде пайдаланушыларға қандай мүмкіндіктерді қосуға не пайдалануға болатынын бақылау тетіктерін береміз.

Қауіпсізірек болу үшін жасай алатын қадамдар

Көмексөзге зиян келтіру — уақыт өте келе әрі қарай дами береді деп күтетін озық қауіпсіздік мәселесі. Зият пен қабілеттің жаңа деңгейлері технологияның, қоғамның және тәуекелді азайту стратегиясының қатар дамуын талап етеді. Ал 2000-жылдардың басындағы компьютер вирустары сияқты, барлығына көмексөзге зиян келтіру қаупін және бұл тәуекелді қалай басқаруды түсіну маңызды деп ойлаймыз, сонда бәріміз осы технологияның игілігін қауіпсіз көре аламыз. Атыңыздан әрекет ете алатын AI мен агенттік мүмкіндіктерді пайдаланғанда сақ болу және қырағылық таныту деректеріңіздің қауіпсізірек болуына көмектеседі.

Сезімтал деректерге қолжетімділікті шектеу үшін кірістірілген мүмкіндіктерді пайдаланыңыз

Мүмкін болған жерде, агенттің тек тапсырманы орындауға қажет сезімтал деректерге немесе тіркелгі деректеріне ғана қол жеткізуін шектеңіз. Мысалы, ChatGPT Atlas-та агент режимін демалысқа қатысты зерттеу үшін пайдалансаңыз, егер агент тек зерттеу жүргізіп, жүйеге кірген күйдегі қолжетімділікке мұқтаж болмаса, «logged out» режимін қолданыңыз.

Агент растау сұрағанда, оның дұрыс әрекет жасайын деп тұрғанын мұқият тексеріңіз

Біз агенттерді сатып алуды аяқтау немесе электрондық хат жіберу сияқты салдары бар белгілі бір әрекеттерді жасамас бұрын сізден соңғы растауды алатындай етіп жиі жобалаймыз. Агент әрекетті растауды сұрағанда, әрекеттің дұрыс көрінетінін және бөлісілетін кез келген ақпараттың осы контексте бөлісуге сай екенін мұқият тексеріңіз.

Агент банк сияқты сезімтал сайтта жұмыс істеп жатқанда, оның жұмысын бақылаңыз. Бұл өздігінен жүретін көлікті рөлге қолыңызды қойып бақылауға ұқсайды.

Мүмкін болса, агентке нақты нұсқаулар беріңіз

«Хаттарымды қарап шығып, қажет әрекеттің бәрін жаса» сияқты өте кең нұсқау беру, сезімтал әрекеттер жасамас бұрын сізбен тексеруге бейімделген болса да, модельді жасырын зиянды мазмұнның адастыруын жеңілдетуі мүмкін.

Агенттен нақты нәрселерді істеуді сұрау және оған хаттар сияқты басқа жерлерден келетін ықтимал зиянды нұсқауларды ұстануға тым кең еркіндік бермеу қауіпсізірек. Бұл шабуылдар мүлде болмайды деген кепілдік бермесе де, шабуылдаушылардың табысқа жетуін қиындатады.

Хабардар болып, қауіпсіздік бойынша үздік тәжірибелерді ұстаныңыз

AI технологиясы дамыған сайын жаңа тәуекелдер мен қорғаныс шаралары пайда болады. Үздік тәжірибелер туралы білу үшін OpenAI және басқа да сенімді дереккөздердің жаңартуларын қадағалаңыз.

Алға көзқарас

Көмексөзге зиян келтіру әлі де озық әрі күрделі зерттеу мәселесі болып қала береді, және вебтегі дәстүрлі алаяқтықтар сияқты, бұл бағыттағы жұмысымыз жалғаса береді деп күтеміз. Біз бұл тәсілді шабуылдаушылардың кеңінен қолданғанын әлі байқамағанымызбен, қарсы тараптар AI-ды мұндай шабуылдарға алдандыру жолдарын табуға едәуір уақыт пен ресурс жұмсайды деп күтеміз. Біз өнімдеріміздің қауіпсіз болуына және AI-дың бұл тәуекелге төзімділігін арттыратын зерттеулерге көп инвестиция салуды жалғастырып келеміз. Көбірек білген сайын, соның ішінде осы саладағы қауіпсіздік жұмысымыздың барысы туралы жаңартулармен бөлісетін боламыз. Мысалы, AI-ыңыздың интернетпен байланысы әңгімеңізден ақпарат жіберетінін қалай анықтайтынымыз туралы толығырақ мәлімет беретін есепті жақында жариялауға дайындап жатырмыз.

Мақсатымыз — бұл жүйелерді ең сенімді әрі қауіпсіздікке сауатты әріптесіңізбен немесе досыңызбен жұмыс істегендей сенімді және қауіпсіз ету. Технология дамыған сайын, біз нақты өмірдегі қолданудан үйреніп, қауіпсіз түрде жетілдіріп, білгенімізді жариялап отырамыз.