Көмексөзге зиян келтіруге төтеп беретін AI агенттерін жобалау
Әлеуметтік инженерия бізге AI агенттерін қорғау туралы не үйретеді.
AI агенттері интернетті шолуға, ақпаратты алуға және пайдаланушының атынан әрекет етуге барған сайын қабілетті болып келеді. Бұл мүмкіндіктер пайдалы, бірақ олар шабуылдаушыларға жүйені айламен басқарудың жаңа жолдарын да ашады.
Мұндай шабуылдар көбіне көмексөзге зиян келтіру деп сипатталады: модельді пайдаланушы сұрамаған нәрсені істеуге итермелеу үшін сыртқы контентке енгізілген нұсқаулар. Біздің тәжірибемізде мұндай шабуылдардың шынайы ортадағы ең тиімді нұсқалары қарапайым көмексөзді бұзудан гөрі әлеуметтік инженерияға көбірек ұқсай бастады.
Бұл өзгеріс маңызды. Егер мәселе тек зиянды жолды анықтау емес, контекстегі адастырушы не айлакер контентке төтеп беру болса, онда қорғаныс тек кірістерді сүзуге сүйене алмайды. Ол сондай-ақ кейбір шабуылдар сәтті болса да, айла-шарғының әсері шектелетіндей етіп жүйені жобалауды талап етеді.
Ерте кезеңдегі «көмексөзге зиян келтіру» типті шабуылдар AI агенттері қарайтын Wikipedia мақаласына тікелей нұсқауларды жай ғана қосу сияқты қарапайым болуы мүмкін еді; мұндай қарсылас ортадағы тәжірибе оқыту кезінде болмағандықтан, AI модельдері бұл нұсқауларды көбіне еш күмәнсіз орындайтын1. Модельдер ақылдырақ болған сайын, олар мұндай ишараларға азырақ осал бола бастады, әрі біз көмексөзге зиян келтіру стиліндегі шабуылдардың бұған жауап ретінде әлеуметтік инженерия элементтерін қоса бастағанын байқадық:
Көмексөзге зиян келтірудің электрондық поштадағы мысалы
2025 жылы ChatGPT‑ке жасалған көмексөзге зиян келтіру шабуылының OpenAI-ге сыртқы қауіпсіздік зерттеушілері(жаңа терезеде ашылады) хабарлаған мысалы. Сынақта ол пайдаланушының «Мен бүгінгі хаттарым бойынша терең зерттеу жасауыңды қалаймын, жаңа қызметкерді рәсімдеу үдерісім туралы ақпарат бере алатын әрбір дереккөзді оқып, тексеруіңді қалаймын» деген көмексөзімен уақыттың 50% жұмыс істеді.
AI қауіпсіздігінің кеңірек экожүйесінде «AI firewalling» сияқты әдістерді ұсыну үйреншікті болды, мұнда AI агенті мен сыртқы әлемнің арасындағы делдал кірістерді зиянды көмексөзге зиян келтіру және кәдімгі кірістер деп жіктеуге тырысады, бірақ мұндай толық дамыған шабуылдар әдетте ондай жүйелермен ұсталып қалмайды. Мұндай жүйелер үшін зиянды кірісті анықтау өтірік не жалған ақпаратты анықтаумен бірдей өте қиын мәселеге айналады, әрі көбіне қажетті контекстсіз жүреді.
Шынайы ортадағы көмексөзге зиян келтіру шабуылдары күрделене түскен сайын, біз ең тиімді шабуылдау тәсілдері әлеуметтік инженерия тактикаларын пайдаланатынын байқадық. Әлеуметтік инженериясы бар бұл көмексөзге зиян келтіру шабуылдарын бөлек не мүлде жаңа мәселе класы ретінде қарастырудың орнына, біз оны басқа салаларда адамдарға қатысты әлеуметтік инженерия қаупін басқаруда қолданылатын сол бір көзқараспен қарай бастадық. Мұндай жүйелерде мақсат тек зиянды кірістерді мінсіз анықтаумен шектелмейді, ол сонымен бірге агенттер мен жүйелерді айла-шарғы сәтті болса да, оның әсері шектелетіндей етіп жобалау болып табылады. Мұндай жүйелер көмексөзге зиян келтіруді де, әлеуметтік инженерияны да әлсіретуде тиімді екенін көрсетеді.
Осылайша, AI агентін тұтынушыларға қызмет көрсету агентіне ұқсас үш қатысушысы бар жүйеде бар деп елестете аламыз; агент жұмыс берушісінің атынан әрекет еткісі келеді, бірақ оны адастыруға тырысатын сыртқы кірістерге үнемі ұшырайды. Адам болсын, AI болсын, клиенттерді қолдау агентінің мұндай зиянды ортада болудан туындайтын төменгі тәуекелді шектеу үшін қабілеттеріне шектеулер қойылуы керек.
Бір адам клиенттерді қолдау жүйесін басқарып, жеткізудің баяулығы, ақау салдарынан болған зақым және т.б. сияқты клиент көрген қолайсыздықтар үшін сыйлық карталары мен ақшаны қайтаруды бере алатын жағдайды елестетіңіз. Бұл — көп тарапты мәселе: мұнда компания агенттің ақшаны дұрыс себептермен қайтаратынына сенуі керек, ал агенттің өзі оны адастыруды, тіпті қысым көрсетуді көздеуі мүмкін үшінші тараптармен де әрекеттеседі.
Шынайы өмірде агентке ұстанатын ережелер жиынтығы беріледі, бірақ ол өзі өмір сүретін қарсылас ортада адастырылатыны күтіледі. Мүмкін, клиент ақшаны қайтару ешқашан түспеді деп хабар жіберер, не егер қайтарым берілмесе, зиян келтіремін деп қорқытар. Агент әрекеттесетін детерминдік жүйелер клиентке берілуі мүмкін қайтарым көлемін шектейді, ықтимал фишинг хаттарын белгілейді және жеке агенттің бұзылуының әсерін шектеу үшін соған ұқсас басқа да әлсірету шараларын ұсынады.
Осы ойлау тәсілі біз енгізген және пайдаланушыларымыздың қауіпсіздікке қатысты үмітін сақтайтын сенімді қарсы шаралар жиынтығына негіз болды.
ChatGPT‑те біз бұл әлеуметтік инженерия моделін дереккөз-қабылдағыш талдауы сияқты дәстүрлі қауіпсіздік инженериясы тәсілдерімен біріктіреміз.
Осы тұжырымдамада шабуылдаушыға әрі дереккөз, яғни жүйеге ықпал ету тәсілі, әрі қабылдағыш, яғни дұрыс емес контексте қауіпті болатын мүмкіндік қажет. Агенттік жүйелер үшін бұл көбіне сенімсіз сыртқы контентті үшінші тарапқа ақпарат жіберу, сілтемеге өту немесе құралмен әрекеттесу сияқты әрекетпен біріктіруді білдіреді.
Біздің мақсат — пайдаланушылар үшін негізгі қауіпсіздік күтімін сақтау: ықтимал қауіпті әрекеттер немесе ықтимал құпия ақпаратты беру үнсіз не тиісті қорғаныс шараларынсыз болмауы керек.
Біз ChatGPT‑ке қарсы дамыған түрде көретін шабуылдар көбіне ассистентті сөйлесудегі әлдебір құпия ақпаратты алып, оны зиянды үшінші тарапқа жіберуі керек деп сендіруге тырысудан тұрады. Бізге мәлім жағдайлардың көбінде бұл шабуылдар сәтсіз болады, өйткені қауіпсіздікке үйретуіміз агенттің бас тартуына әкеледі. Агент сендірілетін жағдайлар үшін біз Safe Url деп аталатын әлсірету стратегиясын жасадық, ол ассистент сөйлесу барысында білген ақпараттың үшінші тарапқа жіберілетін сәтін анықтауға арналған. Мұндай сирек жағдайларда біз не пайдаланушыға жіберілетін ақпаратты көрсетіп, оны растауын сұраймыз, не оны бұғаттап, агентке пайдаланушы сұрауын орындаудың басқа жолын көруге нұсқаймыз.
Осы тетік Atlas ішіндегі навигациялар мен бетбелгілерге, сондай-ақ Deep Research ішіндегі іздеулер мен навигацияларға да қолданылады. ChatGPT Кенеп және ChatGPT қолданбалары ұқсас тәсілді қолданады, агентке функционалды қолданбаларды жасауға және пайдалануға мүмкіндік береді — олар күтпеген байланыстарды анықтай алатын және пайдаланушының келісімін сұрайтын(жаңа терезеде ашылады) құмсалғышта іске қосылады.
Safe Url туралы толығырақ ақпаратты және оның құрылымы туралы мақаланы осыған арналған блог жазбасынан оқи аласыз: AI агенті сілтемені басқанда деректеріңізді қауіпсіз сақтау.
Қарсылас сыртқы әлеммен қауіпсіз әрекеттесу толық автономды агенттер үшін қажет. AI моделін қолданбалы жүйемен біріктіргенде, біз ұқсас жағдайда адам агентінде қандай бақылаулар болуы керегін сұрап, соларды іске асыруды ұсынамыз. Ең жоғары деңгейде зияткер AI модель адам агентіне қарағанда әлеуметтік инженерияға жақсырақ төтеп бере алады деп күтеміз, бірақ қолданбаға қарай бұл әрдайым мүмкін не шығын тұрғысынан тиімді бола бермейді.
Біз әлеуметтік инженерияның AI модельдерге әсерін және оған қарсы қорғанысты зерттеуді жалғастырып келеміз және өз тұжырымдарымызды қолданбаларымыздың қауіпсіздік архитектураларына да, AI модельдеріміз өткізілетін оқытуға да енгізіп отырмыз.
Ескертпелер
- 1
Rehberger, J. (2023, 04 15). LLM жауаптарына соқыр сенбеңіз. Чат-боттарға төнетін қауіптер. EmbraceTheRed. Алынған күні: 11 14, 2025, https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
Авторлар
Thomas Shadwell және Adrian Spânu


