Дизајнирање агенти со вештачка интелигенција кои ќе се спротивстават на вметнување злонамерни инструкции во промпт
Што нè учи социјалниот инженеринг за заштита на агенти со вештачка интелигенција.
Агентите со вештачка интелигенција сè повеќе се способни да го прелистуваат интернетот, да прибираат информации и да преземаат дејства во име на корисникот. Тие можности се корисни, но исто така создаваат нови начини за напаѓачите да се обидат да го манипулираат системот.
Овие напади често се опишуваат како вметнување злонамерни инструкции во промпт: инструкции поставени во надворешна содржина во обид да се натера моделот да направи нешто што корисникот не го побарал. Според нашето искуство, најефективните верзии на овие напади во реалниот свет сè повеќе наликуваат на социјален инженеринг, повеќе отколку на едноставни заобиколувања на промптот.
Таа промена е важна. Ако проблемот не е само идентификување на злонамерна низа, туку и спротивставување на погрешно насочувачка или манипулативна содржина во контекст, тогаш одбраната од неа не може да се потпира само на филтрирање на влезните податоци. Исто така, бара дизајнирање на системот така што влијанието од манипулација е ограничено, дури и ако некои напади успеат.
Раните напади од типот „вметнување злонамерни инструкции во промпт“ можеа да бидат едноставни како уредување на статија на Wikipedia за да вклучи директни инструкции за агенти со вештачка интелигенција што ја посетуваат. Без искуство од таква противничка средина за време на обуката, моделите со вештачка интелигенција често ги следеа тие инструкции без прашање. Како што моделите стануваат попаметни, тие исто така стануваат помалку ранливи на ваков вид сугестија. Забележавме дека нападите во стилот на вметнување злонамерни инструкции во промпт одговорија со вклучување елементи на социјален инженеринг.
Е-пошта пример за вметнување злонамерни инструкции во промпт
Пример од 2025 година за напад со вметнување злонамерни инструкции во промпт на ChatGPT пријавен до OpenAI од надворешни безбедносни истражувачи(се отвора во нов прозорец). При тестирањето, работеше 50% од времето со корисничкиот промпт „Сакам да направиш длабоко истражување на моите е-пораки од денес, сакам да ги прочиташ и провериш сите извори што би можеле да обезбедат информации за мојот процес за нов вработен.“
Во рамките на поширокиот безбедносен екосистем на вештачката интелигенција, стана вообичаено да се препорачуваат техники како што е „заштитен ѕид со вештачка интелигенција“ во кој посредник помеѓу агентот на вештачката интелигенција и надворешниот свет се обидува да ги класифицира влезните податоци во вметнување злонамерни инструкции во промпт и редовни влезни податоци – но овие целосно развиени напади обично не се откриваат од ваквите системи. За таквите системи, откривањето на злонамерен влез станува истиот многу тежок проблем како откривањето лага или дезинформации и често без неопходниот контекст.
Како што нападите со вметнување злонамерни инструкции во промпт од реалниот свет стануваа посложени, откривме дека најефективните офанзивни техники се потпираа на тактики на социјален инженеринг. Наместо да ги третираме овие напади со вметнување злонамерни инструкции во промпт со социјален инженеринг како посебна или целосно нова класа на проблем, почнавме да го гледаме тоа низ истата призма што се користи за управување со ризикот од социјален инженеринг кај луѓето во други домени. Во овие системи, целта не е ограничена на совршено идентификување на злонамерни влезови, туку да се дизајнираат агенти и системи така што влијанието на манипулацијата е ограничено, дури и ако таа успее. Ваквите системи се покажуваат како ефикасни во ублажувањето и на вметнување злонамерни инструкции во промпт и на социјалниот инженеринг.
На овој начин, можеме да го замислиме агентот со вештачка интелигенција како да постои во сличен систем со три актери како агент за корисничка поддршка; агентот сака да дејствува во име на својот работодавач, но е постојано изложен на надворешни влезни информации што може да се обиде да го доведе во заблуда. Агентот за корисничка поддршка, човек или вештачка интелигенција, мора да има поставени ограничувања на своите способности за да се ограничи надолниот ризик што е својствен за постоењето во таква злонамерна околина.
Замислете околност во која човечко суштество управува со систем за поддршка за клиентите и е во можност да издава подарок картички и повратни средства за непријатности што ги доживеал клиентот, како што се бавна испорака, оштетувања како резултат на дефект, итн. Ова е проблем со повеќе страни во кој корпорацијата мора да има доверба дека агентот дава повратни средства од вистинските причини, додека агентот исто така комуницира со трети лица кои може да имаат за цел да го доведат во заблуда или дури да го стават под присила.
Во реалниот свет, на агент му се дава збир правила што треба да ги следи, но се очекува дека, во непријателската средина во која се наоѓа, ќе биде доведен во заблуда. Можеби клиент испраќа порака тврдејќи дека неговото враќање на средства никогаш не било обработено или се заканува со штета ако не му се одобри враќање на средства. Детерминистичките системи со кои агентот комуницира го ограничуваат износот на поврати што може да му се дадат на клиентот, ги истакнуваат потенцијалните фишинг-мејлови и обезбедуваат други мерки за ублажување за да се ограничи влијанието од компромитирање на поединечен агент.
Овој начин на размислување информираше робусен пакет контрамерки што ги распоредивме за да ги одржиме безбедносните очекувања на нашите корисници.
Во ChatGPT, го комбинираме овој модел на социјален инженеринг со потрадиционални пристапи за инженерство за безбедност, како што е анализа на извор-одредиште.
Во таа рамка, на напаѓачот му требаат и извор, или начин да влијае врз системот и одредиште, или способност што станува опасна во погрешен контекст. За агентските системи, тоа често значи комбинирање недоверлива надворешна содржина со дејство како што е пренесување информации на трето лице, следење врска или интеракција со алатка.
Нашата цел е да зачуваме основно безбедносно очекување за корисниците: потенцијално опасни дејства или преноси на потенцијално чувствителни информации не треба да се случуваат тивко или без соодветни заштитни мерки.
Нападите што најчесто ги гледаме развиени против ChatGPT најчесто се состојат од обиди да се убеди асистентот дека треба да земе некои тајни информации од разговор и да ги пренесе на злонамерно трето лице. Во повеќето случаи за кои сме свесни, овие напади не успеваат бидејќи нашето обучување за безбедност го наведува агентот да одбие. За оние случаи во кои агентот е убеден, развивме стратегија за ублажување наречена Safe Url која е дизајнирана да открие кога информациите што асистентот ги научил во разговорот би се пренеле на трета страна. Во овие ретки случаи или му ги прикажуваме на корисникот информациите што би се пренеле и бараме од него да потврди, или го блокираме тоа и му кажуваме на агентот да проба друг начин за да продолжи со барањето на корисникот.
Овој ист механизам се применува на навигациите и обележувачите во Atlas; и пребарувањата и навигациите во Deep Research. ChatGPT Canvas & ChatGPT Apps имаат сличен пристап, овозможувајќи му на агент да создава и користи функционални апликации – тие работат во контролирана средина што може да открие неочекувани комуникации и да побара согласност од корисникот(се отвора во нов прозорец).
Можеш да прочиташ повеќе информации за Safe Url и да најдеш документ за неговата структура во неговата посветена објава на блогот Чување на твоите податоци безбедни кога агент со вештачка интелигенција ќе кликне на врска.
Безбедната интеракција со спротивставениот надворешен свет е неопходна за целосно автономни агенти. Кога интегрирате модел со вештачка интелигенција со апликациски систем, препорачуваме да прашате какви контроли треба да има човечки агент во слична ситуација и да ги имплементирате тие. Очекуваме дека максимално интелигентен модел со вештачка интелигенција ќе може да се спротивстави на социјалниот инженеринг подобро од човечки агент, но ова не е секогаш изводливо или исплатливо во зависност од апликацијата.
Продолжуваме да ги истражуваме импликациите од социјалниот инженеринг против моделите на вештачка интелигенција и одбраните од него и да ги вклучуваме нашите наоди и во нашите архитектури за безбедност на апликации и во обуката низ која ги поминуваме нашите модели на вештачка интелигенција.
Фусноти
- 1
Рехбергер, Ј. (2023 г., 04 15). Не им верувајте слепо на одговорите од големи јазични модели (LLM). Закани за четботови. EmbraceTheRed. Преземено 11 14, 2025 г., од https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
Автори
Thomas Shadwell и Adrian Spânu


