Зааварт халдлагад тэсвэртэй AI агентуудыг зохион бүтээх
Нийгмийн инженерчлэл AI агентуудыг хамгаалахад бидэнд юу заадгийг.
AI агентууд вэбээр аялах, мэдээлэл татах, хэрэглэгчийн өмнөөс үйлдэл хийх чадвартай болсоор байна. Эдгээр чадварууд нь ашигтай ч халдагчдад системийг удирдан чиглүүлэхийг оролдох шинэ арга замуудыг бас бий болгодог.
Ийм халдлагыг ихэвчлэн зааварт халдлага гэж тодорхойлдог: хэрэглэгчийн хүсээгүй зүйлийг загвараар хийлгэхийн тулд гаднын агуулгад заавар байрлуулах. Бидний туршлагаар эдгээр халдлагын бодит орчин дахь хамгийн үр дүнтэй хувилбарууд нь энгийн заавар дарж бичихээс илүүтэй нийгмийн инженерчлэлтэй улам төстэй болж байна.
Энэ өөрчлөлт чухал. Хэрэв асуудал нь зөвхөн хортой мөрийг таних биш, харин тухайн нөхцөл дэх төөрөгдүүлсэн эсвэл манипуляцтай агуулгад тэсвэртэй байх явдал бол хамгаалалт нь зөвхөн оролтыг шүүхэд найдаж болохгүй. Зарим халдлага амжилттай болсон ч манипуляцын нөлөөг хязгаарлахаар системийг зохион бүтээх шаардлагатай.
Анхны “зааварт халдлага” төрлийн халдлагууд нь Wikipedia нийтлэлд түүнд зочилж буй AI агентуудад зориулсан шууд заавар оруулахтай адил энгийн байж болох байсан; ийм дайсагнасан орчны талаар сургалтын үеийн туршлагагүй бол AI загварууд эдгээр зааврыг эргэлзэлгүй дагах нь элбэг байсан1. Загварууд илүү ухаалаг болохын хэрээр ийм төрлийн саналд бага өртөмтгий болсон бөгөөд зааварт халдлагын хэв маягийн халдлагууд үүнд хариу болгон нийгмийн инженерчлэлийн элементүүдийг агуулж байгааг бид ажигласан:
Зааварт халдлагын имэйлийн жишээ
Гаднын аюулгүй байдлын судлаачид(шинэ цонхонд нээгдэнэ) OpenAI-д мэдээлсэн ChatGPT дээрх зааварт халдлагын 2025 оны жишээ. Туршилтаар хэрэглэгчийн “Өнөөдрийн миний имэйлүүд дээр гүн судалгаа хий, миний шинэ ажилтны үйл явцын талаар мэдээлэл өгч болох эх сурвалж бүрийг уншиж шалгаарай” гэсэн өгөгдөлтэй үед 50% тохиолдолд ажилласан.
AI аюулгүй байдлын өргөн экосистемд AI агент ба гадаад ертөнцийн хоорондох зуучлагч оролтуудыг хортой зааварт халдлага эсвэл энгийн оролт гэж ангилахыг оролддог “AI firewalling” зэрэг аргуудыг зөвлөх нь түгээмэл болсон—гэвч бүрэн хөгжсөн эдгээр халдлагууд ийм системд ихэвчлэн баригддаггүй. Ийм системүүдийн хувьд хортой оролтыг илрүүлэх нь худал эсвэл ташаа мэдээллийг илрүүлэхтэй адил маш хэцүү асуудал болдог бөгөөд шаардлагатай нөхцөл мэдээлэл ч үгүйлэгдэх нь олонтаа.
Бодит орчин дахь зааварт халдлагууд илүү төвөгтэй болохын хэрээр хамгийн үр дүнтэй довтлох аргууд нь нийгмийн инженерчлэлийн тактикуудыг ашиглаж байгааг бид олж мэдсэн. Нийгмийн инженерчлэлтэй зааварт халдлагуудыг тусдаа эсвэл цоо шинэ асуудлын ангилал гэж үзэхийн оронд бусад салбарт хүний нийгмийн инженерчлэлийн эрсдэлийг удирдахдаа ашигладаг ижил өнцгөөс харж эхэлсэн. Ийм системд зорилго нь зөвхөн хортой оролтыг төгс танихад хязгаарлагдахгүй, харин манипуляци амжилттай болсон ч түүний нөлөөг хязгаарлахаар агент болон системийг зохион бүтээхэд оршино. Ийм системүүд нь зааварт халдлага болон нийгмийн инженерчлэлийг хоёуланг нь бууруулахад үр дүнтэй гэдгээ харуулдаг.
Ингэж үзвэл AI агент нь хэрэглэгчийн үйлчилгээний ажилтантай төстэй гурван оролцогчтой системд оршиж байна гэж төсөөлж болно; агент нь ажил олгогчийнхоо өмнөөс ажиллахыг хүсдэг ч түүнийг төөрөгдүүлэхийг оролдож болох гаднын оролтод байнга өртдөг. Хүний эсвэл AI хэрэглэгчийн дэмжлэгийн агент нь ийм хортой орчинд оршин байхаас үүдэх сөрөг эрсдэлийг хязгаарлахын тулд чадавх дээрээ тодорхой хязгаарлалттай байх ёстой.
Нэгэн хүн хэрэглэгчийн дэмжлэгийн систем ажиллуулж, хүргэлт удаашрах, эвдрэлээс үүдэлтэй хохирол гэх мэт хэрэглэгчид тулгарсан тав тухгүй байдлын төлөө бэлгийн карт болон буцаан олголт өгөх боломжтой нөхцөлийг төсөөлөөд үзье. Энэ бол олон талын асуудал бөгөөд компанийн хувьд агент зөв шалтгаанаар буцаан олголт хийж байгаад итгэх ёстой, харин агент өөрийг нь төөрөгдүүлэх эсвэл бүр дарамтад оруулахыг зорьж болох гуравдагч талуудтай мөн харилцдаг.
Бодит амьдрал дээр агентэд дагах дүрмийн багц өгөгддөг ч түүний оршиж буй дайсагнасан орчинд төөрөгдөх нь хүлээгддэг. Жишээлбэл, хэрэглэгч буцаан олголт нь хэзээ ч хийгдээгүй гэж мэдэгдсэн мессеж илгээж болно, эсвэл буцаан олголт өгөхгүй бол хор хөнөөл учруулна гэж сүрдүүлж болно. Агентийн харилцдаг детерминистик системүүд нь хэрэглэгчид өгч болох буцаан олголтын хэмжээг хязгаарлаж, фишинг байж болзошгүй имэйлүүдийг тэмдэглэж, нэг агент өртсөнөөс гарах нөлөөг хязгаарлах бусад ийм хамгаалалтыг хэрэгжүүлдэг.
Энэ сэтгэлгээ нь хэрэглэгчдийнхээ аюулгүй байдлын хүлээлтийг хангадаг бидний нэвтрүүлсэн бат бөх сөрөг арга хэмжээний багцыг тодорхойлсон.
ChatGPT‑д бид энэ нийгмийн инженерчлэлийн загварыг source-sink analysis зэрэг уламжлалт аюулгүй байдлын инженерчлэлийн аргуудтай хослуулдаг.
Ийм хүрээнд халдагчид системд нөлөөлөх арга буюу source, мөн буруу нөхцөлд аюултай болдог чадвар буюу sink хоёуланг нь шаарддаг. Агентлаг системүүдийн хувьд энэ нь ихэвчлэн итгэлгүй гаднын агуулгыг гуравдагч тал руу мэдээлэл дамжуулах, холбоос дагах, эсвэл хэрэгсэлтэй харилцах зэрэг үйлдэлтэй хослуулахыг хэлдэг.
Бидний зорилго бол хэрэглэгчдийн аюулгүй байдлын үндсэн хүлээлтийг хадгалах явдал: болзошгүй аюултай үйлдэл, эсвэл болзошгүй эмзэг мэдээлэл дамжуулах явдал нь чимээгүйгээр эсвэл зохих хамгаалалтгүйгээр явагдах ёсгүй.
ChatGPT‑ийн эсрэг боловсруулж буй халдлагуудын ихэнх нь туслахыг ярианаас нууц мэдээлэл авч хортой гуравдагч тал руу дамжуулах ёстой гэж итгүүлэх оролдлого байдаг. Бидний мэдэх ихэнх тохиолдолд манай аюулгүй байдлын сургалт агентээр татгалзуулахад хүргэдэг тул эдгээр халдлага бүтэлгүйтдэг. Агент итгүүлэгдсэн тийм тохиолдлуудад бид Safe Url нэртэй, туслахын ярианаас сурсан мэдээлэл гуравдагч тал руу дамжих гэж буйг илрүүлэхээр зохиогдсон бууруулах стратеги боловсруулсан. Ийм ховор тохиолдолд бид хэрэглэгчид дамжих гэж буй мэдээллийг харуулж баталгаажуулахыг хүсдэг, эсвэл үүнийг хориглоод хэрэглэгчийн хүсэлтийг цааш үргэлжлүүлэх өөр аргыг оролдоорой гэж агентэд хэлдэг.
Энэ ижил механизм Atlas-ын навигаци ба хавчуургад; мөн Deep Research-ийн хайлт ба навигацид үйлчилдэг. ChatGPT Canvas ба ChatGPT Apps ч төстэй арга барил ашигладаг бөгөөд агентэд ажиллагаатай програмууд үүсгэж ашиглах боломж олгодог—эдгээр нь гэнэтийн харилцааг илрүүлж, хэрэглэгчээс зөвшөөрөл хүсэх(шинэ цонхонд нээгдэнэ) чадвартай sandbox дотор ажилладаг.
AI агент холбоос дээр дарахад таны өгөгдлийг аюулгүй байлгах нь гэсэн тусгай блог нийтлэлээс Safe Url-ийн талаар илүү их мэдээлэл уншиж, түүний бүтцийн тухай өгүүллийг олж болно.
Бүрэн автономит агентуудад дайсагнасан гадаад ертөнцтэй аюулгүй харилцах чадвар зайлшгүй хэрэгтэй. AI загварыг хэрэглээний системтэй нэгтгэхдээ ижил нөхцөлд хүний агент ямар хяналттай байх ёстойг асууж, тэдгээрийг хэрэгжүүлэхийг бид зөвлөж байна. Хамгийн дээд түвшний ухаалаг AI загвар нь нийгмийн инженерчлэлд хүний агентээс илүү сайн тэсвэртэй байна гэж бид үзэж байгаа ч хэрэглээнээс шалтгаалан энэ нь үргэлж боломжтой эсвэл зардлын хувьд үр ашигтай байдаггүй.
Бид AI загваруудын эсрэг нийгмийн инженерчлэлийн үр дагавар болон түүнээс хамгаалах аргуудыг үргэлжлүүлэн судалж, олдворуудаа хэрэглээний аюулгүй байдлын архитектур болон AI загваруудаа дамжуулдаг сургалтад тусгасаар байна.
Зүүлт тайлбар
- 1
Rehberger, J. (2023, 04 15). LLM-ийн хариултад сохроор бүү итгэ. Чатботуудад учрах аюулууд. EmbraceTheRed. 2025 оны 11 14-нд https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters хаягаас авсан
Зохиогчид
Thomas Shadwell, Adrian Spânu


