2025 оны арван нэгдүгээр сарын 7

Зааварт халдлагыг ойлгох нь: AI аюулгүй байдлын хил хязгаар сорилт

AI хэрэгслүүд асуултад хариулахаас давсан зүйлсийг хийж эхэлж байна. Одоо тэд вэб үзэж, судалгаанд тусалж, аялал төлөвлөж, бараа бүтээгдэхүүн худалдан авахад тусалж чадна. Тэд илүү чадвартай болж, бусад апп дахь таны өгөгдөлд хандах болон таны өмнөөс үйлдэл хийх боломжтой болохын хэрээр аюулгүй байдлын шинэ сорилтууд гарч ирж байна. Бидний онцгой анхаарч буй нэг асуудал бол зааварт халдлага юм.

Зааварт халдлага хэрхэн ажилладгийг харуулсан диаграм. Зүүн талд инээмсэглэсэн хэрэглэгчийн дүрсний хажууд «Хэрэглэгч AI-гаас даалгаварт тусламж хүсэж байна» гэж бичжээ. Нэг сум төв рүү зааж, тэнд компьютерийн дэлгэцийн дүрсний хажууд «AI халдлагатай вэбсайт харж байна» гэж байна. Дээр нь малгайтай, ёжтой инээмсэглэлтэй жижиг дүрсний хажууд «Халдагч зааварт халдлага оруулсан» гэж тэмдэглэсэн. Дараагийн сум баруун тийш чиглэж, анхааруулах гурвалжинтай баримт бичгийн дүрсний хажууд «AI хүсээгүй үйлдэл хийхээр хууртагдсан» гэж байна. Энэ урсгал нь халдагч оруулсан заавраар AI-г хэрхэн манипуляцлахыг харуулж байна.

Зааварт халдлага гэж юу вэ?

Зааварт халдлага нь харилцан ярианы AI-д онцлог нийгмийн инженерчлэлийн нэг төрлийн халдлага юм. Эртний AI системүүд нь нэг хэрэглэгч ба нэг AI агентын хоорондын яриа байсан. Харин өнөөгийн AI бүтээгдэхүүнүүдэд таны яриа интернэт зэрэг олон эх сурвалжийн агуулгыг багтааж болно. Хэрэглэгч ч биш, AI ч биш гуравдагч этгээд ярианы орчинд хортой заавар шургуулж загварыг төөрөгдүүлж чадна гэсэн ойлголтоос «зааварт халдлага» гэх нэр томьёо үүссэн.

Фишинг имэйл эсвэл вэб дэх луйварууд хүмүүсийг эмзэг мэдээллээ өгөхөөр хуурдагтай адил, зааварт халдлагууд AI-г таны хүсээгүй зүйлийг хийхээр хуурахыг оролддог.

Та AI-гаас онлайнаар амралтын талаарх судалгаа хийхэд туслахыг хүссэн гэж төсөөлөөд үзье. Энэ ажлыг хийх явцад AI зарын сэтгэгдэл эсвэл шүүмж дотор нуугдсан төөрөгдүүлэх агуулга, эсвэл хортой заавартай вэб хуудсанд таарч магадгүй. Тийм агуулгыг AI-г буруу зарыг санал болгох, бүр дордвол таны кредит картын мэдээллийг хулгайлах гэж хуурахаар нямбайлан боловсруулсан байж болно.

Эдгээр нь «зааварт халдлага»-ын хэдхэн жишээ юм—AI-г таны зориогүй зүйлийг хийхээр хуурахаар бүтээгдсэн хортой зааврууд бөгөөд ихэвчлэн вэб хуудас, баримт бичиг, эсвэл имэйл зэрэг энгийн агуулгын дотор нуугдсан байдаг.

AI-ууд илүү эмзэг өгөгдөлд хандаж, илүү их санаачилга гарган, урт хугацааны ажлууд гүйцэтгэх тусам эдгээр эрсдэл нэмэгддэг.

Хураангуй

Та AI-д юу хийхийг хүссэн бэ

Халдагч юу хийдэг вэ

Халдлага амжилттай болбол гарч болох үр дүн

Та AI-гаас орон сууц судлахыг хүсэхэд, зааварт халдлагад өртөн танд хамгийн сайн биш заруудын нэгийг санал болгож магадгүй.

Та AI-гаас өгсөн зарим шалгуурын дагуу орон сууц судлахыг хүснэ.

Халдагч өөрийн зарыг хэрэглэгчийн илэрхийлсэн сонголтоос үл хамааран заавал сонгох ёстой мэтээр AI-г төөрөгдүүлэхийн тулд орон сууцны зар дотор зааварт халдлага оруулсан байдаг.

Халдлага амжилттай болбол AI таны сонголтод тулгуурлан оновчгүй орон сууцны зарыг буруугаар санал болгож магадгүй.

Та AI агент-аас шөнийн турш ирсэн имэйлүүдэд тань хариулахыг хүсэхэд, эцэст нь таны банкны хуулгыг хуваалцчихаж магадгүй.

Та өглөө завгүй байгаа учраас AI агент-аас шөнийн турш ирсэн имэйлүүдэд ерөнхийд нь хариулахыг хүснэ.

Доорх «Боломжтой үед агент-д тодорхой заавар өг» хэсгийг үзнэ үү

Халдагч танд буруу мэдээлэл агуулсан имэйл илгээж, загварыг таны банкны хуулгыг олж халдагчтай хуваалцахаар төөрөгдүүлсэн байна.

Халдлага амжилттай болбол агент таны имэйлээс банкны хуулга шиг аливаа зүйлийг (энэ даалгаварт хандах эрх олгосон) хайж, тэдгээрийг халдагчтай хуваалцаж магадгүй.

Хэрэглэгчдийг хамгаалах бидний арга барил

Зааварт халдлагаас хамгаалах нь AI салбар даяарх сорилт бөгөөд OpenAI-ийн гол анхаарлын нэг юм. Бид халдагчид ийм төрлийн халдлагыг үргэлжлүүлэн хөгжүүлнэ гэж үзэж байгаа ч, хэн нэгэн тэднийг идэвхтэйгээр төөрөгдүүлэхийг оролдож байсан ч хэрэглэгчийн хүссэн даалгаврыг гүйцэтгэх хамгаалалтуудыг бий болгож байна. Энэ чадвар нь AGI-ийн ашиг тусыг аюулгүйгээр бодит болгоход зайлшгүй хэрэгтэй.

Хэрэглэгчдээ хамгаалах, мөн эдгээр халдлагын эсрэг манай загваруудыг сайжруулахын тулд бид дараах олон давхаргат арга барилыг хэрэглэдэг:

Аюулгүй байдлын сургалт

Бид зааварт халдлагыг таньж, түүнд автахгүй AI-г хүсдэг. Гэвч сөрөг довтолгоонд тэсвэртэй байх нь машин сургалт болон AI-ийн олон жилийн сорилт тул энэ нь хэцүү, нээлттэй асуудал хэвээр байна. Бид Instruction Hierarchy⁠ нэртэй судалгааг хөгжүүлсэн бөгөөд энэ нь загварууд итгэж болох болон итгэж болохгүй заавруудыг ялгаж танихад чиглэдэг. Бид загварууд зааварт халдлагын хэв шинжийг илүү сайн таньж, тэдгээрийг үл тоомсорлох эсвэл хэрэглэгчдэд анхааруулахын тулд шинэ арга барилуудыг үргэлжлүүлэн хөгжүүлж байна. Бидний ашигладаг аргуудын нэг нь автоматжуулсан red-teaming бөгөөд энэ чиглэлээр бид олон жилийн турш судалж⁠(шинэ цонхонд нээгдэнэ), зааварт халдлагын шинэ төрлүүдийг хөгжүүлж ирсэн.

Хяналт

Бид зааварт халдлагыг илрүүлж, хаах зорилгоор AI-д суурилсан олон автомат монитор⁠ хөгжүүлсэн. Эдгээр нь аюулгүй байдлын сургалтын аргуудыг нөхдөг, учир нь бид илрүүлсэн шинэ халдлагыг хурдан хаахын тулд тэдгээрийг шуурхай шинэчилж чадна. Эдгээр монитор нь зөвхөн хэрэглэгчдийн эсрэг чиглэсэн болзошгүй зааварт халдлагыг илрүүлэхэд туслаад зогсохгүй, ийм халдлагууд бодит орчинд ашиглагдахаас өмнө манай платформыг ашигласан дайсагнагч зааварт халдлагын судалгаа, туршилтыг барьж авах боломж олгодог.

Аюулгүй байдлын хамгаалалт

Бид хэрэглэгчийн өгөгдлийг хамгаалахад туслахын тулд бүтээгдэхүүнүүд болон дэд бүтцээ давхарласан олон төрлийн аюулгүй байдлын хамгаалалттайгаар зохион бүтээсэн. Эдгээр боломжуудыг бид ирээдүйн нийтлэлүүдэд илүү техникийн түвшинд тайлбарлах бөгөөд бүтээгдэхүүн тус бүрт тохируулсан байдаг. Жишээлбэл, танд итгэлгүй сайтуудаас зайлсхийхэд туслахын тулд бид ChatGPT дээр, ялангуяа манайхаас тэднийг каталогчлохгүй байхыг хүссэн вэбсайтууд⁠(шинэ цонхонд нээгдэнэ) руу орохын өмнө тодорхой холбоосуудыг зөвшөөрөхийг танаас хүснэ. Манай AI бусад програм эсвэл код ажиллуулах хэрэгсэл ашиглах үед (Canvas эсвэл манай хөгжүүлэлтийн хэрэгсэл Codex дээрхтэй адил) бид sandboxing хэмээх аргыг ашиглан загвар зааварт халдлагын үр дагавар байж болох хортой өөрчлөлт хийхээс сэргийлдэг.

Хэрэглэгчдэд хяналт өгөх

Бид бүтээгдэхүүнүүддээ хэрэглэгчид өөрсдийгөө хамгаалахад туслах суурилуулсан хяналтуудыг багтаадаг. Жишээлбэл, ChatGPT Atlas-д та logged-out горимыг сонгож болно. Энэ нь ChatGPT агент-д сайтуудад нэвтрээгүйгээр даалгавар эхлүүлэх боломж олгодог. ChatGPT агент мөн худалдан авалт дуусгах зэрэг эмзэг алхмуудыг хийхээс өмнө түр зогсож, баталгаажуулалт хүсдэг. Агент эмзэг сайтууд дээр ажиллаж байх үед бид мөн тухайн сайтын эмзэг шинж чанарыг танд анхааруулж, агент ажлаа хийж байгааг харахын тулд табыг идэвхтэй байлгахыг шаарддаг «Watch Mode»-ыг хэрэгжүүлсэн. Хэрэв та эмзэг мэдээлэлтэй табаас холдвол агент түр зогсоно. Ингэснээр агент ямар үйлдэл хийж байгааг та мэдэж, хяналтаа хадгална.

Red-teaming

Бид хамгаалалтаа туршиж сайжруулах, халдагчийн үйлдлийг дуурайх, аюулгүй байдлаа сайжруулах шинэ арга зам олохын тулд дотоод болон гадаад багуудтай өргөн хүрээтэй red-teaming хийдэг. Үүнд зааварт халдлагад тусгайлан төвлөрсөн олон мянган цагийн ажил ордог. Бид шинэ арга техник, халдлагуудыг илрүүлэхийн хэрээр манай багууд аюулгүй байдлын эмзэг байдлуудыг идэвхтэйгээр шийдвэрлэж, загварын сааруулалтуудаа сайжруулдаг.

Алдаа илрүүлсний урамшуулал

Сайн санааны үүднээс ажилладаг бие даасан аюулгүй байдлын судлаачдыг зааварт халдлагын шинэ техник, халдлагыг илрүүлэхэд туслахыг дэмжихийн тулд бид бодитой халдлагын замыг харуулж, хүсээгүй хэрэглэгчийн өгөгдлийн ил гаралт үүсгэж болохыг нотолсон тохиолдолд bug bounty program⁠(шинэ цонхонд нээгдэнэ)-ынхаа хүрээнд санхүүгийн урамшуулал олгодог. Бид эдгээр асуудлыг хурдан ил гаргаж ирэхийг гадаад хувь нэмэр оруулагчдад урамшуулж, ингэснээр тэдгээрийг шийдэж хамгаалалтаа улам бэхжүүлж чадна.

Хэрэглэгчид өөрсдөө шийдэх боломж олгох

Бид бүтээгдэхүүн дэх зарим боломжийг ашиглах эрсдэлийн талаар хэрэглэгчдэд мэдээлж, тэдэнд мэдээлэлтэй шийдвэр гаргахад тусалдаг. Жишээлбэл, ChatGPT‑г бусад апптай холбоход ямар өгөгдөлд хандаж болох, түүнийг хэрхэн ашиглаж болох, мөн сайт таны өгөгдлийг хулгайлахыг оролдох зэрэг ямар эрсдэл гарч болохыг тайлбарладаг бөгөөд илүү аюулгүй байхын тулд юу хийхийг сурах холбоосыг хамтад нь өгдөг. Мөн бид байгууллагуудад өөрсдийн ажлын талбар дахь хэрэглэгчид ямар боломжийг идэвхжүүлэх эсвэл ашиглахыг хянах боломж олгодог.

Илүү аюулгүй байхын тулд таны хийж болох алхмууд

Зааварт халдлага бол цаг хугацааны явцад үргэлжлэн хувьсах болно гэж бидний үзэж буй аюулгүй байдлын хил хязгаар сорилт юм. Оюун ухаан, чадамжийн шинэ түвшнүүд нь технологи, нийгэм, эрсдэлийг бууруулах стратегийг хамтад нь хувьсан хөгжихийг шаарддаг. Мөн 2000-аад оны эхэн үеийн компьютерийн вирусуудтай адил, хүн бүр зааварт халдлагын аюул болон энэ эрсдэлийг хэрхэн удирдахыг ойлгох нь чухал гэж бид үзэж байна. Ингэснээр бид бүгд энэ технологийн үр шимийг аюулгүй хүртэж сурах боломжтой. Таны өмнөөс үйлдэл хийж чаддаг AI болон агентын боломжуудыг ашиглах үед сонор сэрэмжтэй, болгоомжтой байх нь таны өгөгдлийг илүү аюулгүй байлгахад тусалдаг.

Эмзэг өгөгдөлд хандах эрхийг хязгаарлахын тулд суурилуулсан боломжуудыг ашиглах

Боломжтой бол агент-д даалгаврыг биелүүлэхэд шаардлагатай эмзэг өгөгдөл эсвэл нэвтрэх мэдээлэлд л хандах эрх өг. Жишээлбэл, ChatGPT Atlas дахь агент горимоор амралтын судалгаа хийлгэж байгаа бол, хэрэв агент зөвхөн судалгаа хийж байгаа бөгөөд нэвтэрсэн хандалт шаардлагагүй бол “logged out” горимыг ашигла.

Агент баталгаажуулалт хүсэх үед зөв үйлдэл хийх гэж байгаа эсэхийг нягталж шалга

Бид агентуудыг худалдан авалт дуусгах эсвэл имэйл илгээх зэрэг тодорхой үр дагавартай үйлдэл хийхээс өмнө танаас эцсийн баталгаажуулалт авах байдлаар ихэвчлэн зохион бүтээдэг. Агент ямар нэг үйлдлийг баталгаажуулахыг танаас хүсэхэд, тухайн үйлдэл зөв харагдаж байгаа эсэх, мөн хуваалцаж буй аливаа мэдээлэл тухайн нөхцөлд хуваалцахад тохиромжтой эсэхийг анхааралтай шалга.

Агент таны банк гэх мэт эмзэг сайт дээр ажиллаж байгаа үед түүний ажлыг ажигла. Энэ нь гараа жолоон дээр байлгаж өөрөө жолооддог машиныг хянахтай адил юм.

Боломжтой үед агент-д тодорхой заавар өг

«Миний имэйлүүдийг шалгаад шаардлагатай бүх үйлдлийг хий» гэх мэт маш өргөн хүрээний заавар өгөх нь эмзэг үйлдэл хийхээс өмнө тантай шалгах байдлаар зохион бүтээгдсэн байсан ч, нуугдсан хортой агуулга загварыг төөрөгдүүлэхийг илүү хялбар болгож болзошгүй.

Агент-аасаа тодорхой зүйлс хийхийг хүсэх нь илүү аюулгүй бөгөөд имэйл зэрэг өөр газраас ирсэн хортой зааврыг дагах өргөн эрх чөлөө бүү өг. Энэ нь халдлага гарахгүй гэсэн баталгаа биш ч, халдагч амжилт олоход илүү хэцүү болгодог.

Мэдээлэлтэй байж, аюулгүй байдлын шилдэг туршлагыг дагах

AI технологи хөгжихийн хэрээр шинэ эрсдэл, хамгаалалтууд гарч ирнэ. Шилдэг туршлагуудыг сурахын тулд OpenAI болон бусад итгэлтэй эх сурвалжийн шинэчлэлтүүдийг дагаж бай.

Цаашдын төлөв

Зааварт халдлага нь аюулгүй байдлын хил хязгаар дахь хүнд судалгааны асуудал хэвээр байгаа бөгөөд вэб дээрх уламжлалт луйвруудын адил бидний ажил тасралтгүй үргэлжилнэ гэж үзэж байна. Одоогоор энэ техникийг халдагчид өргөн ашиглаж эхэлснийг бид хараагүй байгаа ч, AI-г ийм халдлагад автуулах арга зам олохын тулд дайсагнагч талууд ихээхэн цаг хугацаа, нөөц зарцуулна гэж бид хүлээж байна. Бид бүтээгдэхүүнүүдээ аюулгүй болгох, мөн AI-ийн энэ эрсдэлд тэсвэртэй байдлыг ахиулах судалгаанд их хэмжээний хөрөнгө оруулалтаа үргэлжлүүлж байна. Бид илүү ихийг мэдэхийн хэрээр шинэчлэлтүүдээ хуваалцах болно, үүнд энэ чиглэлийн аюулгүй байдлын ажлын маань үргэлжилж буй ахиц ч орно. Жишээлбэл, таны AI-ийн интернэттэй хийж буй харилцаа холбоо таны ярианаас мэдээлэл дамжуулах эсэхийг хэрхэн илрүүлдгээс илүү дэлгэрэнгүйг хуваалцах тайланг бид удахгүй нийтлэхээр боловсруулж байна.

Бидний зорилго бол эдгээр системийг таны хамгийн найдвартай, аюулгүй байдлын мэдлэгтэй хамтран ажиллагч эсвэл найзтай ажиллахтай адил найдвартай, аюулгүй болгох явдал юм. Бид бодит хэрэглээнээс суралцаж, аюулгүйгээр давтан сайжруулж, технологи хөгжихийн хэрээр сурсан зүйлсээ нийтэлсээр байх болно.

Үргэлжлүүлэн уншина уу

Бүгдийг үзэх

Daybreak: Дэлхийн бүх байгууллагыг хамгаалах хэрэгслүүд

Аюулгүй байдал2026 оны 6-р сарын 22

Patch the Planet: a Daybreak initiative to support open source maintainers

Аюулгүй байдал2026 оны 6-р сарын 22

Windows дээр Codex-ийг идэвхжүүлэхийн тулд аюулгүй, үр дүнтэй sandbox үүсгэх

Инженерчлэл2026 оны 5-р сарын 13