Үндсэн агуулга руу алгасах
OpenAI

2025 оны арван хоёрдугаар сарын 22

Аюулгүй байдал

ChatGPT Atlas-ыг зааварт халдлагын эсрэг тасралтгүй бэхжүүлэх нь

Бататгах сургалтаар ажилладаг автоматжуулсан улаан баг нь бодит ертөнц дэх агентын exploit-уудыг зэвсэгжихээс нь өмнө урьдчилан илрүүлж, засварлахад бидэнд тусалдаг.

Ачаалж байна…

ChatGPT Atlas дахь агент горим нь бидний өнөөг хүртэл гаргасан хамгийн ерөнхий зориулалтын, агентлаг шинжтэй боломжуудын нэг юм. Энэ горимд браузерын агент вэб хуудсуудыг харж, яг таны адил браузер дотор үйлдэл хийж, дарж, товчлуурын оролт өгдөг. Ингэснээр ChatGPT ижил орон зай, нөхцөл байдал, өгөгдлийг ашиглан таны өдөр тутмын олон ажлын урсгал дээр шууд ажиллах боломжтой болдог.

Браузерын агент таны ажлыг илүү амжуулахад туслахын хэрээр дайсагнагч халдлагын хувьд өндөр үнэ цэнтэй бай болж хувирдаг. Иймээс ХИЙ-н аюулгүй байдал онцгой чухал болдог. Бид ChatGPT Atlas-ыг эхлүүлэхээс 훨씬 өмнөөс энэхүү шинэ “браузер дахь агент” хэв маягийг онилсон шинэ аюул заналд эсрэг хамгаалалтыг тасралтгүй бий болгож, бэхжүүлж ирсэн. Зааварт халдлага нь ChatGPT Atlas таны өмнөөс аюулгүй ажиллаж чаддаг байхад туслахын тулд бид идэвхтэй хамгаалдаг хамгийн чухал эрсдлүүдийн нэг юм. 

Энэ ажлын хүрээнд бид саяхан Atlas-ын браузерын агентод аюулгүй байдлын шинэчлэлт хүргэсэн бөгөөд үүнд дайсагнагч өгөгдлөөр сурсан шинэ загвар болон түүнийг тойрсон хамгаалалтын бэхжүүлэлтүүд багтсан. Энэ шинэчлэлт нь манай дотоод автоматжуулсан улаан багаас илрүүлсэн зааварт халдлагын шинэ ангиллаас үүдэн хийгдсэн.

Энэ нийтлэлээр бид вэбэд суурилсан агентуудад зааварт халдлагын эрсдэл хэрхэн үүсэж болохыг тайлбарлаж, саяхны энэ аюулгүй байдлын шинэчлэлтээр жишээлэн шинэ халдлагуудыг тасралтгүй илрүүлж, сааруулах арга хэмжээг хурдан гаргахын тулд бидний бүтээж буй шуурхай хариу арга хэмжээний циклийг хуваалцаж байна.

Бид зааварт халдлагыг урт хугацааны ХИЙ аюулгүй байдлын сорилт гэж үздэг бөгөөд үүний эсрэг хамгаалалтаа тасралтгүй бэхжүүлэх шаардлагатай болно (хүмүүсийг онилдог байнга хувьсаж байдаг онлайн луйвартай адил). Манай хамгийн сүүлийн шуурхай хариу арга хэмжээний цикл энэ замд чухал хэрэгсэл байж болох эртний нааштай дохиог харуулж байна: бид шинэ төрлийн халдлагын стратегийг бодит орчинд гарч ирэхээс нь өмнө дотооддоо илрүүлж байна. Манай урт хугацааны алсын хараа нь (1) загварууддаа цагаан-хайрцаг хандалттай байх, (2) хамгаалалтынхаа гүн ойлголттой байх, (3) тооцооллын цар хүрээг бүрэн ашиглан гаднын халдагчдаас түрүүлж явах явдал юм—exploit-уудыг эрт олох, сааруулах арга хэмжээг хурдан гаргах, мөн циклийг тасралтгүй чангатгах. Зааварт халдлагыг шийдэх шинэ арга техникт чиглэсэн хил хязгаар судалгаа болон бусад аюулгүй байдлын хяналтад хийх хөрөнгө оруулалт нэмэгдсэнтэй хослоход энэ хуримтлагдах цикл нь халдлагыг улам хэцүү, өртөг өндөртэй болгож, бодит ертөнц дэх зааварт халдлагын эрсдэлийг бодитоор бууруулж чадна. Эцсийн дүндээ бидний зорилго бол ChatGPT агент таны браузерыг өндөр чадвартай, аюулгүй байдлыг мэдэрдэг хамт олон эсвэл найз шиг ашиглана гэдэгт та итгэж чаддаг болох юм.

Зааварт халдлага нь агентын аюулгүй байдлын нээлттэй сорилт болох нь

Зааварт халдлагын довтолгоо нь агент боловсруулж буй агуулгад хортой зааврыг суулгах замаар ХИЙ агентуудыг онилдог. Тэдгээр заавар нь агентын зан төлөвийг дарж хүчингүй болгох эсвэл өөр чиглэлд эргүүлэхээр бүтээгдсэн байдаг—өөрөөр хэлбэл хэрэглэгчийн бус, халдагчийн зорилгыг дагахаар булаан авдаг.

ChatGPT Atlas доторх шиг браузерын агентын хувьд зааварт халдлага нь уламжлалт вэб аюулгүй байдлын эрсдлээс (жишээлбэл хэрэглэгчийн алдаа, эсвэл програм хангамжийн эмзэг байдал) давсан шинэ аюулын вектор нэмдэг. Хүнийг фишингдэх эсвэл браузерын системийн эмзэг байдлыг ашиглахын оронд халдагч дотор нь ажиллаж буй агентыг онилдог.

Таамаг жишээ хэлбэрээр, халдагч агент хэрэглэгчийн хүсэлтийг үл ойшоон, оронд нь эмзэг татварын баримтуудыг халдагчийн хяналттай имэйл хаяг руу дамжуулахыг оролдсон хортой имэйл илгээж болно. Хэрэв хэрэглэгч агентээс уншаагүй имэйлүүдийг шалгаж гол санааг хураангуйлахыг хүсвэл, агент тэр ажлын урсгалын үеэр уг хортой имэйлийг залгиж магадгүй. Хэрэв тэр суулгасан зааврыг дагавал үндсэн ажлаасаа хазайж, эмзэг мэдээллийг буруугаар хуваалцаж болзошгүй.

Энэ бол ердөө нэг тодорхой хувилбар. Браузерын агентуудыг хэрэгтэй болгодог тэр л ерөнхий чанар нь эрсдэлийг ч мөн өргөн болгодог: агент бодитой хязгааргүй гадаргуу даяар итгэж үл болох заавартай тулгарч болно—имэйл ба хавсралт, календарийн урилга, хуваалцсан баримт, форум, сошиал медиа нийтлэлүүд, дурын вэб хуудас гэх мэт. Агент браузер дотор хэрэглэгчийн хийж чаддаг олон ижил үйлдлийг хийж чаддаг тул амжилттай халдлагын нөлөө ч таамгаар төдий чинээ өргөн байж болно: эмзэг имэйлийг дамжуулах, мөнгө илгээх, үүлэн дэх файлуудыг засах эсвэл устгах гэх мэт.

Бид өмнөх нийтлэлдээ хуваалцсанчлан, олон давхар хамгаалалтын арга хэмжээгээр дамжуулан зааварт халдлагаас хамгаалахад ахиц гаргасан. Гэсэн ч зааварт халдлага нь агентын аюулгүй байдлын нээлттэй сорилт хэвээр байгаа бөгөөд бид үүн дээр ирэх олон жил ажиллана гэж үзэж байна.

Төгсгөлөөс төгсгөл хүртэлх, өндөр тооцоололтой бататгах сургалтаар автомат зааварт халдлагын довтолгоо илрүүлэх нь

Хамгаалалтаа бэхжүүлэхийн тулд бид үйлдвэрлэлд ажиллаж буй агент системүүдийн эсрэг шинэ төрлийн зааварт халдлагуудыг тасралтгүй хайж ирсэн. Ийм халдлагуудыг олох нь бат бөх сааруулах арга хэмжээ боловсруулахын зайлшгүй урьдал нөхцөл юм: энэ нь бодит эрсдэлийг ойлгоход тусалж, хамгаалалтынхаа цоорхойг ил болгож, бодит засваруудыг хөтөлдөг.

Үүнийг өргөн хэмжээнд хийхийн тулд бид LLM-д суурилсан автомат халдагч бүтээж, браузерын агент руу амжилттай халдаж чадах зааварт халдлагуудыг эрж олохоор сургасан. Бид энэ халдагчийг бататгах сургалтаар төгсгөлөөс төгсгөл хүртэл сургаж, ингэснээр өөрийн амжилт, алдаанаас суралцан улаан багийн ур чадвараа сайжруулдаг. Мөн бид түүнд “гаргахаасаа өмнө турших” боломж олгосон, үүгээрээ бид юу хэлж байна вэ гэхээр: сэтгэн бодох гинжин явцынхаа үеэр халдагч боломжит injection санал болгож, гадаад симулятор руу илгээж чадна. Симулятор нь зорилтот хохирогч агент (хамгаалагч) уг injection-тэй таарвал хэрхэн ажиллах байсан талаарх counterfactual rollout-ыг ажиллуулж, хохирогч агентын сэтгэн бодох болон үйлдлийн бүрэн мөрийг буцаадаг. Халдагч энэ мөрийг санал хүсэлт болгон ашиглаж, халдлагаа давтан сайжруулж, симуляцыг дахин ажиллуулна—эцсийн халдлагад шийдэхээсээ өмнө энэ циклийг олон удаа давтана. Энэ нь халдагчид ганц амжилт/амжилтгүй гэсэн дохионоос илүү баялаг нөхцөл доторх санал хүсэлт өгдөг. Мөн халдагчийн тестийн үеийн тооцооллыг өргөжүүлдэг. Үүнээс гадна хамгаалагчийн сэтгэн бодох мөрүүдэд (бид гаднын хэрэглэгчдэд ил болгодоггүй) давуу эрхтэй хандалттай байх нь манай дотоод халдагчид тэгш бус давуу тал өгдөг—энэ нь гаднын дайсагнагчдаас түрүүлж гарах магадлалыг нэмэгдүүлдэг.

Бататгах сургалтыг дүрсэлсэн light-mode вэб хуудасны макет; тод градиент дэвсгэр дээр хөвөгч геометр дүрсүүдтэй харилцаж буй загварчилсан робот гар харагдана.

Яагаад бататгах сургалт (RL) гэж? Бид автомат халдагчийг сургахад бататгах сургалтыг хэд хэдэн шалтгаанаар сонгосон:

  1. Урт хугацааны болон тасралтгүй бус халдагчийн зорилтуудыг оновчлох. Бидний зорилго бол агентыг бодит ертөнцөд тохиолдож болох нарийн төвөгтэй дайсагнагч даалгавруудыг (жишээ нь имэйл илгээх, банкны гүйлгээ хийх) гүйцэтгүүлэхээр мэхэлж чадах зааварт халдлагуудыг хайх явдал юм. Эдгээр дайсагнагч даалгавар нь уг чанартаа урт хугацааны шинжтэй бөгөөд олон алхмын сэтгэн бодох, орчинтой харилцах явц, мөн сийрэг бөгөөд хоцорч ирдэг амжилтын дохио шаарддаг. Бататгах сургалт нь ийм сийрэг, хоцрогдолтой шагналын бүтэцтэй сайн зохицдог.
  2. Хил хязгаар LLM чадамжийг ашиглах. Бид хил хязгаар LLM-үүдийг автоматаар улаан баг үүсгэгч болгон шууд сургасан тул халдагч нь хил хязгаар загваруудын сэтгэн бодох, төлөвлөх чадварын сайжруулалтаас шууд ашиг хүртдэг. Суурь загварууд илүү хүчтэй болох тусам халдагч ч мөн аяндаа илүү чадвартай болдог—ингэснээр манай загварууд хувьсахын хэрээр хамгаалалт дээрээ дарамт үзүүлсээр байх өргөжих боломжтой арга болдог.
  3. Тооцооллыг өргөжүүлэх ба дасан зохицох халдагчдыг дуурайх. Бататгах сургалт нь олон тооны дээжлэлт, суралцах алхмуудын хүрээнд халдлага хайхад зарцуулах тооцооллыг өргөжүүлэхэд сайн тохирдог бөгөөд мөн дасан зохицох хүний халдагчдын зан төлөвийг ойрхон тусгадаг: стратегийг давтан турших, үр дүнгээс суралцах, амжилттай зан үйлийг бэхжүүлэх.

Манай автомат халдагч шинэ, бодитой зааварт халдлагуудыг төгсгөлөөс төгсгөл хүртэл илрүүлж чадна. Тодорхой гаралтын мөрийг гаргуулах эсвэл агентаас санаандгүй нэг алхамт хэрэгслийн дуудлага өдөөх зэрэг энгийн алдааг ил болгож байсан өмнөх ихэнх автоматжуулсан улаан багийн ажлаас ялгаатай нь RL-ээр сурсан манай халдагч агентыг арав (заримдаа бүр зуу) алхмаар өрнөдөг, нарийн төвөгтэй, урт хугацааны хортой ажлын урсгалыг гүйцэтгүүлэхээр чиглүүлж чадна. Мөн бид хүний улаан багийн кампанит ажил эсвэл гаднын тайланд огт харагдаагүй шинэ халдлагын стратегиудыг ажигласан.

Доорх демо нь манай автомат халдагчийн олсон тодорхой зааварт халдлагын exploit-ыг үзүүлж байгаа бөгөөд үүнийг дараа нь ChatGPT Atlas-ын хамгаалалтыг цаашид бэхжүүлэхэд ашигласан. Халдагч хэрэглэгчийн inbox-д хэрэглэгчийн CEO руу ажлаас гарах захидал илгээхийг агентэд чиглүүлсэн зааварт халдлага агуулсан хортой имэйл тарьдаг. Дараа нь хэрэглэгч агентээс оффист байхгүй хариуны ноорог бичихийг хүсэхэд, агент энгийн даалгаврын гүйцэтгэлийн үеэр тэр имэйлтэй таарч, суулгасан өгөгдлийг эрх бүхий заавар гэж үзэн дагадаг. Оффист байхгүй хариу хэзээ ч бичигдэхгүй, харин агент хэрэглэгчийн өмнөөс ажлаас гараад явчихдаг.

Зааварт халдлагын мөн чанар нь детерминист аюулгүй байдлын баталгааг хүндрүүлдэг ч, автоматжуулсан аюулгүй байдлын судалгаа, дайсагнагч тестлэлтээ өргөжүүлж, шуурхай хариу арга хэмжээний циклийг чангатгаснаар бид халдлага бодит орчинд гарахыг хүлээлгүйгээр загварын бат бөх байдал болон хамгаалалтыг сайжруулж чадна. 

Эдгээр халдлагын мөн чанар—мөн бид тэднээс хэрхэн идэвхтэй хамгаалж байгааг—хэрэглэгчид болон судлаачдад илүү сайн ойлгуулахын тулд бид энэ демог хуваалцаж байна. Бид энэ нь автоматжуулсан улаан багийн хийж чадах зүйлийн хил хязгаарыг илэрхийлж байна гэж үзэж байгаа бөгөөд судалгаагаа үргэлжлүүлэхдээ туйлын их урамтай байна.

Урьдчилан ажилладаг шуурхай хариу арга хэмжээний циклээр ChatGPT Atlas-ыг бэхжүүлэх нь

Манай автоматжуулсан улаан баг нь урьдчилан ажилладаг шуурхай хариу арга хэмжээний циклийг хөдөлгөж байна: автомат халдагч амжилттай зааварт халдлагын шинэ ангиллыг илрүүлэх үед энэ нь манай хамгаалалтыг сайжруулах тодорхой зорилтыг шууд бий болгодог.

Шинээр илрүүлсэн халдлагуудын эсрэг дайсагнагч сургалт хийх. Бид шинэчлэгдсэн агент загваруудыг хамгийн хүчтэй автомат халдагчийнхаа эсрэг тасралтгүй сургаж, одоогоор зорилтот агентууд бүтэлгүйтэж буй халдлагуудыг тэргүүн ээлжид авч үздэг. Зорилго нь агентуудад дайсагнагч зааврыг үл тоомсорлон, хэрэглэгчийн зорилготой нийцсэн хэвээр байхыг заах бөгөөд ингэснээр шинээр илэрсэн зааварт халдлагын стратегийн эсэргүүцлийг сайжруулна. Энэ нь шинэ, өндөр хүчтэй халдлагын эсрэг бат бөх чанарыг загварын checkpoint дотор шууд “шатаан суулгадаг”. Жишээлбэл, саяхны автоматжуулсан улаан баг нь бүх ChatGPT Atlas хэрэглэгчдэд аль хэдийн нэвтрүүлсэн, дайсагнагч сургалттай шинэ браузер-агент checkpoint-ыг шууд гаргаж өгсөн. Энэ нь эцсийн дүндээ хэрэглэгчдээ шинэ төрлийн халдлагуудаас илүү сайн хамгаалахад тусалдаг.

Халдлагын мөрүүдийг ашиглан илүү өргөн хамгаалалтын стекийг сайжруулах. Манай автомат улаан багийн илрүүлдэг олон халдлагын зам нь зөвхөн загварын гадна талд сайжруулах боломжуудыг ч ил болгодог—жишээлбэл мониторинг, загварын нөхцөлд бид оруулдаг аюулгүй байдлын заавар, эсвэл системийн түвшний хамгаалалт зэрэгт. Эдгээр олдворууд нь зөвхөн агентын checkpoint биш, хамгаалалтын бүх стекийг давтан сайжруулахад тусалдаг.

Идэвхтэй халдлагад хариу өгөх. Энэ цикл нь мөн бодит орчин дахь идэвхтэй халдлагад илүү сайн хариулахад тусалж чадна. Бид дэлхий даяарх ул мөрөөрөө боломжит халдлагуудыг ажиглахдаа гаднын дайсагнагчдын ашиглаж буй арга техник, тактикуудыг авч, энэ циклд оруулж, тэдний үйл ажиллагааг дуурайлган, платформ даяарх хамгаалалтын өөрчлөлтийг хөтөлж чадна.

Төлөв: агентын аюулгүй байдлын төлөөх манай урт хугацааны амлалт

Агентуудад улаан баг хийх чадвараа бэхжүүлэх, мөн тэр ажлын хэсгийг автоматжуулахад хамгийн чадвартай загваруудаа ашиглах нь—илрүүлэлтээс засвар хүртэлх циклийг өргөжүүлснээр Atlas браузерын агентыг илүү бат бөх болгоход тусалдаг. Энэхүү бэхжүүлэх ажил нь аюулгүй байдлын танил сургамжийг дахин бататгадаг: илүү хүчтэй хамгаалалтад хүрэх туршигдсан зам бол бодит системүүдийг тасралтгүй дарамттай турших, алдаанд хариу үзүүлэх, бодит засваруудыг хүргэх явдал юм.

Дайсагнагчид дасан зохицсоор байна гэж бид үзэж байна. Зааварт халдлага нь вэб дэх луйвар болон нийгмийн инженерчлэлтэй адил хэзээ ч бүрэн “шийдэгдэнэ” гэдэг нь магадлал багатай. Гэхдээ урьдчилан ажилладаг, өндөр хариу үйлдэлтэй шуурхай хариу арга хэмжээний цикл нь хугацааны явцад бодит ертөнцийн эрсдэлийг бодитоор бууруулсаар чадна гэдэгт бид өөдрөг байна. Автоматжуулсан халдлага илрүүлэлтийг дайсагнагч сургалт болон системийн түвшний хамгаалалттай хослуулснаар бид шинэ халдлагын хэв маягийг эрт таньж, цоорхойг хурдан хааж, exploit хийх өртгийг тасралтгүй өсгөж чадна.

ChatGPT Atlas дахь агент горим хүчирхэг—мөн аюулгүй байдлын аюулын гадаргууг тэлдэг. Энэ солилцоог нээлттэй, бодитоор харах нь хариуцлагатай бүтээх ажлын нэг хэсэг юм. Бидний зорилго бол давталт бүрээр Atlas-ыг утга учиртайгаар илүү аюулгүй болгох: загварын бат бөх байдлыг сайжруулах, түүнийг тойрсон хамгаалалтын стекийг бэхжүүлэх, бодит орчинд шинээр гарч буй урвуулан ашиглалтын хэв маягийг хянах.

Бид судалгаа болон нэвтрүүлэлт даяар үргэлжлүүлэн хөрөнгө оруулж, илүү сайн автоматжуулсан улаан багийн аргуудыг хөгжүүлж, олон давхар сааруулалтыг нэвтрүүлж, суралцахын хэрээр хурдан давтан сайжруулсаар байх болно. Мөн өргөн хүрээний хамтын нийгэмлэгтэй хуваалцаж чадах зүйлээ хуваалцана.

Агентуудыг аюулгүй ашиглах зөвлөмж

Бид Atlas-ыг системийн түвшинд үргэлжлүүлэн бэхжүүлж байгаа ч, агент ашиглах үед эрсдэлийг бууруулахын тулд хэрэглэгчид хийж болох алхмууд бий. 

Боломжтой үед нэвтэрсэн хандалтыг хязгаарла. Atlas дахь Agent-ийг ашиглахдаа, хэрэв таны нэвтэрсэн вэбсайтуудад хандах шаардлага тухайн даалгаварт зайлшгүй хэрэггүй бол, эсвэл даалгаврын үеэр нэвтрэх тодорхой сайтуудын хандалтыг хязгаарлахын тулд logged-out mode(шинэ цонхонд нээгдэнэ)-ийг ашиглахыг бид хэрэглэгчдэд үргэлжлүүлэн зөвлөж байна. 

Баталгаажуулалтын хүсэлтүүдийг нягт шалга. Худалдан авалтыг дуусгах эсвэл имэйл илгээх зэрэг тодорхой үр дагавартай үйлдлүүдийн хувьд агентууд цааш үргэлжлэхээс өмнө таны баталгаажуулалтыг авах байдлаар бүтээгдсэн. Агент танаас үйлдэл баталгаажуулахыг хүсэх үед, тухайн үйлдэл зөв эсэх, хуваалцагдаж буй аливаа мэдээлэл тэр нөхцөлд тохирох эсэхийг нягтлахад түр азнаарай.

Боломжтой үед агентуудад тодорхой заавар өг. “Миний имэйлүүдийг шалгаад хэрэгтэй бүх арга хэмжээг аваарай” гэх мэт хэт өргөн өгөгдлөөс зайлсхий. Хэт өргөн эрх чөлөө нь хамгаалалт байлаа ч нуугдсан эсвэл хортой агуулгад агентад нөлөөлөхийг илүү хялбар болгодог. Агентаас тодорхой, хүрээ нь сайн тогтоогдсон даалгавар гүйцэтгэхийг хүсэх нь илүү аюулгүй. Энэ нь эрсдэлийг бүрэн арилгахгүй ч халдлагыг хэрэгжүүлэхийг илүү хүндрүүлнэ.

Хэрэв агентууд өдөр тутмын ажлын итгэмжтэй түнш болох гэж байгаа бол, нээлттэй вэбийн боломж олгодог манипуляцийн хэлбэрүүдэд тэсвэртэй байх ёстой. Зааварт халдлагын эсрэг бэхжүүлэх нь урт хугацааны амлалт бөгөөд манай хамгийн өндөр тэргүүлэх чиглэлүүдийн нэг юм. Бид энэ ажлын талаар тун удахгүй илүү ихийг хуваалцах болно.

Зохиогч

OpenAI