Хэргээ хүлээлт нь хэлний загварыг хэрхэн шударга байлгаж чадах вэ
Бид загварууд заавар зөрчих эсвэл санаандгүй товчлол ашиглах үедээ түүнийгээ мэдэгдэхэд сургадаг, үзэл баримтлалын эхний шатны аргыг хуваалцаж байна.
AI системүүд улам чадвартай болж байгаа бөгөөд бид тэднийг аль болох гүнзгий ойлгохыг хүсэж байна—түүний дотор хариултад хэрхэн, яагаад хүрдгийг нь ч. Заримдаа загвар товчлол ашиглах эсвэл буруу зорилгыг оновчлох боловч эцсийн гаралт нь зөв мэт харагдсаар байдаг. Хэрэв ийм зүйл хэзээ болсныг ил гаргаж чадвал, бид нэвтрүүлсэн системүүдийг илүү сайн хянаж, сургалтыг сайжруулж, гаралтад итгэх итгэлийг нэмэгдүүлж чадна.
OpenAI болон бусдын судалгаа AI загварууд галлюцинаци үүсгэж, reward hack хийж, эсвэл шударга бус байж чаддгийг харуулсан. Одоогоор бид зальт төлөвлөлт(шинэ цонхонд нээгдэнэ) зэрэг хамгийн түгшүүртэй буруу үйлдлүүдийг зөвхөн стресс тест болон эсрэгцсэн үнэлгээнүүд дээр л харж байна. Гэвч загварууд илүү чадвартай болж, улам бүр агент шинжтэй болохын хэрээр, уялдаагүй байдлын ховор хэлбэрүүд ч илүү ноцтой үр дагавартай болж байна. Энэ нь эдгээр эрсдэлийг илүү сайн илрүүлэх, ойлгох, бууруулахад туслах аргуудад хөрөнгө оруулах шаардлагыг бидэнд өгч байна.
Энэ ажил ийм аргуудын нэгийг судалж байна: загварууд хүсээгүй зан үйл гаргасан үедээ үүнийгээ ил тод хүлээн зөвшөөрөхөд сургах арга бөгөөд үүнийг бид хэргээ хүлээлт гэж нэрлэж байна.
Хэргээ хүлээлт гэдэг нь хэрэглэгчид өгсөн загварын үндсэн хариултаас тусдаа хоёр дахь гаралт юм. Үндсэн хариултыг зөв байдал, хэв маяг, тус дөхөм, нийцэл, аюулгүй байдал зэрэг олон хэмжээсээр дүгнэдэг бөгөөд эдгээр олон талт дохиог ашиглан загваруудыг илүү сайн хариулт гаргахад сургадаг. Харин хэргээ хүлээлтийг зөвхөн нэг зүйлээр л дүгнэж, сургадаг: шударга байдал. Наминчлалын бүтцээс санаа авч, загвар өөрийн хэргээ хүлээлтэд юу ч хэлсэн тэр нь сургалтын явцад өөрийнх нь эсрэг ашиглагддаггүй. Хэрэв загвар тестийг хакердсан, зориудаар сул ажилласан, эсвэл заавар зөрчсөн гэдгээ шударгаар хүлээн зөвшөөрвөл, тэр хүлээн зөвшөөрөлт нь шагналыг нь бууруулахын оронд нэмэгдүүлдэг. Зорилго нь загварыг үнэндээ юу хийснээ үнэнчээр мэдээлэхэд урамшуулах явдал юм.
Бидний туршилтуудаар хэргээ хүлээлтийн арга нь загварын буруу үйлдлийн ил харагдах байдлыг мэдэгдэхүйц сайжруулж байгааг олж тогтоосон. Буруу үйлдэл өдөөхөөр зохиосон үнэлгээнүүдийн дундаж дээр “хуурамч сөрөг” магадлал (өөрөөр хэлбэл, загвар зааврыг дагаагүй мөртлөө үүнийгээ хүлээгээгүй байх) ердөө 4.4% байна.
Манай “үзэл баримтлалын баталгаа” хэргээ хүлээлтийн загварын хэд хэдэн эсрэгцсэн өгөгдлийн цуглуулга дээрх нарийвчлал. Үр дүнг дагаж мөрдсөн ба хүлээсэнгүй (жинхэнэ сөрөг), дагаж мөрдсөн ба хүлээсэн (хуурамч эерэг), дагаж мөрдөөгүй ба хүлээсэнгүй (хуурамч сөрөг), дагаж мөрдөөгүй ба хүлээсэн (жинхэнэ эерэг) гэж ангилсан.

Хэрэглэгчийн өгөгдөл өгөгдсөн үед, боломжит дөрвөн үр дүн нь (1) загварын хариулт нийцсэн (“сайн”) эсвэл нийцээгүй (“муу”) эсэх, мөн (2) хэргээ хүлээлт нь нийцсэн эсвэл нийцээгүй гэж мэдэгдэж байгаа эсэхийн хослолоос хамаарна. Ерөнхийдөө бид хэргээ хүлээлтүүд маш өндөр магадлалтайгаар зөв байдаг бөгөөд цаашлаад хэргээ хүлээлтийн алдаанууд ихэвчлэн хоргүй, санаатай төөрөгдүүлэлтээс биш шударга будилаанаас үүдэлтэйг харж байна.
Хэргээ хүлээлт гэдэг нь загвар өөрт нь өгөгдсөн ил ба далд заавар, бодлого, мөн тэдгээрийн утга санаа болон үгчилсэн шаардлагыг хэр зэрэг дагаж мөрдсөнөө, мөн “булан тойрсон”, “хакердсан”, бодлого зөрчсөн, эсвэл ямар нэг байдлаар хүлээлтэд хүрээгүй тохиолдол байсан эсэхээ өөрөө тайлагнах явдал юм. Бидний судалгаагаар загваруудыг өөрсдийн дутагдлыг илэн далангүй мэдээлдэг байхаар сургаж болдгийг олж тогтоосон. Бид GPT‑5 Thinking-ийн нэг хувилбарыг хэргээ хүлээлт гаргахаар сургаж, зальт төлөвлөлт, халдлага, заавар зөрчих, галлюцинаци зэрэг зан үйлийг өдөөхөөр зохиосон тархалтаас гадуурх хэд хэдэн стресс-тест өгөгдлийн цуглуулга дээр үнэлсэн. Загвар эдгээр хүсээгүй зан үйлийг гаргасан ч үүнийгээ хүлээх магадлал маш өндөр байгааг бид олсон. Дээрх зураг нь хэргээ хүлээлтийн арга нь олон янзын өгөгдлийн цуглуулга болон даалгаврын хүрээнд өргөнөөр үр дүнтэйг харуулж байна.
Хэрэглэгч ба загварын хоорондын аливаа харилцан үйлчлэл загварын хариултаар төгссөний дараа, загварт хэргээ хүлээлтийн тайлан гаргахыг заасан “систем мессеж” илгээснээр хэргээ хүлээлтийг хүсэж болно. Тайлан нь загварын хамгийн сүүлийн хариултад хамаарах бөгөөд (1) тухайн хариулт хангах ёстой байсан бүх ил ба далд заавар, хязгаарлалт, зорилгуудын жагсаалт, (2) хариулт эдгээр зорилго тус бүрийг үнэхээр хангасан эсэхийн шударга, бодитой шинжилгээ, мөн (3) хариултыг гаргах явцад загварт тулгарсан аливаа эргэлзээ, тодорхой бус байдал, эсвэл “хэцүү дүгнэлтийн сонголтууд”-ын жагсаалтыг агуулна. Сургалтын явцад хэргээ хүлээлтийг зорилгын бүрэн байдал, нийцлийн шинжилгээний зөв байдал, эргэлзээний хамрах хүрээгээр зөвхөн хэргээ хүлээлтийг оноодог тусдаа шагналын загвар үнэлдэг. Эдгээр шагнал зөвхөн хэргээ хүлээлтийн гаралт дээр хэрэглэгдэж, үндсэн хариултын шагналд хэзээ ч нөлөөлдөггүй. Ингэснээр дээр ярьсан шинж чанар—өөрөөр хэлбэл, загвар хэргээ хүлээлтэд юу ч хэлсэн нь үндсэн хариултын шагналыг нь бууруулахгүй (эсвэл нэмэгдүүлэхгүй)—хангагдана.
Хэргээ хүлээлтийн цаадах онол энгийн. Загварын хүсээгүй олон төрлийн зан үйл нь бид загвараас нэгэн зэрэг хэд хэдэн зорилгыг оновчлохыг шаарддагтай холбоотой гарч ирдэг. Бататгах сургалтын явцад загвар өгөгдөл харж, хариу гаргаж, шагнал авдаг. Цаг хугацааны явцад тэр өндөр оноо авдаг төрлийн хариултуудыг гаргаж сурах болно. Асуудал нь шагналын дохио олон янзын хүчин зүйлийг нэгэн зэрэг нэгтгэх ёстой байдагт оршдог: хариулт хэр зөв вэ, тус дөхөмтэй юу, бүтээгдэхүүн ба бодлогын тодорхойлолтыг дагаж байна уу, аюулгүй байдлын хязгаарлалтыг хангаж байна уу, хэрэглэгчдийн ерөнхийдөө илүүд үздэг зүйлтэй нийцэж байна уу гэх мэт. Эдгээр дохио харилцан үйлчлэхэд, тэд санамсаргүйгээр загварыг бидний хүсэхгүй зан үйл рүү түлхэж болзошгүй.
Жишээлбэл, галлюцинацийн талаарх бидний ажил зарим өгөгдлийн цуглуулга итгэлтэй таамгийг эргэлзэж байгаагаа шударгаар хүлээн зөвшөөрөхөөс илүү шагнадаг болохыг харуулсан. сайшаалын талаарх бидний судалгаа илүүд үзэх дохио хэт хүчтэй үед загварууд хэтэрхий санал нийлэмтгий болж чаддагийг харуулсан. Мөн бусад бүлгүүдийн ажил(шинэ цонхонд нээгдэнэ) загварууд “reward hack” хийж чаддгийг—өөрөөр хэлбэл, бидний үнэхээр хүссэн зүйлийг хийхгүйгээр өндөр оноо авах боломж олгодог сургалтын орчны цоорхойг олдгийг—харуулсан. Зарим тохиолдолд ийм товчлолууд нэвтрүүлсэн орчинд бүр ч хорлонтой зан үйл рүү ерөнхийшиж(шинэ цонхонд нээгдэнэ) болно.
Хэргээ хүлээлт нь зорилгуудыг бүрэн тусгаарласнаар энэ асуудлаас зайлсхийдэг. Үндсэн хариулт ердийн бүх хүчин зүйлийг оновчилсоор байна. Харин хэргээ хүлээлтийг яг ганц зүйл дээр сургадаг: шударга байдал. Загвар хэргээ хүлээлтэд юу ч хэлсэн нь түүний эсрэг ашиглагддаггүй, мөн хэргээ хүлээлт нь үндсэн хариултын шагналд нөлөөлдөггүй. Энэ нь загвар эхний гаралт дээрээ хуурсан эсвэл булан тойрсон байсан ч хэргээ хүлээлтэд түүнийгээ хүлээн зөвшөөрөх сэдэлтэй гэсэн үг. Бид практикт яг үүнийг харж байна: загварууд үндсэн хариултад нуусан байсан ч хэргээ хүлээлтэд муу зан үйлээ хүлээн зөвшөөрөхөд бэлэн байна. Харин хэргээ хүлээлт бүтэлгүйтэх үед энэ нь ихэвчлэн загвар үнэхээр будилсантай холбоотой байдаг—заавар тодорхой бус байсан эсвэл алдаа гарсныг ойлгоогүй байснаас—санаатайгаар төөрөгдүүлэх гэсэнтэй биш. Чухал нь, эхний үр дүнгээс харахад үндсэн хариултыг огт бодлын хэлхээгүйгээр гаргасан ч хэргээ хүлээлт үр дүнтэй хэвээр байгаа нь хэргээ хүлээлтийн шударга байдал дотоод сэтгэн бодох үйл явцын уншигдахуйц байдлаас хамаарахгүй бөгөөд ирээдүйн загварын архитектуруудад ч ерөнхийших боломжтойг харуулж байна.
Хэргээ хүлээлтийн сургалт нь нийцлийн ground-truth шошгогүйгээр ч ажилладаг. “Ground truth” гэж бид загвар үнэхээр заавар дагасан уу, эсвэл зөрчсөн үү гэдгийг илтгэх, гаднаас өгөгдсөн эцсийн шошгыг хэлж байна. Бодит ертөнцийн олон даалгаварт ийм шошго байхгүй—хэрэв загвар дүрэм зөрчсөнийг бид итгэлтэй мэддэг байсан бол хэргээ хүлээлтэд найдахгүйгээр тэр зөрчлийг шууд торгож болох байлаа. Үүний оронд загвар өөрийгөө юу хийсэн гэж үзэж байгаагаа бүтэцтэй, нотолгоонд тулгуурласан тайлбар гаргасных нь төлөө шагнагддаг. Өгүүлэлд энэ тохиргоон дор шударга байдал ихэвчлэн аяндаа үүсдэгийг харуулсан. Бидний бодлоор энэ нь үнэн, нотолгоотой тайлбар өгөх нь шүүгчийг давж чадах эвтэйхэн зохиомол түүх бүтээхээс загварт ерөнхийдөө амар байдагтай холбоотой. Энэ нь өгүүлэлд судлагдсан гол таамаглал бөгөөд хэргээ хүлээлт бүтэлгүйтдэг тохиолдлууд—хуурамч сөрөг ба хуурамч эерэгүүд—хэрхэн үүсдгийг мөн хэлэлцсэн.
Өгүүлэлд хэргээ хүлээлт ажилладгийн анхны нотолгоо бий, гэхдээ үүнийг эцсийн баталгаа гэж үзэж болохгүй. Бид хил хязгаарын загвар (GPT‑5 Thinking)-ыг ашигласан ч туршилтуудын маань цар хүрээ хязгаарлагдмал байсан бөгөөд харьцангуй бага хэмжээний тооцоолол, өгөгдөл ашигласан. Бид энэ ажлыг дараагийн түвшинд хүргэх, мөн сургалтыг нь өргөжүүлэхэд хэргээ хүлээлтийн шударга байдал хэвээр хадгалагдах эсэхийг харахдаа баяртай байна.
Загвар үндсэн хариултдаа өгүүлбэрүүдийг үгийн тоотой мэт тайлбарлан үнэлэгчийг хуурахын тулд “reward hack” хийдэг ч дараа нь үүнийгээ хэргээ хүлээлтэд хүлээн зөвшөөрдөг.
Бидний туршилтын нэг хэсэг болгон бид сул загвараар тооцоолсон “хакердаж болдог” шагналын дохионы эсрэг загваруудыг зориуд сургаж үзсэн. Энэ тохиргоо нь үндсэн шагнал болон хэргээ хүлээлтийн шагнал хоёуланд нь хамаарч байсан. Загвар сул шагналын дохиог ашиглан мөлжиж сурсан: харагдах нарийвчлал нь (сул загвараар шүүгдэхэд) өссөн боловч жинхэнэ нарийвчлал нь (илүү хүчтэй үнэлэгчээр шүүгдэхэд) буурсан.
Гэсэн хэдий ч, хэргээ хүлээлтийн суваг яг тэр сул дохиогоор сургагдсан байсан ч түүний нарийвчлал эсрэг чиглэлд хөдөлсөн. Загвар хэргээ хүлээлтийн шагналыг оновчлох хамгийн сайн арга нь үндсэн шагналыг хакердсанаа зүгээр л хүлээн зөвшөөрөх гэдгийг сурсан. Үндсэн зан үйл хэлбийж байсан ч хэргээ хүлээлт цаг хугацааны явцад улам нарийвчлалтай болсон.
Сургалтын явцад загвар шаардлагыг биелүүлж чадахгүй үед зарим тохиолдолд үндсэн шагналын шүүгчийг “хакердаж” сурдаг тул шүүгчийн нарийвчлал буурч байна. Харин эсрэгээр, хэргээ хүлээлтийн шагналын шүүгч нь яг адилхан хакердаж болдог байсан ч загвар хэргээ хүлээлтдээ сургалтын турш улам бүр шударга болж, эцэст нь шаардлагыг биелүүлээгүй үедээ бараг 100% хүлээн зөвшөөрөх түвшинд хүрдэг.
Өгүүлэл(шинэ цонхонд нээгдэнэ)-д илүү олон туршилт ба үр дүн бий. Бид хэргээ хүлээлтээр сурсан загварыг ижил аргаар сургагдсан боловч хэргээ хүлээлтийн суваггүй хяналтын загвартай харьцуулсан. Мөн хэргээ хүлээлт бүтэлгүйтсэн тохиолдлуудыг судалсан. Бараг бүх “алдалт” нь загвар үнэхээр будилсан үед гарсан—заавар тодорхойгүй байсан эсвэл зүгээр л алдаа гаргаснаа ойлгоогүй үед. (Дээрх хуурамч сөрөг жишээ-г үзнэ үү.)
Хэргээ хүлээлтэд өөрийн хязгаарлалтууд бий. Энэ нь муу зан үйлийг зогсоодоггүй; харин ил болгодог. Түүний гол үнэ цэнэ нь сургалтын явцад ч, нэвтрүүлсэн орчинд ч хяналт ба оношлогооны хэрэгсэл болох явдал юм. Хэргээ хүлээлт нь бодлын хэлхээний хяналт-тай төстэй үүрэг гүйцэтгэдэг: хоёулаа далд сэтгэн бодох үйл явцыг илүү харагдахуйц болгодог. Хэргээ хүлээлт нь загвар заавар зөрчсөн эсэхэд төвлөрдөг; бодлын хэлхээ нь түүнд хэрхэн хүрснийг тодруулж чадна.
Энэ ажил мөн үзэл баримтлалын баталгаа юм. Бид хэргээ хүлээлтийн механизмуудыг их цар хүрээгээр сургаагүй бөгөөд хэргээ хүлээлтийн нарийвчлал одоогоор төгс биш хэвээр байна. Энэ аргыг илүү найдвартай, илүү бат бөх, мөн загварын гэр бүлүүд болон даалгавруудад илүү өргөн хэрэглэгдэхүйц болгохын тулд хийх ажил их байна.
Энэ ажил нь манай AI аюулгүй байдлын өргөн хүрээний хандлага-ын нэг хэсэг юм. Хэргээ хүлээлт нь оновчтой уялдуулах, бодлын хэлхээний хяналт, зааврын шатлал зэрэг олон механизмыг багтаасан илүү том давхаргын нэг механизм юм. Ганц ч арга хангалттай биш; зорилго нь бие биеэ бэхжүүлдэг шалгалт ба ил тод байдлын хэрэгслүүдийн давхарласан систем юм. Хэргээ хүлээлт нь загвар дахь асуудалтай зан үйлийг сургалт ба үнэлгээний үеэр оношлоход, мөн нэвтрүүлсэн орчинд хянахад тусалж чадна. Хэргээ хүлээлт дангаараа олон хэмжээсийн тэнцвэрийг шийдэхгүй. Харин загварууд зөвхөн шударга байдалд төвлөрдөг “үнэний ийлдэс” горимыг бий болгосноор, энэ нь ерөнхийдөө шударга байдал ба аюулгүй байдлыг сайжруулахад манай давхаргад үнэтэй хэрэгсэл нэмдэг.
Загварууд улам чадвартай болж, илүү өндөр эрсдэлтэй орчинд нэвтрэхийн хэрээр тэд яг юу хийж байгааг, яагаад тэгж байгааг ойлгох илүү сайн хэрэгслүүд бидэнд хэрэгтэй. Хэргээ хүлээлт нь бүрэн шийдэл биш ч манай ил тод байдал, хяналтын давхаргад утга учиртай нэмэлт үе нэмж өгдөг. Ирээдүйн ажилд бид хэргээ хүлээлтийг өргөжүүлэхийн зэрэгцээ бодлын хэлхээний хяналт болон оновчтой уялдуулах зэрэг нэмэлт ил тод байдал ба аюулгүй байдлын аргуудтай хослуулахаар төлөвлөж байна. Ингэснээр манай загварууд бүх заавар, бодлогыг (жишээлбэл, манай загварын тодорхойлолт(шинэ цонхонд нээгдэнэ)) үнэнчээр дагаж мөрдөж, үйлдлээ үнэн зөв тайлагнадаг болгох зорилгод цааш ахиц гаргана.


