Үндсэн агуулга руу алгасах
OpenAI

2025 оны арван нэгдүгээр сарын 13

СудалгааНийтлэл

Мэдрэлийн сүлжээг сийрэг хэлхээгээр ойлгох нь

Бид загваруудыг илүү энгийн, мөрдөх боломжтой алхмаар сэтгэдэг болгож сургасан бөгөөд ингэснээр тэд хэрхэн ажилладгийг илүү сайн ойлгож чадна.

Ачаалж байна…

​​Мэдрэлийн сүлжээнүүд өнөө үеийн хамгийн чадвартай AI системүүдийг тэтгэж байгаа ч ойлгоход бэрх хэвээр байна. Бид эдгээр загваруудыг тодорхой, алхам алхмаар заавраар бичдэггүй. Харин тэд нэг даалгаврыг эзэмших хүртлээ дотоодын тэрбум тэрбум холболт буюу “жин”-гээ тохируулан суралцдаг. Бид сургалтын дүрмийг зохиодог ч бий болох тодорхой зан төлөвийг нь биш, үүний үр дүнд хүн амархан тайлж уншиж чадахааргүй нягт холболтын сүлжээ үүсдэг. 

Бид тайлбарлагдах байдлыг хэрхэн хардаг вэ

AI системүүд улам чадвартай болж, шинжлэх ухаан, боловсрол, эрүүл мэндийн шийдвэрүүдэд бодит нөлөө үзүүлэхийн хэрээр тэд хэрхэн ажилладгийг ойлгох нь зайлшгүй чухал. Тайлбарлагдах байдал гэдэг нь загвар яагаад өгөгдсөн гаралтыг үүсгэснийг ойлгоход тусалдаг аргуудыг хэлнэ. Үүнд хүрэх олон арга бий. 

Жишээлбэл, сэтгэн бодох загварууд эцсийн хариунд хүрэх явцдаа өөрийн ажлыг тайлбарлах урамшуулалтай байдаг. Сэтгэх гинжин явцын тайлбарлагдах байдал нь эдгээр тайлбаруудыг ашиглан загварын зан төлөвийг хянадаг. Энэ нь шууд хэрэгтэй: одоогийн сэтгэн бодох загваруудын сэтгэх гинжин явц нь хууралт зэрэг санаа зовоох зан төлөвийн талаар мэдээлэлтэй мэт харагддаг. Гэвч энэ шинжид бүрэн найдах нь хэврэг стратеги бөгөөд цаг хугацааны явцад энэ нь алдагдаж магадгүй.

Нөгөө талаас, энэ ажлын гол анхаарал болсон механист тайлбарлагдах байдал нь загварын тооцооллыг бүрэн урвуу инженерчлэхийг зорьдог. Одоогоор энэ нь шууд ашиг багатай байсан ч онолын хувьд загварын зан төлөвийн илүү бүрэн тайлбарыг өгч чадна. Загварын зан төлөвийг хамгийн нарийн түвшинд тайлбарлахыг зорьдог тул механист тайлбарлагдах байдал нь цөөн таамаглалд тулгуурлаж, бидэнд илүү их итгэл өгч чадна. Гэхдээ доод түвшний дэлгэрэнгүй мэдээллээс нарийн төвөгтэй зан төлөвийн тайлбар хүртэлх зам нь хавьгүй урт, илүү хэцүү.

Тайлбарлагдах байдал нь илүү сайн хяналт боломжтой болгох, аюултай эсвэл стратегийн хувьд нийцгүй зан төлөвийн эрт сэрэмжлүүлгийг өгөх зэрэг хэд хэдэн чухал зорилгыг дэмждэг. Мөн энэ нь өргөтгөх боломжтой хяналт, сөрөг довтолгоот сургалт, red-teaming зэрэг манай аюулгүй байдлын бусад хүчин чармайлтыг нөхдөг. 

Энэ ажилд бид загваруудыг тайлбарлахад илүү хялбар болгох аргаар ихэнхдээ сургаж чаддгаа харуулж байна. Бид ажлаа нягт сүлжээний дараах шинжилгээг нөхөх ирээдүйтэй арга гэж үзэж байна. 

Энэ бол маш том зорилготой мөрий; манай ажлаас хамгийн хүчирхэг загваруудынхаа нарийн төвөгтэй зан төлөвийг бүрэн ойлгох хүртэл урт зам бий. Гэсэн ч энгийн зан төлөвүүдийн хувьд манай аргаар сургасан сийрэг загварууд ойлгомжтой бөгөөд тухайн зан төлөвийг хэрэгжүүлэхэд хангалттай жижиг, салангид хэлхээнүүдийг агуулдгийг бид олж мэдсэн. Энэ нь механизмыг нь ойлгож болох илүү том системүүдийг сургах бодитой зам байж болохыг示гэнэ.

Шинэ арга: сийрэг загвар суралцуулах нь

Өмнөх механист тайлбарлагдах байдлын ажлууд нягт, орооцолдсон сүлжээнээс эхэлж, тэдгээрийг тайлахыг оролдож ирсэн. Эдгээр сүлжээнд нэг нейрон бүр мянга мянган өөр нейронтой холбогддог. Ихэнх нейрон олон өөр үүрэг гүйцэтгэдэг мэт харагддаг тул ойлгох нь бараг боломжгүй мэт санагддаг. 

Гэхдээ хэрэв бид илүү олон нейронтой мөртлөө нейрон бүр нь хэдхэн арван холболттой, орооцолдоогүй мэдрэлийн сүлжээг сургачихвал яах вэ? Тэгвэл үүсэх сүлжээ нь илүү энгийн, ойлгоход илүү хялбар байж магадгүй. Энэ бол манай ажлын судалгааны гол мөрий юм.

Энэ зарчмыг бодолцон бид GPT‑2 шиг одоо байгаа хэлний загваруудтай маш төстэй архитектуртай хэлний загваруудыг нэг жижиг өөрчлөлттэйгөөр сургасан: бид загварын жингийн асар ихэнхийг тэг болгохыг албадсан. Ингэснээр загвар нейронуудын хоорондын боломжит холболтуудаас маш цөөхнийг л ашиглахаар хязгаарлагдсан. Энэ нь энгийн өөрчлөлт боловч загварын дотоод тооцооллыг мэдэгдэхүйц салангид болгодог гэж бид үзэж байна.

Нягт хэлхээ ба сийрэг хэлхээг харьцуулсан диаграмм. Нягт хувилбар нь олон холбогч шугамтай хоёр мөр нодыг, харин сийрэг хувилбар нь ижил байрлалтай ч цөөн, илүү сонгомол холболттойг харуулна.

Ердийн нягт мэдрэлийн сүлжээнд нейрон бүр дараагийн давхаргын бүх нейронтой холбогддог. Манай сийрэг загваруудад нейрон бүр дараагийн давхаргын цөөн хэдэн нейронтой л холбогдоно. Ингэснээр нейронууд болон бүхэл сүлжээг ойлгоход илүү хялбар болно гэж бид найдаж байна.

Тайлбарлагдах байдлыг үнэлэх нь

Бид сийрэг загваруудын тооцоолол хэр зэрэг салангид байгааг хэмжихийг хүссэн. Бид загварын янз бүрийн энгийн зан төлөвийг авч үзээд, зан төлөв бүрийг хариуцдаг загварын хэсгүүдийг тусгаарлаж чадах эсэхийг шалгасан бөгөөд үүнийг бид хэлхээ гэж нэрлэдэг.

Бид энгийн алгоритмын даалгаврын цуглуулгыг гараар сонгон бүрдүүлсэн. Даалгавар бүрийн хувьд тухайн даалгаврыг гүйцэтгэж чадах хамгийн жижиг хэлхээ хүртэл загварыг тайрч, тэр хэлхээ хэр энгийн болохыг судалсан. (Дэлгэрэнгүйг манай өгүүллээс(шинэ цонхонд нээгдэнэ) үзнэ үү.) Илүү том бөгөөд илүү сийрэг загваруудыг сургах замаар бид улам чадвартай, улам энгийн хэлхээтэй загварууд гаргаж чадсанаа олсон.

X тэнхлэг дээр загварын чадвар (урьдчилсан сургалтын алдагдал), Y тэнхлэг дээр тайлбарлагдах байдал (тайрагдсан хэлхээний хэмжээ)-ыг харуулсан цэгэн график. Цэгүүд нь өөр өөр хэмжээ, сийрэгжилтийн түвшинтэй загваруудыг илэрхийлэх бөгөөд өнгө нь нийт параметр, тэмдэглэгээний хэмжээ нь тэгээс өөр параметрийн тоог заана. Сумнууд баруун дээд чиглэлийг “илүү сайн” гэж шошголсон.

Бид загваруудын тайлбарлагдах байдал ба чадварыг харьцуулан дүрсэллээ (зүүн доод нь илүү сайн). Тогтмол сийрэг загварын хэмжээний хувьд сийрэгжилтийг нэмэгдүүлэх буюу илүү олон жинг тэг болгох нь чадварыг бууруулж, харин тайлбарлагдах байдлыг нэмэгдүүлдэг. Загварын хэмжээг өсгөхөд энэ хил хязгаар гадагш шилжиж байгаа нь чадвартай бөгөөд тайлбарлах боломжтой том загваруудыг бүтээж болохыг示гэнэ.

Үүнийг илүү тодорхой болгохын тулд Python код дээр сургасан загвар мөрийг зөв төрлийн хашилтаар дуусгах ёстой даалгаврыг авч үзье. Python-д ‘hello’ нь дан хашилтаар, “hello” нь давхар хашилтаар төгсөх ёстой. Загвар нь мөрийг ямар төрлийн хашилт нээсэн болохыг санаж, төгсгөлд нь түүнийг дахин гаргаснаар үүнийг шийдэж чадна.

Манай хамгийн сайн тайлбарлагдах загварууд яг тэр алгоритмыг хэрэгжүүлдэг салангид хэлхээнүүдийг агуулж байгаа мэт харагддаг.

Сийрэг трансформер дахь жишээ хэлхээг дүрсэлсэн диаграмм. Энэ нь “(” болон “circuits” зэрэг оролтын токенд хариу үзүүлэхэд тодорхой нейронууд ба анхаарлын толгойнууд хэрхэн идэвхжиж байгааг, эерэг ба сөрөг жин, үржвэр, шугаман бус байдал, MLP ба анхаарлын давхаргуудын хоорондын холболтын шошготой замуудыг, эцэст нь гаралтын токены магадлалд хүрэхийг харуулна.

Мөрийг дан эсвэл давхар хашилтаар төгсгөх эсэхийг таамагладаг сийрэг трансформер дахь жишээ хэлхээ. Энэ хэлхээ ердөө таван үлдэгдэл сувгийг (босоо саарал шугамууд), 0-р давхаргын хоёр MLP нейрон, мөн 10-р давхаргын нэг анхаарлын query-key суваг ба нэг value сувгийг ашигладаг. Загвар (1) дан хашилтыг нэг үлдэгдэл сувагт, давхар хашилтыг нөгөөд кодчилдог; (2) MLP давхаргыг ашиглан үүнийг аливаа хашилтыг илрүүлэх нэг суваг, дан ба давхар хашилтыг ялгах өөр нэг суваг болгон хувиргадаг; (3) анхаарлын үйлдлийг ашиглан дундах токенуудыг үл тоомсорлож, өмнөх хашилтыг олж, төрлийг нь эцсийн токен руу хуулдаг; мөн (4) таарах хаалтын хашилтыг таамагладаг.

Манай тодорхойлолтоор дээр харуулсан яг тэр холболтууд даалгаврыг гүйцэтгэхэд хангалттай—хэрэв бид загварын бусад хэсгийг авч хаявал энэ жижиг хэлхээ ажилласаар байна. Мөн тэд зайлшгүй шаардлагатай—эдгээр цөөн ирмэгийг устгахад загвар бүтэлгүйтдэг.

Бид бас арай илүү төвөгтэй зан төлөвүүдийг судалсан. Эдгээр зан төлөвийн хэлхээнүүдийг (жишээ нь доор үзүүлсэн хувьсагчийн холболт) бүрэн тайлбарлахад илүү хэцүү. Тэгсэн ч бид загварын зан төлөвийг урьдчилан хэлэх чадвартай, харьцангуй энгийн хэсэгчилсэн тайлбаруудад хүрч чадна.

Python-ийн get_neighbors функц доторх сийрэг трансформер хэлхээний жишээг онцолсон диаграмм. current = set() гэсэн хоёр оноолтыг хүрээлэн тэмдэглэсэн бөгөөд өнгөт сумнууд нь current хувьсагчийн давтагдал бүрийг давталт дахь хэрэглээтэй нь холбоход аль анхаарлын толгойнууд (Q/K/V индексээр шошголсон) идэвхжиж байгааг харуулна.

Илүү бага дэлгэрэнгүйтэй өөр нэг жишээ хэлхээ. current нэртэй хувьсагчийн төрлийг тодорхойлохын тулд нэг анхаарлын үйлдэл хувьсагчийн нэрийг тодорхойлогдох үед нь set() токен руу хуулж, дараах өөр нэг үйлдэл set() токеноос төрлийг хувьсагчийн дараагийн хэрэглээ рүү хуулснаар загвар дараагийн зөв токеныг таамаглах боломжтой болдог.

Цаашдын зам

Энэ ажил бол загварын тооцооллыг ойлгоход илүү хялбар болгох том зорилгын эхний алхам юм. Гэхдээ явах зам урт хэвээр байна. Манай сийрэг загварууд хил хязгаар загваруудаас 훨씬 жижиг бөгөөд тэдний тооцооллын том хэсгүүд одоогоор тайлбарлагдаагүй байна. 

Цаашид бид техникүүдээ илүү том загваруудад хүргэж, загваруудын зан төлөвийн илүү их хэсгийг тайлбарлахыг хүсэж байна. Чадвартай сийрэг загварууд дахь илүү нарийн төвөгтэй сэтгэн бодохын суурь хэлхээний хэв шинжүүдийг ангилан тогтоосноор бид хил хязгаар загваруудын судалгааг илүү оновчтой чиглүүлэх ойлголтыг хөгжүүлж чадна.

Сийрэг загвар сургах үр ашиггүй байдлыг даван туулахын тулд бид урагшлах хоёр замыг харж байна. Нэг нь сийрэг загварыг эхнээс нь сургахын оронд одоо байгаа нягт загваруудаас сийрэг хэлхээнүүдийг гаргаж авах. Нягт загваруудыг ашиглалтад оруулах нь үндсэндээ сийрэг загваруудаас илүү үр ашигтай. Нөгөө зам нь тайлбарлагдах байдлын төлөө загвар сургах илүү үр ашигтай аргуудыг хөгжүүлэх бөгөөд үүнийг үйлдвэрлэлд нэвтрүүлэхэд илүү амар байж магадгүй.

Манай эндхийн олдворууд энэ арга илүү чадвартай системүүдэд заавал өргөжнө гэсэн баталгаа биш ч эхний үр дүнгүүд найдвар төрүүлж байна. Бидний зорилго бол загварын хэдий хэмжээг найдвартай тайлбарлаж чадахаа аажмаар нэмэгдүүлж, ирээдүйн системүүдийг шинжлэх, алдаа засах, үнэлэхэд илүү хялбар болгох хэрэгслүүдийг бүтээх явдал юм.

Зохиогчид

Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, Dan Mossing