GPT‑4‑өөс ойлголтууд гарган авах нь
Бид GPT‑4‑ийн дотоод дүрслэлүүдийг 16 сая, ихэвчлэн тайлбарлаж болох хэв маягт задлах шинэ өргөтгөх аргуудыг ашигласан.
Одоогоор бид хэлний загварууд доторх нейроны идэвхийг хэрхэн утга учиртай ойлгохоо мэдэхгүй байна. Өнөөдөр бид хүнд тайлбарлаж болох байх гэж найдаж буй үйл ажиллагааны хэв маяг болох олон тооны “онцлог”-ийг олох сайжруулсан аргуудыг хуваалцаж байна. Манай аргууд одоо байгаа ажлуудаас илүү сайн өргөждөг бөгөөд бид тэдгээрийг ашиглан GPT‑4‑өөс 16 сая онцлог олсон. Цаашдын судалгааг дэмжихийн тулд бид өгүүлэл(шинэ цонхонд нээгдэнэ), код(шинэ цонхонд нээгдэнэ), мөн онцлогийн дүрслэлүүд(шинэ цонхонд нээгдэнэ)-ийг судалгааны нийгэмлэгтэй хуваалцаж байна.
Хүний ихэнх бүтээлээс ялгаатай нь бид нейрон сүлжээний дотоод ажиллагааг үнэндээ сайн ойлгодоггүй. Жишээлбэл, инженерүүд автомашины эд ангиудын үзүүлэлтэд тулгуурлан түүнийг шууд зохион бүтээж, үнэлж, засварлаж, аюулгүй байдал ба гүйцэтгэлийг хангаж чадна. Харин нейрон сүлжээг шууд зохион бүтээдэггүй; үүний оронд бид тэдгээрийг сургадаг алгоритмуудыг зохион бүтээдэг. Үүний үр дүнд бий болсон сүлжээнүүдийг сайн ойлгоогүй бөгөөд танигдах хэсгүүдэд амархан задлан хувааж болдоггүй. Энэ нь AI-ийн аюулгүй байдлын талаар бид автомашины аюулгүй байдлын адил бодож дүгнэж чадахгүй гэсэн үг.
Нейрон сүлжээг ойлгож, тайлбарлахын тулд эхлээд нейроны тооцоололд хэрэгтэй барилгын блокуудыг олох хэрэгтэй. Харамсалтай нь хэлний загварын доторх нейроны идэвхжил нь урьдчилан таамаглахын аргагүй хэв маягаар идэвхжиж, олон ойлголтыг зэрэг илэрхийлж байгаа мэт харагддаг. Мөн тэдгээр нь өтгөн идэвхжилтэй байдаг, өөрөөр хэлбэл оролт бүр дээр идэвхжил тус бүр үргэлж ажиллаж байдаг. Гэтэл бодит ертөнцийн ойлголтууд маш сийрэг байдаг—ямар ч нөхцөлд бүх ойлголтын зөвхөн багахан хэсэг нь л хамааралтай байдаг. Энэ нь сийрэг автоэнкодер ашиглах шалтгаан болдог. Энэ арга нь тухайн гаралтыг бий болгоход чухал, нейрон сүлжээний цөөн хэдэн “онцлог”-ийг тодорхойлдог бөгөөд энэ нь хүн ямар нэг нөхцөл байдлын талаар сэтгэн бодох үед толгойд нь орж ирдэг цөөн ойлголттой төстэй. Тэдгээрийн онцлогууд нь сийрэг идэвхжлийн хэв маягтай бөгөөд тайлбарлагдах чадварыг шууд урамшуулаагүй байсан ч хүнд ойлгоход амар ойлголтуудтай аяндаа нийцдэг.

Гэсэн хэдий ч сийрэг автоэнкодер сургахад ноцтой сорилтууд байсаар байна. Том хэлний загварууд асар олон ойлголтыг илэрхийлдэг бөгөөд хил хязгаар загвар дахь ойлголтуудыг бараг бүрэн хамрахын тулд манай автоэнкодерууд мөн түүнтэй дүйцэхүйц асар том байх шаардлагатай байж магадгүй. Олон тооны сийрэг онцлогийг суралцах нь хэцүү бөгөөд өмнөх ажлууд сайн өргөждөг нь хараахан нотлогдоогүй.
Бид хил хязгаар AI загварууд дээрх сийрэг автоэнкодеруудаа хэдэн арван сая онцлог хүртэл өргөтгөх боломж олгодог шинэ, салбартаа тэргүүлэх аргачлалуудыг боловсруулсан. Манай аргачлал жигд, урьдчилан таамаглахуйц өргөтгөлтэй бөгөөд өмнөх аргуудаас масштабыг нэмэхэд илүү өгөөжтэйг бид тогтоосон. Мөн бид онцлогийн чанарыг үнэлэх хэд хэдэн шинэ хэмжүүрийг танилцуулж байна.
Бид энэхүү аргаа ашиглан GPT‑2 small болон GPT‑4‑ийн идэвхжил дээр төрөл бүрийн автоэнкодер сургаж, үүнд GPT‑4 дээрх 16 сая онцлогтой автоэнкодер ч багтсан. Онцлогуудын тайлбарлагдах чанарыг шалгахын тулд бид тухайн онцлог идэвхждэг баримтуудыг харуулан дүрслэн үзүүлдэг. Бидний олсон тайлбарлаж болох зарим онцлогуудыг энд үзүүлэв:
GPT-4 feature: phrases relating to things (especially humans) being flawed
Бүрэн дүрслэлийг үзэх(шинэ цонхонд нээгдэнэ)Бид өөр олон сонирхолтой онцлог олсон бөгөөд та тэдгээрийг эндээс үзэж(шинэ цонхонд нээгдэнэ) болно.
Тайлбарлагдах чадвар эцэстээ загварын найдвартай байдал болон чиглүүлэгдэх чадварыг нэмэгдүүлнэ гэж бид баяртай байна. Гэсэн хэдий ч энэ нь одоогоор олон хязгаарлалттай эхний шатны ажил хэвээр байна:
- Өмнөх ажлуудын адил олдсон олон онцлогийг тайлбарлахад хэцүү хэвээр байгаа бөгөөд олон нь тодорхой хэв маяггүй идэвхжих эсвэл ерөнхийдөө кодолдог мэт харагдах ойлголттой холбоогүй хуурамч идэвхжил үзүүлдэг. Цаашлаад тайлбаруудын үнэн зөвийг шалгах сайн аргууд бидэнд алга.
- Сийрэг автоэнкодер нь анхны загварын бүх зан төлөвийг хамарч чаддаггүй. Одоогоор GPT‑4‑ийн идэвхжлийг сийрэг автоэнкодероор дамжуулахад ойролцоогоор 10 дахин бага тооцооллоор сурсан загвартай дүйцэх гүйцэтгэл гарч байна. Хил хязгаар Том хэлний загвар (LLM)-ууд дахь ойлголтуудыг бүрэн зураглахын тулд бидэнд тэрбум, эсвэл их наяд онцлог хүртэл өргөжүүлэх шаардлага гарч магадгүй бөгөөд энэ нь манай сайжруулсан өргөтгөх аргуудтай байсан ч сорилттой байх болно.
- Сийрэг автоэнкодер нь загварын нэг цэг дээрх онцлогуудыг олж чадна, гэхдээ энэ нь загварыг тайлбарлах замын зөвхөн нэг алхам юм. Загвар тэдгээр онцлогуудыг хэрхэн тооцоолдог, мөн тэдгээрийг загварын үлдсэн хэсэгт дараагийн шатанд хэрхэн ашигладагийг ойлгохын тулд илүү их ажил шаардлагатай.
Сийрэг автоэнкодерын судалгаа сэтгэл хөдөлгөм ч шийдэгдээгүй олон сорилттой урт зам бидний өмнө байна. Богино хугацаанд бидний олсон онцлогууд хэлний загварын зан төлөвийг хянах, чиглүүлэхэд бодитоор хэрэг болно гэж найдаж байгаа бөгөөд үүнийг хил хязгаар загварууд дээрээ туршихаар төлөвлөж байна. Эцэст нь тайлбарлагдах чадвар нь нэг өдөр загварын аюулгүй байдал, бат бөх чанарын талаар бодож дүгнэх шинэ аргуудыг бидэнд өгч, тэдний зан төлөвийн талаар хүчтэй баталгаа өгөх замаар хүчирхэг AI загваруудад итгэх итгэлийг маань мэдэгдэхүйц нэмэгдүүлнэ гэж найдаж байна.
Өнөөдөр бид туршилт, аргуудaa дэлгэрэнгүй тайлбарласан өгүүлэл(шинэ цонхонд нээгдэнэ)-ээ хуваалцаж байна. Энэ нь судлаачдад автоэнкодерыг өргөн хэмжээнд сургахад илүү хялбар болгоно гэж найдаж байна. Бид GPT‑2 small-д зориулсан автоэнкодерын бүрэн цуглуулгыг, тэдгээрийг ашиглах код(шинэ цонхонд нээгдэнэ)-ын хамт, мөн GPT‑2 ба GPT‑4‑ийн онцлогууд юутай тохирч байж болохыг мэдрэхэд зориулсан онцлог дүрслэгч(шинэ цонхонд нээгдэнэ)-ийг нийтэлж байна.
Зохиогчид
Талархал
Taya Christianson, Elizabeth Proehl, Yo Shavit, Niko Felix, Cathy Yeh, Gabriel Goh, Rajan Troll, Alec Radford, Jan Leike, Ilya Sutskever, David Robinson, Greg Brockman