2024 оны зургаадугаар сарын 6

GPT‑4‑өөс ойлголтууд гарган авах нь

Бид GPT‑4‑ийн дотоод дүрслэлүүдийг 16 сая, ихэвчлэн тайлбарлаж болох хэв маягт задлах шинэ өргөтгөх аргуудыг ашигласан.

Өгүүллийг унших Кодыг унших Онцлогуудыг үзэх

Ачаалж байна…

Одоогоор бид хэлний загварууд доторх нейроны идэвхийг хэрхэн утга учиртай ойлгохоо мэдэхгүй байна. Өнөөдөр бид хүнд тайлбарлаж болох байх гэж найдаж буй үйл ажиллагааны хэв маяг болох олон тооны “онцлог”-ийг олох сайжруулсан аргуудыг хуваалцаж байна. Манай аргууд одоо байгаа ажлуудаас илүү сайн өргөждөг бөгөөд бид тэдгээрийг ашиглан GPT‑4‑өөс 16 сая онцлог олсон. Цаашдын судалгааг дэмжихийн тулд бид өгүүлэл⁠(шинэ цонхонд нээгдэнэ), код⁠(шинэ цонхонд нээгдэнэ), мөн онцлогийн дүрслэлүүд⁠(шинэ цонхонд нээгдэнэ)-ийг судалгааны нийгэмлэгтэй хуваалцаж байна.

Нейрон сүлжээг тайлбарлахын сорилт

Хүний ихэнх бүтээлээс ялгаатай нь бид нейрон сүлжээний дотоод ажиллагааг үнэндээ сайн ойлгодоггүй. Жишээлбэл, инженерүүд автомашины эд ангиудын үзүүлэлтэд тулгуурлан түүнийг шууд зохион бүтээж, үнэлж, засварлаж, аюулгүй байдал ба гүйцэтгэлийг хангаж чадна. Харин нейрон сүлжээг шууд зохион бүтээдэггүй; үүний оронд бид тэдгээрийг сургадаг алгоритмуудыг зохион бүтээдэг. Үүний үр дүнд бий болсон сүлжээнүүдийг сайн ойлгоогүй бөгөөд танигдах хэсгүүдэд амархан задлан хувааж болдоггүй. Энэ нь AI-ийн аюулгүй байдлын талаар бид автомашины аюулгүй байдлын адил бодож дүгнэж чадахгүй гэсэн үг.

Нейрон сүлжээг ойлгож, тайлбарлахын тулд эхлээд нейроны тооцоололд хэрэгтэй барилгын блокуудыг олох хэрэгтэй. Харамсалтай нь хэлний загварын доторх нейроны идэвхжил нь урьдчилан таамаглахын аргагүй хэв маягаар идэвхжиж, олон ойлголтыг зэрэг илэрхийлж байгаа мэт харагддаг. Мөн тэдгээр нь өтгөн идэвхжилтэй байдаг, өөрөөр хэлбэл оролт бүр дээр идэвхжил тус бүр үргэлж ажиллаж байдаг. Гэтэл бодит ертөнцийн ойлголтууд маш сийрэг байдаг—ямар ч нөхцөлд бүх ойлголтын зөвхөн багахан хэсэг нь л хамааралтай байдаг. Энэ нь сийрэг автоэнкодер ашиглах шалтгаан болдог. Энэ арга нь тухайн гаралтыг бий болгоход чухал, нейрон сүлжээний цөөн хэдэн “онцлог”-ийг тодорхойлдог бөгөөд энэ нь хүн ямар нэг нөхцөл байдлын талаар сэтгэн бодох үед толгойд нь орж ирдэг цөөн ойлголттой төстэй. Тэдгээрийн онцлогууд нь сийрэг идэвхжлийн хэв маягтай бөгөөд тайлбарлагдах чадварыг шууд урамшуулаагүй байсан ч хүнд ойлгоход амар ойлголтуудтай аяндаа нийцдэг.

Сийрэг автоэнкодер нь нягт нейроны идэвхжлүүдийг сийрэг онцлогууд болгон кодлож, тайлж байгааг үзүүлсэн диаграм.

Гэсэн хэдий ч сийрэг автоэнкодер сургахад ноцтой сорилтууд байсаар байна. Том хэлний загварууд асар олон ойлголтыг илэрхийлдэг бөгөөд хил хязгаар загвар дахь ойлголтуудыг бараг бүрэн хамрахын тулд манай автоэнкодерууд мөн түүнтэй дүйцэхүйц асар том байх шаардлагатай байж магадгүй. Олон тооны сийрэг онцлогийг суралцах нь хэцүү бөгөөд өмнөх ажлууд сайн өргөждөг нь хараахан нотлогдоогүй.

Манай судалгааны ахиц: автоэнкодерын өргөн хэмжээний сургалт

Бид хил хязгаар AI загварууд дээрх сийрэг автоэнкодеруудаа хэдэн арван сая онцлог хүртэл өргөтгөх боломж олгодог шинэ, салбартаа тэргүүлэх аргачлалуудыг боловсруулсан. Манай аргачлал жигд, урьдчилан таамаглахуйц өргөтгөлтэй бөгөөд өмнөх аргуудаас масштабыг нэмэхэд илүү өгөөжтэйг бид тогтоосон. Мөн бид онцлогийн чанарыг үнэлэх хэд хэдэн шинэ хэмжүүрийг танилцуулж байна.

Бид энэхүү аргаа ашиглан GPT‑2 small болон GPT‑4‑ийн идэвхжил дээр төрөл бүрийн автоэнкодер сургаж, үүнд GPT‑4 дээрх 16 сая онцлогтой автоэнкодер ч багтсан. Онцлогуудын тайлбарлагдах чанарыг шалгахын тулд бид тухайн онцлог идэвхждэг баримтуудыг харуулан дүрслэн үзүүлдэг. Бидний олсон тайлбарлаж болох зарим онцлогуудыг энд үзүүлэв:

GPT-4 feature: phrases relating to things (especially humans) being flawed

Бүрэн дүрслэлийг үзэх

most people, it isn’t. We all have wonderful days, glimpses of what we perceive to be perfection, but we can also all have truly shit-tastic ones, and I can assure you that you’re not alone. So toddler of mine, and most other toddlers out there, remember; Don’t be a

has warts. What system that is used to build real world software doesn't? I've built systems in a number of languages and frameworks and they all had warts and issues. How much research has the author done to find other solutions? The plea at the end seemed very lazywebish to me

often put our hope in the wrong places – in the world, in other people, in our abilities or finances – but all of that is like sinking sand. The only place we can find hope is in Jesus Christ. These words by Kutless tell us just where we need to go to find hope. I lift my

churches since the last Great Reformation has also become warped. I state again, while churches are formed and planted with the most Holy and Divine of inspirations, they are not free from the corruption of humanity. While they are of our great and perfect Father, they are on an imperfect Earth. And we Rogues are

perfect. If anyone does not believe that let them say so. You really do appear to be just about a meter away from me. But you are actually in my brain. What artistry! What perfection! Not the slightest blurring. And in 3-D. Sound is also 3-D. And images.

Бид өөр олон сонирхолтой онцлог олсон бөгөөд та тэдгээрийг эндээс үзэж⁠(шинэ цонхонд нээгдэнэ) болно.

Хязгаарлалтууд

Тайлбарлагдах чадвар эцэстээ загварын найдвартай байдал болон чиглүүлэгдэх чадварыг нэмэгдүүлнэ гэж бид баяртай байна. Гэсэн хэдий ч энэ нь одоогоор олон хязгаарлалттай эхний шатны ажил хэвээр байна:

Өмнөх ажлуудын адил олдсон олон онцлогийг тайлбарлахад хэцүү хэвээр байгаа бөгөөд олон нь тодорхой хэв маяггүй идэвхжих эсвэл ерөнхийдөө кодолдог мэт харагдах ойлголттой холбоогүй хуурамч идэвхжил үзүүлдэг. Цаашлаад тайлбаруудын үнэн зөвийг шалгах сайн аргууд бидэнд алга.
Сийрэг автоэнкодер нь анхны загварын бүх зан төлөвийг хамарч чаддаггүй. Одоогоор GPT‑4‑ийн идэвхжлийг сийрэг автоэнкодероор дамжуулахад ойролцоогоор 10 дахин бага тооцооллоор сурсан загвартай дүйцэх гүйцэтгэл гарч байна. Хил хязгаар Том хэлний загвар (LLM)-ууд дахь ойлголтуудыг бүрэн зураглахын тулд бидэнд тэрбум, эсвэл их наяд онцлог хүртэл өргөжүүлэх шаардлага гарч магадгүй бөгөөд энэ нь манай сайжруулсан өргөтгөх аргуудтай байсан ч сорилттой байх болно.
Сийрэг автоэнкодер нь загварын нэг цэг дээрх онцлогуудыг олж чадна, гэхдээ энэ нь загварыг тайлбарлах замын зөвхөн нэг алхам юм. Загвар тэдгээр онцлогуудыг хэрхэн тооцоолдог, мөн тэдгээрийг загварын үлдсэн хэсэгт дараагийн шатанд хэрхэн ашигладагийг ойлгохын тулд илүү их ажил шаардлагатай.

Урагш харвал, мөн судалгаагаа нээлттэй эх болгох нь

Сийрэг автоэнкодерын судалгаа сэтгэл хөдөлгөм ч шийдэгдээгүй олон сорилттой урт зам бидний өмнө байна. Богино хугацаанд бидний олсон онцлогууд хэлний загварын зан төлөвийг хянах, чиглүүлэхэд бодитоор хэрэг болно гэж найдаж байгаа бөгөөд үүнийг хил хязгаар загварууд дээрээ туршихаар төлөвлөж байна. Эцэст нь тайлбарлагдах чадвар нь нэг өдөр загварын аюулгүй байдал, бат бөх чанарын талаар бодож дүгнэх шинэ аргуудыг бидэнд өгч, тэдний зан төлөвийн талаар хүчтэй баталгаа өгөх замаар хүчирхэг AI загваруудад итгэх итгэлийг маань мэдэгдэхүйц нэмэгдүүлнэ гэж найдаж байна.

Өнөөдөр бид туршилт, аргуудaa дэлгэрэнгүй тайлбарласан өгүүлэл⁠(шинэ цонхонд нээгдэнэ)-ээ хуваалцаж байна. Энэ нь судлаачдад автоэнкодерыг өргөн хэмжээнд сургахад илүү хялбар болгоно гэж найдаж байна. Бид GPT‑2 small-д зориулсан автоэнкодерын бүрэн цуглуулгыг, тэдгээрийг ашиглах код⁠(шинэ цонхонд нээгдэнэ)-ын хамт, мөн GPT‑2 ба GPT‑4‑ийн онцлогууд юутай тохирч байж болохыг мэдрэхэд зориулсан онцлог дүрслэгч⁠(шинэ цонхонд нээгдэнэ)-ийг нийтэлж байна.

Зохиогчид

Jeffrey Wu, Leo Gao, Tom Dupré la Tour, Henk Tillman

Талархал

Taya Christianson, Elizabeth Proehl, Yo Shavit, Niko Felix, Cathy Yeh, Gabriel Goh, Rajan Troll, Alec Radford, Jan Leike, Ilya Sutskever, David Robinson, Greg Brockman