2021 оны нэгдүгээр сарын 5

DALL·E: Текстээс зураг бүтээх

Бид DALL·E нэртэй нейрон сүлжээг сургаж, байгалийн хэлээр илэрхийлж болох өргөн хүрээний ойлголтод зориулан текст тайлбараас зураг үүсгэдэг болгосон.

Зураглал: Justin Jay Wang

Ачаалж байна…

DALL·E бол текст–зураг хосын өгөгдлийн санг ашиглан текстэн тайлбараас зураг үүсгэхээр сургагдсан, 12 тэрбум параметртэй GPT‑3⁠(шинэ цонхонд нээгдэнэ)-ын хувилбар юм. Хүнчилсэн амьтан, объектын хувилбар бүтээх, хамааралгүй ойлголтуудыг боломжийн байдлаар нэгтгэх, текст дүрслэх, мөн байгаа зурагт хувиргалт хийх зэрэг олон төрлийн чадвартайг бид олж тогтоосон.

Мөн үзнэ үү: DALL·E 2⁠, энэ нь 4 дахин өндөр нягтралтай, илүү бодитой, илүү нарийвчлалтай зураг үүсгэдэг.

Ачаалж байна...

GPT‑3 нь олон төрлийн текст үүсгэх даалгаврыг гүйцэтгэхээр том нейрон сүлжээнд хэлийг ашиглан заавар өгч болдгийг харуулсан. Image GPT⁠ нь ижил төрлийн нейрон сүлжээг өндөр үнэнч чанартай зураг үүсгэхэд мөн ашиглаж болдгийг харуулсан. Бид эдгээр дүгнэлтийг өргөжүүлэн, хэлээр дамжуулан харааны ойлголтуудыг удирдах нь одоо бодит боломж болсныг харуулж байна.

Тойм

GPT‑3‑ын адил DALL·E нь трансформер хэлний загвар юм. Энэ нь текст ба зургийг 1280 хүртэл токен агуулсан нэг урсгал өгөгдөл болгон хүлээн авч, бүх токеныг нэг нэгээр нь үүсгэхээр maximum likelihood аргаар сургагддаг. ^A

Энэ сургалтын арга нь DALL·E-д зөвхөн хоосноос зураг үүсгэхээс гадна, байгаа зургийн баруун доод булан хүртэл сунан үргэлжлэх аливаа тэгш өнцөгт хэсгийг текст өгөгдөлтэй нийцтэй байдлаар дахин үүсгэх боломж олгодог.

Үүсмэл загвартай холбоотой ажил нь нийгэмд өргөн хүрээтэй, мэдэгдэхүйц нөлөө үзүүлэх боломжтой гэдгийг бид хүлээн зөвшөөрдөг. Цаашид DALL·E шиг загварууд тодорхой ажлын процесс, мэргэжилд үзүүлэх эдийн засгийн нөлөө, загварын гаралтад хазайлт үүсэх боломж, мөн энэ технологиос урган гарах урт хугацааны ёс зүйн сорилтууд зэрэг нийгмийн асуудлуудтай хэрхэн холбогдож буйг шинжлэхээр төлөвлөж байна.

Чадварууд

DALL·E нь хэлний бүтцийн шинжийг судалсан маш олон төрлийн өгүүлбэрт боломжийн зураг бүтээж чаддаг гэдгийг бид тогтоосон. Үүнийг бид дараагийн хэсэгт буй харилцан үйлчлэлт дүрслэлүүдийн цувралаар харуулна. Дүрслэл дэх тайлбар бүрийн хувьд үзүүлсэн жишээнүүдийг CLIP⁠-ээр дахин эрэмбэлсний дараах 512-оос шилдэг 32-ыг авч бүрдүүлсэн бөгөөд гадна талд харагдах жижиг зураг болон дан зургаас бусад тохиолдолд бид гараар шилж сонгоогүй.^B

Шинжүүдийг хянах

Бид DALL·E-ийн объектын хэд хэдэн шинжийг, мөн хэдэн удаа харагдах тоог нь өөрчлөх чадварыг шалгасан.

Ачаалж байна...

Олон объект зурах

Олон объектыг, тэдгээрийн шинжүүдийг, мөн орон зайн харилцааг нь зэрэг хянах нь шинэ сорилт үүсгэдэг. Жишээлбэл, “улаан малгай, шар бээлий, цэнхэр цамц, ногоон өмд өмссөн зараа” гэсэн хэллэгийг авч үзье. Энэ өгүүлбэрийг зөв тайлбарлахын тулд DALL·E нь хувцасны зүйл бүрийг амьтантай зөв хослуулахаас гадна (малгай, улаан), (бээлий, шар), (цамц, цэнхэр), (өмд, ногоон) гэсэн холбоосуудыг хооронд нь андууралгүй үүсгэх ёстой ^C

Бид DALL·E-ийн энэ чадварыг харьцангуй байрлал, объектуудыг давхарлан байрлуулах, мөн олон шинжийг хянах нөхцөлд шалгасан.

Ачаалж байна...

DALL·E нь цөөн тооны объектын шинж болон байрлалыг тодорхой хэмжээнд хянах боломж олгодог ч амжилтын түвшин нь тайлбарыг хэрхэн томьёолсноос хамаарч болно. Илүү олон объект нэмэгдэх тусам DALL·E нь объектууд болон тэдгээрийн өнгөний холбоосыг андуурах хандлагатай болж, амжилтын түвшин огцом буурдаг. Мөн эдгээр нөхцөлд DALL·E нь тайлбарын өөрөөр хэлбэржүүлэлтэд эмзэг болохыг бид тэмдэглэж байна: утгын хувьд ижил өөр тайлбарууд нь ихэвчлэн нэг ч зөв тайлбарлал өгөхгүй.

Хэтийн төлөв ба гурван хэмжээст байдлыг дүрслэх

DALL·E нь мөн үзэгдлийн харах өнцөг болон үзэгдлийг дүрслэх 3D хэв маягийг хянах боломж олгодог болохыг бид тогтоосон.

Ачаалж байна...

Үүнийг цааш ахиулахын тулд бид DALL·E-ийн танил алдартай хүний толгойг тэнцүү зайтай өнцгүүдийн дарааллын дагуу өнцөг бүрээс дахин дахин зурах чадварыг шалгаж, эргэлдэж буй толгойн жигд анимейшныг сэргээж авч болохыг тогтоосон.

Ачаалж байна...

DALL·E нь “fisheye lens view” болон “a spherical panorama” сонголтуудаас харахад үзэгдэлд зарим төрлийн оптик гажуудлыг хэрэглэж чаддаг бололтой. Энэ нь түүний ойлт үүсгэх чадварыг судлах сэдэл болсон.

Ачаалж байна...

Дотоод ба гадаад бүтцийг дүрслэх

“extreme close-up view” болон “x-ray” хэв маягийн жишээнүүд DALL·E-ийн хөндлөн огтлолын дүрслэлээр дотоод бүтцийг, макро гэрэл зургаар гаднах бүтцийг дүрслэх чадварыг цааш судлах сэдэл өгсөн.

Ачаалж байна...

Контекстийн дэлгэрэнгүйг таамаглах

Текстийг зураг руу хөрвүүлэх даалгавар нь дутуу тодорхойлогдсон байдаг: нэг тайлбар нь ерөнхийдөө хязгааргүй олон боломжит зурагт тохирч болох тул зураг цор ганцаар тодорхойлогдохгүй. Жишээлбэл, “нар мандах үед талбай дээр сууж буй капибарагийн зураг” гэсэн тайлбарыг авч үзье. Капибарагийн чиглэлээс хамааран сүүдэр зурах шаардлагатай байж болох ч энэ деталиныг хэзээ ч ил тод дурдаагүй байдаг. Бид DALL·E-ийн дутуу тодорхойлолтыг шийдвэрлэх чадварыг гурван тохиолдлоор судалсан: хэв маяг, орчин, цаг хугацааг өөрчлөх; нэг объектыг олон янзын нөхцөл байдалд зурах; мөн дээр нь тодорхой текст бичсэн объектын зургийг үүсгэх.

Ачаалж байна...

Найдвартай байдлын янз бүрийн түвшинд DALL·E нь байгалийн хэлээр дамжуулан 3D дүрслэх хөдөлгүүрийн зарим чадварт хандах боломж олгодог. Энэ нь цөөн тооны объектын шинжийг бие даан хянаж чадна, мөн хязгаарлагдмал хэмжээнд тэдгээрийн тоо болон хоорондоо хэрхэн байрласан байдлыг ч удирдаж чадна. Мөн үзэгдлийг ямар байрлал, өнцгөөс дүрслэхийг хянах боломжтой бөгөөд өнцөг ба гэрэлтүүлгийн нөхцөлийн нарийн зааврыг даган танил объектуудыг үүсгэж чадна.

Оролтыг нь хоёрдмол утгагүй, бүрэн нарийвчлалтай зааж өгөх шаардлагатай 3D дүрслэх хөдөлгүүрээс ялгаатай нь, тайлбар нь зурагт тодорхой нэг деталь байх ёстойг илэрхийлж байгаа ч үүнийг ил тод дурдаагүй үед DALL·E ихэвчлэн “хоосон зайг нөхөж” чаддаг.

Өмнөх чадваруудын хэрэглээ

Дараа нь бид дээр дурдсан чадваруудыг загвар болон интерьер дизайнд ашиглахыг судаллаа.

Ачаалж байна...

Хамааралгүй ойлголтуудыг нэгтгэх

Хэлний бүтцийн шинж чанар нь бодит болон төсөөллийн зүйлсийг дүрслэхийн тулд ойлголтуудыг хооронд нь нэгтгэх боломж олгодог. DALL·E мөн хоорондоо өөр санаануудыг нэгтгэн объект бүтээх чадвартай бөгөөд тэдгээрийн зарим нь бодит ертөнцөд оршин байх магадлал багатай гэдгийг бид тогтоосон. Бид энэ чадварыг хоёр жишээгээр судалсан: янз бүрийн ойлголтын шинжийг амьтдад шилжүүлэх, мөн хамааралгүй ойлголтоос санаа авч бүтээгдэхүүн зохион бүтээх.

Ачаалж байна...

Амьтны дүрслэлүүд

Өмнөх хэсэгт бид DALL·E-ийн бодит ертөнцийн объектын зураг үүсгэхдээ хамааралгүй ойлголтуудыг нэгтгэх чадварыг судалсан. Энд бид энэ чадварыг урлагийн хүрээнд, гурван төрлийн дүрслэлээр авч үзнэ: хүнчилсэн амьтан, объектын хувилбарууд, амьтны химерүүд, мөн эможи.

Ачаалж байна...

Тэг оролдлогын харааны сэтгэн бодох

GPT‑3‑ыг нэмэлт сургалтгүйгээр, зөвхөн өгөгдөл дотор нь өгсөн тайлбар болон хариуг үүсгэх дохиогоор олон төрлийн даалгавар гүйцэтгэхээр зааварлаж болдог. Жишээлбэл, “энд ‘a person walking his dog in the park’ гэсэн өгүүлбэрийг франц хэл рүү орчуулбал:” гэсэн хэллэгийг өгөхөд GPT‑3 “un homme qui promène son chien dans le parc.” гэж хариулдаг. Энэ чадварыг тэг оролдлогын сэтгэн бодох гэж нэрлэдэг. DALL·E энэ чадварыг дүрсний хүрээнд өргөжүүлж, зөв хэлбэрээр өгөгдөл өгсөн үед зурагнаас зураг руу хөрвүүлэх хэд хэдэн төрлийн даалгаврыг гүйцэтгэж чаддаг гэдгийг бид тогтоосон.

Ачаалж байна...

Энэ чадвар ийм байдлаар илэрнэ гэж бид урьдчилан таамаглаагүй бөгөөд үүнийг дэмжихийн тулд нейрон сүлжээ эсвэл сургалтын үйл явцад ямар ч өөрчлөлт хийгээгүй. Эдгээр үр дүнд тулгуурлан бид DALL·E-ийн адилтгалт сэтгэн бодох бодлогыг шийдэх чадварыг 20-р зуунд өргөн хэрэглэгдэж байсан харааны IQ тест болох Raven-ий progressive matrices дээр шалгаж үнэлсэн.

Ачаалж байна...

Газарзүйн мэдлэг

DALL·E нь газарзүйн баримт, алдартай дурсгалт газар, хөрш бүсүүдийн талаар суралцсан болохыг бид тогтоосон. Эдгээр ойлголтын талаарх түүний мэдлэг зарим талаараа гайхалтай нарийвчлалтай, харин зарим талаараа алдаатай байна.

Ачаалж байна...

Цаг хугацааны мэдлэг

DALL·E-ийн орон зайгаар өөрчлөгддөг ойлголтын талаарх мэдлэгийг судлахаас гадна, бид цаг хугацаагаар өөрчлөгддөг ойлголтын талаарх мэдлэгийг нь мөн судалсан.

Ачаалж байна...

Арга барил ба өмнөх ажлын хураангуй

DALL·E нь зөвхөн декодер хэсэгтэй энгийн трансформер бөгөөд текст ба зургийг 1280 токены нэг урсгал болгон хүлээн авдаг—текстэд 256, зурагт 1024—мөн эдгээрийг бүгдийг autoregressive байдлаар загварчилдаг. Түүний 64 self-attention давхарга бүр дэх attention mask нь зураг бүрийн токенд бүх текст токенд анхаарах боломж олгодог. DALL·E нь текст токенд стандарт causal mask, харин зураг токенд давхаргаас шалтгаалан мөр, багана, эсвэл convolutional attention хэв загвартай sparse attention ашигладаг. Архитектур болон сургалтын үйл явцын талаар илүү дэлгэрэнгүйг манай өгүүлэл⁠(шинэ цонхонд нээгдэнэ)-ээс үзнэ үү.

Текстээс зураг нийлэгжүүлэх нь Reed нарын анхдагч ажлаас хойш идэвхтэй судалгааны чиглэл байсаар ирсэн.¹ Тэдний арга нь текст embedding-ээр нөхцөлдүүлсэн GAN ашигладаг. Эдгээр embedding нь CLIP-тэй төстэй contrastive loss ашиглан урьдчилан сургасан encoder-оор үүсдэг. StackGAN³ болон StackGAN++⁴ нь зургийн нягтралыг өсгөж, дүрсний үнэнч чанарыг сайжруулахын тулд олон хэмжээст GAN ашигладаг. AttnGAN⁵ нь текст ба зургийн шинжүүдийн хооронд attention оруулж, туслах зорилго болгон contrastive text-image feature matching loss санал болгодог. Энэ нь бидний офлайнаар хийдэг CLIP-ээр дахин эрэмбэлэх аргатай харьцуулахад сонирхолтой. Бусад ажлууд^{2, 6, 7} нь сургалтын үед нэмэлт хяналтын эх үүсвэрүүдийг ашиглан зургийн чанарыг сайжруулдаг. Эцэст нь Nguyen нарын⁸ болон Cho нарын⁹ ажил нь урьдчилан сурсан мультимодаль ялган таних загварыг ашигласан, дээжлэлтэд суурилсан зураг үүсгэх стратегийг судалдаг.

VQVAE-2⁠(шинэ цонхонд нээгдэнэ)-т ашигласан rejection sampling-тай адил бид бүх харилцан үйлчлэлт дүрслэл дэх тайлбар бүрийн 512 жишээнээс шилдэг 32-ыг CLIP⁠-ээр дахин эрэмбэлдэг. Энэ үйл явцыг мөн хэлээр чиглүүлсэн хайлтын нэг төрөл гэж үзэж болно¹⁶ бөгөөд жишээний чанарт маш их нөлөө үзүүлж чадна.

Ачаалж байна...

Зүүлт тайлбар

A
Токен гэдэг нь дискрет үгсийн сангийн аливаа тэмдэг юм; хүний хувьд англи цагаан толгойн үсэг бүр 26 үсэгтэй цагаан толгойн нэг токен болно. DALL·E-ийн үгсийн санд текст болон зургийн ойлголтод зориулсан токенууд бий. Тодруулбал, зургийн тайлбар бүр 16384 хэмжээтэй үгсийн сантай BPE-кодчилсон хамгийн ихдээ 256 токеноор дүрслэгдэж, зураг нь 8192 хэмжээтэй үгсийн сантай 1024 токеноор дүрслэгддэг.

Сургалтын явцад зургуудыг 256x256 нягтралд урьдчилан боловсруулдаг. VQVAE-тэй адил зураг бүрийг бид тасралтгүй сулруулалт ашиглан урьдчилан сургасан discrete VAE-аар 32x32 хэмжээтэй дискрет далд кодын тор болгон шахдаг. Сулруулалтыг ашиглан сургах нь ил тод codebook, EMA loss, эсвэл dead code revival зэрэг аргын хэрэгцээг арилгадаг бөгөөд том хэмжээний үгсийн сан руу өргөтгөж болдгийг бид тогтоосон.