DALL·E: Текстээс зураг бүтээх
Бид DALL·E нэртэй нейрон сүлжээг сургаж, байгалийн хэлээр илэрхийлж болох өргөн хүрээний ойлголтод зориулан текст тайлбараас зураг үүсгэдэг болгосон.

Зураглал: Justin Jay Wang
DALL·E бол текст–зураг хосын өгөгдлийн санг ашиглан текстэн тайлбараас зураг үүсгэхээр сургагдсан, 12 тэрбум параметртэй GPT‑3(шинэ цонхонд нээгдэнэ)-ын хувилбар юм. Хүнчилсэн амьтан, объектын хувилбар бүтээх, хамааралгүй ойлголтуудыг боломжийн байдлаар нэгтгэх, текст дүрслэх, мөн байгаа зурагт хувиргалт хийх зэрэг олон төрлийн чадвартайг бид олж тогтоосон.
Мөн үзнэ үү: DALL·E 2, энэ нь 4 дахин өндөр нягтралтай, илүү бодитой, илүү нарийвчлалтай зураг үүсгэдэг.
GPT‑3 нь олон төрлийн текст үүсгэх даалгаврыг гүйцэтгэхээр том нейрон сүлжээнд хэлийг ашиглан заавар өгч болдгийг харуулсан. Image GPT нь ижил төрлийн нейрон сүлжээг өндөр үнэнч чанартай зураг үүсгэхэд мөн ашиглаж болдгийг харуулсан. Бид эдгээр дүгнэлтийг өргөжүүлэн, хэлээр дамжуулан харааны ойлголтуудыг удирдах нь одоо бодит боломж болсныг харуулж байна.
GPT‑3‑ын адил DALL·E нь трансформер хэлний загвар юм. Энэ нь текст ба зургийг 1280 хүртэл токен агуулсан нэг урсгал өгөгдөл болгон хүлээн авч, бүх токеныг нэг нэгээр нь үүсгэхээр maximum likelihood аргаар сургагддаг. A
Энэ сургалтын арга нь DALL·E-д зөвхөн хоосноос зураг үүсгэхээс гадна, байгаа зургийн баруун доод булан хүртэл сунан үргэлжлэх аливаа тэгш өнцөгт хэсгийг текст өгөгдөлтэй нийцтэй байдлаар дахин үүсгэх боломж олгодог.
Үүсмэл загвартай холбоотой ажил нь нийгэмд өргөн хүрээтэй, мэдэгдэхүйц нөлөө үзүүлэх боломжтой гэдгийг бид хүлээн зөвшөөрдөг. Цаашид DALL·E шиг загварууд тодорхой ажлын процесс, мэргэжилд үзүүлэх эдийн засгийн нөлөө, загварын гаралтад хазайлт үүсэх боломж, мөн энэ технологиос урган гарах урт хугацааны ёс зүйн сорилтууд зэрэг нийгмийн асуудлуудтай хэрхэн холбогдож буйг шинжлэхээр төлөвлөж байна.
DALL·E нь хэлний бүтцийн шинжийг судалсан маш олон төрлийн өгүүлбэрт боломжийн зураг бүтээж чаддаг гэдгийг бид тогтоосон. Үүнийг бид дараагийн хэсэгт буй харилцан үйлчлэлт дүрслэлүүдийн цувралаар харуулна. Дүрслэл дэх тайлбар бүрийн хувьд үзүүлсэн жишээнүүдийг CLIP-ээр дахин эрэмбэлсний дараах 512-оос шилдэг 32-ыг авч бүрдүүлсэн бөгөөд гадна талд харагдах жижиг зураг болон дан зургаас бусад тохиолдолд бид гараар шилж сонгоогүй.B
Бид DALL·E-ийн объектын хэд хэдэн шинжийг, мөн хэдэн удаа харагдах тоог нь өөрчлөх чадварыг шалгасан.
Олон объектыг, тэдгээрийн шинжүүдийг, мөн орон зайн харилцааг нь зэрэг хянах нь шинэ сорилт үүсгэдэг. Жишээлбэл, “улаан малгай, шар бээлий, цэнхэр цамц, ногоон өмд өмссөн зараа” гэсэн хэллэгийг авч үзье. Энэ өгүүлбэрийг зөв тайлбарлахын тулд DALL·E нь хувцасны зүйл бүрийг амьтантай зөв хослуулахаас гадна (малгай, улаан), (бээлий, шар), (цамц, цэнхэр), (өмд, ногоон) гэсэн холбоосуудыг хооронд нь андууралгүй үүсгэх ёстой C
Бид DALL·E-ийн энэ чадварыг харьцангуй байрлал, объектуудыг давхарлан байрлуулах, мөн олон шинжийг хянах нөхцөлд шалгасан.
DALL·E нь цөөн тооны объектын шинж болон байрлалыг тодорхой хэмжээнд хянах боломж олгодог ч амжилтын түвшин нь тайлбарыг хэрхэн томьёолсноос хамаарч болно. Илүү олон объект нэмэгдэх тусам DALL·E нь объектууд болон тэдгээрийн өнгөний холбоосыг андуурах хандлагатай болж, амжилтын түвшин огцом буурдаг. Мөн эдгээр нөхцөлд DALL·E нь тайлбарын өөрөөр хэлбэржүүлэлтэд эмзэг болохыг бид тэмдэглэж байна: утгын хувьд ижил өөр тайлбарууд нь ихэвчлэн нэг ч зөв тайлбарлал өгөхгүй.
DALL·E нь мөн үзэгдлийн харах өнцөг болон үзэгдлийг дүрслэх 3D хэв маягийг хянах боломж олгодог болохыг бид тогтоосон.
Үүнийг цааш ахиулахын тулд бид DALL·E-ийн танил алдартай хүний толгойг тэнцүү зайтай өнцгүүдийн дарааллын дагуу өнцөг бүрээс дахин дахин зурах чадварыг шалгаж, эргэлдэж буй толгойн жигд анимейшныг сэргээж авч болохыг тогтоосон.
DALL·E нь “fisheye lens view” болон “a spherical panorama” сонголтуудаас харахад үзэгдэлд зарим төрлийн оптик гажуудлыг хэрэглэж чаддаг бололтой. Энэ нь түүний ойлт үүсгэх чадварыг судлах сэдэл болсон.
“extreme close-up view” болон “x-ray” хэв маягийн жишээнүүд DALL·E-ийн хөндлөн огтлолын дүрслэлээр дотоод бүтцийг, макро гэрэл зургаар гаднах бүтцийг дүрслэх чадварыг цааш судлах сэдэл өгсөн.
Текстийг зураг руу хөрвүүлэх даалгавар нь дутуу тодорхойлогдсон байдаг: нэг тайлбар нь ерөнхийдөө хязгааргүй олон боломжит зурагт тохирч болох тул зураг цор ганцаар тодорхойлогдохгүй. Жишээлбэл, “нар мандах үед талбай дээр сууж буй капибарагийн зураг” гэсэн тайлбарыг авч үзье. Капибарагийн чиглэлээс хамааран сүүдэр зурах шаардлагатай байж болох ч энэ деталиныг хэзээ ч ил тод дурдаагүй байдаг. Бид DALL·E-ийн дутуу тодорхойлолтыг шийдвэрлэх чадварыг гурван тохиолдлоор судалсан: хэв маяг, орчин, цаг хугацааг өөрчлөх; нэг объектыг олон янзын нөхцөл байдалд зурах; мөн дээр нь тодорхой текст бичсэн объектын зургийг үүсгэх.
Найдвартай байдлын янз бүрийн түвшинд DALL·E нь байгалийн хэлээр дамжуулан 3D дүрслэх хөдөлгүүрийн зарим чадварт хандах боломж олгодог. Энэ нь цөөн тооны объектын шинжийг бие даан хянаж чадна, мөн хязгаарлагдмал хэмжээнд тэдгээрийн тоо болон хоорондоо хэрхэн байрласан байдлыг ч удирдаж чадна. Мөн үзэгдлийг ямар байрлал, өнцгөөс дүрслэхийг хянах боломжтой бөгөөд өнцөг ба гэрэлтүүлгийн нөхцөлийн нарийн зааврыг даган танил объектуудыг үүсгэж чадна.
Оролтыг нь хоёрдмол утгагүй, бүрэн нарийвчлалтай зааж өгөх шаардлагатай 3D дүрслэх хөдөлгүүрээс ялгаатай нь, тайлбар нь зурагт тодорхой нэг деталь байх ёстойг илэрхийлж байгаа ч үүнийг ил тод дурдаагүй үед DALL·E ихэвчлэн “хоосон зайг нөхөж” чаддаг.
Дараа нь бид дээр дурдсан чадваруудыг загвар болон интерьер дизайнд ашиглахыг судаллаа.
Хэлний бүтцийн шинж чанар нь бодит болон төсөөллийн зүйлсийг дүрслэхийн тулд ойлголтуудыг хооронд нь нэгтгэх боломж олгодог. DALL·E мөн хоорондоо өөр санаануудыг нэгтгэн объект бүтээх чадвартай бөгөөд тэдгээрийн зарим нь бодит ертөнцөд оршин байх магадлал багатай гэдгийг бид тогтоосон. Бид энэ чадварыг хоёр жишээгээр судалсан: янз бүрийн ойлголтын шинжийг амьтдад шилжүүлэх, мөн хамааралгүй ойлголтоос санаа авч бүтээгдэхүүн зохион бүтээх.
Өмнөх хэсэгт бид DALL·E-ийн бодит ертөнцийн объектын зураг үүсгэхдээ хамааралгүй ойлголтуудыг нэгтгэх чадварыг судалсан. Энд бид энэ чадварыг урлагийн хүрээнд, гурван төрлийн дүрслэлээр авч үзнэ: хүнчилсэн амьтан, объектын хувилбарууд, амьтны химерүүд, мөн эможи.
GPT‑3‑ыг нэмэлт сургалтгүйгээр, зөвхөн өгөгдөл дотор нь өгсөн тайлбар болон хариуг үүсгэх дохиогоор олон төрлийн даалгавар гүйцэтгэхээр зааварлаж болдог. Жишээлбэл, “энд ‘a person walking his dog in the park’ гэсэн өгүүлбэрийг франц хэл рүү орчуулбал:” гэсэн хэллэгийг өгөхөд GPT‑3 “un homme qui promène son chien dans le parc.” гэж хариулдаг. Энэ чадварыг тэг оролдлогын сэтгэн бодох гэж нэрлэдэг. DALL·E энэ чадварыг дүрсний хүрээнд өргөжүүлж, зөв хэлбэрээр өгөгдөл өгсөн үед зурагнаас зураг руу хөрвүүлэх хэд хэдэн төрлийн даалгаврыг гүйцэтгэж чаддаг гэдгийг бид тогтоосон.
Энэ чадвар ийм байдлаар илэрнэ гэж бид урьдчилан таамаглаагүй бөгөөд үүнийг дэмжихийн тулд нейрон сүлжээ эсвэл сургалтын үйл явцад ямар ч өөрчлөлт хийгээгүй. Эдгээр үр дүнд тулгуурлан бид DALL·E-ийн адилтгалт сэтгэн бодох бодлогыг шийдэх чадварыг 20-р зуунд өргөн хэрэглэгдэж байсан харааны IQ тест болох Raven-ий progressive matrices дээр шалгаж үнэлсэн.
DALL·E нь газарзүйн баримт, алдартай дурсгалт газар, хөрш бүсүүдийн талаар суралцсан болохыг бид тогтоосон. Эдгээр ойлголтын талаарх түүний мэдлэг зарим талаараа гайхалтай нарийвчлалтай, харин зарим талаараа алдаатай байна.
DALL·E-ийн орон зайгаар өөрчлөгддөг ойлголтын талаарх мэдлэгийг судлахаас гадна, бид цаг хугацаагаар өөрчлөгддөг ойлголтын талаарх мэдлэгийг нь мөн судалсан.
DALL·E нь зөвхөн декодер хэсэгтэй энгийн трансформер бөгөөд текст ба зургийг 1280 токены нэг урсгал болгон хүлээн авдаг—текстэд 256, зурагт 1024—мөн эдгээрийг бүгдийг autoregressive байдлаар загварчилдаг. Түүний 64 self-attention давхарга бүр дэх attention mask нь зураг бүрийн токенд бүх текст токенд анхаарах боломж олгодог. DALL·E нь текст токенд стандарт causal mask, харин зураг токенд давхаргаас шалтгаалан мөр, багана, эсвэл convolutional attention хэв загвартай sparse attention ашигладаг. Архитектур болон сургалтын үйл явцын талаар илүү дэлгэрэнгүйг манай өгүүлэл(шинэ цонхонд нээгдэнэ)-ээс үзнэ үү.
Текстээс зураг нийлэгжүүлэх нь Reed нарын анхдагч ажлаас хойш идэвхтэй судалгааны чиглэл байсаар ирсэн.1 Тэдний арга нь текст embedding-ээр нөхцөлдүүлсэн GAN ашигладаг. Эдгээр embedding нь CLIP-тэй төстэй contrastive loss ашиглан урьдчилан сургасан encoder-оор үүсдэг. StackGAN3 болон StackGAN++4 нь зургийн нягтралыг өсгөж, дүрсний үнэнч чанарыг сайжруулахын тулд олон хэмжээст GAN ашигладаг. AttnGAN5 нь текст ба зургийн шинжүүдийн хооронд attention оруулж, туслах зорилго болгон contrastive text-image feature matching loss санал болгодог. Энэ нь бидний офлайнаар хийдэг CLIP-ээр дахин эрэмбэлэх аргатай харьцуулахад сонирхолтой. Бусад ажлууд2, 6, 7 нь сургалтын үед нэмэлт хяналтын эх үүсвэрүүдийг ашиглан зургийн чанарыг сайжруулдаг. Эцэст нь Nguyen нарын8 болон Cho нарын9 ажил нь урьдчилан сурсан мультимодаль ялган таних загварыг ашигласан, дээжлэлтэд суурилсан зураг үүсгэх стратегийг судалдаг.
VQVAE-2(шинэ цонхонд нээгдэнэ)-т ашигласан rejection sampling-тай адил бид бүх харилцан үйлчлэлт дүрслэл дэх тайлбар бүрийн 512 жишээнээс шилдэг 32-ыг CLIP-ээр дахин эрэмбэлдэг. Энэ үйл явцыг мөн хэлээр чиглүүлсэн хайлтын нэг төрөл гэж үзэж болно16 бөгөөд жишээний чанарт маш их нөлөө үзүүлж чадна.
Зүүлт тайлбар
- A
Токен гэдэг нь дискрет үгсийн сангийн аливаа тэмдэг юм; хүний хувьд англи цагаан толгойн үсэг бүр 26 үсэгтэй цагаан толгойн нэг токен болно. DALL·E-ийн үгсийн санд текст болон зургийн ойлголтод зориулсан токенууд бий. Тодруулбал, зургийн тайлбар бүр 16384 хэмжээтэй үгсийн сантай BPE-кодчилсон хамгийн ихдээ 256 токеноор дүрслэгдэж, зураг нь 8192 хэмжээтэй үгсийн сантай 1024 токеноор дүрслэгддэг.
Сургалтын явцад зургуудыг 256x256 нягтралд урьдчилан боловсруулдаг. VQVAE-тэй адил зураг бүрийг бид тасралтгүй сулруулалт ашиглан урьдчилан сургасан discrete VAE-аар 32x32 хэмжээтэй дискрет далд кодын тор болгон шахдаг. Сулруулалтыг ашиглан сургах нь ил тод codebook, EMA loss, эсвэл dead code revival зэрэг аргын хэрэгцээг арилгадаг бөгөөд том хэмжээний үгсийн сан руу өргөтгөж болдгийг бид тогтоосон.
- B
Нэмэлт дэлгэрэнгүйг дараах хэсэг-т өгсөн.
- 17
Энэ даалгаврыг variable binding гэж нэрлэдэг бөгөөд ном зохиолд өргөн судлагдсан.
Эшлэлүүд
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “Үүсгэгч сөргөлдөөнт текстээс зураг нийлэгжүүлэх(шинэ цонхонд нээгдэнэ)”. ICML 2016-д.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “Юуг, хаана зурахаа сурах нь(шинэ цонхонд нээгдэнэ)”. NIPS 2016-д.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: шаталсан үүсгэгч сөргөлдөөнт сүлжээгээр текстээс бодит мэт зураг нийлэгжүүлэх(шинэ цонхонд нээгдэнэ)”. ICCY 2017-д.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: шаталсан үүсгэгч сөргөлдөөнт сүлжээгээр бодит мэт зураг нийлэгжүүлэх(шинэ цонхонд нээгдэнэ)”. IEEE TPAMI 2018-д.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: анхаарал бүхий үүсгэгч сөргөлдөөнт сүлжээгээр нарийн түвшний текстээс зураг үүсгэх(шинэ цонхонд нээгдэнэ).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “Объектод суурилсан текстээс зураг нийлэгжүүлэхийг сөргөлдөөнт сургалтаар хийх нь(шинэ цонхонд нээгдэнэ)”. CVPR 2019-д.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “Нарийн түвшний хэрэглэгчийн анхааралд тулгуурласан текстээс зураг үүсгэх(шинэ цонхонд нээгдэнэ)”. WACV 2021-д.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). “Plug & play үүсгэгч сүлжээ: далд орон зай дахь нөхцөлт давталтат зураг үүсгэх(шинэ цонхонд нээгдэнэ).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: мультимодаль трансформероор зураг зурах, тайлбарлах, асуултад хариулах(шинэ цонхонд нээгдэнэ)”. EMNLP 2020.
- 10
Kingma, Diederik P., and Max Welling. “Авто-кодлогдсон вариацын Байес(шинэ цонхонд нээгдэнэ).” arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. “Гүн үүсгэгч загварт стохастик буцаан түгээх ба ойролцоо дүгнэлт(шинэ цонхонд нээгдэнэ).” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). “Gumbel-softmax-тай категорийн дахин параметрчлал(шинэ цонхонд нээгдэнэ)”.
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “Concrete тархалт: дискрет санамсаргүй хувьсагчийн тасралтгүй сулруулалт(шинэ цонхонд нээгдэнэ)”.
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Нейрон дискрет дүрслэлийг сурах нь(шинэ цонхонд нээгдэнэ)”.
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “VQ-VAE-2-оор олон янз, өндөр үнэнч дүрслэлтэй зураг үүсгэх(шинэ цонхонд нээгдэнэ)”.
- 16
Andreas, J., Klein, D., Levine, S. (2017). “Далд хэлтэй суралцах нь(шинэ цонхонд нээгдэнэ)”.
- 17
- 18
- 19
Gayler, R. (1998). “Үржих уялдуулалт, дүрслэлийн операторууд & адилтгал(шинэ цонхонд нээгдэнэ)”.
- 20
Kanerva, P. (1997). “Бүрэн тархмал дүрслэлүүд(шинэ цонхонд нээгдэнэ)”.


