DALL·E: Kuunda picha kutoka kwa maandishi
Tumeunda mtandao wa neva unaoitwa DALL·E ambao huunda picha kutoka kwa maelezo ya maandishi kwa anuwai ya dhana zinazoweza kuelezeka katika lugha asilia.

Illustration: Justin Jay Wang
DALL·E ni toleo lenye vigezo bilioni 12 la GPT‑3(fungua katika dirisha jipya) lililofunzwa kuzalisha picha kutoka kwa maelezo ya maandishi, kwa kutumia seti ya data ya jozi za maandishi na picha. Tumegundua kuwa ina seti tofauti za uwezo, ikiwa ni pamoja na kuunda matoleo ya wanyama na vitu vilivyopachikwa sifa za kibinadamu, kuchanganya dhana zisizohusiana kwa njia inayowezekana, kutoa maandishi na kutumia mabadiliko kwenye picha zilizopo.
Angalia pia: DALL·E 2, ambayo inazalisha picha halisi na sahihi zaidi zenye azimio la juu mara 4.
GPT‑3 ilionyesha kwamba lugha inaweza kutumika kuelekeza mtandao mkubwa wa neva kutekeleza shughuli mbalimbali za uzalishaji wa maandishi. Image GPT ilionyesha kwamba aina hiyo hiyo ya mtandao wa neva inaweza pia kutumika kuzalisha picha zenye uaminifu wa hali ya juu. Tunapanua matokeo haya ili kuonyesha kwamba kudhibiti dhana za kuona kupitia lugha sasa ni jambo linalowezekana.
Kama GPT‑3, DALL·E ni muundo wa lugha wa transformer. Inapokea maandishi na picha kama mkondo mmoja wa data wenye hadi tokeni 1280, na inafunzwa kwa kutumia uwezekano wa juu zaidi kuzalisha tokeni zote, moja baada ya nyingine. A
Utaratibu huu wa mafunzo unamruhusu DALL·E sio tu kuzalisha picha kutoka mwanzo, bali pia kuunda upya eneo lolote la mstatili la picha iliyopo ambalo linaenea hadi kona ya chini-kulia, kwa njia inayolingana na dokeza la maandishi.
Tunatambua kwamba kazi inayohusisha miundo ya kizazi ina uwezo wa kuwa na athari kubwa na pana kwa jamii. Katika siku zijazo, tunapanga kuchambua jinsi miundo kama DALL·E inavyohusiana na masuala ya kijamii kama athari za kiuchumi kwenye michakato fulani ya kazi na taaluma, uwezekano wa upendeleo katika matokeo ya miundo, na changamoto za kimaadili za muda mrefu zinazotokana na teknolojia hii.
Tunagundua kuwa DALL·E ina uwezo wa kuunda picha zinazowezekana kwa sentensi mbalimbali zinazogundua muundo wa lugha. Tunaonyesha hili kwa kutumia mfululizo wa vielelezo vya maingiliano katika sehemu inayofuata. Sampuli zilizoonyeshwa kwa kila maelezo katika picha zinapatikana kwa kuchukua 32 bora kati ya 512 baada ya kupanga upya na CLIP, lakini hatutumii kuchagua kwa mkono, isipokuwa kwa vijipicha na picha za pekee zinazoonekana nje.B
Tunajaribu uwezo wa DALL·E kubadilisha sifa kadhaa za kitu, pamoja na idadi ya mara kinavyoonekana.
Kudhibiti kwa wakati mmoja vitu vingi, sifa zao na mahusiano yao ya anga kunaleta changamoto mpya. Kwa mfano, fikiria kifungu "kigongo aliyevaa kofia nyekundu, glavu za njano, shati la buluu na suruali za kijani kibichi." Ili kutafsiri sentensi hii kwa usahihi, DALL·E lazima si tu aunganishe kila kipande cha mavazi na mnyama kwa usahihi, bali pia aunde miunganiko (kofia, nyekundu), (glavu, njano), (shati, bluu), na (suruali, kijani) bila kuchanganya.
Tunapima uwezo wa DALL·E kufanya hivi kwa kuweka vitu katika nafasi ya jamaa, kupanga vitu na kudhibiti sifa nyingi.
Ingawa DALL·E inatoa kiwango fulani cha udhibiti juu ya sifa na nafasi za idadi ndogo ya vitu, kiwango cha mafanikio kinaweza kutegemea jinsi maandishi ya maelezo yanavyotolewa. Kadri vitu zaidi vinavyoletwa, DALL·E huwa na uwezekano wa kuchanganya uhusiano kati ya vitu na rangi zao na kiwango cha mafanikio kinapungua kwa kasi. Pia tunabaini kuwa DALL·E ni dhaifu linapohusu kubadilisha maneno ya maelezo katika hali hizi: maelezo mbadala, yenye maana sawa mara nyingi hayatoi tafsiri sahihi.
Tunagundua kuwa DALL·E pia inaruhusu udhibiti wa mtazamo wa mandhari na mtindo wa 3D ambao mandhari hutolewa.
Ili kusukuma hili zaidi, tunajaribu uwezo wa DALL·E kuchora mara kwa mara kichwa cha mtu maarufu kwa kila pembe kutoka mfululizo wa pembe zilizotenganishwa kwa usawa, na kugundua kwamba tunaweza kupata uhuishaji laini wa kichwa kinachozunguka.
DALL·E inaonekana kuwa na uwezo wa kutumia aina fulani za upotoshaji wa macho kwenye mandhari, kama tunavyoona na chaguo "mtazamo wa lenzi ya samaki" na "panorama ya duara." Hii ilituchochea gundua uwezo wake wa kuzalisha tafakari.
Sampuli kutoka kwa "mtazamo wa karibu sana" na mtindo wa "x-ray" zilitufanya tugundua zaidi uwezo wa DALL·E wa kuonyesha muundo wa ndani kwa mitazamo ya sehemu za msalaba na muundo wa nje kwa picha za makro.
Shughuli ya kutafsiri maandishi kuwa picha haijabainishwa kikamilifu: manukuu moja kwa kawaida yanalingana na idadi isiyo na kikomo ya picha zinazowezekana, hivyo picha haijabainishwa kipekee. Kwa mfano, zingatia manukuu "mchoro wa capybara aliyeketi kwenye uwanja wakati wa kuchomoza kwa jua." Kulingana na mwelekeo wa capybara, inaweza kuwa muhimu kuchora kivuli, ingawa maelezo haya hayatajwa waziwazi. Tugundue uwezo wa DALL·E wa kutatua ukosefu wa maelezo katika matukio matatu: kubadilisha mtindo, mazingira, na wakati; kuchora kitu kimoja katika hali mbalimbali; na kuzalisha picha ya kitu kilicho na maandishi maalum yaliyoandikwa juu yake.
Kwa viwango tofauti vya kutegemewa, DALL·E hutoa ufikiaji wa sehemu ya uwezo wa injini ya uwasilishaji wa 3D kupitia lugha ya asili. Inaweza kudhibiti kwa kujitegemea sifa za idadi ndogo ya vitu, na kwa kiwango chenye kikomo, ni vingapi vilivyo na jinsi vinavyopangwa kwa kuhusiana na kila kimoja. Inaweza pia kudhibiti eneo na pembe ambayo tukio linaonyeshwa, na inaweza kuzalisha vitu vinavyojulikana kwa kufuata maelezo maalum ya pembe na hali za mwangaza.
Tofauti na injini ya utoaji wa 3D, ambayo ingizo lake lazima lionyeshwe bila utata na kwa maelezo kamili, DALL·E mara nyingi inaweza "kujaza mapengo" wakati maelezo yanapendekeza kwamba picha lazima iwe na maelezo fulani ambayo hayajasemwa wazi.
Inayofuata, tugundue matumizi ya uwezo uliotangulia kwa mitindo na usanifu wa ndani.
Asili ya muundo wa lugha inatuwezesha kuunganisha dhana ili kuelezea vitu halisi na vya kufikirika. Tunagundua kwamba DALL·E pia ina uwezo wa kuunganisha mawazo tofauti ili kuunda vitu, baadhi ya ambavyo huenda havipo katika ulimwengu halisi. Tugundue uwezo huu katika matukio mawili: kutumia uhamisho wa sifa kutoka kwa dhana mbalimbali hadi kwa wanyama, na kubuni bidhaa kwa kuchukua msukumo kutoka kwa dhana zisizohusiana.
Katika sehemu iliyopita, tuligundua uwezo wa DALL·E wa kuchanganya dhana zisizohusiana wakati wa kuzalisha picha za vitu vya ulimwengu halisi. Hapa, tunagundua uwezo huu katika muktadha wa sanaa, kwa aina tatu za michoro: matoleo ya wanyama na vitu yaliyopewa sifa za kibinadamu, chimeras za wanyama, na emojis.
GPT‑3 inaweza kuagizwa kufanya aina nyingi za shughuli kutoka kwa maelezo na dokeza la kuzalisha jibu lililotolewa katika dokezo lake, bila mafunzo ya ziada yoyote. Kwa mfano, unapodokezwa na kifungu "hapa kuna sentensi 'mtu anayetembea na mbwa wake kwenye bustani' iliyotafsiriwa kwa Kifaransa:", GPT‑3 inajibu "un homme qui promène son chien dans le parc." Uwezo huu unaitwa zero-shot reasoning. Tunagundua kuwa DALL·E inapanua uwezo huu kwa kikoa cha kuona, na inaweza kutekeleza aina kadhaa za shughuli za kutafsiri picha hadi picha inapodokezwa kwa njia sahihi.
Hatukutarajia kwamba uwezo huu ungejitokeza, na hatukufanya marekebisho yoyote kwa mtandao wa neva au utaratibu wa mafunzo ili kuuhimiza. Tukiwa na motisha kutokana na matokeo haya, tunapima uwezo wa DALL·E katika matatizo ya kufikiri kwa mlinganisho kwa kuijaribu kwenye matriki za maendeleo za Raven, mtihani wa IQ wa kuona ambao ulitumiwa sana katika karne ya 20.
Tunagundua kuwa DALL·E imejifunza kuhusu ukweli wa kijiografia, alama za maeneo na vitongoji. Maarifa yake ya dhana hizi ni ya kushangaza sahihi kwa njia fulani na yenye kasoro kwa njia nyingine.
Mbali na gundua maarifa ya DALL·E kuhusu dhana zinazotofautiana katika anga, tunagundua pia maarifa yake kuhusu dhana zinazotofautiana kwa wakati.
DALL·E ni transformer rahisi wa aina ya decoder pekee inayopokea maandishi na picha kama mkondo mmoja wa tokeni 1280—256 kwa maandishi na 1024 kwa picha—na kuunda muundo wa zote kwa njia ya autoregressive. Maski ya umakini katika kila moja ya tabaka zake 64 za kujitambua inaruhusu kila tokeni ya picha kuzingatia tokeni zote za maandishi. DALL·E hutumia kinyago cha kawaida cha causal kwa tokeni za maandishi, na umakini wa sparse kwa tokeni za picha na muundo wa umakini wa safu, safu wima, au convolutional, kulingana na tabaka. Tunatoa maelezo zaidi kuhusu usanifu na taratibu za mafunzo katika karatasi yetu(fungua katika dirisha jipya).
Uundaji wa picha kutoka kwa maandishi umekuwa eneo la utafiti linaloendelea tangu kazi ya awali ya Reed et. al,1 ambaye mbinu yake inatumia GAN iliyowekwa masharti kwenye maandiko ya maandiko. Embeddings huzalishwa na kisimbaji kilichofunzwa awali kwa kutumia hasara ya kulinganisha, sawa na CLIP. StackGAN3 na StackGAN++4 hutumia GANs za viwango vingi kuongeza azimio la picha na kuboresha ubora wa kuona. AttnGAN5 inajumuisha umakini kati ya vipengele vya maandishi na picha, na inapendekeza hasara ya kulinganisha vipengele vya maandishi na picha kama lengo la ziada la kulinganisha. Hii ni ya kuvutia kulinganisha na upangaji wetu upya na CLIP, ambao unafanywa nje ya mtandao. Kazi nyingine2, 6 na 7 inajumuisha vyanzo vya ziada vya usimamizi wakati wa mafunzo ili kuboresha ubora wa picha. Hatimaye, kazi ya Nguyen na wenzake. al8 na Cho et. al9 gundua mikakati inayotegemea sampuli kwa ajili ya uundaji wa picha inayotumia miundo ya kutofautisha ya multimodal iliyofunzwa awali.
Sawa na sampuli ya kukataliwa inayotumika katika VQVAE-2(fungua katika dirisha jipya), tunatumia CLIP kupanga upya sampuli 32 bora kati ya 512 kwa kila maelezo katika picha zote za maingiliano. Utaratibu huu pia unaweza kuonekana kama aina ya utafutaji unaoongozwa na lugha16, na unaweza kuwa na athari kubwa kwenye ubora wa sampuli.
Tanbihi
- A
Tokeni ni ishara yoyote kutoka kwa msamiati maalum; kwa wanadamu, kila herufi ya Kiingereza ni tokeni kutoka kwenye alfabeti yenye herufi 26. Msamiati wa DALL·E una tokeni kwa dhana za maandishi na picha. Hasa, kila maelezo ya picha yanawakilishwa kwa kutumia kiwango cha juu cha tokeni 256 zilizofinyangwa kwa BPE na msamiati wa ukubwa wa 16384, na picha inawakilishwa kwa kutumia tokeni 1024 na msamiati wa ukubwa wa 8192.
Picha zinachakatwa awali hadi azimio la 256x256 wakati wa mafunzo. Sawa na VQVAE, kila picha inabanwa hadi gridi ya 32x32 ya misimbo fiche ya latent kwa kutumia VAE fiche ambayo tuliifundisha awali kwa kutumia upunguzaji endelevu. Tuligundua kuwa mafunzo kwa kutumia mbinu ya kupumzika huondoa hitaji la kitabu cha kanuni wazi, hasara ya EMA, au mbinu kama kufufua kanuni zilizokufa, na yanaweza kupanuka hadi ukubwa mkubwa wa msamiati.
- B
Maelezo zaidi yatatolewa katika sehemu ya baadaye.
- 17
Shughuli hii inaitwa kufunga vigezo, na imechunguzwa sana katika fasihi.
Marejeleo
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “<a href=\" \">Uundajiwa maandishi ya upinzani hadi usanisi wa(fungua katika dirisha jipya) picha” Katika ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “<a href=\" \">Kujifunzanini na wapi pa(fungua katika dirisha jipya) kuchora”. Katika NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “<ahref=\" \">StackGAN: Uundaji wa picha halisi kutoka kwa maandishi kwa kutumia mitandao ya kizazi ya upinzani(fungua katika dirisha jipya) iliyopangiliwa” Katika ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: usanisi wa picha halisi kwa kutumia mitandao ya kizazi ya upinzani iliyopangwa(fungua katika dirisha jipya)” Katika IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “<ahref=\" \">AttnGAN: Uundaji wa picha kwa undani kutoka kwa maandishi kwa kutumia mitandao ya kizazi ya ushindani yenye(fungua katika dirisha jipya) umakini.
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). " Uundaji wa picha unaoendeshwa na kitu kutoka kwa maandishi kupitia mafunzo ya upinzani”(fungua katika dirisha jipya)“ Katika CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “Uundaji wa picha kutoka kwa maandishi unaoongozwa na umakini wa kina wa mtumiaji(fungua katika dirisha jipya)”. Mnamo WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). “Plug & play mitandao ya kizazi: uundaji wa picha kwa masharti katika nafasi fiche(fungua katika dirisha jipya).”
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: Chora, weka manukuu, na jibu maswali kwa kutumia transfoma za njia nyingi(fungua katika dirisha jipya)” EMNLP 2020.
- 10
Kingma, Diederik P., na Max Welling. “<ahref=\" \">Auto-encoding variational bayes.”(fungua katika dirisha jipya) arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed na Daan Wierstra. “<ahref=\" \">Kurudisha nyuma kwa nasibu na uchambuzi wa makisio katika miundo ya kizazi cha(fungua katika dirisha jipya) kina.” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). “<ahref=\" \">Urekebishaji wa kategoria na Gumbel-softmax”(fungua katika dirisha jipya)
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “<ahref=\" \">Usambazaji wa Concrete: upunguzaji endelevu wa mabadiliko ya nasibu ya(fungua katika dirisha jipya) kipekee”
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Ujifunzaji wa uwakilishi wa kidijitali wa neva(fungua katika dirisha jipya)".
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “Zalisha picha mbalimbali za uaminifu wa juu na VQ-VAE-2(fungua katika dirisha jipya)”.
- 16
Andreas, J., Klein, D., Levine, S. (2017). “Kujifunza na Lugha Fiche(fungua katika dirisha jipya)”
- 17
- 18
- 19
Gayler, R. (1998). “<ahref=\" \">Kufunga kwa kuzidisha, Operator wa uwakilishi &(fungua katika dirisha jipya) mlinganisho”
- 20
Kanerva, P. (1997). “Uwakilishi uliosambazwa kikamilifu(fungua katika dirisha jipya)”


