DALL·E: vaizdų kūrimas iš teksto
Išmokėme neuroninį tinklą DALL·E, kuris iš tekstinių aprašų generuoja vaizdus įvairioms sąvokoms, išreiškiamoms natūralia kalba.

Iliustracija: Justin Jay Wang.
DALL·E yra 12 milijardų parametrų GPT‑3(atsidaro naujame lange) versija, išmokyta generuoti vaizdus iš tekstinių aprašymų, naudojant teksto ir vaizdo porų rinkinį. Nustatėme, kad ji pasižymi įvairiais gebėjimais, įskaitant sužmogintų gyvūnų ir objektų versijų kūrimą, nesusijusių sąvokų derinimą įtikinamais būdais, teksto atvaizdavimą ir transformacijų taikymą esamiems vaizdams.
Taip pat žr.: DALL-E 2, kuri generuoja tikroviškesnius ir tikslesnius vaizdus su keturiskart didesne skiriamąja geba.
„GPT‑3“ parodė, kad kalbą galima naudoti norint nurodyti dideliam neuroniniam tinklui atlikti įvairias teksto generavimo užduotis. „image GPT“ parodė, kad to paties tipo neuroninis tinklas taip pat gali būti naudojamas didelio tikslumo vaizdams generuoti. Išplečiame šias išvadas parodydami, kad vizualinių sąvokų manipuliavimas per kalbą jau yra pasiekiamas.
Kaip ir GPT‑3, DALL·E yra transformerių kalbos modelis. Jis priima tekstą ir vaizdą kaip vieną duomenų srautą, kurį sudaro iki 1 280 prieigos raktų, ir yra mokomas naudojant didžiausio tikėtinumo metodą generuoti visus prieigos raktus vieną po kito. A
Ši mokymo procedūra leidžia DALL·E ne tik generuoti vaizdą nuo nulio, bet ir iš naujo generuoti bet kurią stačiakampę esamo vaizdo sritį, besitęsiančią iki apatinio dešiniojo kampo, taip, kad ji derėtų su tekstiniu raginimu.
Suprantame, kad darbas su generatyviniais modeliais gali turėti reikšmingą ir platų poveikį visuomenei. Ateityje planuojame analizuoti, kaip tokie modeliai kaip DALL·E susiję su visuomeninėmis problemomis, pavyzdžiui, ekonominiu poveikiu tam tikriems darbo procesams ir profesijoms, šališkumo galimybe modelio išvestyse ir ilgalaikiais etiniais iššūkiais, kuriuos kelia ši technologija.
Nustatėme, kad DALL·E geba sukurti įtikinamus vaizdus daugybei sakinių, tiriančių kompozicinę kalbos struktūrą. Tai iliustruojame kitoje dalyje pateikdami seriją interaktyvių vizualizacijų. Vizualizacijose kiekvienam aprašui rodomi pavyzdžiai gaunami imant 32 geriausius iš 512 po perrikiavimo naudojant CLIP, tačiau nenaudojame jokios rankinės atrankos, išskyrus miniatiūras ir atskirus vaizdus, rodomus išorėjeB.
Tikriname DALL·E gebėjimą modifikuoti kelis objekto atributus, taip pat jo pasirodymų skaičių.
Vienu metu valdyti kelis objektus, jų atributus ir erdvinius ryšius yra naujas iššūkis. Pavyzdžiui, panagrinėkime frazę „ežys, dėvintis raudoną kepurę, geltonas pirštines, mėlynus marškinius ir žalias kelnes“. Norėdamas teisingai interpretuoti šį sakinį, DALL·E turi ne tik tinkamai sukomponuoti kiekvieną aprangos detalę su gyvūnu, bet ir suformuoti asociacijas (kepurė, raudona), (pirštinės, geltonos), (marškiniai, mėlyni) ir (kelnės, žalios) jų nesumaišydamasC.
Tikriname DALL·E gebėjimą tai atlikti santykinio padėties nustatymo, objektų krovimo ir kelių atributų valdymo atvejais.
Nors DALL·E suteikia tam tikrą galimybę valdyti nedidelio skaičiaus objektų atributus ir pozicijas, sėkmės rodiklis gali priklausyti nuo to, kaip suformuluotas aprašas. Įvedus daugiau objektų, DALL·E yra linkusi painioti objektų ir jų spalvų sąsajas, todėl sėkmės rodiklis smarkiai krenta. Taip pat pastebime, kad DALL·E yra jautri aprašo performulavimui šiuose scenarijuose: alternatyvūs, semantiškai lygiaverčiai aprašai dažnai neduoda teisingų interpretacijų.
Nustatėme, kad DALL·E taip pat leidžia valdyti scenos žiūrėjimo tašką ir 3D stilių, kuriuo atvaizduojama scena.
Siekdami tai išplėtoti, tikriname DALL·E gebėjimą pakartotinai piešti gerai žinomos figūros galvą kiekvienu kampu iš vienodais intervalais išdėstytų kampų sekos ir nustatome, kad galime išgauti sklandžią besisukančios galvos animaciją.
Atrodo, kad DALL·E geba scenoms taikyti tam tikrus optinius iškraipymus, kaip matome pasirinkę „žuvies akies objektyvo vaizdą“ ir „sferinę panoramą“.a Tai mus paskatino ištirti jo gebėjimą generuoti atspindžius.
Pavyzdžiai iš „itin stambaus plano“ ir „rentgeno“ stilių paskatino mus toliau tyrinėti DALL·E gebėjimą atvaizduoti vidinę struktūrą naudojant skerspjūvio vaizdus, o išorinę struktūrą – naudojant makrofotografijas.
Teksto vertimo į vaizdus užduotis yra nepakankamai apibrėžta: vienas aprašas paprastai atitinka daugybę tikėtinų vaizdų, todėl vaizdas nėra vienareikšmiškai nulemtas. Pavyzdžiui, panagrinėkime aprašą „kapibaros, sėdinčios lauke tekant saulei, paveikslas“. Priklausomai nuo kapibaros padėties, gali prireikti nupiešti šešėlį, nors ši detalė niekada nėra tiesiogiai paminėta. Tiriame DALL·E gebėjimą spręsti nepakankamo apibrėžtumo problemą trimis atvejais: keičiant stilių, aplinką ir laiką; piešiant tą patį objektą įvairiose situacijose; ir generuojant objekto vaizdą su ant jo užrašytu konkrečiu tekstu.
DALL·E su įvairaus lygio patikimumu per natūralią kalbą suteikia prieigą prie dalies 3D generavimo variklio galimybių. Jis gali nepriklausomai valdyti nedidelio skaičiaus objektų atributus ir tam tikru mastu – jų kiekį bei išdėstymą vienas kito atžvilgiu. Taip pat galima valdyti vietą ir kampą, iš kurio atvaizduojama scena, bei generuoti žinomus objektus tiksliai laikantis nurodyto kampo ir apšvietimo sąlygų.
Skirtingai nei 3D generavimo variklis, kurio įvestys turi būti nurodytos vienareikšmiškai ir visiškai detaliai, DALL·E dažnai geba „užpildyti spragas“, kai aprašas suponuoja, kad vaizde turi būti tam tikra detalė, kuri nėra tiesiogiai įvardyta.
Toliau aptariame minėtų gebėjimų panaudojimą mados ir interjero dizainui.
Kompozicinė kalbos prigimtis leidžia sujungti sąvokas aprašant tiek realius, tiek įsivaizduojamus dalykus. Pastebėjome, kad DALL·E taip pat geba derinti skirtingas idėjas ir sintetinti objektus, kurių dalis realiame pasaulyje vargu ar egzistuoja. Šį gebėjimą nagrinėjame dviem atvejais: perkeliant įvairių sąvokų savybes gyvūnams ir kuriant produktus pagal nesusijusias sąvokas.
Ankstesniame skyriuje nagrinėjome DALL·E gebėjimą derinti nesusijusias sąvokas generuojant realaus pasaulio objektų vaizdus. Čia šį gebėjimą tyrinėjame meno kontekste, kurdami trijų rūšių iliustracijas: sužmogintas gyvūnų ir objektų versijas, gyvūnų chimeras ir jaustukus.
GPT‑3 galima nurodyti atlikti įvairias užduotis vien pagal aprašymą ir užuominą generuoti atsakymą, pateiktą raginime, be jokio papildomo mokymo. Pavyzdžiui, gavęs raginimą su fraze „štai sakinys „a person walking his dog in the park“, išverstas į prancūzų kalbą:“, „GPT‑3“ atsako „un homme qui promene son chien dans le pare“. Šis gebėjimas vadinamas samprotavimu be pavyzdžių.Nustatėme, kad DALL·E išplečia šį gebėjimą į vizualinę sritį ir gali atlikti kelių rūšių vaizdo vertimo į vaizdą užduotis, jei raginimas pateikiamas tinkamai.
Nesitikėjome, kad šis gebėjimas atsiras, ir neatlikome jokių neuroninio tinklo ar mokymo procedūros pakeitimų jam skatinti. Paskatinti šių rezultatų, matuojame DALL·E gebėjimą spręsti analoginio samprotavimo problemas, testuodami jį su Raveno progresyviosiomis matricomis – vizualiniu IQ testu, plačiai naudotu XX amžiuje.
Nustatėme, kad DALL·E išmoko geografinių faktų, orientyrų ir informacijos apie rajonus. Jo žinios apie šias sąvokas tam tikrais aspektais yra stebėtinai tikslios, o kitais – ydingos.
Be DALL·E žinių apie erdvėje kintančias sąvokas, taip pat tiriame jo žinias apie laike kintančias sąvokas.
DALL·E yra paprastas tik dekoderio tipo transformerių modelis, priimantis tiek tekstą, tiek vaizdą kaip vieną 1 280 prieigos raktų srautą (256 skirti tekstui, 1 024 – vaizdui) ir modeliuojantis juos visus autoregresyviai. Dėmesio kaukė kiekviename iš 64 savidėmesio sluoksnių leidžia kiekvienam vaizdo prieigos raktui atsižvelgti į visus teksto prieigos raktus. Teksto prieigos raktams DALL·E naudoja standartinę priežastinę kaukę, o vaizdo prieigos raktams – retąjį dėmesį su eilutės, stulpelio arba konvoliucine dėmesio struktūra, atsižvelgiant į sluoksnį. Daugiau informacijos apie architektūrą ir mokymo procedūrą pateikiame savo straipsnyje(atsidaro naujame lange).
Teksto pavertimo vaizdu sintezė yra aktyvi tyrimų sritis nuo novatoriško Reed ir kt. darbo1, kuriame taikomas GAN modelis, sąlygojamas teksto įterpčių. Įterptis sukuria koduotuvas, iš anksto apmokytas naudojant kontrastinę netektį, panašiai kaip CLIP. „StackGAN“3 ir „StackGAN++“4 naudoja daugiamačius GAN modelius, kad padidintų vaizdo skiriamąją gebą ir pagerintų vizualinį tikslumą. „AttnGAN“5 įtraukia dėmesį tarp teksto ir vaizdo požymių bei pasiūlo kontrastinę teksto ir vaizdo požymių derinimo netektį kaip pagalbinį tikslą. Tai įdomu palyginti su mūsų atliekamu perrikiavimu naudojant CLIP, kuris vyksta neprisijungus. Kituose darbuose2, 6 ir 7 mokant įtraukiami papildomi priežiūros šaltiniai vaizdo kokybei gerinti. Galiausiai Nguyen ir kt. darbe8 bei Cho ir kt. darbe9 nagrinėjamos imčių atranka pagrįstos vaizdų generavimo strategijos, kuriose pasitelkiami iš anksto apmokyti multimodaliniai diskriminaciniai modeliai.
Panašiai kaip atmetimo atrankos atveju VQVAE-2(atsidaro naujame lange) modelyje, mes naudojame CLIP, kad perrikiuotume 32 geriausius iš 512 pavyzdžių kiekvienam aprašui visose interaktyviose vizualizacijose. Šią procedūrą taip pat galima vertinti kaip tam tikrą paiešką, valdomą kalbos16, ir ji gali turėti didelę įtaką pavyzdžių kokybei.
Pastabos
- A
Prieigos raktas – tai bet koks simbolis iš diskretaus žodyno; žmonėms kiekviena anglų kalbos raidė yra prieigos raktas iš 26 raidžių abėcėlės. DALL·E žodyne yra tiek teksto, tiek vaizdo sąvokų prieigos raktų. Konkrečiau, kiekvienas vaizdo aprašas pateikiamas naudojant ne daugiau kaip 256 BPE koduotus prieigos raktus su 16 384 dydžio žodynu, o vaizdas pateikiamas naudojant 1 024 prieigos raktus su 8 192 dydžio žodynu.
Mokant vaizdai iš anksto apdorojami iki 256x256 skiriamosios gebos. Panašiai kaip VQVAE, kiekvienas vaizdas glaudinamas į diskrečių latentinių kodų 32x32 tinklelį naudojant diskrečiąją VAE, kurią iš anksto išmokėme naudodami tolydžiąją relaksaciją. Nustatėme, kad mokymas naudojant relaksaciją panaikina poreikį turėti aiškią kodų knygą, EMA nuostolį ar naudoti tokius triukus kaip negyvojo kodo atkūrimas, ir leidžia plėsti mastelį iki didelės apimties žodynų.
- B
Daugiau informacijos pateikiama tolesniame skyriuje.
- 17
Ši užduotis vadinama kintamųjų susiejimu ir yra plačiai nagrinėjama literatūroje.
Nuorodos
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “Generative adversarial text to image synthesis(atsidaro naujame lange)”. In ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “Learning what and where to draw(atsidaro naujame lange)”. NIPS 2016 m.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks(atsidaro naujame lange)”. In ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: realistic image synthesis with stacked generative adversarial networks(atsidaro naujame lange)”. In IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: Fine-grained text to image generation with attentional generative adversarial networks(atsidaro naujame lange).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “Object-driven text-to-image synthesis via adversarial training(atsidaro naujame lange)”. In CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “Text-to-image generation grounded by fine-grained user attention(atsidaro naujame lange)”. In WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). „Plug & play generatyviniai tinklai: sąlyginis iteratyvus vaizdų generavimas latentinėje erdvėje(atsidaro naujame lange).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: Paint, caption, and answer questions with multi-modal transformers(atsidaro naujame lange)”. EMNLP 2020.
- 10
Kingma, Diederik P., and Max Welling. “<ahref=\" \">Auto-encoding variacinis Beiso(atsidaro naujame lange) metodas.” arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. “Stochastic backpropagation and approximate inference in deep generative models(atsidaro naujame lange).” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). „<a href=\" \">Kategorinė parametrizacija su Gumbel-softmax“(atsidaro naujame lange)
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “<ahref=\" \">Betono pasiskirstymas: diskrečių atsitiktinių kintamųjų tęstinė(atsidaro naujame lange) relaksacija”
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Neural discrete representation learning(atsidaro naujame lange)”.
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “Generating diverse high-fidelity images with VQ-VAE-2(atsidaro naujame lange)”.
- 16
Andreas, J., Klein, D., Levine, S. (2017). “Learning with Latent Language(atsidaro naujame lange)”.
- 17
- 18
- 19
- 20
Kanerva, P. (1997). “Fully distributed representations(atsidaro naujame lange)”.


