DALL·E: ustvarjanje slik na podlagi besedila
Usposobili smo nevronsko mrežo, imenovano DALL·E, ki ustvarja slike iz besedilnih napisov za širok spekter konceptov, izraženih v naravnem jeziku.

Ilustracija: Justin Jay Wang
DALL·E je različica z 12 milijardami parametrov GPT‑3(odpre se v novem oknu), usposobljena za ustvarjanje slik iz besedilnih opisov z uporabo nabora podatkov v parih besedilo-slika. Ugotovili smo, da ima širok nabor zmožnosti, vključno z ustvarjanjem antropomorfiziranih različic živali in predmetov, združevanjem nepovezanih konceptov na prepričljive načine, upodabljanjem besedila in uporabo transformacij na obstoječih slikah.
Glej tudi: DALL·E 2, ki ustvarja bolj realistične in natančne slike s 4-krat večjo ločljivostjo.
GPT‑3 je pokazal, da jezik lahko uporabimo za usmerjanje velike nevronske mreže pri izvajanju različnih nalog generiranja besedila. Image GPT je pokazal, da se lahko isti tip nevronske mreže uporablja tudi za ustvarjanje slik z visoko stopnjo zvestobe. Te ugotovitve širimo, da pokažemo, da je manipulacija vizualnih konceptov prek jezika zdaj dosegljiva.
Tako kot GPT‑3 je tudi DALL·E transformacijski jezikovni model. Prejema tako besedilo kot sliko kot enoten tok podatkov, ki vsebuje do 1280 tokenov, in je usposobljen z uporabo metode največje verjetnosti za ustvariti vse tokene, enega za drugim. A
Ta postopek usposabljanja omogoča DALL·E-ju, da ne samo ustvari sliko iz nič, temveč tudi ponovno ustvari katero koli pravokotno območje obstoječe slike, ki sega do spodnjega desnega kota, na način, ki je skladen z besedilnim pozivom.
Zavedamo se, da ima delo z generativnimi modeli potencial za pomembne in široke družbene vplive. V prihodnosti načrtujemo analizirati, kako se modeli, kot je DALL·E, povezujejo z družbenimi vprašanji, kot so gospodarski vpliv na določene delovne procese in poklice, možnost pristranskosti v rezultatih modela ter dolgoročni etični izzivi, ki jih ta tehnologija prinaša.
Ugotavljamo, da DALL·E lahko ustvari verodostojne slike za veliko različnih stavkov, ki raziskujejo kompozicijsko strukturo jezika. To ponazorimo z vrsto interaktivnih vizualizacij v naslednjem razdelku. Vzorce, prikazane za vsak napis v vizualizacijah, pridobimo tako, da po ponovnem razvrščanju s CLIP izberemo najboljših 32 od 512, vendar ne uporabljamo nobenega ročnega izbiranja, razen za sličice in samostojne slike, ki se pojavijo zunaj.B
Preizkušamo DALL·E-jevo sposobnost spreminjanja več atributov predmeta, kot tudi število njegovih pojavljanj.
Hkratno upravljanje več objektov, njihovih atributov in prostorskih odnosov predstavlja nov izziv. Na primer, razmislite o frazi "jež, ki nosi rdeč klobuk, rumene rokavice, modro srajco in zelene hlače." Da bi DALL·E pravilno interpretiral ta stavek, mora ne le pravilno sestaviti vsak kos oblačila z živaljo, temveč tudi oblikovati povezave (klobuk, rdeča), (rokavice, rumena), (srajca, modra) in (hlače, zelena) brez zamenjav.
Preverjamo zmožnost DALL·E za relativno pozicioniranje, zlaganje predmetov in nadzor večjega števila atributov.
Čeprav DALL·E omogoča določeno stopnjo nadzora nad atributi in položaji majhnega števila objektov, je lahko stopnja uspešnosti odvisna od tega, kako je napis oblikovan. Ko je uvedenih več objektov, je DALL·E nagnjen k zamenjavi povezav med objekti in njihovimi barvami, stopnja uspešnosti pa se močno zmanjša. Prav tako opažamo, da je DALL·E krhek glede preoblikovanja napisa v teh scenarijih: alternativni, semantično enakovredni napisi pogosto ne privedejo do pravilnih interpretacij.
Ugotavljamo, da DALL·E omogoča tudi nadzor nad pogledom na prizor in 3D slogom, v katerem je prizor upodobljen.
Da bi to še bolj razvili, testiramo DALL·E-jevo sposobnost, da večkrat nariše glavo znane osebnosti iz vsakega kota v zaporedju enakomerno razporejenih kotov, in ugotovimo, da lahko ustvarimo gladko animacijo vrteče se glave.
Zdi se, da DALL·E lahko uporabi nekatere vrste optičnih popačenj na prizorih, kot vidimo pri možnostih "pogled skozi ribje oko" in "sferična panorama". To nas je spodbudilo, da raziščemo njegovo sposobnost ustvarjanja refleksij.
Vzorci iz »zelo bližnjega pogleda« in »rentgenskega sloga« so nas spodbudili, da nadalje raziskujemo DALL·E-jevo sposobnost upodabljanja notranje strukture s prečnimi pogledi in zunanje strukture z makro fotografijami.
Naloga prevajanja besedila v slike je premalo določena: en sam napis običajno ustreza neskončnemu številu možnih slik, zato slika ni enolično določena. Na primer, razmislite o napisu "slika kapibare, ki sedi na polju ob sončnem vzhodu." Glede na usmerjenost kapibare je morda potrebno narisati senco, čeprav ta podrobnost nikoli ni izrecno omenjena. Raziskujemo DALL·E-jevo sposobnost razreševanja nedoločnosti v treh primerih: spreminjanje sloga, okolja in časa; risanje istega predmeta v različnih situacijah; in ustvarjanje slike predmeta s specifičnim besedilom, napisanim na njem.
Z različno stopnjo zanesljivosti DALL·E omogoča dostop do podmnožice zmožnosti 3D pogona za upodabljanje z naravnim jezikom. Lahko neodvisno nadzoruje lastnosti majhnega števila objektov in do omejene mere, koliko jih je in kako so razporejeni glede na druge. Prav tako lahko nadzoruje lokacijo in kot, iz katerega je prizor upodobljen, ter lahko ustvari znane objekte v skladu z natančnimi specifikacijami kota in svetlobnih pogojev.
Za razliko od 3D pogona za upodabljanje, katerega vnosi morajo biti nedvoumno in popolnoma podrobno določeni, lahko DALL·E pogosto "zapolni praznine", ko napis nakazuje, da mora slika vsebovati določen detajl, ki ni izrecno naveden.
Nato pa raziskujemo uporabo prejšnjih zmogljivosti za modo in notranje oblikovanje.
Kompozicijska narava jezika nam omogoča, da združujemo koncepte za opisovanje tako resničnih kot namišljenih stvari. Ugotavljamo, da ima DALL·E tudi sposobnost združevanja različnih idej za sintezo objektov, od katerih nekateri verjetno v resničnem svetu ne obstajajo. To sposobnost raziskujemo v dveh primerih: prenos lastnosti iz različnih konceptov na živali in oblikovanje izdelkov z navdihom iz nepovezanih konceptov.
V prejšnjem razdelku smo raziskali DALL·E-jevo sposobnost združevanja nepovezanih konceptov pri ustvarjanju slik resničnih predmetov. Tukaj raziskujemo to sposobnost v sobesedilu umetnosti, za tri vrste ilustracij: antropomorfizirane različice živali in predmetov, živalske himere in emojiji.
GPT‑3 lahko usmerimo k izvajanju številnih vrst nalog zgolj z opisom in pozivom, kako ustvariti odgovor, ki je naveden v njegovem pozivu, brez dodatnega usposabljanja. Na primer, ko je GPT‑3 pozvan z besedno zvezo »tukaj je stavek 'oseba, ki sprehaja svojega psa v parku', preveden v francoščino:«, odgovori »un homme qui promène son chien dans le parc.« Ta sposobnost se imenuje zero-shot sklepanje. Ugotavljamo, da DALL·E razširja to sposobnost na vizualno področje in je sposoben izvajati več vrst nalog prevajanja slike v sliko, ko je pravilno pozvan.
Nismo pričakovali, da se bo ta zmožnost pojavila, in nismo naredili nobenih sprememb na nevronski mreži ali postopku usposabljanja, da bi to spodbudili. Motivirani s temi rezultati merimo sposobnost DALL·E za reševanje analognih miselnih problemov z uporabo Ravenovih progresivnih matric, vizualnega IQ testa, ki je bil v 20. stoletju široko uporabljen.
Ugotavljamo, da se je DALL·E naučil o geografskih dejstvih, znamenitostih in soseskah. Njegovo znanje o teh konceptih je na nekatere načine presenetljivo natančno in na drugih pomanjkljivo.
Poleg raziskovanja DALL·E-jevega znanja o konceptih, ki se razlikujejo glede na prostor, raziskujemo tudi njegovo znanje o konceptih, ki se skozi čas spreminjajo.
DALL·E je preprost dekoder-samo transformator, ki prejme tako besedilo kot sliko kot enoten tok 1280 tokenov—256 za besedilo in 1024 za sliko—in vse te tokene avtoregresivno modelira. Maska pozornosti na vsaki od svojih 64 plasti samopozornosti omogoča, da vsaka token slika spremlja vse besedilne tokene. DALL·E uporablja standardno vzročno masko za besedilne tokene in redko pozornost za slikovne tokene z vzorcem pozornosti v vrstici, stolpcu ali konvolucijskem vzorcu, odvisno od sloja. Več podrobnosti o arhitekturi in postopku usposabljanja najdete v našem članku(odpre se v novem oknu).
Sinteza besedila v sliko je bila aktivno področje raziskav že od pionirskega dela Reeda in sodelavcev. al,1 katerega pristop uporablja GAN, pogojen z vstavki v besedilu. Vstavki so ustvarjeni s kodirnikom, ki je bil predhodno usposobljen z uporabo kontrastne izgube, podobno kot CLIP. StackGAN3 in StackGAN++4 uporabljata večnivojske GAN-e za povečanje ločljivosti slike in izboljšanje vizualne kakovosti. AttnGAN5 vključuje pozornost med značilnostmi besedila in slike ter predlaga kontrastno izgubo ujemanja značilnosti besedila in slike kot pomožni cilj. To je zanimivo primerjati z našim prerazvrščanjem s CLIP, ki se izvaja brez povezave. Druga dela2, 6 in 7 vključujejo dodatne vire nadzora med usposabljanjem za izboljšanje kakovosti slike. Končno, delo Nguyen et al. al8 in Cho et al. al9 raziskuje strategije na osnovi vzorčenja za generiranje slik, ki izkoriščajo vnaprej usposobljene multimodalne diskriminativne modele.
Podobno kot pri zavrnitvenem vzorčenju, uporabljenem v VQVAE-2(odpre se v novem oknu), uporabljamo CLIP za ponovno razvrščanje najboljših 32 od 512 vzorcev za vsak napis v vseh interaktivnih vizualizacijah. Ta postopek je mogoče videti tudi kot nekakšno iskanje, vodeno z jezikom16, in lahko dramatično vpliva na kakovost vzorca.
Opombe
- A
Token je vsak simbol iz diskretnega besedišča; za ljudi je vsaka angleška črka token iz 26-črkovne abecede. Besedišče DALL·E vključuje tokne za besedilne in slikovne koncepte. Natančneje, vsak napis slike je predstavljen z največ 256 BPE-kodiranimi tokeni z velikostjo besedišča 16384, slika pa je predstavljena s 1024 tokeni z velikostjo besedišča 8192.
Slike so med usposabljanjem predhodno obdelane na ločljivost 256x256. Podobno kot VQVAE, je vsaka slika stisnjena v mrežo 32x32 diskretnih skritih kod z uporabo diskretnega VAE, ki smo ga predhodno usposobili z uporabo neprekinjene relaksacije. Ugotovili smo, da usposabljanje z uporabo relaksacije odpravlja potrebo po eksplicitnem kodeksu, izgubi EMA ali trikih, kot je oživitev mrtve kode, in se lahko prilagodi velikim velikostim besedišča.
- B
Dodatne podrobnosti so navedene v razdelku v nadaljevanju.
- 17
Ta naloga se imenuje vezava spremenljivk in so jo obsežno preučili v literaturi.
Reference
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “Generativna nasprotujoča si sinteza besedila v sliko(odpre se v novem oknu)” Na ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “Učenje, kaj in kje risati(odpre se v novem oknu)”. Na konferenci NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “<ahref=\" \">StackGAN: Pretvorba besedila v foto-realistično sliko z zloženimi generativnimi nasprotnimi(odpre se v novem oknu) mrežami” V ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: realistično sintetiziranje slik z zloženimi generativnimi nasprotnimi mrežami(odpre se v novem oknu)” V IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: Natančno generiranje slik iz besedila z uporabo pozornih generativnih adversarnih omrežij(odpre se v novem oknu)
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “<ahref=\"(odpre se v novem oknu) \">Na objekt usmerjena sinteza besedila v sliko z uporabo nasprotnega usposabljanja” Na konferenci CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “<a href=\"\">Generiranje slike na podlagi natančne uporabnikove(odpre se v novem oknu) pozornosti” Na WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., in Yosinski, J. (2016). “Plug & play generativne mreže: pogojno iterativno generiranje slik v skritem prostoru(odpre se v novem oknu)
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: Rišite, napišite napise in odgovarjajte na vprašanja z multimodalnimi transformatorji(odpre se v novem oknu)”. EMNLP 2020.
- 10
Kingma, Diederik P., in Max Welling. “Avto-kodiranje variacijski Bayes(odpre se v novem oknu).” arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, in Daan Wierstra. “Stohastična povratna propaganda in približno sklepanje v globokih generativnih modelih(odpre se v novem oknu).” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). “Kategorična reparametrizacija z Gumbel-softmaxom(odpre se v novem oknu)”
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “<ahref=\" \">Porazdelitev Concrete: neprekinjena relaksacija diskretnih naključnih(odpre se v novem oknu) spremenljivk”
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Učenje nevronske diskretne reprezentacije(odpre se v novem oknu)”
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “Ustvarjanje raznolikih visokokakovostnih slik z VQ-VAE-2(odpre se v novem oknu)”
- 16
Andreas, J., Klein, D., in Levine, S. (2017). “Učenje s skritim jezikom(odpre se v novem oknu)”.
- 17
- 18
Plate, T. (1995). “<ahref=\" \">Holografske reducirane reprezentacije: konvolucijska algebra za kompozicijske distribuirane(odpre se v novem oknu) reprezentacije”
- 19
- 20
Kanerva, P. (1997). “Popolnoma porazdeljene reprezentacije(odpre se v novem oknu)”


