5. januar 2021

DALL·E: ustvarjanje slik na podlagi besedila

Usposobili smo nevronsko mrežo, imenovano DALL·E, ki ustvarja slike iz besedilnih napisov za širok spekter konceptov, izraženih v naravnem jeziku.

Ilustracija: Justin Jay Wang

Nalaganje …

DALL·E je različica z 12 milijardami parametrov GPT‑3⁠(odpre se v novem oknu), usposobljena za ustvarjanje slik iz besedilnih opisov z uporabo nabora podatkov v parih besedilo-slika. Ugotovili smo, da ima širok nabor zmožnosti, vključno z ustvarjanjem antropomorfiziranih različic živali in predmetov, združevanjem nepovezanih konceptov na prepričljive načine, upodabljanjem besedila in uporabo transformacij na obstoječih slikah.

Glej tudi: DALL·E 2⁠, ki ustvarja bolj realistične in natančne slike s 4-krat večjo ločljivostjo.

Nalaganje ...

GPT‑3 je pokazal, da jezik lahko uporabimo za usmerjanje velike nevronske mreže pri izvajanju različnih nalog generiranja besedila. Image GPT⁠ je pokazal, da se lahko isti tip nevronske mreže uporablja tudi za ustvarjanje slik z visoko stopnjo zvestobe. Te ugotovitve širimo, da pokažemo, da je manipulacija vizualnih konceptov prek jezika zdaj dosegljiva.

Pregled

Tako kot GPT‑3 je tudi DALL·E transformacijski jezikovni model. Prejema tako besedilo kot sliko kot enoten tok podatkov, ki vsebuje do 1280 tokenov, in je usposobljen z uporabo metode največje verjetnosti za ustvariti vse tokene, enega za drugim. ^A

Ta postopek usposabljanja omogoča DALL·E-ju, da ne samo ustvari sliko iz nič, temveč tudi ponovno ustvari katero koli pravokotno območje obstoječe slike, ki sega do spodnjega desnega kota, na način, ki je skladen z besedilnim pozivom.

Zavedamo se, da ima delo z generativnimi modeli potencial za pomembne in široke družbene vplive. V prihodnosti načrtujemo analizirati, kako se modeli, kot je DALL·E, povezujejo z družbenimi vprašanji, kot so gospodarski vpliv na določene delovne procese in poklice, možnost pristranskosti v rezultatih modela ter dolgoročni etični izzivi, ki jih ta tehnologija prinaša.

Zmožnosti

Ugotavljamo, da DALL·E lahko ustvari verodostojne slike za veliko različnih stavkov, ki raziskujejo kompozicijsko strukturo jezika. To ponazorimo z vrsto interaktivnih vizualizacij v naslednjem razdelku. Vzorce, prikazane za vsak napis v vizualizacijah, pridobimo tako, da po ponovnem razvrščanju s CLIP⁠ izberemo najboljših 32 od 512, vendar ne uporabljamo nobenega ročnega izbiranja, razen za sličice in samostojne slike, ki se pojavijo zunaj.^B

Upravljanje atributov

Preizkušamo DALL·E-jevo sposobnost spreminjanja več atributov predmeta, kot tudi število njegovih pojavljanj.

Nalaganje ...

Risanje več objektov

Hkratno upravljanje več objektov, njihovih atributov in prostorskih odnosov predstavlja nov izziv. Na primer, razmislite o frazi "jež, ki nosi rdeč klobuk, rumene rokavice, modro srajco in zelene hlače." Da bi DALL·E pravilno interpretiral ta stavek, mora ne le pravilno sestaviti vsak kos oblačila z živaljo, temveč tudi oblikovati povezave (klobuk, rdeča), (rokavice, rumena), (srajca, modra) in (hlače, zelena) brez zamenjav.

Preverjamo zmožnost DALL·E za relativno pozicioniranje, zlaganje predmetov in nadzor večjega števila atributov.

Nalaganje ...

Čeprav DALL·E omogoča določeno stopnjo nadzora nad atributi in položaji majhnega števila objektov, je lahko stopnja uspešnosti odvisna od tega, kako je napis oblikovan. Ko je uvedenih več objektov, je DALL·E nagnjen k zamenjavi povezav med objekti in njihovimi barvami, stopnja uspešnosti pa se močno zmanjša. Prav tako opažamo, da je DALL·E krhek glede preoblikovanja napisa v teh scenarijih: alternativni, semantično enakovredni napisi pogosto ne privedejo do pravilnih interpretacij.

Vizualiziranje perspektive in tridimenzionalnosti

Ugotavljamo, da DALL·E omogoča tudi nadzor nad pogledom na prizor in 3D slogom, v katerem je prizor upodobljen.

Nalaganje ...

Da bi to še bolj razvili, testiramo DALL·E-jevo sposobnost, da večkrat nariše glavo znane osebnosti iz vsakega kota v zaporedju enakomerno razporejenih kotov, in ugotovimo, da lahko ustvarimo gladko animacijo vrteče se glave.

Nalaganje ...

Zdi se, da DALL·E lahko uporabi nekatere vrste optičnih popačenj na prizorih, kot vidimo pri možnostih "pogled skozi ribje oko" in "sferična panorama". To nas je spodbudilo, da raziščemo njegovo sposobnost ustvarjanja refleksij.

Nalaganje ...

Vizualiziranje notranje in zunanje strukture

Vzorci iz »zelo bližnjega pogleda« in »rentgenskega sloga« so nas spodbudili, da nadalje raziskujemo DALL·E-jevo sposobnost upodabljanja notranje strukture s prečnimi pogledi in zunanje strukture z makro fotografijami.

Nalaganje ...

Sklepanje o kontekstualnih podrobnosti

Naloga prevajanja besedila v slike je premalo določena: en sam napis običajno ustreza neskončnemu številu možnih slik, zato slika ni enolično določena. Na primer, razmislite o napisu "slika kapibare, ki sedi na polju ob sončnem vzhodu." Glede na usmerjenost kapibare je morda potrebno narisati senco, čeprav ta podrobnost nikoli ni izrecno omenjena. Raziskujemo DALL·E-jevo sposobnost razreševanja nedoločnosti v treh primerih: spreminjanje sloga, okolja in časa; risanje istega predmeta v različnih situacijah; in ustvarjanje slike predmeta s specifičnim besedilom, napisanim na njem.

Nalaganje ...

Z različno stopnjo zanesljivosti DALL·E omogoča dostop do podmnožice zmožnosti 3D pogona za upodabljanje z naravnim jezikom. Lahko neodvisno nadzoruje lastnosti majhnega števila objektov in do omejene mere, koliko jih je in kako so razporejeni glede na druge. Prav tako lahko nadzoruje lokacijo in kot, iz katerega je prizor upodobljen, ter lahko ustvari znane objekte v skladu z natančnimi specifikacijami kota in svetlobnih pogojev.

Za razliko od 3D pogona za upodabljanje, katerega vnosi morajo biti nedvoumno in popolnoma podrobno določeni, lahko DALL·E pogosto "zapolni praznine", ko napis nakazuje, da mora slika vsebovati določen detajl, ki ni izrecno naveden.

Aplikacije prejšnjih zmogljivosti

Nato pa raziskujemo uporabo prejšnjih zmogljivosti za modo in notranje oblikovanje.

Nalaganje ...

Združevanje nepovezanih konceptov

Kompozicijska narava jezika nam omogoča, da združujemo koncepte za opisovanje tako resničnih kot namišljenih stvari. Ugotavljamo, da ima DALL·E tudi sposobnost združevanja različnih idej za sintezo objektov, od katerih nekateri verjetno v resničnem svetu ne obstajajo. To sposobnost raziskujemo v dveh primerih: prenos lastnosti iz različnih konceptov na živali in oblikovanje izdelkov z navdihom iz nepovezanih konceptov.

Nalaganje ...

Ilustracije živali

V prejšnjem razdelku smo raziskali DALL·E-jevo sposobnost združevanja nepovezanih konceptov pri ustvarjanju slik resničnih predmetov. Tukaj raziskujemo to sposobnost v sobesedilu umetnosti, za tri vrste ilustracij: antropomorfizirane različice živali in predmetov, živalske himere in emojiji.

Nalaganje ...

Zero-shot vizualno sklepanje

GPT‑3 lahko usmerimo k izvajanju številnih vrst nalog zgolj z opisom in pozivom, kako ustvariti odgovor, ki je naveden v njegovem pozivu, brez dodatnega usposabljanja. Na primer, ko je GPT‑3 pozvan z besedno zvezo »tukaj je stavek 'oseba, ki sprehaja svojega psa v parku', preveden v francoščino:«, odgovori »un homme qui promène son chien dans le parc.« Ta sposobnost se imenuje zero-shot sklepanje. Ugotavljamo, da DALL·E razširja to sposobnost na vizualno področje in je sposoben izvajati več vrst nalog prevajanja slike v sliko, ko je pravilno pozvan.

Nalaganje ...

Nismo pričakovali, da se bo ta zmožnost pojavila, in nismo naredili nobenih sprememb na nevronski mreži ali postopku usposabljanja, da bi to spodbudili. Motivirani s temi rezultati merimo sposobnost DALL·E za reševanje analognih miselnih problemov z uporabo Ravenovih progresivnih matric, vizualnega IQ testa, ki je bil v 20. stoletju široko uporabljen.

Nalaganje ...

Geografsko znanje

Ugotavljamo, da se je DALL·E naučil o geografskih dejstvih, znamenitostih in soseskah. Njegovo znanje o teh konceptih je na nekatere načine presenetljivo natančno in na drugih pomanjkljivo.

Nalaganje ...

Časovno znanje

Poleg raziskovanja DALL·E-jevega znanja o konceptih, ki se razlikujejo glede na prostor, raziskujemo tudi njegovo znanje o konceptih, ki se skozi čas spreminjajo.

Nalaganje ...

Povzetek pristopa in prejšnjega dela

DALL·E je preprost dekoder-samo transformator, ki prejme tako besedilo kot sliko kot enoten tok 1280 tokenov—256 za besedilo in 1024 za sliko—in vse te tokene avtoregresivno modelira. Maska pozornosti na vsaki od svojih 64 plasti samopozornosti omogoča, da vsaka token slika spremlja vse besedilne tokene. DALL·E uporablja standardno vzročno masko za besedilne tokene in redko pozornost za slikovne tokene z vzorcem pozornosti v vrstici, stolpcu ali konvolucijskem vzorcu, odvisno od sloja. Več podrobnosti o arhitekturi in postopku usposabljanja najdete v našem članku⁠(odpre se v novem oknu).

Sinteza besedila v sliko je bila aktivno področje raziskav že od pionirskega dela Reeda in sodelavcev. al,¹ katerega pristop uporablja GAN, pogojen z vstavki v besedilu. Vstavki so ustvarjeni s kodirnikom, ki je bil predhodno usposobljen z uporabo kontrastne izgube, podobno kot CLIP. StackGAN³ in StackGAN++⁴ uporabljata večnivojske GAN-e za povečanje ločljivosti slike in izboljšanje vizualne kakovosti. AttnGAN⁵ vključuje pozornost med značilnostmi besedila in slike ter predlaga kontrastno izgubo ujemanja značilnosti besedila in slike kot pomožni cilj. To je zanimivo primerjati z našim prerazvrščanjem s CLIP, ki se izvaja brez povezave. Druga dela^{2, 6 in 7} vključujejo dodatne vire nadzora med usposabljanjem za izboljšanje kakovosti slike. Končno, delo Nguyen et al. al⁸ in Cho et al. al⁹ raziskuje strategije na osnovi vzorčenja za generiranje slik, ki izkoriščajo vnaprej usposobljene multimodalne diskriminativne modele.

Podobno kot pri zavrnitvenem vzorčenju, uporabljenem v VQVAE-2⁠(odpre se v novem oknu), uporabljamo CLIP⁠ za ponovno razvrščanje najboljših 32 od 512 vzorcev za vsak napis v vseh interaktivnih vizualizacijah. Ta postopek je mogoče videti tudi kot nekakšno iskanje, vodeno z jezikom¹⁶, in lahko dramatično vpliva na kakovost vzorca.

Nalaganje ...

Opombe

A
Token je vsak simbol iz diskretnega besedišča; za ljudi je vsaka angleška črka token iz 26-črkovne abecede. Besedišče DALL·E vključuje tokne za besedilne in slikovne koncepte. Natančneje, vsak napis slike je predstavljen z največ 256 BPE-kodiranimi tokeni z velikostjo besedišča 16384, slika pa je predstavljena s 1024 tokeni z velikostjo besedišča 8192.

Slike so med usposabljanjem predhodno obdelane na ločljivost 256x256. Podobno kot VQVAE, je vsaka slika stisnjena v mrežo 32x32 diskretnih skritih kod z uporabo diskretnega VAE, ki smo ga predhodno usposobili z uporabo neprekinjene relaksacije. Ugotovili smo, da usposabljanje z uporabo relaksacije odpravlja potrebo po eksplicitnem kodeksu, izgubi EMA ali trikih, kot je oživitev mrtve kode, in se lahko prilagodi velikim velikostim besedišča.