2021 m. sausio 5 d.

DALL·E: vaizdų kūrimas iš teksto

Išmokėme neuroninį tinklą DALL·E, kuris iš tekstinių aprašų generuoja vaizdus įvairioms sąvokoms, išreiškiamoms natūralia kalba.

Iliustracija: Justin Jay Wang.

Įkeliama...

DALL·E yra 12 milijardų parametrų GPT‑3⁠(atsidaro naujame lange) versija, išmokyta generuoti vaizdus iš tekstinių aprašymų, naudojant teksto ir vaizdo porų rinkinį. Nustatėme, kad ji pasižymi įvairiais gebėjimais, įskaitant sužmogintų gyvūnų ir objektų versijų kūrimą, nesusijusių sąvokų derinimą įtikinamais būdais, teksto atvaizdavimą ir transformacijų taikymą esamiems vaizdams.

Taip pat žr.: DALL-E 2⁠, kuri generuoja tikroviškesnius ir tikslesnius vaizdus su keturiskart didesne skiriamąja geba.

Įkeliama...

„GPT‑3“ parodė, kad kalbą galima naudoti norint nurodyti dideliam neuroniniam tinklui atlikti įvairias teksto generavimo užduotis. „image GPT“⁠ parodė, kad to paties tipo neuroninis tinklas taip pat gali būti naudojamas didelio tikslumo vaizdams generuoti. Išplečiame šias išvadas parodydami, kad vizualinių sąvokų manipuliavimas per kalbą jau yra pasiekiamas.

Apžvalga

Kaip ir GPT‑3, DALL·E yra transformerių kalbos modelis. Jis priima tekstą ir vaizdą kaip vieną duomenų srautą, kurį sudaro iki 1 280 prieigos raktų, ir yra mokomas naudojant didžiausio tikėtinumo metodą generuoti visus prieigos raktus vieną po kito. ^A

Ši mokymo procedūra leidžia DALL·E ne tik generuoti vaizdą nuo nulio, bet ir iš naujo generuoti bet kurią stačiakampę esamo vaizdo sritį, besitęsiančią iki apatinio dešiniojo kampo, taip, kad ji derėtų su tekstiniu raginimu.

Suprantame, kad darbas su generatyviniais modeliais gali turėti reikšmingą ir platų poveikį visuomenei. Ateityje planuojame analizuoti, kaip tokie modeliai kaip DALL·E susiję su visuomeninėmis problemomis, pavyzdžiui, ekonominiu poveikiu tam tikriems darbo procesams ir profesijoms, šališkumo galimybe modelio išvestyse ir ilgalaikiais etiniais iššūkiais, kuriuos kelia ši technologija.

Galimybės

Nustatėme, kad DALL·E geba sukurti įtikinamus vaizdus daugybei sakinių, tiriančių kompozicinę kalbos struktūrą. Tai iliustruojame kitoje dalyje pateikdami seriją interaktyvių vizualizacijų. Vizualizacijose kiekvienam aprašui rodomi pavyzdžiai gaunami imant 32 geriausius iš 512 po perrikiavimo naudojant CLIP⁠, tačiau nenaudojame jokios rankinės atrankos, išskyrus miniatiūras ir atskirus vaizdus, rodomus išorėje^B.

Atributų valdymas

Tikriname DALL·E gebėjimą modifikuoti kelis objekto atributus, taip pat jo pasirodymų skaičių.

Įkeliama...

Kelių objektų piešimas

Vienu metu valdyti kelis objektus, jų atributus ir erdvinius ryšius yra naujas iššūkis. Pavyzdžiui, panagrinėkime frazę „ežys, dėvintis raudoną kepurę, geltonas pirštines, mėlynus marškinius ir žalias kelnes“. Norėdamas teisingai interpretuoti šį sakinį, DALL·E turi ne tik tinkamai sukomponuoti kiekvieną aprangos detalę su gyvūnu, bet ir suformuoti asociacijas (kepurė, raudona), (pirštinės, geltonos), (marškiniai, mėlyni) ir (kelnės, žalios) jų nesumaišydamas^C.

Tikriname DALL·E gebėjimą tai atlikti santykinio padėties nustatymo, objektų krovimo ir kelių atributų valdymo atvejais.

Įkeliama...

Nors DALL·E suteikia tam tikrą galimybę valdyti nedidelio skaičiaus objektų atributus ir pozicijas, sėkmės rodiklis gali priklausyti nuo to, kaip suformuluotas aprašas. Įvedus daugiau objektų, DALL·E yra linkusi painioti objektų ir jų spalvų sąsajas, todėl sėkmės rodiklis smarkiai krenta. Taip pat pastebime, kad DALL·E yra jautri aprašo performulavimui šiuose scenarijuose: alternatyvūs, semantiškai lygiaverčiai aprašai dažnai neduoda teisingų interpretacijų.

Perspektyvos ir trimačio vaizdo vizualizavimas

Nustatėme, kad DALL·E taip pat leidžia valdyti scenos žiūrėjimo tašką ir 3D stilių, kuriuo atvaizduojama scena.

Įkeliama...

Siekdami tai išplėtoti, tikriname DALL·E gebėjimą pakartotinai piešti gerai žinomos figūros galvą kiekvienu kampu iš vienodais intervalais išdėstytų kampų sekos ir nustatome, kad galime išgauti sklandžią besisukančios galvos animaciją.

Įkeliama...

Atrodo, kad DALL·E geba scenoms taikyti tam tikrus optinius iškraipymus, kaip matome pasirinkę „žuvies akies objektyvo vaizdą“ ir „sferinę panoramą“.a Tai mus paskatino ištirti jo gebėjimą generuoti atspindžius.

Įkeliama...

Vidinės ir išorinės struktūros vizualizavimas

Pavyzdžiai iš „itin stambaus plano“ ir „rentgeno“ stilių paskatino mus toliau tyrinėti DALL·E gebėjimą atvaizduoti vidinę struktūrą naudojant skerspjūvio vaizdus, o išorinę struktūrą – naudojant makrofotografijas.

Įkeliama...

Kontekstinių detalių numanymas

Teksto vertimo į vaizdus užduotis yra nepakankamai apibrėžta: vienas aprašas paprastai atitinka daugybę tikėtinų vaizdų, todėl vaizdas nėra vienareikšmiškai nulemtas. Pavyzdžiui, panagrinėkime aprašą „kapibaros, sėdinčios lauke tekant saulei, paveikslas“. Priklausomai nuo kapibaros padėties, gali prireikti nupiešti šešėlį, nors ši detalė niekada nėra tiesiogiai paminėta. Tiriame DALL·E gebėjimą spręsti nepakankamo apibrėžtumo problemą trimis atvejais: keičiant stilių, aplinką ir laiką; piešiant tą patį objektą įvairiose situacijose; ir generuojant objekto vaizdą su ant jo užrašytu konkrečiu tekstu.

Įkeliama...

DALL·E su įvairaus lygio patikimumu per natūralią kalbą suteikia prieigą prie dalies 3D generavimo variklio galimybių. Jis gali nepriklausomai valdyti nedidelio skaičiaus objektų atributus ir tam tikru mastu – jų kiekį bei išdėstymą vienas kito atžvilgiu. Taip pat galima valdyti vietą ir kampą, iš kurio atvaizduojama scena, bei generuoti žinomus objektus tiksliai laikantis nurodyto kampo ir apšvietimo sąlygų.

Skirtingai nei 3D generavimo variklis, kurio įvestys turi būti nurodytos vienareikšmiškai ir visiškai detaliai, DALL·E dažnai geba „užpildyti spragas“, kai aprašas suponuoja, kad vaizde turi būti tam tikra detalė, kuri nėra tiesiogiai įvardyta.

Ankstesnių gebėjimų taikymas

Toliau aptariame minėtų gebėjimų panaudojimą mados ir interjero dizainui.

Įkeliama...

Nesusijusių sąvokų derinimas

Kompozicinė kalbos prigimtis leidžia sujungti sąvokas aprašant tiek realius, tiek įsivaizduojamus dalykus. Pastebėjome, kad DALL·E taip pat geba derinti skirtingas idėjas ir sintetinti objektus, kurių dalis realiame pasaulyje vargu ar egzistuoja. Šį gebėjimą nagrinėjame dviem atvejais: perkeliant įvairių sąvokų savybes gyvūnams ir kuriant produktus pagal nesusijusias sąvokas.

Įkeliama...

Gyvūnų iliustracijos

Ankstesniame skyriuje nagrinėjome DALL·E gebėjimą derinti nesusijusias sąvokas generuojant realaus pasaulio objektų vaizdus. Čia šį gebėjimą tyrinėjame meno kontekste, kurdami trijų rūšių iliustracijas: sužmogintas gyvūnų ir objektų versijas, gyvūnų chimeras ir jaustukus.

Įkeliama...

Vizualinis samprotavimas be pavyzdžių

GPT‑3 galima nurodyti atlikti įvairias užduotis vien pagal aprašymą ir užuominą generuoti atsakymą, pateiktą raginime, be jokio papildomo mokymo. Pavyzdžiui, gavęs raginimą su fraze „štai sakinys „a person walking his dog in the park“, išverstas į prancūzų kalbą:“, „GPT‑3“ atsako „un homme qui promene son chien dans le pare“. Šis gebėjimas vadinamas samprotavimu be pavyzdžių.Nustatėme, kad DALL·E išplečia šį gebėjimą į vizualinę sritį ir gali atlikti kelių rūšių vaizdo vertimo į vaizdą užduotis, jei raginimas pateikiamas tinkamai.

Įkeliama...

Nesitikėjome, kad šis gebėjimas atsiras, ir neatlikome jokių neuroninio tinklo ar mokymo procedūros pakeitimų jam skatinti. Paskatinti šių rezultatų, matuojame DALL·E gebėjimą spręsti analoginio samprotavimo problemas, testuodami jį su Raveno progresyviosiomis matricomis – vizualiniu IQ testu, plačiai naudotu XX amžiuje.

Įkeliama...

Geografinės žinios

Nustatėme, kad DALL·E išmoko geografinių faktų, orientyrų ir informacijos apie rajonus. Jo žinios apie šias sąvokas tam tikrais aspektais yra stebėtinai tikslios, o kitais – ydingos.

Įkeliama...

Žinios apie laiką

Be DALL·E žinių apie erdvėje kintančias sąvokas, taip pat tiriame jo žinias apie laike kintančias sąvokas.

Įkeliama...

Metodo ir ankstesnių darbų santrauka

DALL·E yra paprastas tik dekoderio tipo transformerių modelis, priimantis tiek tekstą, tiek vaizdą kaip vieną 1 280 prieigos raktų srautą (256 skirti tekstui, 1 024 – vaizdui) ir modeliuojantis juos visus autoregresyviai. Dėmesio kaukė kiekviename iš 64 savidėmesio sluoksnių leidžia kiekvienam vaizdo prieigos raktui atsižvelgti į visus teksto prieigos raktus. Teksto prieigos raktams DALL·E naudoja standartinę priežastinę kaukę, o vaizdo prieigos raktams – retąjį dėmesį su eilutės, stulpelio arba konvoliucine dėmesio struktūra, atsižvelgiant į sluoksnį. Daugiau informacijos apie architektūrą ir mokymo procedūrą pateikiame savo straipsnyje⁠(atsidaro naujame lange).

Teksto pavertimo vaizdu sintezė yra aktyvi tyrimų sritis nuo novatoriško Reed ir kt. darbo¹, kuriame taikomas GAN modelis, sąlygojamas teksto įterpčių. Įterptis sukuria koduotuvas, iš anksto apmokytas naudojant kontrastinę netektį, panašiai kaip CLIP. „StackGAN“³ ir „StackGAN++“⁴ naudoja daugiamačius GAN modelius, kad padidintų vaizdo skiriamąją gebą ir pagerintų vizualinį tikslumą. „AttnGAN“⁵ įtraukia dėmesį tarp teksto ir vaizdo požymių bei pasiūlo kontrastinę teksto ir vaizdo požymių derinimo netektį kaip pagalbinį tikslą. Tai įdomu palyginti su mūsų atliekamu perrikiavimu naudojant CLIP, kuris vyksta neprisijungus. Kituose darbuose^{2, 6 ir 7} mokant įtraukiami papildomi priežiūros šaltiniai vaizdo kokybei gerinti. Galiausiai Nguyen ir kt. darbe⁸ bei Cho ir kt. darbe⁹ nagrinėjamos imčių atranka pagrįstos vaizdų generavimo strategijos, kuriose pasitelkiami iš anksto apmokyti multimodaliniai diskriminaciniai modeliai.

Panašiai kaip atmetimo atrankos atveju VQVAE-2⁠(atsidaro naujame lange) modelyje, mes naudojame CLIP⁠, kad perrikiuotume 32 geriausius iš 512 pavyzdžių kiekvienam aprašui visose interaktyviose vizualizacijose. Šią procedūrą taip pat galima vertinti kaip tam tikrą paiešką, valdomą kalbos¹⁶, ir ji gali turėti didelę įtaką pavyzdžių kokybei.

Įkeliama...

Pastabos

A
Prieigos raktas – tai bet koks simbolis iš diskretaus žodyno; žmonėms kiekviena anglų kalbos raidė yra prieigos raktas iš 26 raidžių abėcėlės. DALL·E žodyne yra tiek teksto, tiek vaizdo sąvokų prieigos raktų. Konkrečiau, kiekvienas vaizdo aprašas pateikiamas naudojant ne daugiau kaip 256 BPE koduotus prieigos raktus su 16 384 dydžio žodynu, o vaizdas pateikiamas naudojant 1 024 prieigos raktus su 8 192 dydžio žodynu.

Mokant vaizdai iš anksto apdorojami iki 256x256 skiriamosios gebos. Panašiai kaip VQVAE, kiekvienas vaizdas glaudinamas į diskrečių latentinių kodų 32x32 tinklelį naudojant diskrečiąją VAE, kurią iš anksto išmokėme naudodami tolydžiąją relaksaciją. Nustatėme, kad mokymas naudojant relaksaciją panaikina poreikį turėti aiškią kodų knygą, EMA nuostolį ar naudoti tokius triukus kaip negyvojo kodo atkūrimas, ir leidžia plėsti mastelį iki didelės apimties žodynų.