5. januára 2021

DALL·E: Vytváranie obrázkov z textu

Vytrénovali sme neurálnu sieť s názvom DALL·E, ktorá vytvára obrázky z textových popisov pre širokú škálu konceptov vyjadriteľných v prirodzenom jazyku.

Ilustrácia: Justin Jay Wang

Načítava sa…

DALL·E je verzia GPT‑3⁠(otvorí sa v novom okne) s 12 miliardami parametrov, trénovaná na generovanie obrázkov z textových opisov pomocou dátového súboru párov text–obrázok. Zistili sme, že má rôznorodú sadu schopností, vrátane vytvorenia antropomorfizovaných verzií zvierat a objektov, kombinovania nesúvisiacich konceptov vierohodným spôsobom, vykresľovania textu a aplikovania transformácií na existujúce obrázky.

Pozrite tiež: DALL·E 2⁠, ktorý generuje realistickejšie a presnejšie obrázky so štvornásobne väčším rozlíšením.

Načítava sa...

GPT‑3 ukázal, že jazyk môže byť použitý na inštruovanie veľkej neurálnej siete na vykonávanie rôznych úloh generovania textu. Image GPT⁠ ukázal, že rovnaký typ neurálnej siete môže byť použitý aj na generovanie obrázkov s vysokou vernosťou. Tieto zistenia rozširujeme, aby sme ukázali, že manipulácia s vizuálnymi konceptmi prostredníctvom jazyka je teraz na dosah.

Prehľad

Rovnako ako GPT‑3, aj DALL·E je transformerový jazykový model. Prijíma text aj obrázok ako jeden prúd dát obsahujúci až 1280 tokenov a je trénovaný pomocou maximálnej pravdepodobnosti na generovanie všetkých tokenov, jeden po druhom. ^A

Tento tréningový postup umožňuje DALL·E nielen generovať obrázok od nuly, ale aj regenerovať akúkoľvek obdĺžnikovú oblasť existujúceho obrázka, ktorá sa rozširuje do pravého dolného rohu, spôsobom, ktorý je konzistentný s textovým príkazom.

Uznávame, že práca zahŕňajúca generatívne modely má potenciál na významné a široké spoločenské dopady. V budúcnosti tarifa analyzovať, ako modely ako DALL·E súvisia so spoločenskými otázkami, ako je ekonomický dopad na určité pracovné procesy a profesie, potenciál zaujatosti vo výstupoch modelu a dlhodobé etické výzvy, ktoré táto technológia prináša.

Funkcie

Zistili sme, že DALL·E dokáže vytvoriť vierohodné obrázky pre širokú škálu viet, ktoré skúmajú kompozičnú štruktúru jazyka. Toto ilustrujeme pomocou série interaktívnych vizuálov v ďalej časti. Vzorky zobrazené pre každý titulok vo vizuáloch sú získané výberom najlepších 32 z 512 po opätovnom zoradení pomocou CLIP⁠, ale nepoužívame žiadne manuálne vyberanie, okrem miniatúr a samostatných obrázkov, ktoré sa objavujú mimo.^B

Riadenie atribútov

Testujeme schopnosť systému DALL·E modifikovať niekoľko atribútov objektu, ako aj počet jeho zobrazení.

Načítava sa...

Kreslenie viacerých objektov

Súčasné ovládanie viacerých objektov, ich atribútov a ich priestorových vzťahov predstavuje novú výzvu. Napríklad si vezmime vetu „ježko, ktorý má na sebe červený klobúk, žlté rukavice, modrú košeľu a zelené nohavice.“ Aby DALL·E správne interpretoval túto vetu, musí nielen správne skombinovať každý kus oblečenia so zvieraťom, ale tiež vytvoriť asociácie (klobúk, červená), (rukavice, žltá), (košeľa, modrá) a (nohavice, zelená) bez ich pomiešania ^C

Testujeme schopnosť DALL·E vykonávať úlohy týkajúce sa relatívneho umiestnenia, stohovania objektov a ovládania viacerých atribútov.

Načítava sa...

Hoci DALL·E ponúka určitú mieru kontroly nad atribútmi a pozíciami malého počtu objektov, miera úspešnosti môže závisieť od toho, ako je titulok formulovaný. Keď sa zavádza viac objektov, DALL·E má tendenciu zamieňať asociácie medzi objektmi a ich farbami a miera úspešnosti prudko klesá. Tiež si všímame, že DALL·E je krehký, pokiaľ ide o preformulovanie titulku v týchto scenároch: alternatívne, sémanticky ekvivalentné titulky často nevedú k správnym interpretáciám.

Vizualizácia perspektívy a trojrozmernosti

Zistili sme, že DALL·E tiež umožňuje kontrolu nad pohľadom na scénu a 3D štýlom, v ktorom je scéna vykreslená.

Načítava sa...

Aby sme to posunuli ďalej, testujeme schopnosť DALL·E opakovane kresliť hlavu známej osobnosti z každého uhla zo sekvencie rovnomerne rozložených uhlov a zistíme, že dokážeme získať plynulú animáciu rotujúcej hlavy.

Načítava sa...

Zdá sa, že DALL·E dokáže aplikovať niektoré typy optických skreslení na scény, ako vidíme pri možnostiach „pohľad cez rybie oko“ a „sférická panoráma“. Toto nás motivovalo skúmať jeho schopnosť generovať úvahy.

Načítava sa...

Vizualizácia vnútornej a vonkajšej štruktúry

Vzorky z „extrémne detailného pohľadu“ a štýlu „röntgen“ nás viedli k ďalšiemu skúmať schopnosť DALL·E vykresliť vnútornú štruktúru pomocou priečnych rezov a vonkajšiu štruktúru pomocou makrofotografií.

Načítava sa...

Odvodzovanie kontextových detailov

Úloha prekladu textu na obrázky je nedostatočne špecifikovaná: jeden popis zvyčajne zodpovedá nekonečnému množstvu možných obrázkov, takže obrázok nie je stanovený jednoznačne. Napríklad zvážte titulok „maľba kapybary sediacej na poli pri východe slnka.“ V závislosti od orientácie kapybary môže byť potrebné nakresliť tieň, aj keď tento detail nie je nikdy výslovne uvedený. Skúmame schopnosť DALL·E riešiť nešpecifikovanosť v troch prípadoch: zmena štýlu, prostredia a času; kreslenie toho istého objektu v rôznych situáciách; a generovanie obrázka objektum, na ktorom je napísaný konkrétny text.

Načítava sa...

S rôznou mierou spoľahlivosti poskytuje DALL·E prístup k časti schopností 3D renderovacieho enginu prostredníctvom prirodzeného jazyka. Môže nezávisle ovládať atribúty malého počtu objektov a do obmedzenej miery aj to, koľko ich je a ako sú usporiadané vo vzájomnom vzťahu. Môže tiež ovládať polohu a uhol, z ktorého je scéna vykreslená, a môže generovať známe objekty v súlade s presnými špecifikáciami uhla a svetelných podmienok.

Na rozdiel od 3D vykresľovacieho enginu, ktorého vstupy musia byť špecifikované jednoznačne a v úplných detailoch, DALL·E často dokáže „vyplniť medzery“, keď popis naznačuje, že obrázok musí obsahovať určitý detail, ktorý nie je explicitne uvedený.

Aplikácie predchádzajúcich funkcií

Ďalej skúmame využitie predchádzajúcich schopností pre módu a interiérový dizajn.

Načítava sa...

Kombinovanie nesúvisiacich konceptov.

Kompozičná povaha jazyka nám umožňuje spájať koncepty na opis skutočných aj imaginárnych vecí. Zistili sme, že DALL·E má tiež schopnosť kombinovať rôznorodé nápady na syntézu objektov, z ktorých niektoré pravdepodobne neexistujú v skutočnom svete. Skúmame túto schopnosť v dvoch prípadoch: prenos kvalít z rôznych konceptov na zvieratá a navrhovanie produktov inšpirovaných nesúvisiacimi konceptmi.

Načítava sa...

Ilustrácie zvierat

V predchádzajúcej časti sme skúmali schopnosť DALL·E generovať nesúvisiace koncepty pri generovaní obrázkov reálnych objektov. Tu skúmame túto schopnosť v kontexte umenia pre tri druhy ilustrácií: antropomorfizované verzie zvierat a objektov, zvieracie chiméry a emoji.

Načítava sa...

Vizuálne uvažovanie zero-shot

GPT‑3 môže mať pokyny, aby vykonával mnoho druhov úloh iba na základe opisu a podnetu na generovanie odpovede, uvedenej v jeho príkaze, bez akéhokoľvek ďalšieho tréningu. Napríklad, keď je GPT‑3 vyzvaný výrazom „tu je veta 'osoba, ktorá venčí svojho psa v parku‘ preložená do francúzštiny:“, odpovie „un homme qui promène son chien dans le parc.“ Táto schopnosť sa nazýva zero-shot uvažovanie. Zistili sme, že DALL·E rozširuje túto schopnosť do vizuálnej oblasti a je schopný vykonávať niekoľko druhov úloh obrázok na obrázok, keď je správne vyzvaný príkazom.

Načítava sa...

Neočakávali sme, že sa táto schopnosť objaví, a neurobili sme žiadne úpravy neurálnej siete ani tréningového postupu, aby sme ju podporili. Motivovaní týmito výsledkami meriame schopnosť DALL·E riešiť problémy analogického uvažovania tým, že ho testujeme na Ravenových progresívnych maticiach, vizuálnom IQ teste, ktorý bol široko používaný v 20. storočí.

Načítava sa...

Geografické znalosti

Zistili sme, že DALL·E sa naučil o geografických faktoch, pamiatkach a štvrtiach. Jeho znalosti o týchto konceptoch sú prekvapivo presné v niektorých ohľadoch a nedokonalé v iných.

Načítava sa...

Dočasné znalosti

Okrem skúmania znalostí DALL·E o konceptoch, ktoré sa líšia v priestore, skúmame aj jeho znalosti o konceptoch, ktoré sa menia v čase.

Načítava sa...

Súhrn prístupu a predchádzajúcej práce

DALL·E je jednoduchý dekodérový transformer, ktorý prijíma text aj obrázok ako jeden prúd 1280 tokenov – 256 tokenov pre text a 1024 tokenov pre obrázok – a modeluje ich všetky autoregresívne. Maska pozornosti v každej zo 64 vrstiev „samopozornosti“ umožňuje sústredenie každého tokenu obrázka na všetky textové tokeny. DALL·E používa štandardnú kauzálnu masku pre textové tokeny a sporadickú pozornosť pre tokeny obrázkov s buď riadkovým, stĺpcovým alebo konvolučným vzorom pozornosti, v závislosti od vrstvy. Poskytujeme viac podrobností o architektúre a tréningovom postupe v našom dokumente⁠(otvorí sa v novom okne).

Syntéza „z textu na obrázok“ je aktívnou oblasťou výskumu vychádzajúca z priekopníckej práce Reeda a kol. ,¹ ktorého prístup využíva GAN, podmienený textovými vloženiami. Vstupy sú produkované kódovačom, ktorý bol predtrénovaný pomocou kontrastnej straty, podobne ako CLIP. StackGAN³ a StackGAN++⁴ používajú multi-škálové GANy na zvýšenie rozlíšenia obrázka a zlepšenie vizuálnej presnosti. AttnGAN⁵ zahŕňa pozornosť medzi textovými a obrázkovými prvkami a navrhuje kontrastnú stratu zladenia textovo-obrázkových prvkov ako pomocný cieľ. Je zaujímavé porovnať to s naším preusporiadaním pomocou CLIP, ktoré sa vykonáva offline. Iné práce^{2, 6 a 7} zahŕňajú ďalšie zdroje dohľadu počas tréningu na zlepšenie kvality obrazu. Nakoniec, práca od Nguyen a kol. ⁸ a Cho a kol. ⁹, skúma stratégie založené na vzorkovaní pre generovanie obrázkov, ktoré využívajú predtrénované multimodálne diskriminačné modely.

Podobne ako pri odmietacom vzorkovaní používanom v VQVAE-2⁠(otvorí sa v novom okne), používame CLIP⁠ na opätovné zoradenie najlepších 32 z 512 vzoriek pre každý popis vo všetkých interaktívnych vizuáloch. Tento postup možno tiež považovať za druh jazykovo riadeného vyhľadávania¹⁶, a môže mať dramatický vplyv na kvalitu vzorky.

Načítava sa...

Poznámky pod čiarou

A
Token je akýkoľvek symbol z diskrétnej slovnej zásoby; pre ľudí je každé anglické písmeno tokenom z 26-písmennej abecedy. Slovník DALL·E obsahuje tokeny pre textové aj obrázkové koncepty. Konkrétne, každý popis obrázka je reprezentovaný pomocou maximálne 256 BPE-kódovaných tokenov s veľkosťou slovníka 16 384, a obrázok je reprezentovaný pomocou 1 024 tokenov s veľkosťou slovníka 8 192.

Obrázky sú počas tréningu predspracované na rozlíšenie 256x256. Podobne ako VQVAE, každý obrázok je komprimovaný do 32x32 mriežky diskrétnych latentných kódov pomocou diskrétneho VAE, ktorý sme predtrénovali pomocou kontinuálneho uvoľnenia. Zistili sme, že tréning pomocou relaxácie eliminuje potrebu explicitného kódového zoznamu, EMA straty alebo trikov, ako je oživenie mŕtveho kódu, a môže sa škálovať až na veľké veľkosti slovníka.