5. januar 2021.

DALL·E: Kreiranje slika iz teksta

Trenirali smo neuronsku mrežu pod nazivom DALL·E koja kreira slike iz tekstualnih opisa za širok spektar koncepata izražljivih na prirodnom jeziku.

Ilustracija: Justin Jay Wang

Učitavanje…

DALL·E je verzija sa 12 milijardi parametara GPT‑3⁠(otvara se u novom prozoru) trenirana da generira slike iz tekstualnih opisa, koristeći skup podataka parova tekst–slika. Otkrili smo da ima raznovrsne sposobnosti, uključujući kreiranje antropomorfizovanih verzija životinja i objekata, kombinovanje nepovezanih koncepata na uvjerljive načine, renderiranje teksta i primjenu transformacija na postojeće slike.

Vidi takođe: DALL·E 2⁠, koji generira realističnije i preciznije slike s 4x većom rezolucijom.

Učitavanje...

GPT‑3 je pokazao da se jezik može koristiti za instruiranje velike neuronske mreže da izvršava razne zadatke generisanja teksta. Image GPT⁠ pokazao je da se isti tip neuronske mreže može koristiti i za generiranje slika visoke vjernosti. Proširujemo ove nalaze kako bismo pokazali da je manipulacija vizualnim konceptima putem jezika sada moguća.

Pregled

Kao i GPT‑3, DALL·E je transformacijski jezički model. Prima i tekst i sliku kao jedinstveni tok podataka koji sadrži do 1280 tokena, te se trenira koristeći maksimalnu vjerovatnoću da generirati sve tokene, jedan za drugim. ^A

Ovaj postupak obuke omogućava DALL·E-u ne samo da generira sliku od nule, već i da regenerira bilo koji pravokutni dio postojeće slike koji se proteže do donjeg desnog ugla, na način koji je u skladu sa tekstualnim upitom.

Prepoznajemo da rad koji uključuje generativne modele ima potencijal za značajne i široke društvene uticaje. U budućnosti planiramo analizirati kako se modeli poput DALL·E odnose na društvena pitanja kao što su ekonomski uticaj na određene radne procese i profesije, potencijal za pristrasnost u rezultatima modela, te dugoročni etički izazovi koje ova tehnologija podrazumijeva.

Mogućnosti

Otkrili smo da DALL·E može kreirati uvjerljive slike za širok spektar rečenica koje istražuju kompozicijsku strukturu jezika. Ovo ilustriramo koristeći niz interaktivnih vizuala u sljedećem dijelu. Uzorke prikazane za svaki natpis u vizualima dobijamo uzimanjem prvih 32 od 512 nakon ponovnog rangiranja pomoću CLIP⁠, ali ne koristimo nikakvo ručno biranje, osim sličica i samostalnih slika koje se pojavljuju izvan.^B

Kontrolisanje atributa

Testiramo sposobnost DALL·E-a da mijenja nekoliko atributa objekta, kao i broj puta kada se on pojavljuje.

Učitavanje...

Crtanje više objekata

Istovremeno upravljanje višestrukim objektima, njihovim atributima i njihovim prostornim odnosima predstavlja novi izazov. Na primjer, razmotrite frazu “jež koji nosi crveni šešir, žute rukavice, plavu košulju i zelene hlače.” Da biste ispravno interpretirali ovu rečenicu, DALL·E mora ne samo ispravno sastaviti svaki komad odjeće sa životinjom, već i formirati asocijacije (šešir, crvena), (rukavice, žuta), (košulja, plava) i (pantalone, zelena) bez miješanja.

Testiramo sposobnost DALL·E-a da to učini za relativno pozicioniranje, slaganje objekata i kontrolu više atributa.

Učitavanje...

Iako DALL·E nudi određeni nivo kontrole nad atributima i pozicijama malog broja objekata, stopa uspjeha može zavisiti od načina na koji je natpis formulisan. Kako se uvodi više objekata, DALL·E je sklon zbunjivanju asocijacija između objekata i njihovih boja, a stopa uspjeha naglo opada. Također primjećujemo da je DALL·E krhak u pogledu preformulacije natpisa u ovim scenarijima: alternativni, semantički ekvivalentni natpisi često ne daju ispravne interpretacije.

Vizualiziranje perspektive i trodimenzionalnosti

Otkrili smo da DALL·E također omogućava kontrolu nad perspektivom scene i 3D stilom u kojem je scena renderovana.

Učitavanje...

Da bismo ovo dodatno unaprijedili, testiramo sposobnost DALL·E-a da više puta nacrta glavu poznate ličnosti iz svakog ugla iz niza jednako raspoređenih uglova, i otkrivamo da možemo dobiti glatku animaciju rotirajuće glave.

Učitavanje...

Čini se da DALL·E može primijeniti neke vrste optičkih izobličenja na scene, kao što vidimo s opcijama „pogled kroz fisheye objektiv" i „sferična panorama." Ovo nas je motivisalo da istražimo njegovu sposobnost generirati refleksije.

Učitavanje...

Vizualiziranje unutrašnje i vanjske strukture

Uzorci iz „ekstremnog krupnog plana” i „rendgenskog” stila naveli su nas da dodatno istražimo DALL·E-ovu sposobnost prikazivanja unutrašnje strukture kroz presječne prikaze i vanjske strukture kroz makro fotografije.

Učitavanje...

Zaključivanje kontekstualnih detalja

Zadatak prevođenja teksta u slike je nedovoljno preciziran: jedan natpis obično odgovara beskonačnom broju mogućih slika, tako da slika nije jedinstveno određena. Na primjer, razmotrite natpis "slika kapibare koja sjedi na polju pri izlasku sunca." Ovisno o orijentaciji kapibare, može biti potrebno nacrtati sjenu, iako se ovaj detalj nikada nije eksplicitno spomenut. Istražujemo sposobnost DALL·E-a da riješi nedovoljnu specifikaciju u tri slučaja: promjena stila, postavke i vremena; crtanje istog objekta u različitim situacijama; i generiranje slike objekta s određenim tekstom napisanim na njemu.

Učitavanje...

Sa različitim stepenima pouzdanosti, DALL·E omogućava pristup podskupu mogućnosti 3D renderiranja putem prirodnog jezika. Može samostalno kontrolirati atribute malog broja objekata, i do ograničeno stepena, koliko ih ima i kako su međusobno raspoređeni. Također može kontrolirati lokaciju i ugao iz kojeg je scena prikazana, te može generirati poznate objekte u skladu s preciznim specifikacijama ugla i uvjeta osvjetljenja.

Za razliku od 3D renderiranja, čiji unosi moraju biti specificirani nedvosmisleno i u potpunosti, DALL·E je često u stanju da „popuni praznine" kada opis implicira da slika mora sadržavati određeni detalj koji nije eksplicitno naveden.

Aplikacije prethodnih mogućnosti

Sljedeći ćemo istražiti upotrebu prethodnih mogućnosti za modu i dizajn enterijera.

Učitavanje...

Kombinovanje nepovezanih koncepata

Kompozicijska priroda jezika omogućava nam da sastavimo pojmove kako bismo opisali i stvarne i imaginarne stvari. Otkrili smo da DALL·E također ima sposobnost kombiniranja različitih ideja kako bi sintetizirao objekte, od kojih neki vjerovatno ne postoje u stvarnom svijetu. Istražujemo ovu sposobnost u dva slučaja: prenoseći kvalitete iz različitih koncepata na životinje i dizajniranje proizvoda inspirisano nepovezanim konceptima.

Učitavanje...

Ilustracije životinja

U prethodnom dijelu, istražili smo sposobnost DALL·E-a da kombinuje nepovezane koncepte prilikom generiranja slika stvarnih objekata. Ovdje istražujemo ovu sposobnost u kontekstu umjetnosti, za tri vrste ilustracija: antropomorfizirane verzije životinja i predmeta, životinjske himere i emodžije.

Učitavanje...

Zero-shot vizuelno rezonovanje

GPT‑3 se može uputiti da obavlja mnoge vrste zadataka samo na osnovu opisa i smjernice za generirati odgovor navedenog u svom upitu, bez dodatne obuke. Na primjer, kada se postavi upit sa frazom „evo rečenice 'osoba koja šeta svog psa u parku' prevedene na francuski:“, GPT‑3 odgovara „un homme qui promène son chien dans le parc.“ Ova sposobnost se naziva rezonovanje u nultom pokušaju. Otkrili smo da DALL·E proširuje ovu sposobnost na vizualnu domenu i može obavljati nekoliko vrsta zadataka prevođenja slike u sliku kada se pravilno upit.

Učitavanje...

Nismo očekivali da će se ova sposobnost pojaviti i nismo napravili nikakve izmjene na neuronskoj mreži ili postupku obuke kako bismo je potaknuli. Motivisani ovim rezultatima, mjerimo sposobnost DALL·E-a za analogijsko razmišljanje testiranjem na Ravenovim progresivnim matricama, vizualnom IQ testu koji je bio široko korišten u 20. stoljeću.

Učitavanje...

Geografsko znanje

Otkrili smo da je DALL·E naučio o geografskim činjenicama, znamenitostima i naseljima. Njegovo znanje o ovim konceptima je iznenađujuće precizno u nekim aspektima, a manjkavo u drugim.

Učitavanje...

Privremeno znanje

Pored istražiti DALL·E-ovog znanja o konceptima koji variraju u prostoru, takođe istražujemo njegovo znanje o konceptima koji variraju tokom vremena.

Učitavanje...

Sažetak pristupa i prethodnog rada

DALL·E je jednostavan dekoder-transformer koji prima i tekst i sliku kao jedan tok od 1280 tokena—256 za tekst i 1024 za sliku—i modelira ih sve autoregresivno. Maska pažnje na svakom od svojih 64 sloja samopozornosti omogućava svakom tokenu slike da obraća pažnju na sve tekstualne tokene. DALL·E koristi standardnu uzročnu masku za tekstualne tokene i rijetku pažnju za tokene slike s rednim, stupčastim ili konvolucijskim obrascem pažnje, ovisno o sloju. Više detalja o arhitekturi i postupku obuke možete pronaći u našem radu⁠(otvara se u novom prozoru).

Sinteza teksta u sliku je aktivno područje istraživanja od pionirskog rada Reeda i drugih. al, ¹ čiji pristup koristi GAN uslovljen tekstualnim ugradnjama. Ugrađivanja proizvodi koder unaprijed obučen koristeći kontrastni gubitak, slično kao CLIP. StackGAN³ i StackGAN++⁴ koriste višerazinske GAN-ove za povećanje rezolucije slike i poboljšanje vizualne vjernosti. AttnGAN⁵ uključuje pažnju između tekstualnih i slikovnih značajki, te predlaže kontrastni gubitak usklađivanja tekstualnih i slikovnih značajki kao pomoćni cilj. Ovo je zanimljivo uporediti s našim ponovnim rangiranjem pomoću CLIP-a, koje se obavlja offline. Drugi radovi^{2, 6 i 7} uključuju dodatne izvore nadzora tokom obuke kako bi se poboljšao kvalitet slike. Konačno, rad Nguyen i dr. al⁸ i Cho et al. al⁹ istražuje strategije zasnovane na uzorkovanju za generisanje slika koje koriste unaprijed obučene multimodalne diskriminativne modele.

Slično odbacivanju uzoraka korištenom u VQVAE-2⁠(otvara se u novom prozoru), koristimo CLIP⁠ za ponovno rangiranje 32 od 512 uzoraka za svaki natpis u svim interaktivnim vizuelima. Ovaj postupak se također može smatrati vrstom pretrage vođene jezikom¹⁶, i može imati dramatičan utjecaj na kvalitetu uzorka.

Učitavanje...

Fusnote

A
Token je bilo koji simbol iz diskretnog vokabulara; za ljude, svako englesko slovo je token iz abecede od 26 slova. DALL·E-ov vokabular sadrži tokene za tekstualne i slike koncepte. Konkretno, svaki opis slike je predstavljen koristeći maksimalno 256 BPE-kodiranih tokena s veličinom vokabulara od 16.384, a slika je predstavljena koristeći 1.024 tokena s veličinom vokabulara od 8.192.

Slike se unaprijed obrađuju na rezoluciju 256x256 tokom obuke. Slično kao VQVAE, svaka slika je komprimirana u mrežu od 32x32 diskretnih latentnih kodova koristeći diskretni VAE koji smo unaprijed obučili koristeći kontinuiranu relaksaciju. Otkrili smo da obuka korištenjem relaksacije uklanja potrebu za eksplicitnim kodeksom, EMA gubitkom ili trikovima poput oživljavanja mrtvog koda, te se može skalirati na velike veličine vokabulara.