Пређите на главни садржај
OpenAI

13. април 2022.

Публикација

Hijerarhijsko generisanje slika uslovljeno tekstom sa CLIP latentima

Hijerarhijsko generisanje slika uslovljeno tekstom sa CLIP latentima
Учитавање…

Sažetak

Pokazalo se da kontrastivni modeli kao što je CLIP uče robusne reprezentacije slika koje obuhvataju i semantiku i stil. Da bismo iskoristili ove reprezentacije za generisanje slika, predlažemo dvostepeni model: prior koji generiše CLIP ugnežđivanje slike na osnovu tekstualnog opisa i dekoder koji generiše sliku uslovljenu tim ugnežđivanjem slike. Pokazujemo da eksplicitno generisanje reprezentacija slika poboljšava raznovrsnost slika uz minimalan gubitak fotorealizma i sličnosti sa opisom. Naši dekoderi uslovljeni reprezentacijama slika mogu takođe da proizvode varijacije slike koje čuvaju i njenu semantiku i stil, uz menjanje nebitnih detalja koji nisu prisutni u reprezentaciji slike. Pored toga, zajednički prostor ugnežđivanja modela CLIP omogućava jezički vođene manipulacije slikama na bez pokusaja način. Za dekoder koristimo difuzione modele i eksperimentišemo i sa autoregresivnim i sa difuzionim modelima za prior, pri čemu nalazimo da su ovi drugi računarski efikasniji i daju uzorke višeg kvaliteta.

Autori

Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu и Mark Chen