Hijerarhijsko generisanje slika uslovljeno tekstom sa CLIP latentima

Pokazalo se da kontrastivni modeli kao što je CLIP uče robusne reprezentacije slika koje obuhvataju i semantiku i stil. Da bismo iskoristili ove reprezentacije za generisanje slika, predlažemo dvostepeni model: prior koji generiše CLIP ugnežđivanje slike na osnovu tekstualnog opisa i dekoder koji generiše sliku uslovljenu tim ugnežđivanjem slike. Pokazujemo da eksplicitno generisanje reprezentacija slika poboljšava raznovrsnost slika uz minimalan gubitak fotorealizma i sličnosti sa opisom. Naši dekoderi uslovljeni reprezentacijama slika mogu takođe da proizvode varijacije slike koje čuvaju i njenu semantiku i stil, uz menjanje nebitnih detalja koji nisu prisutni u reprezentaciji slike. Pored toga, zajednički prostor ugnežđivanja modela CLIP omogućava jezički vođene manipulacije slikama na bez pokusaja način. Za dekoder koristimo difuzione modele i eksperimentišemo i sa autoregresivnim i sa difuzionim modelima za prior, pri čemu nalazimo da su ovi drugi računarski efikasniji i daju uzorke višeg kvaliteta.


