Generació d'imatges jeràrquica condicionada per text amb latents de CLIP

S'ha demostrat que els models contrastius com CLIP aprenen representacions robustes d'imatges que capturen tant la semàntica com l'estil. Per aprofitar aquestes representacions per a la generació d'imatges, proposem un model de dues etapes: un model previ que genera una incrustació d'imatge CLIP a partir d'un peu de foto de text, i un descodificador que genera una imatge condicionada per la incrustació d'imatge. Mostrem que generar explícitament representacions d'imatge millora la diversitat d'imatges amb una pèrdua mínima de fotorealisme i similitud amb el peu de foto. Els nostres descodificadors condicionats per representacions d'imatge també poden produir variacions d'una imatge que en preserven tant la semàntica com l'estil, mentre varien els detalls no essencials absents de la representació d'imatge. A més, l'espai conjunt d'incrustacions de CLIP permet manipulacions d'imatges guiades pel llenguatge de manera sense exemples. Utilitzem models de difusió per al descodificador i experimentem tant amb models autoregressius com de difusió per al model previ, i trobem que aquests últims són computacionalment més eficients i produeixen mostres de més qualitat.

Generació d'imatges jeràrquica condicionada per text amb latents de CLIP

Resum

Autors

Articles relacionats