Generación jerárquica de imágenes condicionada por texto basada en latentes de CLIP

Se ha demostrado que los modelos contrastivos como CLIP aprenden representaciones sólidas de imágenes que capturan la semántica y el estilo. A fin de aprovechar estas representaciones para la generación de imágenes, proponemos un modelo de dos etapas: una previa que genera una incrustación de imagen CLIP a partir de una descripción y un decodificador que genera una imagen condicionada a dicha incrustación. Demostramos que la generación explícita de representaciones visuales mejora la diversidad de las imágenes con una pérdida mínima en fotorrealismo y similitud con las descripciones. Nuestros decodificadores condicionados a representaciones visuales también pueden producir variaciones de una imagen que conserven su semántica y estilo, a la vez que varían los detalles no esenciales que están ausentes en la representación visual. Asimismo, el espacio de incrustación conjunta de CLIP permite manipulaciones de la imagen guiadas por lenguaje de una manera zero-shot. Usamos modelos de difusión para el decodificador y experimentamos con modelos autorregresivos y de difusión para la etapa previa; descubrimos que este último es más eficiente en términos de informática y produce muestras de mayor calidad.