Generación jerárquica de imágenes condicionada por texto basada en latentes de CLIP

Se ha demostrado que los modelos contrastivos como CLIP son capaces de aprender representaciones fiables de imágenes que capturan tanto la semántica como el estilo. Para sacar partido a estas representaciones en la generación de imágenes, proponemos un modelo en dos fases. Primero, un modelo previo que genera una incrustación de una imagen CLIP a partir de un pie de foto y, luego, un descodificador que genera una imagen en función del contenido de esa incrustación. Demostramos que generar representaciones de imágenes explícitamente mejora la diversidad de imágenes, sin apenas repercusiones en el fotorrealismo y la similitud de la descripción. Asimismo, nuestros descodificadores condicionados por representaciones imágenes pueden producir variaciones de esta que conserven tanto el estilo como la semántica. Y todo ello a la vez que modifican los detalles no esenciales que están ausentes en la representación de la imagen. De hecho, el espacio de incrustación conjunta de CLIP permite manipular imágenes al guiarlas con el lenguaje al estilo zero-shot. Usamos modelos de difusión para el descodificador y experimentamos tanto con modelos autorregresivos como con modelos de difusión, con lo que hemos descubierto que estos últimos son más eficientes a nivel computacional y producen muestras de mejor calidad.

Generación jerárquica de imágenes condicionada por texto basada en latentes de CLIP

Resumen

Autores

Artículos relacionados