Modelos de consistencia

Los ámbitos de la generación de imágenes, audio y vídeo han avanzado notablemente gracias a los modelos de difusión. Sin embargo, dichos modelos se basan en un proceso de muestreo iterativo que ralentiza el proceso de generación. Para superar esta limitación, proponemos los modelos de consistencia, una nueva familia de modelos que generan muestras de alta calidad al asignar el ruido directamente a los datos. Estos modelos consiguen generar imágenes de alta calidad en un solo paso, aunque también admiten el proceso iterativo para obtener imágenes de gran calidad empleando el máximo de recursos computacionales. Asimismo, permiten la edición de datos en zero-shot, como el inpainting, la coloración y la superresolución, sin necesidad de entrenamiento específico para estas tareas. Los modelos de consistencia pueden entrenarse bien «destilando» modelos de difusión preentrenados, bien como modelos generativos independientes. A raíz de un estudio exhaustivo, demostramos que las nuevas técnicas de destilación superan a las de los modelos de difusión en la generación en un solo paso y en pocos pasos, y alcanzan unos resultados excepcionales según la métrica FID de 3,55 en CIFAR-10 y 6,20 en ImageNet 64x64 (en la generación en un solo paso). Cuando se entrenan de forma aislada, los modelos de consistencia se convierten en una nueva familia de modelos generativos que llegan a superar a los modelos generativos no antagónicos de un solo paso actuales en valores de referencia estándar, como CIFAR-10, ImageNet 64x64 y LSUN 256x256.

Modelos de consistencia

Autores