Modelos de consistencia

Los modelos de difusión han hecho progresar significativamente los campos de generación de imagen, audio y video, pero dependen de un proceso de muestreo iterativo que provoca una generación lenta. Para superar esta limitación, proponemos modelos de consistencia, una nueva familia de modelos que genera muestras de alta calidad asignando directamente ruido a los datos. Por diseño, apoyan la generación rápida de un paso, pero siguen admitiendo el muestreo de varios pasos para cambiar cálculo por calidad de la muestra. También respaldan la edición de datos zero-shot, como inpainting, colorización y superresolución de imágenes, sin necesidad de entrenamiento explícito para esas tareas. Los modelos de consistencia se pueden entrenar mediante la destilación de modelos de difusión preentrenados o como modelos generativos completamente independientes. A través de exhaustivos experimentos, demostramos que superan a las técnicas de destilación existentes para modelos de difusión en muestreos de un paso o pocos pasos, y logra el nuevo FID vanguardista de 3.55 en CIFAR-10 y 6.20 en ImageNet 64x64 para la generación de un solo paso. Cuando se entrenan en forma aislada, los modelos de consistencia se convierten en una nueva familia de modelos generativos que pueden superar a los modelos generativos actuales de un paso y no adversarios en comparaciones estándar como CIFAR-10, ImageNet 64x64 y LSUN 256x256.

Modelos de consistencia

Autores