Técnicas mejoradas para entrenar modelos de consistencia
Los modelos de consistencia son una familia incipiente de modelos generativos que pueden tomar muestras de datos de alta calidad en un paso sin necesidad de entrenamiento contradictorio. Los modelos de consistencia actuales logran una calidad de muestreo óptima al condensar de modelos de difusión entrenados previamente y emplear métricas aprendidas como LPIPS. Sin embargo, la condensación limita la calidad de los modelos de consistencia a aquella del modelo de difusión entrenado previamente y la similitud de parches de imagen perceptuales aprendidos (LPIPS) causa sesgos indeseados en la evaluación. Para sortear estos desafíos, presentamos técnicas mejoradas para el entrenamiento de consistencia, donde los modelos de consistencia aprenden directamente a partir de datos sin condensación. Indagamos en la teoría detrás del entrenamiento de consistencia e identificamos un defecto previamente desapercibido, el que abordamos al eliminar el promedio de movimiento exponencial del modelo de consistencia maestro. Para reemplazar las métricas como LPIPS, adoptamos pérdidas de seudo-Huber de estadística sólida. Asimismo, presentamos un cronograma de ruido de distribución lognormal para el objetivo de entrenamiento de consistencia y propusimos duplicar los pasos de discretización total cada número establecido de iteraciones de entrenamiento. Combinadas con mejores ajustes de hiperparámetros, estas modificaciones permiten modelos de consistencia para lograr puntuaciones FID de 2,51 y 3,25 en CIFAR-10 e ImageNet 64 × 64 respectivamente en un paso de muestreo único. Estas puntuaciones marcan una mejora de entre 3,5 y 4 veces en comparación con enfoques de entrenamiento de consistencia previos. Mediante el muestreo de dos pasos, reducimos las puntuaciones FID entre 2,24 y 2,77 en estos dos conjuntos de datos, lo que supera a aquellas obtenidas mediante destilación en entornos de un paso y dos pasos mientras achicamos la brecha entre los modelos de consistencia y otros modelos generativos de última generación.