Ir al contenido principal
OpenAI

20 de junio de 2024

Publicación

Técnicas mejoradas para entrenar modelos de consistencia

Cargando…

Los modelos de consistencia son una familia reciente de modelos generativos capaces de recoger muestras de datos de excelente calidad en un solo paso sin necesidad de entrenamiento adverso. Los modelos de consistencia actuales logran una calidad óptima de las muestras mediante la destilación de modelos de difusión entrenados previamente y el empleo de métricas aprendidas, como LPIPS. Sin embargo, con la destilación, la calidad de los modelos de consistencia depende de la del modelo de difusión entrenado previamente, y LPIPS provoca un sesgo no deseado en la evaluación. Para abordar estos desafíos, hemos desarrollado técnicas mejoradas para el entrenamiento de modelos de consistencia, mediante las que aprenden directamente de los datos sin destilación. En el artículo explicamos la teoría del entrenamiento de los modelos de consistencia, además de identificar un error que anteriormente se había pasado por alto y que hemos abordado eliminando la media móvil exponencial del modelo de consistencia maestro. Para sustituir las métricas aprendidas, como LPIPS, adoptamos pérdidas pseudo-Huber de estadísticas sólidas. Además, presentamos un esquema de ruido lognormal para el objetivo de entrenamiento de modelos de consistencia y proponemos duplicar los pasos de discretización cada X número establecido de iteraciones de entrenamiento. En combinación con un mejor ajuste de los hiperparámetros, estas modificaciones permiten que los modelos de consistencia alcancen puntuaciones FID de 2,51 y 3,25 en CIFAR-10 e ImageNet 64×64, respectivamente, en un solo paso de toma de muestras. Estas puntuaciones son 3,5 y 4 veces mejores en comparación con las obtenidas con los métodos de entrenamiento de consistencia anteriores. Mediante una toma de muestras en dos pasos, reducimos aún más las puntuaciones FID ―a 2,24 y 2,77― en estos dos conjuntos de datos, superando las obtenidas mediante destilación en configuraciones de un solo paso y de dos pasos, al tiempo que reducimos la brecha entre los modelos de consistencia y otros modelos generativos de última generación.

Autores

Yang Song y Prafulla Dhariwal