Tècniques millorades per entrenar models de consistència
Els models de consistència són una família emergent de models generatius que poden mostrejar dades d'alta qualitat en un sol pas sense necessitat d'entrenament adversari. Els models de consistència actuals aconsegueixen una qualitat de mostra òptima mitjançant la destil·lació a partir de models de difusió preentrenats i l'ús de mètriques apreses com ara LPIPS. Tanmateix, la destil·lació limita la qualitat dels models de consistència a la del model de difusió preentrenat, i LPIPS provoca un biaix no desitjat en l'avaluació. Per afrontar aquests reptes, presentem tècniques millorades per a l'entrenament de consistència, en què els models de consistència aprenen directament de les dades sense destil·lació. Aprofundim en la teoria que hi ha darrere de l'entrenament de consistència i identifiquem un defecte fins ara passat per alt, que abordem eliminant l'Exponential Moving Average del model de consistència professor. Per substituir mètriques apreses com LPIPS, adoptem les pèrdues Pseudo-Huber de l'estadística robusta. A més, introduïm una programació de soroll lognormal per a l'objectiu d'entrenament de consistència, i proposem duplicar el nombre total de passos de discretització cada cert nombre d'iteracions d'entrenament. Combinades amb un millor ajust dels hiperparàmetres, aquestes modificacions permeten als models de consistència assolir puntuacions FID de 2.51 i 3.25 a CIFAR-10 i ImageNet 64×64, respectivament, en un únic pas de mostreig. Aquestes puntuacions representen una millora de 3.5× i 4× en comparació amb enfocaments previs d'entrenament de consistència. Mitjançant un mostreig de dos passos, reduïm encara més les puntuacions FID fins a 2.24 i 2.77 en aquests dos conjunts de dades, superant les obtingudes mitjançant destil·lació tant en configuracions d'un pas com de dos passos, alhora que es redueix la distància entre els models de consistència i altres models generatius d'última generació.