Побољшане технике за тренирање модела конзистентности
Модели конзистентности су нова породица генеративних модела која може да генерише висококвалитетне податке у једном кораку без потребе за адверзаријалним тренирањем. Тренутни модели конзистентности постижу оптималан квалитет узорака дестилацијом из претходно тренираних дифузионих модела и применом научених метрика као што је LPIPS. Међутим, дестилација ограничава квалитет модела конзистентности на квалитет претходно тренираног дифузионог модела, а LPIPS изазива непожељну пристрасност у евалуацији. Да бисмо се изборили са овим изазовима, представљамо побољшане технике за тренирање конзистентности, где модели конзистентности уче директно из података без дестилације. Улазимо у теорију која стоји иза тренирања конзистентности и идентификујемо раније занемарен недостатак, који решавамо уклањањем експоненцијалног покретног просека из учитељског модела конзистентности. Да бисмо заменили научене метрике попут LPIPS-а, усвајамо Pseudo-Huber губитке из робусне статистике. Поред тога, уводимо логнормални распоред шума за циљ тренирања конзистентности и предлажемо удвостручавање укупног броја корака дискретизације након сваког одређеног броја итерација тренирања. У комбинацији са бољим подешавањем хиперпараметара, ове измене омогућавају моделима конзистентности да постигну FID резултате од 2.51 и 3.25 на CIFAR-10 и ImageNet 64×64, редом, у једном кораку узорковања. Ови резултати представљају побољшање од 3.5× и 4× у поређењу са ранијим приступима тренирању конзистентности. Уз узорковање у два корака, додатно смањујемо FID резултате на 2.24 и 2.77 на ова два скупа података, надмашујући оне добијене дестилацијом и у подешавањима са једним и са два корака, уз истовремено сужавање јаза између модела конзистентности и других најсавременијих генеративних модела.