Modeli konzistentnosti

Difuzioni modeli su značajno unapredili oblasti generisanja slika, zvuka i videa, ali zavise od iterativnog procesa uzorkovanja koji usporava generisanje. Da bismo prevazišli ovo ograničenje, predlažemo modele konzistentnosti, novu porodicu modela koja generiše uzorke visokog kvaliteta direktnim mapiranjem šuma u podatke. Oni po dizajnu podržavaju brzo generisanje u jednom koraku, a istovremeno omogućavaju i višekoračno uzorkovanje radi zamene računarskih resursa za kvalitet uzoraka. Takođe podržavaju bez pokusaja uređivanje podataka, kao što su dopunjavanje slike, kolorizacija i super-rezolucija, bez potrebe za eksplicitnim obučavanjem za ove zadatke. Modeli konzistentnosti mogu da se obučavaju ili destilacijom unapred obučenih difuzionih modela, ili u potpunosti kao samostalni generativni modeli. Kroz opsežne eksperimente pokazujemo da nadmašuju postojeće tehnike destilacije za difuzione modele pri uzorkovanju u jednom i nekoliko koraka, postižući novi najsavremeniji FID od 3.55 na CIFAR-10 i 6.20 na ImageNet 64x64 za generisanje u jednom koraku. Kada se obučavaju izolovano, modeli konzistentnosti postaju nova porodica generativnih modela koja može da nadmaši postojeće jednokoračne, neadverzarijalne generativne modele na standardnim reperima kao što su CIFAR-10, ImageNet 64x64 i LSUN 256x256.

Modeli konzistentnosti

Autori