Models de consistència

Els models de difusió han fet avançar significativament els camps de la generació d’imatges, àudio i vídeo, però depenen d’un procés de mostreig iteratiu que provoca una generació lenta. Per superar aquesta limitació, proposem els models de consistència, una nova família de models que generen mostres d’alta qualitat mapant directament el soroll a dades. Admeten una generació ràpida en un sol pas per disseny, tot i que també permeten un mostreig de diversos passos per intercanviar còmput per qualitat de mostra. També admeten l’edició de dades sense exemples, com ara l’ompliment d’imatges, la colorització i la superresolució, sense requerir entrenament explícit en aquestes tasques. Els models de consistència es poden entrenar tant destil·lant models de difusió preentrenats com com a models generatius independents. Mitjançant experiments extensos, demostrem que superen les tècniques de destil·lació existents per a models de difusió en el mostreig d’un i pocs passos, assolint el nou estat de l’art en FID de 3.55 a CIFAR-10 i 6.20 a ImageNet 64x64 per a la generació en un sol pas. Quan s’entrenen de manera aïllada, els models de consistència esdevenen una nova família de models generatius que poden superar els models generatius no adversaris existents d’un sol pas en punts de referència estàndard com CIFAR-10, ImageNet 64x64 i LSUN 256x256.

Models de consistència

Autors