Диффузиялық модельдер кескін, аудио және видео генерациясы салаларын едәуір ілгерілетті, бірақ олар генерацияны баяулататын итеративті іріктеу үдерісіне тәуелді. Бұл шектеуді еңсеру үшін біз шуды тікелей деректерге түрлендіру арқылы жоғары сапалы үлгілер жасайтын модельдердің жаңа тобын — consistency модельдерін ұсынамыз. Олар құрылымы бойынша жылдам бір қадамды генерацияны қолдайды, сонымен қатар есептеу ресурстарын үлгі сапасына айырбастау үшін көп қадамды іріктеуге де мүмкіндік береді. Сондай-ақ олар бұл міндеттерге арнайы оқытуды қажет етпей, кескінді толықтыру, бояулау және супер-айқындығын арттыру сияқты мысалсыз деректерді өңдеуді қолдайды. Consistency модельдерін алдын ала үйретілген диффузиялық модельдерді дистилляциялау арқылы да, не толықтай дербес генеративті модельдер ретінде де үйретуге болады. Ауқымды эксперименттер арқылы біз олардың бір және бірнеше қадамды іріктеуде диффузиялық модельдерге арналған қолданыстағы дистилляция тәсілдерінен асып түсетінін көрсетеміз: бір қадамды генерацияда CIFAR-10 бойынша 3.55 және ImageNet 64x64 бойынша 6.20 жаңа үздік FID нәтижесіне қол жеткізді. Оқшау үйретілген кезде consistency модельдері CIFAR-10, ImageNet 64x64 және LSUN 256x256 сияқты стандартты бенчмарктерде қолданыстағы бір қадамды, қарсыласпайтын генеративті модельдерден асып түсетін генеративті модельдердің жаңа тобына айналады.
Жүктелуде…
Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever