CLIP латенттерімен иерархиялық мәтін-шартты суретті генерациялау

CLIP сияқты контрастивті модельдердің семантика мен стильді қатар қамтитын кескіндердің орнықты ұсынылымдарын үйренетіні көрсетілді. Осы ұсынылымдарды суретті генерациялау үшін пайдалану мақсатында біз екі кезеңді модель ұсынамыз: мәтіндік сипаттама берілгенде CLIP кескін эмбеддингін генерациялайтын prior және кескін эмбеддингіне шартталған сурет генерациялайтын декодер. Кескін ұсынылымдарын айқын генерациялау фотореализм мен сипаттамаға ұқсастықтың аз ғана жоғалуымен сурет алуандығын жақсартатынын көрсетеміз. Кескін ұсынылымдарына шартталған декодерлеріміз сондай-ақ кескін ұсынылымында жоқ маңызды емес бөлшектерді өзгерте отырып, суреттің семантикасы мен стилін сақтайтын нұсқаларын жасай алады. Бұдан бөлек, CLIP-тің ортақ эмбеддинг кеңістігі тілмен басқарылатын сурет өңдеулерін мысалсыз түрде орындауға мүмкіндік береді. Біз декодер үшін диффузиялық модельдерді қолданамыз және prior үшін де авторегрессиялық әрі диффузиялық модельдерді сынаймыз; нәтижесінде соңғылары есептеу тұрғысынан тиімдірек және сапасы жоғарырақ үлгілер беретінін анықтадық.

CLIP латенттерімен иерархиялық мәтін-шартты суретті генерациялау

Аңдатпа

Авторлар

Қатысты мақалалар