Негізгі мазмұнға өту
OpenAI

2022 ж. 13 сәуір

Жарияланым

CLIP латенттерімен иерархиялық мәтін-шартты суретті генерациялау

CLIP латенттерімен иерархиялық мәтін-шартты суретті генерациялау
Жүктелуде…

Аңдатпа

CLIP сияқты контрастивті модельдердің семантика мен стильді қатар қамтитын кескіндердің орнықты ұсынылымдарын үйренетіні көрсетілді. Осы ұсынылымдарды суретті генерациялау үшін пайдалану мақсатында біз екі кезеңді модель ұсынамыз: мәтіндік сипаттама берілгенде CLIP кескін эмбеддингін генерациялайтын prior және кескін эмбеддингіне шартталған сурет генерациялайтын декодер. Кескін ұсынылымдарын айқын генерациялау фотореализм мен сипаттамаға ұқсастықтың аз ғана жоғалуымен сурет алуандығын жақсартатынын көрсетеміз. Кескін ұсынылымдарына шартталған декодерлеріміз сондай-ақ кескін ұсынылымында жоқ маңызды емес бөлшектерді өзгерте отырып, суреттің семантикасы мен стилін сақтайтын нұсқаларын жасай алады. Бұдан бөлек, CLIP-тің ортақ эмбеддинг кеңістігі тілмен басқарылатын сурет өңдеулерін мысалсыз түрде орындауға мүмкіндік береді. Біз декодер үшін диффузиялық модельдерді қолданамыз және prior үшін де авторегрессиялық әрі диффузиялық модельдерді сынаймыз; нәтижесінде соңғылары есептеу тұрғысынан тиімдірек және сапасы жоғарырақ үлгілер беретінін анықтадық.

Авторлар

Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen