CLIP ლატენტებით იერარქიული ტექსტით განპირობებული სურათის გენერირება

CLIP-ის მსგავსი კონტრასტული მოდელები, როგორც ჩანს, სწავლობენ სურათების მდგრად წარმოდგენებს, რომლებიც იჭერს როგორც სემანტიკას, ისე სტილს. ამ წარმოდგენების სურათის გენერირებისთვის გამოსაყენებლად, ჩვენ ვთავაზობთ ორეტაპიან მოდელს: პრიორს, რომელიც ტექსტური წარწერის საფუძველზე აგენერირებს CLIP-ის სურათის ემბედინგს, და დეკოდერს, რომელიც სურათის ემბედინგზე დამოკიდებულ სურათს აგენერირებს. ჩვენ ვაჩვენებთ, რომ სურათის წარმოდგენების აშკარა გენერირება აუმჯობესებს სურათის მრავალფეროვნებას ფოტორეალიზმისა და წარწერასთან მსგავსების მინიმალური დანაკარგით. ჩვენი დეკოდერები, რომლებიც სურათის წარმოდგენებზეა განპირობებული, ასევე შეუძლია შექმნას სურათის ვარიაციები, რომლებიც ინარჩუნებს როგორც მის სემანტიკას, ისე სტილს, ხოლო ცვლის იმ არაესენციურ დეტალებს, რომლებიც სურათის წარმოდგენაში არ არის. გარდა ამისა, CLIP-ის ერთობლივი ემბედინგის სივრცე შესაძლებელს ხდის ენით მართულ სურათის მანიპულაციებს ნულოვანი მცდელობა/სწავლება რეჟიმში. დეკოდერისთვის ვიყენებთ დიფუზიურ მოდელებს და პრიორისთვის ვცდით როგორც ავტორეგრესიულ, ისე დიფუზიურ მოდელებს, და ვადგენთ, რომ ეს უკანასკნელი გამოთვლით უფრო ეფექტიანია და უფრო მაღალი ხარისხის ნიმუშებს წარმოქმნის.


