გადადით მთავარ შინაარსზე
OpenAI

13 აპრილი, 2022

პუბლიკაცია

CLIP ლატენტებით იერარქიული ტექსტით განპირობებული სურათის გენერირება

CLIP ლატენტებით იერარქიული ტექსტით განპირობებული სურათის გენერირება
იტვირთება…

ანოტაცია

CLIP-ის მსგავსი კონტრასტული მოდელები, როგორც ჩანს, სწავლობენ სურათების მდგრად წარმოდგენებს, რომლებიც იჭერს როგორც სემანტიკას, ისე სტილს. ამ წარმოდგენების სურათის გენერირებისთვის გამოსაყენებლად, ჩვენ ვთავაზობთ ორეტაპიან მოდელს: პრიორს, რომელიც ტექსტური წარწერის საფუძველზე აგენერირებს CLIP-ის სურათის ემბედინგს, და დეკოდერს, რომელიც სურათის ემბედინგზე დამოკიდებულ სურათს აგენერირებს. ჩვენ ვაჩვენებთ, რომ სურათის წარმოდგენების აშკარა გენერირება აუმჯობესებს სურათის მრავალფეროვნებას ფოტორეალიზმისა და წარწერასთან მსგავსების მინიმალური დანაკარგით. ჩვენი დეკოდერები, რომლებიც სურათის წარმოდგენებზეა განპირობებული, ასევე შეუძლია შექმნას სურათის ვარიაციები, რომლებიც ინარჩუნებს როგორც მის სემანტიკას, ისე სტილს, ხოლო ცვლის იმ არაესენციურ დეტალებს, რომლებიც სურათის წარმოდგენაში არ არის. გარდა ამისა, CLIP-ის ერთობლივი ემბედინგის სივრცე შესაძლებელს ხდის ენით მართულ სურათის მანიპულაციებს ნულოვანი მცდელობა/სწავლება რეჟიმში. დეკოდერისთვის ვიყენებთ დიფუზიურ მოდელებს და პრიორისთვის ვცდით როგორც ავტორეგრესიულ, ისე დიფუზიურ მოდელებს, და ვადგენთ, რომ ეს უკანასკნელი გამოთვლით უფრო ეფექტიანია და უფრო მაღალი ხარისხის ნიმუშებს წარმოქმნის.

ავტორები

Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu და Mark Chen