დიფუზიურმა მოდელებმა მნიშვნელოვნად წასწია წინ გამოსახულების, აუდიოსა და ვიდეოს გენერაციის სფეროები, თუმცა ისინი ეყრდნობა განმეორებით სემპლირების პროცესს, რაც გენერაციას ანელებს. ამ შეზღუდვის დასაძლევად, ჩვენ წარმოვადგინეთ თანმიმდევრულობის მოდელები — მოდელების ახალი ოჯახი, რომელიც მაღალი ხარისხის ნიმუშებს წარმოქმნის ხმაურის მონაცემებად პირდაპირი გარდაქმნით. ისინი კონსტრუქციულად მხარს უჭერს სწრაფ ერთსაფეხურიან გენერაციას, ამავე დროს კი მრავალსაფეხურიანი სემპლირებაც შესაძლებელია, რათა გამოთვლითი რესურსი ნიმუშის ხარისხზე გაიცვალოს. მათ ასევე აქვთ ნულოვანი მცდელობა/სწავლება მონაცემების რედაქტირების მხარდაჭერა, როგორიცაა გამოსახულების შევსება, გაფერადება და სუპერ-გარჩევადობა, ამ ამოცანებზე აშკარა გაწვრთნის მოთხოვნის გარეშე. თანმიმდევრულობის მოდელები შეიძლება გაიწვრთნას როგორც წინასწარ გაწვრთნილი დიფუზიური მოდელების დისტილაციით, ასევე სრულიად დამოუკიდებელ გენერაციულ მოდელებად. ვრცელი ექსპერიმენტებით ვაჩვენებთ, რომ ისინი აჭარბებს დიფუზიური მოდელებისთვის არსებულ დისტილაციის ტექნიკებს ერთ- და რამდენიმესაფეხურიან სემპლირებაში, და აღწევს ახალ საუკეთესო FID-ს — 3.55 CIFAR-10-ზე და 6.20 ImageNet 64x64-ზე — ერთსაფეხურიანი გენერაციისთვის. იზოლირებულად გაწვრთნისას, თანმიმდევრულობის მოდელები იქცევა გენერაციული მოდელების ახალ ოჯახად, რომელსაც შეუძლია აჯობოს არსებულ ერთსაფეხურიან, არაადვერსარიულ გენერაციულ მოდელებს სტანდარტულ ბენჩმარკებზე, როგორიცაა CIFAR-10, ImageNet 64x64 და LSUN 256x256.
იტვირთება…
Yang Song, Prafulla Dhariwal, Mark Chen და Ilya Sutskever