ડિફ્યુઝન મોડેલ્સે છબી, ઑડિયો અને વિડિયો જનરેશનના ક્ષેત્રોમાં નોંધપાત્ર પ્રગતિ કરી છે, પરંતુ તેઓ પુનરાવર્તિત સેમ્પલિંગ પ્રક્રિયા પર આધાર રાખે છે, જેના કારણે જનરેશન ધીમું થાય છે. આ મર્યાદા દૂર કરવા માટે, અમે consistency models પ્રસ્તાવિત કરીએ છીએ, મોડેલ્સનું એક નવું કુટુંબ જે noise ને સીધા data માં મેપ કરીને ઉચ્ચ ગુણવત્તાવાળા સેમ્પલ્સ જનરેટ કરે છે. તેઓ ડિઝાઇન મુજબ ઝડપી one-step generation ને સમર્થન આપે છે, તેમજ સેમ્પલ ગુણવત્તા માટે compute નો વિનિમય કરવા multistep sampling ને પણ મંજૂરી આપે છે. તેઓ ઝીરો-શોટ data editing ને પણ સમર્થન આપે છે, જેમ કે image inpainting, colorization, અને super-resolution, આ કાર્યો પર સ્પષ્ટ તાલીમની જરૂરિયાત વિના. consistency models ને pre-trained diffusion models ને distill કરીને અથવા સંપૂર્ણપણે સ્વતંત્ર જનરેટિવ મોડેલ્સ તરીકે તાલીમ આપી શકાય છે. વ્યાપક પ્રયોગો દ્વારા, અમે દર્શાવીએ છીએ કે one- અને few-step sampling માં તેઓ diffusion models માટેની હાલની distillation techniques કરતાં વધુ સારું પ્રદર્શન કરે છે, અને one-step generation માટે CIFAR-10 પર 3.55 અને ImageNet 64x64 પર 6.20 નો નવો state-of-the-art FID હાંસલ કરે છે. જ્યારે અલગથી તાલીમ આપવામાં આવે છે, ત્યારે consistency models જનરેટિવ મોડેલ્સનું એક નવું કુટુંબ બને છે, જે CIFAR-10, ImageNet 64x64 અને LSUN 256x256 જેવા માનક benchmarks પર હાલના one-step, non-adversarial જનરેટિવ મોડેલ્સ કરતાં વધુ સારું પ્રદર્શન કરી શકે છે.
લોડિંગ…
Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever