કન્સિસ્ટન્સી મોડલ્સને ટ્રેન કરવા માટે સુધારેલી તકનીકો

કન્સિસ્ટન્સી મોડલ્સ એ જનરેટિવ મોડેલ્સનો એક નવીન પરિવાર છે, જે adversarial training ની જરૂરિયાત વગર એક જ પગલામાં ઉચ્ચ ગુણવત્તાવાળો ડેટા સેમ્પલ કરી શકે છે. વર્તમાન કન્સિસ્ટન્સી મોડલ્સ pre-trained diffusion મોડલ્સમાંથી distillation કરીને અને LPIPS જેવી learned metrics નો ઉપયોગ કરીને ઉત્તમ સેમ્પલ ગુણવત્તા હાંસલ કરે છે. જોકે, distillation કન્સિસ્ટન્સી મોડલ્સની ગુણવત્તાને pre-trained diffusion મોડલની ગુણવત્તા સુધી મર્યાદિત કરે છે, અને LPIPS મૂલ્યાંકનમાં અનિચ્છનીય bias પેદા કરે છે. આ પડકારોનો સામનો કરવા માટે, અમે કન્સિસ્ટન્સી ટ્રેનિંગ માટે સુધારેલી તકનીકો રજૂ કરીએ છીએ, જેમાં કન્સિસ્ટન્સી મોડલ્સ distillation વગર સીધા ડેટામાંથી શીખે છે. અમે કન્સિસ્ટન્સી ટ્રેનિંગ પાછળના સિદ્ધાંતનું ઊંડાણપૂર્વક વિશ્લેષણ કરીએ છીએ અને અગાઉ અવગણાયેલ એક ખામી ઓળખીએ છીએ, જેને અમે teacher consistency મોડલમાંથી Exponential Moving Average દૂર કરીને ઉકેલીએ છીએ. LPIPS જેવી learned metrics ને બદલવા માટે, અમે robust statistics માંથી Pseudo-Huber losses અપનાવીએ છીએ. ઉપરાંત, અમે કન્સિસ્ટન્સી ટ્રેનિંગ objective માટે lognormal noise schedule રજૂ કરીએ છીએ, અને નિશ્ચિત સંખ્યાની training iterations પછી કુલ discretization steps ને બમણા કરવાની પ્રસ્તાવના કરીએ છીએ. વધુ સારી hyperparameter tuning સાથે મળીને, આ ફેરફારો કન્સિસ્ટન્સી મોડલ્સને એક જ sampling step માં CIFAR-10 અને ImageNet 64×64 પર અનુક્રમે 2.51 અને 3.25 ના FID સ્કોર્સ હાંસલ કરવા સક્ષમ બનાવે છે. આ સ્કોર્સ અગાઉની કન્સિસ્ટન્સી ટ્રેનિંગ પદ્ધતિઓની સરખામણીએ 3.5× અને 4× સુધારો દર્શાવે છે. two-step sampling દ્વારા, અમે આ બે datasets પર FID સ્કોર્સને વધુ ઘટાડીને 2.24 અને 2.77 સુધી લાવીએ છીએ, જે one-step અને two-step બન્ને settings માં distillation દ્વારા પ્રાપ્ત થયેલા સ્કોર્સને પાછળ છોડે છે, અને સાથે જ કન્સિસ્ટન્સી મોડલ્સ અને અન્ય state-of-the-art જનરેટિવ મોડેલ્સ વચ્ચેનો અંતર ઘટાડે છે.

કન્સિસ્ટન્સી મોડલ્સને ટ્રેન કરવા માટે સુધારેલી તકનીકો

લેખકો