CLIP latent များဖြင့် အဆင့်လိုက် စာသားအခြေပြု ရုပ်ပုံ ထုတ်လုပ်မှု

CLIP ကဲ့သို့သော contrastive မော်ဒယ်များသည် အဓိပ္ပာယ်နှင့် စတိုင် နှစ်မျိုးလုံးကို ဖမ်းယူနိုင်သည့် ရုပ်ပုံကိုယ်စားပြုဖော်ပြချက်များကို ခိုင်မာစွာ သင်ယူနိုင်ကြောင်း ပြသထားသည်။ ဤကိုယ်စားပြုဖော်ပြချက်များကို ရုပ်ပုံ ထုတ်လုပ်မှုအတွက် အသုံးချရန် ကျွန်ုပ်တို့သည် အဆင့်နှစ်ဆင့်ပါ မော်ဒယ်တစ်ခုကို အဆိုပြုထားသည်။ ပထမအဆင့် prior သည် စာသား caption တစ်ခုကို ပေးထားလျှင် CLIP ရုပ်ပုံ embedding ကို ထုတ်ပေးပြီး၊ decoder သည် ထိုရုပ်ပုံ embedding အပေါ် မူတည်ကာ ရုပ်ပုံတစ်ပုံကို ထုတ်ပေးသည်။ ရုပ်ပုံကိုယ်စားပြုဖော်ပြချက်များကို တိုက်ရိုက် ထုတ်လုပ်ခြင်းသည် photorealism နှင့် caption ဆင်တူမှုတို့တွင် ဆုံးရှုံးမှု အနည်းငယ်သာရှိစေပြီး ရုပ်ပုံမျိုးစုံကွဲပြားမှုကို တိုးတက်စေကြောင်း ကျွန်ုပ်တို့ ပြသထားသည်။ ရုပ်ပုံကိုယ်စားပြုဖော်ပြချက်များအပေါ် မူတည်ထားသော ကျွန်ုပ်တို့၏ decoder များသည် ၎င်း၏ အဓိပ္ပာယ်နှင့် စတိုင်ကို ထိန်းသိမ်းထားစဉ် ရုပ်ပုံကိုယ်စားပြုဖော်ပြချက်ထဲတွင် မပါဝင်သော အရေးမကြီးသည့် အသေးစိတ်များကို ပြောင်းလဲကာ ရုပ်ပုံတစ်ပုံ၏ ကွဲပြားသည့်ပုံစံများကိုလည်း ထုတ်ပေးနိုင်သည်။ ထို့အပြင် CLIP ၏ ပူးတွဲ embedding space သည် zero-shot ပုံစံဖြင့် ဘာသာစကားညွှန်ကြားသည့် ရုပ်ပုံပြုပြင်ပြောင်းလဲမှုများကို လုပ်ဆောင်နိုင်စေသည်။ ကျွန်ုပ်တို့သည် decoder အတွက် diffusion မော်ဒယ်များကို အသုံးပြုပြီး prior အတွက် autoregressive မော်ဒယ်များနှင့် diffusion မော်ဒယ်များ နှစ်မျိုးလုံးကို စမ်းသပ်ကာ နောက်ဆုံးဖော်ပြထားသော မော်ဒယ်များသည် တွက်ချက်မှုအရ ပိုမိုထိရောက်ပြီး အရည်အသွေးမြင့် နမူနာများကို ထုတ်ပေးကြောင်း တွေ့ရှိခဲ့သည်။


