အဓိက အကြောင်းအရာသို့ ကျော်သွားရန်
OpenAI

၂၀၂၂ ဧပြီ ၁၃

ထုတ်ဝေမှု

CLIP latent များဖြင့် အဆင့်လိုက် စာသားအခြေပြု ရုပ်ပုံ ထုတ်လုပ်မှု

CLIP Latent များဖြင့် အဆင့်လိုက် စာသားအခြေပြု ရုပ်ပုံ ထုတ်လုပ်မှု
ဖွင့်နေသည်…

အနှစ်ချုပ်

CLIP ကဲ့သို့သော contrastive မော်ဒယ်များသည် အဓိပ္ပာယ်နှင့် စတိုင် နှစ်မျိုးလုံးကို ဖမ်းယူနိုင်သည့် ရုပ်ပုံကိုယ်စားပြုဖော်ပြချက်များကို ခိုင်မာစွာ သင်ယူနိုင်ကြောင်း ပြသထားသည်။ ဤကိုယ်စားပြုဖော်ပြချက်များကို ရုပ်ပုံ ထုတ်လုပ်မှုအတွက် အသုံးချရန် ကျွန်ုပ်တို့သည် အဆင့်နှစ်ဆင့်ပါ မော်ဒယ်တစ်ခုကို အဆိုပြုထားသည်။ ပထမအဆင့် prior သည် စာသား caption တစ်ခုကို ပေးထားလျှင် CLIP ရုပ်ပုံ embedding ကို ထုတ်ပေးပြီး၊ decoder သည် ထိုရုပ်ပုံ embedding အပေါ် မူတည်ကာ ရုပ်ပုံတစ်ပုံကို ထုတ်ပေးသည်။ ရုပ်ပုံကိုယ်စားပြုဖော်ပြချက်များကို တိုက်ရိုက် ထုတ်လုပ်ခြင်းသည် photorealism နှင့် caption ဆင်တူမှုတို့တွင် ဆုံးရှုံးမှု အနည်းငယ်သာရှိစေပြီး ရုပ်ပုံမျိုးစုံကွဲပြားမှုကို တိုးတက်စေကြောင်း ကျွန်ုပ်တို့ ပြသထားသည်။ ရုပ်ပုံကိုယ်စားပြုဖော်ပြချက်များအပေါ် မူတည်ထားသော ကျွန်ုပ်တို့၏ decoder များသည် ၎င်း၏ အဓိပ္ပာယ်နှင့် စတိုင်ကို ထိန်းသိမ်းထားစဉ် ရုပ်ပုံကိုယ်စားပြုဖော်ပြချက်ထဲတွင် မပါဝင်သော အရေးမကြီးသည့် အသေးစိတ်များကို ပြောင်းလဲကာ ရုပ်ပုံတစ်ပုံ၏ ကွဲပြားသည့်ပုံစံများကိုလည်း ထုတ်ပေးနိုင်သည်။ ထို့အပြင် CLIP ၏ ပူးတွဲ embedding space သည် zero-shot ပုံစံဖြင့် ဘာသာစကားညွှန်ကြားသည့် ရုပ်ပုံပြုပြင်ပြောင်းလဲမှုများကို လုပ်ဆောင်နိုင်စေသည်။ ကျွန်ုပ်တို့သည် decoder အတွက် diffusion မော်ဒယ်များကို အသုံးပြုပြီး prior အတွက် autoregressive မော်ဒယ်များနှင့် diffusion မော်ဒယ်များ နှစ်မျိုးလုံးကို စမ်းသပ်ကာ နောက်ဆုံးဖော်ပြထားသော မော်ဒယ်များသည် တွက်ချက်မှုအရ ပိုမိုထိရောက်ပြီး အရည်အသွေးမြင့် နမူနာများကို ထုတ်ပေးကြောင်း တွေ့ရှိခဲ့သည်။

စာရေးသူများ

Aditya Ramesh - Prafulla Dhariwal - Alex Nichol - Casey Chuနှင့် Mark Chen