၂၀၂၁ ဇန်နဝါရီ ၅

DALL·E: စာသားမှ ရုပ်ပုံများ ဖန်တီးခြင်း

ကျွန်ုပ်တို့သည် သဘာဝဘာသာစကားဖြင့် ဖော်ပြနိုင်သော အယူအဆအမျိုးမျိုးအတွက် စာသား caption များမှ ရုပ်ပုံများ ဖန်တီးပေးသော DALL·E ဟုခေါ်သော neural network တစ်ခုကို လေ့ကျင့်ထားပါသည်။

ပုံရိပ်ဖော်ပြချက်: Justin Jay Wang

ဖွင့်နေသည်…

DALL·E သည် GPT‑3⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ၏ parameter 12 billion ပါဝင်သည့် ဗားရှင်းတစ်ခုဖြစ်ပြီး၊ စာသားဖော်ပြချက်များမှ ရုပ်ပုံများ ဖန်တီးရန် text–image pair dataset ကို အသုံးပြု၍ လေ့ကျင့်ထားသည်။ ၎င်းတွင် တိရစ္ဆာန်နှင့် အရာဝတ္ထုများကို လူပုံသဏ္ဍာန်ဆန်အောင် ဖန်တီးခြင်း၊ မသက်ဆိုင်သော အယူအဆများကို ယုံကြည်လောက်သော နည်းလမ်းဖြင့် ပေါင်းစပ်ခြင်း၊ စာသား render လုပ်ခြင်းနှင့် ရှိပြီးသား ရုပ်ပုံများကို ပြောင်းလဲမှုများ လုပ်ခြင်းတို့အပါအဝင် မတူကွဲပြားသော စွမ်းဆောင်ရည်များ ရှိကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။

ထပ်မံကြည့်ရှုရန်: DALL·E 2⁠ သည် 4x ပိုမိုမြင့်မားသော resolution ဖြင့် ပိုမိုလက်တွေ့ဆန်ပြီး ပိုမိုတိကျသော ရုပ်ပုံများ ဖန်တီးပေးသည်။

ဖွင့်နေသည်...

GPT‑3 က ဘာသာစကားကို အသုံးပြုပြီး ကြီးမားသော neural network တစ်ခုအား စာသားထုတ်လုပ်မှု လုပ်ငန်းမျိုးစုံ ဆောင်ရွက်စေရန် ညွှန်ကြားနိုင်ကြောင်း ပြသခဲ့သည်။ Image GPT⁠ ကလည်း တူညီသော neural network အမျိုးအစားကို အသုံးပြုပြီး အရည်အသွေးမြင့် ရုပ်ပုံများ ဖန်တီးနိုင်ကြောင်း ပြသခဲ့သည်။ ဤတွေ့ရှိချက်များကို တိုးချဲ့ကာ ဘာသာစကားမှတစ်ဆင့် မြင်ကွင်းအယူအဆများကို ကိုင်တွယ်ပြောင်းလဲခြင်းသည် ယခု လက်လှမ်းမီလာပြီဖြစ်ကြောင်း ကျွန်ုပ်တို့ ပြသထားသည်။

အနှစ်ချုပ်မြင်ကွင်း

GPT‑3 ကဲ့သို့ပင် DALL·E သည် ထရန်(စ်)ဖော်မာ ဘာသာစကား မော်ဒယ် တစ်ခုဖြစ်သည်။ ၎င်းသည် စာသားနှင့် ရုပ်ပုံကို တိုကင် 1280 အထိ ပါဝင်သော ဒေတာစီးဆင်းမှုတစ်ခုတည်းအဖြစ် လက်ခံပြီး၊ တိုကင်အားလုံးကို တစ်ခုချင်းစီ ဆက်တိုက် ထုတ်လုပ်ရန် maximum likelihood ဖြင့် လေ့ကျင့်ထားသည်။ ^A

ဤလေ့ကျင့်ရေးလုပ်ငန်းစဉ်ကြောင့် DALL·E သည် အစကနေ ရုပ်ပုံအသစ် ဖန်တီးနိုင်ရုံသာမက၊ ရှိပြီးသား ရုပ်ပုံတစ်ပုံ၏ ညာဘက်အောက်ထောင့်အထိ ဆန့်သည့် ထောင့်မှန်စတုဂံဒေသ မည်သည့်အပိုင်းကိုမဆို စာသား တုံ့ပြန်ညွှန်ကြားချက်နှင့် ကိုက်ညီသည့် ပုံစံဖြင့် ပြန်လည်ဖန်တီးနိုင်သည်။

ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်များ ပါဝင်သည့် အလုပ်များသည် လူမှုအသိုင်းအဝိုင်းတစ်ခုလုံးအပေါ် ကြီးမားပြီး ကျယ်ပြန့်သော သက်ရောက်မှုများ ရှိနိုင်ကြောင်း ကျွန်ုပ်တို့ အသိအမှတ်ပြုပါသည်။ အနာဂတ်တွင် DALL·E ကဲ့သို့သော မော်ဒယ်များသည် အလုပ်လုပ်ငန်းစဉ်နှင့် အသက်မွေးဝမ်းကျောင်းအချို့အပေါ် စီးပွားရေးသက်ရောက်မှု၊ မော်ဒယ် ရလဒ်များအတွင်း ဘက်လိုက်မှု ဖြစ်နိုင်ခြေ၊ နှင့် ဤနည်းပညာက ညွှန်းဆိုသော ရေရှည် ကျင့်ဝတ်ဆိုင်ရာ စိန်ခေါ်မှုများကဲ့သို့ လူမှုရေးပြဿနာများနှင့် မည်သို့ ဆက်နွယ်သည်ကို ဆန်းစစ်ရန် စီစဉ်ထားပါသည်။

စွမ်းဆောင်ရည်များ

DALL·E သည် ဘာသာစကား၏ ပေါင်းစပ်ဖွဲ့စည်းမှုကို လေ့လာသော စာကြောင်းအမျိုးမျိုးအတွက် ယုံကြည်လောက်သော ရုပ်ပုံများ ဖန်တီးနိုင်ကြောင်း တွေ့ရှိရသည်။ နောက်အပိုင်းတွင် interactive visual များစီးရီးဖြင့် ဤအရာကို ပြသထားသည်။ visual များတွင် caption တစ်ခုစီအတွက် ပြသထားသော နမူနာများကို CLIP⁠ ဖြင့် rerank လုပ်ပြီးနောက် 512 ထဲမှ ထိပ်ဆုံး 32 ခုကို ရွေးယူထားသော်လည်း၊ ပြင်ပတွင် ပေါ်လာသော thumbnails နှင့် သီးသန့်ရုပ်ပုံများမှအပ manual cherry-picking မပြုလုပ်ထားပါ။^B

အရည်အသွေးများ ထိန်းချုပ်ခြင်း

DALL·E ၏ အရာဝတ္ထုတစ်ခု၏ အရည်အသွေးများ အများအပြားကိုသာမက ၎င်း ပေါ်လာသည့် အရေအတွက်ကိုပါ ပြောင်းလဲနိုင်စွမ်းကို ကျွန်ုပ်တို့ စမ်းသပ်ခဲ့သည်။

ဖွင့်နေသည်...

အရာဝတ္ထုများ အများအပြား ရေးဆွဲခြင်း

အရာဝတ္ထုများအများအပြား၊ ၎င်းတို့၏ အရည်အသွေးများနှင့် ၎င်းတို့အကြား နေရာဆိုင်ရာ ဆက်နွယ်မှုများကို တစ်ပြိုင်နက် ထိန်းချုပ်ခြင်းသည် စိန်ခေါ်မှုအသစ်တစ်ခုဖြစ်သည်။ ဥပမာ “a hedgehog wearing a red hat, yellow gloves, blue shirt, and green pants.” ဟူသော စာကြောင်းကို စဉ်းစားကြည့်ပါ။ ဤစာကြောင်းကို မှန်ကန်စွာ နားလည်ရန် DALL·E သည် ဝတ်စုံတစ်ခုချင်းစီကို တိရစ္ဆာန်နှင့် မှန်ကန်စွာ ပေါင်းစပ်ရုံသာမက (hat, red), (gloves, yellow), (shirt, blue), နှင့် (pants, green) တို့အကြား ဆက်စပ်မှုများကိုလည်း မရောယှက်ဘဲ တည်ဆောက်ရမည် ^C

ကျွန်ုပ်တို့သည် DALL·E ၏ ဤစွမ်းရည်ကို နှိုင်းရတည်နေရာ၊ အရာဝတ္ထုများ ထပ်တင်ခြင်းနှင့် အရည်အသွေးအများအပြား ထိန်းချုပ်ခြင်းတို့အတွက် စမ်းသပ်ခဲ့သည်။

ဖွင့်နေသည်...

DALL·E သည် အရာဝတ္ထု အနည်းငယ်၏ အရည်အသွေးများနှင့် တည်နေရာများကို အတိုင်းအတာတစ်ခုအထိ ထိန်းချုပ်နိုင်စွမ်း ပေးနိုင်သော်လည်း အောင်မြင်မှုနှုန်းသည် caption ကို မည်သို့ စာသားဖွဲ့ထားသည်အပေါ် မူတည်နိုင်သည်။ အရာဝတ္ထုများ ပိုမိုထည့်သွင်းလာသည်နှင့်အမျှ DALL·E သည် အရာဝတ္ထုများနှင့် ၎င်းတို့၏ အရောင်များအကြား ဆက်စပ်မှုများကို ရောယှက်မှားယွင်းလေ့ရှိပြီး၊ အောင်မြင်မှုနှုန်းသည် လျင်မြန်စွာ ကျဆင်းသွားသည်။ ထို့အပြင် ဤအခြေအနေများတွင် caption ကို ပြန်လည်စကားပြောင်းရေးသားခြင်းအပေါ် DALL·E သည် အားနည်းလွယ်ကြောင်းလည်း မှတ်သားရသည် — အဓိပ္ပာယ်တူညီသော အစားထိုး caption များက မှန်ကန်သော အနက်ဖွင့်မှုကို မပေးလေ့ရှိပါ။

ရှုထောင့်နှင့် သုံးဖက်မြင်ဆန်မှုကို မြင်သာအောင် ဖော်ပြခြင်း

DALL·E သည် မြင်ကွင်းတစ်ခု၏ ရှုထောင့်နှင့် 3D စတိုင်ကို ထိန်းချုပ်နိုင်စွမ်းလည်း ရှိကြောင်း တွေ့ရှိရသည်။

ဖွင့်နေသည်...

ဤအရာကို ပိုမိုရှေ့တိုးစေရန် DALL·E သည် လူသိများသော ပုဂ္ဂိုလ်တစ်ဦး၏ ခေါင်းပုံကို ထောင့်များကို တူညီစွာ ခွဲထားသော အစဉ်တန်းအလိုက် ထောင့်တိုင်းတွင် ထပ်ခါထပ်ခါ ရေးဆွဲနိုင်စွမ်းကို စမ်းသပ်ခဲ့ပြီး၊ လှည့်နေသော ခေါင်း၏ ချောမွေ့သည့် animation ကို ပြန်လည်ရရှိနိုင်ကြောင်း တွေ့ရှိခဲ့သည်။

ဖွင့်နေသည်...

DALL·E သည် “fisheye lens view” နှင့် “a spherical panorama” ရွေးချယ်မှုများတွင် တွေ့ရသကဲ့သို့ မြင်ကွင်းများအပေါ် optical distortion အမျိုးအစားအချို့ကို အသုံးချနိုင်ပုံရသည်။ ထို့ကြောင့် ၎င်း၏ reflection များ ဖန်တီးနိုင်စွမ်းကို လေ့လာရန် လှုံ့ဆော်ခဲ့သည်။

ဖွင့်နေသည်...

အတွင်းနှင့် ပြင်ပ ဖွဲ့စည်းပုံကို မြင်သာအောင် ဖော်ပြခြင်း

“extreme close-up view” နှင့် “x-ray” စတိုင်မှ နမူနာများကြောင့် DALL·E ၏ အတွင်းဖွဲ့စည်းပုံကို ဖြတ်ပိုင်းမြင်ကွင်းများဖြင့်၊ ပြင်ပဖွဲ့စည်းပုံကို macro ဓာတ်ပုံများဖြင့် ဖော်ပြနိုင်စွမ်းကို ဆက်လက်လေ့လာစေခဲ့သည်။

ဖွင့်နေသည်...

အခြေအနေဆိုင်ရာ အသေးစိတ်အချက်များ ခန့်မှန်းခြင်း

စာသားကို ရုပ်ပုံများအဖြစ် ဘာသာပြန်သည့် လုပ်ငန်းသည် အသေးစိတ်မလုံလောက်ပါ — caption တစ်ခုတည်းသည် ယုံကြည်လောက်သော ရုပ်ပုံ အရေအတွက် အဆုံးမရှိများနှင့် ယေဘုယျအားဖြင့် ကိုက်ညီနိုင်သဖြင့် ရုပ်ပုံကို တစ်ခုတည်းအဖြစ် သတ်မှတ်၍ မရပါ။ ဥပမာ “a painting of a capybara sitting on a field at sunrise.” ဟူသော caption ကို စဉ်းစားကြည့်ပါ။ capybara ၏ မျက်နှာမူမှုအပေါ် မူတည်ပြီး အရိပ်တစ်ခု ရေးဆွဲရန် လိုအပ်နိုင်သော်လည်း ဤအသေးစိတ်ကို ထင်ရှားစွာ မဖော်ပြထားပါ။ DALL·E ၏ ဤမပြည့်စုံမှုကို ဖြေရှင်းနိုင်စွမ်းကို အခြေအနေ သုံးမျိုးတွင် လေ့လာထားသည် — စတိုင်၊ နေရာအခြေအနေနှင့် အချိန်ကို ပြောင်းလဲခြင်း၊ တူညီသော အရာဝတ္ထုကို မတူညီသော အခြေအနေများစွာတွင် ရေးဆွဲခြင်း၊ နှင့် သီးသန့်စာသားတစ်ခု ရေးထားသော အရာဝတ္ထု၏ ရုပ်ပုံတစ်ပုံ ဖန်တီးခြင်း ဖြစ်သည်။

ဖွင့်နေသည်...

ယုံကြည်စိတ်ချရမှု အဆင့်အမျိုးမျိုးဖြင့် DALL·E သည် သဘာဝဘာသာစကားမှတစ်ဆင့် 3D rendering engine တစ်ခု၏ စွမ်းဆောင်ရည်အချို့ကို အသုံးပြုခွင့်ပေးသည်။ ၎င်းသည် အရာဝတ္ထု အနည်းငယ်၏ အရည်အသွေးများကို သီးခြားထိန်းချုပ်နိုင်ပြီး၊ အရေအတွက်နှင့် တစ်ခုနှင့်တစ်ခု မည်သို့ စီစဉ်ထားသည်ကိုလည်း အကန့်အသတ်ရှိစွာ ထိန်းချုပ်နိုင်သည်။ ထို့အပြင် မြင်ကွင်းတစ်ခုကို မည်သည့်နေရာနှင့် ထောင့်မှ render လုပ်မည်ကိုလည်း ထိန်းချုပ်နိုင်ပြီး၊ ထောင့်နှင့် အလင်းရောင်အခြေအနေများကို တိကျစွာ သတ်မှတ်ထားသော သတ်မှတ်ချက်များနှင့် ကိုက်ညီအောင် လူသိများသော အရာဝတ္ထုများကို ဖန်တီးနိုင်သည်။

input များကို မရှုပ်မထွေးဘဲ အပြည့်အစုံ တိတိကျကျ သတ်မှတ်ရသည့် 3D rendering engine နှင့် မတူဘဲ၊ caption က ရုပ်ပုံတွင် အသေးစိတ်အချက်တစ်ခု ပါဝင်ရမည်ဟု အဓိပ္ပာယ်ရသော်လည်း ထိုအချက်ကို ထင်ရှားစွာ မဖော်ပြထားပါက DALL·E သည် “ဖြည့်ပေး” နိုင်သည်။

အထက်ပါ စွမ်းဆောင်ရည်များ၏ အသုံးချမှုများ

ထို့နောက် အထက်ဖော်ပြပါ စွမ်းဆောင်ရည်များကို ဖက်ရှင်နှင့် အတွင်းအပြင် အလှဆင်ဒီဇိုင်းတွင် မည်သို့ အသုံးချနိုင်သည်ကို လေ့လာကြသည်။

ဖွင့်နေသည်...

မသက်ဆိုင်သော အယူအဆများကို ပေါင်းစပ်ခြင်း

ဘာသာစကား၏ ပေါင်းစပ်ဖွဲ့စည်းနိုင်သော သဘောသဘာဝကြောင့် အယူအဆများကို ပေါင်းစည်းပြီး အစစ်အမှန်နှင့် စိတ်ကူးယဉ်အရာများကို ဖော်ပြနိုင်ပါသည်။ DALL·E သည်လည်း ကွဲပြားသော အကြံအမြင်များကို ပေါင်းစပ်ကာ အရာဝတ္ထုများကို ဖန်တီးနိုင်ပြီး၊ အချို့မှာ အမှန်တကယ် ကမ္ဘာတွင် မရှိနိုင်လောက်ပါသည်။ ဤစွမ်းရည်ကို ဥပမာ နှစ်မျိုးဖြင့် လေ့လာကြသည် — အယူအဆအမျိုးမျိုးမှ အရည်အသွေးများကို တိရစ္ဆာန်များသို့ လွှဲပြောင်းခြင်းနှင့် မသက်ဆိုင်သော အယူအဆများမှ စိတ်ကူးရယူ၍ ထုတ်ကုန်များ ဒီဇိုင်းဆွဲခြင်း ဖြစ်သည်။

ဖွင့်နေသည်...

တိရစ္ဆာန် ပုံရိပ်ဖော်ချက်များ

ယခင်အပိုင်းတွင် DALL·E သည် လက်တွေ့ကမ္ဘာရှိ အရာဝတ္ထုများ၏ ရုပ်ပုံများ ဖန်တီးစဉ် မသက်ဆိုင်သော အယူအဆများကို ပေါင်းစပ်နိုင်စွမ်းကို လေ့လာခဲ့သည်။ ဤနေရာတွင် ဤစွမ်းရည်ကို အနုပညာအခြေအနေအတွင်း ပုံရိပ်ဖော်ခြင်း အမျိုးအစား သုံးမျိုးအတွက် လေ့လာမည် — တိရစ္ဆာန်နှင့် အရာဝတ္ထုများ၏ လူပုံသဏ္ဍာန်ဆန်သော ဗားရှင်းများ၊ တိရစ္ဆာန်ပေါင်းစပ်မျိုးစိတ်များနှင့် emoji များ ဖြစ်သည်။

ဖွင့်နေသည်...

zero-shot မြင်ကွင်းဆိုင်ရာ ကျိုးကြောင်းဆင်ခြင်မှု

GPT‑3 ကို ထပ်မံလေ့ကျင့်မှုမလိုဘဲ ၎င်း၏ prompt ထဲတွင် ပေးထားသော ဖော်ပြချက်နှင့် အဖြေထုတ်ရန် cue တို့မှသာ အမျိုးမျိုးသော လုပ်ငန်းတာဝန်များ ဆောင်ရွက်ရန် ညွှန်ကြားနိုင်သည်။ ဥပမာ “here is the sentence ‘a person walking his dog in the park’ translated into French:” ဟု တုံ့ပြန်ညွှန်ကြားချက်ပေးလျှင် GPT‑3 က “un homme qui promène son chien dans le parc.” ဟု ဖြေကြားသည်။ ဤစွမ်းရည်ကို zero-shot reasoning ဟု ခေါ်သည်။ DALL·E သည် ဤစွမ်းရည်ကို မြင်ကွင်းနယ်ပယ်အထိ တိုးချဲ့ထားပြီး၊ မှန်ကန်သော နည်းလမ်းဖြင့် တုံ့ပြန်ညွှန်ကြားချက်ပေးလျှင် ရုပ်ပုံမှ ရုပ်ပုံသို့ ဘာသာပြန်လုပ်ငန်းမျိုးစုံကို ဆောင်ရွက်နိုင်ကြောင်း တွေ့ရှိရသည်။

ဖွင့်နေသည်...

ဤစွမ်းရည် ပေါ်ထွက်လာမည်ကို ကျွန်ုပ်တို့ မမျှော်လင့်ခဲ့ဘဲ၊ ၎င်းကို အားပေးရန် neural network သို့မဟုတ် လေ့ကျင့်ရေးလုပ်ငန်းစဉ်ကိုလည်း မည်သည့်ပြင်ဆင်မှုမျှ မပြုလုပ်ခဲ့ပါ။ ဤရလဒ်များကြောင့် လှုံ့ဆော်ခံရပြီး DALL·E ၏ နှိုင်းယှဉ်ကျိုးကြောင်းဆင်ခြင်နိုင်မှုကို 20th century တွင် ကျယ်ကျယ်ပြန့်ပြန့် အသုံးပြုခဲ့သော မြင်ကွင်းဆိုင်ရာ IQ စမ်းသပ်မှု Raven’s progressive matrices ဖြင့် စမ်းသပ်ကာ တိုင်းတာခဲ့သည်။

ဖွင့်နေသည်...

ပထဝီဆိုင်ရာ အသိပညာ

DALL·E သည် ပထဝီဆိုင်ရာ အချက်အလက်များ၊ အထင်ကရနေရာများနှင့် ရပ်ကွက်များအကြောင်း လေ့လာသိရှိထားကြောင်း တွေ့ရှိရသည်။ ဤအယူအဆများအပေါ် ၎င်း၏ အသိပညာသည် အချို့အပိုင်းများတွင် အံ့အားသင့်ဖွယ် တိကျသော်လည်း အခြားအပိုင်းများတွင် ချို့ယွင်းချက်များ ရှိသည်။

ဖွင့်နေသည်...

အချိန်ဆိုင်ရာ အသိပညာ

နေရာအလိုက် ကွဲပြားသော အယူအဆများအကြောင်း DALL·E ၏ အသိပညာကို လေ့လာသကဲ့သို့ပင်၊ အချိန်အလိုက် ကွဲပြားသော အယူအဆများအကြောင်း ၎င်း၏ အသိပညာကိုလည်း လေ့လာကြသည်။

ဖွင့်နေသည်...

နည်းလမ်းနှင့် ယခင်သုတေသန အကျဉ်းချုပ်

DALL·E သည် decoder-only ထရန်(စ်)ဖော်မာ ရိုးရှင်းတစ်ခုဖြစ်ပြီး၊ စာသားနှင့် ရုပ်ပုံကို တိုကင် 1280 ပါဝင်သော စီးဆင်းမှုတစ်ခုတည်းအဖြစ် လက်ခံသည်—စာသားအတွက် 256 နှင့် ရုပ်ပုံအတွက် 1024—နှင့် ၎င်းတို့အားလုံးကို autoregressive ပုံစံဖြင့် မော်ဒယ်လုပ်သည်။ ၎င်း၏ self-attention layer 64 လွှာ တစ်ခုချင်းစီရှိ attention mask သည် ရုပ်ပုံ တိုကင် တစ်ခုစီအား စာသား တိုကင်အားလုံးကို attention ပေးနိုင်စေသည်။ DALL·E သည် စာသား တိုကင်များအတွက် ပုံမှန် causal mask ကို အသုံးပြုပြီး၊ ရုပ်ပုံ တိုကင်များအတွက်မူ layer အလိုက် row, column, သို့မဟုတ် convolutional attention pattern တို့ဖြင့် sparse attention ကို အသုံးပြုသည်။ architecture နှင့် လေ့ကျင့်ရေးလုပ်ငန်းစဉ်အကြောင်း အသေးစိတ်ကို ကျွန်ုပ်တို့၏ စာတမ်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် ပိုမိုဖော်ပြထားသည်။

စာသားမှ ရုပ်ပုံ ဖန်တီးခြင်းသည် Reed et. al ၏ ရှေ့ပြေးသုတေသန¹ မှစတင်၍ တက်ကြွသော သုတေသနနယ်ပယ်တစ်ခုဖြစ်လာခဲ့သည်။ ၎င်းတို့၏ နည်းလမ်းမှာ text embeddings ပေါ် မူတည်သည့် GAN ကို အသုံးပြုသည်။ embeddings များကို CLIP နှင့် ဆင်တူသော contrastive loss ဖြင့် pretrain လုပ်ထားသည့် encoder တစ်ခုမှ ထုတ်လုပ်ပေးသည်။ StackGAN³ နှင့် StackGAN++⁴ သည် ရုပ်ပုံ resolution ကို မြှင့်တင်ပြီး မြင်ကွင်းအရည်အသွေးကို ကောင်းမွန်စေရန် multi-scale GANs ကို အသုံးပြုသည်။ AttnGAN⁵ သည် စာသားနှင့် ရုပ်ပုံ feature များအကြား attention ကို ပေါင်းစပ်ထားပြီး၊ auxiliary objective အဖြစ် contrastive text-image feature matching loss ကို တင်ပြထားသည်။ ဤအချက်ကို offline ဖြင့် လုပ်ဆောင်သော ကျွန်ုပ်တို့၏ CLIP reranking နှင့် နှိုင်းယှဉ်ကြည့်ရန် စိတ်ဝင်စားဖွယ်ကောင်းသည်။ အခြားသုတေသနများ^{2 - 6နှင့် 7} သည် လေ့ကျင့်ရေးအတွင်း supervision အရင်းအမြစ်များကို ထပ်မံပေါင်းထည့်၍ ရုပ်ပုံအရည်အသွေး မြှင့်တင်ထားသည်။ နောက်ဆုံးတွင် Nguyen et. al⁸ နှင့် Cho et. al⁹ တို့၏ သုတေသနသည် pretrained အမျိုးအစားပေါင်းစုံ discriminative မော်ဒယ်များကို အသုံးချသည့် sampling-based ရုပ်ပုံ ထုတ်လုပ်မှု နည်းဗျူဟာများကို လေ့လာထားသည်။

VQVAE-2⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် အသုံးပြုသော rejection sampling နှင့် ဆင်တူသကဲ့သို့၊ interactive visual များအားလုံးတွင် caption တစ်ခုစီအတွက် နမူနာ 512 ခုထဲမှ ထိပ်ဆုံး 32 ခုကို rerank လုပ်ရန် CLIP⁠ ကို အသုံးပြုထားသည်။ ဤလုပ်ငန်းစဉ်ကို language-guided search¹⁶ အမျိုးအစားတစ်ခုဟုလည်း မြင်နိုင်ပြီး၊ နမူနာအရည်အသွေးအပေါ် အလွန်ကြီးမားသော သက်ရောက်မှု ရှိစေနိုင်သည်။

ဖွင့်နေသည်...

ခြေမှတ်များ

A
တိုကင် ဆိုသည်မှာ discrete vocabulary မှ သင်္ကေတတစ်ခုခုကို ဆိုလိုသည်။ လူများအတွက်ဆိုလျှင် အင်္ဂလိပ်အက္ခရာတစ်လုံးစီသည် အက္ခရာ 26 လုံးပါ alphabet မှ တိုကင်တစ်ခုဖြစ်သည်။ DALL·E ၏ vocabulary တွင် စာသားနှင့် ရုပ်ပုံအယူအဆ နှစ်မျိုးလုံးအတွက် တိုကင်များ ရှိသည်။ အတိအကျဆိုရလျှင် image caption တစ်ခုစီကို vocabulary size 16384 ပါဝင်သော BPE-encoded တိုကင် အများဆုံး 256 ခုဖြင့် ကိုယ်စားပြုပြီး၊ ရုပ်ပုံကို vocabulary size 8192 ပါဝင်သော တိုကင် 1024 ခုဖြင့် ကိုယ်စားပြုထားသည်။

လေ့ကျင့်ရေးအတွင်း ရုပ်ပုံများကို 256x256 resolution သို့ ကြိုတင်ပြင်ဆင်ထားသည်။ VQVAE နှင့် ဆင်တူသကဲ့သို့ အစီအစဉ်တစ်ခုစီကို continuous relaxation ဖြင့် pretrain လုပ်ထားသော discrete VAE ကို အသုံးပြုကာ 32x32 grid ရှိ discrete နောက်ခံကုဒ်များသို့ ဖိသိပ်ထားသည်။ relaxation ကို အသုံးပြုသည့် လေ့ကျင့်ရေးသည် explicit codebook၊ EMA loss သို့မဟုတ် dead code revival ကဲ့သို့ နည်းလမ်းများ မလိုအပ်စေဘဲ vocabulary size ကြီးမားသည့်အထိ scale up လုပ်နိုင်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။

B
အသေးစိတ်အချက်အလက်များကို နောက်ပိုင်းအပိုင်းတစ်ခုတွင်⁠ ပေးထားသည်။
17
ဤလုပ်ငန်းကို variable binding ဟုခေါ်ပြီး၊ စာပေများတွင် ကျယ်ကျယ်ပြန့်ပြန့် လေ့လာထားကြသည်။