DALL·E: စာသားမှ ရုပ်ပုံများ ဖန်တီးခြင်း
ကျွန်ုပ်တို့သည် သဘာဝဘာသာစကားဖြင့် ဖော်ပြနိုင်သော အယူအဆအမျိုးမျိုးအတွက် စာသား caption များမှ ရုပ်ပုံများ ဖန်တီးပေးသော DALL·E ဟုခေါ်သော neural network တစ်ခုကို လေ့ကျင့်ထားပါသည်။

ပုံရိပ်ဖော်ပြချက်: Justin Jay Wang
DALL·E သည် GPT‑3(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ၏ parameter 12 billion ပါဝင်သည့် ဗားရှင်းတစ်ခုဖြစ်ပြီး၊ စာသားဖော်ပြချက်များမှ ရုပ်ပုံများ ဖန်တီးရန် text–image pair dataset ကို အသုံးပြု၍ လေ့ကျင့်ထားသည်။ ၎င်းတွင် တိရစ္ဆာန်နှင့် အရာဝတ္ထုများကို လူပုံသဏ္ဍာန်ဆန်အောင် ဖန်တီးခြင်း၊ မသက်ဆိုင်သော အယူအဆများကို ယုံကြည်လောက်သော နည်းလမ်းဖြင့် ပေါင်းစပ်ခြင်း၊ စာသား render လုပ်ခြင်းနှင့် ရှိပြီးသား ရုပ်ပုံများကို ပြောင်းလဲမှုများ လုပ်ခြင်းတို့အပါအဝင် မတူကွဲပြားသော စွမ်းဆောင်ရည်များ ရှိကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။
ထပ်မံကြည့်ရှုရန်: DALL·E 2 သည် 4x ပိုမိုမြင့်မားသော resolution ဖြင့် ပိုမိုလက်တွေ့ဆန်ပြီး ပိုမိုတိကျသော ရုပ်ပုံများ ဖန်တီးပေးသည်။
GPT‑3 က ဘာသာစကားကို အသုံးပြုပြီး ကြီးမားသော neural network တစ်ခုအား စာသားထုတ်လုပ်မှု လုပ်ငန်းမျိုးစုံ ဆောင်ရွက်စေရန် ညွှန်ကြားနိုင်ကြောင်း ပြသခဲ့သည်။ Image GPT ကလည်း တူညီသော neural network အမျိုးအစားကို အသုံးပြုပြီး အရည်အသွေးမြင့် ရုပ်ပုံများ ဖန်တီးနိုင်ကြောင်း ပြသခဲ့သည်။ ဤတွေ့ရှိချက်များကို တိုးချဲ့ကာ ဘာသာစကားမှတစ်ဆင့် မြင်ကွင်းအယူအဆများကို ကိုင်တွယ်ပြောင်းလဲခြင်းသည် ယခု လက်လှမ်းမီလာပြီဖြစ်ကြောင်း ကျွန်ုပ်တို့ ပြသထားသည်။
GPT‑3 ကဲ့သို့ပင် DALL·E သည် ထရန်(စ်)ဖော်မာ ဘာသာစကား မော်ဒယ် တစ်ခုဖြစ်သည်။ ၎င်းသည် စာသားနှင့် ရုပ်ပုံကို တိုကင် 1280 အထိ ပါဝင်သော ဒေတာစီးဆင်းမှုတစ်ခုတည်းအဖြစ် လက်ခံပြီး၊ တိုကင်အားလုံးကို တစ်ခုချင်းစီ ဆက်တိုက် ထုတ်လုပ်ရန် maximum likelihood ဖြင့် လေ့ကျင့်ထားသည်။ A
ဤလေ့ကျင့်ရေးလုပ်ငန်းစဉ်ကြောင့် DALL·E သည် အစကနေ ရုပ်ပုံအသစ် ဖန်တီးနိုင်ရုံသာမက၊ ရှိပြီးသား ရုပ်ပုံတစ်ပုံ၏ ညာဘက်အောက်ထောင့်အထိ ဆန့်သည့် ထောင့်မှန်စတုဂံဒေသ မည်သည့်အပိုင်းကိုမဆို စာသား တုံ့ပြန်ညွှန်ကြားချက်နှင့် ကိုက်ညီသည့် ပုံစံဖြင့် ပြန်လည်ဖန်တီးနိုင်သည်။
ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်များ ပါဝင်သည့် အလုပ်များသည် လူမှုအသိုင်းအဝိုင်းတစ်ခုလုံးအပေါ် ကြီးမားပြီး ကျယ်ပြန့်သော သက်ရောက်မှုများ ရှိနိုင်ကြောင်း ကျွန်ုပ်တို့ အသိအမှတ်ပြုပါသည်။ အနာဂတ်တွင် DALL·E ကဲ့သို့သော မော်ဒယ်များသည် အလုပ်လုပ်ငန်းစဉ်နှင့် အသက်မွေးဝမ်းကျောင်းအချို့အပေါ် စီးပွားရေးသက်ရောက်မှု၊ မော်ဒယ် ရလဒ်များအတွင်း ဘက်လိုက်မှု ဖြစ်နိုင်ခြေ၊ နှင့် ဤနည်းပညာက ညွှန်းဆိုသော ရေရှည် ကျင့်ဝတ်ဆိုင်ရာ စိန်ခေါ်မှုများကဲ့သို့ လူမှုရေးပြဿနာများနှင့် မည်သို့ ဆက်နွယ်သည်ကို ဆန်းစစ်ရန် စီစဉ်ထားပါသည်။
DALL·E သည် ဘာသာစကား၏ ပေါင်းစပ်ဖွဲ့စည်းမှုကို လေ့လာသော စာကြောင်းအမျိုးမျိုးအတွက် ယုံကြည်လောက်သော ရုပ်ပုံများ ဖန်တီးနိုင်ကြောင်း တွေ့ရှိရသည်။ နောက်အပိုင်းတွင် interactive visual များစီးရီးဖြင့် ဤအရာကို ပြသထားသည်။ visual များတွင် caption တစ်ခုစီအတွက် ပြသထားသော နမူနာများကို CLIP ဖြင့် rerank လုပ်ပြီးနောက် 512 ထဲမှ ထိပ်ဆုံး 32 ခုကို ရွေးယူထားသော်လည်း၊ ပြင်ပတွင် ပေါ်လာသော thumbnails နှင့် သီးသန့်ရုပ်ပုံများမှအပ manual cherry-picking မပြုလုပ်ထားပါ။B
DALL·E ၏ အရာဝတ္ထုတစ်ခု၏ အရည်အသွေးများ အများအပြားကိုသာမက ၎င်း ပေါ်လာသည့် အရေအတွက်ကိုပါ ပြောင်းလဲနိုင်စွမ်းကို ကျွန်ုပ်တို့ စမ်းသပ်ခဲ့သည်။
အရာဝတ္ထုများအများအပြား၊ ၎င်းတို့၏ အရည်အသွေးများနှင့် ၎င်းတို့အကြား နေရာဆိုင်ရာ ဆက်နွယ်မှုများကို တစ်ပြိုင်နက် ထိန်းချုပ်ခြင်းသည် စိန်ခေါ်မှုအသစ်တစ်ခုဖြစ်သည်။ ဥပမာ “a hedgehog wearing a red hat, yellow gloves, blue shirt, and green pants.” ဟူသော စာကြောင်းကို စဉ်းစားကြည့်ပါ။ ဤစာကြောင်းကို မှန်ကန်စွာ နားလည်ရန် DALL·E သည် ဝတ်စုံတစ်ခုချင်းစီကို တိရစ္ဆာန်နှင့် မှန်ကန်စွာ ပေါင်းစပ်ရုံသာမက (hat, red), (gloves, yellow), (shirt, blue), နှင့် (pants, green) တို့အကြား ဆက်စပ်မှုများကိုလည်း မရောယှက်ဘဲ တည်ဆောက်ရမည် C
ကျွန်ုပ်တို့သည် DALL·E ၏ ဤစွမ်းရည်ကို နှိုင်းရတည်နေရာ၊ အရာဝတ္ထုများ ထပ်တင်ခြင်းနှင့် အရည်အသွေးအများအပြား ထိန်းချုပ်ခြင်းတို့အတွက် စမ်းသပ်ခဲ့သည်။
DALL·E သည် အရာဝတ္ထု အနည်းငယ်၏ အရည်အသွေးများနှင့် တည်နေရာများကို အတိုင်းအတာတစ်ခုအထိ ထိန်းချုပ်နိုင်စွမ်း ပေးနိုင်သော်လည်း အောင်မြင်မှုနှုန်းသည် caption ကို မည်သို့ စာသားဖွဲ့ထားသည်အပေါ် မူတည်နိုင်သည်။ အရာဝတ္ထုများ ပိုမိုထည့်သွင်းလာသည်နှင့်အမျှ DALL·E သည် အရာဝတ္ထုများနှင့် ၎င်းတို့၏ အရောင်များအကြား ဆက်စပ်မှုများကို ရောယှက်မှားယွင်းလေ့ရှိပြီး၊ အောင်မြင်မှုနှုန်းသည် လျင်မြန်စွာ ကျဆင်းသွားသည်။ ထို့အပြင် ဤအခြေအနေများတွင် caption ကို ပြန်လည်စကားပြောင်းရေးသားခြင်းအပေါ် DALL·E သည် အားနည်းလွယ်ကြောင်းလည်း မှတ်သားရသည် — အဓိပ္ပာယ်တူညီသော အစားထိုး caption များက မှန်ကန်သော အနက်ဖွင့်မှုကို မပေးလေ့ရှိပါ။
DALL·E သည် မြင်ကွင်းတစ်ခု၏ ရှုထောင့်နှင့် 3D စတိုင်ကို ထိန်းချုပ်နိုင်စွမ်းလည်း ရှိကြောင်း တွေ့ရှိရသည်။
ဤအရာကို ပိုမိုရှေ့တိုးစေရန် DALL·E သည် လူသိများသော ပုဂ္ဂိုလ်တစ်ဦး၏ ခေါင်းပုံကို ထောင့်များကို တူညီစွာ ခွဲထားသော အစဉ်တန်းအလိုက် ထောင့်တိုင်းတွင် ထပ်ခါထပ်ခါ ရေးဆွဲနိုင်စွမ်းကို စမ်းသပ်ခဲ့ပြီး၊ လှည့်နေသော ခေါင်း၏ ချောမွေ့သည့် animation ကို ပြန်လည်ရရှိနိုင်ကြောင်း တွေ့ရှိခဲ့သည်။
DALL·E သည် “fisheye lens view” နှင့် “a spherical panorama” ရွေးချယ်မှုများတွင် တွေ့ရသကဲ့သို့ မြင်ကွင်းများအပေါ် optical distortion အမျိုးအစားအချို့ကို အသုံးချနိုင်ပုံရသည်။ ထို့ကြောင့် ၎င်း၏ reflection များ ဖန်တီးနိုင်စွမ်းကို လေ့လာရန် လှုံ့ဆော်ခဲ့သည်။
“extreme close-up view” နှင့် “x-ray” စတိုင်မှ နမူနာများကြောင့် DALL·E ၏ အတွင်းဖွဲ့စည်းပုံကို ဖြတ်ပိုင်းမြင်ကွင်းများဖြင့်၊ ပြင်ပဖွဲ့စည်းပုံကို macro ဓာတ်ပုံများဖြင့် ဖော်ပြနိုင်စွမ်းကို ဆက်လက်လေ့လာစေခဲ့သည်။
စာသားကို ရုပ်ပုံများအဖြစ် ဘာသာပြန်သည့် လုပ်ငန်းသည် အသေးစိတ်မလုံလောက်ပါ — caption တစ်ခုတည်းသည် ယုံကြည်လောက်သော ရုပ်ပုံ အရေအတွက် အဆုံးမရှိများနှင့် ယေဘုယျအားဖြင့် ကိုက်ညီနိုင်သဖြင့် ရုပ်ပုံကို တစ်ခုတည်းအဖြစ် သတ်မှတ်၍ မရပါ။ ဥပမာ “a painting of a capybara sitting on a field at sunrise.” ဟူသော caption ကို စဉ်းစားကြည့်ပါ။ capybara ၏ မျက်နှာမူမှုအပေါ် မူတည်ပြီး အရိပ်တစ်ခု ရေးဆွဲရန် လိုအပ်နိုင်သော်လည်း ဤအသေးစိတ်ကို ထင်ရှားစွာ မဖော်ပြထားပါ။ DALL·E ၏ ဤမပြည့်စုံမှုကို ဖြေရှင်းနိုင်စွမ်းကို အခြေအနေ သုံးမျိုးတွင် လေ့လာထားသည် — စတိုင်၊ နေရာအခြေအနေနှင့် အချိန်ကို ပြောင်းလဲခြင်း၊ တူညီသော အရာဝတ္ထုကို မတူညီသော အခြေအနေများစွာတွင် ရေးဆွဲခြင်း၊ နှင့် သီးသန့်စာသားတစ်ခု ရေးထားသော အရာဝတ္ထု၏ ရုပ်ပုံတစ်ပုံ ဖန်တီးခြင်း ဖြစ်သည်။
ယုံကြည်စိတ်ချရမှု အဆင့်အမျိုးမျိုးဖြင့် DALL·E သည် သဘာဝဘာသာစကားမှတစ်ဆင့် 3D rendering engine တစ်ခု၏ စွမ်းဆောင်ရည်အချို့ကို အသုံးပြုခွင့်ပေးသည်။ ၎င်းသည် အရာဝတ္ထု အနည်းငယ်၏ အရည်အသွေးများကို သီးခြားထိန်းချုပ်နိုင်ပြီး၊ အရေအတွက်နှင့် တစ်ခုနှင့်တစ်ခု မည်သို့ စီစဉ်ထားသည်ကိုလည်း အကန့်အသတ်ရှိစွာ ထိန်းချုပ်နိုင်သည်။ ထို့အပြင် မြင်ကွင်းတစ်ခုကို မည်သည့်နေရာနှင့် ထောင့်မှ render လုပ်မည်ကိုလည်း ထိန်းချုပ်နိုင်ပြီး၊ ထောင့်နှင့် အလင်းရောင်အခြေအနေများကို တိကျစွာ သတ်မှတ်ထားသော သတ်မှတ်ချက်များနှင့် ကိုက်ညီအောင် လူသိများသော အရာဝတ္ထုများကို ဖန်တီးနိုင်သည်။
input များကို မရှုပ်မထွေးဘဲ အပြည့်အစုံ တိတိကျကျ သတ်မှတ်ရသည့် 3D rendering engine နှင့် မတူဘဲ၊ caption က ရုပ်ပုံတွင် အသေးစိတ်အချက်တစ်ခု ပါဝင်ရမည်ဟု အဓိပ္ပာယ်ရသော်လည်း ထိုအချက်ကို ထင်ရှားစွာ မဖော်ပြထားပါက DALL·E သည် “ဖြည့်ပေး” နိုင်သည်။
ထို့နောက် အထက်ဖော်ပြပါ စွမ်းဆောင်ရည်များကို ဖက်ရှင်နှင့် အတွင်းအပြင် အလှဆင်ဒီဇိုင်းတွင် မည်သို့ အသုံးချနိုင်သည်ကို လေ့လာကြသည်။
ဘာသာစကား၏ ပေါင်းစပ်ဖွဲ့စည်းနိုင်သော သဘောသဘာဝကြောင့် အယူအဆများကို ပေါင်းစည်းပြီး အစစ်အမှန်နှင့် စိတ်ကူးယဉ်အရာများကို ဖော်ပြနိုင်ပါသည်။ DALL·E သည်လည်း ကွဲပြားသော အကြံအမြင်များကို ပေါင်းစပ်ကာ အရာဝတ္ထုများကို ဖန်တီးနိုင်ပြီး၊ အချို့မှာ အမှန်တကယ် ကမ္ဘာတွင် မရှိနိုင်လောက်ပါသည်။ ဤစွမ်းရည်ကို ဥပမာ နှစ်မျိုးဖြင့် လေ့လာကြသည် — အယူအဆအမျိုးမျိုးမှ အရည်အသွေးများကို တိရစ္ဆာန်များသို့ လွှဲပြောင်းခြင်းနှင့် မသက်ဆိုင်သော အယူအဆများမှ စိတ်ကူးရယူ၍ ထုတ်ကုန်များ ဒီဇိုင်းဆွဲခြင်း ဖြစ်သည်။
ယခင်အပိုင်းတွင် DALL·E သည် လက်တွေ့ကမ္ဘာရှိ အရာဝတ္ထုများ၏ ရုပ်ပုံများ ဖန်တီးစဉ် မသက်ဆိုင်သော အယူအဆများကို ပေါင်းစပ်နိုင်စွမ်းကို လေ့လာခဲ့သည်။ ဤနေရာတွင် ဤစွမ်းရည်ကို အနုပညာအခြေအနေအတွင်း ပုံရိပ်ဖော်ခြင်း အမျိုးအစား သုံးမျိုးအတွက် လေ့လာမည် — တိရစ္ဆာန်နှင့် အရာဝတ္ထုများ၏ လူပုံသဏ္ဍာန်ဆန်သော ဗားရှင်းများ၊ တိရစ္ဆာန်ပေါင်းစပ်မျိုးစိတ်များနှင့် emoji များ ဖြစ်သည်။
GPT‑3 ကို ထပ်မံလေ့ကျင့်မှုမလိုဘဲ ၎င်း၏ prompt ထဲတွင် ပေးထားသော ဖော်ပြချက်နှင့် အဖြေထုတ်ရန် cue တို့မှသာ အမျိုးမျိုးသော လုပ်ငန်းတာဝန်များ ဆောင်ရွက်ရန် ညွှန်ကြားနိုင်သည်။ ဥပမာ “here is the sentence ‘a person walking his dog in the park’ translated into French:” ဟု တုံ့ပြန်ညွှန်ကြားချက်ပေးလျှင် GPT‑3 က “un homme qui promène son chien dans le parc.” ဟု ဖြေကြားသည်။ ဤစွမ်းရည်ကို zero-shot reasoning ဟု ခေါ်သည်။ DALL·E သည် ဤစွမ်းရည်ကို မြင်ကွင်းနယ်ပယ်အထိ တိုးချဲ့ထားပြီး၊ မှန်ကန်သော နည်းလမ်းဖြင့် တုံ့ပြန်ညွှန်ကြားချက်ပေးလျှင် ရုပ်ပုံမှ ရုပ်ပုံသို့ ဘာသာပြန်လုပ်ငန်းမျိုးစုံကို ဆောင်ရွက်နိုင်ကြောင်း တွေ့ရှိရသည်။
ဤစွမ်းရည် ပေါ်ထွက်လာမည်ကို ကျွန်ုပ်တို့ မမျှော်လင့်ခဲ့ဘဲ၊ ၎င်းကို အားပေးရန် neural network သို့မဟုတ် လေ့ကျင့်ရေးလုပ်ငန်းစဉ်ကိုလည်း မည်သည့်ပြင်ဆင်မှုမျှ မပြုလုပ်ခဲ့ပါ။ ဤရလဒ်များကြောင့် လှုံ့ဆော်ခံရပြီး DALL·E ၏ နှိုင်းယှဉ်ကျိုးကြောင်းဆင်ခြင်နိုင်မှုကို 20th century တွင် ကျယ်ကျယ်ပြန့်ပြန့် အသုံးပြုခဲ့သော မြင်ကွင်းဆိုင်ရာ IQ စမ်းသပ်မှု Raven’s progressive matrices ဖြင့် စမ်းသပ်ကာ တိုင်းတာခဲ့သည်။
DALL·E သည် ပထဝီဆိုင်ရာ အချက်အလက်များ၊ အထင်ကရနေရာများနှင့် ရပ်ကွက်များအကြောင်း လေ့လာသိရှိထားကြောင်း တွေ့ရှိရသည်။ ဤအယူအဆများအပေါ် ၎င်း၏ အသိပညာသည် အချို့အပိုင်းများတွင် အံ့အားသင့်ဖွယ် တိကျသော်လည်း အခြားအပိုင်းများတွင် ချို့ယွင်းချက်များ ရှိသည်။
နေရာအလိုက် ကွဲပြားသော အယူအဆများအကြောင်း DALL·E ၏ အသိပညာကို လေ့လာသကဲ့သို့ပင်၊ အချိန်အလိုက် ကွဲပြားသော အယူအဆများအကြောင်း ၎င်း၏ အသိပညာကိုလည်း လေ့လာကြသည်။
DALL·E သည် decoder-only ထရန်(စ်)ဖော်မာ ရိုးရှင်းတစ်ခုဖြစ်ပြီး၊ စာသားနှင့် ရုပ်ပုံကို တိုကင် 1280 ပါဝင်သော စီးဆင်းမှုတစ်ခုတည်းအဖြစ် လက်ခံသည်—စာသားအတွက် 256 နှင့် ရုပ်ပုံအတွက် 1024—နှင့် ၎င်းတို့အားလုံးကို autoregressive ပုံစံဖြင့် မော်ဒယ်လုပ်သည်။ ၎င်း၏ self-attention layer 64 လွှာ တစ်ခုချင်းစီရှိ attention mask သည် ရုပ်ပုံ တိုကင် တစ်ခုစီအား စာသား တိုကင်အားလုံးကို attention ပေးနိုင်စေသည်။ DALL·E သည် စာသား တိုကင်များအတွက် ပုံမှန် causal mask ကို အသုံးပြုပြီး၊ ရုပ်ပုံ တိုကင်များအတွက်မူ layer အလိုက် row, column, သို့မဟုတ် convolutional attention pattern တို့ဖြင့် sparse attention ကို အသုံးပြုသည်။ architecture နှင့် လေ့ကျင့်ရေးလုပ်ငန်းစဉ်အကြောင်း အသေးစိတ်ကို ကျွန်ုပ်တို့၏ စာတမ်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် ပိုမိုဖော်ပြထားသည်။
စာသားမှ ရုပ်ပုံ ဖန်တီးခြင်းသည် Reed et. al ၏ ရှေ့ပြေးသုတေသန1 မှစတင်၍ တက်ကြွသော သုတေသနနယ်ပယ်တစ်ခုဖြစ်လာခဲ့သည်။ ၎င်းတို့၏ နည်းလမ်းမှာ text embeddings ပေါ် မူတည်သည့် GAN ကို အသုံးပြုသည်။ embeddings များကို CLIP နှင့် ဆင်တူသော contrastive loss ဖြင့် pretrain လုပ်ထားသည့် encoder တစ်ခုမှ ထုတ်လုပ်ပေးသည်။ StackGAN3 နှင့် StackGAN++4 သည် ရုပ်ပုံ resolution ကို မြှင့်တင်ပြီး မြင်ကွင်းအရည်အသွေးကို ကောင်းမွန်စေရန် multi-scale GANs ကို အသုံးပြုသည်။ AttnGAN5 သည် စာသားနှင့် ရုပ်ပုံ feature များအကြား attention ကို ပေါင်းစပ်ထားပြီး၊ auxiliary objective အဖြစ် contrastive text-image feature matching loss ကို တင်ပြထားသည်။ ဤအချက်ကို offline ဖြင့် လုပ်ဆောင်သော ကျွန်ုပ်တို့၏ CLIP reranking နှင့် နှိုင်းယှဉ်ကြည့်ရန် စိတ်ဝင်စားဖွယ်ကောင်းသည်။ အခြားသုတေသနများ2 - 6နှင့် 7 သည် လေ့ကျင့်ရေးအတွင်း supervision အရင်းအမြစ်များကို ထပ်မံပေါင်းထည့်၍ ရုပ်ပုံအရည်အသွေး မြှင့်တင်ထားသည်။ နောက်ဆုံးတွင် Nguyen et. al8 နှင့် Cho et. al9 တို့၏ သုတေသနသည် pretrained အမျိုးအစားပေါင်းစုံ discriminative မော်ဒယ်များကို အသုံးချသည့် sampling-based ရုပ်ပုံ ထုတ်လုပ်မှု နည်းဗျူဟာများကို လေ့လာထားသည်။
VQVAE-2(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် အသုံးပြုသော rejection sampling နှင့် ဆင်တူသကဲ့သို့၊ interactive visual များအားလုံးတွင် caption တစ်ခုစီအတွက် နမူနာ 512 ခုထဲမှ ထိပ်ဆုံး 32 ခုကို rerank လုပ်ရန် CLIP ကို အသုံးပြုထားသည်။ ဤလုပ်ငန်းစဉ်ကို language-guided search16 အမျိုးအစားတစ်ခုဟုလည်း မြင်နိုင်ပြီး၊ နမူနာအရည်အသွေးအပေါ် အလွန်ကြီးမားသော သက်ရောက်မှု ရှိစေနိုင်သည်။
ခြေမှတ်များ
- A
တိုကင် ဆိုသည်မှာ discrete vocabulary မှ သင်္ကေတတစ်ခုခုကို ဆိုလိုသည်။ လူများအတွက်ဆိုလျှင် အင်္ဂလိပ်အက္ခရာတစ်လုံးစီသည် အက္ခရာ 26 လုံးပါ alphabet မှ တိုကင်တစ်ခုဖြစ်သည်။ DALL·E ၏ vocabulary တွင် စာသားနှင့် ရုပ်ပုံအယူအဆ နှစ်မျိုးလုံးအတွက် တိုကင်များ ရှိသည်။ အတိအကျဆိုရလျှင် image caption တစ်ခုစီကို vocabulary size 16384 ပါဝင်သော BPE-encoded တိုကင် အများဆုံး 256 ခုဖြင့် ကိုယ်စားပြုပြီး၊ ရုပ်ပုံကို vocabulary size 8192 ပါဝင်သော တိုကင် 1024 ခုဖြင့် ကိုယ်စားပြုထားသည်။
လေ့ကျင့်ရေးအတွင်း ရုပ်ပုံများကို 256x256 resolution သို့ ကြိုတင်ပြင်ဆင်ထားသည်။ VQVAE နှင့် ဆင်တူသကဲ့သို့ အစီအစဉ်တစ်ခုစီကို continuous relaxation ဖြင့် pretrain လုပ်ထားသော discrete VAE ကို အသုံးပြုကာ 32x32 grid ရှိ discrete နောက်ခံကုဒ်များသို့ ဖိသိပ်ထားသည်။ relaxation ကို အသုံးပြုသည့် လေ့ကျင့်ရေးသည် explicit codebook၊ EMA loss သို့မဟုတ် dead code revival ကဲ့သို့ နည်းလမ်းများ မလိုအပ်စေဘဲ vocabulary size ကြီးမားသည့်အထိ scale up လုပ်နိုင်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။
- B
အသေးစိတ်အချက်အလက်များကို နောက်ပိုင်းအပိုင်းတစ်ခုတွင် ပေးထားသည်။
- 17
ဤလုပ်ငန်းကို variable binding ဟုခေါ်ပြီး၊ စာပေများတွင် ကျယ်ကျယ်ပြန့်ပြန့် လေ့လာထားကြသည်။
ကိုးကားချက်များ
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်များ အပြိုင်ပြုကွက်ကွန်ရက်များဖြင့် စာသားမှ ရုပ်ပုံ ဖန်တီးခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)”. In ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “ဘာကို ဘယ်နေရာမှာ ရေးဆွဲရမည်ကို လေ့လာခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)”. In NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: stacked ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်များ အပြိုင်ပြုကွက်ကွန်ရက်များဖြင့် စာသားမှ ဓာတ်ပုံကဲ့သို့ ရုပ်ပုံ ဖန်တီးခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)”. In ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: stacked ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်များ အပြိုင်ပြုကွက်ကွန်ရက်များဖြင့် လက်တွေ့ဆန်သော ရုပ်ပုံ ဖန်တီးခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)”. In IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: အာရုံစိုက်မှုဆိုင်ရာ ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်များ အပြိုင်ပြုကွက်ကွန်ရက်များဖြင့် အသေးစိတ်ကျသော စာသားမှ ရုပ်ပုံ ထုတ်လုပ်မှု(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “adversarial training မှတစ်ဆင့် အရာဝတ္ထုအခြေပြု စာသားမှ ရုပ်ပုံ ဖန်တီးခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)”. In CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “အသုံးပြုသူ အာရုံစိုက်မှုအသေးစိတ်ပေါ် အခြေခံထားသော စာသားမှ ရုပ်ပုံ ထုတ်လုပ်မှု(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)”. In WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). “Plug & play ထုတ်လုပ်ပေးနိုင်သော ကွန်ရက်များ: နောက်ခံအာကာသအတွင်း ပုံရိပ်များကို အခြေအနေပေး iterative ထုတ်လုပ်ခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: အမျိုးအစားပေါင်းစုံ ထရန်(စ်)ဖော်မာများဖြင့် ပန်းချီဆွဲခြင်း၊ caption ပေးခြင်းနှင့် မေးခွန်းများ ဖြေခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)”. EMNLP 2020.
- 10
Kingma, Diederik P., and Max Welling. “Auto-encoding variational bayes(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. “deep ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်များတွင် stochastic backpropagation နှင့် approximate inference(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). “Gumbel-softmax ဖြင့် categorical reparametrization(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)”.
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “The Concrete distribution: discrete random variables ၏ continuous relaxation တစ်ခု(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)”.
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Neural discrete representation learning(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)”.
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “VQ-VAE-2 ဖြင့် မတူကွဲပြားပြီး အရည်အသွေးမြင့် ရုပ်ပုံများ ဖန်တီးခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)”.
- 16
Andreas, J., Klein, D., Levine, S. (2017). “နောက်ခံ Language ဖြင့် လေ့လာခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)”.
- 17
- 18
- 19
Gayler, R. (1998). “Multiplicative binding, representation operators & analogy(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)”.
- 20
Kanerva, P. (1997). “Fully distributed representations(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)”.


