၂၀၂၂ ဇွန် ၂၈

DALL·E 2 အကြိုလေ့ကျင့်သင်ကြားခြင်းဆိုင်ရာ လျော့ပါးစေမှုများ

ဦးထုပ်များ ဆောင်းထားပြီး အလံများ ကိုင်ဆောင်ထားသော လူအုပ်ကြီးကို အပေါ်စီးမှ မြင်ရသည့် မြင်ကွင်း

DALL·E

ဖွင့်နေသည်…

DALL·E 2⁠ ၏ အံ့ဖွယ်ကောင်းမှုကို ပရိသတ်ကျယ်ပြန့်စွာနှင့် မျှဝေနိုင်ရန်၊ အားကောင်းသော ရုပ်ပုံ ထုတ်လုပ်မှု မော်ဒယ်များနှင့် ဆက်စပ်သော အန္တရာယ်များကို လျှော့ချရန် လိုအပ်ခဲ့သည်။ ထို့ကြောင့် ထုတ်လုပ်ထားသော ရုပ်ပုံများက ကျွန်ုပ်တို့၏ content policy⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို မချိုးဖောက်စေရန် guardrails⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) မျိုးစုံကို ထည့်သွင်းထားခဲ့သည်။

ဤပို့စ်သည် DALL·E 2 သင်ယူသော ဒေတာကို တိုက်ရိုက် ပြုပြင်ပြောင်းလဲပေးသည့် guardrails များ၏ အစိတ်အပိုင်းခွဲတစ်ခုဖြစ်သော အကြိုလေ့ကျင့်သင်ကြားခြင်းဆိုင်ရာ လျော့ပါးစေမှုများ ကို အဓိကထား ဖော်ပြထားသည်။ အထူးသဖြင့် DALL·E 2 ကို အင်တာနက်ပေါ်မှ caption ပါသော ရုပ်ပုံ ရာနှင့်ချီသော သန်းပေါင်းများစွာအပေါ် လေ့ကျင့်ထားပြီး၊ မော်ဒယ်က ဘာကို သင်ယူမည်ကို ပြောင်းလဲရန် ကျွန်ုပ်တို့သည် ဤရုပ်ပုံအချို့ကို ဖယ်ရှားခြင်းနှင့် reweight လုပ်ခြင်းတို့ကို လုပ်ဆောင်သည်။

ဤပို့စ်ကို ကဏ္ဍ ၃ ခုဖြင့် စုစည်းထားပြီး ကဏ္ဍတစ်ခုချင်းစီသည် မတူညီသော အကြိုလေ့ကျင့်သင်ကြားခြင်း လျော့ပါးစေမှုတစ်ခုကို ဖော်ပြထားသည်။

ပထမကဏ္ဍတွင် DALL·E 2 ၏ လေ့ကျင့်ရေး ဒေတာအစုမှ အကြမ်းဖက်မှုနှင့် လိင်ပိုင်းဆိုင်ရာ ရုပ်ပုံများကို မည်သို့ စစ်ထုတ်ဖယ်ရှားခဲ့သည်ကို ဖော်ပြထားသည်။ ဤလျော့ပါးစေမှု မရှိပါက၊ မော်ဒယ်သည် ထိုသို့သော ရုပ်ပုံများကို တောင်းဆိုသည့်အခါ ပြင်းထန်စွာဖော်ပြသော သို့မဟုတ် ရှင်းလင်းသော ရုပ်ပုံများကို ထုတ်ပေးရန် သင်ယူမည်ဖြစ်ပြီး၊ ထင်ရသလောက် အန္တရာယ်မရှိသော တုံ့ပြန်ညွှန်ကြားချက်များကိုပင် မရည်ရွယ်ဘဲ ထိုသို့သော ရုပ်ပုံများ ပြန်ပေးနိုင်သည်။
ဒုတိယကဏ္ဍတွင် လေ့ကျင့်ရေးဒေတာကို စစ်ထုတ်ခြင်းသည် ဘက်လိုက်မှုများကို ပိုမိုပြင်းထန်စေနိုင်ကြောင်း တွေ့ရှိပြီး၊ ဤအကျိုးသက်ရောက်မှုကို လျော့ပါးစေသည့် ကျွန်ုပ်တို့၏ နည်းလမ်းကို ဖော်ပြထားသည်။ ဥပမာအားဖြင့် ဤလျော့ပါးစေမှု မရှိပါက၊ စစ်ထုတ်ထားသော ဒေတာအပေါ် လေ့ကျင့်ထားသော မော်ဒယ်များသည် မူလ ဒေတာအစုအပေါ် လေ့ကျင့်ထားသော မော်ဒယ်များနှင့် နှိုင်းယှဉ်လျှင် အမျိုးသားများကို ဖော်ပြသော ရုပ်ပုံများ ပိုထုတ်ပြီး အမျိုးသမီးများကို ဖော်ပြသော ရုပ်ပုံများ ပိုနည်းကြောင်း ကျွန်ုပ်တို့ သတိပြုမိခဲ့သည်။
နောက်ဆုံးကဏ္ဍတွင် memorization ပြဿနာကို လှည့်ကြည့်ကာ DALL·E 2 ကဲ့သို့သော မော်ဒယ်များသည် အသစ်သော ရုပ်ပုံများ ဖန်တီးခြင်းအစား လေ့ကျင့်ခဲ့သော ရုပ်ပုံများကို တခါတရံ ပြန်ထုတ်နိုင်ကြောင်း တွေ့ရှိခဲ့သည်။ လက်တွေ့တွင်၊ ဤ image regurgitation သည် ဒေတာအစုအတွင်း အကြိမ်များစွာ ကူးပွားထားသော ရုပ်ပုံများကြောင့် ဖြစ်ပေါ်လာသည်ကို တွေ့ရှိခဲ့ပြီး၊ အခြားရုပ်ပုံများနှင့် မျက်မြင်ပေါ်တွင် ဆင်တူသည့် ရုပ်ပုံများကို ဖယ်ရှားခြင်းဖြင့် ဤပြဿနာကို လျော့ပါးစေခဲ့သည်။

ပြင်းထန်ပြီး ရှင်းလင်းသော လေ့ကျင့်ရေးဒေတာကို လျှော့ချခြင်း

လေ့ကျင့်ရေးဒေတာသည် သင်ယူထားသော မော်ဒယ်တိုင်း၏ စွမ်းဆောင်နိုင်မှုကို ပုံဖော်ပေးသောကြောင့်၊ ဒေတာစစ်ထုတ်ခြင်းသည် မလိုလားအပ်သော မော်ဒယ်စွမ်းရည်များကို ကန့်သတ်ရန် အားကောင်းသော ကိရိယာတစ်ခုဖြစ်သည်။ ကျွန်ုပ်တို့သည် ဤနည်းလမ်းကို အမျိုးအစား ၂ မျိုးဖြစ်သော ပြင်းထန်သော အကြမ်းဖက်မှုကို ဖော်ပြသည့် ရုပ်ပုံများနှင့် လိင်ပိုင်းဆိုင်ရာ အကြောင်းအရာများအတွက် အသုံးပြုခဲ့ပြီး၊ DALL·E 2 ကို လေ့ကျင့်မတိုင်မီ ဤအမျိုးအစားများရှိ ရုပ်ပုံများကို ဒေတာအစုမှ စစ်ထုတ်ဖယ်ရှားရန် classifier များကို အသုံးပြုခဲ့သည်။ ဤ ရုပ်ပုံ classifier များကို ကျွန်ုပ်တို့အဖွဲ့အတွင်း လေ့ကျင့်တည်ဆောက်ခဲ့ပြီး၊ dataset filtering သည် လေ့ကျင့်ထားသော မော်ဒယ်အပေါ် မည်သို့ သက်ရောက်သည်ကို ဆက်လက် လေ့လာနေဆဲဖြစ်သည်။

ကျွန်ုပ်တို့၏ ရုပ်ပုံ classifier များကို လေ့ကျင့်ရန်၊ ယခင်က GLIDE⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) အတွက် လေ့ကျင့်ရေးဒေတာ စစ်ထုတ်ရာတွင် အသုံးပြုခဲ့သော နည်းလမ်းတစ်ခုကို ပြန်လည် အသုံးပြုခဲ့သည်။ ဤနည်းလမ်း၏ အခြေခံအဆင့်များမှာ အောက်ပါအတိုင်းဖြစ်သည်။ ပထမဦးစွာ အမှတ်တပ်လိုသော ရုပ်ပုံအမျိုးအစားများအတွက် specification တစ်ခု ဖန်တီးသည်။ ဒုတိယအနေဖြင့် အမျိုးအစားတစ်ခုစီအတွက် positive နှင့် negative ဥပမာ အနည်းငယ်ရာကို စုဆောင်းသည်။ တတိယအနေဖြင့် တက်ကြွ သင်ယူမှု လုပ်ငန်းစဉ်တစ်ခုကို အသုံးပြု၍ ဒေတာပိုမို စုဆောင်းကာ precision/recall trade-off ကို တိုးတက်စေသည်။ နောက်ဆုံးအနေဖြင့် recall ကို precision ထက် ဦးစားပေးသည့် ထိန်းသိမ်းထားသော classification threshold ဖြင့် ရလာသော classifier ကို ဒေတာအစုတစ်ခုလုံးအပေါ် run လုပ်သည်။ ဤ threshold များကို သတ်မှတ်ရာတွင် bad data အားလုံးကို စစ်ထုတ်ဖယ်ရှားခြင်းကို good data အားလုံးကို ချန်ထားခြင်းထက် ပိုဦးစားပေးခဲ့သည်။ အကြောင်းမှာ နောက်ပိုင်းတွင် မော်ဒယ်ကို ဒေတာပိုမိုဖြင့် fine-tune လုပ်ကာ အသစ်များ သင်ပေးနိုင်သော်လည်း၊ မော်ဒယ်က သင်ယူပြီးသား အရာတစ်ခုကို မေ့စေခြင်းမှာ ပိုမိုခက်ခဲသောကြောင့် ဖြစ်သည်။

ဖွင့်နေသည်...

တက်ကြွ သင်ယူမှုအဆင့်အတွင်းတွင်၊ အခက်အခဲရှိနိုင်သော သို့မဟုတ် မှားယွင်းခွဲခြားထားသော ရုပ်ပုံများအတွက် လူသားအမှတ်အသားများ စုဆောင်းခြင်းဖြင့် ကျွန်ုပ်တို့၏ အမျိုးအစားခွဲကိရိယာများကို ထပ်တလဲလဲ တိုးတက်အောင် လုပ်ဆောင်ခဲ့သည်။ အထူးသဖြင့်၊ ကျွန်ုပ်တို့၏ ဒေတာအစုမှ (အမှတ်မတပ်ရသေးသော ရုပ်ပုံများ ရာနှင့်ချီသော သန်းပေါင်းများစွာ ပါဝင်သည်) လူများအား အမှတ်တပ်ရန် ပြသမည့် ရုပ်ပုံများကို ရွေးချယ်ရန် တက်ကြွ သင်ယူမှု နည်းလမ်း ၂ မျိုးကို အသုံးပြုခဲ့သည်။ ပထမဦးစွာ၊ ကျွန်ုပ်တို့၏ အမျိုးအစားခွဲကိရိယာ၏ false positive rate ကို လျှော့ချရန် (ဆိုလိုသည်မှာ အန္တရာယ်မရှိသော ရုပ်ပုံတစ်ပုံကို အကြမ်းဖက် သို့မဟုတ် လိင်ပိုင်းဆိုင်ရာအဖြစ် မှားယွင်းခွဲခြားသည့် အကြိမ်ရေ) လက်ရှိ မော်ဒယ်က positive ဟု ခွဲခြားထားသော ရုပ်ပုံများကို လူသားအမှတ်အသား ပေးအပ်စေခဲ့သည်။ ဤအဆင့် ကောင်းမွန်စွာ အလုပ်လုပ်စေရန်၊ recall ကို 100% နီးပါး ရရှိစေပြီး false-positive rate မြင့်နေစေရန် ကျွန်ုပ်တို့သည် classification threshold ကို ချိန်ညှိခဲ့သည်။ ထို့ကြောင့် ကျွန်ုပ်တို့၏ အမှတ်ပေးသူများသည် အမှန်တကယ် negative ဖြစ်သော ကိစ္စများကို အများစု အမှတ်တပ်နေခဲ့ကြသည်။ ဤနည်းလမ်းသည် false positives များကို လျှော့ချရန်နှင့် အမှတ်ပေးသူများက ထိခိုက်နိုင်သော ရုပ်ပုံများကို ကြည့်ရရန် လိုအပ်ချက်ကို လျှော့ချပေးသော်လည်း၊ လက်ရှိ မော်ဒယ်က လွဲချော်နေသော positive case များကို ပိုမို ရှာဖွေရန်မကူညီနိုင်ပါ။

ကျွန်ုပ်တို့၏ အမျိုးအစားခွဲကိရိယာ၏ false negative rate ကို လျှော့ချရန် ဒုတိယ တက်ကြွ သင်ယူမှု နည်းလမ်းတစ်ခုဖြစ်သော nearest neighbor search ကို အသုံးပြုခဲ့သည်။ အထူးသဖြင့်၊ လက်ရှိ အမှတ်တပ်ထားပြီးသော ဒေတာအစုအတွင်း မော်ဒယ်က negative ဟု မှားယွင်းခွဲခြားလေ့ရှိသော positive sample များကို ရှာဖွေရန် many-fold cross-validation ကို လုပ်ဆောင်ခဲ့သည် (ဤအတွက် train-validation split မတူသော classifier ဗားရှင်း ရာနှင့်ချီကို အမှန်တကယ် လေ့ကျင့်ခဲ့သည်)။ ထို့နောက် perceptual feature space တစ်ခုအတွင်း ဤ sample များ၏ nearest neighbors များကို ရှာဖွေရန် အမှတ်မတပ်ရသေးသော ရုပ်ပုံ အစုကြီးကို scan လုပ်ခဲ့ပြီး၊ တွေ့ရှိသော ရုပ်ပုံများကို လူသားအမှတ်အသား ပေးစေခဲ့သည်။ ကျွန်ုပ်တို့၏ compute infrastructure ကြောင့် classifier training နှင့် nearest neighbor search နှစ်ခုလုံးကို GPU များစွာအထိ တိုးချဲ့ရန် အလွန်လွယ်ကူခဲ့ပြီး၊ တက်ကြွ သင်ယူမှုအဆင့်ကို နာရီများ သို့မဟုတ် ရက်များအစား မိနစ်အနည်းငယ်အတွင်း ပြီးမြောက်စေခဲ့သည်။

ကျွန်ုပ်တို့၏ ဒေတာစစ်ထုတ်ကိရိယာများ၏ ထိရောက်မှုကို စစ်ဆေးရန်၊ တူညီသော hyperparameters များဖြင့် GLIDE မော်ဒယ် ၂ ခုကို လေ့ကျင့်ခဲ့သည်။ တစ်ခုမှာ မစစ်ထုတ်ထားသော ဒေတာပေါ်တွင်၊ နောက်တစ်ခုမှာ စစ်ထုတ်ပြီးနောက် ဒေတာအစု ပေါ်တွင် ဖြစ်သည်။ ပထမ မော်ဒယ်ကို unfiltered model ဟု၊ နောက်တစ်ခုကို filtered model ဟု ရည်ညွှန်းသည်။ မျှော်လင့်ထားသည့်အတိုင်း filtered model သည် ဤအမျိုးအစား အကြောင်းအရာများကို တောင်းဆိုသောအခါ ပိုမိုရှင်းလင်းသော သို့မဟုတ် ပြင်းထန်စွာ ဖော်ပြသော အကြောင်းအရာ နည်းပါးစွာ ထုတ်ပေးသည်ကို တွေ့ရှိခဲ့သည်။ သို့သော် ဒေတာစစ်ထုတ်မှု၏ မမျှော်လင့်ထားသော ဘေးထွက်သက်ရောက်မှုတစ်ခုကိုလည်း တွေ့ရှိခဲ့သည်။ ၎င်းသည် အချို့သော လူဦးရေအုပ်စုများအပေါ် မော်ဒယ်၏ ဘက်လိုက်မှုများကို ဖန်တီးပေးခြင်း သို့မဟုတ် ပိုမိုပြင်းထန်စေခြင်း ဖြစ်သည်။

ဖွင့်နေသည်...

ဒေတာစစ်ထုတ်ကိရိယာများကြောင့် ဖြစ်လာသော ဘက်လိုက်မှုကို ပြင်ဆင်ခြင်း

ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်များသည် ၎င်းတို့၏ လေ့ကျင့်ရေးဒေတာ၏ ဖြန့်ဖြူးပုံကို၊ ထိုအတွင်းရှိ ဘက်လိုက်မှုများအပါအဝင်၊ ကိုက်ညီအောင် ကြိုးစားကြသည်။ ထို့ကြောင့် လေ့ကျင့်ရေးဒေတာကို စစ်ထုတ်ခြင်းသည် နောက်ဆက်တွဲ မော်ဒယ်များတွင် ဘက်လိုက်မှုများကို ဖန်တီးခြင်း သို့မဟုတ် ပိုမိုပြင်းထန်စေခြင်း ဖြစ်နိုင်သည်။ ယေဘုယျအားဖြင့် မူလ ဒေတာအစုအတွင်းရှိ ဘက်လိုက်မှုများကို ပြင်ဆင်ခြင်းသည် လူမှုရေးနှင့် နည်းပညာကို ပေါင်းစပ်ရသည့် ခက်ခဲသော လုပ်ငန်းတစ်ခုဖြစ်ပြီး၊ ကျွန်ုပ်တို့သည် ၎င်းကို ဆက်လက် လေ့လာနေဆဲဖြစ်ကာ ဤပို့စ်၏ အကျယ်အဝန်းကို ကျော်လွန်သည်။ ဤနေရာတွင် ကျွန်ုပ်တို့ ကိုင်တွယ်သည့် ပြဿနာမှာ ဒေတာစစ်ထုတ်ခြင်း ကိုယ်တိုင်ကြောင့် ဖြစ်ပေါ်သော ဘက်လိုက်မှု ပိုမိုပြင်းထန်လာခြင်း ဖြစ်သည်။ ကျွန်ုပ်တို့၏ နည်းလမ်းဖြင့် filtered model သည် unfiltered model ထက် ပိုပြီး ဘက်လိုက်မနေစေရန်၊ အခြေခံအားဖြင့် ဒေတာစစ်ထုတ်ခြင်းကြောင့် ဖြစ်လာသော distribution shift ကို လျှော့ချရန် ရည်ရွယ်သည်။

filtering ကြောင့် bias ပိုမိုပြင်းထန်လာသည့် အတိအကျ ဥပမာတစ်ခုအဖြစ် “a ceo” ဟူသော တုံ့ပြန်ညွှန်ကြားချက်ကို စဉ်းစားကြည့်ပါ။ ကျွန်ုပ်တို့၏ unfiltered model သည် ဤတုံ့ပြန်ညွှန်ကြားချက်အတွက် ရုပ်ပုံများ ထုတ်ပေးသောအခါ အမျိုးသမီးထက် အမျိုးသားရုပ်ပုံများ ပိုမိုထွက်လာလေ့ရှိခဲ့ပြီး၊ ဤဘက်လိုက်မှုအများစုသည် ကျွန်ုပ်တို့၏ လက်ရှိ လေ့ကျင့်ရေးဒေတာ၏ ရောင်ပြန်ဟပ်မှုဖြစ်မည်ဟု မျှော်လင့်သည်။ သို့သော် တူညီသော တုံ့ပြန်ညွှန်ကြားချက်ကို filtered model ထဲတွင် run လုပ်သောအခါ ဘက်လိုက်မှုသည် ပိုမိုပြင်းထန်လာသကဲ့သို့ ထင်ရပြီး၊ ထုတ်လုပ်မှုများမှာ အမျိုးသားများ၏ ရုပ်ပုံများနီးပါးသာ ဖြစ်သွားခဲ့သည်။

ဤအထူးကိစ္စတွင် bias ပိုမိုပြင်းထန်လာမှုသည် နေရာ ၂ ခုမှ လာသည်ဟု ကျွန်ုပ်တို့ ယူဆထားသည်။ ပထမအချက်မှာ မူလ ဒေတာအစုအတွင်း အမျိုးသမီးများနှင့် အမျိုးသားများကို ကိုယ်စားပြုမှု အကြမ်းဖျင်းတူညီနေသော်လည်း၊ ဒေတာအစုသည် အမျိုးသမီးများကို ပိုမိုလိင်ပိုင်းဆိုင်ရာ ဆန်ဆန် တင်ပြသည့် အခြေအနေများဘက်သို့ ဘက်လိုက်နေနိုင်သည်။ ဒုတိယအချက်မှာ ဒေတာစုဆောင်းခြင်းနှင့် validation အဆင့်များအတွင်း ထိုသို့မဖြစ်စေရန် ကြိုးပမ်းခဲ့သော်လည်း၊ ကျွန်ုပ်တို့၏ classifier များ ကိုယ်တိုင်သည် implementation သို့မဟုတ် class definition ကြောင့် ဘက်လိုက်နေခြင်း ဖြစ်နိုင်သည်။ ဤသက်ရောက်မှု ၂ ခုလုံးကြောင့် filter သည် အမျိုးသားများထက် အမျိုးသမီးများ၏ ရုပ်ပုံများကို ပိုမို ဖယ်ရှားနိုင်ပြီး၊ ထိုအရာက မော်ဒယ်က training အတွင်း တွေ့မြင်ရသော gender ratio ကို ပြောင်းလဲစေသည်။

filter-induced bias ကို ပိုမိုစေ့စပ်စွာ စုံစမ်းရန်၊ ကျွန်ုပ်တို့၏ ဒေတာစစ်ထုတ်ကိရိယာများက အမျိုးမျိုးသော အယူအဆများအပေါ်ရှိ ဘက်လိုက်မှုကို ဘယ်လောက် သက်ရောက်နေသည်ကို တိုင်းတာနိုင်မည့် နည်းလမ်းတစ်ခု လိုချင်ခဲ့သည်။ အထူးသဖြင့် ကျွန်ုပ်တို့၏ အကြမ်းဖက်မှုနှင့် လိင်ပိုင်းဆိုင်ရာ အကြောင်းအရာ filters များသည် ရုပ်ပုံအခြေပြုသက်သက်ဖြစ်သော်လည်း၊ ဒေတာအစု၏ multimodal သဘောသဘာဝကြောင့် ဤ filters များ၏ သက်ရောက်မှုကို စာသားအပေါ် တိုက်ရိုက် တိုင်းတာနိုင်ခဲ့သည်။ ရုပ်ပုံတိုင်းနှင့် စာသား caption တစ်ခုစီ တွဲပါလာသောကြောင့်၊ filtered နှင့် unfiltered ဒေတာအစုများအကြား လက်ဖြင့် ရွေးချယ်ထားသော keyword များ၏ relative frequency ကို ကြည့်ကာ filters များက သတ်မှတ် concept တစ်ခုကို ဘယ်လောက် သက်ရောက်နေသည်ကို ခန့်မှန်းနိုင်ခဲ့သည်။

ဤအရာကို လက်တွေ့လုပ်ဆောင်ရန် Apache Spark ကို အသုံးပြုကာ filtered နှင့် unfiltered ဒေတာအစုနှစ်ခုလုံးရှိ caption များအားလုံးအပေါ် keyword အနည်းငယ် (“parent”, “woman”, “kid” စသည်) ၏ frequency များကို တွက်ချက်ခဲ့သည်။ ကျွန်ုပ်တို့၏ ဒေတာအစုတွင် text-image pair ရာနှင့်ချီသော သန်းပေါင်းများစွာ ပါဝင်သော်လည်း၊ ဤ keyword frequency များကို တွက်ချက်ရန် ကျွန်ုပ်တို့၏ compute cluster ကို အသုံးပြုပြီး မိနစ်အနည်းငယ်သာ ကြာမြင့်ခဲ့သည်။

keyword frequency များကို တွက်ချက်ပြီးနောက်၊ ကျွန်ုပ်တို့၏ dataset filters များက အချို့ keyword များ၏ frequency ကို အခြား keyword များထက် ပိုမို skew လုပ်ခဲ့ကြောင်း အတည်ပြုနိုင်ခဲ့သည်။ ဥပမာအားဖြင့် filters များသည် “woman” ဆိုသည့် စကားလုံး၏ frequency ကို 14% လျှော့ချခဲ့သော်လည်း “man” ၏ frequency ကို 6% သာ လျှော့ချခဲ့သည်။ ဤအချက်က dataset နှစ်ခုလုံးအပေါ် လေ့ကျင့်ထားသော GLIDE မော်ဒယ်များမှ sample ယူကြည့်ခြင်းဖြင့် ကျွန်ုပ်တို့ ယခင်က anecdotal အနေနှင့် သတိထားမိခဲ့သည့် အရာကို အကျယ်အဝန်းကြီးစွာ အတည်ပြုပေးခဲ့သည်။

ဖွင့်နေသည်...

filter-induced bias ကို တိုင်းတာရန် proxy တစ်ခု ရရှိပြီးနောက်၊ ၎င်းကို လျော့ပါးစေမည့် နည်းလမ်းတစ်ခု လိုအပ်လာသည်။ ဤပြဿနာကို ကိုင်တွယ်ရန်၊ စစ်ထုတ်ထားသော ဒေတာအစု၏ ဖြန့်ဖြူးပုံသည် မစစ်ထုတ်ထားသော ရုပ်ပုံများ၏ ဖြန့်ဖြူးပုံနှင့် ပိုမိုကိုက်ညီလာစေရန် filtered dataset ကို re-weight လုပ်ရန် ရည်ရွယ်ခဲ့သည်။ ဤအယူအဆကို ရှင်းလင်းရန် ရိုးရှင်းသော ဥပမာတစ်ခုအနေဖြင့်၊ ကျွန်ုပ်တို့၏ ဒေတာအစုတွင် ကြောင်ဓာတ်ပုံ 50% နှင့် ခွေးဓာတ်ပုံ 50% ပါဝင်သည်ဟု ယူဆပါစို့၊ သို့သော် ဒေတာစစ်ထုတ်ကိရိယာများက ခွေးများ၏ 75% ကို ဖယ်ရှားပြီး ကြောင်များ၏ 50% ကိုသာ ဖယ်ရှားသည်ဟု ဆိုပါစို့။ နောက်ဆုံး ဒေတာအစုသည် ကြောင် ⅔ နှင့် ခွေး ⅓ ဖြစ်သွားမည်ဖြစ်ပြီး၊ ဤဒေတာအစုအပေါ် likelihood-based ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်များကို လေ့ကျင့်ပါက ခွေးထက် ကြောင်ရုပ်ပုံများကို ပိုမို ထုတ်ပေးနိုင်ချေရှိသည်။ ခွေးရုပ်ပုံတိုင်း၏ training loss ကို 2 ဆ မြှောက်ခြင်းဖြင့်၊ ခွေးရုပ်ပုံတိုင်းကို 2 ကြိမ် ထပ်လုပ်ထားသည့် အကျိုးသက်ရောက်မှုကို တုပကာ ဤမညီမျှမှုကို ပြင်ဆင်နိုင်သည်။ ထွက်ပေါ်လာသည်မှာ ဤနည်းလမ်းကို ကျွန်ုပ်တို့၏ တကယ့် ဒေတာအစုများနှင့် မော်ဒယ်များအထိ အများအားဖြင့် အလိုအလျောက်ဖြစ်သော နည်းလမ်းဖြင့် တိုးချဲ့နိုင်သည်—ဆိုလိုသည်မှာ reweight လုပ်လိုသော feature များကို လက်ဖြင့် ရွေးရန် မလိုအပ်ပါ။

စစ်ထုတ်ထားသော ဒေတာအစုအတွင်း ရုပ်ပုံများအတွက် အလေးချိန်များကို Choi et al. (2019)⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) အသုံးပြုခဲ့သော နည်းလမ်းနှင့် ဆင်တူသည့် အထူး classifier တစ်ခုမှ probability များကို အသုံးပြု၍ တွက်ချက်သည်။ ဤ classifier ကို လေ့ကျင့်ရန်၊ ဒေတာအစုနှစ်ခုလုံးမှ ရုပ်ပုံများကို ညီမျှစွာ sample ယူပြီး ရုပ်ပုံသည် မည်သည့် ဒေတာအစုမှ လာသည်ကို ခန့်မှန်းခိုင်းသည်။ အထူးသဖြင့် ဤမော်ဒယ်သည် prior P(unfiltered) = 0.5 ပေးထားသည့်အခြေအနေတွင် P(unfiltered|image) ကို ခန့်မှန်းသည်။ လက်တွေ့တွင်၊ ဤမော်ဒယ်သည် အလွန် အားကောင်းမနေစေချင်ပါ၊ မဟုတ်လျှင် ၎င်းသည် ကျွန်ုပ်တို့၏ filters များ အကောင်အထည်ဖော်ထားသည့် function အတိအကျကို ပထမဦးစွာ သင်ယူသွားနိုင်သည်။ ထို့အစား၊ ၎င်းသည် မူလ ဒေတာစစ်ထုတ်ကိရိယာများထက် ပိုမိုချောမွေ့သော မော်ဒယ်တစ်ခု ဖြစ်စေလိုပြီး၊ filters များသက်ရောက်သည့် အမျိုးအစားကျယ်များကို ဖမ်းယူထားသော်လည်း သီးခြား ရုပ်ပုံတစ်ပုံ စစ်ထုတ်ခံရမလား မခံရမလားဆိုတာအပေါ် မသေချာသေးစေလိုသည်။ ထို့ကြောင့် CLIP⁠ မော်ဒယ်အသေးတစ်ခု၏ အပေါ်တွင် linear probe တစ်ခုကို လေ့ကျင့်ခဲ့သည်။

ရုပ်ပုံတစ်ပုံသည် မစစ်ထုတ်ထားသော ဒေတာအစုမှ ဖြစ်နိုင်ချေကို ခန့်မှန်းပေးသည့် classifier တစ်ခု ရရှိပြီးနောက်၊ ထိုခန့်မှန်းချက်ကို ရုပ်ပုံအတွက် အလေးချိန်တစ်ခုအဖြစ် ပြောင်းရန် လိုအပ်နေဆဲဖြစ်သည်။ ဥပမာအားဖြင့် P(unfiltered|image) = 0.8 ဟု ဆိုပါစို့။ ၎င်းသည် sample တစ်ခုသည် filtered data ထက် unfiltered data တွင် 4 ဆ ပိုမိုတွေ့ရနိုင်ကြောင်း ဆိုလိုပြီး၊ အလေးချိန် 4 သည် ဤမညီမျှမှုကို ပြင်ဆင်ပေးမည်ဖြစ်သည်။ ပိုမို ယေဘုယျအားဖြင့် P(unfiltered|image)/P(filtered|image) အလေးချိန်ကို အသုံးပြုနိုင်သည်။^A

ဤ reweighting scheme သည် ပိုမိုပြင်းထန်လာသော bias ကို အမှန်တကယ် ဘယ်လောက်ထိ လျော့ပါးစေသနည်း။ ကျွန်ုပ်တို့၏ ယခင် filtered model ကို အလေးချိန်စနစ်အသစ်ဖြင့် fine-tune လုပ်သောအခါ၊ fine-tuned model ၏ အပြုအမူသည် ယခင်က တွေ့ရှိထားသော bias ဥပမာများအပေါ် unfiltered model နှင့် ပိုမိုနီးစပ်လာသည်။ ဤအချက်သည် အားတက်စရာဖြစ်သော်လည်း keyword-based bias heuristic ကို အသုံးပြု၍ ဤလျော့ပါးစေမှုကို ပိုမိုစေ့စပ်စွာ အကဲဖြတ်လိုသည်။ အလေးချိန်စနစ်အသစ်ကို ထည့်သွင်းစဉ်းစားပြီး keyword frequency များကို တိုင်းတာရန်၊ filtered dataset အတွင်း keyword တစ်ခု ပေါ်လာသည့် instance တစ်ခုစီကို ထို keyword ပါဝင်သော sample ၏ အလေးချိန်ဖြင့် ရိုးရိုးလေး အလေးချိန်ပေးနိုင်သည်။ ဤသို့လုပ်ခြင်းဖြင့် filtered dataset အတွင်း sample weights များကို ပြန်လည်ထင်ဟပ်သော keyword frequency များအသစ်ကို ရရှိသည်။

ကျွန်ုပ်တို့ စစ်ဆေးခဲ့သော keyword အများစုတွင် reweighting scheme သည် filtering ကြောင့် ဖြစ်လာသော frequency change ကို လျှော့ချပေးခဲ့သည်။ ယခင် “man” နှင့် “woman” ဥပမာများအတွက် relative frequency reduction များသည် 1% နှင့် –1% ဖြစ်သွားခဲ့ပြီး၊ ယခင်တန်ဖိုးများမှာ အစဉ်လိုက် 14% နှင့် 6% ဖြစ်ခဲ့သည်။ ဤ metric သည် တကယ့် filtering bias အတွက် proxy တစ်ခုသာ ဖြစ်သော်လည်း၊ ကျွန်ုပ်တို့၏ image-based reweighting scheme သည် text-based metric တစ်ခုကို ထိုမျှအရေးပါစွာ တိုးတက်ကောင်းမွန်စေသည်မှာ စိတ်ချမ်းသာစရာဖြစ်သည်။

ကျွန်ုပ်တို့သည် DALL·E 2 အတွင်း ကျန်ရှိနေသေးသော ဘက်လိုက်မှုများကို ဆက်လက် စုံစမ်းလေ့လာနေပြီး၊ အချို့အပိုင်းများတွင် မော်ဒယ်၏ အပြုအမူအပေါ် ပိုမိုကြီးမားသော အကဲဖြတ်မှုများနှင့် filtering သည် bias နှင့် capability development အပေါ် မည်သို့ သက်ရောက်ခဲ့သည်ကို စုံစမ်းလေ့လာခြင်းများလည်း ပါဝင်သည်။

ရုပ်ပုံများကို စာသားတူ ပြန်ထုတ်မှု တားဆီးခြင်း

ကျွန်ုပ်တို့သည် DALL·E 2 မတိုင်မီရှိ အတွင်းပိုင်း ရှေ့ပြေးမော်ဒယ်များက တခါတရံ လေ့ကျင့်ရေး ရုပ်ပုံများကို စာသားတူ အတိုင်း ပြန်ထုတ်ပေးသည်ကို တွေ့ရှိခဲ့သည်။ ဤအပြုအမူသည် မလိုလားအပ်သောအရာဖြစ်သည်၊ အကြောင်းမှာ DALL·E 2 သည် ပုံမှန်အားဖြင့် မူရင်းဆန်ပြီး ထူးခြားသော ရုပ်ပုံများကို ဖန်တီးစေလိုပြီး ရှိနှင့်ပြီးသော ရုပ်ပုံအပိုင်းအစများကို “ချုပ်ဆက်” ထားသကဲ့သို့ မဖြစ်စေလိုသောကြောင့် ဖြစ်သည်။ ထို့အပြင် လေ့ကျင့်ရေး ရုပ်ပုံများကို စာသားတူ အတိုင်း ပြန်ထုတ်ပေးခြင်းသည် မူပိုင်ခွင့်ချိုးဖောက်မှု၊ ပိုင်ဆိုင်မှုနှင့် ကိုယ်ရေးကိုယ်တာ (လူများ၏ ဓာတ်ပုံများ လေ့ကျင့်ရေးဒေတာတွင် ပါဝင်နေပါက) နှင့်ပတ်သက်သည့် ဥပဒေဆိုင်ရာ မေးခွန်းများကိုလည်း ပေါ်ပေါက်စေနိုင်သည်။

image regurgitation ပြဿနာကို ပိုမိုနားလည်ရန်၊ မကြာခဏ ထပ်တူရုပ်ပုံများ ထွက်ပေါ်စေသည့် တုံ့ပြန်ညွှန်ကြားချက်များ၏ ဒေတာအစုတစ်ခုကို စုဆောင်းခဲ့သည်။ ဤသို့လုပ်ရန် ကျွန်ုပ်တို့သည် လေ့ကျင့်ပြီးသား မော်ဒယ်တစ်ခုကို အသုံးပြုကာ လေ့ကျင့်ရေး ဒေတာအစုမှ တုံ့ပြန်ညွှန်ကြားချက် 50,000 အတွက် ရုပ်ပုံများကို sample ထုတ်ယူခဲ့ပြီး၊ sample များကို သက်ဆိုင်ရာ လေ့ကျင့်ရေး ရုပ်ပုံနှင့် perceptual similarity အလိုက် စီထားခဲ့သည်။ နောက်ဆုံးတွင် ထိပ်တန်းတူညီမှုများကို လက်ဖြင့် စစ်ဆေးခဲ့ရာ၊ စုစုပေါင်း 50k တုံ့ပြန်ညွှန်ကြားချက်များအနက် အမှန်တကယ် duplicate pair တစ်ချို့ ရာဂဏန်းသာ တွေ့ရှိခဲ့သည်။ regurgitation rate သည် 1% အောက်သာ ရှိသည်ဟု မြင်ရသော်လည်း၊ အထက်တွင် ဖော်ပြခဲ့သော အကြောင်းရင်းများကြောင့် ၎င်းကို 0 ထိ လျှော့ချရန် လိုအပ်သည်ဟု ကျွန်ုပ်တို့ ယူဆခဲ့သည်။

regurgitated images များ၏ ဒေတာအစုကို လေ့လာရာတွင် pattern ၂ ခုကို သတိပြုမိခဲ့သည်။ ပထမ၊ ရုပ်ပုံများမှာ အများအားဖြင့် ရိုးရှင်းသော vector graphics များဖြစ်ပြီး၊ ၎င်းတို့၏ သတင်းအချက်အလက်ပါဝင်မှု နည်းပါးသဖြင့် မှတ်မိရန် လွယ်ကူနိုင်သည်။ ဒုတိယနှင့် ပိုအရေးကြီးသောအချက်မှာ ရုပ်ပုံများအားလုံးတွင် လေ့ကျင့်ရေးဒေတာအစုအတွင်း near-duplicate များ အများအပြား ရှိနေခြင်း ဖြစ်သည်။ ဥပမာအားဖြင့် 1 နာရီ ထိုးနေသည့် နာရီပုံနှင့် ဆင်တူသော vector graphic တစ်ခု ရှိနိုင်သည်—သို့သော် ထို့နောက် 2 နာရီ၊ 3 နာရီ စသည်ဖြင့် ပြထားသော တူညီသော နာရီပါဝင်သည့် လေ့ကျင့်ရေး sample များကို တွေ့ရှိနိုင်သည်။ ဤအချက်ကို နားလည်လာပြီးနောက်၊ ဖြန့်ကျက်ထားသော nearest neighbor search ကို အသုံးပြုကာ regurgitated images များအားလုံးတွင် ဒေတာအစုအတွင်း perceptually similar duplicates များ ရှိကြောင်း အတည်ပြုခဲ့သည်။ အခြား⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) လေ့လာမှုများ⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကလည်း ကြီးမားသော language model များတွင် အလားတူ ဖြစ်စဉ်ကို တွေ့ရှိထားပြီး၊ ဒေတာထပ်ပွားမှုသည် memorization နှင့် အလွန်နီးကပ်စွာ ဆက်နွယ်နေသည်ကို တွေ့ရှိခဲ့သည်။

အထက်ပါ တွေ့ရှိချက်က ကျွန်ုပ်တို့၏ ဒေတာအစုကို deduplicate လုပ်ပါက regurgitation ပြဿနာကို ဖြေရှင်းနိုင်မည်ဟု အကြံပြုခဲ့သည်။ ၎င်းကို ပြုလုပ်ရန်၊ ဆင်တူကြည့်ရသော ရုပ်ပုံအုပ်စုများကို ခွဲခြားသတ်မှတ်ရန် neural network တစ်ခုကို အသုံးပြုရန် စီစဉ်ခဲ့ပြီး၊ ထို့နောက် အုပ်စုတစ်ခုစီမှ ရုပ်ပုံတစ်ပုံတည်းသာ ချန်ထားပြီး ကျန်အားလုံးကို ဖယ်ရှားမည်ဖြစ်သည်။^B

သို့သော် ဤလုပ်ငန်းစဉ်အတွက် ရုပ်ပုံတစ်ပုံစီအတွက် ဒေတာအစုအတွင်းရှိ အခြားရုပ်ပုံအားလုံးနှင့် duplicate ဖြစ်မဖြစ် စစ်ဆေးရမည်ဖြစ်သည်။ ကျွန်ုပ်တို့၏ ဒေတာအစုတစ်ခုလုံးတွင် ရုပ်ပုံ ရာနှင့်ချီသော သန်းပေါင်းများစွာ ပါဝင်သောကြောင့်၊ duplicate များအားလုံးကို ရှာဖွေရန် ပုံမှန်နည်းလမ်းအရ ရုပ်ပုံစုံတွဲ ရာနှင့်ချီသော quadrillion များကို စစ်ဆေးရန် လိုအပ်မည်ဖြစ်သည်။ နည်းပညာပိုင်းအရ၊ အထူးသဖြင့် ကြီးမားသော compute cluster ပေါ်တွင် ဤအရာသည် လက်လှမ်းမီနိုင်သော်လည်း၊ ကုန်ကျစရိတ်အနည်းငယ်သာ သုံးပြီး အလားတူ ထိရောက်မှုရသော ပိုမိုထိရောက်သည့် အခြားနည်းလမ်းတစ်ခုကို ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။ deduplication မလုပ်မီ ဒေတာအစုကို cluster ခွဲလိုက်လျှင် ဘာဖြစ်မလဲ ဆိုသည်ကို စဉ်းစားကြည့်ပါ။ နီးစပ်သော sample များသည် တူညီသော cluster ထဲသို့ မကြာခဏ ကျရောက်သောကြောင့် duplicate pair အများစုသည် cluster decision boundary များကို မဖြတ်ကျော်ပါ။ ထို့နောက် cluster တစ်ခုစီအတွင်းရှိ sample များကိုသာ deduplicate လုပ်နိုင်ပြီး၊ cluster ပြင်ပရှိ duplicates များကို စစ်ဆေးရန် မလိုတော့ဘဲ duplicate pair အားလုံးအနက် အနည်းငယ်သာ လွဲချော်မည်ဖြစ်သည်။ ဤနည်းလမ်းသည် ပုံမှန်နည်းလမ်းထက် အလွန်မြန်ဆန်ပြီး၊ ရုပ်ပုံစုံတွဲတိုင်းကို စစ်ဆေးရန် မလိုတော့ပါ။^C

ဤနည်းလမ်းကို ကျွန်ုပ်တို့၏ ဒေတာအချို့အပေါ် လက်တွေ့စမ်းသပ်ရာတွင် K=1024 clusters ကို အသုံးပြုသည့်အခါ duplicate pair အားလုံး၏ 85% ကို ရှာတွေ့ခဲ့သည်။ အထက်ပါ algorithm ၏ အောင်မြင်မှုနှုန်းကို တိုးမြှင့်ရန် အရေးကြီးသော သတိပြုချက်တစ်ခုကို အသုံးချခဲ့သည်။ ဒေတာအစုတစ်ခု၏ random subset မတူညီသောအစုများကို cluster ခွဲသည့်အခါ ထွက်ပေါ်လာသော cluster decision boundary များသည် မကြာခဏ အလွန်ကွဲပြားနေတတ်သည်။ ထို့ကြောင့် duplicate pair တစ်ခုသည် cluster ခွဲတစ်ခုအတွက် boundary ကို ဖြတ်ကျော်သွားပါက၊ အခြား clustering တစ်ခုတွင် တူညီသော pair သည် cluster တစ်ခုတည်းအတွင်း ကျရောက်နိုင်သည်။ clustering များကို ပိုမိုစမ်းလေလေ duplicate pair တစ်ခုကို တွေ့ရှိနိုင်ခြေ ပိုမိုမြင့်လေလေ ဖြစ်သည်။ လက်တွေ့တွင် ကျွန်ုပ်တို့သည် clustering ၅ ခုကို အသုံးပြုရန် ဆုံးဖြတ်ခဲ့ပြီး၊ ဆိုလိုသည်မှာ ရုပ်ပုံတစ်ပုံစီ၏ duplicate များကို မတူညီသော cluster ၅ ခု၏ ပေါင်းစည်းအစုအတွင်း ရှာဖွေခြင်း ဖြစ်သည်။ လက်တွေ့တွင် ဤနည်းလမ်းသည် ကျွန်ုပ်တို့၏ ဒေတာအချို့တွင် duplicate pair အားလုံး၏ 97% ကို တွေ့ရှိခဲ့သည်။

အံ့အားသင့်ဖွယ်ကောင်းစွာပင်၊ deduplication ကြောင့် ကျွန်ုပ်တို့၏ ဒေတာအစု၏ လေးပုံတစ်ပုံနီးပါးကို ဖယ်ရှားခဲ့ရသည်။ တွေ့ရှိထားသော near-duplicate pair များကို ကြည့်ရှုရာတွင် ၎င်းတို့ထဲမှ အများအပြားတွင် အဓိပ္ပာယ်ရှိသော အပြောင်းအလဲများ ပါဝင်နေသည်ကို တွေ့ရသည်။ အထက်ပါ နာရီဥပမာကို ပြန်သတိရကြည့်ပါ။ ဒေတာအစုတွင် တူညီသော နာရီကို နေ့အချိန်မတူညီဘဲ ပြထားသော ရုပ်ပုံများစွာ ပါဝင်နိုင်သည်။ ဤရုပ်ပုံများသည် မော်ဒယ်အား သီးခြား နာရီတစ်လုံး၏ အသွင်အပြင်ကို မှတ်မိစေနိုင်သော်လည်း၊ နာရီပေါ်မှ အချိန်ကွာခြားချက်များကို ခွဲခြားသိစေရန်လည်း ကူညီနိုင်သည်။ ဖယ်ရှားခဲ့သော ဒေတာပမာဏ များပြားသောကြောင့်၊ ဤသို့သော ရုပ်ပုံများကို ဖယ်ရှားခြင်းသည် မော်ဒယ်၏ စွမ်းဆောင်ရည်ကို ထိခိုက်စေနိုင်မည်ဟု ကျွန်ုပ်တို့ စိုးရိမ်ခဲ့သည်။

deduplication ၏ သက်ရောက်မှုကို စမ်းသပ်ရန်၊ တူညီသော hyperparameters များဖြင့် မော်ဒယ် ၂ ခုကို လေ့ကျင့်ခဲ့သည်။ တစ်ခုကို ဒေတာအစုအပြည့်ပေါ်တွင်၊ နောက်တစ်ခုကို deduplicated လုပ်ထားသော ဒေတာအစုဗားရှင်းပေါ်တွင် လေ့ကျင့်ခဲ့သည်။ မော်ဒယ်များကို နှိုင်းယှဉ်ရန်၊ ကျွန်ုပ်တို့၏ မူရင်း GLIDE မော်ဒယ်ကို အကဲဖြတ်ရာတွင် အသုံးပြုခဲ့သော လူသားအကဲဖြတ်မှုများကိုပင် အသုံးပြုခဲ့သည်။ အံ့အားသင့်စရာကောင်းစွာပင်၊ လူသားအကဲဖြတ်သူများသည် deduplicated data ဖြင့် လေ့ကျင့်ထားသော မော်ဒယ်ကို အနည်းငယ် ပိုနှစ်သက် ကြောင်း တွေ့ရှိခဲ့ပြီး၊ ၎င်းက ဒေတာအစုအတွင်း မလိုအပ်ဘဲ ထပ်ခါထပ်ခါရှိနေသော ရုပ်ပုံအမြောက်အများသည် စွမ်းဆောင်ရည်ကို တကယ်တမ်း ထိခိုက်စေခဲ့ကြောင်း ညွှန်ပြသည်။

deduplicated data ဖြင့် လေ့ကျင့်ထားသော မော်ဒယ်တစ်ခု ရရှိပြီးနောက်၊ ယခင်က လေ့ကျင့်ရေးဒေတာအစုမှ 50k တုံ့ပြန်ညွှန်ကြားချက်များအပေါ် လုပ်ခဲ့သော regurgitation search ကို ထပ်မံ လုပ်ဆောင်ခဲ့သည်။ မော်ဒယ်အသစ်သည် လေ့ကျင့်ရေးဒေတာအစုထဲမှ သက်ဆိုင်ရာ ရုပ်ပုံအတွက် အတိအကျ တူညီသော တုံ့ပြန်ညွှန်ကြားချက်ကို ပေးသည့်အခါ လေ့ကျင့်ရေး ရုပ်ပုံကို တစ်ကြိမ်တစ်ခါမျှ ပြန်မထုတ်ပေးကြောင်း တွေ့ရှိခဲ့သည်။ ဤစမ်းသပ်မှုကို နောက်တစ်ဆင့် ပိုမိုတင်းကျပ်စေရန်၊ ထုတ်လုပ်ထားသော ရုပ်ပုံ 50k တစ်ပုံချင်းစီအတွက် လေ့ကျင့်ရေးဒေတာအစုတစ်ခုလုံးအပေါ် nearest neighbor search ကိုလည်း ပြုလုပ်ခဲ့သည်။ ဤနည်းဖြင့်၊ မော်ဒယ်သည် တုံ့ပြန်ညွှန်ကြားချက်တစ်ခုနှင့် ဆက်စပ်သည့် ရုပ်ပုံမဟုတ်ဘဲ အခြားရုပ်ပုံတစ်ပုံကို ပြန်ထုတ်ပေးနေခြင်းကို ဖမ်းမိနိုင်မည်ဟု ထင်ခဲ့သည်။ ဤကဲ့သို့ ပိုမိုစေ့စပ်သေချာသော စစ်ဆေးမှုဖြင့်တောင်၊ image regurgitation ဖြစ်စဉ်ကို တစ်ကြိမ်တစ်ခါမျှ မတွေ့ရှိခဲ့ပါ။

နောက်တစ်ဆင့်များ

အထက်တွင် ဆွေးနွေးထားသော လျော့ပါးစေမှုများအားလုံးသည် DALL·E 2 နှင့် ဆက်စပ်သော အန္တရာယ်များကို လျှော့ချရန် ကျွန်ုပ်တို့၏ ရည်မှန်းချက်ဆီသို့ အရေးပါသော တိုးတက်မှုများကို ကိုယ်စားပြုသော်လည်း၊ လျော့ပါးစေမှုတစ်ခုချင်းစီတွင် တိုးတက်နိုင်ရန် နေရာများ ရှိနေဆဲဖြစ်သည်။

ပိုကောင်းသော အကြိုလေ့ကျင့်သင်ကြားခြင်း စစ်ထုတ်ကိရိယာများက ကျွန်ုပ်တို့အား DALL·E 2 ကို ဒေတာပိုမိုများပြားသည့်အပေါ် လေ့ကျင့်နိုင်စေပြီး မော်ဒယ်အတွင်းရှိ ဘက်လိုက်မှုကို ထပ်မံ လျှော့ချနိုင်စေနိုင်သည်။ လက်ရှိ စစ်ထုတ်ကိရိယာများကို miss-rate နည်းစေရန် ချိန်ညှိထားသော်လည်း false positives များစွာ ဖြစ်လာသည်။ ထို့ကြောင့် စစ်ထုတ်ထားသော ရုပ်ပုံအများစုသည် ကျွန်ုပ်တို့၏ content policy ကို လုံးဝမချိုးဖောက်ပေမယ့်လည်း ကျွန်ုပ်တို့၏ ဒေတာအစုတစ်ခုလုံး၏ ခန့်မှန်းခြေ 5% ကို စစ်ထုတ်ဖယ်ရှားခဲ့ရသည်။ စစ်ထုတ်ကိရိယာများကို ပိုမိုကောင်းမွန်အောင် လုပ်ပါက ဤလေ့ကျင့်ရေးဒေတာ၏ အချို့ကို ပြန်လည် အသုံးချနိုင်မည်ဖြစ်သည်။
ဘက်လိုက်မှုသည် စနစ်ဖွံ့ဖြိုးတိုးတက်မှုနှင့် အသုံးချမှု အဆင့်များစွာတွင် ဖြစ်ပေါ်လာပြီး ပိုမိုပြင်းထန်လာနိုင်သည်။ DALL·E 2 ကဲ့သို့သော စနစ်များအတွင်း ဘက်လိုက်မှုနှင့် ၎င်းကြောင့် ဖြစ်ပေါ်လာသော ထိခိုက်မှုကို အကဲဖြတ်ခြင်းနှင့် လျော့ပါးစေခြင်းသည် အရေးကြီးသော ပညာရပ်ပေါင်းစုံဆိုင်ရာ ပြဿနာတစ်ရပ်ဖြစ်ပြီး OpenAI တွင် ကျွန်ုပ်တို့၏ ပိုမိုကျယ်ပြန့်သော မစ်ရှင်၏ အစိတ်အပိုင်းအဖြစ် ဆက်လက် လေ့လာနေဆဲဖြစ်သည်။ ဤလုပ်ငန်းတွင် ပြဿနာကို ပိုမိုနားလည်ရန် evaluation များ တည်ဆောက်ခြင်း၊ ဒေတာအစုအသစ်များ စုစည်းပြင်ဆင်ခြင်းနှင့် လူ့တုံ့ပြန်ချက်နှင့် fine-tuning ကဲ့သို့သော နည်းလမ်းများကို အသုံးပြု၍ ပိုမိုခိုင်မာပြီး ပိုမို ကိုယ်စားပြုနိုင်သော နည်းပညာများ တည်ဆောက်ခြင်းတို့ ပါဝင်သည်။
နက်နဲစွာ သင်ယူလေ့လာခြင်း စနစ်များတွင် memorization နှင့် generalization တို့ကို ဆက်လက် လေ့လာနေခြင်းလည်း အလွန်အရေးကြီးသည်။ deduplication သည် memorization ကို တားဆီးရန် ကောင်းမွန်သော ပထမခြေလှမ်းတစ်ခုဖြစ်သော်လည်း၊ DALL·E 2 ကဲ့သို့သော မော်ဒယ်များက လေ့ကျင့်ရေးဒေတာကို ဘာကြောင့် သို့မဟုတ် ဘယ်လို မှတ်မိနေသည်ဆိုသည်ကို အပြည့်အဝ မရှင်းပြနိုင်သေးပါ။

အောက်ခြေမှတ်စုများ

P(unfiltered|image) ကို sigmoid(f(x)) အဖြစ် parameterize လုပ်သောအခါ အလေးချိန်မှာ exp(f(x)) ဖြစ်သည်။ ၎င်းကို sigmoid ၏ အဓိပ္ပါယ်ဖွင့်ဆိုချက်မှ ဆင်းသက်တွက်ချက်နိုင်သည်။

$1/(1+e^−f(x))/(1−1/(1+e^−f(x)))$ $= 1/(1+e^{-f(x)}) / ((1+e^{-f(x)} - 1)/(1+e^{-f(x)}))$ $= 1/(1+e^{-f(x)}) / ((e^{-f(x)})/(1+e^{-f(x)}))$ $= (1+e^-f(x))/(1+e^-f(x)) / (e^-f(x))$ $= 1 / (e^{-f(x)}) = e^{f(x)}$

B
ဤအရာကို အောင်မြင်စေရန် လေ့ကျင့်ရေး ရုပ်ပုံတစ်ပုံစီ i အတွက် feature vector $v_i$ ကို တွက်ချက်နိုင်ပြီး၊ ထို့နောက် $i < j$ ဖြစ်သော နေရာတွင် $||v_i - v_j||$ <threshold ဖြစ်သည့် $j$ ရုပ်ပုံအားလုံးကို ဖယ်ရှားနိုင်သည်။ ဤပြဿနာကို ပုံမှန်နည်းလမ်းဖြင့် ဖြေရှင်းရန် pairwise distance $||v_i - v_j||$ အားလုံးကို တွက်ချက်ရန် လိုအပ်ပြီး၊ ဤအလုပ်သည် ကျွန်ုပ်တို့၏ ဒေတာအစုအရွယ်အစားနှင့် နှစ်ထပ်ကိန်းအလိုက် တိုးပွားသည်။
C
$K$ သည် cluster အရေအတွက်ကို ကိုယ်စားပြုပြီး $N$ သည် dataset အရွယ်အစားကို ကိုယ်စားပြုသည်ဟု သတ်မှတ်လျှင်၊ ဤနည်းလမ်းသည် pairwise distance တွက်ချက်မှု $O(K*(N/K)^2) = O(N^2/K)$ သာ လိုအပ်ပြီး၊ အပြည့်အစုံ $O(N^2)$ ထက် များစွာ သက်သာသည်။ တစ်ချိန်တည်းတွင် အဆိုးဆုံးဖြစ်နိုင်သည့် ကိစ္စတွင်တောင် မည်သည့်ရုပ်ပုံမဆို $K$ ထက်ပိုသော near-duplicate များ မရှိကြောင်း အာမခံနိုင်သေးသည်။