၂၀၂၁ ဇန်နဝါရီ ၅

CLIP: စာသားနှင့် ပုံများကို ချိတ်ဆက်ခြင်း

ပုံရေးဆွဲမှု - Justin Jay Wang

ဖွင့်နေသည်…

ကျွန်ုပ်တို့သည် သဘာဝဘာသာစကား supervision မှ visual concepts များကို ထိရောက်စွာ သင်ယူသော CLIP ဟုခေါ်သည့် neural network တစ်ခုကို မိတ်ဆက်ပေးနေပါသည်။ CLIP ကို သိရှိရမည့် visual categories များ၏ အမည်များကို ပေးလိုက်ရုံဖြင့် visual classification benchmark မည်သည့်အတွက်မဆို အသုံးပြုနိုင်ပြီး GPT‑2 နှင့် GPT‑3 ၏ “zero-shot” စွမ်းရည်များနှင့် ဆင်တူသည်။

နက်နဲစွာ သင်ယူလေ့လာခြင်းသည် computer vision ကို တော်လှန်ပြောင်းလဲစေခဲ့သော်လည်း လက်ရှိနည်းလမ်းများတွင် အဓိကပြဿနာကြီး အချို့ ရှိနေဆဲဖြစ်သည်- ပုံမှန် vision datasets များကို ဖန်တီးရန် အလုပ်အားများစွာလိုပြီး ကုန်ကျစရိတ်ကြီးမားသော်လည်း ကျဉ်းမြောင်းသော visual concepts အစုတစ်ခုကိုသာ သင်ကြားပေးနိုင်သည်။ ပုံမှန် vision မော်ဒယ်များသည် task တစ်ခုတည်းအတွက်သာ ကောင်းမွန်ပြီး task အသစ်သို့ လိုက်လျောညီထွေ ပြောင်းလဲရန် အားထုတ်မှု များစွာ လိုအပ်သည်။ ထို့ပြင် benchmarks ပေါ်တွင် ကောင်းမွန်စွာ လုပ်ဆောင်သော မော်ဒယ်များသည် stress tests များပေါ်တွင် စိတ်ပျက်ဖွယ်ကောင်းအောင် စွမ်းဆောင်ရည် နိမ့်ကျလေ့ရှိပြီး^{1 - 2 - 3နှင့် 4} ၎င်းကြောင့် computer vision အတွက် နက်နဲစွာ သင်ယူလေ့လာခြင်း နည်းလမ်းတစ်ရပ်လုံးအပေါ် သံသယဖြစ်စေသည်။

ဤပြဿနာများကို ဖြေရှင်းရန် ရည်ရွယ်ထားသော neural network တစ်ခုကို ကျွန်ုပ်တို့ တင်ပြထားပါသည်- ၎င်းကို အင်တာနက်ပေါ်တွင် ပေါများစွာ ရရှိနိုင်သော သဘာဝဘာသာစကား supervision အမျိုးမျိုးနှင့် ပုံအမျိုးမျိုးပေါ်တွင် လေ့ကျင့်ထားသည်။ ဒီဇိုင်းအရ network ကို benchmarks ၏ performance ကို တိုက်ရိုက် optimize မလုပ်ဘဲ classification benchmarks အမျိုးမျိုးကို သဘာဝဘာသာစကားဖြင့် ညွှန်ကြားကာ လုပ်ဆောင်စေနိုင်ပြီး GPT‑2⁵ နှင့် GPT‑3⁶ ၏ “zero-shot⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” စွမ်းရည်များနှင့် ဆင်တူသည်။ ဤသည်မှာ အဓိက အပြောင်းအလဲတစ်ခု ဖြစ်သည်- benchmark ကို တိုက်ရိုက် optimize မလုပ်သဖြင့် ၎င်းသည် ပိုမိုကိုယ်စားပြုနိုင်လာကြောင်း ကျွန်ုပ်တို့ ပြသထားသည်။ ကျွန်ုပ်တို့၏ စနစ်သည် မူရင်း 1.28M label တပ်ထားသော ဥပမာများကို တစ်ခုမှ မသုံးဘဲ ImageNet⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) zero-shot ပေါ်တွင် မူရင်း ResNet-50⁷ ၏ စွမ်းဆောင်ရည်နှင့် ကိုက်ညီသည့်အပြင် ဤ “robustness gap” ကို 75% အထိ လျှော့ချပေးသည်။

ဖွင့်နေသည်...

နောက်ခံနှင့် ဆက်စပ်သုတေသန

CLIP (Contrastive Language–Image Pre-training) သည် zero-shot transfer၊ သဘာဝဘာသာစကား supervision နှင့် multimodal learning ဆိုင်ရာ ကျယ်ပြန့်သော သုတေသနအခြေခံပေါ်တွင် တည်ဆောက်ထားသည်။ zero-data learning ၏ အယူအဆသည် ဆယ်စုနှစ်တစ်ခုကျော်ကတည်းက ရှိခဲ့ပြီး⁸ မကြာသေးမီအချိန်အထိ မတွေ့ရသေးသော object categories များထံ ယေဘုယျချဲ့ထွင်နိုင်ရန် computer vision တွင် အဓိက လေ့လာခဲ့ကြသည်။^{9နှင့် 10} အရေးကြီးသော သိမြင်ချက်တစ်ခုမှာ ယေဘုယျချဲ့ထွင်ခြင်းနှင့် transfer ကို လုပ်ဆောင်နိုင်ရန် သဘာဝဘာသာစကားကို ပြောင်းလွယ်ပြင်လွယ်ရှိသော prediction space အဖြစ် အသုံးချခြင်းဖြစ်သည်။ 2013 ခုနှစ်တွင် Stanford မှ Richard Socher နှင့် တွဲဖက်ရေးသားသူများ¹¹ သည် CIFAR-10 ပေါ်တွင် မော်ဒယ်တစ်ခုကို လေ့ကျင့်သင်ကြားကာ word vector embedding space ထဲတွင် ခန့်မှန်းချက်များ ပြုလုပ်စေပြီး ဤမော်ဒယ်က မတွေ့ရသေးသော class နှစ်ခုကို ခန့်မှန်းနိုင်ကြောင်း ပြသခဲ့သည်။ ထိုနှစ်အတွင်းပင် DeVISE¹² က ဤနည်းလမ်းကို ပိုမိုချဲ့ထွင်ကာ မူရင်း 1000 training set ပြင်ပရှိ objects များကို မှန်ကန်စွာ ခန့်မှန်းနိုင်အောင် ImageNet မော်ဒယ်တစ်ခုကို fine-tune လုပ်နိုင်ကြောင်း ပြသခဲ့သည်။

CLIP အတွက် အလွန်အမင်း လှုံ့ဆော်မှုပေးသော အလုပ်မှာ FAIR မှ Ang Li နှင့် သူ၏ တွဲဖက်ရေးသားသူများ၏ လုပ်ဆောင်ချက်¹³ ဖြစ်ပြီး 2016 ခုနှစ်တွင် သဘာဝဘာသာစကား supervision ကို အသုံးပြုကာ canonical ImageNet dataset ကဲ့သို့ ရှိပြီးသား computer vision classification datasets အချို့သို့ zero-shot transfer ပြုလုပ်နိုင်ကြောင်း ပြသခဲ့သည်။ ၎င်းတို့သည် Flickr ဓာတ်ပုံ 30 million ၏ ခေါင်းစဉ်များ၊ ဖော်ပြချက်များနှင့် tags များမှ စာသားကို အသုံးပြု၍ ပိုမိုကျယ်ပြန့်သော visual concepts အစု (visual n-grams) ကို ခန့်မှန်းနိုင်အောင် ImageNet CNN တစ်ခုကို fine-tune လုပ်ပြီး ImageNet zero-shot ပေါ်တွင် 11.5% တိကျမှုရရှိခဲ့သည်။

နောက်ဆုံးတွင် CLIP သည် လွန်ခဲ့သော တစ်နှစ်အတွင်း သဘာဝဘာသာစကား supervision မှ visual representations များကို ပြန်လည်လေ့လာသည့် စာတမ်းအုပ်စုတစ်စု၏ အစိတ်အပိုင်းတစ်ခုဖြစ်သည်။ ဤသုတေသနလိုင်းတွင် Transformer³² ကဲ့သို့ ပိုမိုခေတ်မီသော architecture များကို အသုံးပြုပြီး autoregressive ဘာသာစကားလေ့ကျင့်ရေး မော်ဒယ်ကို စူးစမ်းလေ့လာခဲ့သော VirTex၊³³ masked ဘာသာစကားလေ့ကျင့်ရေး မော်ဒယ်ကို စုံစမ်းခဲ့သော ICMLM၊³⁴ နှင့် CLIP အတွက် ကျွန်ုပ်တို့ အသုံးပြုသည့် contrastive objective တူညီပေမယ့် ဆေးဘက်ဆိုင်ရာ imaging နယ်ပယ်တွင် လေ့လာခဲ့သော ConVIRT³⁵ တို့ ပါဝင်သည်။

နည်းလမ်း

ရိုးရှင်းသော အကြိုလေ့ကျင့်သင်ကြားခြင်း task တစ်ခုကို scale ချဲ့ထွင်ခြင်းသာဖြင့် ပုံအမျိုးအစားခွဲခြားခြင်း datasets အမျိုးမျိုးပေါ်တွင် ယှဉ်ပြိုင်နိုင်သော zero-shot စွမ်းဆောင်ရည် ရရှိရန် လုံလောက်ကြောင်း ကျွန်ုပ်တို့ ပြသထားပါသည်။ ကျွန်ုပ်တို့၏ နည်းလမ်းသည် ပေါများစွာ ရရှိနိုင်သော supervision အရင်းအမြစ်တစ်ခုကို အသုံးပြုသည်- အင်တာနက်အနှံ့ တွေ့ရသော ပုံများနှင့် တွဲဖက်ထားသော စာသားဖြစ်သည်။ ဤ data ကို CLIP အတွက် အောက်ပါ proxy training task ကို ဖန်တီးရန် အသုံးပြုသည်- ပုံတစ်ပုံ ပေးထားလျှင် ကျပန်းယူထားသော စာသားအပိုင်း 32,768 ခုအစုအတွင်း ဘယ်တစ်ခုက ကျွန်ုပ်တို့၏ dataset ထဲတွင် အမှန်တကယ် ထိုပုံနှင့် တွဲထားသည်ကို ခန့်မှန်းရန် ဖြစ်သည်။

ဤ task ကို ဖြေရှင်းရန် CLIP မော်ဒယ်များသည် ပုံများထဲရှိ visual concepts အမျိုးမျိုးကို ခွဲခြားသိမြင်ပြီး ၎င်းတို့၏ အမည်များနှင့် ချိတ်ဆက်သင်ယူရမည်ဟု ကျွန်ုပ်တို့၏ ထင်မြင်ချက်ဖြစ်သည်။ ရလဒ်အနေဖြင့် CLIP မော်ဒယ်များကို visual classification tasks များစွာအပေါ် အနီးပါး arbitrary အနေဖြင့် အသုံးချနိုင်သည်။ ဥပမာအားဖြင့် dataset တစ်ခု၏ task သည် ခွေးပုံနှင့် ကြောင်ပုံများကို ခွဲခြားခြင်းဖြစ်ပါက ပုံတစ်ပုံစီအတွက် CLIP မော်ဒယ်က “a photo of a dog” သို့မဟုတ် “a photo of a cat” ဟူသော စာသားဖော်ပြချက်ထဲမှ ဘယ်ဟာက ၎င်းနှင့် တွဲထားနိုင်ခြေ ပိုများကြောင်း ခန့်မှန်းထားသလဲကို ကျွန်ုပ်တို့ စစ်ဆေးသည်။

ဖွင့်နေသည်...

CLIP ကို computer vision အတွက် ပုံမှန် နက်နဲစွာ သင်ယူလေ့လာခြင်း နည်းလမ်းတွင် ရှိနေသော အဓိက ပြဿနာကြီးအချို့ကို လျှော့ချပေးရန် ဒီဇိုင်းလုပ်ထားပါသည်-

ကုန်ကျစရိတ်ကြီးသော datasets - နက်နဲစွာ သင်ယူလေ့လာခြင်းသည် data အများအပြား လိုအပ်ပြီး vision မော်ဒယ်များကို ရိုးရိုးအားဖြင့် တည်ဆောက်ရန် ကုန်ကျစရိတ်မြင့်ပြီး ကြိုတင်သတ်မှတ်ထားသော visual concepts အနည်းငယ်အတွက်သာ supervision ပေးသော လူက label တပ်ထားသည့် datasets များပေါ်တွင် လေ့ကျင့်ထားကြသည်။ ဤနယ်ပယ်တွင် အကြီးဆုံး ကြိုးပမ်းမှုများထဲမှ တစ်ခုဖြစ်သော ImageNet dataset သည် object categories 22,000 အတွက် ပုံ 14 million ကို annotation လုပ်ရန် အလုပ်သမား 25,000 ကျော် လိုအပ်ခဲ့သည်။ ထိုနှိုင်းယှဉ်မှုနှင့် မတူဘဲ CLIP သည် အင်တာနက်ပေါ်တွင် အများပြည်သူအသုံးပြုနိုင်ပြီးသား text–image pairs များမှ သင်ယူသည်။ ဈေးကြီးသော label တပ်ထားသော dataset အကြီးများ လိုအပ်မှုကို လျှော့ချရန် ယခင်သုတေသနများက ကျယ်ကျယ်ပြန့်ပြန့် လေ့လာခဲ့ပြီး အထူးသဖြင့် self-supervised learning၊^{14 - 15နှင့် 16} contrastive methods၊^{17 - 18 - 19 - 20နှင့် 21} self-training approaches၊^{22နှင့် 23} နှင့် ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်များ။^{24 - 25 - 26နှင့် 27}

ကျဉ်းမြောင်းခြင်း - ImageNet မော်ဒယ်တစ်ခုသည် ImageNet categories 1000 ကို ခန့်မှန်းရာတွင် ကောင်းမွန်သော်လည်း “out of the box” အနေဖြင့် ၎င်းလုပ်နိုင်သည်မှာ ထိုမျှသာ ဖြစ်သည်။ အခြား task တစ်ခုခုကို လုပ်ဆောင်လိုပါက ML practitioner တစ်ဦးသည် dataset အသစ်တစ်ခု တည်ဆောက်ရန်၊ output head တစ်ခု ထည့်ရန်နှင့် မော်ဒယ်ကို fine-tune လုပ်ရန် လိုအပ်သည်။ ထိုနှိုင်းယှဉ်မှုနှင့် မတူဘဲ CLIP သည် ထပ်ဆောင်း training examples မလိုအပ်ဘဲ visual classification tasks အမျိုးမျိုးတွင် လိုက်လျောညီထွေ အသုံးပြုနိုင်သည်။ CLIP ကို task အသစ်တစ်ခုတွင် အသုံးပြုရန် ကျွန်ုပ်တို့ လုပ်ရန်လိုအပ်သည်မှာ task ၏ visual concepts များ၏ အမည်များကို CLIP ၏ text-encoder သို့ “ပြောပြ” လိုက်ရုံဖြစ်ပြီး ၎င်းက CLIP ၏ visual representations များအတွက် linear classifier တစ်ခုကို output ထုတ်ပေးမည်ဖြစ်သည်။ ဤ classifier ၏ တိကျမှုသည် အပြည့်အဝ supervised မော်ဒယ်များနှင့် ယှဉ်ပြိုင်နိုင်လေ့ရှိသည်။

အောက်တွင် datasets အမျိုးမျိုးမှ ဥပမာများအပေါ် zero-shot CLIP classifiers များ၏ ကျပန်းရွေးထားသော၊ cherry-pick မလုပ်ထားသော ခန့်မှန်းချက်များကို ကျွန်ုပ်တို့ ပြသထားပါသည်။

ဖွင့်နေသည်...

လက်တွေ့ကမ္ဘာ စွမ်းဆောင်ရည် အားနည်းခြင်း - နက်နဲစွာ သင်ယူလေ့လာခြင်း စနစ်များသည် vision benchmarks များပေါ်တွင် လူသားအဆင့် သို့မဟုတ် ထိုထက်မြင့်သော စွမ်းဆောင်ရည် ရရှိသည်ဟု မကြာခဏ ဖော်ပြကြသော်လည်း^{28နှင့် A} လက်တွေ့ကမ္ဘာတွင် အသုံးချသည့်အခါ ၎င်းတို့၏ စွမ်းဆောင်ရည်သည် benchmark က မျှော်လင့်စေသည့် အဆင့်ထက် များစွာ နိမ့်နိုင်သည်။ အခြားစကားဖြင့် “benchmark performance” နှင့် “real performance” ကြားတွင် ကွာဟချက်တစ်ခု ရှိသည်။ ဤကွာဟချက်သည် benchmark ပေါ်မှ စွမ်းဆောင်ရည်ကိုသာ အကောင်းဆုံးဖြစ်အောင် မော်ဒယ်များက “လှည့်ကွက်သုံး” သဖြင့် ဖြစ်ပေါ်လာသည်ဟု ကျွန်ုပ်တို့ ယူဆပါသည်။ ၎င်းမှာ ယခင်နှစ်များ၏ စာမေးပွဲမေးခွန်းများကိုသာ လေ့လာပြီး စာမေးပွဲအောင်သွားသော ကျောင်းသားတစ်ဦးနှင့် ဆင်တူသည်။ ထိုနှိုင်းယှဉ်မှုနှင့် မတူဘဲ CLIP မော်ဒယ်ကို benchmarks များ၏ data ပေါ်တွင် လေ့ကျင့်စရာမလိုဘဲ အကဲဖြတ်နိုင်သောကြောင့် ဤပုံစံဖြင့် “လှည့်ကွက်သုံး” မရနိုင်ပါ။ ထို့ကြောင့် ၎င်း၏ benchmark performance သည် လက်တွေ့အသုံးပြုမှုအတွင်း စွမ်းဆောင်ရည်ကို ပိုမိုကိုယ်စားပြုနိုင်လာစေသည်။ “cheating hypothesis” ကို အတည်ပြုရန် CLIP သည် ImageNet အတွက် “လေ့လာခွင့်” ရရှိသည့်အခါ ၎င်း၏ စွမ်းဆောင်ရည် မည်သို့ပြောင်းလဲသည်ကိုလည်း ကျွန်ုပ်တို့ တိုင်းတာပါသည်။ CLIP ၏ features များအပေါ် linear classifier တစ်ခုကို fit လုပ်လိုက်သောအခါ ImageNet test set ပေါ်တွင် CLIP ၏ တိကျမှုကို 10% နီးပါး တိုးတက်စေသည်။ သို့သော် “robust” performance ကို တိုင်းတာသော အခြား datasets 7 ခုပါ evaluation suite တစ်လျှောက် ပျမ်းမျှအားဖြင့် ဤ classifier သည် ပိုမိုကောင်းမွန်ခြင်း မရှိပါ။³⁰

အဓိက အချက်များ

1. CLIP သည် အလွန်ထိရောက်သည်

CLIP သည် စစ်ထုတ်မထားသော၊ အလွန်ကွဲပြားပြီး noise များသော data မှ သင်ယူပြီး zero-shot ပုံစံဖြင့် အသုံးပြုရန် ရည်ရွယ်ထားသည်။ GPT‑2 နှင့် 3 မှ ဤသို့သော data ပေါ်တွင် လေ့ကျင့်ထားသည့် မော်ဒယ်များသည် ဆွဲဆောင်မှုရှိသော zero-shot စွမ်းဆောင်ရည် ရရှိနိုင်ကြောင်း ကျွန်ုပ်တို့ သိရှိထားသည်။ သို့သော် ဤသို့သော မော်ဒယ်များသည် လေ့ကျင့်ရန် significant compute လိုအပ်သည်။ လိုအပ်သော compute ကို လျှော့ချရန် ကျွန်ုပ်တို့၏ နည်းလမ်း၏ training efficiency ကို တိုးတက်စေရန် algorithmic နည်းလမ်းများကို အာရုံစိုက်ခဲ့သည်။

significant compute savings ရရှိစေသော algorithmic choices နှစ်ခုကို ကျွန်ုပ်တို့ တင်ပြထားပါသည်။ ပထမရွေးချယ်မှုမှာ စာသားနှင့် ပုံများကို ချိတ်ဆက်ရန် contrastive objective ကို လက်ခံအသုံးပြုခြင်း ဖြစ်သည်။^{31 - 17နှင့် 35} ကျွန်ုပ်တို့သည် မူလတွင် VirTex³³ နှင့် ဆင်တူသော image-to-text နည်းလမ်းကို စူးစမ်းခဲ့သော်လည်း state-of-the-art performance ရရှိအောင် ဤနည်းကို ချဲ့ထွင်ရာတွင် အခက်အခဲများ ကြုံတွေ့ခဲ့သည်။ သေးငယ်မှ အလယ်အလတ်အရွယ် စမ်းသပ်မှုများတွင် CLIP အသုံးပြုသော contrastive objective သည် zero-shot ImageNet classification အတွက် 4x မှ 10x အထိ ပိုမိုထိရောက်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။ ဒုတိယရွေးချယ်မှုမှာ Vision Transformer³⁶ ကို လက်ခံအသုံးပြုခြင်းဖြစ်ပြီး ၎င်းက standard ResNet နှင့် နှိုင်းယှဉ်လျှင် compute efficiency ကို နောက်ထပ် 3x တိုးစေခဲ့သည်။ နောက်ဆုံးတွင် ကျွန်ုပ်တို့၏ စွမ်းဆောင်ရည်အကောင်းဆုံး CLIP မော်ဒယ်သည် 256 GPUs ဖြင့် 2 ပတ်ကြာ လေ့ကျင့်ရပြီး ရှိပြီးသား large scale image models များနှင့် ဆင်တူသည်။^{37 - 23 - 38နှင့် 36}

ဖွင့်နေသည်...

2. CLIP သည် ပြောင်းလွယ်ပြင်လွယ်ရှိပြီး ယေဘုယျဆန်သည်

၎င်းတို့သည် သဘာဝဘာသာစကားမှ visual concepts မျိုးစုံကို တိုက်ရိုက် သင်ယူသောကြောင့် CLIP မော်ဒယ်များသည် ရှိပြီးသား ImageNet မော်ဒယ်များထက် သိသိသာသာ ပိုမို ပြောင်းလွယ်ပြင်လွယ်ရှိပြီး ယေဘုယျဆန်သည်။ ၎င်းတို့သည် tasks အမျိုးမျိုးကို zero-shot ဖြင့် လုပ်ဆောင်နိုင်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။ ဤအချက်ကို အတည်ပြုရန် fine-grained object classification၊ geo-localization၊ videos အတွင်း action recognition နှင့် OCR^B တို့အပါအဝင် tasks များပါဝင်သော datasets 30 ကျော်ပေါ်တွင် CLIP ၏ zero-shot စွမ်းဆောင်ရည်ကို ကျွန်ုပ်တို့ တိုင်းတာခဲ့သည်။ အထူးသဖြင့် OCR ကို သင်ယူခြင်းသည် ပုံမှန် ImageNet မော်ဒယ်များတွင် မတွေ့ရသော စိတ်လှုပ်ရှားဖွယ် အပြုအမူတစ်ခု၏ ဥပမာဖြစ်သည်။ အပေါ်တွင် zero-shot classifier တစ်ခုစီမှ ကျပန်းရွေးထားသော၊ cherry-pick မလုပ်ထားသော ခန့်မှန်းချက်တစ်ခုကို ကျွန်ုပ်တို့ မြင်ကွင်းဖော်ပြထားပါသည်။

ဤတွေ့ရှိချက်သည် linear probes အသုံးပြုသော စံ representation learning evaluation ပေါ်တွင်လည်း ထင်ဟပ်နေသည်။ အကောင်းဆုံး CLIP မော်ဒယ်သည် ကျွန်ုပ်တို့ စမ်းသပ်ခဲ့သော transfer datasets 26 ခုအနက် 20 ခုတွင် လူထုအတွက် ရရှိနိုင်သည့် အကောင်းဆုံး ImageNet မော်ဒယ်ဖြစ်သော Noisy Student EfficientNet-L2²³ ထက် ပိုမိုကောင်းမွန်သည်။

ဖွင့်နေသည်...

ကန့်သတ်ချက်များ

CLIP သည် ပုံမှန်အားဖြင့် common objects များကို ခွဲခြားသိမြင်ရာတွင် ကောင်းမွန်စွာ လုပ်ဆောင်သော်လည်း ပုံတစ်ပုံထဲရှိ object အရေအတွက်ကို ရေတွက်ခြင်းကဲ့သို့ ပိုမို အဘိဓာန်ဆန် သို့မဟုတ် စနစ်တကျဆန်သော tasks များနှင့် ဓာတ်ပုံတစ်ပုံထဲတွင် အနီးဆုံးကားက ဘယ်လောက် နီးသလဲကို ခန့်မှန်းခြင်းကဲ့သို့ ပိုမိုရှုပ်ထွေးသော tasks များတွင် ရုန်းကန်ရသည်။ ဤ datasets နှစ်ခုတွင် zero-shot CLIP သည် ကျပန်းခန့်မှန်းခြင်းထက် အနည်းငယ်သာ ပိုကောင်းသည်။ zero-shot CLIP သည် ကား model များအကြား ကွာခြားချက်၊ လေယာဉ်မျိုးကွဲများ သို့မဟုတ် ပန်းမျိုးစိတ်များကို ခွဲခြားပြောခြင်းကဲ့သို့ အလွန် fine-grained classification တွင်လည်း task-specific မော်ဒယ်များနှင့် နှိုင်းယှဉ်လျှင် ရုန်းကန်ရသည်။

CLIP သည် ၎င်း၏ အကြိုလေ့ကျင့်သင်ကြားခြင်း dataset အတွင်း မပါဝင်သော ပုံများအပေါ် generalization အားနည်းနေဆဲဖြစ်သည်။ ဥပမာအားဖြင့် CLIP သည် စွမ်းဆောင်ရည်ကောင်းသော OCR စနစ်တစ်ခုကို သင်ယူနိုင်သော်လည်း MNIST dataset မှ လက်ရေးကိန်းဂဏန်းများပေါ်တွင် အကဲဖြတ်သောအခါ zero-shot CLIP သည် တိကျမှု 88% သာ ရရှိပြီး dataset ပေါ်ရှိ လူသားများ၏ 99.75% ထက် များစွာ နိမ့်သည်။ နောက်ဆုံးအနေဖြင့် CLIP ၏ zero-shot classifiers များသည် စကားအသုံးအနှုန်း သို့မဟုတ် စကားဖွဲ့ပုံအပေါ် ထိခိုက်လွယ်ကြောင်းကို ကျွန်ုပ်တို့ သတိပြုမိခဲ့ပြီး တစ်ခါတစ်ရံ စွမ်းဆောင်ရည်ကောင်းစေရန် “တုံ့ပြန်ညွှန်ကြားချက် တည်ဆောက်ခြင်း” ကို စမ်းသပ်မှုပြုလုပ်ရတတ်သည်။

ပိုမိုကျယ်ပြန့်သော သက်ရောက်မှုများ

CLIP သည် လူများအား ကိုယ်ပိုင် classifiers များကို ဒီဇိုင်းလုပ်နိုင်စေပြီး task-specific training data လိုအပ်ချက်ကို ဖယ်ရှားပေးသည်။ ဤ classes များကို ဒီဇိုင်းလုပ်သည့် ပုံစံသည် မော်ဒယ်၏ စွမ်းဆောင်ရည်နှင့် မော်ဒယ်ဘက်လိုက်မှုများကို အလွန်သက်ရောက်နိုင်သည်။ ဥပမာအားဖြင့် Fairface³⁹ race labels^C နှင့် “criminal”, “animal” စသည့် အလွန်မသင့်လျော်သော စကားလုံးအချို့ ပါဝင်သော labels အစုတစ်ခုကို ပေးလိုက်သောအခါ မော်ဒယ်သည် အသက် 0–20 ရှိ လူပုံများကို ထိုမသင့်လျော်သော category ထဲသို့ ~32.3% နှုန်းဖြင့် ခွဲခြားလေ့ရှိကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။ သို့သော် ဖြစ်နိုင်သော classes စာရင်းထဲသို့ “child” class ကို ထည့်လိုက်သောအခါ ဤအပြုအမူသည် ~8.7% အထိ ကျဆင်းသွားသည်။

ထို့အပြင် CLIP သည် task-specific training data မလိုအပ်သောကြောင့် သီးသန့် niche tasks အချို့ကို ပိုမိုလွယ်ကူစွာ ဖွင့်လှစ်ပေးနိုင်သည်။ ဤအလုပ်အချို့သည် privacy သို့မဟုတ် surveillance နှင့်ဆိုင်သော အန္တရာယ်များကို ဖြစ်စေနိုင်ပြီး celebrity identification ပေါ်တွင် CLIP ၏ စွမ်းဆောင်ရည်ကို လေ့လာခြင်းဖြင့် ဤစိုးရိမ်ချက်ကို ကျွန်ုပ်တို့ စူးစမ်းလေ့လာထားပါသည်။ CLIP သည် 100 candidates ထဲမှ ရွေးချယ်ရသော “in the wild” celebrity image classification အတွက် top-1 တိကျမှု 59.2% ရရှိပြီး 1000 choices ထဲမှ ရွေးချယ်ရသောအခါ top-1 တိကျမှု 43.3% ရရှိသည်။ task agnostic အကြိုလေ့ကျင့်သင်ကြားခြင်းဖြင့် ဤရလဒ်များ ရရှိခြင်းမှာ မှတ်သားဖွယ်ကောင်းသော်လည်း ယေဘုယျအားဖြင့် အသုံးများသော production-level မော်ဒယ်များနှင့် နှိုင်းယှဉ်လျှင် ဤစွမ်းဆောင်ရည်သည် ယှဉ်ပြိုင်နိုင်စွမ်း မရှိပါ။ CLIP က တင်ပြသော စိန်ခေါ်မှုများကို ကျွန်ုပ်တို့၏ စာတမ်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် ပိုမိုစူးစမ်းလေ့လာထားပြီး ဤအလုပ်က ဤကဲ့သို့ မော်ဒယ်များ၏ စွမ်းရည်များ၊ ချို့ယွင်းချက်များနှင့် ဘက်လိုက်မှုများကို သတ်မှတ်ဖော်ပြရန် အနာဂတ်သုတေသနကို လှုံ့ဆော်ပေးမည်ဟု မျှော်လင့်ပါသည်။ ထိုကဲ့သို့ မေးခွန်းများအပေါ် သုတေသနအသိုင်းအဝိုင်းနှင့် ထိတွေ့ဆွေးနွေးရန် ကျွန်ုပ်တို့ စိတ်လှုပ်ရှားပါသည်။

နိဂုံးချုပ်

CLIP ဖြင့် မကြာသေးမီ NLP တိုးတက်မှုကြီးကို မောင်းနှင်ပေးခဲ့သော အင်တာနက်အရွယ်အစားရှိ သဘာဝဘာသာစကားပေါ်တွင် task agnostic အကြိုလေ့ကျင့်သင်ကြားခြင်းကို အခြားနယ်ပယ်များအတွက် နက်နဲစွာ သင်ယူလေ့လာခြင်း၏ စွမ်းဆောင်ရည် တိုးတက်စေရန်လည်း အသုံးချနိုင်မလားဆိုသည်ကို စမ်းသပ်ခဲ့ပါသည်။ ဤနည်းလမ်းကို computer vision တွင် အသုံးပြုသည့်အခါ ယခုအထိ ကျွန်ုပ်တို့ မြင်တွေ့ရသော ရလဒ်များအတွက် စိတ်လှုပ်ရှားမိပါသည်။ GPT မိသားစုကဲ့သို့ပင် CLIP သည် အကြိုလေ့ကျင့်သင်ကြားခြင်းအတွင်း အလုပ်အမျိုးမျိုးကို သင်ယူပြီး zero-shot transfer မှတဆင့် ထိုအချက်ကို ကျွန်ုပ်တို့ ပြသထားပါသည်။ ImageNet ပေါ်မှ ကျွန်ုပ်တို့၏ တွေ့ရှိချက်များက zero-shot evaluation သည် မော်ဒယ်၏ စွမ်းရည်ကို ပိုမိုကိုယ်စားပြုနိုင်သော တိုင်းတာမှုတစ်ခုဖြစ်ကြောင်း ညွှန်ပြသဖြင့်လည်း ကျွန်ုပ်တို့အား အားတက်စေပါသည်။

မှတ်ချက်များ

29
2015 ခုနှစ်တွင် Microsoft မှ သုတေသီအုပ်စုတစ်စုက ImageNet ပေါ်တွင် top-5 တိကျမှုအရ လူသားများ၏ ဖော်ပြထားသော top-5 တိကျမှုကို ကျော်လွန်သည့် မော်ဒယ်တစ်ခုကို ပထမဆုံး လေ့ကျင့်သင်ကြားခဲ့သည်။
B
CLIP ၏ zero-shot OCR စွမ်းဆောင်ရည်မှာ ရောနှောနေသော်လည်း ၎င်း၏ semantic OCR ကိုယ်စားပြုမှုသည် အလွန် အသုံးဝင်သည်။ ပုံများအဖြစ် ပြန်ရေးထားသော SST-2 NLP dataset ပေါ်တွင် အကဲဖြတ်ရာတွင် CLIP ၏ ကိုယ်စားပြုမှုအပေါ် linear classifier တစ်ခုသည် စာသားကို တိုက်ရိုက်အသုံးပြုနိုင်သော CBoW မော်ဒယ်တစ်ခုနှင့် ကိုက်ညီသည်။ CLIP သည် ground truth text မလိုဘဲ hateful memes များကို ရှာဖွေရာတွင်လည်း ယှဉ်ပြိုင်နိုင်စွမ်းရှိသည်။
40
FairFace သည် ယခင် face datasets များတွင် တွေ့ရလေ့ရှိသည့် မညီမျှမှုများကို လျှော့ချရန် အသက်၊ လိင်နှင့် လူမျိုးကို ညီမျှစေရန် ဒီဇိုင်းလုပ်ထားသော မျက်နှာပုံ dataset တစ်ခုဖြစ်သည်။ ၎င်းသည် လိင်ကို female နှင့် male ဟူသော အုပ်စု ၂ ခုအဖြစ်၊ လူမျိုးကို White, Black, Indian, East Asian, Southeast Asian, Middle Eastern နှင့် Latino ဟူသော အုပ်စု ၇ ခုအဖြစ် ခွဲခြားထားသည်။ ဥပမာအားဖြင့် Bowker and Star (2000) နှင့် Keyes (2018) တို့ ပြသခဲ့သကဲ့သို့ လူမျိုးနှင့် လိင် ခွဲခြားသတ်မှတ်မှုများတွင် မူလတန်းပြဿနာများ ပါဝင်နေသည်။ FairFace dataset သည် White မျက်နှာများ၏ အချိုးအစားကို လျှော့ချပေးသော်လည်း လူဦးရေအုပ်စုကြီးအချို့ကို ကိုယ်စားပြုမှု မရှိသေးဘဲ ထိုအုပ်စုများကို ထိရောက်စွာ ဖျောက်ဖျက်ထားသလို ဖြစ်နေသည်။ ကျွန်ုပ်တို့၏ စမ်းသပ်မှုအချို့တွင် FairFace dataset မှ သတ်မှတ်ထားသော လိင်အုပ်စု ၂ ခုနှင့် လူမျိုးအုပ်စု ၇ ခုကို အသုံးပြုခဲ့သည်မှာ ဤသို့ လျှော့ချပုံဖော်ထားသော အုပ်စုများကို အားပေးရန် သို့မဟုတ် ထောက်ခံရန် မဟုတ်ဘဲ ယခင်လုပ်ဆောင်ချက်များနှင့် နှိုင်းယှဉ်နိုင်ရန် ဖြစ်သည်။

ကိုးကားချက်များ

1
Dodge, S., & Karam, L. (2017, July). “အမြင်ပိုင်း ပုံဖျက်ခြင်းများအောက်တွင် လူသားနှင့် နက်နဲစွာ သင်ယူလေ့လာခြင်း အသိအမှတ်ပြု စွမ်းဆောင်ရည်ကို လေ့လာခြင်းနှင့် နှိုင်းယှဉ်ခြင်း။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In ICCCN 2017.
2
Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, F. A., & Brendel, W. (2018). “ImageNet ပေါ်တွင် လေ့ကျင့်ထားသော CNN များသည် texture ဘက်သို့ ဘက်လိုက်နေသည်။ shape bias ကို တိုးမြှင့်ခြင်းက တိကျမှုနှင့် robustness ကို ကောင်းမွန်စေသည်။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In ICLR 2019.
3
Alcorn, M. A., Li, Q., Gong, Z., Wang, C., Mai, L., Ku, W. S., & Nguyen, A. (2019). “ပုံစံတစ်ခုပြုလုပ်ပါ - neural networks များသည် ရင်းနှီးပြီးသား object များ၏ ထူးဆန်းသော pose များကြောင့် လွယ်ကူစွာ လှည့်စားခံရသည်။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In CVPR 2019.
4
Barbu, A., Mayo, D., Alverio, J., Luo, W., Wang, C., Gutfreund, D., ... & Katz, B. (2019). “Objectnet - object recognition မော်ဒယ်များ၏ ကန့်သတ်ချက်များကို တွန်းအားပေးစူးစမ်းရန် ဘက်လိုက်မှုထိန်းချုပ်ထားသော အကြီးစား dataset တစ်ခု။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In NeurIPS 2019.
5
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “ဘာသာစကားလေ့ကျင့်ရေး မော်ဒယ်များသည် supervision မလိုသော အလုပ်ပေါင်းစုံ သင်ယူသူများ ဖြစ်သည်။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” Technical Report, OpenAI.
6
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Agarwal, S. (2020). “ဘာသာစကားလေ့ကျင့်ရေး မော်ဒယ်များသည် အခေါက်ရေနည်းနည်းဖြင့် ပြုလုပ်ခြင်း သင်ယူသူများ ဖြစ်သည်။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In NeurIPS 2020.
7
He, K., Zhang, X., Ren, S., & Sun, J. (2016). “ပုံအသိအမှတ်ပြုမှုအတွက် deep residual learning။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In CVPR 2016.
8
Larochelle, H., Erhan, D., & Bengio, Y. (2008, July). “အလုပ်အသစ်များ၏ zero-data learning။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In AAAI 2008.
9
Lampert, C. H., Nickisch, H., & Harmeling, S. (2009, June). “class များအကြား attribute transfer ဖြင့် မတွေ့ရသေးသော object classes များကို ရှာဖွေရန် သင်ယူခြင်း။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In CVPR 2009.
10
Lei Ba, J., Swersky, K., & Fidler, S. (2015). “စာသားဖော်ပြချက်များကို အသုံးပြု၍ deep zero-shot convolutional neural networks များကို ခန့်မှန်းခြင်း။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In ICCV 2015.
11
Socher, R., Ganjoo, M., Manning, C. D., & Ng, A. (2013). “cross-modal transfer မှတဆင့် zero-shot learning။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In NeurIPS 2013.
12
Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M. A., & Mikolov, T. (2013). “Devise - deep visual-semantic embedding model တစ်ခု။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In NeurIPS 2013.
13
Li, A., Jabri, A., Joulin, A., & van der Maaten, L. (2017). “ဝဘ် data မှ visual n-grams များကို သင်ယူခြင်း။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In Proceedings of the IEEE International Conference on Computer Vision 2017.
14
Doersch, C., Gupta, A., & Efros, A. A. (2015). “context prediction ဖြင့် supervision မလိုသော visual representation learning။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In ICCV 2015.
15
Zhai, X., Oliver, A., Kolesnikov, A., & Beyer, L. (2019). “S4l - self-supervised semi-supervised learning။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In ICCV 2019.
16
Grill, J. B., Strub, F., Altché, F., Tallec, C., Richemond, P. H., Buchatskaya, E., ... & Piot, B. (2020). “သင့်ကိုယ်ပိုင် latent ကို bootstrap လုပ်ပါ - self-supervised learning အတွက် နည်းလမ်းအသစ်တစ်ခု။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In NeurIPS 2020.
17
Oord, A. V. D., Li, Y., & Vinyals, O. (2018). “Contrastive Predictive Coding ဖြင့် Representation Learning။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” arXiv preprint.
18
Hjelm, R. D., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “mutual information estimation နှင့် maximization ဖြင့် deep representations များကို သင်ယူခြင်း။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In ICLR 2019.
19
Bachman, P., Hjelm, R. D., & Buchwalter, W. (2019). “views များအကြား mutual information ကို အများဆုံးပြုလုပ်ခြင်းဖြင့် representations များကို သင်ယူခြင်း။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In NeurIPS 2019.
20
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). “supervision မလိုသော visual representation learning အတွက် momentum contrast။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In CVPR 2020.
21
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). “visual representations များ၏ contrastive learning အတွက် ရိုးရှင်းသော framework တစ်ခု။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” arXiv preprint.
22
Lee, D. H. (2013, June). “Pseudo-label - deep neural networks များအတွက် ရိုးရှင်းပြီး ထိရောက်သော semi-supervised learning နည်းလမ်း။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In Workshop on challenges in representation learning, ICML (2013).
23
Xie, Q., Luong, M. T., Hovy, E., & Le, Q. V. (2020). “noisy student ဖြင့် self-training လုပ်ခြင်းက imagenet classification ကို တိုးတက်စေသည်။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In CVPR 2020.
24
Kingma, D. P., Mohamed, S., Jimenez Rezende, D., & Welling, M. (2014). “deep generative models ဖြင့် semi-supervised learning။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In NeurIPS 2014.
25
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., & Chen, X. (2016). “GANs များကို လေ့ကျင့်ရန် တိုးတက်ကောင်းမွန်သော နည်းစနစ်များ။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In NeurIPS 2016.
26
Donahue, J., & Simonyan, K. (2019). “အကြီးစား adversarial representation learning။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In NeurIPS 2019.
27
Chen, M., Radford, A., Child, R., Wu, J., Jun, H., Luan, D., & Sutskever, I. (2020, November). “pixels မှ generative pretraining။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In ICML 2020.
28
He, K., Zhang, X., Ren, S., & Sun, J. (2015). “Rectifiers များကို နက်နက်ရှိုင်းရှိုင်း စူးစမ်းခြင်း - ImageNet classification တွင် လူသားအဆင့် စွမ်းဆောင်ရည်ကို ကျော်လွန်ခြင်း။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In ICCV 2015.
29
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., ... & Berg, A. C. (2015). “Imagenet အကြီးစား visual recognition challenge။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In IJCV 2015.
30
Taori, R., Dave, A., Shankar, V., Carlini, N., Recht, B., & Schmidt, L. (2020). “ပုံအမျိုးအစားခွဲခြားခြင်းတွင် သဘာဝ distribution shifts များအပေါ် robustness ကို တိုင်းတာခြင်း။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In NeurIPS 2020.
31
Sohn, K. (2016). “multi-class n-pair loss objective ဖြင့် တိုးတက်ကောင်းမွန်သော deep metric learning။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In NeurIPS 2016.
32
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). “လိုအပ်သည်မှာ attention သာ ဖြစ်သည်။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In NeurIPS 2017.
33
Desai, K., & Johnson, J. (2020). “VirTex - စာသား annotations များမှ visual representations များကို သင်ယူခြင်း။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” arXiv preprint.
34
Sariyildiz, M. B., Perez, J., & Larlus, D. (2020). “Caption annotations များဖြင့် visual representations များကို သင်ယူခြင်း။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In ECCV 2020.
35
Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., & Langlotz, C. P. (2020). “Paired Images and Text မှ ဆေးဘက်ဆိုင်ရာ visual representations များ၏ contrastive learning။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” arXiv preprint.
36
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Uszkoreit, J. (2020). “ပုံတစ်ပုံသည် 16x16 စကားလုံးများနှင့် တန်ဖိုးညီသည် - ပုံအသိအမှတ်ပြုမှုအတွက် ထရန်(စ်)ဖော်မာများကို scale ချဲ့ထွင်ခြင်း။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” arXiv preprint.
37
Mahajan, D., Girshick, R., Ramanathan, V., He, K., Paluri, M., Li, Y., ... & van der Maaten, L. (2018). “အားနည်းသော supervision ဖြင့် pretraining ၏ ကန့်သတ်ချက်များကို စူးစမ်းခြင်း။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In ECCV 2018.
38
Kolesnikov, A., Beyer, L., Zhai, X., Puigcerver, J., Yung, J., Gelly, S., & Houlsby, N. (2019). “Big Transfer (BiT) - ယေဘုယျ visual representation learning။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” arXiv preprint.
39
Kärkkäinen, K., & Joo, J. (2019). “Fairface - ညီမျှသော လူမျိုး၊ လိင်နှင့် အသက်အတွက် မျက်နှာ attribute dataset။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” arXiv preprint.
40
Bowker, G., & Star, S. L. (1999). “အရာများကို စီစဉ်ခွဲခြားခြင်း - classification နှင့် ၎င်း၏ အကျိုးဆက်များ⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” Book.
41
Keyes, O. (2018). “လိင်မှားယွင်းသတ်မှတ်သည့် စက်များ - အလိုအလျောက် လိင်အသိအမှတ်ပြုမှု၏ Trans/HCI အကျိုးသက်ရောက်မှုများ။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In Proceedings of the ACM on Human-Computer Interaction.

စာရေးသူများ

Alec Radford - Ilya Sutskever - Jong Wook Kim - Gretchen Kruegerနှင့် Sandhini Agarwal

ကျေးဇူးတင်လွှာ

CLIP ကို လေ့ကျင့်ရာတွင် အသုံးပြုထားသော data ကို ဖန်တီးရာတွင် ပါဝင်ခဲ့သည့် လူသန်းပေါင်းများစွာကို ကျွန်ုပ်တို့ ကျေးဇူးတင်ရှိပါသည်။ ထို့အပြင် ပရောဂျက်အတွက် ပံ့ပိုးကူညီခဲ့သော ကျွန်ုပ်တို့၏ တွဲဖက်စာရေးသူအားလုံးကိုလည်း ကျေးဇူးတင်ပါသည်။ နောက်ဆုံးအနေဖြင့် ဤဘလော့၏ draft များအပေါ် အကြံပြုချက်ပေးခဲ့သည့် Jeff Clune, Miles Brundage, Ryan Lowe, Jakub Pachocki နှင့် Vedant Misra တို့ကိုလည်းကောင်း၊ code release ကို ပြန်လည်သုံးသပ်ပေးခဲ့သော Matthew Knight ကိုလည်းကောင်း ကျေးဇူးတင်ရှိပါသည်။