အဓိက အကြောင်းအရာသို့ ကျော်သွားရန်
OpenAI
CLIP

ပုံရေးဆွဲမှု - Justin Jay Wang

ဖွင့်နေသည်…

ကျွန်ုပ်တို့သည် သဘာဝဘာသာစကား supervision မှ visual concepts များကို ထိရောက်စွာ သင်ယူသော CLIP ဟုခေါ်သည့် neural network တစ်ခုကို မိတ်ဆက်ပေးနေပါသည်။ CLIP ကို သိရှိရမည့် visual categories များ၏ အမည်များကို ပေးလိုက်ရုံဖြင့် visual classification benchmark မည်သည့်အတွက်မဆို အသုံးပြုနိုင်ပြီး GPT‑2 နှင့် GPT‑3 ၏ “zero-shot” စွမ်းရည်များနှင့် ဆင်တူသည်။

နက်နဲစွာ သင်ယူလေ့လာခြင်းသည် computer vision ကို တော်လှန်ပြောင်းလဲစေခဲ့သော်လည်း လက်ရှိနည်းလမ်းများတွင် အဓိကပြဿနာကြီး အချို့ ရှိနေဆဲဖြစ်သည်- ပုံမှန် vision datasets များကို ဖန်တီးရန် အလုပ်အားများစွာလိုပြီး ကုန်ကျစရိတ်ကြီးမားသော်လည်း ကျဉ်းမြောင်းသော visual concepts အစုတစ်ခုကိုသာ သင်ကြားပေးနိုင်သည်။ ပုံမှန် vision မော်ဒယ်များသည် task တစ်ခုတည်းအတွက်သာ ကောင်းမွန်ပြီး task အသစ်သို့ လိုက်လျောညီထွေ ပြောင်းလဲရန် အားထုတ်မှု များစွာ လိုအပ်သည်။ ထို့ပြင် benchmarks ပေါ်တွင် ကောင်းမွန်စွာ လုပ်ဆောင်သော မော်ဒယ်များသည် stress tests များပေါ်တွင် စိတ်ပျက်ဖွယ်ကောင်းအောင် စွမ်းဆောင်ရည် နိမ့်ကျလေ့ရှိပြီး1 - 2 - 3နှင့် 4 ၎င်းကြောင့် computer vision အတွက် နက်နဲစွာ သင်ယူလေ့လာခြင်း နည်းလမ်းတစ်ရပ်လုံးအပေါ် သံသယဖြစ်စေသည်။

ဤပြဿနာများကို ဖြေရှင်းရန် ရည်ရွယ်ထားသော neural network တစ်ခုကို ကျွန်ုပ်တို့ တင်ပြထားပါသည်- ၎င်းကို အင်တာနက်ပေါ်တွင် ပေါများစွာ ရရှိနိုင်သော သဘာဝဘာသာစကား supervision အမျိုးမျိုးနှင့် ပုံအမျိုးမျိုးပေါ်တွင် လေ့ကျင့်ထားသည်။ ဒီဇိုင်းအရ network ကို benchmarks ၏ performance ကို တိုက်ရိုက် optimize မလုပ်ဘဲ classification benchmarks အမျိုးမျိုးကို သဘာဝဘာသာစကားဖြင့် ညွှန်ကြားကာ လုပ်ဆောင်စေနိုင်ပြီး GPT‑25 နှင့် GPT‑36 ၏ “zero-shot(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” စွမ်းရည်များနှင့် ဆင်တူသည်။ ဤသည်မှာ အဓိက အပြောင်းအလဲတစ်ခု ဖြစ်သည်- benchmark ကို တိုက်ရိုက် optimize မလုပ်သဖြင့် ၎င်းသည် ပိုမိုကိုယ်စားပြုနိုင်လာကြောင်း ကျွန်ုပ်တို့ ပြသထားသည်။ ကျွန်ုပ်တို့၏ စနစ်သည် မူရင်း 1.28M label တပ်ထားသော ဥပမာများကို တစ်ခုမှ မသုံးဘဲ ImageNet(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) zero-shot ပေါ်တွင် မူရင်း ResNet-507 ၏ စွမ်းဆောင်ရည်နှင့် ကိုက်ညီသည့်အပြင် ဤ “robustness gap” ကို 75% အထိ လျှော့ချပေးသည်။

ဖွင့်နေသည်...

နောက်ခံနှင့် ဆက်စပ်သုတေသန

CLIP (Contrastive Language–Image Pre-training) သည် zero-shot transfer၊ သဘာဝဘာသာစကား supervision နှင့် multimodal learning ဆိုင်ရာ ကျယ်ပြန့်သော သုတေသနအခြေခံပေါ်တွင် တည်ဆောက်ထားသည်။ zero-data learning ၏ အယူအဆသည် ဆယ်စုနှစ်တစ်ခုကျော်ကတည်းက ရှိခဲ့ပြီး8 မကြာသေးမီအချိန်အထိ မတွေ့ရသေးသော object categories များထံ ယေဘုယျချဲ့ထွင်နိုင်ရန် computer vision တွင် အဓိက လေ့လာခဲ့ကြသည်။9နှင့် 10 အရေးကြီးသော သိမြင်ချက်တစ်ခုမှာ ယေဘုယျချဲ့ထွင်ခြင်းနှင့် transfer ကို လုပ်ဆောင်နိုင်ရန် သဘာဝဘာသာစကားကို ပြောင်းလွယ်ပြင်လွယ်ရှိသော prediction space အဖြစ် အသုံးချခြင်းဖြစ်သည်။ 2013 ခုနှစ်တွင် Stanford မှ Richard Socher နှင့် တွဲဖက်ရေးသားသူများ11 သည် CIFAR-10 ပေါ်တွင် မော်ဒယ်တစ်ခုကို လေ့ကျင့်သင်ကြားကာ word vector embedding space ထဲတွင် ခန့်မှန်းချက်များ ပြုလုပ်စေပြီး ဤမော်ဒယ်က မတွေ့ရသေးသော class နှစ်ခုကို ခန့်မှန်းနိုင်ကြောင်း ပြသခဲ့သည်။ ထိုနှစ်အတွင်းပင် DeVISE12 က ဤနည်းလမ်းကို ပိုမိုချဲ့ထွင်ကာ မူရင်း 1000 training set ပြင်ပရှိ objects များကို မှန်ကန်စွာ ခန့်မှန်းနိုင်အောင် ImageNet မော်ဒယ်တစ်ခုကို fine-tune လုပ်နိုင်ကြောင်း ပြသခဲ့သည်။

CLIP အတွက် အလွန်အမင်း လှုံ့ဆော်မှုပေးသော အလုပ်မှာ FAIR မှ Ang Li နှင့် သူ၏ တွဲဖက်ရေးသားသူများ၏ လုပ်ဆောင်ချက်13 ဖြစ်ပြီး 2016 ခုနှစ်တွင် သဘာဝဘာသာစကား supervision ကို အသုံးပြုကာ canonical ImageNet dataset ကဲ့သို့ ရှိပြီးသား computer vision classification datasets အချို့သို့ zero-shot transfer ပြုလုပ်နိုင်ကြောင်း ပြသခဲ့သည်။ ၎င်းတို့သည် Flickr ဓာတ်ပုံ 30 million ၏ ခေါင်းစဉ်များ၊ ဖော်ပြချက်များနှင့် tags များမှ စာသားကို အသုံးပြု၍ ပိုမိုကျယ်ပြန့်သော visual concepts အစု (visual n-grams) ကို ခန့်မှန်းနိုင်အောင် ImageNet CNN တစ်ခုကို fine-tune လုပ်ပြီး ImageNet zero-shot ပေါ်တွင် 11.5% တိကျမှုရရှိခဲ့သည်။

နောက်ဆုံးတွင် CLIP သည် လွန်ခဲ့သော တစ်နှစ်အတွင်း သဘာဝဘာသာစကား supervision မှ visual representations များကို ပြန်လည်လေ့လာသည့် စာတမ်းအုပ်စုတစ်စု၏ အစိတ်အပိုင်းတစ်ခုဖြစ်သည်။ ဤသုတေသနလိုင်းတွင် Transformer32 ကဲ့သို့ ပိုမိုခေတ်မီသော architecture များကို အသုံးပြုပြီး autoregressive ဘာသာစကားလေ့ကျင့်ရေး မော်ဒယ်ကို စူးစမ်းလေ့လာခဲ့သော VirTex၊33 masked ဘာသာစကားလေ့ကျင့်ရေး မော်ဒယ်ကို စုံစမ်းခဲ့သော ICMLM၊34 နှင့် CLIP အတွက် ကျွန်ုပ်တို့ အသုံးပြုသည့် contrastive objective တူညီပေမယ့် ဆေးဘက်ဆိုင်ရာ imaging နယ်ပယ်တွင် လေ့လာခဲ့သော ConVIRT35 တို့ ပါဝင်သည်။

နည်းလမ်း

ရိုးရှင်းသော အကြိုလေ့ကျင့်သင်ကြားခြင်း task တစ်ခုကို scale ချဲ့ထွင်ခြင်းသာဖြင့် ပုံအမျိုးအစားခွဲခြားခြင်း datasets အမျိုးမျိုးပေါ်တွင် ယှဉ်ပြိုင်နိုင်သော zero-shot စွမ်းဆောင်ရည် ရရှိရန် လုံလောက်ကြောင်း ကျွန်ုပ်တို့ ပြသထားပါသည်။ ကျွန်ုပ်တို့၏ နည်းလမ်းသည် ပေါများစွာ ရရှိနိုင်သော supervision အရင်းအမြစ်တစ်ခုကို အသုံးပြုသည်- အင်တာနက်အနှံ့ တွေ့ရသော ပုံများနှင့် တွဲဖက်ထားသော စာသားဖြစ်သည်။ ဤ data ကို CLIP အတွက် အောက်ပါ proxy training task ကို ဖန်တီးရန် အသုံးပြုသည်- ပုံတစ်ပုံ ပေးထားလျှင် ကျပန်းယူထားသော စာသားအပိုင်း 32,768 ခုအစုအတွင်း ဘယ်တစ်ခုက ကျွန်ုပ်တို့၏ dataset ထဲတွင် အမှန်တကယ် ထိုပုံနှင့် တွဲထားသည်ကို ခန့်မှန်းရန် ဖြစ်သည်။

ဤ task ကို ဖြေရှင်းရန် CLIP မော်ဒယ်များသည် ပုံများထဲရှိ visual concepts အမျိုးမျိုးကို ခွဲခြားသိမြင်ပြီး ၎င်းတို့၏ အမည်များနှင့် ချိတ်ဆက်သင်ယူရမည်ဟု ကျွန်ုပ်တို့၏ ထင်မြင်ချက်ဖြစ်သည်။ ရလဒ်အနေဖြင့် CLIP မော်ဒယ်များကို visual classification tasks များစွာအပေါ် အနီးပါး arbitrary အနေဖြင့် အသုံးချနိုင်သည်။ ဥပမာအားဖြင့် dataset တစ်ခု၏ task သည် ခွေးပုံနှင့် ကြောင်ပုံများကို ခွဲခြားခြင်းဖြစ်ပါက ပုံတစ်ပုံစီအတွက် CLIP မော်ဒယ်က “a photo of a dog” သို့မဟုတ် “a photo of a cat” ဟူသော စာသားဖော်ပြချက်ထဲမှ ဘယ်ဟာက ၎င်းနှင့် တွဲထားနိုင်ခြေ ပိုများကြောင်း ခန့်မှန်းထားသလဲကို ကျွန်ုပ်တို့ စစ်ဆေးသည်။

ဖွင့်နေသည်...

CLIP ကို computer vision အတွက် ပုံမှန် နက်နဲစွာ သင်ယူလေ့လာခြင်း နည်းလမ်းတွင် ရှိနေသော အဓိက ပြဿနာကြီးအချို့ကို လျှော့ချပေးရန် ဒီဇိုင်းလုပ်ထားပါသည်-

ကုန်ကျစရိတ်ကြီးသော datasets - နက်နဲစွာ သင်ယူလေ့လာခြင်းသည် data အများအပြား လိုအပ်ပြီး vision မော်ဒယ်များကို ရိုးရိုးအားဖြင့် တည်ဆောက်ရန် ကုန်ကျစရိတ်မြင့်ပြီး ကြိုတင်သတ်မှတ်ထားသော visual concepts အနည်းငယ်အတွက်သာ supervision ပေးသော လူက label တပ်ထားသည့် datasets များပေါ်တွင် လေ့ကျင့်ထားကြသည်။ ဤနယ်ပယ်တွင် အကြီးဆုံး ကြိုးပမ်းမှုများထဲမှ တစ်ခုဖြစ်သော ImageNet dataset သည် object categories 22,000 အတွက် ပုံ 14 million ကို annotation လုပ်ရန် အလုပ်သမား 25,000 ကျော် လိုအပ်ခဲ့သည်။ ထိုနှိုင်းယှဉ်မှုနှင့် မတူဘဲ CLIP သည် အင်တာနက်ပေါ်တွင် အများပြည်သူအသုံးပြုနိုင်ပြီးသား text–image pairs များမှ သင်ယူသည်။ ဈေးကြီးသော label တပ်ထားသော dataset အကြီးများ လိုအပ်မှုကို လျှော့ချရန် ယခင်သုတေသနများက ကျယ်ကျယ်ပြန့်ပြန့် လေ့လာခဲ့ပြီး အထူးသဖြင့် self-supervised learning၊14 - 15နှင့် 16 contrastive methods၊17 - 18 - 19 - 20နှင့် 21 self-training approaches၊22နှင့် 23 နှင့် ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်များ။24 - 25 - 26နှင့် 27

ကျဉ်းမြောင်းခြင်း - ImageNet မော်ဒယ်တစ်ခုသည် ImageNet categories 1000 ကို ခန့်မှန်းရာတွင် ကောင်းမွန်သော်လည်း “out of the box” အနေဖြင့် ၎င်းလုပ်နိုင်သည်မှာ ထိုမျှသာ ဖြစ်သည်။ အခြား task တစ်ခုခုကို လုပ်ဆောင်လိုပါက ML practitioner တစ်ဦးသည် dataset အသစ်တစ်ခု တည်ဆောက်ရန်၊ output head တစ်ခု ထည့်ရန်နှင့် မော်ဒယ်ကို fine-tune လုပ်ရန် လိုအပ်သည်။ ထိုနှိုင်းယှဉ်မှုနှင့် မတူဘဲ CLIP သည် ထပ်ဆောင်း training examples မလိုအပ်ဘဲ visual classification tasks အမျိုးမျိုးတွင် လိုက်လျောညီထွေ အသုံးပြုနိုင်သည်။ CLIP ကို task အသစ်တစ်ခုတွင် အသုံးပြုရန် ကျွန်ုပ်တို့ လုပ်ရန်လိုအပ်သည်မှာ task ၏ visual concepts များ၏ အမည်များကို CLIP ၏ text-encoder သို့ “ပြောပြ” လိုက်ရုံဖြစ်ပြီး ၎င်းက CLIP ၏ visual representations များအတွက် linear classifier တစ်ခုကို output ထုတ်ပေးမည်ဖြစ်သည်။ ဤ classifier ၏ တိကျမှုသည် အပြည့်အဝ supervised မော်ဒယ်များနှင့် ယှဉ်ပြိုင်နိုင်လေ့ရှိသည်။

အောက်တွင် datasets အမျိုးမျိုးမှ ဥပမာများအပေါ် zero-shot CLIP classifiers များ၏ ကျပန်းရွေးထားသော၊ cherry-pick မလုပ်ထားသော ခန့်မှန်းချက်များကို ကျွန်ုပ်တို့ ပြသထားပါသည်။

ဖွင့်နေသည်...

လက်တွေ့ကမ္ဘာ စွမ်းဆောင်ရည် အားနည်းခြင်း - နက်နဲစွာ သင်ယူလေ့လာခြင်း စနစ်များသည် vision benchmarks များပေါ်တွင် လူသားအဆင့် သို့မဟုတ် ထိုထက်မြင့်သော စွမ်းဆောင်ရည် ရရှိသည်ဟု မကြာခဏ ဖော်ပြကြသော်လည်း28နှင့် A လက်တွေ့ကမ္ဘာတွင် အသုံးချသည့်အခါ ၎င်းတို့၏ စွမ်းဆောင်ရည်သည် benchmark က မျှော်လင့်စေသည့် အဆင့်ထက် များစွာ နိမ့်နိုင်သည်။ အခြားစကားဖြင့် “benchmark performance” နှင့် “real performance” ကြားတွင် ကွာဟချက်တစ်ခု ရှိသည်။ ဤကွာဟချက်သည် benchmark ပေါ်မှ စွမ်းဆောင်ရည်ကိုသာ အကောင်းဆုံးဖြစ်အောင် မော်ဒယ်များက “လှည့်ကွက်သုံး” သဖြင့် ဖြစ်ပေါ်လာသည်ဟု ကျွန်ုပ်တို့ ယူဆပါသည်။ ၎င်းမှာ ယခင်နှစ်များ၏ စာမေးပွဲမေးခွန်းများကိုသာ လေ့လာပြီး စာမေးပွဲအောင်သွားသော ကျောင်းသားတစ်ဦးနှင့် ဆင်တူသည်။ ထိုနှိုင်းယှဉ်မှုနှင့် မတူဘဲ CLIP မော်ဒယ်ကို benchmarks များ၏ data ပေါ်တွင် လေ့ကျင့်စရာမလိုဘဲ အကဲဖြတ်နိုင်သောကြောင့် ဤပုံစံဖြင့် “လှည့်ကွက်သုံး” မရနိုင်ပါ။ ထို့ကြောင့် ၎င်း၏ benchmark performance သည် လက်တွေ့အသုံးပြုမှုအတွင်း စွမ်းဆောင်ရည်ကို ပိုမိုကိုယ်စားပြုနိုင်လာစေသည်။ “cheating hypothesis” ကို အတည်ပြုရန် CLIP သည် ImageNet အတွက် “လေ့လာခွင့်” ရရှိသည့်အခါ ၎င်း၏ စွမ်းဆောင်ရည် မည်သို့ပြောင်းလဲသည်ကိုလည်း ကျွန်ုပ်တို့ တိုင်းတာပါသည်။ CLIP ၏ features များအပေါ် linear classifier တစ်ခုကို fit လုပ်လိုက်သောအခါ ImageNet test set ပေါ်တွင် CLIP ၏ တိကျမှုကို 10% နီးပါး တိုးတက်စေသည်။ သို့သော် “robust” performance ကို တိုင်းတာသော အခြား datasets 7 ခုပါ evaluation suite တစ်လျှောက် ပျမ်းမျှအားဖြင့် ဤ classifier သည် ပိုမိုကောင်းမွန်ခြင်း မရှိပါ30

အဓိက အချက်များ

1. CLIP သည် အလွန်ထိရောက်သည်

CLIP သည် စစ်ထုတ်မထားသော၊ အလွန်ကွဲပြားပြီး noise များသော data မှ သင်ယူပြီး zero-shot ပုံစံဖြင့် အသုံးပြုရန် ရည်ရွယ်ထားသည်။ GPT‑2 နှင့် 3 မှ ဤသို့သော data ပေါ်တွင် လေ့ကျင့်ထားသည့် မော်ဒယ်များသည် ဆွဲဆောင်မှုရှိသော zero-shot စွမ်းဆောင်ရည် ရရှိနိုင်ကြောင်း ကျွန်ုပ်တို့ သိရှိထားသည်။ သို့သော် ဤသို့သော မော်ဒယ်များသည် လေ့ကျင့်ရန် significant compute လိုအပ်သည်။ လိုအပ်သော compute ကို လျှော့ချရန် ကျွန်ုပ်တို့၏ နည်းလမ်း၏ training efficiency ကို တိုးတက်စေရန် algorithmic နည်းလမ်းများကို အာရုံစိုက်ခဲ့သည်။

significant compute savings ရရှိစေသော algorithmic choices နှစ်ခုကို ကျွန်ုပ်တို့ တင်ပြထားပါသည်။ ပထမရွေးချယ်မှုမှာ စာသားနှင့် ပုံများကို ချိတ်ဆက်ရန် contrastive objective ကို လက်ခံအသုံးပြုခြင်း ဖြစ်သည်။31 - 17နှင့် 35 ကျွန်ုပ်တို့သည် မူလတွင် VirTex33 နှင့် ဆင်တူသော image-to-text နည်းလမ်းကို စူးစမ်းခဲ့သော်လည်း state-of-the-art performance ရရှိအောင် ဤနည်းကို ချဲ့ထွင်ရာတွင် အခက်အခဲများ ကြုံတွေ့ခဲ့သည်။ သေးငယ်မှ အလယ်အလတ်အရွယ် စမ်းသပ်မှုများတွင် CLIP အသုံးပြုသော contrastive objective သည် zero-shot ImageNet classification အတွက် 4x မှ 10x အထိ ပိုမိုထိရောက်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။ ဒုတိယရွေးချယ်မှုမှာ Vision Transformer36 ကို လက်ခံအသုံးပြုခြင်းဖြစ်ပြီး ၎င်းက standard ResNet နှင့် နှိုင်းယှဉ်လျှင် compute efficiency ကို နောက်ထပ် 3x တိုးစေခဲ့သည်။ နောက်ဆုံးတွင် ကျွန်ုပ်တို့၏ စွမ်းဆောင်ရည်အကောင်းဆုံး CLIP မော်ဒယ်သည် 256 GPUs ဖြင့် 2 ပတ်ကြာ လေ့ကျင့်ရပြီး ရှိပြီးသား large scale image models များနှင့် ဆင်တူသည်။37 - 23 - 38နှင့် 36

ဖွင့်နေသည်...

2. CLIP သည် ပြောင်းလွယ်ပြင်လွယ်ရှိပြီး ယေဘုယျဆန်သည်

၎င်းတို့သည် သဘာဝဘာသာစကားမှ visual concepts မျိုးစုံကို တိုက်ရိုက် သင်ယူသောကြောင့် CLIP မော်ဒယ်များသည် ရှိပြီးသား ImageNet မော်ဒယ်များထက် သိသိသာသာ ပိုမို ပြောင်းလွယ်ပြင်လွယ်ရှိပြီး ယေဘုယျဆန်သည်။ ၎င်းတို့သည် tasks အမျိုးမျိုးကို zero-shot ဖြင့် လုပ်ဆောင်နိုင်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။ ဤအချက်ကို အတည်ပြုရန် fine-grained object classification၊ geo-localization၊ videos အတွင်း action recognition နှင့် OCRB တို့အပါအဝင် tasks များပါဝင်သော datasets 30 ကျော်ပေါ်တွင် CLIP ၏ zero-shot စွမ်းဆောင်ရည်ကို ကျွန်ုပ်တို့ တိုင်းတာခဲ့သည်။ အထူးသဖြင့် OCR ကို သင်ယူခြင်းသည် ပုံမှန် ImageNet မော်ဒယ်များတွင် မတွေ့ရသော စိတ်လှုပ်ရှားဖွယ် အပြုအမူတစ်ခု၏ ဥပမာဖြစ်သည်။ အပေါ်တွင် zero-shot classifier တစ်ခုစီမှ ကျပန်းရွေးထားသော၊ cherry-pick မလုပ်ထားသော ခန့်မှန်းချက်တစ်ခုကို ကျွန်ုပ်တို့ မြင်ကွင်းဖော်ပြထားပါသည်။

ဤတွေ့ရှိချက်သည် linear probes အသုံးပြုသော စံ representation learning evaluation ပေါ်တွင်လည်း ထင်ဟပ်နေသည်။ အကောင်းဆုံး CLIP မော်ဒယ်သည် ကျွန်ုပ်တို့ စမ်းသပ်ခဲ့သော transfer datasets 26 ခုအနက် 20 ခုတွင် လူထုအတွက် ရရှိနိုင်သည့် အကောင်းဆုံး ImageNet မော်ဒယ်ဖြစ်သော Noisy Student EfficientNet-L223 ထက် ပိုမိုကောင်းမွန်သည်။

ဖွင့်နေသည်...

ကန့်သတ်ချက်များ

CLIP သည် ပုံမှန်အားဖြင့် common objects များကို ခွဲခြားသိမြင်ရာတွင် ကောင်းမွန်စွာ လုပ်ဆောင်သော်လည်း ပုံတစ်ပုံထဲရှိ object အရေအတွက်ကို ရေတွက်ခြင်းကဲ့သို့ ပိုမို အဘိဓာန်ဆန် သို့မဟုတ် စနစ်တကျဆန်သော tasks များနှင့် ဓာတ်ပုံတစ်ပုံထဲတွင် အနီးဆုံးကားက ဘယ်လောက် နီးသလဲကို ခန့်မှန်းခြင်းကဲ့သို့ ပိုမိုရှုပ်ထွေးသော tasks များတွင် ရုန်းကန်ရသည်။ ဤ datasets နှစ်ခုတွင် zero-shot CLIP သည် ကျပန်းခန့်မှန်းခြင်းထက် အနည်းငယ်သာ ပိုကောင်းသည်။ zero-shot CLIP သည် ကား model များအကြား ကွာခြားချက်၊ လေယာဉ်မျိုးကွဲများ သို့မဟုတ် ပန်းမျိုးစိတ်များကို ခွဲခြားပြောခြင်းကဲ့သို့ အလွန် fine-grained classification တွင်လည်း task-specific မော်ဒယ်များနှင့် နှိုင်းယှဉ်လျှင် ရုန်းကန်ရသည်။

CLIP သည် ၎င်း၏ အကြိုလေ့ကျင့်သင်ကြားခြင်း dataset အတွင်း မပါဝင်သော ပုံများအပေါ် generalization အားနည်းနေဆဲဖြစ်သည်။ ဥပမာအားဖြင့် CLIP သည် စွမ်းဆောင်ရည်ကောင်းသော OCR စနစ်တစ်ခုကို သင်ယူနိုင်သော်လည်း MNIST dataset မှ လက်ရေးကိန်းဂဏန်းများပေါ်တွင် အကဲဖြတ်သောအခါ zero-shot CLIP သည် တိကျမှု 88% သာ ရရှိပြီး dataset ပေါ်ရှိ လူသားများ၏ 99.75% ထက် များစွာ နိမ့်သည်။ နောက်ဆုံးအနေဖြင့် CLIP ၏ zero-shot classifiers များသည် စကားအသုံးအနှုန်း သို့မဟုတ် စကားဖွဲ့ပုံအပေါ် ထိခိုက်လွယ်ကြောင်းကို ကျွန်ုပ်တို့ သတိပြုမိခဲ့ပြီး တစ်ခါတစ်ရံ စွမ်းဆောင်ရည်ကောင်းစေရန် “တုံ့ပြန်ညွှန်ကြားချက် တည်ဆောက်ခြင်း” ကို စမ်းသပ်မှုပြုလုပ်ရတတ်သည်။

ပိုမိုကျယ်ပြန့်သော သက်ရောက်မှုများ

CLIP သည် လူများအား ကိုယ်ပိုင် classifiers များကို ဒီဇိုင်းလုပ်နိုင်စေပြီး task-specific training data လိုအပ်ချက်ကို ဖယ်ရှားပေးသည်။ ဤ classes များကို ဒီဇိုင်းလုပ်သည့် ပုံစံသည် မော်ဒယ်၏ စွမ်းဆောင်ရည်နှင့် မော်ဒယ်ဘက်လိုက်မှုများကို အလွန်သက်ရောက်နိုင်သည်။ ဥပမာအားဖြင့် Fairface39 race labelsC နှင့် “criminal”, “animal” စသည့် အလွန်မသင့်လျော်သော စကားလုံးအချို့ ပါဝင်သော labels အစုတစ်ခုကို ပေးလိုက်သောအခါ မော်ဒယ်သည် အသက် 0–20 ရှိ လူပုံများကို ထိုမသင့်လျော်သော category ထဲသို့ ~32.3% နှုန်းဖြင့် ခွဲခြားလေ့ရှိကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။ သို့သော် ဖြစ်နိုင်သော classes စာရင်းထဲသို့ “child” class ကို ထည့်လိုက်သောအခါ ဤအပြုအမူသည် ~8.7% အထိ ကျဆင်းသွားသည်။

ထို့အပြင် CLIP သည် task-specific training data မလိုအပ်သောကြောင့် သီးသန့် niche tasks အချို့ကို ပိုမိုလွယ်ကူစွာ ဖွင့်လှစ်ပေးနိုင်သည်။ ဤအလုပ်အချို့သည် privacy သို့မဟုတ် surveillance နှင့်ဆိုင်သော အန္တရာယ်များကို ဖြစ်စေနိုင်ပြီး celebrity identification ပေါ်တွင် CLIP ၏ စွမ်းဆောင်ရည်ကို လေ့လာခြင်းဖြင့် ဤစိုးရိမ်ချက်ကို ကျွန်ုပ်တို့ စူးစမ်းလေ့လာထားပါသည်။ CLIP သည် 100 candidates ထဲမှ ရွေးချယ်ရသော “in the wild” celebrity image classification အတွက် top-1 တိကျမှု 59.2% ရရှိပြီး 1000 choices ထဲမှ ရွေးချယ်ရသောအခါ top-1 တိကျမှု 43.3% ရရှိသည်။ task agnostic အကြိုလေ့ကျင့်သင်ကြားခြင်းဖြင့် ဤရလဒ်များ ရရှိခြင်းမှာ မှတ်သားဖွယ်ကောင်းသော်လည်း ယေဘုယျအားဖြင့် အသုံးများသော production-level မော်ဒယ်များနှင့် နှိုင်းယှဉ်လျှင် ဤစွမ်းဆောင်ရည်သည် ယှဉ်ပြိုင်နိုင်စွမ်း မရှိပါ။ CLIP က တင်ပြသော စိန်ခေါ်မှုများကို ကျွန်ုပ်တို့၏ စာတမ်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် ပိုမိုစူးစမ်းလေ့လာထားပြီး ဤအလုပ်က ဤကဲ့သို့ မော်ဒယ်များ၏ စွမ်းရည်များ၊ ချို့ယွင်းချက်များနှင့် ဘက်လိုက်မှုများကို သတ်မှတ်ဖော်ပြရန် အနာဂတ်သုတေသနကို လှုံ့ဆော်ပေးမည်ဟု မျှော်လင့်ပါသည်။ ထိုကဲ့သို့ မေးခွန်းများအပေါ် သုတေသနအသိုင်းအဝိုင်းနှင့် ထိတွေ့ဆွေးနွေးရန် ကျွန်ုပ်တို့ စိတ်လှုပ်ရှားပါသည်။

နိဂုံးချုပ်

CLIP ဖြင့် မကြာသေးမီ NLP တိုးတက်မှုကြီးကို မောင်းနှင်ပေးခဲ့သော အင်တာနက်အရွယ်အစားရှိ သဘာဝဘာသာစကားပေါ်တွင် task agnostic အကြိုလေ့ကျင့်သင်ကြားခြင်းကို အခြားနယ်ပယ်များအတွက် နက်နဲစွာ သင်ယူလေ့လာခြင်း၏ စွမ်းဆောင်ရည် တိုးတက်စေရန်လည်း အသုံးချနိုင်မလားဆိုသည်ကို စမ်းသပ်ခဲ့ပါသည်။ ဤနည်းလမ်းကို computer vision တွင် အသုံးပြုသည့်အခါ ယခုအထိ ကျွန်ုပ်တို့ မြင်တွေ့ရသော ရလဒ်များအတွက် စိတ်လှုပ်ရှားမိပါသည်။ GPT မိသားစုကဲ့သို့ပင် CLIP သည် အကြိုလေ့ကျင့်သင်ကြားခြင်းအတွင်း အလုပ်အမျိုးမျိုးကို သင်ယူပြီး zero-shot transfer မှတဆင့် ထိုအချက်ကို ကျွန်ုပ်တို့ ပြသထားပါသည်။ ImageNet ပေါ်မှ ကျွန်ုပ်တို့၏ တွေ့ရှိချက်များက zero-shot evaluation သည် မော်ဒယ်၏ စွမ်းရည်ကို ပိုမိုကိုယ်စားပြုနိုင်သော တိုင်းတာမှုတစ်ခုဖြစ်ကြောင်း ညွှန်ပြသဖြင့်လည်း ကျွန်ုပ်တို့အား အားတက်စေပါသည်။

မှတ်ချက်များ

  1. 29

    2015 ခုနှစ်တွင် Microsoft မှ သုတေသီအုပ်စုတစ်စုက ImageNet ပေါ်တွင် top-5 တိကျမှုအရ လူသားများ၏ ဖော်ပြထားသော top-5 တိကျမှုကို ကျော်လွန်သည့် မော်ဒယ်တစ်ခုကို ပထမဆုံး လေ့ကျင့်သင်ကြားခဲ့သည်။

  2. B

    CLIP ၏ zero-shot OCR စွမ်းဆောင်ရည်မှာ ရောနှောနေသော်လည်း ၎င်း၏ semantic OCR ကိုယ်စားပြုမှုသည် အလွန် အသုံးဝင်သည်။ ပုံများအဖြစ် ပြန်ရေးထားသော SST-2 NLP dataset ပေါ်တွင် အကဲဖြတ်ရာတွင် CLIP ၏ ကိုယ်စားပြုမှုအပေါ် linear classifier တစ်ခုသည် စာသားကို တိုက်ရိုက်အသုံးပြုနိုင်သော CBoW မော်ဒယ်တစ်ခုနှင့် ကိုက်ညီသည်။ CLIP သည် ground truth text မလိုဘဲ hateful memes များကို ရှာဖွေရာတွင်လည်း ယှဉ်ပြိုင်နိုင်စွမ်းရှိသည်။

  3. 40

    FairFace သည် ယခင် face datasets များတွင် တွေ့ရလေ့ရှိသည့် မညီမျှမှုများကို လျှော့ချရန် အသက်၊ လိင်နှင့် လူမျိုးကို ညီမျှစေရန် ဒီဇိုင်းလုပ်ထားသော မျက်နှာပုံ dataset တစ်ခုဖြစ်သည်။ ၎င်းသည် လိင်ကို female နှင့် male ဟူသော အုပ်စု ၂ ခုအဖြစ်၊ လူမျိုးကို White, Black, Indian, East Asian, Southeast Asian, Middle Eastern နှင့် Latino ဟူသော အုပ်စု ၇ ခုအဖြစ် ခွဲခြားထားသည်။ ဥပမာအားဖြင့် Bowker and Star (2000) နှင့် Keyes (2018) တို့ ပြသခဲ့သကဲ့သို့ လူမျိုးနှင့် လိင် ခွဲခြားသတ်မှတ်မှုများတွင် မူလတန်းပြဿနာများ ပါဝင်နေသည်။ FairFace dataset သည် White မျက်နှာများ၏ အချိုးအစားကို လျှော့ချပေးသော်လည်း လူဦးရေအုပ်စုကြီးအချို့ကို ကိုယ်စားပြုမှု မရှိသေးဘဲ ထိုအုပ်စုများကို ထိရောက်စွာ ဖျောက်ဖျက်ထားသလို ဖြစ်နေသည်။ ကျွန်ုပ်တို့၏ စမ်းသပ်မှုအချို့တွင် FairFace dataset မှ သတ်မှတ်ထားသော လိင်အုပ်စု ၂ ခုနှင့် လူမျိုးအုပ်စု ၇ ခုကို အသုံးပြုခဲ့သည်မှာ ဤသို့ လျှော့ချပုံဖော်ထားသော အုပ်စုများကို အားပေးရန် သို့မဟုတ် ထောက်ခံရန် မဟုတ်ဘဲ ယခင်လုပ်ဆောင်ချက်များနှင့် နှိုင်းယှဉ်နိုင်ရန် ဖြစ်သည်။

ကိုးကားချက်များ

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10
  11. 11
  12. 12

    Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M. A., & Mikolov, T. (2013). “Devise - deep visual-semantic embedding model တစ်ခု။(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In NeurIPS 2013.

  13. 13

    Li, A., Jabri, A., Joulin, A., & van der Maaten, L. (2017). “ဝဘ် data မှ visual n-grams များကို သင်ယူခြင်း။(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In Proceedings of the IEEE International Conference on Computer Vision 2017.

  14. 14
  15. 15
  16. 16
  17. 17
  18. 18
  19. 19
  20. 20
  21. 21
  22. 22
  23. 23
  24. 24
  25. 25
  26. 26
  27. 27

    Chen, M., Radford, A., Child, R., Wu, J., Jun, H., Luan, D., & Sutskever, I. (2020, November). “pixels မှ generative pretraining။(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In ICML 2020.

  28. 28
  29. 29

    Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., ... & Berg, A. C. (2015). “Imagenet အကြီးစား visual recognition challenge။(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In IJCV 2015.

  30. 30
  31. 31
  32. 32

    Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). “လိုအပ်သည်မှာ attention သာ ဖြစ်သည်။(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” In NeurIPS 2017.

  33. 33
  34. 34
  35. 35
  36. 36
  37. 37
  38. 38

    Kolesnikov, A., Beyer, L., Zhai, X., Puigcerver, J., Yung, J., Gelly, S., & Houlsby, N. (2019). “Big Transfer (BiT) - ယေဘုယျ visual representation learning။(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)” arXiv preprint.

  39. 39
  40. 40
  41. 41

စာရေးသူများ

Alec Radford - Ilya Sutskever - Jong Wook Kim - Gretchen Kruegerနှင့် Sandhini Agarwal

ကျေးဇူးတင်လွှာ

CLIP ကို လေ့ကျင့်ရာတွင် အသုံးပြုထားသော data ကို ဖန်တီးရာတွင် ပါဝင်ခဲ့သည့် လူသန်းပေါင်းများစွာကို ကျွန်ုပ်တို့ ကျေးဇူးတင်ရှိပါသည်။ ထို့အပြင် ပရောဂျက်အတွက် ပံ့ပိုးကူညီခဲ့သော ကျွန်ုပ်တို့၏ တွဲဖက်စာရေးသူအားလုံးကိုလည်း ကျေးဇူးတင်ပါသည်။ နောက်ဆုံးအနေဖြင့် ဤဘလော့၏ draft များအပေါ် အကြံပြုချက်ပေးခဲ့သည့် Jeff Clune, Miles Brundage, Ryan Lowe, Jakub Pachocki နှင့် Vedant Misra တို့ကိုလည်းကောင်း၊ code release ကို ပြန်လည်သုံးသပ်ပေးခဲ့သော Matthew Knight ကိုလည်းကောင်း ကျေးဇူးတင်ရှိပါသည်။

ဒီဇိုင်းနှင့် မျက်နှာဖုံး အနုပညာလက်ရာ

Justin Jay Wang