
Illustration: Ben Barry
ဘာသာစကားပေါ်တွင် လေ့ကျင့်သင်ကြားထားသော အရွယ်အစားကြီး ထရန်(စ်)ဖော်မာ မော်ဒယ်တစ်ခုက အဓိပ္ပာယ်ညီညွတ်သော စာသားကို ထုတ်လုပ်နိုင်သကဲ့သို့ပင်၊ pixel sequence များပေါ်တွင် လေ့ကျင့်သင်ကြားထားသော အတိအကျ တူညီသည့် မော်ဒယ်ကလည်း အဓိပ္ပာယ်ညီညွတ်သော ရုပ်ပုံ completions နှင့် samples များကို ထုတ်လုပ်နိုင်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။ sample quality နှင့် image classification accuracy တို့အကြား ဆက်စပ်မှုကို တည်ဆောက်ခြင်းအားဖြင့်၊ ကျွန်ုပ်တို့၏ အကောင်းဆုံး ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်တွင် unsupervised setting ၌ ထိပ်တန်း convolutional nets များနှင့် ယှဉ်ပြိုင်နိုင်သော feature များလည်း ပါဝင်နေကြောင်း ပြသထားသည်။
Unsupervised နှင့် self-supervised learning1 သို့မဟုတ် လူက label တပ်ပေးထားသော data မပါဘဲ သင်ယူခြင်းသည် machine learning ၏ ကြာရှည်စွာ ရှိနေသည့် စိန်ခေါ်မှုတစ်ခုဖြစ်သည်။ မကြာသေးမီက transformer2 မော်ဒယ်များဖြစ်သည့် BERT3, GPT‑24, RoBERTa5, T56 နှင့် အခြား variant များ7 - 8 - 9နှင့် 10 သည် ဘာသာစကား task အမျိုးမျိုးတွင် ထိပ်တန်း performance ကို ရရှိခဲ့သဖြင့် ဘာသာစကားနယ်ပယ်တွင် အံ့မခန်းအောင်မြင်မှု ရရှိခဲ့သည်။ သို့သော် အလားတူ မော်ဒယ်အုပ်စုကြီးတစ်ခုတည်းက image classification အတွက် အားကောင်းသော features များကို ထုတ်လုပ်ရာတွင် မအောင်မြင်ခဲ့ပါ။11 ကျွန်ုပ်တို့၏အလုပ်သည် ဤကွာဟချက်ကို နားလည်ရန်နှင့် ချိတ်ဆက်ပေးရန် ရည်ရွယ်သည်။
BERT နှင့် GPT‑2 ကဲ့သို့သော ထရန်(စ်)ဖော်မာ မော်ဒယ်များသည် domain agnostic ဖြစ်ပြီး မည်သည့်ပုံစံမဆိုရှိသော 1-D sequences များပေါ်သို့ တိုက်ရိုက် အသုံးချနိုင်သည်ဟု ဆိုလိုသည်။ ရုပ်ပုံများကို ရှည်လျားသော pixel sequences များအဖြစ် ဖြန့်၍ GPT‑2 ကို လေ့ကျင့်သောအခါ၊ ၎င်းကို iGPT ဟု ကျွန်ုပ်တို့ ခေါ်ပြီး၊ မော်ဒယ်သည် object ၏ appearance နှင့် category ကဲ့သို့ 2-D image characteristics များကို နားလည်သကဲ့သို့ တွေ့ရသည်။ ၎င်းကို လူက ပေးထားသော labels မရှိဘဲတောင်မှ ၎င်းထုတ်လုပ်သည့် အဓိပ္ပာယ်ညီညွတ်သော image samples များ၏ ကွဲပြားသည့် အမျိုးအစားစုံလင်မှုက သက်သေပြနေသည်။ ထပ်မံသော သက်သေအဖြစ် မော်ဒယ်မှ features များသည် classification datasets အများအပြားပေါ်တွင် state-of-the-art performance နှင့် ImageNet ပေါ်တွင် state-of-the-art နီးပါး unsupervised accuracyA ကို ရရှိစေသည်။
အကဲဖြတ်ခြင်း | Dataset | ကျွန်ုပ်တို့၏ ရလဒ် | iGPT မဟုတ်သည့် အကောင်းဆုံး ရလဒ် |
|---|---|---|---|
သင်ယူထားသော features များအပေါ် logistic regression (linear probe) | CIFAR-10 | 96.3 iGPT‑L 32x32၊ 1536 features ဖြင့် | 95.3 SimCLR12၊ 8192 features ဖြင့် |
CIFAR-100 | 82.8 iGPT‑L 32x32၊ 1536 features ဖြင့် | 80.2 SimCLR၊ 8192 features ဖြင့် | |
STL-10 | 95.5 iGPT‑L 32x32၊ 1536 features ဖြင့် | 94.2 AMDIM13၊ 8192 features ဖြင့် | |
ImageNet | 72.0 iGPT‑XLa 64x64၊ 15360 features ဖြင့် | 76.5 SimCLR၊ 8192 features ဖြင့် | |
Full fine-tune | CIFAR-10 | 99.0 iGPT‑L 32x32၊ ImageNet ပေါ်တွင် လေ့ကျင့်ထားသည် | |
ImageNet 32x32 | 66.3 iGPT‑L 32x32 | 70.2 Isometric Nets15 |
- အခြား စမ်းသပ်မှုများသည် မတူညီသော supercomputing facilities များသို့ ပြောင်းရွှေ့ရန် လိုအပ်မတိုင်မီ မပြီးဆုံးသေးသောကြောင့် iGPT‑XL အတွက်သာ ImageNet linear probe accuracy ကို ပြထားသည်။
- JFT (ပုံ 300M၊ class 18K ပါဝင်သော) ပေါ်တွင် လေ့ကျင့်ထားသော Bit-L သည် 99.3 ရလဒ်ကို ရရှိခဲ့သည်။
generative17နှင့် 18 sequence modeling19 - 20 - 21နှင့် 22 ကို general purpose unsupervised learning algorithm အဖြစ် အလားအလာရှိကြောင်း ပိုမိုထင်ရှားစေရန် ဘာသာစကားတွင် GPT‑2 ကဲ့သို့သော တူညီသည့် ထရန်(စ်)ဖော်မာ ဗိသုကာပညာကို ကျွန်ုပ်တို့ ရည်ရွယ်ချက်ရှိရှိ အသုံးပြုထားသည်။ ထို့ကြောင့် ထိပ်တန်း unsupervised convolutional nets များ၏ features များနှင့် ယှဉ်ပြိုင်နိုင်သော features များကို ထုတ်လုပ်ရန် compute ပိုမိုလိုအပ်သည်။13 - 23 - 24 - 25နှင့် 12 သို့သော် ကျွန်ုပ်တို့၏ ရလဒ်များက မှန်ကန်သော model priors မသိရသေးသော domain အသစ်တစ်ခုကို ရင်ဆိုင်ရသည့်အခါ အရွယ်အစားကြီး GPT‑2 တစ်ခုသည် domain-specific26 - 27နှင့် 28 architectural design choices မလိုဘဲ ကောင်းမွန်သော features များကို သင်ယူနိုင်ကြောင်း ညွှန်ပြသည်။
ဘာသာစကားနယ်ပယ်တွင် word prediction ကို အခြေခံသည့် unsupervised learning algorithm များ (GPT‑2 နှင့် BERT ကဲ့သို့) သည် အလွန်အောင်မြင်ခဲ့ပြီး ဘာသာစကား task အမျိုးမျိုးတွင် ထိပ်တန်း စွမ်းဆောင်ရည်ကို ရရှိခဲ့သည်။ ဤအောင်မြင်မှုအတွက် ဖြစ်နိုင်ချေရှိသည့် အကြောင်းရင်းတစ်ခုမှာ downstream language tasks များ၏ instances များသည် စာသားအတွင်း သဘာဝအလျောက် ပေါ်ပေါက်နေခြင်းဖြစ်သည်။ မေးခွန်းများနောက်တွင် အဖြေများ လိုက်ပါလာတတ်သည် (question-answering အတွက် အထောက်အကူဖြစ်နိုင်သည်) နှင့် passage များနောက်တွင် summary များ လိုက်ပါလာတတ်သည် (summarization အတွက် အထောက်အကူဖြစ်နိုင်သည်)။ ထိုနှိုင်းယှဉ်မှုအရ pixel sequence များအတွင်းတွင် ၎င်းတို့ သက်ဆိုင်ရာ ရုပ်ပုံများ၏ labels များကို ရှင်းလင်းစွာ မပါဝင်ပါ။
ဤသတ်မှတ်ထားသော supervision မရှိသော်လည်း ရုပ်ပုံများပေါ်ရှိ GPT‑2 က အလုပ်ဖြစ်နိုင်သည့် အကြောင်းရင်းတစ်ခုတော့ ရှိနေသေးသည်။ လုံလောက်စွာ ကြီးမားသော ထရန်(စ်)ဖော်မာတစ်ခုကို next pixel prediction ပေါ်တွင် လေ့ကျင့်လျှင် နောက်ဆုံးတွင် ရှင်းလင်းစွာ ခွဲခြားသိနိုင်သော object များ ပါဝင်သည့် ကွဲပြားမှုရှိသောB samples များကို ထုတ်လုပ်တတ်လာနိုင်သည်။ ထိုသို့ လုပ်တတ်လာသည်နှင့် “Analysis by Synthesis”29 - 30နှင့် C ဟု ခေါ်သော အယူအဆအရ မော်ဒယ်သည် object categories များအကြောင်းကိုလည်း သိလာမည်ဟု ဆိုသည်။ အစောပိုင်း generative models31 - 32 - 33 - 34 - 35နှင့် 36 များစွာသည် ဤအယူအဆကြောင့် လှုံ့ဆော်ခံခဲ့ရပြီး မကြာသေးမီက BigBiGAN37 သည် အားတက်စရာ samples နှင့် features များကို ထုတ်ပေးခဲ့သော ဥပမာတစ်ခု ဖြစ်ခဲ့သည်။ ကျွန်ုပ်တို့၏အလုပ်တွင် ပိုကောင်းသော ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်များသည် ပိုအားကောင်းသော classification performance ကို ရရှိကြောင်း ပထမဦးစွာ ပြသသည်။ ထို့နောက် GPT‑2 ကို generative capabilities အတွက် optimize လုပ်ခြင်းအားဖြင့် setting အများအပြားတွင် ထိပ်တန်းအဆင့် classification performance ကို ရရှိခဲ့ပြီး analysis by synthesis အတွက် ထပ်မံ သက်သေပြထားသည်။
Generative sequence modeling သည် universal unsupervised learning algorithm တစ်ခုဖြစ်သည်။ data အမျိုးအစားအားလုံးကို byte sequences များအဖြစ် ကိုယ်စားပြုနိုင်သောကြောင့် ထရန်(စ်)ဖော်မာတစ်ခုကို ထပ်ဆောင်း engineering မလိုဘဲ မည်သည့် data type ပေါ်တွင်မဆို တိုက်ရိုက် အသုံးချနိုင်သည်။ ကျွန်ုပ်တို့၏အလုပ်သည် GPT‑2 ကို natural language အတွက် လေ့ကျင့်ရာတွင် အသုံးပြုသည့် architecture ကို ရုပ်ပုံ ထုတ်လုပ်မှုတွင် တိုက်ရိုက် အသုံးချခြင်းဖြင့် ဤ generality ၏ အားကို စမ်းသပ်ထားသည်။ convolutions38 သို့မဟုတ် relative attention39၊ sparse attention40 နှင့် 2-D position embeddings27 ကဲ့သို့သော image-specific knowledge ကို လက်ဖြင့် coding လုပ်ထားခြင်းကို ကျွန်ုပ်တို့ ရည်ရွယ်ချက်ရှိရှိ ရှောင်ကြဉ်ခဲ့သည်။
၎င်း၏ generality ၏ အကျိုးဆက်အနေဖြင့် ကျွန်ုပ်တို့၏ နည်းလမ်းသည် unsupervised setting တွင် ယှဉ်ပြိုင်နိုင်သော performance ကို ရရှိရန် compute ပိုမိုလိုအပ်သည်။ အမှန်တကယ်အားဖြင့် contrastive methods41 - 42 - 43 - 44 - 45 - 13 - 23 - 24 - 25နှင့် 12 သည် ရုပ်ပုံများမှ အရည်အသွေးမြင့် features များ ထုတ်လုပ်ရန် computationally အထိရောက်ဆုံး နည်းလမ်းများအဖြစ် ရှိနေဆဲဖြစ်သည်။ သို့သော် unsupervised transformer model တစ်ခုသည် အကောင်းဆုံး unsupervised convolutional nets များနှင့်24 - 25နှင့် 12 ယှဉ်ပြိုင်နိုင်ကြောင်း ပြသခြင်းအားဖြင့် hand coded domain knowledge ကို compute နှင့် အလဲအလှယ် လုပ်နိုင်ကြောင်း သက်သေပြထားသည်။ အသစ်သော domains များတွင်46နှင့် 47 လက်ဖြင့် coding လုပ်ရန် knowledge များစွာ မရှိသည့်အခါ compute ကို scale လုပ်ခြင်းသည် စမ်းသပ်ရန် သင့်တော်သော နည်းလမ်းတစ်ခုဟု ထင်ရသည်။
ကျွန်ုပ်တို့သည် parameters 76M၊ 455M နှင့် 1.4B အသီးသီး ပါဝင်သော transformers များဖြစ်သည့် iGPT‑S, iGPT‑M နှင့် iGPT‑L ကို ImageNet ပေါ်တွင် လေ့ကျင့်ထားသည်။ ထို့အပြင် parameters 6.8 billion ပါဝင်သော ထရန်(စ်)ဖော်မာ iGPT‑XLD ကို ImageNet နှင့် web မှ ရုပ်ပုံများ ပေါင်းစပ်ထားသော data ပေါ်တွင် လေ့ကျင့်ထားသည်။ dense attention ဖြင့် ရှည်လျားသော sequences များကို မော်ဒယ်လုပ်ရာတွင် computational cost ကြီးမားသောကြောင့် 32x32, 48x48 နှင့် 64x64 ဟူသော resolution နိမ့်များတွင် လေ့ကျင့်ထားသည်။
compute cost ကို ထပ်မံလျှော့ချရန် resolution ပိုနိမ့်သည့် အရွယ်အစားများတွင် အလုပ်လုပ်ချင်စရာကောင်းသော်လည်း ယခင်သုတေသနများအရ လူသားများ၏ image classification စွမ်းဆောင်ရည်သည် ဤအရွယ်အစားများအောက်သို့ ရောက်သည်နှင့် လျင်မြန်စွာ ကျဆင်းလာကြောင်း ပြထားသည်။48 ထို့အစား အစောပိုင်း color display palettes များမှ အားပေးမှုရယူကာ49 pixel များကို ကိုယ်စားပြုရန် ကျွန်ုပ်တို့၏ 9-bit color palette ကို ဖန်တီးထားသည်။ ဤ palette ကို အသုံးပြုခြင်းဖြင့် standard (R, G, B) palette ထက် input sequence length ကို ၃ ဆ ပိုတိုစေပြီး အရောင်ကိုလည်း မှန်ကန်စွာ encode လုပ်ထားနိုင်သည်။
မော်ဒယ် စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန် ကျွန်ုပ်တို့ အသုံးပြုသော နည်းလမ်း ၂ ခု ရှိပြီး၊ နှစ်ခုလုံးတွင် downstream classification task တစ်ခု ပါဝင်သည်။ ပထမနည်းလမ်းကို linear probe ဟု ကျွန်ုပ်တို့ ခေါ်ဆိုပြီး၊ လေ့ကျင့်ပြီးသား မော်ဒယ်ကို အသုံးပြု၍ downstream dataset အတွင်းရှိ ရုပ်ပုံများမှ featuresE ကို ထုတ်ယူကာ label များအပေါ် logistic regression ကို fit လုပ်သည်။ ဒုတိယနည်းလမ်းမှာ မော်ဒယ်တစ်ခုလုံးကို downstream dataset ပေါ်တွင် fine-tuneF လုပ်ခြင်းဖြစ်သည်။
နောက် pixel ကို ခန့်မှန်းခြင်းသည် image classification နှင့် တိုက်ရိုက်သက်ဆိုင်သည်ဟု မထင်ရှားသောကြောင့် နောက်ဆုံး layer မှ features များသည် object category ကို အကောင်းဆုံး ခန့်မှန်းပေးနိုင်မည် မဟုတ်ပါ။ ကျွန်ုပ်တို့၏ ပထမဆုံးရလဒ်က feature quality သည် depth တိုးလာသည်နှင့်အမျှ လျင်မြန်စွာ တိုးလာပြီးနောက် အနည်းငယ် လျော့ကျသည့် function တစ်ခုဖြစ်ကြောင်း ပြသည်။ ဤအပြုအမူက ထရန်(စ်)ဖော်မာ generative model တစ်ခုသည် အဆင့် ၂ ဆင့်ဖြင့် လုပ်ဆောင်ကြောင်း ညွှန်ပြသည်။ ပထမအဆင့်တွင် position တစ်ခုချင်းစီက contextualized image feature တစ်ခု တည်ဆောက်ရန် ပတ်ဝန်းကျင် context မှ အချက်အလက်များကို စုဆောင်းသည်။ ဒုတိယအဆင့်တွင် ဤ contextualized feature ကို conditional next pixel prediction task ကို ဖြေရှင်းရန် အသုံးပြုသည်။ ကျွန်ုပ်တို့၏ linear probes များတွင် တွေ့ရသော အဆင့် ၂ ဆင့် စွမ်းဆောင်ရည်သည် အခြား unsupervised neural net တစ်မျိုးဖြစ်သော bottleneck autoencoder နှင့် ဆင်တူပြီး၊ ထိုမော်ဒယ်တွင် အလယ်ပိုင်းရှိ features များကို အသုံးပြုရန် လက်ဖြင့် ဒီဇိုင်းထုတ်ထားသည်။
ကျွန်ုပ်တို့၏ နောက်ထပ် ရလဒ်သည် generative performance နှင့် feature quality အကြား ချိတ်ဆက်မှုကို တည်ထောင်ပေးသည်။ ကျွန်ုပ်တို့၏ မော်ဒယ်များ၏ scale ကို တိုးမြှင့်ခြင်းနှင့် iteration များ ပိုမိုလေ့ကျင့်ခြင်း နှစ်မျိုးစလုံးသည် ပိုကောင်းသော generative performance ကို ဖြစ်စေပြီး၊ ၎င်းသည် feature quality ပိုကောင်းလာခြင်းသို့ တိုက်ရိုက် ဘာသာပြန်သွားကြောင်း တွေ့ရှိခဲ့သည်။
ကျွန်ုပ်တို့၏ features များကို CIFAR-10၊ CIFAR-100 နှင့် STL-10 ပေါ်တွင် linear probes ဖြင့် အကဲဖြတ်သည့်အခါ supervised နှင့် unsupervised transfer algorithms အားလုံးမှ features များထက် ပိုကောင်းကြောင်း တွေ့ရသည်။ full fine-tuning setting တွင်လည်း ကျွန်ုပ်တို့၏ ရလဒ်များမှာ ဆွဲဆောင်မှုရှိပါသည်။
ImageNet ပေါ်တွင် အကြိုလေ့ကျင့်သင်ကြားထားသည် | ||||
အကဲဖြတ်ခြင်း | မော်ဒယ် | တိကျမှု | label မပါဘဲ | label ဖြင့် |
CIFAR-10 Linear Probe | ResNet-15250 | 94.0 | ✔ | |
SimCLR12 | 95.3 | ✔ | ||
iGPT‑L 32x32 | 96.3 | ✔ | ✔ | |
CIFAR-100 Linear Probe | ResNet-152 | 78.0 | ✔ | |
SimCLR | 80.2 | ✔ | ||
iGPT‑L 32x32 | 82.8 | ✔ | ||
STL-10 Linear Probe | AMDIM-L | 94.2 | ✔ | |
iGPT‑L 32x32 | 95.5 | ✔ | ||
CIFAR-10 Fine-tune | AutoAugment | 98.5 | ||
SimCLR | 98.6 | ✔ | ||
GPipe | 99.0 | ✔ | ||
iGPT‑L | 99.0 | ✔ | ||
CIFAR-100 Fine-tune | iGPT‑L | 88.5 | ✔ | |
SimCLR | 89.0 | ✔ | ||
AutoAugment | 89.3 | |||
EfficientNet52 | 91.7 | ✔ |
ကျွန်ုပ်တို့၏ မော်ဒယ်များနှင့် unsupervised သို့မဟုတ် supervised ImageNet transfer ကို အသုံးချသော ထိပ်တန်း မော်ဒယ်များအကြား linear probe နှင့် fine-tune accuracies များ၏ နှိုင်းယှဉ်ချက်။ CIFAR ပေါ်တွင် end-to-end လေ့ကျင့်ထားသော အကောင်းဆုံး မော်ဒယ်ဖြစ်သည့် AutoAugment ကိုလည်း ထည့်သွင်းထားသည်။
ImageNet ပေါ်တွင် unsupervised နှင့် self-supervised learning အပေါ် စိတ်ဝင်စားမှု ပြန်လည်မြင့်တက်လာခြင်းကြောင့် ကျွန်ုပ်တို့၏ မော်ဒယ်များ၏ performance ကို ImageNet ပေါ်တွင် linear probes ဖြင့်လည်း အကဲဖြတ်ထားသည်။ ဤသည်မှာ အထူးသဖြင့် ခက်ခဲသော setting ဖြစ်ပြီး ကျွန်ုပ်တို့သည် standard ImageNet input resolution ဖြင့် မလေ့ကျင့်ထားပါ။ သို့သော်လည်း 48x48 ရုပ်ပုံများပေါ်တွင် လေ့ကျင့်ထားသော iGPT‑L ၏ အကောင်းဆုံး layer မှ 1536 features များအပေါ် linear probe တစ်ခုသည် top-1 accuracy 65.2% ကို ရရှိပြီး AlexNet ထက် ပိုကောင်းသည်။
Contrastive methods များသည် ပုံမှန်အားဖြင့် 8192 features ပေါ်ရှိ ၎င်းတို့၏ အကောင်းဆုံး ရလဒ်များကို အစီရင်ခံကြသောကြောင့် နှိုင်းယှဉ်ရန်အတွက် embedding dimension 8192 ပါသော iGPT ကို အကဲဖြတ်နိုင်လျှင် အကောင်းဆုံး ဖြစ်မည်။ သို့သော် ထိုကဲ့သို့သော မော်ဒယ်တစ်ခုကို လေ့ကျင့်ခြင်းသည် အလွန်ကုန်ကျစရိတ်မြင့်မားသဖြင့် approximation အဖြစ် layer အများအပြားမှ features များကို concatenate လုပ်ခဲ့သည်။ ကံမကောင်းစွာဖြင့် ကျွန်ုပ်တို့၏ features များသည် layer များအကြား ဆက်နွယ်မှုရှိလေ့ရှိသဖြင့် ယှဉ်ပြိုင်နိုင်ရန် ၎င်းတို့ကို ပိုမိုလိုအပ်သည်။ iGPT‑XL ၏ layer 5 ခုမှ 15360 features ကို ယူလျှင် top-1 accuracy 72.0% ရရှိပြီး AMDIM၊ MoCo နှင့် CPC v2 ထက် ပိုကောင်းသော်လည်း SimCLR ထက်တော့ သိသာသော အကွာအဝေးဖြင့် နိမ့်နေသေးသည်။
နည်းလမ်း | Input Resolution | Features | Parameters | တိကျမှု |
Rotation53 | original | 8192 | 86M | 55.4 |
iGPT‑L | 32x32 | 1536 | 1362M | 60.3 |
BigBiGAN37 | original | 16384 | 86M | 61.3 |
iGPT‑L | 48x48 | 1536 | 1362M | 65.2 |
AMDIM13 | original | 8192 | 626M | 68.1 |
MoCo24 | original | 8192 | 375M | 68.6 |
iGPT‑XL | 64x64 | 3072 | 6801M | 68.7 |
SimCLR12 | original | 2048 | 24M | 69.3 |
CPC v225 | original | 4096 | 303M | 71.5 |
iGPT‑XL | 64x64 | 3072 x 5 | 6801M | 72.0 |
SimCLR | original | 8192 | 375M | 76.5 |
ကျွန်ုပ်တို့၏ မော်ဒယ်များနှင့် state-of-the-art self-supervised models များအကြား linear probe accuracies များ၏ နှိုင်းယှဉ်ချက်။ resolution ပိုနိမ့်သော input များဖြင့် လေ့ကျင့်ထားသော်လည်း ကျွန်ုပ်တို့သည် ယှဉ်ပြိုင်နိုင်သော performance ကို ရရှိခဲ့သည်၊ သို့ရာတွင် ကျွန်ုပ်တို့၏ နည်းလမ်းသည် parameters နှင့် compute ပိုမိုလိုအပ်သည်။
BERT ကဲ့သို့ masked language models များသည် ဘာသာစကား task အများစုတွင် generative models များထက် ပိုကောင်းခဲ့သောကြောင့် ကျွန်ုပ်တို့၏ image models များပေါ်တွင် BERT ၏ performance ကိုလည်း အကဲဖြတ်ထားသည်။ ရှေ့တွင် ရှိသော pixel အားလုံးကို ပေး၍ နောက် pixel ကို ခန့်မှန်းရန် လေ့ကျင့်မည့်အစား pixel 15% ကို mask လုပ်ထားပြီး မ mask လုပ်ထားသော pixel များမှ ၎င်းတို့ကို ခန့်မှန်းရန် မော်ဒယ်ကို လေ့ကျင့်သည်။ ထို့ကြောင့် BERT models များ၏ linear probe performance သည် သိသိသာသာ ပိုဆိုးသော်လည်း fine-tuning အချိန်တွင် ထူးချွန်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်-
Unsupervised learning သည် လူက label တပ်ပေးထားသော data မလိုဘဲ အလွန်ကောင်းမွန်သော features များကို ပေးစွမ်းနိုင်မည်ဟု ကတိပေးထားသော်လည်း၊ လူက label တပ်ပေးထားသော data ပမာဏ အကန့်အသတ်ဖြင့် အသုံးပြုခွင့်ပြုသည့် ပိုမိုလျော့ပေါ့သော semi-supervised learning framework အောက်တွင် မကြာသေးမီက သိသာထင်ရှားသော တိုးတက်မှုများ ရရှိထားသည်။ အောင်မြင်သော semi-supervised နည်းလမ်းများသည် consistency regularization၊ data augmentation သို့မဟုတ် pseudo-labeling ကဲ့သို့ ဉာဏ်ကောင်းသော နည်းလမ်းများအပေါ် မကြာခဏ မူတည်ပြီး၊ generative-based approaches သက်သက်54နှင့် 55 သည် နှစ်ပေါင်းများစွာ ယှဉ်ပြိုင်နိုင်စွမ်း မရှိခဲ့ပါ။ ကျွန်ုပ်တို့သည် ဤ sub-field အတွက် ပြိုင်ဆိုင်မှုပြင်းထန်သော benchmark ပေါ်တွင် iGPT‑LG ကို အကဲဖြတ်ခဲ့ပြီး၊ augmentation မပြုလုပ်ထားသော ရုပ်ပုံများမှ features များအပေါ် လုပ်ထားသော ရိုးရှင်းသည့် linear probe သည် Mean Teacher56 နှင့် MixMatch57 ထက် ပိုကောင်းသော်လည်း FixMatch59 ထက်တော့ နိမ့်ကြောင်း တွေ့ရှိခဲ့သည်။
မော်ဒယ် | label 40 ခု | label 250 ခု | label 4000 ခု |
Improved GAN55 | — | — | 81.4 ± 2.3 |
Mean Teacher56 | — | 67.7 ± 2.3 | 90.8 ± 0.2 |
MixMatch57 | 52.5 ± 11.5 | 89.0 ± 0.9 | 93.6 ± 0.1 |
iGPT‑L | 73.2 ± 01.5 | 87.6 ± 0.6 | 94.3 ± 0.1 |
UDA58 | 71.0 ± 05.9 | 91.2 ± 1.1 | 95.1 ± 0.2 |
FixMatch59 RA | 86.2 ± 03.4 | 94.9 ± 0.7 | 95.7 ± 0.1 |
FixMatch CTA | 88.6 ± 03.4 | 94.9 ± 0.3 | 95.7 ± 0.2 |
data နည်းပါးသော CIFAR-10 ပေါ်ရှိ performance နှိုင်းယှဉ်ချက်တစ်ခု။ label မတပ်ထားသော ImageNet ရုပ်ပုံများ အများအပြားကို အသုံးချခြင်းအားဖြင့် iGPT‑L သည် Mean Teacher နှင့် MixMatch ကဲ့သို့သော နည်းလမ်းများထက် ပိုကောင်းနိုင်သော်လည်း state of the art နည်းလမ်းများထက်တော့ နိမ့်နေသေးသည်။ ကျွန်ုပ်တို့၏ semi-supervised learning နည်းလမ်းမှာ အလွန်ရိုးရှင်းပြီး data augmentation သို့မဟုတ် fine-tuning မပါဘဲ iGPT‑L ၏ features များအပေါ် logistic regression classifier တစ်ခုသာ fit လုပ်ထားသောကြောင့် အထူးဒီဇိုင်းထုတ်ထားသည့် semi-supervised approaches များနှင့် သိသာထင်ရှားစွာ ကွာခြားသည်။
iGPT သည် အားကောင်းသော image features များကို သင်ယူနိုင်စွမ်းရှိကြောင်း ကျွန်ုပ်တို့ ပြသခဲ့သော်လည်း၊ ကျွန်ုပ်တို့၏ နည်းလမ်းတွင် အရေးကြီးသော ကန့်သတ်ချက်များ ရှိနေသေးသည်။ ဘာသာစကားတွင် GPT‑2 အတွက် အသုံးပြုသည့် generic sequence transformer ကိုပဲ အသုံးပြုထားသောကြောင့် ကျွန်ုပ်တို့၏ နည်းလမ်းသည် compute ပမာဏ အများကြီး လိုအပ်သည်။ iGPT‑L ကို အကြမ်းဖျဉ်းအားဖြင့် 2500 V100-days လေ့ကျင့်ခဲ့ရသော်လည်း စွမ်းဆောင်ရည် ဆင်တူသော MoCo24 မော်ဒယ်တစ်ခုကိုတော့ အကြမ်းဖျဉ်း 70 V100-days ခန့်ဖြင့် လေ့ကျင့်နိုင်သည်။
ထို့အပြင် ကျွန်ုပ်တို့သည် resolution နိမ့်သော input များကို transformer ဖြင့် မော်ဒယ်လုပ်နေချိန်တွင် self-supervised ရလဒ်အများစုမှာ resolution မြင့် input များကို အလွယ်တကူ လက်ခံနိုင်သော convolutional-based encoder များကို အသုံးပြုကြသည်။ ထပ်မံ scale လုပ်ရန် domain-agnostic multiscale transformer ကဲ့သို့သော ဗိသုကာအသစ်တစ်ခု လိုအပ်လာနိုင်သည်။ ဤကန့်သတ်ချက်များကြောင့် ကျွန်ုပ်တို့၏အလုပ်သည် hardcoded domain knowledge မလိုဘဲ ထရန်(စ်)ဖော်မာအခြေပြု အရွယ်အစားကြီး ဘာသာစကား မော်ဒယ်များသည် အသစ်သော domain များတွင် ကောင်းမွန်သော unsupervised representations များကို သင်ယူနိုင်စွမ်းရှိကြောင်း proof-of-concept demonstration အဖြစ် အဓိက တာဝန်ထမ်းဆောင်သည်။ သို့သော် ဤမော်ဒယ်များကို လေ့ကျင့်ရန် လိုအပ်သော resource cost များပြားမှုနှင့် convolutional neural-network အခြေပြု နည်းလမ်းများ၏ ပိုမိုကောင်းမွန်သော accuracy ကြောင့် vision domain တွင် ဤ representations များကို လက်တွေ့အသုံးချမှုများ၌ အသုံးပြုရန် အတားအဆီး ဖြစ်နေသည်။
နောက်ဆုံးအနေဖြင့် ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်များသည် ၎င်းတို့ လေ့ကျင့်ထားသော data ၏ အကျိုးဆက်အဖြစ် bias များကို ပြသနိုင်သည်။ ဤ bias များထဲမှ အချို့သည် အသုံးဝင်ကြသည်။ ဥပမာ brown နှင့် green pixels ပေါင်းစပ်မှုတစ်ခုသည် အရွက်များဖုံးထားသော ကိုင်းတစ်ကိုင်းကို ကိုယ်စားပြုသည်ဟု ယူဆပြီး ထို bias ကို အသုံးပြုကာ ရုပ်ပုံကို ဆက်လက်ဖြည့်စွက်ခြင်းကဲ့သို့ ဖြစ်သည်။ သို့သော် fairness နှင့် representation ရှုထောင့်မှ စဉ်းစားပါက ထို bias အချို့သည် အန္တရာယ်ဖြစ်စေနိုင်သည်။ ဥပမာ မော်ဒယ်က scientist ၏ မြင်ကွင်းဆိုင်ရာ အယူအဆကို အမျိုးသားဘက်သို့ မညီမမျှ ဖွံ့ဖြိုးလာခဲ့လျှင် scientist များ၏ ရုပ်ပုံများကို ဆက်လက်ဖြည့်စွက်ရာတွင် gender မျိုးစုံပေါင်းစပ်ထားသည့်ပုံများအစား အမျိုးသားပုံစံ လူများဖြင့် တစိုက်မတ်မတ် ဖြည့်စွက်နိုင်သည်။ developer များသည် မိမိတို့၏ system များထဲသို့ ထည့်သွင်းသော data များကို ပိုမိုဂရုစိုက်လာရန်နှင့် ၎င်းတို့သည် လေ့ကျင့်ပြီးသား မော်ဒယ်များအတွင်းရှိ bias များနှင့် မည်သို့ ဆက်နွယ်နေသည်ကို ပိုမိုကောင်းမွန်စွာ နားလည်ရန် လိုအပ်လာမည်ဟု ကျွန်ုပ်တို့ မျှော်လင့်သည်။
2-D knowledge ကို scale60 နှင့် လဲလှယ်အသုံးပြုပြီး network အလယ်ပိုင်းမှ predictive features များကို ရွေးချယ်ခြင်းအားဖြင့် sequence transformer တစ်ခုသည် unsupervised image classification အတွက် ထိပ်တန်း convolutional nets များနှင့် ယှဉ်ပြိုင်နိုင်ကြောင်း ကျွန်ုပ်တို့ ပြသခဲ့သည်။ ထူးခြားစွာဆိုရလျှင်၊ ကျွန်ုပ်တို့သည် GPT‑2 language model ကို ရုပ်ပုံ ထုတ်လုပ်မှု သို့ တိုက်ရိုက် အသုံးချခြင်းဖြင့် ဤရလဒ်များကို ရရှိခဲ့သည်။ ကျွန်ုပ်တို့၏ ရလဒ်များက simplicity နှင့် generality ကြောင့် လုံလောက်သော compute ပေးထားသည့် sequence transformer တစ်ခုသည် domain အများအပြားတွင် ကောင်းမွန်သော features များကို သင်ယူရန် နောက်ဆုံးတွင် ထိရောက်သော နည်းလမ်းတစ်ခု ဖြစ်လာနိုင်ကြောင်း ညွှန်ပြသည်။
သင်သည် ဤသုတေသနနယ်ပယ်တွင် ကျွန်ုပ်တို့နှင့်အတူ အလုပ်လုပ်ရန် စိတ်လှုပ်ရှားနေပါက ကျွန်ုပ်တို့မှာ အလုပ်ခေါ်နေပါသည်!
မှတ်စုများ
- A
သင်ယူထားသော features များအပေါ် logistic regression (linear probe) ဖြင့် တိုင်းတာထားခြင်းဖြစ်သည်။
- B
ထရန်(စ်)ဖော်မာတစ်ခုကို likelihood ကို အများဆုံးဖြစ်စေရန် လေ့ကျင့်ထားသောကြောင့် ၎င်းသည် mode covering ဖြစ်ပြီး၊ ထို့ကြောင့် ၎င်း၏ samples များ၏ ကွဲပြားမှုကို အလိုအလျောက် အာမခံပေးသည်။
- C
မူလ analysis by synthesis အယူအဆသည် latent variables ပါသည့် generative models များအတွက် ပိုမို သက်ဆိုင်သော်လည်း latent variables မပါသည့် generative models များသည် data distribution ကို မော်ဒယ်လုပ်ရာတွင် ပိုကောင်းလွန်းသဖြင့် analysis-by-synthesis conjecture သည် ၎င်းတို့အတွက်လည်း မှန်ကန်သင့်သည်ဟု ကျွန်ုပ်တို့ ယူဆခဲ့သည်။
- D
အခြား စမ်းသပ်မှုများသည် မတူညီသော supercomputing facilities များသို့ ပြောင်းရွှေ့ရန် လိုအပ်မတိုင်မီ မပြီးဆုံးသေးသောကြောင့် iGPT-XL အတွက်သာ ImageNet ပေါ်ရှိ linear probe accuracy ကို ပြထားသည်။
- E
linear probe အတွက် features များကို ထုတ်ယူရာတွင် layer တစ်ခုရှိ post layernorm attention block inputs များကို ယူပြီး sequence dimension တစ်လျှောက် average pool လုပ်သည်။
- F
fine-tune လုပ်ရန်အတွက် post layernorm transformer output ကို classification head အတွက် input အဖြစ် sequence dimension တစ်လျှောက် average pool လုပ်ပြီး ယူသည်။
- G
စစ်မှန်သော unsupervised ပုံစံဖြင့် features များကို သင်ယူသော ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်တစ်ခု။
ကိုးကားချက်များ
- 1
LeCun, Y. (2017). “ကြိုတင်ခန့်မှန်း သင်ယူခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).”
- 2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Attention သာလျှင် လိုအပ်သည်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2017.
- 3
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). “BERT: Language Understanding အတွက် နက်နဲစွာ နှစ်ဖက်မြင် ထရန်(စ်)ဖော်မာများ၏ အကြိုလေ့ကျင့်သင်ကြားခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
- 4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Language Models are Unsupervised Multitask Learners(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” Technical Report, OpenAI.
- 5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: ပိုမိုခိုင်မာစွာ optimize လုပ်ထားသော BERT အကြိုလေ့ကျင့်သင်ကြားရေး နည်းလမ်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
- 6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “Unified Text-to-Text Transformer ဖြင့် Transfer Learning ၏ အကန့်အသတ်များကို စူးစမ်းလေ့လာခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
- 7
Dai, A., Le, Q. V. (2015). “Semi-supervised sequence learning(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2015.
- 8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “နက်နဲသော အခြေအနေအခြေပြု စကားလုံးကိုယ်စားပြုမှုများ(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NAACL 2018.
- 9
Howard, J., Ruder, S. (2018). “စာသား အမျိုးအစားခွဲခြားခြင်းအတွက် Universal Language Model Fine-tuning(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In ACL 2018.
- 10
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “generative pre-training ဖြင့် language understanding ကို တိုးတက်စေခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” Technical Report, OpenAI.
- 11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). “Sparse attentive backtracking: သတိပေးခြင်းမှတစ်ဆင့် အချိန်ဆိုင်ရာ credit assignment(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2018.
- 12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). “မြင်ကွင်းကိုယ်စားပြုမှုများအတွက် Contrastive Learning ၏ ရိုးရှင်းသော Framework တစ်ခု(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
- 13
Bachman, P., Hjelm, R., & Buchwalter, W. (2019). “view များအကြား mutual information ကို အများဆုံးဖြစ်စေခြင်းဖြင့် ကိုယ်စားပြုမှုများကို သင်ယူခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2019.
- 14
Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): ယေဘုယျ Visual Representation Learning(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
- 15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: Pipeline Parallelism ကို အသုံးပြု၍ အလွန်ကြီးမားသော Neural Networks များကို ထိရောက်စွာ လေ့ကျင့်ခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2019.
- 16
Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). “ခွဲခြားမရသော data သို့မဟုတ် အားနည်းသော မော်ဒယ်လား? data နှင့် model resolution ၏ ဆက်စပ်အရေးပါမှုအပေါ်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In ICCV 2019.
- 17
Lasserre, J., Bishop, C., & Minka, T. P. (2006). “Generative နှင့် Discriminative Models များ၏ စနစ်တကျ ပေါင်းစပ်မှုများ(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In CVPR 2006.
- 18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). “အကြိုလေ့ကျင့်သင်ကြားခြင်းသည် နက်နဲစွာ သင်ယူလေ့လာခြင်း ကို ဘာကြောင့် အထောက်အကူဖြစ်စေသနည်း?(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In JMLR 2010.
- 19
Elman, J. (1990). “အချိန်အတွင်း ဖွဲ့စည်းပုံကို ရှာဖွေခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In Cognitive Science 1990.
- 20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Recurrent neural network အခြေပြု language model(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In INTERSPEECH-2010.
- 21
Larochelle, H., Murray, I. (2011). “neural autoregressive distribution estimator(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In AISTATS 2011.
- 22
Graves, A. (2013). “recurrent neural networks များဖြင့် sequence များကို ထုတ်လုပ်ခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
- 23
Tian, Y., Krishnan, D., & Isola, P. (2019). “Contrastive multiview coding(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
- 24
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). “Unsupervised Visual Representation Learning အတွက် Momentum Contrast(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
- 25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Contrastive Predictive Coding ဖြင့် Data-Efficient Image Recognition(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) .” arXiv preprint.
- 26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Pixel recurrent neural networks(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
- 27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In ICML 2018.
- 28
Menick, J., Kalchbrenner, N. (2018). “Subscale Pixel Networks နှင့် Multidimensional Upscaling ဖြင့် High Fidelity Images များကို ထုတ်လုပ်ခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
- 29
Mumford, D. (1992). “neocortex ၏ computational architecture အကြောင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In Biol. Cybern.
- 30
Rao, R., Ballard, D. (1999). “visual cortex တွင် predictive coding: extra-classical receptive-field effects များ၏ functional interpretation(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In Nature Neuroscience.
- 31
- 32
Hinton, G. (2002). “Contrastive Divergence ကို လျှော့ချခြင်းဖြင့် Products of Experts ကို လေ့ကျင့်ခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In MIT Press.
- 33
Hinton, G., Osindero, S., & Teh, Y. (2006). “နက်နဲသော belief nets များအတွက် မြန်ဆန်သော သင်ယူမှု algorithm တစ်ခု(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In Neural Computation.
- 34
Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). “denoising autoencoders ဖြင့် ခိုင်မာသော features များကို ထုတ်ယူ၍ ပေါင်းစပ်ခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In ICML 2008.
- 35
Coates, A., Lee, H., & Ng, A. Y. (2011). “unsupervised feature learning အတွင်း single-layer networks များ၏ ခွဲခြမ်းစိတ်ဖြာချက်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In AISTATS 2011.
- 36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “အရွယ်အစားကြီး unsupervised learning ဖြင့် အဆင့်မြင့် features များကို တည်ဆောက်ခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In ICML 2012.
- 37
Donahue, J., Simonyan, K. (2019). “Large scale adversarial representation learning(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2019.
- 38
Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). “Deep Big Simple Neural Nets သည် လက်ရေးဂဏန်း အသိအမှတ်ပြုခြင်းတွင် ထူးချွန်သည်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In CoRR 2010.
- 39
Shaw, P., Uszkoreit, J., & Vaswani A. (2018). “relative position representations ပါသော self-attention(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NAACL 2018.
- 40
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “sparse transformers ဖြင့် ရှည်လျားသော sequences များကို ထုတ်လုပ်ခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
- 41
Becker, S., Hinton, G. (1991). “random-dot stereograms ထဲမှ surfaces များကို ရှာဖွေတွေ့ရှိသော self-organizing neural network(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In Nature.
- 42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). ““siamese” time delay neural network ကို အသုံးပြုသော လက်မှတ် အတည်ပြုခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 1994.
- 43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). “စကားလုံးများနှင့် စကားစုများ၏ ဖြန့်ဝေကိုယ်စားပြုမှုများနှင့် ၎င်းတို့၏ compositionality(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) .” In NeurIPS 2013.
- 44
Oord, A., Li, Y., Vinyals, O. (2018). “Contrastive Predictive Coding ဖြင့် Representation Learning(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) .” arXiv preprint.
- 45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “mutual information estimation နှင့် maximization ဖြင့် deep representations များကို သင်ယူခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In ICLR 2019.
- 46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). “sequence-only deep representation learning ဖြင့် unified rational protein engineering(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In Nature Methods.
- 47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). “Unsupervised Learning ကို Protein Sequences 250 Million အထိ Scale လုပ်ခြင်းမှ Biological Structure နှင့် Function ပေါ်ပေါက်လာခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” bioRxiv preprint.
- 48
Torralba, A., Fergus, R., Freeman, W. (2008). “80 million tiny images: nonparametric object and scene recognition အတွက် ကြီးမားသော data set တစ်ခု(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In IEEE transactions on pattern analysis and machine intelligence.
- 49
“8-Bit Computer Hardware Graphics စာရင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” Wikipedia, 8 May 2020
- 50
Kornblith, S., Shlens, J., & Le, Q. V. (2019). “ပိုကောင်းသော ImageNet Models များသည် Transfer ကို ပိုကောင်းစေသလား?(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In CVPR 2019.
- 51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: Data မှ Augmentation Strategies များကို သင်ယူခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In CVPR 2019.
- 52
Tan, M., Le, Q. V. (2019). “EfficientNet: Convolutional Neural Networks အတွက် Model Scaling ကို ပြန်လည်စဉ်းစားခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In ICML 2019.
- 53
Gidaris, S., Singh, P., & Komodakis, N. (2018). “Image Rotations များကို ခန့်မှန်းခြင်းဖြင့် Unsupervised Representation Learning(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In ICLR 2018.
- 54
Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). “နက်နဲသော ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်များဖြင့် Semi-Supervised Learning(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2014.
- 55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “gans များကို လေ့ကျင့်ရန် တိုးတက်လာသော နည်းလမ်းများ(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2016.
- 56
Tarvainen, A., Valpola, H. (2017). “Mean teachers များသည် ပိုကောင်းသော role models များဖြစ်သည်: weight-averaged consistency targets များက semi-supervised deep learning ရလဒ်များကို တိုးတက်စေသည်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2017.
- 57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: Semi-Supervised Learning အတွက် Holistic Approach တစ်ခု(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2019.
- 58
Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). “Consistency Training အတွက် Unsupervised Data Augmentation(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
- 59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: consistency နှင့် confidence ဖြင့် semi-supervised learning ကို ရိုးရှင်းစေခြင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
- 60
Sutton, R. (2019). “ခက်ခဲသော သင်ခန်းစာ(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).”
ရေးသားသူများ
ကျေးဇူးတင်လွှာ
အဓိကအားဖြင့် ကျွန်ုပ်တို့၏ paper ကို တွဲဖက်ရေးသားသူများဖြစ်သော Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal နှင့် David Luan တို့ကို အသိအမှတ်ပြု ကျေးဇူးတင်လိုပါသည်။
ဤအလုပ်အပေါ် အကြံပြုချက်များပေးခြင်းနှင့် ဤ release အတွက် ပါဝင်ကူညီခဲ့ကြသူများအား ကျေးဇူးတင်ပါသည်- Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le နှင့် Ashish Vaswani။
အယ်ဒီတာ: Ashley Pilipiszyn
ဒီဇိုင်း: Justin Jay Wang
မျက်နှာဖုံး အနုပညာလက်ရာ: Ben Barry


