၂၀၂၀ ဇွန် ၁၇

Image GPT

စာတမ်းကို ဖတ်ရန်ကုဒ်ကိုကြည့်ရန်ICML 2020 စာတမ်း (V1)

Illustration: Ben Barry

ဖွင့်နေသည်…

ဘာသာစကားပေါ်တွင် လေ့ကျင့်သင်ကြားထားသော အရွယ်အစားကြီး ထရန်(စ်)ဖော်မာ မော်ဒယ်တစ်ခုက အဓိပ္ပာယ်ညီညွတ်သော စာသားကို ထုတ်လုပ်နိုင်သကဲ့သို့ပင်၊ pixel sequence များပေါ်တွင် လေ့ကျင့်သင်ကြားထားသော အတိအကျ တူညီသည့် မော်ဒယ်ကလည်း အဓိပ္ပာယ်ညီညွတ်သော ရုပ်ပုံ completions⁠ နှင့် samples⁠ များကို ထုတ်လုပ်နိုင်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။ sample quality နှင့် image classification accuracy တို့အကြား ဆက်စပ်မှုကို တည်ဆောက်ခြင်းအားဖြင့်၊ ကျွန်ုပ်တို့၏ အကောင်းဆုံး ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်တွင် unsupervised setting ၌ ထိပ်တန်း convolutional nets များနှင့် ယှဉ်ပြိုင်နိုင်သော feature များလည်း ပါဝင်နေကြောင်း ပြသထားသည်။

နိဒါန်း

Unsupervised နှင့် self-supervised learning¹ သို့မဟုတ် လူက label တပ်ပေးထားသော data မပါဘဲ သင်ယူခြင်းသည် machine learning ၏ ကြာရှည်စွာ ရှိနေသည့် စိန်ခေါ်မှုတစ်ခုဖြစ်သည်။ မကြာသေးမီက transformer² မော်ဒယ်များဖြစ်သည့် BERT³, GPT‑2⁴, RoBERTa⁵, T5⁶ နှင့် အခြား variant များ^{7 - 8 - 9နှင့် 10} သည် ဘာသာစကား task အမျိုးမျိုးတွင် ထိပ်တန်း performance ကို ရရှိခဲ့သဖြင့် ဘာသာစကားနယ်ပယ်တွင် အံ့မခန်းအောင်မြင်မှု ရရှိခဲ့သည်။ သို့သော် အလားတူ မော်ဒယ်အုပ်စုကြီးတစ်ခုတည်းက image classification အတွက် အားကောင်းသော features များကို ထုတ်လုပ်ရာတွင် မအောင်မြင်ခဲ့ပါ။¹¹ ကျွန်ုပ်တို့၏အလုပ်သည် ဤကွာဟချက်ကို နားလည်ရန်နှင့် ချိတ်ဆက်ပေးရန် ရည်ရွယ်သည်။

BERT နှင့် GPT‑2 ကဲ့သို့သော ထရန်(စ်)ဖော်မာ မော်ဒယ်များသည် domain agnostic ဖြစ်ပြီး မည်သည့်ပုံစံမဆိုရှိသော 1-D sequences များပေါ်သို့ တိုက်ရိုက် အသုံးချနိုင်သည်ဟု ဆိုလိုသည်။ ရုပ်ပုံများကို ရှည်လျားသော pixel sequences များအဖြစ် ဖြန့်၍ GPT‑2 ကို လေ့ကျင့်သောအခါ၊ ၎င်းကို iGPT ဟု ကျွန်ုပ်တို့ ခေါ်ပြီး၊ မော်ဒယ်သည် object ၏ appearance နှင့် category ကဲ့သို့ 2-D image characteristics များကို နားလည်သကဲ့သို့ တွေ့ရသည်။ ၎င်းကို လူက ပေးထားသော labels မရှိဘဲတောင်မှ ၎င်းထုတ်လုပ်သည့် အဓိပ္ပာယ်ညီညွတ်သော image samples များ၏ ကွဲပြားသည့် အမျိုးအစားစုံလင်မှုက သက်သေပြနေသည်။ ထပ်မံသော သက်သေအဖြစ် မော်ဒယ်မှ features များသည် classification datasets အများအပြားပေါ်တွင် state-of-the-art performance နှင့် ImageNet ပေါ်တွင် state-of-the-art နီးပါး unsupervised accuracy^A ကို ရရှိစေသည်။

အကဲဖြတ်ခြင်း	Dataset	ကျွန်ုပ်တို့၏ ရလဒ်	iGPT မဟုတ်သည့် အကောင်းဆုံး ရလဒ်
သင်ယူထားသော features များအပေါ် logistic regression (linear probe)	CIFAR-10	96.3 iGPT‑L 32x32၊ 1536 features ဖြင့်	95.3 SimCLR¹²⁠၊ 8192 features ဖြင့်
	CIFAR-100	82.8 iGPT‑L 32x32၊ 1536 features ဖြင့်	80.2 SimCLR၊ 8192 features ဖြင့်
	STL-10	95.5 iGPT‑L 32x32၊ 1536 features ဖြင့်	94.2 AMDIM¹³⁠၊ 8192 features ဖြင့်
	ImageNet	72.0 iGPT‑XL^a⁠ 64x64၊ 15360 features ဖြင့်	76.5 SimCLR၊ 8192 features ဖြင့်
Full fine-tune	CIFAR-10	99.0 iGPT‑L 32x32၊ ImageNet ပေါ်တွင် လေ့ကျင့်ထားသည်	99.0^b⁠ GPipe,¹⁴⁠၊ ImageNet ပေါ်တွင် လေ့ကျင့်ထားသည်
	ImageNet 32x32	66.3 iGPT‑L 32x32	70.2 Isometric Nets¹⁵⁠

အခြား စမ်းသပ်မှုများသည် မတူညီသော supercomputing facilities များသို့ ပြောင်းရွှေ့ရန် လိုအပ်မတိုင်မီ မပြီးဆုံးသေးသောကြောင့် iGPT‑XL အတွက်သာ ImageNet linear probe accuracy ကို ပြထားသည်။
JFT (ပုံ 300M၊ class 18K ပါဝင်သော) ပေါ်တွင် လေ့ကျင့်ထားသော Bit-L သည် 99.3 ရလဒ်ကို ရရှိခဲ့သည်။

generative^{17နှင့် 18} sequence modeling^{19 - 20 - 21နှင့် 22} ကို general purpose unsupervised learning algorithm အဖြစ် အလားအလာရှိကြောင်း ပိုမိုထင်ရှားစေရန် ဘာသာစကားတွင် GPT‑2 ကဲ့သို့သော တူညီသည့် ထရန်(စ်)ဖော်မာ ဗိသုကာပညာကို ကျွန်ုပ်တို့ ရည်ရွယ်ချက်ရှိရှိ အသုံးပြုထားသည်။ ထို့ကြောင့် ထိပ်တန်း unsupervised convolutional nets များ၏ features များနှင့် ယှဉ်ပြိုင်နိုင်သော features များကို ထုတ်လုပ်ရန် compute ပိုမိုလိုအပ်သည်။^{13 - 23 - 24 - 25နှင့် 12} သို့သော် ကျွန်ုပ်တို့၏ ရလဒ်များက မှန်ကန်သော model priors မသိရသေးသော domain အသစ်တစ်ခုကို ရင်ဆိုင်ရသည့်အခါ အရွယ်အစားကြီး GPT‑2 တစ်ခုသည် domain-specific^{26 - 27နှင့် 28} architectural design choices မလိုဘဲ ကောင်းမွန်သော features များကို သင်ယူနိုင်ကြောင်း ညွှန်ပြသည်။

ဖွင့်နေသည်...

ဘာသာစကား GPT မှ ရုပ်ပုံ GPT သို့

ဘာသာစကားနယ်ပယ်တွင် word prediction ကို အခြေခံသည့် unsupervised learning algorithm များ (GPT‑2 နှင့် BERT ကဲ့သို့) သည် အလွန်အောင်မြင်ခဲ့ပြီး ဘာသာစကား task အမျိုးမျိုးတွင် ထိပ်တန်း စွမ်းဆောင်ရည်ကို ရရှိခဲ့သည်။ ဤအောင်မြင်မှုအတွက် ဖြစ်နိုင်ချေရှိသည့် အကြောင်းရင်းတစ်ခုမှာ downstream language tasks များ၏ instances များသည် စာသားအတွင်း သဘာဝအလျောက် ပေါ်ပေါက်နေခြင်းဖြစ်သည်။ မေးခွန်းများနောက်တွင် အဖြေများ လိုက်ပါလာတတ်သည် (question-answering အတွက် အထောက်အကူဖြစ်နိုင်သည်) နှင့် passage များနောက်တွင် summary များ လိုက်ပါလာတတ်သည် (summarization အတွက် အထောက်အကူဖြစ်နိုင်သည်)။ ထိုနှိုင်းယှဉ်မှုအရ pixel sequence များအတွင်းတွင် ၎င်းတို့ သက်ဆိုင်ရာ ရုပ်ပုံများ၏ labels များကို ရှင်းလင်းစွာ မပါဝင်ပါ။

ဤသတ်မှတ်ထားသော supervision မရှိသော်လည်း ရုပ်ပုံများပေါ်ရှိ GPT‑2 က အလုပ်ဖြစ်နိုင်သည့် အကြောင်းရင်းတစ်ခုတော့ ရှိနေသေးသည်။ လုံလောက်စွာ ကြီးမားသော ထရန်(စ်)ဖော်မာတစ်ခုကို next pixel prediction ပေါ်တွင် လေ့ကျင့်လျှင် နောက်ဆုံးတွင် ရှင်းလင်းစွာ ခွဲခြားသိနိုင်သော object များ ပါဝင်သည့် ကွဲပြားမှုရှိသော^B samples များကို ထုတ်လုပ်တတ်လာနိုင်သည်။ ထိုသို့ လုပ်တတ်လာသည်နှင့် “Analysis by Synthesis”^{29 - 30နှင့် C} ဟု ခေါ်သော အယူအဆအရ မော်ဒယ်သည် object categories များအကြောင်းကိုလည်း သိလာမည်ဟု ဆိုသည်။ အစောပိုင်း generative models^{31 - 32 - 33 - 34 - 35နှင့် 36} များစွာသည် ဤအယူအဆကြောင့် လှုံ့ဆော်ခံခဲ့ရပြီး မကြာသေးမီက BigBiGAN³⁷ သည် အားတက်စရာ samples နှင့် features များကို ထုတ်ပေးခဲ့သော ဥပမာတစ်ခု ဖြစ်ခဲ့သည်။ ကျွန်ုပ်တို့၏အလုပ်တွင် ပိုကောင်းသော ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်များသည် ပိုအားကောင်းသော classification performance ကို ရရှိကြောင်း ပထမဦးစွာ ပြသသည်။ ထို့နောက် GPT‑2 ကို generative capabilities အတွက် optimize လုပ်ခြင်းအားဖြင့် setting အများအပြားတွင် ထိပ်တန်းအဆင့် classification performance ကို ရရှိခဲ့ပြီး analysis by synthesis အတွက် ထပ်မံ သက်သေပြထားသည်။

ယေဘုယျ unsupervised learning သို့

Generative sequence modeling သည် universal unsupervised learning algorithm တစ်ခုဖြစ်သည်။ data အမျိုးအစားအားလုံးကို byte sequences များအဖြစ် ကိုယ်စားပြုနိုင်သောကြောင့် ထရန်(စ်)ဖော်မာတစ်ခုကို ထပ်ဆောင်း engineering မလိုဘဲ မည်သည့် data type ပေါ်တွင်မဆို တိုက်ရိုက် အသုံးချနိုင်သည်။ ကျွန်ုပ်တို့၏အလုပ်သည် GPT‑2 ကို natural language အတွက် လေ့ကျင့်ရာတွင် အသုံးပြုသည့် architecture ကို ရုပ်ပုံ ထုတ်လုပ်မှုတွင် တိုက်ရိုက် အသုံးချခြင်းဖြင့် ဤ generality ၏ အားကို စမ်းသပ်ထားသည်။ convolutions³⁸ သို့မဟုတ် relative attention³⁹၊ sparse attention⁴⁰ နှင့် 2-D position embeddings²⁷ ကဲ့သို့သော image-specific knowledge ကို လက်ဖြင့် coding လုပ်ထားခြင်းကို ကျွန်ုပ်တို့ ရည်ရွယ်ချက်ရှိရှိ ရှောင်ကြဉ်ခဲ့သည်။

၎င်း၏ generality ၏ အကျိုးဆက်အနေဖြင့် ကျွန်ုပ်တို့၏ နည်းလမ်းသည် unsupervised setting တွင် ယှဉ်ပြိုင်နိုင်သော performance ကို ရရှိရန် compute ပိုမိုလိုအပ်သည်။ အမှန်တကယ်အားဖြင့် contrastive methods^{41 - 42 - 43 - 44 - 45 - 13 - 23 - 24 - 25နှင့် 12} သည် ရုပ်ပုံများမှ အရည်အသွေးမြင့် features များ ထုတ်လုပ်ရန် computationally အထိရောက်ဆုံး နည်းလမ်းများအဖြစ် ရှိနေဆဲဖြစ်သည်။ သို့သော် unsupervised transformer model တစ်ခုသည် အကောင်းဆုံး unsupervised convolutional nets များနှင့်^{24 - 25နှင့် 12} ယှဉ်ပြိုင်နိုင်ကြောင်း ပြသခြင်းအားဖြင့် hand coded domain knowledge ကို compute နှင့် အလဲအလှယ် လုပ်နိုင်ကြောင်း သက်သေပြထားသည်။ အသစ်သော domains များတွင်^{46နှင့် 47} လက်ဖြင့် coding လုပ်ရန် knowledge များစွာ မရှိသည့်အခါ compute ကို scale လုပ်ခြင်းသည် စမ်းသပ်ရန် သင့်တော်သော နည်းလမ်းတစ်ခုဟု ထင်ရသည်။

နည်းလမ်း

ကျွန်ုပ်တို့သည် parameters 76M၊ 455M နှင့် 1.4B အသီးသီး ပါဝင်သော transformers များဖြစ်သည့် iGPT‑S, iGPT‑M နှင့် iGPT‑L ကို ImageNet ပေါ်တွင် လေ့ကျင့်ထားသည်။ ထို့အပြင် parameters 6.8 billion ပါဝင်သော ထရန်(စ်)ဖော်မာ iGPT‑XL^D ကို ImageNet နှင့် web မှ ရုပ်ပုံများ ပေါင်းစပ်ထားသော data ပေါ်တွင် လေ့ကျင့်ထားသည်။ dense attention ဖြင့် ရှည်လျားသော sequences များကို မော်ဒယ်လုပ်ရာတွင် computational cost ကြီးမားသောကြောင့် 32x32, 48x48 နှင့် 64x64 ဟူသော resolution နိမ့်များတွင် လေ့ကျင့်ထားသည်။

compute cost ကို ထပ်မံလျှော့ချရန် resolution ပိုနိမ့်သည့် အရွယ်အစားများတွင် အလုပ်လုပ်ချင်စရာကောင်းသော်လည်း ယခင်သုတေသနများအရ လူသားများ၏ image classification စွမ်းဆောင်ရည်သည် ဤအရွယ်အစားများအောက်သို့ ရောက်သည်နှင့် လျင်မြန်စွာ ကျဆင်းလာကြောင်း ပြထားသည်။⁴⁸ ထို့အစား အစောပိုင်း color display palettes များမှ အားပေးမှုရယူကာ⁴⁹ pixel များကို ကိုယ်စားပြုရန် ကျွန်ုပ်တို့၏ 9-bit color palette ကို ဖန်တီးထားသည်။ ဤ palette ကို အသုံးပြုခြင်းဖြင့် standard (R, G, B) palette ထက် input sequence length ကို ၃ ဆ ပိုတိုစေပြီး အရောင်ကိုလည်း မှန်ကန်စွာ encode လုပ်ထားနိုင်သည်။

စမ်းသပ်မှု ရလဒ်များ

မော်ဒယ် စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန် ကျွန်ုပ်တို့ အသုံးပြုသော နည်းလမ်း ၂ ခု ရှိပြီး၊ နှစ်ခုလုံးတွင် downstream classification task တစ်ခု ပါဝင်သည်။ ပထမနည်းလမ်းကို linear probe ဟု ကျွန်ုပ်တို့ ခေါ်ဆိုပြီး၊ လေ့ကျင့်ပြီးသား မော်ဒယ်ကို အသုံးပြု၍ downstream dataset အတွင်းရှိ ရုပ်ပုံများမှ features^E ကို ထုတ်ယူကာ label များအပေါ် logistic regression ကို fit လုပ်သည်။ ဒုတိယနည်းလမ်းမှာ မော်ဒယ်တစ်ခုလုံးကို downstream dataset ပေါ်တွင် fine-tune^F လုပ်ခြင်းဖြစ်သည်။

နောက် pixel ကို ခန့်မှန်းခြင်းသည် image classification နှင့် တိုက်ရိုက်သက်ဆိုင်သည်ဟု မထင်ရှားသောကြောင့် နောက်ဆုံး layer မှ features များသည် object category ကို အကောင်းဆုံး ခန့်မှန်းပေးနိုင်မည် မဟုတ်ပါ။ ကျွန်ုပ်တို့၏ ပထမဆုံးရလဒ်က feature quality သည် depth တိုးလာသည်နှင့်အမျှ လျင်မြန်စွာ တိုးလာပြီးနောက် အနည်းငယ် လျော့ကျသည့် function တစ်ခုဖြစ်ကြောင်း ပြသည်။ ဤအပြုအမူက ထရန်(စ်)ဖော်မာ generative model တစ်ခုသည် အဆင့် ၂ ဆင့်ဖြင့် လုပ်ဆောင်ကြောင်း ညွှန်ပြသည်။ ပထမအဆင့်တွင် position တစ်ခုချင်းစီက contextualized image feature တစ်ခု တည်ဆောက်ရန် ပတ်ဝန်းကျင် context မှ အချက်အလက်များကို စုဆောင်းသည်။ ဒုတိယအဆင့်တွင် ဤ contextualized feature ကို conditional next pixel prediction task ကို ဖြေရှင်းရန် အသုံးပြုသည်။ ကျွန်ုပ်တို့၏ linear probes များတွင် တွေ့ရသော အဆင့် ၂ ဆင့် စွမ်းဆောင်ရည်သည် အခြား unsupervised neural net တစ်မျိုးဖြစ်သော bottleneck autoencoder နှင့် ဆင်တူပြီး၊ ထိုမော်ဒယ်တွင် အလယ်ပိုင်းရှိ features များကို အသုံးပြုရန် လက်ဖြင့် ဒီဇိုင်းထုတ်ထားသည်။

ဖွင့်နေသည်...

ကျွန်ုပ်တို့၏ နောက်ထပ် ရလဒ်သည် generative performance နှင့် feature quality အကြား ချိတ်ဆက်မှုကို တည်ထောင်ပေးသည်။ ကျွန်ုပ်တို့၏ မော်ဒယ်များ၏ scale ကို တိုးမြှင့်ခြင်းနှင့် iteration များ ပိုမိုလေ့ကျင့်ခြင်း နှစ်မျိုးစလုံးသည် ပိုကောင်းသော generative performance ကို ဖြစ်စေပြီး၊ ၎င်းသည် feature quality ပိုကောင်းလာခြင်းသို့ တိုက်ရိုက် ဘာသာပြန်သွားကြောင်း တွေ့ရှိခဲ့သည်။

ဖွင့်နေသည်...

ကျွန်ုပ်တို့၏ features များကို CIFAR-10၊ CIFAR-100 နှင့် STL-10 ပေါ်တွင် linear probes ဖြင့် အကဲဖြတ်သည့်အခါ supervised နှင့် unsupervised transfer algorithms အားလုံးမှ features များထက် ပိုကောင်းကြောင်း တွေ့ရသည်။ full fine-tuning setting တွင်လည်း ကျွန်ုပ်တို့၏ ရလဒ်များမှာ ဆွဲဆောင်မှုရှိပါသည်။

			ImageNet ပေါ်တွင် အကြိုလေ့ကျင့်သင်ကြားထားသည်
အကဲဖြတ်ခြင်း	မော်ဒယ်	တိကျမှု	label မပါဘဲ	label ဖြင့်
CIFAR-10 Linear Probe	ResNet-152⁵⁰	94.0		✔
	SimCLR¹²	95.3	✔
	iGPT‑L 32x32	96.3	✔	✔
CIFAR-100 Linear Probe	ResNet-152	78.0		✔
	SimCLR	80.2	✔
	iGPT‑L 32x32	82.8	✔
STL-10 Linear Probe	AMDIM-L	94.2	✔
	iGPT‑L 32x32	95.5	✔
CIFAR-10 Fine-tune	AutoAugment	98.5
	SimCLR	98.6	✔
	GPipe	99.0		✔
	iGPT‑L	99.0	✔
CIFAR-100 Fine-tune	iGPT‑L	88.5	✔
	SimCLR	89.0	✔
	AutoAugment	89.3
	EfficientNet⁵²	91.7		✔

ကျွန်ုပ်တို့၏ မော်ဒယ်များနှင့် unsupervised သို့မဟုတ် supervised ImageNet transfer ကို အသုံးချသော ထိပ်တန်း မော်ဒယ်များအကြား linear probe နှင့် fine-tune accuracies များ၏ နှိုင်းယှဉ်ချက်။ CIFAR ပေါ်တွင် end-to-end လေ့ကျင့်ထားသော အကောင်းဆုံး မော်ဒယ်ဖြစ်သည့် AutoAugment ကိုလည်း ထည့်သွင်းထားသည်။

ImageNet ပေါ်တွင် unsupervised နှင့် self-supervised learning အပေါ် စိတ်ဝင်စားမှု ပြန်လည်မြင့်တက်လာခြင်းကြောင့် ကျွန်ုပ်တို့၏ မော်ဒယ်များ၏ performance ကို ImageNet ပေါ်တွင် linear probes ဖြင့်လည်း အကဲဖြတ်ထားသည်။ ဤသည်မှာ အထူးသဖြင့် ခက်ခဲသော setting ဖြစ်ပြီး ကျွန်ုပ်တို့သည် standard ImageNet input resolution ဖြင့် မလေ့ကျင့်ထားပါ။ သို့သော်လည်း 48x48 ရုပ်ပုံများပေါ်တွင် လေ့ကျင့်ထားသော iGPT‑L ၏ အကောင်းဆုံး layer မှ 1536 features များအပေါ် linear probe တစ်ခုသည် top-1 accuracy 65.2% ကို ရရှိပြီး AlexNet ထက် ပိုကောင်းသည်။

Contrastive methods များသည် ပုံမှန်အားဖြင့် 8192 features ပေါ်ရှိ ၎င်းတို့၏ အကောင်းဆုံး ရလဒ်များကို အစီရင်ခံကြသောကြောင့် နှိုင်းယှဉ်ရန်အတွက် embedding dimension 8192 ပါသော iGPT ကို အကဲဖြတ်နိုင်လျှင် အကောင်းဆုံး ဖြစ်မည်။ သို့သော် ထိုကဲ့သို့သော မော်ဒယ်တစ်ခုကို လေ့ကျင့်ခြင်းသည် အလွန်ကုန်ကျစရိတ်မြင့်မားသဖြင့် approximation အဖြစ် layer အများအပြားမှ features များကို concatenate လုပ်ခဲ့သည်။ ကံမကောင်းစွာဖြင့် ကျွန်ုပ်တို့၏ features များသည် layer များအကြား ဆက်နွယ်မှုရှိလေ့ရှိသဖြင့် ယှဉ်ပြိုင်နိုင်ရန် ၎င်းတို့ကို ပိုမိုလိုအပ်သည်။ iGPT‑XL ၏ layer 5 ခုမှ 15360 features ကို ယူလျှင် top-1 accuracy 72.0% ရရှိပြီး AMDIM၊ MoCo နှင့် CPC v2 ထက် ပိုကောင်းသော်လည်း SimCLR ထက်တော့ သိသာသော အကွာအဝေးဖြင့် နိမ့်နေသေးသည်။

နည်းလမ်း	Input Resolution	Features	Parameters	တိကျမှု
Rotation⁵³	original	8192	86M	55.4
iGPT‑L	32x32	1536	1362M	60.3
BigBiGAN³⁷	original	16384	86M	61.3
iGPT‑L	48x48	1536	1362M	65.2
AMDIM¹³	original	8192	626M	68.1
MoCo²⁴	original	8192	375M	68.6
iGPT‑XL	64x64	3072	6801M	68.7
SimCLR¹²	original	2048	24M	69.3
CPC v2²⁵	original	4096	303M	71.5
iGPT‑XL	64x64	3072 x 5	6801M	72.0
SimCLR	original	8192	375M	76.5

ကျွန်ုပ်တို့၏ မော်ဒယ်များနှင့် state-of-the-art self-supervised models များအကြား linear probe accuracies များ၏ နှိုင်းယှဉ်ချက်။ resolution ပိုနိမ့်သော input များဖြင့် လေ့ကျင့်ထားသော်လည်း ကျွန်ုပ်တို့သည် ယှဉ်ပြိုင်နိုင်သော performance ကို ရရှိခဲ့သည်၊ သို့ရာတွင် ကျွန်ုပ်တို့၏ နည်းလမ်းသည် parameters နှင့် compute ပိုမိုလိုအပ်သည်။

BERT ကဲ့သို့ masked language models များသည် ဘာသာစကား task အများစုတွင် generative models များထက် ပိုကောင်းခဲ့သောကြောင့် ကျွန်ုပ်တို့၏ image models များပေါ်တွင် BERT ၏ performance ကိုလည်း အကဲဖြတ်ထားသည်။ ရှေ့တွင် ရှိသော pixel အားလုံးကို ပေး၍ နောက် pixel ကို ခန့်မှန်းရန် လေ့ကျင့်မည့်အစား pixel 15% ကို mask လုပ်ထားပြီး မ mask လုပ်ထားသော pixel များမှ ၎င်းတို့ကို ခန့်မှန်းရန် မော်ဒယ်ကို လေ့ကျင့်သည်။ ထို့ကြောင့် BERT models များ၏ linear probe performance သည် သိသိသာသာ ပိုဆိုးသော်လည်း fine-tuning အချိန်တွင် ထူးချွန်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်-

ဖွင့်နေသည်...

Unsupervised learning သည် လူက label တပ်ပေးထားသော data မလိုဘဲ အလွန်ကောင်းမွန်သော features များကို ပေးစွမ်းနိုင်မည်ဟု ကတိပေးထားသော်လည်း၊ လူက label တပ်ပေးထားသော data ပမာဏ အကန့်အသတ်ဖြင့် အသုံးပြုခွင့်ပြုသည့် ပိုမိုလျော့ပေါ့သော semi-supervised learning framework အောက်တွင် မကြာသေးမီက သိသာထင်ရှားသော တိုးတက်မှုများ ရရှိထားသည်။ အောင်မြင်သော semi-supervised နည်းလမ်းများသည် consistency regularization၊ data augmentation သို့မဟုတ် pseudo-labeling ကဲ့သို့ ဉာဏ်ကောင်းသော နည်းလမ်းများအပေါ် မကြာခဏ မူတည်ပြီး၊ generative-based approaches သက်သက်^{54နှင့် 55} သည် နှစ်ပေါင်းများစွာ ယှဉ်ပြိုင်နိုင်စွမ်း မရှိခဲ့ပါ။ ကျွန်ုပ်တို့သည် ဤ sub-field အတွက် ပြိုင်ဆိုင်မှုပြင်းထန်သော benchmark ပေါ်တွင် iGPT‑L^G ကို အကဲဖြတ်ခဲ့ပြီး၊ augmentation မပြုလုပ်ထားသော ရုပ်ပုံများမှ features များအပေါ် လုပ်ထားသော ရိုးရှင်းသည့် linear probe သည် Mean Teacher⁵⁶ နှင့် MixMatch⁵⁷ ထက် ပိုကောင်းသော်လည်း FixMatch⁵⁹ ထက်တော့ နိမ့်ကြောင်း တွေ့ရှိခဲ့သည်။

မော်ဒယ်	label 40 ခု	label 250 ခု	label 4000 ခု
Improved GAN⁵⁵	—	—	81.4 ± 2.3
Mean Teacher⁵⁶	—	67.7 ± 2.3	90.8 ± 0.2
MixMatch⁵⁷	52.5 ± 11.5	89.0 ± 0.9	93.6 ± 0.1
iGPT‑L	73.2 ± 01.5	87.6 ± 0.6	94.3 ± 0.1
UDA⁵⁸	71.0 ± 05.9	91.2 ± 1.1	95.1 ± 0.2
FixMatch⁵⁹ RA	86.2 ± 03.4	94.9 ± 0.7	95.7 ± 0.1
FixMatch CTA	88.6 ± 03.4	94.9 ± 0.3	95.7 ± 0.2

data နည်းပါးသော CIFAR-10 ပေါ်ရှိ performance နှိုင်းယှဉ်ချက်တစ်ခု။ label မတပ်ထားသော ImageNet ရုပ်ပုံများ အများအပြားကို အသုံးချခြင်းအားဖြင့် iGPT‑L သည် Mean Teacher နှင့် MixMatch ကဲ့သို့သော နည်းလမ်းများထက် ပိုကောင်းနိုင်သော်လည်း state of the art နည်းလမ်းများထက်တော့ နိမ့်နေသေးသည်။ ကျွန်ုပ်တို့၏ semi-supervised learning နည်းလမ်းမှာ အလွန်ရိုးရှင်းပြီး data augmentation သို့မဟုတ် fine-tuning မပါဘဲ iGPT‑L ၏ features များအပေါ် logistic regression classifier တစ်ခုသာ fit လုပ်ထားသောကြောင့် အထူးဒီဇိုင်းထုတ်ထားသည့် semi-supervised approaches များနှင့် သိသာထင်ရှားစွာ ကွာခြားသည်။

ကန့်သတ်ချက်များ

iGPT သည် အားကောင်းသော image features များကို သင်ယူနိုင်စွမ်းရှိကြောင်း ကျွန်ုပ်တို့ ပြသခဲ့သော်လည်း၊ ကျွန်ုပ်တို့၏ နည်းလမ်းတွင် အရေးကြီးသော ကန့်သတ်ချက်များ ရှိနေသေးသည်။ ဘာသာစကားတွင် GPT‑2 အတွက် အသုံးပြုသည့် generic sequence transformer ကိုပဲ အသုံးပြုထားသောကြောင့် ကျွန်ုပ်တို့၏ နည်းလမ်းသည် compute ပမာဏ အများကြီး လိုအပ်သည်။ iGPT‑L ကို အကြမ်းဖျဉ်းအားဖြင့် 2500 V100-days လေ့ကျင့်ခဲ့ရသော်လည်း စွမ်းဆောင်ရည် ဆင်တူသော MoCo24⁠ မော်ဒယ်တစ်ခုကိုတော့ အကြမ်းဖျဉ်း 70 V100-days ခန့်ဖြင့် လေ့ကျင့်နိုင်သည်။

ထို့အပြင် ကျွန်ုပ်တို့သည် resolution နိမ့်သော input များကို transformer ဖြင့် မော်ဒယ်လုပ်နေချိန်တွင် self-supervised ရလဒ်အများစုမှာ resolution မြင့် input များကို အလွယ်တကူ လက်ခံနိုင်သော convolutional-based encoder များကို အသုံးပြုကြသည်။ ထပ်မံ scale လုပ်ရန် domain-agnostic multiscale transformer ကဲ့သို့သော ဗိသုကာအသစ်တစ်ခု လိုအပ်လာနိုင်သည်။ ဤကန့်သတ်ချက်များကြောင့် ကျွန်ုပ်တို့၏အလုပ်သည် hardcoded domain knowledge မလိုဘဲ ထရန်(စ်)ဖော်မာအခြေပြု အရွယ်အစားကြီး ဘာသာစကား မော်ဒယ်များသည် အသစ်သော domain များတွင် ကောင်းမွန်သော unsupervised representations များကို သင်ယူနိုင်စွမ်းရှိကြောင်း proof-of-concept demonstration အဖြစ် အဓိက တာဝန်ထမ်းဆောင်သည်။ သို့သော် ဤမော်ဒယ်များကို လေ့ကျင့်ရန် လိုအပ်သော resource cost များပြားမှုနှင့် convolutional neural-network အခြေပြု နည်းလမ်းများ၏ ပိုမိုကောင်းမွန်သော accuracy ကြောင့် vision domain တွင် ဤ representations များကို လက်တွေ့အသုံးချမှုများ၌ အသုံးပြုရန် အတားအဆီး ဖြစ်နေသည်။

နောက်ဆုံးအနေဖြင့် ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်များသည် ၎င်းတို့ လေ့ကျင့်ထားသော data ၏ အကျိုးဆက်အဖြစ် bias များကို ပြသနိုင်သည်။ ဤ bias များထဲမှ အချို့သည် အသုံးဝင်ကြသည်။ ဥပမာ brown နှင့် green pixels ပေါင်းစပ်မှုတစ်ခုသည် အရွက်များဖုံးထားသော ကိုင်းတစ်ကိုင်းကို ကိုယ်စားပြုသည်ဟု ယူဆပြီး ထို bias ကို အသုံးပြုကာ ရုပ်ပုံကို ဆက်လက်ဖြည့်စွက်ခြင်းကဲ့သို့ ဖြစ်သည်။ သို့သော် fairness နှင့် representation ရှုထောင့်မှ စဉ်းစားပါက ထို bias အချို့သည် အန္တရာယ်ဖြစ်စေနိုင်သည်။ ဥပမာ မော်ဒယ်က scientist ၏ မြင်ကွင်းဆိုင်ရာ အယူအဆကို အမျိုးသားဘက်သို့ မညီမမျှ ဖွံ့ဖြိုးလာခဲ့လျှင် scientist များ၏ ရုပ်ပုံများကို ဆက်လက်ဖြည့်စွက်ရာတွင် gender မျိုးစုံပေါင်းစပ်ထားသည့်ပုံများအစား အမျိုးသားပုံစံ လူများဖြင့် တစိုက်မတ်မတ် ဖြည့်စွက်နိုင်သည်။ developer များသည် မိမိတို့၏ system များထဲသို့ ထည့်သွင်းသော data များကို ပိုမိုဂရုစိုက်လာရန်နှင့် ၎င်းတို့သည် လေ့ကျင့်ပြီးသား မော်ဒယ်များအတွင်းရှိ bias များနှင့် မည်သို့ ဆက်နွယ်နေသည်ကို ပိုမိုကောင်းမွန်စွာ နားလည်ရန် လိုအပ်လာမည်ဟု ကျွန်ုပ်တို့ မျှော်လင့်သည်။

နိဂုံးချုပ်

2-D knowledge ကို scale⁶⁰ နှင့် လဲလှယ်အသုံးပြုပြီး network အလယ်ပိုင်းမှ predictive features များကို ရွေးချယ်ခြင်းအားဖြင့် sequence transformer တစ်ခုသည် unsupervised image classification အတွက် ထိပ်တန်း convolutional nets များနှင့် ယှဉ်ပြိုင်နိုင်ကြောင်း ကျွန်ုပ်တို့ ပြသခဲ့သည်။ ထူးခြားစွာဆိုရလျှင်၊ ကျွန်ုပ်တို့သည် GPT‑2 language model ကို ရုပ်ပုံ ထုတ်လုပ်မှု သို့ တိုက်ရိုက် အသုံးချခြင်းဖြင့် ဤရလဒ်များကို ရရှိခဲ့သည်။ ကျွန်ုပ်တို့၏ ရလဒ်များက simplicity နှင့် generality ကြောင့် လုံလောက်သော compute ပေးထားသည့် sequence transformer တစ်ခုသည် domain အများအပြားတွင် ကောင်းမွန်သော features များကို သင်ယူရန် နောက်ဆုံးတွင် ထိရောက်သော နည်းလမ်းတစ်ခု ဖြစ်လာနိုင်ကြောင်း ညွှန်ပြသည်။

သင်သည် ဤသုတေသနနယ်ပယ်တွင် ကျွန်ုပ်တို့နှင့်အတူ အလုပ်လုပ်ရန် စိတ်လှုပ်ရှားနေပါက ကျွန်ုပ်တို့မှာ အလုပ်ခေါ်နေပါသည်⁠!

မှတ်စုများ

A
သင်ယူထားသော features များအပေါ် logistic regression (linear probe) ဖြင့် တိုင်းတာထားခြင်းဖြစ်သည်။
B
ထရန်(စ်)ဖော်မာတစ်ခုကို likelihood ကို အများဆုံးဖြစ်စေရန် လေ့ကျင့်ထားသောကြောင့် ၎င်းသည် mode covering ဖြစ်ပြီး၊ ထို့ကြောင့် ၎င်း၏ samples များ၏ ကွဲပြားမှုကို အလိုအလျောက် အာမခံပေးသည်။
C
မူလ analysis by synthesis အယူအဆသည် latent variables ပါသည့် generative models များအတွက် ပိုမို သက်ဆိုင်သော်လည်း latent variables မပါသည့် generative models များသည် data distribution ကို မော်ဒယ်လုပ်ရာတွင် ပိုကောင်းလွန်းသဖြင့် analysis-by-synthesis conjecture သည် ၎င်းတို့အတွက်လည်း မှန်ကန်သင့်သည်ဟု ကျွန်ုပ်တို့ ယူဆခဲ့သည်။
D
အခြား စမ်းသပ်မှုများသည် မတူညီသော supercomputing facilities များသို့ ပြောင်းရွှေ့ရန် လိုအပ်မတိုင်မီ မပြီးဆုံးသေးသောကြောင့် iGPT-XL အတွက်သာ ImageNet ပေါ်ရှိ linear probe accuracy ကို ပြထားသည်။
E
linear probe အတွက် features များကို ထုတ်ယူရာတွင် layer တစ်ခုရှိ post layernorm attention block inputs များကို ယူပြီး sequence dimension တစ်လျှောက် average pool လုပ်သည်။
F
fine-tune လုပ်ရန်အတွက် post layernorm transformer output ကို classification head အတွက် input အဖြစ် sequence dimension တစ်လျှောက် average pool လုပ်ပြီး ယူသည်။
G
စစ်မှန်သော unsupervised ပုံစံဖြင့် features များကို သင်ယူသော ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်တစ်ခု။

ကိုးကားချက်များ

1
LeCun, Y. (2017). “ကြိုတင်ခန့်မှန်း သင်ယူခြင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).”
2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Attention သာလျှင် လိုအပ်သည်⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2017.
3
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). “BERT: Language Understanding အတွက် နက်နဲစွာ နှစ်ဖက်မြင် ထရန်(စ်)ဖော်မာများ၏ အကြိုလေ့ကျင့်သင်ကြားခြင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Language Models are Unsupervised Multitask Learners⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” Technical Report, OpenAI.
5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: ပိုမိုခိုင်မာစွာ optimize လုပ်ထားသော BERT အကြိုလေ့ကျင့်သင်ကြားရေး နည်းလမ်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “Unified Text-to-Text Transformer ဖြင့် Transfer Learning ၏ အကန့်အသတ်များကို စူးစမ်းလေ့လာခြင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
7
Dai, A., Le, Q. V. (2015). “Semi-supervised sequence learning⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2015.
8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “နက်နဲသော အခြေအနေအခြေပြု စကားလုံးကိုယ်စားပြုမှုများ⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NAACL 2018.
9
Howard, J., Ruder, S. (2018). “စာသား အမျိုးအစားခွဲခြားခြင်းအတွက် Universal Language Model Fine-tuning⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In ACL 2018.
10
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “generative pre-training ဖြင့် language understanding ကို တိုးတက်စေခြင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” Technical Report, OpenAI.
11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). “Sparse attentive backtracking: သတိပေးခြင်းမှတစ်ဆင့် အချိန်ဆိုင်ရာ credit assignment⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2018.
12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). “မြင်ကွင်းကိုယ်စားပြုမှုများအတွက် Contrastive Learning ၏ ရိုးရှင်းသော Framework တစ်ခု⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
13
Bachman, P., Hjelm, R., & Buchwalter, W. (2019). “view များအကြား mutual information ကို အများဆုံးဖြစ်စေခြင်းဖြင့် ကိုယ်စားပြုမှုများကို သင်ယူခြင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2019.
14
Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): ယေဘုယျ Visual Representation Learning⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: Pipeline Parallelism ကို အသုံးပြု၍ အလွန်ကြီးမားသော Neural Networks များကို ထိရောက်စွာ လေ့ကျင့်ခြင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2019.
16
Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). “ခွဲခြားမရသော data သို့မဟုတ် အားနည်းသော မော်ဒယ်လား? data နှင့် model resolution ၏ ဆက်စပ်အရေးပါမှုအပေါ်⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In ICCV 2019.
17
Lasserre, J., Bishop, C., & Minka, T. P. (2006). “Generative နှင့် Discriminative Models များ၏ စနစ်တကျ ပေါင်းစပ်မှုများ⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In CVPR 2006.
18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). “အကြိုလေ့ကျင့်သင်ကြားခြင်းသည် နက်နဲစွာ သင်ယူလေ့လာခြင်း ကို ဘာကြောင့် အထောက်အကူဖြစ်စေသနည်း?⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In JMLR 2010.
19
Elman, J. (1990). “အချိန်အတွင်း ဖွဲ့စည်းပုံကို ရှာဖွေခြင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In Cognitive Science 1990.
20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Recurrent neural network အခြေပြု language model⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In INTERSPEECH-2010.
21
Larochelle, H., Murray, I. (2011). “neural autoregressive distribution estimator⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In AISTATS 2011.
22
Graves, A. (2013). “recurrent neural networks များဖြင့် sequence များကို ထုတ်လုပ်ခြင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
23
Tian, Y., Krishnan, D., & Isola, P. (2019). “Contrastive multiview coding⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
24
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). “Unsupervised Visual Representation Learning အတွက် Momentum Contrast⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Contrastive Predictive Coding ဖြင့် Data-Efficient Image Recognition⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) .” arXiv preprint.
26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Pixel recurrent neural networks⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In ICML 2018.
28
Menick, J., Kalchbrenner, N. (2018). “Subscale Pixel Networks နှင့် Multidimensional Upscaling ဖြင့် High Fidelity Images များကို ထုတ်လုပ်ခြင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
29
Mumford, D. (1992). “neocortex ၏ computational architecture အကြောင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In Biol. Cybern.
30
Rao, R., Ballard, D. (1999). “visual cortex တွင် predictive coding: extra-classical receptive-field effects များ၏ functional interpretation⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In Nature Neuroscience.
31
Smolensky, P. (1986). “dynamical systems အတွင်း information processing: harmony theory ၏ အခြေခံများ⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).”
32
Hinton, G. (2002). “Contrastive Divergence ကို လျှော့ချခြင်းဖြင့် Products of Experts ကို လေ့ကျင့်ခြင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In MIT Press.
33
Hinton, G., Osindero, S., & Teh, Y. (2006). “နက်နဲသော belief nets များအတွက် မြန်ဆန်သော သင်ယူမှု algorithm တစ်ခု⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In Neural Computation.
34
Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). “denoising autoencoders ဖြင့် ခိုင်မာသော features များကို ထုတ်ယူ၍ ပေါင်းစပ်ခြင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In ICML 2008.
35
Coates, A., Lee, H., & Ng, A. Y. (2011). “unsupervised feature learning အတွင်း single-layer networks များ၏ ခွဲခြမ်းစိတ်ဖြာချက်⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In AISTATS 2011.
36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “အရွယ်အစားကြီး unsupervised learning ဖြင့် အဆင့်မြင့် features များကို တည်ဆောက်ခြင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In ICML 2012.
37
Donahue, J., Simonyan, K. (2019). “Large scale adversarial representation learning⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2019.
38
Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). “Deep Big Simple Neural Nets သည် လက်ရေးဂဏန်း အသိအမှတ်ပြုခြင်းတွင် ထူးချွန်သည်⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In CoRR 2010.
39
Shaw, P., Uszkoreit, J., & Vaswani A. (2018). “relative position representations ပါသော self-attention⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NAACL 2018.
40
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “sparse transformers ဖြင့် ရှည်လျားသော sequences များကို ထုတ်လုပ်ခြင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
41
Becker, S., Hinton, G. (1991). “random-dot stereograms ထဲမှ surfaces များကို ရှာဖွေတွေ့ရှိသော self-organizing neural network⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In Nature.
42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). ““siamese” time delay neural network ကို အသုံးပြုသော လက်မှတ် အတည်ပြုခြင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 1994.
43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). “စကားလုံးများနှင့် စကားစုများ၏ ဖြန့်ဝေကိုယ်စားပြုမှုများနှင့် ၎င်းတို့၏ compositionality⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) .” In NeurIPS 2013.
44
Oord, A., Li, Y., Vinyals, O. (2018). “Contrastive Predictive Coding ဖြင့် Representation Learning⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) .” arXiv preprint.
45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “mutual information estimation နှင့် maximization ဖြင့် deep representations များကို သင်ယူခြင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In ICLR 2019.
46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). “sequence-only deep representation learning ဖြင့် unified rational protein engineering⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In Nature Methods.
47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). “Unsupervised Learning ကို Protein Sequences 250 Million အထိ Scale လုပ်ခြင်းမှ Biological Structure နှင့် Function ပေါ်ပေါက်လာခြင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” bioRxiv preprint.
48
Torralba, A., Fergus, R., Freeman, W. (2008). “80 million tiny images: nonparametric object and scene recognition အတွက် ကြီးမားသော data set တစ်ခု⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In IEEE transactions on pattern analysis and machine intelligence.
49
“8-Bit Computer Hardware Graphics စာရင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” Wikipedia, 8 May 2020
50
Kornblith, S., Shlens, J., & Le, Q. V. (2019). “ပိုကောင်းသော ImageNet Models များသည် Transfer ကို ပိုကောင်းစေသလား?⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In CVPR 2019.
51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: Data မှ Augmentation Strategies များကို သင်ယူခြင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In CVPR 2019.
52
Tan, M., Le, Q. V. (2019). “EfficientNet: Convolutional Neural Networks အတွက် Model Scaling ကို ပြန်လည်စဉ်းစားခြင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In ICML 2019.
53
Gidaris, S., Singh, P., & Komodakis, N. (2018). “Image Rotations များကို ခန့်မှန်းခြင်းဖြင့် Unsupervised Representation Learning⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In ICLR 2018.
54
Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). “နက်နဲသော ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်များဖြင့် Semi-Supervised Learning⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2014.
55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “gans များကို လေ့ကျင့်ရန် တိုးတက်လာသော နည်းလမ်းများ⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2016.
56
Tarvainen, A., Valpola, H. (2017). “Mean teachers များသည် ပိုကောင်းသော role models များဖြစ်သည်: weight-averaged consistency targets များက semi-supervised deep learning ရလဒ်များကို တိုးတက်စေသည်⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2017.
57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: Semi-Supervised Learning အတွက် Holistic Approach တစ်ခု⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2019.
58
Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). “Consistency Training အတွက် Unsupervised Data Augmentation⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: consistency နှင့် confidence ဖြင့် semi-supervised learning ကို ရိုးရှင်းစေခြင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.
60
Sutton, R. (2019). “ခက်ခဲသော သင်ခန်းစာ⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).”

ရေးသားသူများ

Mark Chen - Alec Radfordနှင့် Ilya Sutskever

ကျေးဇူးတင်လွှာ

အဓိကအားဖြင့် ကျွန်ုပ်တို့၏ paper ကို တွဲဖက်ရေးသားသူများဖြစ်သော Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal နှင့် David Luan တို့ကို အသိအမှတ်ပြု ကျေးဇူးတင်လိုပါသည်။

ဤအလုပ်အပေါ် အကြံပြုချက်များပေးခြင်းနှင့် ဤ release အတွက် ပါဝင်ကူညီခဲ့ကြသူများအား ကျေးဇူးတင်ပါသည်- Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le နှင့် Ashish Vaswani။

အယ်ဒီတာ: Ashley Pilipiszyn

ဒီဇိုင်း: Justin Jay Wang

မျက်နှာဖုံး အနုပညာလက်ရာ: Ben Barry