အဓိက အကြောင်းအရာသို့ ကျော်သွားရန်
OpenAI

ဘာသာစကားပေါ်တွင် လေ့ကျင့်သင်ကြားထားသော အရွယ်အစားကြီး ထရန်(စ်)ဖော်မာ မော်ဒယ်တစ်ခုက အဓိပ္ပာယ်ညီညွတ်သော စာသားကို ထုတ်လုပ်နိုင်သကဲ့သို့ပင်၊ pixel sequence များပေါ်တွင် လေ့ကျင့်သင်ကြားထားသော အတိအကျ တူညီသည့် မော်ဒယ်ကလည်း အဓိပ္ပာယ်ညီညွတ်သော ရုပ်ပုံ completions နှင့် samples များကို ထုတ်လုပ်နိုင်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။ sample quality နှင့် image classification accuracy တို့အကြား ဆက်စပ်မှုကို တည်ဆောက်ခြင်းအားဖြင့်၊ ကျွန်ုပ်တို့၏ အကောင်းဆုံး ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်တွင် unsupervised setting ၌ ထိပ်တန်း convolutional nets များနှင့် ယှဉ်ပြိုင်နိုင်သော feature များလည်း ပါဝင်နေကြောင်း ပြသထားသည်။

နိဒါန်း

Unsupervised နှင့် self-supervised learning1 သို့မဟုတ် လူက label တပ်ပေးထားသော data မပါဘဲ သင်ယူခြင်းသည် machine learning ၏ ကြာရှည်စွာ ရှိနေသည့် စိန်ခေါ်မှုတစ်ခုဖြစ်သည်။ မကြာသေးမီက transformer2 မော်ဒယ်များဖြစ်သည့် BERT3, GPT‑24, RoBERTa5, T56 နှင့် အခြား variant များ7 - 8 - 9နှင့် 10 သည် ဘာသာစကား task အမျိုးမျိုးတွင် ထိပ်တန်း performance ကို ရရှိခဲ့သဖြင့် ဘာသာစကားနယ်ပယ်တွင် အံ့မခန်းအောင်မြင်မှု ရရှိခဲ့သည်။ သို့သော် အလားတူ မော်ဒယ်အုပ်စုကြီးတစ်ခုတည်းက image classification အတွက် အားကောင်းသော features များကို ထုတ်လုပ်ရာတွင် မအောင်မြင်ခဲ့ပါ။11 ကျွန်ုပ်တို့၏အလုပ်သည် ဤကွာဟချက်ကို နားလည်ရန်နှင့် ချိတ်ဆက်ပေးရန် ရည်ရွယ်သည်။

BERT နှင့် GPT‑2 ကဲ့သို့သော ထရန်(စ်)ဖော်မာ မော်ဒယ်များသည် domain agnostic ဖြစ်ပြီး မည်သည့်ပုံစံမဆိုရှိသော 1-D sequences များပေါ်သို့ တိုက်ရိုက် အသုံးချနိုင်သည်ဟု ဆိုလိုသည်။ ရုပ်ပုံများကို ရှည်လျားသော pixel sequences များအဖြစ် ဖြန့်၍ GPT‑2 ကို လေ့ကျင့်သောအခါ၊ ၎င်းကို iGPT ဟု ကျွန်ုပ်တို့ ခေါ်ပြီး၊ မော်ဒယ်သည် object ၏ appearance နှင့် category ကဲ့သို့ 2-D image characteristics များကို နားလည်သကဲ့သို့ တွေ့ရသည်။ ၎င်းကို လူက ပေးထားသော labels မရှိဘဲတောင်မှ ၎င်းထုတ်လုပ်သည့် အဓိပ္ပာယ်ညီညွတ်သော image samples များ၏ ကွဲပြားသည့် အမျိုးအစားစုံလင်မှုက သက်သေပြနေသည်။ ထပ်မံသော သက်သေအဖြစ် မော်ဒယ်မှ features များသည် classification datasets အများအပြားပေါ်တွင် state-of-the-art performance နှင့် ImageNet ပေါ်တွင် state-of-the-art နီးပါး unsupervised accuracyA ကို ရရှိစေသည်။

အကဲဖြတ်ခြင်း

Dataset

ကျွန်ုပ်တို့၏ ရလဒ်

iGPT မဟုတ်သည့် အကောင်းဆုံး ရလဒ်

သင်ယူထားသော features များအပေါ် logistic regression (linear probe)

CIFAR-10

96.3 iGPT‑L 32x32၊ 1536 features ဖြင့်

95.3 SimCLR12၊ 8192 features ဖြင့်

CIFAR-100

82.8 iGPT‑L 32x32၊ 1536 features ဖြင့်

80.2 SimCLR၊ 8192 features ဖြင့်

STL-10

95.5 iGPT‑L 32x32၊ 1536 features ဖြင့်

94.2 AMDIM13၊ 8192 features ဖြင့်

ImageNet

72.0 iGPT‑XLa 64x64၊ 15360 features ဖြင့်

76.5 SimCLR၊ 8192 features ဖြင့်

Full fine-tune

CIFAR-10

99.0 iGPT‑L 32x32၊ ImageNet ပေါ်တွင် လေ့ကျင့်ထားသည်

99.0b GPipe,14၊ ImageNet ပေါ်တွင် လေ့ကျင့်ထားသည်

ImageNet 32x32

66.3 iGPT‑L 32x32

70.2 Isometric Nets15

  1. အခြား စမ်းသပ်မှုများသည် မတူညီသော supercomputing facilities များသို့ ပြောင်းရွှေ့ရန် လိုအပ်မတိုင်မီ မပြီးဆုံးသေးသောကြောင့် iGPT‑XL အတွက်သာ ImageNet linear probe accuracy ကို ပြထားသည်။
  2. JFT (ပုံ 300M၊ class 18K ပါဝင်သော) ပေါ်တွင် လေ့ကျင့်ထားသော Bit-L သည် 99.3 ရလဒ်ကို ရရှိခဲ့သည်။

generative17နှင့် 18 sequence modeling19 - 20 - 21နှင့် 22 ကို general purpose unsupervised learning algorithm အဖြစ် အလားအလာရှိကြောင်း ပိုမိုထင်ရှားစေရန် ဘာသာစကားတွင် GPT‑2 ကဲ့သို့သော တူညီသည့် ထရန်(စ်)ဖော်မာ ဗိသုကာပညာကို ကျွန်ုပ်တို့ ရည်ရွယ်ချက်ရှိရှိ အသုံးပြုထားသည်။ ထို့ကြောင့် ထိပ်တန်း unsupervised convolutional nets များ၏ features များနှင့် ယှဉ်ပြိုင်နိုင်သော features များကို ထုတ်လုပ်ရန် compute ပိုမိုလိုအပ်သည်။13 - 23 - 24 - 25နှင့် 12 သို့သော် ကျွန်ုပ်တို့၏ ရလဒ်များက မှန်ကန်သော model priors မသိရသေးသော domain အသစ်တစ်ခုကို ရင်ဆိုင်ရသည့်အခါ အရွယ်အစားကြီး GPT‑2 တစ်ခုသည် domain-specific26 - 27နှင့် 28 architectural design choices မလိုဘဲ ကောင်းမွန်သော features များကို သင်ယူနိုင်ကြောင်း ညွှန်ပြသည်။

ဖွင့်နေသည်...

ဘာသာစကား GPT မှ ရုပ်ပုံ GPT သို့

ဘာသာစကားနယ်ပယ်တွင် word prediction ကို အခြေခံသည့် unsupervised learning algorithm များ (GPT‑2 နှင့် BERT ကဲ့သို့) သည် အလွန်အောင်မြင်ခဲ့ပြီး ဘာသာစကား task အမျိုးမျိုးတွင် ထိပ်တန်း စွမ်းဆောင်ရည်ကို ရရှိခဲ့သည်။ ဤအောင်မြင်မှုအတွက် ဖြစ်နိုင်ချေရှိသည့် အကြောင်းရင်းတစ်ခုမှာ downstream language tasks များ၏ instances များသည် စာသားအတွင်း သဘာဝအလျောက် ပေါ်ပေါက်နေခြင်းဖြစ်သည်။ မေးခွန်းများနောက်တွင် အဖြေများ လိုက်ပါလာတတ်သည် (question-answering အတွက် အထောက်အကူဖြစ်နိုင်သည်) နှင့် passage များနောက်တွင် summary များ လိုက်ပါလာတတ်သည် (summarization အတွက် အထောက်အကူဖြစ်နိုင်သည်)။ ထိုနှိုင်းယှဉ်မှုအရ pixel sequence များအတွင်းတွင် ၎င်းတို့ သက်ဆိုင်ရာ ရုပ်ပုံများ၏ labels များကို ရှင်းလင်းစွာ မပါဝင်ပါ။

ဤသတ်မှတ်ထားသော supervision မရှိသော်လည်း ရုပ်ပုံများပေါ်ရှိ GPT‑2 က အလုပ်ဖြစ်နိုင်သည့် အကြောင်းရင်းတစ်ခုတော့ ရှိနေသေးသည်။ လုံလောက်စွာ ကြီးမားသော ထရန်(စ်)ဖော်မာတစ်ခုကို next pixel prediction ပေါ်တွင် လေ့ကျင့်လျှင် နောက်ဆုံးတွင် ရှင်းလင်းစွာ ခွဲခြားသိနိုင်သော object များ ပါဝင်သည့် ကွဲပြားမှုရှိသောB samples များကို ထုတ်လုပ်တတ်လာနိုင်သည်။ ထိုသို့ လုပ်တတ်လာသည်နှင့် “Analysis by Synthesis”29 - 30နှင့် C ဟု ခေါ်သော အယူအဆအရ မော်ဒယ်သည် object categories များအကြောင်းကိုလည်း သိလာမည်ဟု ဆိုသည်။ အစောပိုင်း generative models31 - 32 - 33 - 34 - 35နှင့် 36 များစွာသည် ဤအယူအဆကြောင့် လှုံ့ဆော်ခံခဲ့ရပြီး မကြာသေးမီက BigBiGAN37 သည် အားတက်စရာ samples နှင့် features များကို ထုတ်ပေးခဲ့သော ဥပမာတစ်ခု ဖြစ်ခဲ့သည်။ ကျွန်ုပ်တို့၏အလုပ်တွင် ပိုကောင်းသော ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်များသည် ပိုအားကောင်းသော classification performance ကို ရရှိကြောင်း ပထမဦးစွာ ပြသသည်။ ထို့နောက် GPT‑2 ကို generative capabilities အတွက် optimize လုပ်ခြင်းအားဖြင့် setting အများအပြားတွင် ထိပ်တန်းအဆင့် classification performance ကို ရရှိခဲ့ပြီး analysis by synthesis အတွက် ထပ်မံ သက်သေပြထားသည်။

ယေဘုယျ unsupervised learning သို့

Generative sequence modeling သည် universal unsupervised learning algorithm တစ်ခုဖြစ်သည်။ data အမျိုးအစားအားလုံးကို byte sequences များအဖြစ် ကိုယ်စားပြုနိုင်သောကြောင့် ထရန်(စ်)ဖော်မာတစ်ခုကို ထပ်ဆောင်း engineering မလိုဘဲ မည်သည့် data type ပေါ်တွင်မဆို တိုက်ရိုက် အသုံးချနိုင်သည်။ ကျွန်ုပ်တို့၏အလုပ်သည် GPT‑2 ကို natural language အတွက် လေ့ကျင့်ရာတွင် အသုံးပြုသည့် architecture ကို ရုပ်ပုံ ထုတ်လုပ်မှုတွင် တိုက်ရိုက် အသုံးချခြင်းဖြင့် ဤ generality ၏ အားကို စမ်းသပ်ထားသည်။ convolutions38 သို့မဟုတ် relative attention39၊ sparse attention40 နှင့် 2-D position embeddings27 ကဲ့သို့သော image-specific knowledge ကို လက်ဖြင့် coding လုပ်ထားခြင်းကို ကျွန်ုပ်တို့ ရည်ရွယ်ချက်ရှိရှိ ရှောင်ကြဉ်ခဲ့သည်။

၎င်း၏ generality ၏ အကျိုးဆက်အနေဖြင့် ကျွန်ုပ်တို့၏ နည်းလမ်းသည် unsupervised setting တွင် ယှဉ်ပြိုင်နိုင်သော performance ကို ရရှိရန် compute ပိုမိုလိုအပ်သည်။ အမှန်တကယ်အားဖြင့် contrastive methods41 - 42 - 43 - 44 - 45 - 13 - 23 - 24 - 25နှင့် 12 သည် ရုပ်ပုံများမှ အရည်အသွေးမြင့် features များ ထုတ်လုပ်ရန် computationally အထိရောက်ဆုံး နည်းလမ်းများအဖြစ် ရှိနေဆဲဖြစ်သည်။ သို့သော် unsupervised transformer model တစ်ခုသည် အကောင်းဆုံး unsupervised convolutional nets များနှင့်24 - 25နှင့် 12 ယှဉ်ပြိုင်နိုင်ကြောင်း ပြသခြင်းအားဖြင့် hand coded domain knowledge ကို compute နှင့် အလဲအလှယ် လုပ်နိုင်ကြောင်း သက်သေပြထားသည်။ အသစ်သော domains များတွင်46နှင့် 47 လက်ဖြင့် coding လုပ်ရန် knowledge များစွာ မရှိသည့်အခါ compute ကို scale လုပ်ခြင်းသည် စမ်းသပ်ရန် သင့်တော်သော နည်းလမ်းတစ်ခုဟု ထင်ရသည်။

နည်းလမ်း

ကျွန်ုပ်တို့သည် parameters 76M၊ 455M နှင့် 1.4B အသီးသီး ပါဝင်သော transformers များဖြစ်သည့် iGPT‑S, iGPT‑M နှင့် iGPT‑L ကို ImageNet ပေါ်တွင် လေ့ကျင့်ထားသည်။ ထို့အပြင် parameters 6.8 billion ပါဝင်သော ထရန်(စ်)ဖော်မာ iGPT‑XLD ကို ImageNet နှင့် web မှ ရုပ်ပုံများ ပေါင်းစပ်ထားသော data ပေါ်တွင် လေ့ကျင့်ထားသည်။ dense attention ဖြင့် ရှည်လျားသော sequences များကို မော်ဒယ်လုပ်ရာတွင် computational cost ကြီးမားသောကြောင့် 32x32, 48x48 နှင့် 64x64 ဟူသော resolution နိမ့်များတွင် လေ့ကျင့်ထားသည်။

compute cost ကို ထပ်မံလျှော့ချရန် resolution ပိုနိမ့်သည့် အရွယ်အစားများတွင် အလုပ်လုပ်ချင်စရာကောင်းသော်လည်း ယခင်သုတေသနများအရ လူသားများ၏ image classification စွမ်းဆောင်ရည်သည် ဤအရွယ်အစားများအောက်သို့ ရောက်သည်နှင့် လျင်မြန်စွာ ကျဆင်းလာကြောင်း ပြထားသည်။48 ထို့အစား အစောပိုင်း color display palettes များမှ အားပေးမှုရယူကာ49 pixel များကို ကိုယ်စားပြုရန် ကျွန်ုပ်တို့၏ 9-bit color palette ကို ဖန်တီးထားသည်။ ဤ palette ကို အသုံးပြုခြင်းဖြင့် standard (R, G, B) palette ထက် input sequence length ကို ၃ ဆ ပိုတိုစေပြီး အရောင်ကိုလည်း မှန်ကန်စွာ encode လုပ်ထားနိုင်သည်။

စမ်းသပ်မှု ရလဒ်များ

မော်ဒယ် စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန် ကျွန်ုပ်တို့ အသုံးပြုသော နည်းလမ်း ၂ ခု ရှိပြီး၊ နှစ်ခုလုံးတွင် downstream classification task တစ်ခု ပါဝင်သည်။ ပထမနည်းလမ်းကို linear probe ဟု ကျွန်ုပ်တို့ ခေါ်ဆိုပြီး၊ လေ့ကျင့်ပြီးသား မော်ဒယ်ကို အသုံးပြု၍ downstream dataset အတွင်းရှိ ရုပ်ပုံများမှ featuresE ကို ထုတ်ယူကာ label များအပေါ် logistic regression ကို fit လုပ်သည်။ ဒုတိယနည်းလမ်းမှာ မော်ဒယ်တစ်ခုလုံးကို downstream dataset ပေါ်တွင် fine-tuneF လုပ်ခြင်းဖြစ်သည်။

နောက် pixel ကို ခန့်မှန်းခြင်းသည် image classification နှင့် တိုက်ရိုက်သက်ဆိုင်သည်ဟု မထင်ရှားသောကြောင့် နောက်ဆုံး layer မှ features များသည် object category ကို အကောင်းဆုံး ခန့်မှန်းပေးနိုင်မည် မဟုတ်ပါ။ ကျွန်ုပ်တို့၏ ပထမဆုံးရလဒ်က feature quality သည် depth တိုးလာသည်နှင့်အမျှ လျင်မြန်စွာ တိုးလာပြီးနောက် အနည်းငယ် လျော့ကျသည့် function တစ်ခုဖြစ်ကြောင်း ပြသည်။ ဤအပြုအမူက ထရန်(စ်)ဖော်မာ generative model တစ်ခုသည် အဆင့် ၂ ဆင့်ဖြင့် လုပ်ဆောင်ကြောင်း ညွှန်ပြသည်။ ပထမအဆင့်တွင် position တစ်ခုချင်းစီက contextualized image feature တစ်ခု တည်ဆောက်ရန် ပတ်ဝန်းကျင် context မှ အချက်အလက်များကို စုဆောင်းသည်။ ဒုတိယအဆင့်တွင် ဤ contextualized feature ကို conditional next pixel prediction task ကို ဖြေရှင်းရန် အသုံးပြုသည်။ ကျွန်ုပ်တို့၏ linear probes များတွင် တွေ့ရသော အဆင့် ၂ ဆင့် စွမ်းဆောင်ရည်သည် အခြား unsupervised neural net တစ်မျိုးဖြစ်သော bottleneck autoencoder နှင့် ဆင်တူပြီး၊ ထိုမော်ဒယ်တွင် အလယ်ပိုင်းရှိ features များကို အသုံးပြုရန် လက်ဖြင့် ဒီဇိုင်းထုတ်ထားသည်။

ဖွင့်နေသည်...

ကျွန်ုပ်တို့၏ နောက်ထပ် ရလဒ်သည် generative performance နှင့် feature quality အကြား ချိတ်ဆက်မှုကို တည်ထောင်ပေးသည်။ ကျွန်ုပ်တို့၏ မော်ဒယ်များ၏ scale ကို တိုးမြှင့်ခြင်းနှင့် iteration များ ပိုမိုလေ့ကျင့်ခြင်း နှစ်မျိုးစလုံးသည် ပိုကောင်းသော generative performance ကို ဖြစ်စေပြီး၊ ၎င်းသည် feature quality ပိုကောင်းလာခြင်းသို့ တိုက်ရိုက် ဘာသာပြန်သွားကြောင်း တွေ့ရှိခဲ့သည်။

ဖွင့်နေသည်...

ကျွန်ုပ်တို့၏ features များကို CIFAR-10၊ CIFAR-100 နှင့် STL-10 ပေါ်တွင် linear probes ဖြင့် အကဲဖြတ်သည့်အခါ supervised နှင့် unsupervised transfer algorithms အားလုံးမှ features များထက် ပိုကောင်းကြောင်း တွေ့ရသည်။ full fine-tuning setting တွင်လည်း ကျွန်ုပ်တို့၏ ရလဒ်များမှာ ဆွဲဆောင်မှုရှိပါသည်။

ImageNet ပေါ်တွင် အကြိုလေ့ကျင့်သင်ကြားထားသည်

အကဲဖြတ်ခြင်း

မော်ဒယ်

တိကျမှု

label မပါဘဲ

label ဖြင့်

CIFAR-10

Linear Probe

ResNet-15250

94.0

SimCLR12

95.3

iGPT‑L 32x32

96.3

CIFAR-100

Linear Probe

ResNet-152

78.0

SimCLR

80.2

iGPT‑L 32x32

82.8

STL-10

Linear Probe

AMDIM-L

94.2

iGPT‑L 32x32

95.5

CIFAR-10

Fine-tune

AutoAugment

98.5

SimCLR

98.6

GPipe

99.0

iGPT‑L

99.0

CIFAR-100

Fine-tune

iGPT‑L

88.5

SimCLR

89.0

AutoAugment

89.3

EfficientNet52

91.7

ကျွန်ုပ်တို့၏ မော်ဒယ်များနှင့် unsupervised သို့မဟုတ် supervised ImageNet transfer ကို အသုံးချသော ထိပ်တန်း မော်ဒယ်များအကြား linear probe နှင့် fine-tune accuracies များ၏ နှိုင်းယှဉ်ချက်။ CIFAR ပေါ်တွင် end-to-end လေ့ကျင့်ထားသော အကောင်းဆုံး မော်ဒယ်ဖြစ်သည့် AutoAugment ကိုလည်း ထည့်သွင်းထားသည်။

ImageNet ပေါ်တွင် unsupervised နှင့် self-supervised learning အပေါ် စိတ်ဝင်စားမှု ပြန်လည်မြင့်တက်လာခြင်းကြောင့် ကျွန်ုပ်တို့၏ မော်ဒယ်များ၏ performance ကို ImageNet ပေါ်တွင် linear probes ဖြင့်လည်း အကဲဖြတ်ထားသည်။ ဤသည်မှာ အထူးသဖြင့် ခက်ခဲသော setting ဖြစ်ပြီး ကျွန်ုပ်တို့သည် standard ImageNet input resolution ဖြင့် မလေ့ကျင့်ထားပါ။ သို့သော်လည်း 48x48 ရုပ်ပုံများပေါ်တွင် လေ့ကျင့်ထားသော iGPT‑L ၏ အကောင်းဆုံး layer မှ 1536 features များအပေါ် linear probe တစ်ခုသည် top-1 accuracy 65.2% ကို ရရှိပြီး AlexNet ထက် ပိုကောင်းသည်။

Contrastive methods များသည် ပုံမှန်အားဖြင့် 8192 features ပေါ်ရှိ ၎င်းတို့၏ အကောင်းဆုံး ရလဒ်များကို အစီရင်ခံကြသောကြောင့် နှိုင်းယှဉ်ရန်အတွက် embedding dimension 8192 ပါသော iGPT ကို အကဲဖြတ်နိုင်လျှင် အကောင်းဆုံး ဖြစ်မည်။ သို့သော် ထိုကဲ့သို့သော မော်ဒယ်တစ်ခုကို လေ့ကျင့်ခြင်းသည် အလွန်ကုန်ကျစရိတ်မြင့်မားသဖြင့် approximation အဖြစ် layer အများအပြားမှ features များကို concatenate လုပ်ခဲ့သည်။ ကံမကောင်းစွာဖြင့် ကျွန်ုပ်တို့၏ features များသည် layer များအကြား ဆက်နွယ်မှုရှိလေ့ရှိသဖြင့် ယှဉ်ပြိုင်နိုင်ရန် ၎င်းတို့ကို ပိုမိုလိုအပ်သည်။ iGPT‑XL ၏ layer 5 ခုမှ 15360 features ကို ယူလျှင် top-1 accuracy 72.0% ရရှိပြီး AMDIM၊ MoCo နှင့် CPC v2 ထက် ပိုကောင်းသော်လည်း SimCLR ထက်တော့ သိသာသော အကွာအဝေးဖြင့် နိမ့်နေသေးသည်။

နည်းလမ်း

Input Resolution

Features

Parameters

တိကျမှု

Rotation53

original

8192

86M

55.4

iGPT‑L

32x32

1536

1362M

60.3

BigBiGAN37

original

16384

86M

61.3

iGPT‑L

48x48

1536

1362M

65.2

AMDIM13

original

8192

626M

68.1

MoCo24

original

8192

375M

68.6

iGPT‑XL

64x64

3072

6801M

68.7

SimCLR12

original

2048

24M

69.3

CPC v225

original

4096

303M

71.5

iGPT‑XL

64x64

3072 x 5

6801M

72.0

SimCLR

original

8192

375M

76.5

ကျွန်ုပ်တို့၏ မော်ဒယ်များနှင့် state-of-the-art self-supervised models များအကြား linear probe accuracies များ၏ နှိုင်းယှဉ်ချက်။ resolution ပိုနိမ့်သော input များဖြင့် လေ့ကျင့်ထားသော်လည်း ကျွန်ုပ်တို့သည် ယှဉ်ပြိုင်နိုင်သော performance ကို ရရှိခဲ့သည်၊ သို့ရာတွင် ကျွန်ုပ်တို့၏ နည်းလမ်းသည် parameters နှင့် compute ပိုမိုလိုအပ်သည်။

BERT ကဲ့သို့ masked language models များသည် ဘာသာစကား task အများစုတွင် generative models များထက် ပိုကောင်းခဲ့သောကြောင့် ကျွန်ုပ်တို့၏ image models များပေါ်တွင် BERT ၏ performance ကိုလည်း အကဲဖြတ်ထားသည်။ ရှေ့တွင် ရှိသော pixel အားလုံးကို ပေး၍ နောက် pixel ကို ခန့်မှန်းရန် လေ့ကျင့်မည့်အစား pixel 15% ကို mask လုပ်ထားပြီး မ mask လုပ်ထားသော pixel များမှ ၎င်းတို့ကို ခန့်မှန်းရန် မော်ဒယ်ကို လေ့ကျင့်သည်။ ထို့ကြောင့် BERT models များ၏ linear probe performance သည် သိသိသာသာ ပိုဆိုးသော်လည်း fine-tuning အချိန်တွင် ထူးချွန်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်-

ဖွင့်နေသည်...

Unsupervised learning သည် လူက label တပ်ပေးထားသော data မလိုဘဲ အလွန်ကောင်းမွန်သော features များကို ပေးစွမ်းနိုင်မည်ဟု ကတိပေးထားသော်လည်း၊ လူက label တပ်ပေးထားသော data ပမာဏ အကန့်အသတ်ဖြင့် အသုံးပြုခွင့်ပြုသည့် ပိုမိုလျော့ပေါ့သော semi-supervised learning framework အောက်တွင် မကြာသေးမီက သိသာထင်ရှားသော တိုးတက်မှုများ ရရှိထားသည်။ အောင်မြင်သော semi-supervised နည်းလမ်းများသည် consistency regularization၊ data augmentation သို့မဟုတ် pseudo-labeling ကဲ့သို့ ဉာဏ်ကောင်းသော နည်းလမ်းများအပေါ် မကြာခဏ မူတည်ပြီး၊ generative-based approaches သက်သက်54နှင့် 55 သည် နှစ်ပေါင်းများစွာ ယှဉ်ပြိုင်နိုင်စွမ်း မရှိခဲ့ပါ။ ကျွန်ုပ်တို့သည် ဤ sub-field အတွက် ပြိုင်ဆိုင်မှုပြင်းထန်သော benchmark ပေါ်တွင် iGPT‑LG ကို အကဲဖြတ်ခဲ့ပြီး၊ augmentation မပြုလုပ်ထားသော ရုပ်ပုံများမှ features များအပေါ် လုပ်ထားသော ရိုးရှင်းသည့် linear probe သည် Mean Teacher56 နှင့် MixMatch57 ထက် ပိုကောင်းသော်လည်း FixMatch59 ထက်တော့ နိမ့်ကြောင်း တွေ့ရှိခဲ့သည်။

မော်ဒယ်

label 40 ခု

label 250 ခု

label 4000 ခု

Improved GAN55

81.4 ± 2.3

Mean Teacher56

67.7 ± 2.3

90.8 ± 0.2

MixMatch57

52.5 ± 11.5

89.0 ± 0.9

93.6 ± 0.1

iGPT‑L

73.2 ± 01.5

87.6 ± 0.6

94.3 ± 0.1

UDA58

71.0 ± 05.9

91.2 ± 1.1

95.1 ± 0.2

FixMatch59 RA

86.2 ± 03.4

94.9 ± 0.7

95.7 ± 0.1

FixMatch CTA

88.6 ± 03.4

94.9 ± 0.3

95.7 ± 0.2

data နည်းပါးသော CIFAR-10 ပေါ်ရှိ performance နှိုင်းယှဉ်ချက်တစ်ခု။ label မတပ်ထားသော ImageNet ရုပ်ပုံများ အများအပြားကို အသုံးချခြင်းအားဖြင့် iGPT‑L သည် Mean Teacher နှင့် MixMatch ကဲ့သို့သော နည်းလမ်းများထက် ပိုကောင်းနိုင်သော်လည်း state of the art နည်းလမ်းများထက်တော့ နိမ့်နေသေးသည်။ ကျွန်ုပ်တို့၏ semi-supervised learning နည်းလမ်းမှာ အလွန်ရိုးရှင်းပြီး data augmentation သို့မဟုတ် fine-tuning မပါဘဲ iGPT‑L ၏ features များအပေါ် logistic regression classifier တစ်ခုသာ fit လုပ်ထားသောကြောင့် အထူးဒီဇိုင်းထုတ်ထားသည့် semi-supervised approaches များနှင့် သိသာထင်ရှားစွာ ကွာခြားသည်။

ကန့်သတ်ချက်များ

iGPT သည် အားကောင်းသော image features များကို သင်ယူနိုင်စွမ်းရှိကြောင်း ကျွန်ုပ်တို့ ပြသခဲ့သော်လည်း၊ ကျွန်ုပ်တို့၏ နည်းလမ်းတွင် အရေးကြီးသော ကန့်သတ်ချက်များ ရှိနေသေးသည်။ ဘာသာစကားတွင် GPT‑2 အတွက် အသုံးပြုသည့် generic sequence transformer ကိုပဲ အသုံးပြုထားသောကြောင့် ကျွန်ုပ်တို့၏ နည်းလမ်းသည် compute ပမာဏ အများကြီး လိုအပ်သည်။ iGPT‑L ကို အကြမ်းဖျဉ်းအားဖြင့် 2500 V100-days လေ့ကျင့်ခဲ့ရသော်လည်း စွမ်းဆောင်ရည် ဆင်တူသော MoCo24 မော်ဒယ်တစ်ခုကိုတော့ အကြမ်းဖျဉ်း 70 V100-days ခန့်ဖြင့် လေ့ကျင့်နိုင်သည်။

ထို့အပြင် ကျွန်ုပ်တို့သည် resolution နိမ့်သော input များကို transformer ဖြင့် မော်ဒယ်လုပ်နေချိန်တွင် self-supervised ရလဒ်အများစုမှာ resolution မြင့် input များကို အလွယ်တကူ လက်ခံနိုင်သော convolutional-based encoder များကို အသုံးပြုကြသည်။ ထပ်မံ scale လုပ်ရန် domain-agnostic multiscale transformer ကဲ့သို့သော ဗိသုကာအသစ်တစ်ခု လိုအပ်လာနိုင်သည်။ ဤကန့်သတ်ချက်များကြောင့် ကျွန်ုပ်တို့၏အလုပ်သည် hardcoded domain knowledge မလိုဘဲ ထရန်(စ်)ဖော်မာအခြေပြု အရွယ်အစားကြီး ဘာသာစကား မော်ဒယ်များသည် အသစ်သော domain များတွင် ကောင်းမွန်သော unsupervised representations များကို သင်ယူနိုင်စွမ်းရှိကြောင်း proof-of-concept demonstration အဖြစ် အဓိက တာဝန်ထမ်းဆောင်သည်။ သို့သော် ဤမော်ဒယ်များကို လေ့ကျင့်ရန် လိုအပ်သော resource cost များပြားမှုနှင့် convolutional neural-network အခြေပြု နည်းလမ်းများ၏ ပိုမိုကောင်းမွန်သော accuracy ကြောင့် vision domain တွင် ဤ representations များကို လက်တွေ့အသုံးချမှုများ၌ အသုံးပြုရန် အတားအဆီး ဖြစ်နေသည်။

နောက်ဆုံးအနေဖြင့် ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်များသည် ၎င်းတို့ လေ့ကျင့်ထားသော data ၏ အကျိုးဆက်အဖြစ် bias များကို ပြသနိုင်သည်။ ဤ bias များထဲမှ အချို့သည် အသုံးဝင်ကြသည်။ ဥပမာ brown နှင့် green pixels ပေါင်းစပ်မှုတစ်ခုသည် အရွက်များဖုံးထားသော ကိုင်းတစ်ကိုင်းကို ကိုယ်စားပြုသည်ဟု ယူဆပြီး ထို bias ကို အသုံးပြုကာ ရုပ်ပုံကို ဆက်လက်ဖြည့်စွက်ခြင်းကဲ့သို့ ဖြစ်သည်။ သို့သော် fairness နှင့် representation ရှုထောင့်မှ စဉ်းစားပါက ထို bias အချို့သည် အန္တရာယ်ဖြစ်စေနိုင်သည်။ ဥပမာ မော်ဒယ်က scientist ၏ မြင်ကွင်းဆိုင်ရာ အယူအဆကို အမျိုးသားဘက်သို့ မညီမမျှ ဖွံ့ဖြိုးလာခဲ့လျှင် scientist များ၏ ရုပ်ပုံများကို ဆက်လက်ဖြည့်စွက်ရာတွင် gender မျိုးစုံပေါင်းစပ်ထားသည့်ပုံများအစား အမျိုးသားပုံစံ လူများဖြင့် တစိုက်မတ်မတ် ဖြည့်စွက်နိုင်သည်။ developer များသည် မိမိတို့၏ system များထဲသို့ ထည့်သွင်းသော data များကို ပိုမိုဂရုစိုက်လာရန်နှင့် ၎င်းတို့သည် လေ့ကျင့်ပြီးသား မော်ဒယ်များအတွင်းရှိ bias များနှင့် မည်သို့ ဆက်နွယ်နေသည်ကို ပိုမိုကောင်းမွန်စွာ နားလည်ရန် လိုအပ်လာမည်ဟု ကျွန်ုပ်တို့ မျှော်လင့်သည်။

နိဂုံးချုပ်

2-D knowledge ကို scale60 နှင့် လဲလှယ်အသုံးပြုပြီး network အလယ်ပိုင်းမှ predictive features များကို ရွေးချယ်ခြင်းအားဖြင့် sequence transformer တစ်ခုသည် unsupervised image classification အတွက် ထိပ်တန်း convolutional nets များနှင့် ယှဉ်ပြိုင်နိုင်ကြောင်း ကျွန်ုပ်တို့ ပြသခဲ့သည်။ ထူးခြားစွာဆိုရလျှင်၊ ကျွန်ုပ်တို့သည် GPT‑2 language model ကို ရုပ်ပုံ ထုတ်လုပ်မှု သို့ တိုက်ရိုက် အသုံးချခြင်းဖြင့် ဤရလဒ်များကို ရရှိခဲ့သည်။ ကျွန်ုပ်တို့၏ ရလဒ်များက simplicity နှင့် generality ကြောင့် လုံလောက်သော compute ပေးထားသည့် sequence transformer တစ်ခုသည် domain အများအပြားတွင် ကောင်းမွန်သော features များကို သင်ယူရန် နောက်ဆုံးတွင် ထိရောက်သော နည်းလမ်းတစ်ခု ဖြစ်လာနိုင်ကြောင်း ညွှန်ပြသည်။

သင်သည် ဤသုတေသနနယ်ပယ်တွင် ကျွန်ုပ်တို့နှင့်အတူ အလုပ်လုပ်ရန် စိတ်လှုပ်ရှားနေပါက ကျွန်ုပ်တို့မှာ အလုပ်ခေါ်နေပါသည်!

မှတ်စုများ

  1. A

    သင်ယူထားသော features များအပေါ် logistic regression (linear probe) ဖြင့် တိုင်းတာထားခြင်းဖြစ်သည်။

  2. B

    ထရန်(စ်)ဖော်မာတစ်ခုကို likelihood ကို အများဆုံးဖြစ်စေရန် လေ့ကျင့်ထားသောကြောင့် ၎င်းသည် mode covering ဖြစ်ပြီး၊ ထို့ကြောင့် ၎င်း၏ samples များ၏ ကွဲပြားမှုကို အလိုအလျောက် အာမခံပေးသည်။

  3. C

    မူလ analysis by synthesis အယူအဆသည် latent variables ပါသည့် generative models များအတွက် ပိုမို သက်ဆိုင်သော်လည်း latent variables မပါသည့် generative models များသည် data distribution ကို မော်ဒယ်လုပ်ရာတွင် ပိုကောင်းလွန်းသဖြင့် analysis-by-synthesis conjecture သည် ၎င်းတို့အတွက်လည်း မှန်ကန်သင့်သည်ဟု ကျွန်ုပ်တို့ ယူဆခဲ့သည်။

  4. D

    အခြား စမ်းသပ်မှုများသည် မတူညီသော supercomputing facilities များသို့ ပြောင်းရွှေ့ရန် လိုအပ်မတိုင်မီ မပြီးဆုံးသေးသောကြောင့် iGPT-XL အတွက်သာ ImageNet ပေါ်ရှိ linear probe accuracy ကို ပြထားသည်။

  5. E

    linear probe အတွက် features များကို ထုတ်ယူရာတွင် layer တစ်ခုရှိ post layernorm attention block inputs များကို ယူပြီး sequence dimension တစ်လျှောက် average pool လုပ်သည်။

  6. F

    fine-tune လုပ်ရန်အတွက် post layernorm transformer output ကို classification head အတွက် input အဖြစ် sequence dimension တစ်လျှောက် average pool လုပ်ပြီး ယူသည်။

  7. G

    စစ်မှန်သော unsupervised ပုံစံဖြင့် features များကို သင်ယူသော ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်တစ်ခု။

ကိုးကားချက်များ

  1. 1
  2. 2

    Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Attention သာလျှင် လိုအပ်သည်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2017.

  3. 3
  4. 4

    Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Language Models are Unsupervised Multitask Learners(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” Technical Report, OpenAI.

  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10
  11. 11
  12. 12
  13. 13
  14. 14

    Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): ယေဘုယျ Visual Representation Learning(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.

  15. 15
  16. 16
  17. 17
  18. 18
  19. 19
  20. 20

    Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Recurrent neural network အခြေပြု language model(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In INTERSPEECH-2010.

  21. 21
  22. 22
  23. 23
  24. 24
  25. 25

    Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Contrastive Predictive Coding ဖြင့် Data-Efficient Image Recognition(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) .” arXiv preprint.

  26. 26

    Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Pixel recurrent neural networks(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” arXiv preprint.

  27. 27

    Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In ICML 2018.

  28. 28
  29. 29
  30. 30
  31. 31
  32. 32
  33. 33
  34. 34
  35. 35
  36. 36
  37. 37
  38. 38
  39. 39
  40. 40
  41. 41
  42. 42
  43. 43
  44. 44
  45. 45
  46. 46
  47. 47
  48. 48
  49. 49
  50. 50
  51. 51
  52. 52
  53. 53
  54. 54
  55. 55
  56. 56
  57. 57

    Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: Semi-Supervised Learning အတွက် Holistic Approach တစ်ခု(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).” In NeurIPS 2019.

  58. 58
  59. 59
  60. 60

ရေးသားသူများ

Mark Chen - Alec Radfordနှင့် Ilya Sutskever

ကျေးဇူးတင်လွှာ

အဓိကအားဖြင့် ကျွန်ုပ်တို့၏ paper ကို တွဲဖက်ရေးသားသူများဖြစ်သော Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal နှင့် David Luan တို့ကို အသိအမှတ်ပြု ကျေးဇူးတင်လိုပါသည်။

ဤအလုပ်အပေါ် အကြံပြုချက်များပေးခြင်းနှင့် ဤ release အတွက် ပါဝင်ကူညီခဲ့ကြသူများအား ကျေးဇူးတင်ပါသည်- Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le နှင့် Ashish Vaswani။

အယ်ဒီတာ: Ashley Pilipiszyn

ဒီဇိုင်း: Justin Jay Wang

မျက်နှာဖုံး အနုပညာလက်ရာ: Ben Barry