
Illustration: Ben Barry
Хэл дээр сургагдсан том трансформер загвар уялдаатай текст үүсгэж чаддагтай адил, пикселийн дараалал дээр сургагдсан яг тэр загвар уялдаатай дүрсний нөхөлт болон жишээ үүсгэж чаддагийг бид тогтоосон. Жишээний чанар ба дүрс ангиллын нарийвчлалын хоорондын хамаарлыг тогтоосноор манай шилдэг үүсмэл загвар хяналтгүй орчинд шилдэг convolutional сүлжээнүүдтэй өрсөлдөхүйц шинжүүдийг мөн агуулж байгааг харуулж байна.
Хяналтгүй болон self-supervised сургалт1 буюу хүний шошголсон өгөгдөлгүй суралцах нь машин сургалтын олон жилийн сорилт байсаар ирсэн. Сүүлийн үед энэ нь хэлний салбарт гайхалтай амжилт үзүүлж, BERT,3 GPT‑2,4 RoBERTa,5 T5,6 болон бусад хувилбарууд7, 8, 9, 10 зэрэг трансформер2 загварууд хэлний өргөн хүрээний даалгаварт дээд түвшний гүйцэтгэл үзүүлсэн. Гэвч энэ өргөн ангиллын ижил загварууд дүрс ангилалд хүчтэй шинж гаргахад амжилттай байгаагүй.11 Манай ажил энэ зөрүүг ойлгож, арилгахыг зорьж байна.
BERT, GPT‑2 зэрэг трансформер загварууд нь domain agnostic, өөрөөр хэлбэл ямар ч хэлбэрийн 1-D дараалалд шууд хэрэглэж болдог. Бид урт пикселийн дараалал болгон задласан зургууд дээр GPT‑2‑ыг сургахад, үүнийг iGPT гэж нэрлэдэг, загвар нь объектын харагдах байдал, ангилал зэрэг 2-D дүрсний шинж чанарыг ойлгож байгаа мэт харагддагийг олсон. Үүнийг хүний өгсөн шошгын чиглүүлэлтгүй байсан ч түүний үүсгэдэг уялдаатай дүрсний жишээнүүдийн олон янз хүрээ нотолж байна. Нэмэлт баталгаа болгон, загварын шинжүүд нь хэд хэдэн ангиллын өгөгдлийн цуглуулгад хамгийн сүүлийн үеийн гүйцэтгэлд хүрч, ImageNet дээр state-of-the-art-д ойр хяналтгүй нарийвчлалA үзүүлдэг.
Үнэлгээ | Өгөгдлийн цуглуулга | Манай үр дүн | iGPT‑ээс бусад шилдэг үр дүн |
|---|---|---|---|
Сурсан шинжүүд дээрх логистик регресс (linear probe) | CIFAR-10 | 96.3 iGPT‑L 32x32, 1536 шинжтэй | 95.3 SimCLR12, 8192 шинжтэй |
CIFAR-100 | 82.8 iGPT‑L 32x32, 1536 шинжтэй | 80.2 SimCLR, 8192 шинжтэй | |
STL-10 | 95.5 iGPT‑L 32x32, 1536 шинжтэй | 94.2 AMDIM13, 8192 шинжтэй | |
ImageNet | 72.0 iGPT‑XLa 64x64, 15360 шинжтэй | 76.5 SimCLR, 8192 шинжтэй | |
Бүрэн fine-tune | CIFAR-10 | 99.0 iGPT‑L 32x32, ImageNet дээр сургагдсан | |
ImageNet 32x32 | 66.3 iGPT‑L 32x32 | 70.2 Isometric Nets15 |
- Бид ImageNet-ийн linear probe нарийвчлалыг зөвхөн iGPT‑XL‑д харуулсан, учир нь өөр туршилтуудыг өөр суперкомпьютерийн байгууламж руу шилжихээс өмнө дуусгаж амжаагүй.
- JFT дээр (18K ангилалтай 300M зураг) сургагдсан Bit-L нь 99.3 гэсэн үр дүнд хүрсэн.
Үүсгэх17, 18 дарааллын загварчлалыг19, 20, 21, 22 ерөнхий зориулалтын хяналтгүй сургалтын алгоритм болох боломжийг онцлохын тулд бид хэл дээрх GPT‑2‑той ижил трансформер архитектурыг зориуд ашигласан. Үүний үр дагаварт бид шилдэг хяналтгүй convolutional сүлжээнүүдийн шинжүүдтэй өрсөлдөхүйц шинжүүд гаргахын тулд мэдэгдэхүйц их тооцоолол шаарддаг.13, 23, 24, 25, 12 Гэсэн ч зөв загварын priori нь тодорхойгүй шинэ домэйнтой тулгарахад том GPT‑2 нь домэйнд тусгай26, 27, 28 архитектурын шийдэлгүйгээр маш сайн шинжүүд сурч чадна гэдгийг бидний үр дүн харуулж байна.
Хэлний салбарт үгийн таамаглалд тулгуурладаг хяналтгүй сургалтын алгоритмууд (GPT‑2, BERT зэрэг) асар амжилттай байж, хэлний олон төрлийн даалгаварт дээд түвшний гүйцэтгэл үзүүлсэн. Энэ амжилтын нэг боломжит шалтгаан нь доош урсгалын хэлний даалгаврын жишээнүүд текст дотор байгалиараа оршдогт байж болно: асуултын араас ихэвчлэн хариулт (асуулт-хариултад тусалж болох), өгүүлбэрийн хэсгийн араас ихэвчлэн хураангуй (хураангуйлалтад тусалж болох) дагалддаг. Харин пикселийн дарааллууд нь өөрт нь хамаарах зургуудын шошгыг тодорхой агуулдаггүй.
Ийм ил тод хяналтгүй байсан ч зураг дээрх GPT‑2 ажиллаж болох нэг шалтгаан бий: дараагийн пиксел таамаглах дээр сургагдсан хангалттай том трансформер эцэстээ тод танигдах объектуудтай, олон янзB жишээ үүсгэж сурах боломжтой. Үүнийг сурмагц “Analysis by Synthesis”29, 30, C гэж нэрлэгддэг санаа нь загвар объектын ангиллын талаар мөн мэдэх болно гэж үздэг. Эртний олон үүсмэл загвар31, 32, 33, 34, 35, 36 энэ санаанаас сэдэлтэй байсан бөгөөд илүү сүүлд BigBiGAN37 нь урам өгсөн жишээ болон шинжүүдийг гаргасан нэг жишээ болсон. Манай ажилд бид эхлээд илүү сайн үүсмэл загварууд илүү хүчтэй ангиллын гүйцэтгэлтэй болдгийг харуулсан. Дараа нь GPT‑2‑ыг үүсгэх чадварт зориулан оновчлох замаар бид олон нөхцөлд дээд түвшний ангиллын гүйцэтгэлд хүрч, analysis by synthesis-ийн нэмэлт нотолгоог гаргасан.
Үүсгэх дарааллын загварчлал нь бүх нийтийн хяналтгүй сургалтын алгоритм юм: бүх төрлийн өгөгдлийг байтын дараалал хэлбэрээр илэрхийлж болдог тул трансформерыг нэмэлт инженерчлэлгүйгээр ямар ч төрлийн өгөгдөлд шууд хэрэглэж болно. Манай ажил энэ ерөнхий чанарын хүчийг шалгахын тулд GPT‑2‑ыг байгалийн хэл дээр сургахад ашигласан архитектурыг зураг үүсгэхэд шууд хэрэглэсэн. Бид convolution38 эсвэл relative attention,39 sparse attention,40 2-D position embedding27 зэрэг арга хэлбэрээр дүрсэнд тусгай мэдлэгийг гараар кодлохоос зориуд татгалзсан.
Ерөнхий чанарынхаа үр дагаварт манай арга хяналтгүй нөхцөлд өрсөлдөхүйц гүйцэтгэлд хүрэхийн тулд мэдэгдэхүйц их тооцоолол шаарддаг. Үнэхээр ч contrastive аргууд41, 42, 43, 44, 45, 13, 23, 24, 25, 12 нь зургаас өндөр чанартай шинж гарган авах хамгийн тооцооллын хувьд үр ашигтай аргууд хэвээр байна. Гэсэн ч хяналтгүй трансформер загвар нь хамгийн сайн хяналтгүй convolutional сүлжээнүүдтэй өрсөлдөж чаддагийг24, 25, 12 харуулснаар бид гараар кодлосон домэйны мэдлэгийг тооцооллоор орлуулж болдгийн нотолгоо өгч байна. Гараар кодлох мэдлэг бага байдаг шинэ домэйнуудад46, 47 тооцооллыг өсгөх нь туршиж үзэх тохиромжтой арга мэт санагдаж байна.
Бид 76M, 455M, 1.4B параметртэй трансформерууд болох iGPT‑S, iGPT‑M, iGPT‑L‑ийг тус тус ImageNet дээр сургадаг. Мөн 6.8 тэрбум параметртэй трансформер болох iGPT‑XLD-ийг ImageNet болон вэбээс авсан зургуудын холимог дээр сургадаг. Нягт attention-тай урт дарааллыг загварчлах тооцооллын өртөг өндөр тул бид 32x32, 48x48, 64x64 гэсэн бага нягтрал дээр сургадаг.
Тооцооллын зардлыг цааш бууруулахын тулд бүр ч бага нягтралтай ажиллах нь сэтгэл татам боловч өмнөх ажлууд эдгээр хэмжээнээс доош хүний дүрс ангиллын гүйцэтгэл огцом буурдгийг харуулсан.48 Харин үүний оронд эртний өнгөт дэлгэцийн палитраас49 сэдэл авч, пикселийг илэрхийлэх өөрсдийн 9-бит өнгийн палитрыг бид бүтээсэн. Энэ палитрыг ашиглахад стандарт (R, G, B) палитртай харьцуулахад оролтын дарааллын урт 3 дахин богино болдог ч өнгийг үнэнчээр кодолсон хэвээр байдаг.
Загварын гүйцэтгэлийг үнэлэхдээ бид доош урсгалын ангиллын даалгавар оролцуулдаг хоёр аргыг ашигладаг. Эхнийхийг нь бид linear probe гэж нэрлэдэг бөгөөд сургагдсан загварыг ашиглан доош урсгалын өгөгдлийн цуглуулга дахь зургуудаас шинжүүдийгE гаргаж аваад, дараа нь шошгон дээр логистик регресс тааруулдаг. Хоёр дахь арга нь бүхэл загварыг доош урсгалын өгөгдлийн цуглуулга дээр fine-tuneF хийдэг.
Дараагийн пикселийг таамаглах нь дүрс ангилалтай илт хамааралтай биш тул төгсгөлийн давхаргын шинжүүд нь объектын ангиллыг таамаглахад хамгийн сайн байх албагүй. Бидний эхний үр дүн шинжийн чанар нь гүний дагуу эхлээд огцом өсөөд, дараа нь бага зэрэг буурдаг функц болохыг харуулж байна. Энэ зан төлөв нь трансформер үүсмэл загвар хоёр үе шаттай ажилладагийг санал болгодог: эхний үед байрлал бүр хүрээлэх контекстоосоо мэдээлэл цуглуулж, контекстжүүлсэн дүрсний шинжийг бүтээдэг. Хоёр дахь үед энэ контекстжүүлсэн шинжийг нөхцөлт дараагийн пиксел таамаглах даалгаврыг шийдэхэд ашигладаг. Манай linear probe-уудын ажиглагдсан хоёр үе шаттай гүйцэтгэл нь дунд хэсгийн шинжүүдийг ашиглахаар гараар зохиосон bottleneck autoencoder гэх өөр нэг хяналтгүй мэдрэлийн сүлжээг санагдуулж байна.
Бидний дараагийн үр дүн үүсгэх гүйцэтгэл ба шинжийн чанарын хоорондын холбоог тогтоож байна. Бид загварынхаа хэмжээг өсгөх болон илүү олон итерациар сургах нь хоёулаа илүү сайн үүсгэх гүйцэтгэлд хүргэж, энэ нь шууд илүү сайн шинжийн чанарт шилждэгийг олсон.
Бид CIFAR-10, CIFAR-100, STL-10 дээрх шинжүүдээ linear probe ашиглан үнэлэхэд supervised болон unsupervised дамжуулалтын бүх алгоритмын шинжүүдийг давдаг. Бүрэн fine-tuning орчинд ч бидний үр дүн хүчтэй байна.
ImageNet дээр урьдчилан сургагдсан | ||||
Үнэлгээ | Загвар | Нарийвчлал | шошгогүй | шошготой |
CIFAR-10 Linear Probe | ResNet-15250 | 94.0 | ✔ | |
SimCLR12 | 95.3 | ✔ | ||
iGPT‑L 32x32 | 96.3 | ✔ | ✔ | |
CIFAR-100 Linear Probe | ResNet-152 | 78.0 | ✔ | |
SimCLR | 80.2 | ✔ | ||
iGPT‑L 32x32 | 82.8 | ✔ | ||
STL-10 Linear Probe | AMDIM-L | 94.2 | ✔ | |
iGPT‑L 32x32 | 95.5 | ✔ | ||
CIFAR-10 Fine-tune | AutoAugment | 98.5 | ||
SimCLR | 98.6 | ✔ | ||
GPipe | 99.0 | ✔ | ||
iGPT‑L | 99.0 | ✔ | ||
CIFAR-100 Fine-tune | iGPT‑L | 88.5 | ✔ | |
SimCLR | 89.0 | ✔ | ||
AutoAugment | 89.3 | |||
EfficientNet52 | 91.7 | ✔ |
Манай загварууд болон хяналтгүй эсвэл хяналттай ImageNet дамжуулалт ашигладаг шилдэг загваруудын linear probe ба fine-tune нарийвчлалын харьцуулалт. Мөн бид CIFAR дээр төгсгөлөөс төгсгөлд сургагдсан хамгийн өндөр үзүүлэлттэй загвар болох AutoAugment-ийг оруулсан.
ImageNet дээрх хяналтгүй болон self-supervised сургалтад сонирхол дахин сэргэснийг харгалзан, бид загваруудынхаа гүйцэтгэлийг ImageNet дээр linear probe ашиглан мөн үнэлсэн. Энэ нь ялангуяа хэцүү нөхцөл, учир нь бид стандарт ImageNet оролтын нягтрал дээр сургадаггүй. Гэсэн хэдий ч 48x48 зургууд дээр сургагдсан iGPT‑L‑ийн хамгийн сайн давхаргын 1536 шинж дээрх linear probe нь 65.2% top-1 нарийвчлал өгч, AlexNet-ийг давсан.
Contrastive аргууд ихэвчлэн 8192 шинж дээрх хамгийн сайн үр дүнгээ тайлагнадаг тул харьцуулахын тулд embedding хэмжээ 8192 бүхий iGPT‑ийг үнэлэх нь зүйтэй байх байв. Гэвч ийм загварыг сургах нь хэт өндөр өртөгтэй тул бид оронд нь хэд хэдэн давхаргын шинжүүдийг ойролцоолол болгон залгасан. Харамсалтай нь манай шинжүүд давхаргуудын хооронд хоорондоо уялдаатай байх хандлагатай тул өрсөлдөх чадвартай байхын тулд илүү олныг хэрэгтэй болдог. iGPT‑XL‑ийн 5 давхаргаас 15360 шинж авахад 72.0% top-1 нарийвчлал гарч, AMDIM, MoCo, CPC v2-ыг давсан ч SimCLR-ээс мэдэгдэхүйц зөрүүтэй доогуур хэвээр байна.
Арга | Оролтын нягтрал | Шинжүүд | Параметрүүд | Нарийвчлал |
Rotation53 | original | 8192 | 86M | 55.4 |
iGPT‑L | 32x32 | 1536 | 1362M | 60.3 |
BigBiGAN37 | original | 16384 | 86M | 61.3 |
iGPT‑L | 48x48 | 1536 | 1362M | 65.2 |
AMDIM13 | original | 8192 | 626M | 68.1 |
MoCo24 | original | 8192 | 375M | 68.6 |
iGPT‑XL | 64x64 | 3072 | 6801M | 68.7 |
SimCLR12 | original | 2048 | 24M | 69.3 |
CPC v225 | original | 4096 | 303M | 71.5 |
iGPT‑XL | 64x64 | 3072 x 5 | 6801M | 72.0 |
SimCLR | original | 8192 | 375M | 76.5 |
Манай загварууд болон хамгийн сүүлийн үеийн self-supervised загваруудын linear probe нарийвчлалын харьцуулалт. Бид маш бага оролтын нягтрал дээр сургаж байгаа ч өрсөлдөхүйц гүйцэтгэл үзүүлж байгаа боловч манай арга илүү олон параметр, илүү их тооцоолол шаарддаг.
BERT зэрэг masked language model-ууд хэлний ихэнх даалгаварт үүсмэл загваруудаас илүү гарсан тул бид BERT-ийг дүрсний загварууд дээрээ мөн үнэлсэн. Бид загвараа өмнөх бүх пикселийг өгөөд дараагийн пикселийг таамаглуулахын оронд пикселүүдийн 15%-ийг халхалж, халхлагдаагүй пикселүүдээс тэдгээрийг таамаглуулахаар сургадаг. Бид BERT загваруудын linear probe гүйцэтгэл мэдэгдэхүйц муу ч fine-tuning үед онцгой сайн байгааг олсон:
Хяналтгүй сургалт нь хүний шошголсон өгөгдөл шаардалгүйгээр маш сайн шинжүүдийг амладаг ч хүний шошголсон өгөгдлийн хязгаарлагдмал хэмжээг зөвшөөрдөг, илүү уян хүрээ болох хагас хяналттай сургалтын дор сүүлийн үед мэдэгдэхүйц ахиц гарсан. Амжилттай хагас хяналттай аргууд ихэвчлэн consistency regularization, өгөгдлийн нэмэгдүүлэлт, эсвэл pseudo-labeling зэрэг ухаалаг техникүүдэд тулгуурладаг бөгөөд цэвэр үүсгэхэд суурилсан аргууд54, 55 олон жил өрсөлдөх чадваргүй байсан. Бид iGPT‑LG-ийг энэ дэд салбарын өрсөлдөөнтэй жишиг дээр үнэлэхэд, өгөгдөл нэмэгдүүлээгүй зургуудын шинжүүд дээрх энгийн linear probe нь Mean Teacher56 болон MixMatch-ийг давсан ч FixMatch-ээс59 доогуур байгааг олсон.
Бага өгөгдөлтэй CIFAR-10 дээрх гүйцэтгэлийн харьцуулалт. Олон шошгогүй ImageNet зургуудыг ашигласнаар iGPT‑L нь Mean Teacher, MixMatch зэрэг аргуудыг давж чаддаг ч хамгийн сүүлийн үеийн аргуудаас доогуур хэвээр байна. Манай хагас хяналттай сургалтын арга маш энгийн: бид ямар нэг өгөгдөл нэмэгдүүлэлт эсвэл fine-tuning хийхгүйгээр зөвхөн iGPT‑L‑ийн шинжүүд дээр логистик регрессийн ангилагч тааруулдаг—энэ нь тусгайлан зохиосон хагас хяналттай аргуудаас мэдэгдэхүйц ялгаатай.
Бид iGPT нь хүчирхэг дүрсний шинжүүд сурч чаддагийг харуулсан ч манай аргад мэдэгдэхүйц хязгаарлалтууд байсаар байна. Хэл дээрх GPT‑2‑д ашигладаг ерөнхий дарааллын трансформерыг хэрэглэдэг учраас манай арга их хэмжээний тооцоолол шаарддаг: iGPT‑L‑ийг ойролцоогоор 2500 V100-өдөр сургаж байхад ижил төстэй гүйцэтгэлтэй MoCo24 загварыг ойролцоогоор 70 V100-өдөрт сургаж болно.
Үүнтэй холбоотойгоор бид бага нягтралтай оролтыг трансформероор загварчилдаг бол ихэнх self-supervised үр дүн өндөр нягтралтай оролтыг амархан боловсруулж чаддаг convolution-д суурилсан encoder-уудыг ашигладаг. Цааш өргөжүүлэхийн тулд domain-agnostic multiscale transformer зэрэг шинэ архитектур хэрэгтэй байж магадгүй. Эдгээр хязгаарлалтыг харгалзан үзвэл манай ажил нь том трансформер дээр суурилсан хэлний загварууд хатуу кодлосон домэйн мэдлэггүйгээр шинэ домэйнуудад маш сайн хяналтгүй төлөөлөл сурч чаддагийг харуулсан proof-of-concept үзүүлэн болж байна. Гэвч эдгээр загварыг сургахад гарах их нөөцийн өртөг болон convolutional neural network-д суурилсан аргуудын илүү өндөр нарийвчлал нь эдгээр төлөөллийг харааны домэйны бодит хэрэглээнд ашиглах боломжийг хязгаарлаж байна.
Эцэст нь, үүсмэл загварууд сурсан өгөгдлөөсөө үүдэлтэй гажуудлуудыг илэрхийлж болно. Эдгээрийн олон нь ашиг тустай байдаг, жишээ нь бор ба ногоон пикселийн хослолыг навчаар бүрхэгдсэн мөчир гэж үзээд энэ гажуудлыг ашиглан зургийг үргэлжлүүлэх гэх мэт. Гэвч шударга байдал, төлөөллийн өнцгөөс харахад эдгээр гажуудлын зарим нь хор хөнөөлтэй байна. Тухайлбал, хэрэв загвар эрдэмтнийг эрэгтэй тал руу хазайсан дүрслэлээр ойлгодог бол эрдэмтдийн зургийг нөхөхдөө янз бүрийн хүйсийн холимог биш, тогтмол эрэгтэй төрхтэй хүмүүсээр нөхөж магадгүй. Хөгжүүлэгчид системдээ оруулж буй өгөгдөлдөө улам их анхаарч, энэ нь сургагдсан загвар дахь гажуудалтай хэрхэн холбоотойг илүү сайн ойлгох шаардлагатай болно гэж бид үзэж байна.
2-D мэдлэгийг хэмжээтэй60 сольж, сүлжээний дундаас таамаглах шинжүүдийг сонгосноор дарааллын трансформер нь хяналтгүй дүрс ангилалд шилдэг convolutional сүлжээнүүдтэй өрсөлдөж чаддгийг бид харууллаа. Онцлоход, бид GPT‑2 хэлний загварыг шууд зураг үүсгэхэд хэрэглэснээр эдгээр үр дүнд хүрсэн. Бидний үр дүн энгийн бөгөөд ерөнхий шинж чанараас нь шалтгаалан хангалттай тооцоолол өгвөл дарааллын трансформер нь олон домэйнд маш сайн шинжүүд сурах үр дүнтэй арга болж чадна гэдгийг санал болгож байна.
Хэрэв та энэ судалгааны чиглэл дээр бидэнтэй хамтран ажиллах сонирхолтой бол, бид ажилд авч байна!
Тэмдэглэлүүд
- A
Сурсан шинжүүд дээрх логистик регрессээр хэмжсэн (linear probe).
- B
Трансформер нь магадлалыг хамгийн их болгохоор сурдаг бөгөөд тиймээс mode covering шинжтэй тул жишээнүүдийн олон янз байдлыг автоматаар хангадаг.
- C
Analysis by synthesis-ийн анхны санаа нь нууц хувьсагчтай үүсмэл загваруудын тухай илүү их маргаан байсан боловч нууц хувьсагчгүй үүсмэл загварууд өгөгдлийн тархцыг загварчлахдаа хамаагүй илүү сайн байсан учраас analysis-by-synthesis таамаглал тэдэнд ч мөн үйлчлэх ёстой гэж бид үзсэн.
- D
Бид iGPT-XL-ийн ImageNet дээрх linear probe нарийвчлалыг л харуулсан, учир нь өөр туршилтуудыг өөр суперкомпьютерийн байгууламж руу шилжихээс өмнө дуусгаж амжаагүй.
- E
Linear probe-д зориулж шинж гарган авахдаа бид тодорхой давхаргын post layernorm attention block оролтуудыг авч, дарааллын хэмжээсээр average pool хийдэг.
- F
Fine-tune хийхдээ бид post layernorm трансформерын гаралтыг авч, ангиллын толгойн оролт болгон дарааллын хэмжээсээр average pool хийдэг.
- G
Цэвэр хяналтгүй хэлбэрээр шинжүүд сурдаг үүсмэл загвар.
Эшлэлүүд
- 1
LeCun, Y. (2017). “Урьдчилан таамаглах сургалт(шинэ цонхонд нээгдэнэ).”
- 2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Танд хэрэгтэй бүхэн бол attention(шинэ цонхонд нээгдэнэ).” NeurIPS 2017-д.
- 3
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). “BERT: Хэл ойлголтод зориулсан гүн хоёр чиглэлт трансформеруудын урьдчилсан сургалт(шинэ цонхонд нээгдэнэ).” arXiv preprint.
- 4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Хэлний загварууд нь хяналтгүй олон даалгаварт суралцагчид юм(шинэ цонхонд нээгдэнэ).” Техникийн тайлан, OpenAI.
- 5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: BERT-ийн урьдчилсан сургалтын бат бөх оновчлолын арга(шинэ цонхонд нээгдэнэ).” arXiv preprint.
- 6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “Нэгдмэл текстээс текст рүү трансформероор дамжуулан дамжуулалтын сургалтын хязгаарыг судлах нь(шинэ цонхонд нээгдэнэ).” arXiv preprint.
- 7
Dai, A., Le, Q. V. (2015). “Хагас хяналттай дарааллын сургалт(шинэ цонхонд нээгдэнэ).” NeurIPS 2015-д.
- 8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “Гүн контекстжүүлсэн үгийн төлөөллүүд(шинэ цонхонд нээгдэнэ).” NAACL 2018-д.
- 9
Howard, J., Ruder, S. (2018). “Текст ангилалд зориулсан бүх нийтийн хэлний загварын fine-tuning(шинэ цонхонд нээгдэнэ).” ACL 2018-д.
- 10
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “Үүсгэх урьдчилсан сургалтаар хэлний ойлголтыг сайжруулах нь(шинэ цонхонд нээгдэнэ).” Техникийн тайлан, OpenAI.
- 11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). “Sparse attentive backtracking: Сануулгаар дамжих хугацааны кредит хуваарилалт(шинэ цонхонд нээгдэнэ).” NeurIPS 2018-д.
- 12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). “Харааны төлөөллийн contrastive сургалтын энгийн хүрээ(шинэ цонхонд нээгдэнэ).” arXiv preprint.
- 13
Bachman, P., Hjelm, R., & Buchwalter, W. (2019). “Хараанууд хоорондын харилцан мэдээллийг хамгийн их болгох замаар төлөөлөл сурах(шинэ цонхонд нээгдэнэ).” NeurIPS 2019-д.
- 14
Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): Ерөнхий харааны төлөөллийн сургалт(шинэ цонхонд нээгдэнэ).” arXiv preprint.
- 15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: Pipeline parallelism ашиглан аварга мэдрэлийн сүлжээнүүдийг үр ашигтай сургах нь(шинэ цонхонд нээгдэнэ).” NeurIPS 2019-д.
- 16
Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). “Ялгаварладаггүй өгөгдөл үү эсвэл сул загвар уу? Өгөгдөл ба загварын нягтралын харьцангуй ач холбогдлын тухай(шинэ цонхонд нээгдэнэ).” ICCV 2019-д.
- 17
Lasserre, J., Bishop, C., & Minka, T. P. (2006). “Үүсгэх ба ялгаварлах загваруудын зарчимт гибридууд(шинэ цонхонд нээгдэнэ).” CVPR 2006-д.
- 18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). “Яагаад хяналтгүй урьдчилсан сургалт гүний сургалтад тус болдог вэ?(шинэ цонхонд нээгдэнэ).” JMLR 2010-д.
- 19
Elman, J. (1990). “Цаг хугацаанд бүтэц олох нь(шинэ цонхонд нээгдэнэ).” Cognitive Science 1990-д.
- 20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Давтагддаг мэдрэлийн сүлжээнд суурилсан хэлний загвар(шинэ цонхонд нээгдэнэ).” In INTERSPEECH-2010.
- 21
Larochelle, H., Murray, I. (2011). “Мэдрэлийн autoregressive тархалтын үнэлэгч(шинэ цонхонд нээгдэнэ).” AISTATS 2011-д.
- 22
Graves, A. (2013). “Давтагддаг мэдрэлийн сүлжээгээр дараалал үүсгэх нь(шинэ цонхонд нээгдэнэ).” arXiv preprint.
- 23
Tian, Y., Krishnan, D., & Isola, P. (2019). “Contrastive multiview coding(шинэ цонхонд нээгдэнэ).” arXiv preprint.
- 24
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). “Хяналтгүй харааны төлөөллийн сургалтад зориулсан Momentum Contrast(шинэ цонхонд нээгдэнэ).” arXiv preprint.
- 25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Өгөгдөлд хэмнэлттэй дүрс танилт contrastive predictive coding-оор(шинэ цонхонд нээгдэнэ) .” arXiv preprint.
- 26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Пикселийн давтагддаг мэдрэлийн сүлжээнүүд(шинэ цонхонд нээгдэнэ).” arXiv preprint.
- 27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer(шинэ цонхонд нээгдэнэ).” ICML 2018-д.
- 28
Menick, J., Kalchbrenner, N. (2018). “Subscale Pixel Networks болон олон хэмжээст upscaling ашиглан өндөр үнэнч зураг үүсгэх нь(шинэ цонхонд нээгдэнэ).” arXiv preprint.
- 29
Mumford, D. (1992). “Неокортексын тооцооллын архитектурын тухай(шинэ цонхонд нээгдэнэ).” Biol. Cybern.-д.
- 30
Rao, R., Ballard, D. (1999). “Харааны кортекс дахь predictive coding: нэмэлт-классик receptive-field нөлөөллийн функциональ тайлбар(шинэ цонхонд нээгдэнэ).” Nature Neuroscience-д.
- 31
Smolensky, P. (1986). “Динамик систем дэх мэдээлэл боловсруулалт: harmony theory-ийн суурь(шинэ цонхонд нээгдэнэ).”
- 32
Hinton, G. (2002). “Contrastive Divergence-ийг багасгах замаар Products of Experts-ийг сургах нь(шинэ цонхонд нээгдэнэ).” MIT Press-д.
- 33
Hinton, G., Osindero, S., & Teh, Y. (2006). “Гүн belief net-д зориулсан хурдан сургалтын алгоритм(шинэ цонхонд нээгдэнэ).” Neural Computation-д.
- 34
Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). “Denoising autoencoder-оор бат бөх шинжүүдийг гарган авч, нэгтгэх нь(шинэ цонхонд нээгдэнэ).” ICML 2008-д.
- 35
Coates, A., Lee, H., & Ng, A. Y. (2011). “Хяналтгүй шинжийн сургалт дахь нэг давхаргат сүлжээнүүдийн шинжилгээ(шинэ цонхонд нээгдэнэ).” AISTATS 2011-д.
- 36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “Их хэмжээний хяналтгүй сургалтаар өндөр түвшний шинжүүд бүтээх нь(шинэ цонхонд нээгдэнэ).” ICML 2012-д.
- 37
Donahue, J., Simonyan, K. (2019). “Их хэмжээний adversarial representation learning(шинэ цонхонд нээгдэнэ).” NeurIPS 2019-д.
- 38
Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). “Гүн том энгийн мэдрэлийн сүлжээнүүд гар бичмэл цифр танилтад онцгой амжилт үзүүлдэг(шинэ цонхонд нээгдэнэ).” CoRR 2010-д.
- 39
Shaw, P., Uszkoreit, J., & Vaswani A. (2018). “Харьцангуй байрлалын төлөөлөлтэй self-attention(шинэ цонхонд нээгдэнэ).” NAACL 2018-д.
- 40
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “Sparse transformer-уудаар урт дараалал үүсгэх нь(шинэ цонхонд нээгдэнэ).” arXiv preprint.
- 41
Becker, S., Hinton, G. (1991). “Санамсаргүй цэгэн стереограмм дахь гадаргууг нээдэг өөрөө зохион байгуулагддаг мэдрэлийн сүлжээ(шинэ цонхонд нээгдэнэ).” In Nature.
- 42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). “Гарын үсгийн баталгаажуулалтад “siamese” time delay neural network ашиглах нь(шинэ цонхонд нээгдэнэ).” NeurIPS 1994-д.
- 43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). “Үг ба хэлцүүдийн тархмал төлөөлөл ба тэдгээрийн найруулгын шинж(шинэ цонхонд нээгдэнэ) .” NeurIPS 2013-д.
- 44
Oord, A., Li, Y., Vinyals, O. (2018). “Contrastive Predictive Coding-оор representation learning(шинэ цонхонд нээгдэнэ) .” arXiv preprint.
- 45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Харилцан мэдээллийн үнэлгээ ба хамгийн ихжүүлэлтээр гүн төлөөлөл сурах нь(шинэ цонхонд нээгдэнэ).” ICLR 2019-д.
- 46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). “Зөвхөн дараалалд суурилсан гүн төлөөллийн сургалтаар нэгдмэл рациональ уургийн инженерчлэл(шинэ цонхонд нээгдэнэ).” Nature Methods-д.
- 47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). “Хяналтгүй сургалтыг 250 сая уургийн дараалал хүртэл өргөжүүлэхэд биологийн бүтэц ба үйл ажиллагаа илэрч гарч ирдэг(шинэ цонхонд нээгдэнэ).” bioRxiv preprint.
- 48
Torralba, A., Fergus, R., Freeman, W. (2008). “80 сая жижиг зураг: параметргүй объект ба үзэгдэл танилтад зориулсан том өгөгдлийн цуглуулга(шинэ цонхонд нээгдэнэ).” IEEE transactions on pattern analysis and machine intelligence-д.
- 49
“8-Бит компьютерийн графикийн тоног төхөөрөмжийн жагсаалт(шинэ цонхонд нээгдэнэ).” Wikipedia, 2020 оны 5 сарын 8
- 50
Kornblith, S., Shlens, J., & Le, Q. V. (2019). “Илүү сайн ImageNet загварууд дамжуулалт дээр ч илүү сайн уу?(шинэ цонхонд нээгдэнэ).” CVPR 2019-д.
- 51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: Өгөгдлөөс augmentation strategy сурах нь(шинэ цонхонд нээгдэнэ).” CVPR 2019-д.
- 52
Tan, M., Le, Q. V. (2019). “EfficientNet: Convolutional neural network-ийн хэмжээг тэлэхийг дахин эргэцүүлэх нь(шинэ цонхонд нээгдэнэ).” ICML 2019-д.
- 53
Gidaris, S., Singh, P., & Komodakis, N. (2018). “Дүрсний эргэлтийг таамаглах замаар хяналтгүй төлөөлөл сурах нь(шинэ цонхонд нээгдэнэ).” ICLR 2018-д.
- 54
Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). “Гүн үүсмэл загваруудаар хагас хяналттай сургалт(шинэ цонхонд нээгдэнэ).” NeurIPS 2014-д.
- 55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “GAN-уудыг сургах сайжруулсан техникүүд(шинэ цонхонд нээгдэнэ).” NeurIPS 2016-д.
- 56
Tarvainen, A., Valpola, H. (2017). “Mean teacher-ууд илүү сайн үлгэр дуурайл болдог: жингийн дундажтай consistency target-ууд хагас хяналттай гүний сургалтын үр дүнг сайжруулдаг(шинэ цонхонд нээгдэнэ).” NeurIPS 2017-д.
- 57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: Хагас хяналттай сургалтын цогц арга(шинэ цонхонд нээгдэнэ).” NeurIPS 2019-д.
- 58
Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). “Consistency training-д зориулсан хяналтгүй өгөгдлийн нэмэгдүүлэлт(шинэ цонхонд нээгдэнэ).” arXiv preprint.
- 59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: consistency ба confidence-оор хагас хяналттай сургалтыг хялбарчлах нь(шинэ цонхонд нээгдэнэ).” arXiv preprint.
- 60
Sutton, R. (2019). “Гашуун сургамж(шинэ цонхонд нээгдэнэ).”
Зохиогчид
Талархал
Юуны өмнө, бид нийтлэлийн хамтран зохиогчид болох Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, David Luan нарт талархал илэрхийлье.
Энэ ажилд санал хүсэлт өгч, энэхүү хувилбарт хувь нэмэр оруулсан дараах хүмүүст баярлалаа: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le, Ashish Vaswani.
Редактор: Ashley Pilipiszyn
Дизайн: Justin Jay Wang
Нүүр зургийн бүтээл: Ben Barry


