2020 оны зургаадугаар сарын 17

Image GPT

Өгүүлэл унших Код үзэх ICML 2020 өгүүлэл (V1)

Illustration: Ben Barry

Ачаалж байна…

Хэл дээр сургагдсан том трансформер загвар уялдаатай текст үүсгэж чаддагтай адил, пикселийн дараалал дээр сургагдсан яг тэр загвар уялдаатай дүрсний нөхөлт⁠ болон жишээ⁠ үүсгэж чаддагийг бид тогтоосон. Жишээний чанар ба дүрс ангиллын нарийвчлалын хоорондын хамаарлыг тогтоосноор манай шилдэг үүсмэл загвар хяналтгүй орчинд шилдэг convolutional сүлжээнүүдтэй өрсөлдөхүйц шинжүүдийг мөн агуулж байгааг харуулж байна.

Танилцуулга

Хяналтгүй болон self-supervised сургалт¹ буюу хүний шошголсон өгөгдөлгүй суралцах нь машин сургалтын олон жилийн сорилт байсаар ирсэн. Сүүлийн үед энэ нь хэлний салбарт гайхалтай амжилт үзүүлж, BERT,³ GPT‑2,⁴ RoBERTa,⁵ T5,⁶ болон бусад хувилбарууд^{7, 8, 9, 10} зэрэг трансформер² загварууд хэлний өргөн хүрээний даалгаварт дээд түвшний гүйцэтгэл үзүүлсэн. Гэвч энэ өргөн ангиллын ижил загварууд дүрс ангилалд хүчтэй шинж гаргахад амжилттай байгаагүй.¹¹ Манай ажил энэ зөрүүг ойлгож, арилгахыг зорьж байна.

BERT, GPT‑2 зэрэг трансформер загварууд нь domain agnostic, өөрөөр хэлбэл ямар ч хэлбэрийн 1-D дараалалд шууд хэрэглэж болдог. Бид урт пикселийн дараалал болгон задласан зургууд дээр GPT‑2‑ыг сургахад, үүнийг iGPT гэж нэрлэдэг, загвар нь объектын харагдах байдал, ангилал зэрэг 2-D дүрсний шинж чанарыг ойлгож байгаа мэт харагддагийг олсон. Үүнийг хүний өгсөн шошгын чиглүүлэлтгүй байсан ч түүний үүсгэдэг уялдаатай дүрсний жишээнүүдийн олон янз хүрээ нотолж байна. Нэмэлт баталгаа болгон, загварын шинжүүд нь хэд хэдэн ангиллын өгөгдлийн цуглуулгад хамгийн сүүлийн үеийн гүйцэтгэлд хүрч, ImageNet дээр state-of-the-art-д ойр хяналтгүй нарийвчлал^A үзүүлдэг.

Үнэлгээ	Өгөгдлийн цуглуулга	Манай үр дүн	iGPT‑ээс бусад шилдэг үр дүн
Сурсан шинжүүд дээрх логистик регресс (linear probe)	CIFAR-10	96.3 iGPT‑L 32x32, 1536 шинжтэй	95.3 SimCLR¹²⁠, 8192 шинжтэй
	CIFAR-100	82.8 iGPT‑L 32x32, 1536 шинжтэй	80.2 SimCLR, 8192 шинжтэй
	STL-10	95.5 iGPT‑L 32x32, 1536 шинжтэй	94.2 AMDIM¹³⁠, 8192 шинжтэй
	ImageNet	72.0 iGPT‑XL^a⁠ 64x64, 15360 шинжтэй	76.5 SimCLR, 8192 шинжтэй
Бүрэн fine-tune	CIFAR-10	99.0 iGPT‑L 32x32, ImageNet дээр сургагдсан	99.0^b⁠ GPipe,¹⁴⁠ ImageNet дээр сургагдсан
	ImageNet 32x32	66.3 iGPT‑L 32x32	70.2 Isometric Nets¹⁵⁠

Бид ImageNet-ийн linear probe нарийвчлалыг зөвхөн iGPT‑XL‑д харуулсан, учир нь өөр туршилтуудыг өөр суперкомпьютерийн байгууламж руу шилжихээс өмнө дуусгаж амжаагүй.
JFT дээр (18K ангилалтай 300M зураг) сургагдсан Bit-L нь 99.3 гэсэн үр дүнд хүрсэн.

Үүсгэх^{17, 18} дарааллын загварчлалыг^{19, 20, 21, 22} ерөнхий зориулалтын хяналтгүй сургалтын алгоритм болох боломжийг онцлохын тулд бид хэл дээрх GPT‑2‑той ижил трансформер архитектурыг зориуд ашигласан. Үүний үр дагаварт бид шилдэг хяналтгүй convolutional сүлжээнүүдийн шинжүүдтэй өрсөлдөхүйц шинжүүд гаргахын тулд мэдэгдэхүйц их тооцоолол шаарддаг.^{13, 23, 24, 25, 12} Гэсэн ч зөв загварын priori нь тодорхойгүй шинэ домэйнтой тулгарахад том GPT‑2 нь домэйнд тусгай^{26, 27, 28} архитектурын шийдэлгүйгээр маш сайн шинжүүд сурч чадна гэдгийг бидний үр дүн харуулж байна.

Ачаалж байна...

Хэлний GPT-ээс дүрсний GPT рүү

Хэлний салбарт үгийн таамаглалд тулгуурладаг хяналтгүй сургалтын алгоритмууд (GPT‑2, BERT зэрэг) асар амжилттай байж, хэлний олон төрлийн даалгаварт дээд түвшний гүйцэтгэл үзүүлсэн. Энэ амжилтын нэг боломжит шалтгаан нь доош урсгалын хэлний даалгаврын жишээнүүд текст дотор байгалиараа оршдогт байж болно: асуултын араас ихэвчлэн хариулт (асуулт-хариултад тусалж болох), өгүүлбэрийн хэсгийн араас ихэвчлэн хураангуй (хураангуйлалтад тусалж болох) дагалддаг. Харин пикселийн дарааллууд нь өөрт нь хамаарах зургуудын шошгыг тодорхой агуулдаггүй.

Ийм ил тод хяналтгүй байсан ч зураг дээрх GPT‑2 ажиллаж болох нэг шалтгаан бий: дараагийн пиксел таамаглах дээр сургагдсан хангалттай том трансформер эцэстээ тод танигдах объектуудтай, олон янз^B жишээ үүсгэж сурах боломжтой. Үүнийг сурмагц “Analysis by Synthesis”^{29, 30, C} гэж нэрлэгддэг санаа нь загвар объектын ангиллын талаар мөн мэдэх болно гэж үздэг. Эртний олон үүсмэл загвар^{31, 32, 33, 34, 35, 36} энэ санаанаас сэдэлтэй байсан бөгөөд илүү сүүлд BigBiGAN³⁷ нь урам өгсөн жишээ болон шинжүүдийг гаргасан нэг жишээ болсон. Манай ажилд бид эхлээд илүү сайн үүсмэл загварууд илүү хүчтэй ангиллын гүйцэтгэлтэй болдгийг харуулсан. Дараа нь GPT‑2‑ыг үүсгэх чадварт зориулан оновчлох замаар бид олон нөхцөлд дээд түвшний ангиллын гүйцэтгэлд хүрч, analysis by synthesis-ийн нэмэлт нотолгоог гаргасан.

Ерөнхий хяналтгүй сургалт руу

Үүсгэх дарааллын загварчлал нь бүх нийтийн хяналтгүй сургалтын алгоритм юм: бүх төрлийн өгөгдлийг байтын дараалал хэлбэрээр илэрхийлж болдог тул трансформерыг нэмэлт инженерчлэлгүйгээр ямар ч төрлийн өгөгдөлд шууд хэрэглэж болно. Манай ажил энэ ерөнхий чанарын хүчийг шалгахын тулд GPT‑2‑ыг байгалийн хэл дээр сургахад ашигласан архитектурыг зураг үүсгэхэд шууд хэрэглэсэн. Бид convolution³⁸ эсвэл relative attention,³⁹ sparse attention,⁴⁰ 2-D position embedding²⁷ зэрэг арга хэлбэрээр дүрсэнд тусгай мэдлэгийг гараар кодлохоос зориуд татгалзсан.

Ерөнхий чанарынхаа үр дагаварт манай арга хяналтгүй нөхцөлд өрсөлдөхүйц гүйцэтгэлд хүрэхийн тулд мэдэгдэхүйц их тооцоолол шаарддаг. Үнэхээр ч contrastive аргууд^{41, 42, 43, 44, 45, 13, 23, 24, 25, 12} нь зургаас өндөр чанартай шинж гарган авах хамгийн тооцооллын хувьд үр ашигтай аргууд хэвээр байна. Гэсэн ч хяналтгүй трансформер загвар нь хамгийн сайн хяналтгүй convolutional сүлжээнүүдтэй өрсөлдөж чаддагийг^{24, 25, 12} харуулснаар бид гараар кодлосон домэйны мэдлэгийг тооцооллоор орлуулж болдгийн нотолгоо өгч байна. Гараар кодлох мэдлэг бага байдаг шинэ домэйнуудад^{46, 47} тооцооллыг өсгөх нь туршиж үзэх тохиромжтой арга мэт санагдаж байна.

Аргачлал

Бид 76M, 455M, 1.4B параметртэй трансформерууд болох iGPT‑S, iGPT‑M, iGPT‑L‑ийг тус тус ImageNet дээр сургадаг. Мөн 6.8 тэрбум параметртэй трансформер болох iGPT‑XL^D-ийг ImageNet болон вэбээс авсан зургуудын холимог дээр сургадаг. Нягт attention-тай урт дарааллыг загварчлах тооцооллын өртөг өндөр тул бид 32x32, 48x48, 64x64 гэсэн бага нягтрал дээр сургадаг.

Тооцооллын зардлыг цааш бууруулахын тулд бүр ч бага нягтралтай ажиллах нь сэтгэл татам боловч өмнөх ажлууд эдгээр хэмжээнээс доош хүний дүрс ангиллын гүйцэтгэл огцом буурдгийг харуулсан.⁴⁸ Харин үүний оронд эртний өнгөт дэлгэцийн палитраас⁴⁹ сэдэл авч, пикселийг илэрхийлэх өөрсдийн 9-бит өнгийн палитрыг бид бүтээсэн. Энэ палитрыг ашиглахад стандарт (R, G, B) палитртай харьцуулахад оролтын дарааллын урт 3 дахин богино болдог ч өнгийг үнэнчээр кодолсон хэвээр байдаг.

Туршилтын үр дүн

Загварын гүйцэтгэлийг үнэлэхдээ бид доош урсгалын ангиллын даалгавар оролцуулдаг хоёр аргыг ашигладаг. Эхнийхийг нь бид linear probe гэж нэрлэдэг бөгөөд сургагдсан загварыг ашиглан доош урсгалын өгөгдлийн цуглуулга дахь зургуудаас шинжүүдийг^E гаргаж аваад, дараа нь шошгон дээр логистик регресс тааруулдаг. Хоёр дахь арга нь бүхэл загварыг доош урсгалын өгөгдлийн цуглуулга дээр fine-tune^F хийдэг.

Дараагийн пикселийг таамаглах нь дүрс ангилалтай илт хамааралтай биш тул төгсгөлийн давхаргын шинжүүд нь объектын ангиллыг таамаглахад хамгийн сайн байх албагүй. Бидний эхний үр дүн шинжийн чанар нь гүний дагуу эхлээд огцом өсөөд, дараа нь бага зэрэг буурдаг функц болохыг харуулж байна. Энэ зан төлөв нь трансформер үүсмэл загвар хоёр үе шаттай ажилладагийг санал болгодог: эхний үед байрлал бүр хүрээлэх контекстоосоо мэдээлэл цуглуулж, контекстжүүлсэн дүрсний шинжийг бүтээдэг. Хоёр дахь үед энэ контекстжүүлсэн шинжийг нөхцөлт дараагийн пиксел таамаглах даалгаврыг шийдэхэд ашигладаг. Манай linear probe-уудын ажиглагдсан хоёр үе шаттай гүйцэтгэл нь дунд хэсгийн шинжүүдийг ашиглахаар гараар зохиосон bottleneck autoencoder гэх өөр нэг хяналтгүй мэдрэлийн сүлжээг санагдуулж байна.

Ачаалж байна...

Бидний дараагийн үр дүн үүсгэх гүйцэтгэл ба шинжийн чанарын хоорондын холбоог тогтоож байна. Бид загварынхаа хэмжээг өсгөх болон илүү олон итерациар сургах нь хоёулаа илүү сайн үүсгэх гүйцэтгэлд хүргэж, энэ нь шууд илүү сайн шинжийн чанарт шилждэгийг олсон.

Ачаалж байна...

Бид CIFAR-10, CIFAR-100, STL-10 дээрх шинжүүдээ linear probe ашиглан үнэлэхэд supervised болон unsupervised дамжуулалтын бүх алгоритмын шинжүүдийг давдаг. Бүрэн fine-tuning орчинд ч бидний үр дүн хүчтэй байна.

			ImageNet дээр урьдчилан сургагдсан
Үнэлгээ	Загвар	Нарийвчлал	шошгогүй	шошготой
CIFAR-10 Linear Probe	ResNet-152⁵⁰	94.0		✔
	SimCLR¹²	95.3	✔
	iGPT‑L 32x32	96.3	✔	✔
CIFAR-100 Linear Probe	ResNet-152	78.0		✔
	SimCLR	80.2	✔
	iGPT‑L 32x32	82.8	✔
STL-10 Linear Probe	AMDIM-L	94.2	✔
	iGPT‑L 32x32	95.5	✔
CIFAR-10 Fine-tune	AutoAugment	98.5
	SimCLR	98.6	✔
	GPipe	99.0		✔
	iGPT‑L	99.0	✔
CIFAR-100 Fine-tune	iGPT‑L	88.5	✔
	SimCLR	89.0	✔
	AutoAugment	89.3
	EfficientNet⁵²	91.7		✔

Манай загварууд болон хяналтгүй эсвэл хяналттай ImageNet дамжуулалт ашигладаг шилдэг загваруудын linear probe ба fine-tune нарийвчлалын харьцуулалт. Мөн бид CIFAR дээр төгсгөлөөс төгсгөлд сургагдсан хамгийн өндөр үзүүлэлттэй загвар болох AutoAugment-ийг оруулсан.

ImageNet дээрх хяналтгүй болон self-supervised сургалтад сонирхол дахин сэргэснийг харгалзан, бид загваруудынхаа гүйцэтгэлийг ImageNet дээр linear probe ашиглан мөн үнэлсэн. Энэ нь ялангуяа хэцүү нөхцөл, учир нь бид стандарт ImageNet оролтын нягтрал дээр сургадаггүй. Гэсэн хэдий ч 48x48 зургууд дээр сургагдсан iGPT‑L‑ийн хамгийн сайн давхаргын 1536 шинж дээрх linear probe нь 65.2% top-1 нарийвчлал өгч, AlexNet-ийг давсан.

Contrastive аргууд ихэвчлэн 8192 шинж дээрх хамгийн сайн үр дүнгээ тайлагнадаг тул харьцуулахын тулд embedding хэмжээ 8192 бүхий iGPT‑ийг үнэлэх нь зүйтэй байх байв. Гэвч ийм загварыг сургах нь хэт өндөр өртөгтэй тул бид оронд нь хэд хэдэн давхаргын шинжүүдийг ойролцоолол болгон залгасан. Харамсалтай нь манай шинжүүд давхаргуудын хооронд хоорондоо уялдаатай байх хандлагатай тул өрсөлдөх чадвартай байхын тулд илүү олныг хэрэгтэй болдог. iGPT‑XL‑ийн 5 давхаргаас 15360 шинж авахад 72.0% top-1 нарийвчлал гарч, AMDIM, MoCo, CPC v2-ыг давсан ч SimCLR-ээс мэдэгдэхүйц зөрүүтэй доогуур хэвээр байна.

Арга	Оролтын нягтрал	Шинжүүд	Параметрүүд	Нарийвчлал
Rotation⁵³	original	8192	86M	55.4
iGPT‑L	32x32	1536	1362M	60.3
BigBiGAN³⁷	original	16384	86M	61.3
iGPT‑L	48x48	1536	1362M	65.2
AMDIM¹³	original	8192	626M	68.1
MoCo²⁴	original	8192	375M	68.6
iGPT‑XL	64x64	3072	6801M	68.7
SimCLR¹²	original	2048	24M	69.3
CPC v2²⁵	original	4096	303M	71.5
iGPT‑XL	64x64	3072 x 5	6801M	72.0
SimCLR	original	8192	375M	76.5

Манай загварууд болон хамгийн сүүлийн үеийн self-supervised загваруудын linear probe нарийвчлалын харьцуулалт. Бид маш бага оролтын нягтрал дээр сургаж байгаа ч өрсөлдөхүйц гүйцэтгэл үзүүлж байгаа боловч манай арга илүү олон параметр, илүү их тооцоолол шаарддаг.

BERT зэрэг masked language model-ууд хэлний ихэнх даалгаварт үүсмэл загваруудаас илүү гарсан тул бид BERT-ийг дүрсний загварууд дээрээ мөн үнэлсэн. Бид загвараа өмнөх бүх пикселийг өгөөд дараагийн пикселийг таамаглуулахын оронд пикселүүдийн 15%-ийг халхалж, халхлагдаагүй пикселүүдээс тэдгээрийг таамаглуулахаар сургадаг. Бид BERT загваруудын linear probe гүйцэтгэл мэдэгдэхүйц муу ч fine-tuning үед онцгой сайн байгааг олсон:

Ачаалж байна...

Хяналтгүй сургалт нь хүний шошголсон өгөгдөл шаардалгүйгээр маш сайн шинжүүдийг амладаг ч хүний шошголсон өгөгдлийн хязгаарлагдмал хэмжээг зөвшөөрдөг, илүү уян хүрээ болох хагас хяналттай сургалтын дор сүүлийн үед мэдэгдэхүйц ахиц гарсан. Амжилттай хагас хяналттай аргууд ихэвчлэн consistency regularization, өгөгдлийн нэмэгдүүлэлт, эсвэл pseudo-labeling зэрэг ухаалаг техникүүдэд тулгуурладаг бөгөөд цэвэр үүсгэхэд суурилсан аргууд^{54, 55} олон жил өрсөлдөх чадваргүй байсан. Бид iGPT‑L^G-ийг энэ дэд салбарын өрсөлдөөнтэй жишиг дээр үнэлэхэд, өгөгдөл нэмэгдүүлээгүй зургуудын шинжүүд дээрх энгийн linear probe нь Mean Teacher⁵⁶ болон MixMatch-ийг давсан ч FixMatch-ээс⁵⁹ доогуур байгааг олсон.

Загвар	40 шошго	250 шошго	4000 шошго
Improved GAN⁵⁵	—	—	81.4 ± 2.3
Mean Teacher⁵⁶	—	67.7 ± 2.3	90.8 ± 0.2
MixMatch⁵⁷	52.5 ± 11.5	89.0 ± 0.9	93.6 ± 0.1
iGPT‑L	73.2 ± 01.5	87.6 ± 0.6	94.3 ± 0.1
UDA⁵⁸	71.0 ± 05.9	91.2 ± 1.1	95.1 ± 0.2
FixMatch⁵⁹ RA	86.2 ± 03.4	94.9 ± 0.7	95.7 ± 0.1
FixMatch CTA	88.6 ± 03.4	94.9 ± 0.3	95.7 ± 0.2

Бага өгөгдөлтэй CIFAR-10 дээрх гүйцэтгэлийн харьцуулалт. Олон шошгогүй ImageNet зургуудыг ашигласнаар iGPT‑L нь Mean Teacher, MixMatch зэрэг аргуудыг давж чаддаг ч хамгийн сүүлийн үеийн аргуудаас доогуур хэвээр байна. Манай хагас хяналттай сургалтын арга маш энгийн: бид ямар нэг өгөгдөл нэмэгдүүлэлт эсвэл fine-tuning хийхгүйгээр зөвхөн iGPT‑L‑ийн шинжүүд дээр логистик регрессийн ангилагч тааруулдаг—энэ нь тусгайлан зохиосон хагас хяналттай аргуудаас мэдэгдэхүйц ялгаатай.

Хязгаарлалтууд

Бид iGPT нь хүчирхэг дүрсний шинжүүд сурч чаддагийг харуулсан ч манай аргад мэдэгдэхүйц хязгаарлалтууд байсаар байна. Хэл дээрх GPT‑2‑д ашигладаг ерөнхий дарааллын трансформерыг хэрэглэдэг учраас манай арга их хэмжээний тооцоолол шаарддаг: iGPT‑L‑ийг ойролцоогоор 2500 V100-өдөр сургаж байхад ижил төстэй гүйцэтгэлтэй MoCo24⁠ загварыг ойролцоогоор 70 V100-өдөрт сургаж болно.

Үүнтэй холбоотойгоор бид бага нягтралтай оролтыг трансформероор загварчилдаг бол ихэнх self-supervised үр дүн өндөр нягтралтай оролтыг амархан боловсруулж чаддаг convolution-д суурилсан encoder-уудыг ашигладаг. Цааш өргөжүүлэхийн тулд domain-agnostic multiscale transformer зэрэг шинэ архитектур хэрэгтэй байж магадгүй. Эдгээр хязгаарлалтыг харгалзан үзвэл манай ажил нь том трансформер дээр суурилсан хэлний загварууд хатуу кодлосон домэйн мэдлэггүйгээр шинэ домэйнуудад маш сайн хяналтгүй төлөөлөл сурч чаддагийг харуулсан proof-of-concept үзүүлэн болж байна. Гэвч эдгээр загварыг сургахад гарах их нөөцийн өртөг болон convolutional neural network-д суурилсан аргуудын илүү өндөр нарийвчлал нь эдгээр төлөөллийг харааны домэйны бодит хэрэглээнд ашиглах боломжийг хязгаарлаж байна.

Эцэст нь, үүсмэл загварууд сурсан өгөгдлөөсөө үүдэлтэй гажуудлуудыг илэрхийлж болно. Эдгээрийн олон нь ашиг тустай байдаг, жишээ нь бор ба ногоон пикселийн хослолыг навчаар бүрхэгдсэн мөчир гэж үзээд энэ гажуудлыг ашиглан зургийг үргэлжлүүлэх гэх мэт. Гэвч шударга байдал, төлөөллийн өнцгөөс харахад эдгээр гажуудлын зарим нь хор хөнөөлтэй байна. Тухайлбал, хэрэв загвар эрдэмтнийг эрэгтэй тал руу хазайсан дүрслэлээр ойлгодог бол эрдэмтдийн зургийг нөхөхдөө янз бүрийн хүйсийн холимог биш, тогтмол эрэгтэй төрхтэй хүмүүсээр нөхөж магадгүй. Хөгжүүлэгчид системдээ оруулж буй өгөгдөлдөө улам их анхаарч, энэ нь сургагдсан загвар дахь гажуудалтай хэрхэн холбоотойг илүү сайн ойлгох шаардлагатай болно гэж бид үзэж байна.

Дүгнэлт

2-D мэдлэгийг хэмжээтэй⁶⁰ сольж, сүлжээний дундаас таамаглах шинжүүдийг сонгосноор дарааллын трансформер нь хяналтгүй дүрс ангилалд шилдэг convolutional сүлжээнүүдтэй өрсөлдөж чаддгийг бид харууллаа. Онцлоход, бид GPT‑2 хэлний загварыг шууд зураг үүсгэхэд хэрэглэснээр эдгээр үр дүнд хүрсэн. Бидний үр дүн энгийн бөгөөд ерөнхий шинж чанараас нь шалтгаалан хангалттай тооцоолол өгвөл дарааллын трансформер нь олон домэйнд маш сайн шинжүүд сурах үр дүнтэй арга болж чадна гэдгийг санал болгож байна.

Хэрэв та энэ судалгааны чиглэл дээр бидэнтэй хамтран ажиллах сонирхолтой бол, бид ажилд авч байна⁠!

Тэмдэглэлүүд

A
Сурсан шинжүүд дээрх логистик регрессээр хэмжсэн (linear probe).
B
Трансформер нь магадлалыг хамгийн их болгохоор сурдаг бөгөөд тиймээс mode covering шинжтэй тул жишээнүүдийн олон янз байдлыг автоматаар хангадаг.
C
Analysis by synthesis-ийн анхны санаа нь нууц хувьсагчтай үүсмэл загваруудын тухай илүү их маргаан байсан боловч нууц хувьсагчгүй үүсмэл загварууд өгөгдлийн тархцыг загварчлахдаа хамаагүй илүү сайн байсан учраас analysis-by-synthesis таамаглал тэдэнд ч мөн үйлчлэх ёстой гэж бид үзсэн.
D
Бид iGPT-XL-ийн ImageNet дээрх linear probe нарийвчлалыг л харуулсан, учир нь өөр туршилтуудыг өөр суперкомпьютерийн байгууламж руу шилжихээс өмнө дуусгаж амжаагүй.
E
Linear probe-д зориулж шинж гарган авахдаа бид тодорхой давхаргын post layernorm attention block оролтуудыг авч, дарааллын хэмжээсээр average pool хийдэг.
F
Fine-tune хийхдээ бид post layernorm трансформерын гаралтыг авч, ангиллын толгойн оролт болгон дарааллын хэмжээсээр average pool хийдэг.
G
Цэвэр хяналтгүй хэлбэрээр шинжүүд сурдаг үүсмэл загвар.

Эшлэлүүд

1
LeCun, Y. (2017). “Урьдчилан таамаглах сургалт⁠(шинэ цонхонд нээгдэнэ).”
2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Танд хэрэгтэй бүхэн бол attention⁠(шинэ цонхонд нээгдэнэ).” NeurIPS 2017-д.
3
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). “BERT: Хэл ойлголтод зориулсан гүн хоёр чиглэлт трансформеруудын урьдчилсан сургалт⁠(шинэ цонхонд нээгдэнэ).” arXiv preprint.
4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Хэлний загварууд нь хяналтгүй олон даалгаварт суралцагчид юм⁠(шинэ цонхонд нээгдэнэ).” Техникийн тайлан, OpenAI.
5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: BERT-ийн урьдчилсан сургалтын бат бөх оновчлолын арга⁠(шинэ цонхонд нээгдэнэ).” arXiv preprint.
6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “Нэгдмэл текстээс текст рүү трансформероор дамжуулан дамжуулалтын сургалтын хязгаарыг судлах нь⁠(шинэ цонхонд нээгдэнэ).” arXiv preprint.
7
Dai, A., Le, Q. V. (2015). “Хагас хяналттай дарааллын сургалт⁠(шинэ цонхонд нээгдэнэ).” NeurIPS 2015-д.
8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “Гүн контекстжүүлсэн үгийн төлөөллүүд⁠(шинэ цонхонд нээгдэнэ).” NAACL 2018-д.
9
Howard, J., Ruder, S. (2018). “Текст ангилалд зориулсан бүх нийтийн хэлний загварын fine-tuning⁠(шинэ цонхонд нээгдэнэ).” ACL 2018-д.
10
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “Үүсгэх урьдчилсан сургалтаар хэлний ойлголтыг сайжруулах нь⁠(шинэ цонхонд нээгдэнэ).” Техникийн тайлан, OpenAI.
11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). “Sparse attentive backtracking: Сануулгаар дамжих хугацааны кредит хуваарилалт⁠(шинэ цонхонд нээгдэнэ).” NeurIPS 2018-д.
12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). “Харааны төлөөллийн contrastive сургалтын энгийн хүрээ⁠(шинэ цонхонд нээгдэнэ).” arXiv preprint.
13
Bachman, P., Hjelm, R., & Buchwalter, W. (2019). “Хараанууд хоорондын харилцан мэдээллийг хамгийн их болгох замаар төлөөлөл сурах⁠(шинэ цонхонд нээгдэнэ).” NeurIPS 2019-д.
14
Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): Ерөнхий харааны төлөөллийн сургалт⁠(шинэ цонхонд нээгдэнэ).” arXiv preprint.
15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: Pipeline parallelism ашиглан аварга мэдрэлийн сүлжээнүүдийг үр ашигтай сургах нь⁠(шинэ цонхонд нээгдэнэ).” NeurIPS 2019-д.
16
Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). “Ялгаварладаггүй өгөгдөл үү эсвэл сул загвар уу? Өгөгдөл ба загварын нягтралын харьцангуй ач холбогдлын тухай⁠(шинэ цонхонд нээгдэнэ).” ICCV 2019-д.
17
Lasserre, J., Bishop, C., & Minka, T. P. (2006). “Үүсгэх ба ялгаварлах загваруудын зарчимт гибридууд⁠(шинэ цонхонд нээгдэнэ).” CVPR 2006-д.
18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). “Яагаад хяналтгүй урьдчилсан сургалт гүний сургалтад тус болдог вэ?⁠(шинэ цонхонд нээгдэнэ).” JMLR 2010-д.
19
Elman, J. (1990). “Цаг хугацаанд бүтэц олох нь⁠(шинэ цонхонд нээгдэнэ).” Cognitive Science 1990-д.
20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Давтагддаг мэдрэлийн сүлжээнд суурилсан хэлний загвар⁠(шинэ цонхонд нээгдэнэ).” In INTERSPEECH-2010.
21
Larochelle, H., Murray, I. (2011). “Мэдрэлийн autoregressive тархалтын үнэлэгч⁠(шинэ цонхонд нээгдэнэ).” AISTATS 2011-д.
22
Graves, A. (2013). “Давтагддаг мэдрэлийн сүлжээгээр дараалал үүсгэх нь⁠(шинэ цонхонд нээгдэнэ).” arXiv preprint.
23
Tian, Y., Krishnan, D., & Isola, P. (2019). “Contrastive multiview coding⁠(шинэ цонхонд нээгдэнэ).” arXiv preprint.
24
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). “Хяналтгүй харааны төлөөллийн сургалтад зориулсан Momentum Contrast⁠(шинэ цонхонд нээгдэнэ).” arXiv preprint.
25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Өгөгдөлд хэмнэлттэй дүрс танилт contrastive predictive coding-оор⁠(шинэ цонхонд нээгдэнэ) .” arXiv preprint.
26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Пикселийн давтагддаг мэдрэлийн сүлжээнүүд⁠(шинэ цонхонд нээгдэнэ).” arXiv preprint.
27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer⁠(шинэ цонхонд нээгдэнэ).” ICML 2018-д.
28
Menick, J., Kalchbrenner, N. (2018). “Subscale Pixel Networks болон олон хэмжээст upscaling ашиглан өндөр үнэнч зураг үүсгэх нь⁠(шинэ цонхонд нээгдэнэ).” arXiv preprint.
29
Mumford, D. (1992). “Неокортексын тооцооллын архитектурын тухай⁠(шинэ цонхонд нээгдэнэ).” Biol. Cybern.-д.
30
Rao, R., Ballard, D. (1999). “Харааны кортекс дахь predictive coding: нэмэлт-классик receptive-field нөлөөллийн функциональ тайлбар⁠(шинэ цонхонд нээгдэнэ).” Nature Neuroscience-д.
31
Smolensky, P. (1986). “Динамик систем дэх мэдээлэл боловсруулалт: harmony theory-ийн суурь⁠(шинэ цонхонд нээгдэнэ).”
32
Hinton, G. (2002). “Contrastive Divergence-ийг багасгах замаар Products of Experts-ийг сургах нь⁠(шинэ цонхонд нээгдэнэ).” MIT Press-д.
33
Hinton, G., Osindero, S., & Teh, Y. (2006). “Гүн belief net-д зориулсан хурдан сургалтын алгоритм⁠(шинэ цонхонд нээгдэнэ).” Neural Computation-д.
34
Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). “Denoising autoencoder-оор бат бөх шинжүүдийг гарган авч, нэгтгэх нь⁠(шинэ цонхонд нээгдэнэ).” ICML 2008-д.
35
Coates, A., Lee, H., & Ng, A. Y. (2011). “Хяналтгүй шинжийн сургалт дахь нэг давхаргат сүлжээнүүдийн шинжилгээ⁠(шинэ цонхонд нээгдэнэ).” AISTATS 2011-д.
36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “Их хэмжээний хяналтгүй сургалтаар өндөр түвшний шинжүүд бүтээх нь⁠(шинэ цонхонд нээгдэнэ).” ICML 2012-д.
37
Donahue, J., Simonyan, K. (2019). “Их хэмжээний adversarial representation learning⁠(шинэ цонхонд нээгдэнэ).” NeurIPS 2019-д.
38
Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). “Гүн том энгийн мэдрэлийн сүлжээнүүд гар бичмэл цифр танилтад онцгой амжилт үзүүлдэг⁠(шинэ цонхонд нээгдэнэ).” CoRR 2010-д.
39
Shaw, P., Uszkoreit, J., & Vaswani A. (2018). “Харьцангуй байрлалын төлөөлөлтэй self-attention⁠(шинэ цонхонд нээгдэнэ).” NAACL 2018-д.
40
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “Sparse transformer-уудаар урт дараалал үүсгэх нь⁠(шинэ цонхонд нээгдэнэ).” arXiv preprint.
41
Becker, S., Hinton, G. (1991). “Санамсаргүй цэгэн стереограмм дахь гадаргууг нээдэг өөрөө зохион байгуулагддаг мэдрэлийн сүлжээ⁠(шинэ цонхонд нээгдэнэ).” In Nature.
42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). “Гарын үсгийн баталгаажуулалтад “siamese” time delay neural network ашиглах нь⁠(шинэ цонхонд нээгдэнэ).” NeurIPS 1994-д.
43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). “Үг ба хэлцүүдийн тархмал төлөөлөл ба тэдгээрийн найруулгын шинж⁠(шинэ цонхонд нээгдэнэ) .” NeurIPS 2013-д.
44
Oord, A., Li, Y., Vinyals, O. (2018). “Contrastive Predictive Coding-оор representation learning⁠(шинэ цонхонд нээгдэнэ) .” arXiv preprint.
45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Харилцан мэдээллийн үнэлгээ ба хамгийн ихжүүлэлтээр гүн төлөөлөл сурах нь⁠(шинэ цонхонд нээгдэнэ).” ICLR 2019-д.
46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). “Зөвхөн дараалалд суурилсан гүн төлөөллийн сургалтаар нэгдмэл рациональ уургийн инженерчлэл⁠(шинэ цонхонд нээгдэнэ).” Nature Methods-д.
47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). “Хяналтгүй сургалтыг 250 сая уургийн дараалал хүртэл өргөжүүлэхэд биологийн бүтэц ба үйл ажиллагаа илэрч гарч ирдэг⁠(шинэ цонхонд нээгдэнэ).” bioRxiv preprint.
48
Torralba, A., Fergus, R., Freeman, W. (2008). “80 сая жижиг зураг: параметргүй объект ба үзэгдэл танилтад зориулсан том өгөгдлийн цуглуулга⁠(шинэ цонхонд нээгдэнэ).” IEEE transactions on pattern analysis and machine intelligence-д.
49
“8-Бит компьютерийн графикийн тоног төхөөрөмжийн жагсаалт⁠(шинэ цонхонд нээгдэнэ).” Wikipedia, 2020 оны 5 сарын 8
50
Kornblith, S., Shlens, J., & Le, Q. V. (2019). “Илүү сайн ImageNet загварууд дамжуулалт дээр ч илүү сайн уу?⁠(шинэ цонхонд нээгдэнэ).” CVPR 2019-д.
51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: Өгөгдлөөс augmentation strategy сурах нь⁠(шинэ цонхонд нээгдэнэ).” CVPR 2019-д.
52
Tan, M., Le, Q. V. (2019). “EfficientNet: Convolutional neural network-ийн хэмжээг тэлэхийг дахин эргэцүүлэх нь⁠(шинэ цонхонд нээгдэнэ).” ICML 2019-д.
53
Gidaris, S., Singh, P., & Komodakis, N. (2018). “Дүрсний эргэлтийг таамаглах замаар хяналтгүй төлөөлөл сурах нь⁠(шинэ цонхонд нээгдэнэ).” ICLR 2018-д.
54
Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). “Гүн үүсмэл загваруудаар хагас хяналттай сургалт⁠(шинэ цонхонд нээгдэнэ).” NeurIPS 2014-д.
55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “GAN-уудыг сургах сайжруулсан техникүүд⁠(шинэ цонхонд нээгдэнэ).” NeurIPS 2016-д.
56
Tarvainen, A., Valpola, H. (2017). “Mean teacher-ууд илүү сайн үлгэр дуурайл болдог: жингийн дундажтай consistency target-ууд хагас хяналттай гүний сургалтын үр дүнг сайжруулдаг⁠(шинэ цонхонд нээгдэнэ).” NeurIPS 2017-д.
57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: Хагас хяналттай сургалтын цогц арга⁠(шинэ цонхонд нээгдэнэ).” NeurIPS 2019-д.
58
Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). “Consistency training-д зориулсан хяналтгүй өгөгдлийн нэмэгдүүлэлт⁠(шинэ цонхонд нээгдэнэ).” arXiv preprint.
59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: consistency ба confidence-оор хагас хяналттай сургалтыг хялбарчлах нь⁠(шинэ цонхонд нээгдэнэ).” arXiv preprint.
60
Sutton, R. (2019). “Гашуун сургамж⁠(шинэ цонхонд нээгдэнэ).”

Зохиогчид

Mark Chen, Alec Radford, Ilya Sutskever

Талархал

Юуны өмнө, бид нийтлэлийн хамтран зохиогчид болох Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, David Luan нарт талархал илэрхийлье.

Энэ ажилд санал хүсэлт өгч, энэхүү хувилбарт хувь нэмэр оруулсан дараах хүмүүст баярлалаа: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le, Ashish Vaswani.

Редактор: Ashley Pilipiszyn

Дизайн: Justin Jay Wang

Нүүр зургийн бүтээл: Ben Barry