Үндсэн агуулга руу алгасах
OpenAI

Хэл дээр сургагдсан том трансформер загвар уялдаатай текст үүсгэж чаддагтай адил, пикселийн дараалал дээр сургагдсан яг тэр загвар уялдаатай дүрсний нөхөлт болон жишээ үүсгэж чаддагийг бид тогтоосон. Жишээний чанар ба дүрс ангиллын нарийвчлалын хоорондын хамаарлыг тогтоосноор манай шилдэг үүсмэл загвар хяналтгүй орчинд шилдэг convolutional сүлжээнүүдтэй өрсөлдөхүйц шинжүүдийг мөн агуулж байгааг харуулж байна.

Танилцуулга

Хяналтгүй болон self-supervised сургалт1 буюу хүний шошголсон өгөгдөлгүй суралцах нь машин сургалтын олон жилийн сорилт байсаар ирсэн. Сүүлийн үед энэ нь хэлний салбарт гайхалтай амжилт үзүүлж, BERT,3 GPT‑2,4 RoBERTa,5 T5,6 болон бусад хувилбарууд7, 8, 9, 10 зэрэг трансформер2 загварууд хэлний өргөн хүрээний даалгаварт дээд түвшний гүйцэтгэл үзүүлсэн. Гэвч энэ өргөн ангиллын ижил загварууд дүрс ангилалд хүчтэй шинж гаргахад амжилттай байгаагүй.11 Манай ажил энэ зөрүүг ойлгож, арилгахыг зорьж байна.

BERT, GPT‑2 зэрэг трансформер загварууд нь domain agnostic, өөрөөр хэлбэл ямар ч хэлбэрийн 1-D дараалалд шууд хэрэглэж болдог. Бид урт пикселийн дараалал болгон задласан зургууд дээр GPT‑2‑ыг сургахад, үүнийг iGPT гэж нэрлэдэг, загвар нь объектын харагдах байдал, ангилал зэрэг 2-D дүрсний шинж чанарыг ойлгож байгаа мэт харагддагийг олсон. Үүнийг хүний өгсөн шошгын чиглүүлэлтгүй байсан ч түүний үүсгэдэг уялдаатай дүрсний жишээнүүдийн олон янз хүрээ нотолж байна. Нэмэлт баталгаа болгон, загварын шинжүүд нь хэд хэдэн ангиллын өгөгдлийн цуглуулгад хамгийн сүүлийн үеийн гүйцэтгэлд хүрч, ImageNet дээр state-of-the-art-д ойр хяналтгүй нарийвчлалA үзүүлдэг.

Үнэлгээ

Өгөгдлийн цуглуулга

Манай үр дүн

iGPT‑ээс бусад шилдэг үр дүн

Сурсан шинжүүд дээрх логистик регресс (linear probe)

CIFAR-10

96.3 iGPT‑L 32x32, 1536 шинжтэй

95.3 SimCLR12, 8192 шинжтэй

CIFAR-100

82.8 iGPT‑L 32x32, 1536 шинжтэй

80.2 SimCLR, 8192 шинжтэй

STL-10

95.5 iGPT‑L 32x32, 1536 шинжтэй

94.2 AMDIM13, 8192 шинжтэй

ImageNet

72.0 iGPT‑XLa 64x64, 15360 шинжтэй

76.5 SimCLR, 8192 шинжтэй

Бүрэн fine-tune

CIFAR-10

99.0 iGPT‑L 32x32, ImageNet дээр сургагдсан

99.0b GPipe,14 ImageNet дээр сургагдсан

ImageNet 32x32

66.3 iGPT‑L 32x32

70.2 Isometric Nets15

  1. Бид ImageNet-ийн linear probe нарийвчлалыг зөвхөн iGPT‑XL‑д харуулсан, учир нь өөр туршилтуудыг өөр суперкомпьютерийн байгууламж руу шилжихээс өмнө дуусгаж амжаагүй.
  2. JFT дээр (18K ангилалтай 300M зураг) сургагдсан Bit-L нь 99.3 гэсэн үр дүнд хүрсэн.

Үүсгэх17, 18 дарааллын загварчлалыг19, 20, 21, 22 ерөнхий зориулалтын хяналтгүй сургалтын алгоритм болох боломжийг онцлохын тулд бид хэл дээрх GPT‑2‑той ижил трансформер архитектурыг зориуд ашигласан. Үүний үр дагаварт бид шилдэг хяналтгүй convolutional сүлжээнүүдийн шинжүүдтэй өрсөлдөхүйц шинжүүд гаргахын тулд мэдэгдэхүйц их тооцоолол шаарддаг.13, 23, 24, 25, 12 Гэсэн ч зөв загварын priori нь тодорхойгүй шинэ домэйнтой тулгарахад том GPT‑2 нь домэйнд тусгай26, 27, 28 архитектурын шийдэлгүйгээр маш сайн шинжүүд сурч чадна гэдгийг бидний үр дүн харуулж байна.

Ачаалж байна...

Хэлний GPT-ээс дүрсний GPT рүү

Хэлний салбарт үгийн таамаглалд тулгуурладаг хяналтгүй сургалтын алгоритмууд (GPT‑2, BERT зэрэг) асар амжилттай байж, хэлний олон төрлийн даалгаварт дээд түвшний гүйцэтгэл үзүүлсэн. Энэ амжилтын нэг боломжит шалтгаан нь доош урсгалын хэлний даалгаврын жишээнүүд текст дотор байгалиараа оршдогт байж болно: асуултын араас ихэвчлэн хариулт (асуулт-хариултад тусалж болох), өгүүлбэрийн хэсгийн араас ихэвчлэн хураангуй (хураангуйлалтад тусалж болох) дагалддаг. Харин пикселийн дарааллууд нь өөрт нь хамаарах зургуудын шошгыг тодорхой агуулдаггүй.

Ийм ил тод хяналтгүй байсан ч зураг дээрх GPT‑2 ажиллаж болох нэг шалтгаан бий: дараагийн пиксел таамаглах дээр сургагдсан хангалттай том трансформер эцэстээ тод танигдах объектуудтай, олон янзB жишээ үүсгэж сурах боломжтой. Үүнийг сурмагц “Analysis by Synthesis”29, 30, C гэж нэрлэгддэг санаа нь загвар объектын ангиллын талаар мөн мэдэх болно гэж үздэг. Эртний олон үүсмэл загвар31, 32, 33, 34, 35, 36 энэ санаанаас сэдэлтэй байсан бөгөөд илүү сүүлд BigBiGAN37 нь урам өгсөн жишээ болон шинжүүдийг гаргасан нэг жишээ болсон. Манай ажилд бид эхлээд илүү сайн үүсмэл загварууд илүү хүчтэй ангиллын гүйцэтгэлтэй болдгийг харуулсан. Дараа нь GPT‑2‑ыг үүсгэх чадварт зориулан оновчлох замаар бид олон нөхцөлд дээд түвшний ангиллын гүйцэтгэлд хүрч, analysis by synthesis-ийн нэмэлт нотолгоог гаргасан.

Ерөнхий хяналтгүй сургалт руу

Үүсгэх дарааллын загварчлал нь бүх нийтийн хяналтгүй сургалтын алгоритм юм: бүх төрлийн өгөгдлийг байтын дараалал хэлбэрээр илэрхийлж болдог тул трансформерыг нэмэлт инженерчлэлгүйгээр ямар ч төрлийн өгөгдөлд шууд хэрэглэж болно. Манай ажил энэ ерөнхий чанарын хүчийг шалгахын тулд GPT‑2‑ыг байгалийн хэл дээр сургахад ашигласан архитектурыг зураг үүсгэхэд шууд хэрэглэсэн. Бид convolution38 эсвэл relative attention,39 sparse attention,40 2-D position embedding27 зэрэг арга хэлбэрээр дүрсэнд тусгай мэдлэгийг гараар кодлохоос зориуд татгалзсан.

Ерөнхий чанарынхаа үр дагаварт манай арга хяналтгүй нөхцөлд өрсөлдөхүйц гүйцэтгэлд хүрэхийн тулд мэдэгдэхүйц их тооцоолол шаарддаг. Үнэхээр ч contrastive аргууд41, 42, 43, 44, 45, 13, 23, 24, 25, 12 нь зургаас өндөр чанартай шинж гарган авах хамгийн тооцооллын хувьд үр ашигтай аргууд хэвээр байна. Гэсэн ч хяналтгүй трансформер загвар нь хамгийн сайн хяналтгүй convolutional сүлжээнүүдтэй өрсөлдөж чаддагийг24, 25, 12 харуулснаар бид гараар кодлосон домэйны мэдлэгийг тооцооллоор орлуулж болдгийн нотолгоо өгч байна. Гараар кодлох мэдлэг бага байдаг шинэ домэйнуудад46, 47 тооцооллыг өсгөх нь туршиж үзэх тохиромжтой арга мэт санагдаж байна.

Аргачлал

Бид 76M, 455M, 1.4B параметртэй трансформерууд болох iGPT‑S, iGPT‑M, iGPT‑L‑ийг тус тус ImageNet дээр сургадаг. Мөн 6.8 тэрбум параметртэй трансформер болох iGPT‑XLD-ийг ImageNet болон вэбээс авсан зургуудын холимог дээр сургадаг. Нягт attention-тай урт дарааллыг загварчлах тооцооллын өртөг өндөр тул бид 32x32, 48x48, 64x64 гэсэн бага нягтрал дээр сургадаг.

Тооцооллын зардлыг цааш бууруулахын тулд бүр ч бага нягтралтай ажиллах нь сэтгэл татам боловч өмнөх ажлууд эдгээр хэмжээнээс доош хүний дүрс ангиллын гүйцэтгэл огцом буурдгийг харуулсан.48 Харин үүний оронд эртний өнгөт дэлгэцийн палитраас49 сэдэл авч, пикселийг илэрхийлэх өөрсдийн 9-бит өнгийн палитрыг бид бүтээсэн. Энэ палитрыг ашиглахад стандарт (R, G, B) палитртай харьцуулахад оролтын дарааллын урт 3 дахин богино болдог ч өнгийг үнэнчээр кодолсон хэвээр байдаг.

Туршилтын үр дүн

Загварын гүйцэтгэлийг үнэлэхдээ бид доош урсгалын ангиллын даалгавар оролцуулдаг хоёр аргыг ашигладаг. Эхнийхийг нь бид linear probe гэж нэрлэдэг бөгөөд сургагдсан загварыг ашиглан доош урсгалын өгөгдлийн цуглуулга дахь зургуудаас шинжүүдийгE гаргаж аваад, дараа нь шошгон дээр логистик регресс тааруулдаг. Хоёр дахь арга нь бүхэл загварыг доош урсгалын өгөгдлийн цуглуулга дээр fine-tuneF хийдэг.

Дараагийн пикселийг таамаглах нь дүрс ангилалтай илт хамааралтай биш тул төгсгөлийн давхаргын шинжүүд нь объектын ангиллыг таамаглахад хамгийн сайн байх албагүй. Бидний эхний үр дүн шинжийн чанар нь гүний дагуу эхлээд огцом өсөөд, дараа нь бага зэрэг буурдаг функц болохыг харуулж байна. Энэ зан төлөв нь трансформер үүсмэл загвар хоёр үе шаттай ажилладагийг санал болгодог: эхний үед байрлал бүр хүрээлэх контекстоосоо мэдээлэл цуглуулж, контекстжүүлсэн дүрсний шинжийг бүтээдэг. Хоёр дахь үед энэ контекстжүүлсэн шинжийг нөхцөлт дараагийн пиксел таамаглах даалгаврыг шийдэхэд ашигладаг. Манай linear probe-уудын ажиглагдсан хоёр үе шаттай гүйцэтгэл нь дунд хэсгийн шинжүүдийг ашиглахаар гараар зохиосон bottleneck autoencoder гэх өөр нэг хяналтгүй мэдрэлийн сүлжээг санагдуулж байна.

Ачаалж байна...

Бидний дараагийн үр дүн үүсгэх гүйцэтгэл ба шинжийн чанарын хоорондын холбоог тогтоож байна. Бид загварынхаа хэмжээг өсгөх болон илүү олон итерациар сургах нь хоёулаа илүү сайн үүсгэх гүйцэтгэлд хүргэж, энэ нь шууд илүү сайн шинжийн чанарт шилждэгийг олсон.

Ачаалж байна...

Бид CIFAR-10, CIFAR-100, STL-10 дээрх шинжүүдээ linear probe ашиглан үнэлэхэд supervised болон unsupervised дамжуулалтын бүх алгоритмын шинжүүдийг давдаг. Бүрэн fine-tuning орчинд ч бидний үр дүн хүчтэй байна.

ImageNet дээр урьдчилан сургагдсан

Үнэлгээ

Загвар

Нарийвчлал

шошгогүй

шошготой

CIFAR-10

Linear Probe

ResNet-15250

94.0

SimCLR12

95.3

iGPT‑L 32x32

96.3

CIFAR-100

Linear Probe

ResNet-152

78.0

SimCLR

80.2

iGPT‑L 32x32

82.8

STL-10

Linear Probe

AMDIM-L

94.2

iGPT‑L 32x32

95.5

CIFAR-10

Fine-tune

AutoAugment

98.5

SimCLR

98.6

GPipe

99.0

iGPT‑L

99.0

CIFAR-100

Fine-tune

iGPT‑L

88.5

SimCLR

89.0

AutoAugment

89.3

EfficientNet52

91.7

Манай загварууд болон хяналтгүй эсвэл хяналттай ImageNet дамжуулалт ашигладаг шилдэг загваруудын linear probe ба fine-tune нарийвчлалын харьцуулалт. Мөн бид CIFAR дээр төгсгөлөөс төгсгөлд сургагдсан хамгийн өндөр үзүүлэлттэй загвар болох AutoAugment-ийг оруулсан.

ImageNet дээрх хяналтгүй болон self-supervised сургалтад сонирхол дахин сэргэснийг харгалзан, бид загваруудынхаа гүйцэтгэлийг ImageNet дээр linear probe ашиглан мөн үнэлсэн. Энэ нь ялангуяа хэцүү нөхцөл, учир нь бид стандарт ImageNet оролтын нягтрал дээр сургадаггүй. Гэсэн хэдий ч 48x48 зургууд дээр сургагдсан iGPT‑L‑ийн хамгийн сайн давхаргын 1536 шинж дээрх linear probe нь 65.2% top-1 нарийвчлал өгч, AlexNet-ийг давсан.

Contrastive аргууд ихэвчлэн 8192 шинж дээрх хамгийн сайн үр дүнгээ тайлагнадаг тул харьцуулахын тулд embedding хэмжээ 8192 бүхий iGPT‑ийг үнэлэх нь зүйтэй байх байв. Гэвч ийм загварыг сургах нь хэт өндөр өртөгтэй тул бид оронд нь хэд хэдэн давхаргын шинжүүдийг ойролцоолол болгон залгасан. Харамсалтай нь манай шинжүүд давхаргуудын хооронд хоорондоо уялдаатай байх хандлагатай тул өрсөлдөх чадвартай байхын тулд илүү олныг хэрэгтэй болдог. iGPT‑XL‑ийн 5 давхаргаас 15360 шинж авахад 72.0% top-1 нарийвчлал гарч, AMDIM, MoCo, CPC v2-ыг давсан ч SimCLR-ээс мэдэгдэхүйц зөрүүтэй доогуур хэвээр байна.

Арга

Оролтын нягтрал

Шинжүүд

Параметрүүд

Нарийвчлал

Rotation53

original

8192

86M

55.4

iGPT‑L

32x32

1536

1362M

60.3

BigBiGAN37

original

16384

86M

61.3

iGPT‑L

48x48

1536

1362M

65.2

AMDIM13

original

8192

626M

68.1

MoCo24

original

8192

375M

68.6

iGPT‑XL

64x64

3072

6801M

68.7

SimCLR12

original

2048

24M

69.3

CPC v225

original

4096

303M

71.5

iGPT‑XL

64x64

3072 x 5

6801M

72.0

SimCLR

original

8192

375M

76.5

Манай загварууд болон хамгийн сүүлийн үеийн self-supervised загваруудын linear probe нарийвчлалын харьцуулалт. Бид маш бага оролтын нягтрал дээр сургаж байгаа ч өрсөлдөхүйц гүйцэтгэл үзүүлж байгаа боловч манай арга илүү олон параметр, илүү их тооцоолол шаарддаг.

BERT зэрэг masked language model-ууд хэлний ихэнх даалгаварт үүсмэл загваруудаас илүү гарсан тул бид BERT-ийг дүрсний загварууд дээрээ мөн үнэлсэн. Бид загвараа өмнөх бүх пикселийг өгөөд дараагийн пикселийг таамаглуулахын оронд пикселүүдийн 15%-ийг халхалж, халхлагдаагүй пикселүүдээс тэдгээрийг таамаглуулахаар сургадаг. Бид BERT загваруудын linear probe гүйцэтгэл мэдэгдэхүйц муу ч fine-tuning үед онцгой сайн байгааг олсон:

Ачаалж байна...

Хяналтгүй сургалт нь хүний шошголсон өгөгдөл шаардалгүйгээр маш сайн шинжүүдийг амладаг ч хүний шошголсон өгөгдлийн хязгаарлагдмал хэмжээг зөвшөөрдөг, илүү уян хүрээ болох хагас хяналттай сургалтын дор сүүлийн үед мэдэгдэхүйц ахиц гарсан. Амжилттай хагас хяналттай аргууд ихэвчлэн consistency regularization, өгөгдлийн нэмэгдүүлэлт, эсвэл pseudo-labeling зэрэг ухаалаг техникүүдэд тулгуурладаг бөгөөд цэвэр үүсгэхэд суурилсан аргууд54, 55 олон жил өрсөлдөх чадваргүй байсан. Бид iGPT‑LG-ийг энэ дэд салбарын өрсөлдөөнтэй жишиг дээр үнэлэхэд, өгөгдөл нэмэгдүүлээгүй зургуудын шинжүүд дээрх энгийн linear probe нь Mean Teacher56 болон MixMatch-ийг давсан ч FixMatch-ээс59 доогуур байгааг олсон.

Загвар

40 шошго

250 шошго

4000 шошго

Improved GAN55

81.4 ± 2.3

Mean Teacher56

67.7 ± 2.3

90.8 ± 0.2

MixMatch57

52.5 ± 11.5

89.0 ± 0.9

93.6 ± 0.1

iGPT‑L

73.2 ± 01.5

87.6 ± 0.6

94.3 ± 0.1

UDA58

71.0 ± 05.9

91.2 ± 1.1

95.1 ± 0.2

FixMatch59 RA

86.2 ± 03.4

94.9 ± 0.7

95.7 ± 0.1

FixMatch CTA

88.6 ± 03.4

94.9 ± 0.3

95.7 ± 0.2

Бага өгөгдөлтэй CIFAR-10 дээрх гүйцэтгэлийн харьцуулалт. Олон шошгогүй ImageNet зургуудыг ашигласнаар iGPT‑L нь Mean Teacher, MixMatch зэрэг аргуудыг давж чаддаг ч хамгийн сүүлийн үеийн аргуудаас доогуур хэвээр байна. Манай хагас хяналттай сургалтын арга маш энгийн: бид ямар нэг өгөгдөл нэмэгдүүлэлт эсвэл fine-tuning хийхгүйгээр зөвхөн iGPT‑L‑ийн шинжүүд дээр логистик регрессийн ангилагч тааруулдаг—энэ нь тусгайлан зохиосон хагас хяналттай аргуудаас мэдэгдэхүйц ялгаатай.

Хязгаарлалтууд

Бид iGPT нь хүчирхэг дүрсний шинжүүд сурч чаддагийг харуулсан ч манай аргад мэдэгдэхүйц хязгаарлалтууд байсаар байна. Хэл дээрх GPT‑2‑д ашигладаг ерөнхий дарааллын трансформерыг хэрэглэдэг учраас манай арга их хэмжээний тооцоолол шаарддаг: iGPT‑L‑ийг ойролцоогоор 2500 V100-өдөр сургаж байхад ижил төстэй гүйцэтгэлтэй MoCo24 загварыг ойролцоогоор 70 V100-өдөрт сургаж болно.

Үүнтэй холбоотойгоор бид бага нягтралтай оролтыг трансформероор загварчилдаг бол ихэнх self-supervised үр дүн өндөр нягтралтай оролтыг амархан боловсруулж чаддаг convolution-д суурилсан encoder-уудыг ашигладаг. Цааш өргөжүүлэхийн тулд domain-agnostic multiscale transformer зэрэг шинэ архитектур хэрэгтэй байж магадгүй. Эдгээр хязгаарлалтыг харгалзан үзвэл манай ажил нь том трансформер дээр суурилсан хэлний загварууд хатуу кодлосон домэйн мэдлэггүйгээр шинэ домэйнуудад маш сайн хяналтгүй төлөөлөл сурч чаддагийг харуулсан proof-of-concept үзүүлэн болж байна. Гэвч эдгээр загварыг сургахад гарах их нөөцийн өртөг болон convolutional neural network-д суурилсан аргуудын илүү өндөр нарийвчлал нь эдгээр төлөөллийг харааны домэйны бодит хэрэглээнд ашиглах боломжийг хязгаарлаж байна.

Эцэст нь, үүсмэл загварууд сурсан өгөгдлөөсөө үүдэлтэй гажуудлуудыг илэрхийлж болно. Эдгээрийн олон нь ашиг тустай байдаг, жишээ нь бор ба ногоон пикселийн хослолыг навчаар бүрхэгдсэн мөчир гэж үзээд энэ гажуудлыг ашиглан зургийг үргэлжлүүлэх гэх мэт. Гэвч шударга байдал, төлөөллийн өнцгөөс харахад эдгээр гажуудлын зарим нь хор хөнөөлтэй байна. Тухайлбал, хэрэв загвар эрдэмтнийг эрэгтэй тал руу хазайсан дүрслэлээр ойлгодог бол эрдэмтдийн зургийг нөхөхдөө янз бүрийн хүйсийн холимог биш, тогтмол эрэгтэй төрхтэй хүмүүсээр нөхөж магадгүй. Хөгжүүлэгчид системдээ оруулж буй өгөгдөлдөө улам их анхаарч, энэ нь сургагдсан загвар дахь гажуудалтай хэрхэн холбоотойг илүү сайн ойлгох шаардлагатай болно гэж бид үзэж байна.

Дүгнэлт

2-D мэдлэгийг хэмжээтэй60 сольж, сүлжээний дундаас таамаглах шинжүүдийг сонгосноор дарааллын трансформер нь хяналтгүй дүрс ангилалд шилдэг convolutional сүлжээнүүдтэй өрсөлдөж чаддгийг бид харууллаа. Онцлоход, бид GPT‑2 хэлний загварыг шууд зураг үүсгэхэд хэрэглэснээр эдгээр үр дүнд хүрсэн. Бидний үр дүн энгийн бөгөөд ерөнхий шинж чанараас нь шалтгаалан хангалттай тооцоолол өгвөл дарааллын трансформер нь олон домэйнд маш сайн шинжүүд сурах үр дүнтэй арга болж чадна гэдгийг санал болгож байна.

Хэрэв та энэ судалгааны чиглэл дээр бидэнтэй хамтран ажиллах сонирхолтой бол, бид ажилд авч байна!

Тэмдэглэлүүд

  1. A

    Сурсан шинжүүд дээрх логистик регрессээр хэмжсэн (linear probe).

  2. B

    Трансформер нь магадлалыг хамгийн их болгохоор сурдаг бөгөөд тиймээс mode covering шинжтэй тул жишээнүүдийн олон янз байдлыг автоматаар хангадаг.

  3. C

    Analysis by synthesis-ийн анхны санаа нь нууц хувьсагчтай үүсмэл загваруудын тухай илүү их маргаан байсан боловч нууц хувьсагчгүй үүсмэл загварууд өгөгдлийн тархцыг загварчлахдаа хамаагүй илүү сайн байсан учраас analysis-by-synthesis таамаглал тэдэнд ч мөн үйлчлэх ёстой гэж бид үзсэн.

  4. D

    Бид iGPT-XL-ийн ImageNet дээрх linear probe нарийвчлалыг л харуулсан, учир нь өөр туршилтуудыг өөр суперкомпьютерийн байгууламж руу шилжихээс өмнө дуусгаж амжаагүй.

  5. E

    Linear probe-д зориулж шинж гарган авахдаа бид тодорхой давхаргын post layernorm attention block оролтуудыг авч, дарааллын хэмжээсээр average pool хийдэг.

  6. F

    Fine-tune хийхдээ бид post layernorm трансформерын гаралтыг авч, ангиллын толгойн оролт болгон дарааллын хэмжээсээр average pool хийдэг.

  7. G

    Цэвэр хяналтгүй хэлбэрээр шинжүүд сурдаг үүсмэл загвар.

Эшлэлүүд

  1. 1
  2. 2

    Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Танд хэрэгтэй бүхэн бол attention(шинэ цонхонд нээгдэнэ).” NeurIPS 2017-д.

  3. 3
  4. 4

    Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Хэлний загварууд нь хяналтгүй олон даалгаварт суралцагчид юм(шинэ цонхонд нээгдэнэ).” Техникийн тайлан, OpenAI.

  5. 5

    Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: BERT-ийн урьдчилсан сургалтын бат бөх оновчлолын арга(шинэ цонхонд нээгдэнэ).” arXiv preprint.

  6. 6
  7. 7
  8. 8

    Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “Гүн контекстжүүлсэн үгийн төлөөллүүд(шинэ цонхонд нээгдэнэ).” NAACL 2018-д.

  9. 9
  10. 10

    Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “Үүсгэх урьдчилсан сургалтаар хэлний ойлголтыг сайжруулах нь(шинэ цонхонд нээгдэнэ).” Техникийн тайлан, OpenAI.

  11. 11
  12. 12
  13. 13
  14. 14

    Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): Ерөнхий харааны төлөөллийн сургалт(шинэ цонхонд нээгдэнэ).” arXiv preprint.

  15. 15

    Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: Pipeline parallelism ашиглан аварга мэдрэлийн сүлжээнүүдийг үр ашигтай сургах нь(шинэ цонхонд нээгдэнэ).” NeurIPS 2019-д.

  16. 16
  17. 17
  18. 18
  19. 19
  20. 20

    Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Давтагддаг мэдрэлийн сүлжээнд суурилсан хэлний загвар(шинэ цонхонд нээгдэнэ).” In INTERSPEECH-2010.

  21. 21
  22. 22
  23. 23

    Tian, Y., Krishnan, D., & Isola, P. (2019). “Contrastive multiview coding(шинэ цонхонд нээгдэнэ).” arXiv preprint.

  24. 24
  25. 25

    Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Өгөгдөлд хэмнэлттэй дүрс танилт contrastive predictive coding-оор(шинэ цонхонд нээгдэнэ) .” arXiv preprint.

  26. 26
  27. 27

    Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer(шинэ цонхонд нээгдэнэ).” ICML 2018-д.

  28. 28
  29. 29
  30. 30
  31. 31
  32. 32
  33. 33
  34. 34
  35. 35
  36. 36

    Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “Их хэмжээний хяналтгүй сургалтаар өндөр түвшний шинжүүд бүтээх нь(шинэ цонхонд нээгдэнэ).” ICML 2012-д.

  37. 37
  38. 38
  39. 39
  40. 40

    Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “Sparse transformer-уудаар урт дараалал үүсгэх нь(шинэ цонхонд нээгдэнэ).” arXiv preprint.

  41. 41
  42. 42
  43. 43
  44. 44
  45. 45

    Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Харилцан мэдээллийн үнэлгээ ба хамгийн ихжүүлэлтээр гүн төлөөлөл сурах нь(шинэ цонхонд нээгдэнэ).” ICLR 2019-д.

  46. 46
  47. 47
  48. 48
  49. 49
  50. 50
  51. 51

    Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: Өгөгдлөөс augmentation strategy сурах нь(шинэ цонхонд нээгдэнэ).” CVPR 2019-д.

  52. 52
  53. 53
  54. 54
  55. 55

    Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “GAN-уудыг сургах сайжруулсан техникүүд(шинэ цонхонд нээгдэнэ).” NeurIPS 2016-д.

  56. 56
  57. 57

    Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: Хагас хяналттай сургалтын цогц арга(шинэ цонхонд нээгдэнэ).” NeurIPS 2019-д.

  58. 58
  59. 59

    Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: consistency ба confidence-оор хагас хяналттай сургалтыг хялбарчлах нь(шинэ цонхонд нээгдэнэ).” arXiv preprint.

  60. 60

Зохиогчид

Mark Chen, Alec Radford, Ilya Sutskever

Талархал

Юуны өмнө, бид нийтлэлийн хамтран зохиогчид болох Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, David Luan нарт талархал илэрхийлье.

Энэ ажилд санал хүсэлт өгч, энэхүү хувилбарт хувь нэмэр оруулсан дараах хүмүүст баярлалаа: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le, Ashish Vaswani.

Редактор: Ashley Pilipiszyn

Дизайн: Justin Jay Wang

Нүүр зургийн бүтээл: Ben Barry