Liwati menyang isi utama
OpenAI

Kita nemokake yen, kaya model transformer gedhe sing dilatih ing basa bisa ngasilake teks sing runtut, model sing padha persis sing dilatih ing urutan piksel bisa ngasilake gambar pelengkapan lan sampel sing runtut. Kanthi netepake korélasi antarane kualitas sampel lan akurasi klasifikasi gambar, kita nuduhake manawa model generatif paling apik kita uga ngemot fitur sing saingan karo jaringan konvolusional paling apik ing setelan tanpa supervisi.

Pambuka

Sinau tanpa supervisi lan self-supervised,1 utawa sinau tanpa data berlabel manungsa, wis dadi tantangan lawas ing machine learning. Bubar iki, pendekatan iki wis entuk sukses luar biasa ing basa, amarga model transformer2 kaya BERT,3 GPT‑2,4 RoBERTa,5 T5,6 lan varian liyane7, 8, 9, 10 wis nggayuh kinerja paling dhuwur ing macem-macem tugas basa. Nanging, kelas model sing padha iki durung sukses ngasilake fitur sing kuwat kanggo klasifikasi gambar.11 Karya kita tujuane kanggo mangerteni lan njembatani celah iki.

Model transformer kaya BERT lan GPT‑2 iku agnostik domain, tegese bisa langsung ditrapake marang urutan 1-D ing bentuk apa wae. Nalika kita nglatih GPT‑2 ing gambar sing diurai dadi urutan piksel dawa, sing kita sebut iGPT, kita nemokake manawa model kasebut katon ngerti karakteristik gambar 2-D kayata tampilan obyek lan kategori. Iki kabukten saka rentang manéka warna sampel gambar runtut sing diasilake, sanajan tanpa pandhuan label sing diwenehake manungsa. Minangka bukti tambahan, fitur saka model iki nggayuh kinerja state-of-the-art ing sawetara dataset klasifikasi lan akurasi tanpa supervisi sing meh state-of-the-artA ing ImageNet.

Evaluasi

Dataset

Asil Kita

Asil non-iGPT paling apik

Regresi logistik ing fitur sing disinaoni (linear probe)

CIFAR-10

96.3 iGPT‑L 32x32 nganggo 1536 fitur

95.3 SimCLR12 nganggo 8192 fitur

CIFAR-100

82.8 iGPT‑L 32x32 nganggo 1536 fitur

80.2 SimCLR nganggo 8192 fitur

STL-10

95.5 iGPT‑L 32x32 nganggo 1536 fitur

94.2 AMDIM13 nganggo 8192 fitur

ImageNet

72.0 iGPT‑XLa 64x64 nganggo 15360 fitur

76.5 SimCLR nganggo 8192 fitur

Fine-tune lengkap

CIFAR-10

99.0 iGPT‑L 32x32, dilatih ing ImageNet

99.0b GPipe,14 dilatih ing ImageNet

ImageNet 32x32

66.3 iGPT‑L 32x32

70.2 Isometric Nets15

  1. Kita mung nuduhake akurasi linear probe ImageNet kanggo iGPT‑XL amarga eksperimen liyane durung rampung sadurunge kita kudu pindhah menyang fasilitas superkomputasi liyane.
  2. Bit-L, sing dilatih ing JFT (300M gambar kanthi 18K kelas), nggayuh asil 99.3.

Kanggo nyorot potensi model generatif17, 18 urutan19, 20, 21, 22 minangka algoritma sinau tanpa supervisi serbaguna, kita kanthi sengaja nggunakake arsitektur transformer sing padha kaya GPT‑2 ing basa. Akibate, kita mbutuhake komputasi luwih akeh supaya bisa ngasilake fitur sing kompetitif karo fitur saka jaringan konvolusional tanpa supervisi paling apik.13, 23, 24, 25, 12 Nanging, asil kita nuduhake yen nalika ngadhepi domain anyar sing prior model sing bener durung dingerteni, GPT‑2 gedhe bisa sinau fitur apik banget tanpa perlu pilihan desain arsitektur khusus domain26, 27, 28.

Lagi dimuat...

Saka GPT basa menyang GPT gambar

Ing basa, algoritma sinau tanpa supervisi sing gumantung marang prediksi tembung (kayata GPT‑2 lan BERT) wis banget sukses, nganti nggayuh kinerja paling dhuwur ing manéka tugas basa. Salah siji sebab sing mungkin kanggo sukses iki yaiku conto tugas basa hilir katon alami ing teks: pitakon asring diterusake jawaban (sing bisa mbantu pitakon-jawaban) lan paragraf asring diterusake ringkesan (sing bisa mbantu panyaruman). Kosok baline, urutan piksel ora kanthi cetha ngemot label kanggo gambar sing dadi duwèké.

Sanajan tanpa supervisi eksplisit iki, isih ana alesan kenapa GPT‑2 ing gambar bisa makarya: transformer sing cukup gedhe sing dilatih kanggo prediksi piksel sabanjure bisa pungkasane sinau ngasilake sampelB sing manéka warna kanthi obyek sing cetha bisa dikenali. Sawise model sinau nglakoni iki, gagasan sing dikenal minangka “Analisis liwat Sintesis”29, 30, C nuduhake yen model uga bakal ngerti kategori obyek. Akeh model generatif awal31, 32, 33, 34, 35, 36 dipacu dening gagasan iki, lan luwih anyar, BigBiGAN37 dadi salah siji conto sing ngasilake sampel lan fitur sing njanjèkaké. Ing karya kita, dhisik kita nuduhake yen model generatif sing luwih apik nggayuh kinerja klasifikasi sing luwih kuwat. Banjur, liwat optimasi GPT‑2 kanggo kemampuan generatif, kita nggayuh kinerja klasifikasi tingkat paling dhuwur ing akèh setelan, menehi bukti luwih lanjut kanggo analisis liwat sintesis.

Menyang sinau tanpa supervisi umum

Pemodelan urutan generatif iku algoritma sinau tanpa supervisi universal: amarga kabeh jinis data bisa diwakili minangka urutan byte, transformer bisa langsung ditrapake marang jinis data apa wae tanpa rekayasa tambahan. Karya kita nguji kekuwatan saka keumuman iki kanthi langsung nerapake arsitektur sing digunakake kanggo nglatih GPT‑2 ing basa alami marang generasi gambar. Kita kanthi sengaja milih ora nambah kawruh khusus gambar apa wae ing bentuk konvolusi38 utawa teknik kaya relative attention,39 sparse attention,40 lan embedding posisi 2-D.27

Minangka akibat saka sifat umume, metode kita mbutuhake komputasi luwih akeh kanggo nggayuh kinerja kompetitif ing setelan tanpa supervisi. Pancen, metode kontrasif41, 42, 43, 44, 45, 13, 23, 24, 25, 12 isih dadi metode sing paling efisien sacara komputasi kanggo ngasilake fitur kualitas dhuwur saka gambar. Nanging, kanthi nuduhake yen model transformer tanpa supervisi kompetitif karo jaringan konvolusional tanpa supervisi paling apik,24, 25, 12 kita menehi bukti yen bisa ngorbanake kawruh domain sing dikode kanthi tangan kanggo komputasi. Ing domain anyar,46, 47 sing ora nduweni akeh kawruh kanggo dikode tangan, nambah skala komputasi katon dadi teknik sing pas kanggo diuji.

Pendekatan

Kita nglatih iGPT‑S, iGPT‑M, lan iGPT‑L, transformer sing ngemot 76M, 455M, lan 1.4B parameter, ing ImageNet. Kita uga nglatih iGPT‑XLD, transformer 6.8 milyar parameter, ing campuran ImageNet lan gambar saka web. Amarga biaya komputasi gedhe kanggo memodelake urutan dawa kanthi attention padhet, kita nglatih ing résolusi rendah 32x32, 48x48, lan 64x64.

Sanajan nyenengake kanggo makarya ing résolusi sing luwih murah maneh supaya biaya komputasi luwih suda, karya sadurunge wis nuduhake yen kinerja manungsa ing klasifikasi gambar wiwit mudhun kanthi cepet ing ngisor ukuran iki.48 Nanging, kanthi inspirasi saka palet tampilan warna awal,49 kita nggawe palet warna 9-bit dhewe kanggo makili piksel. Nggunakake palet iki ngasilake dawa urutan input 3 kaping luwih cekak tinimbang palet standar (R, G, B), nanging isih ngode warna kanthi setya.

Hasil eksperimen

Ana rong cara sing kita gunakake kanggo ngevaluasi kinerja model, loro-lorone nglibatake tugas klasifikasi hilir. Cara pisanan, sing kita sebut linear probe, nggunakake model sing wis dilatih kanggo ngekstrak fiturE saka gambar ing dataset hilir, banjur nyocogake regresi logistik marang label-labele. Cara kapindho nyetel alusF kabeh model ing dataset hilir.

Amarga prediksi piksel sabanjure ora mesthi ana gandhengané karo klasifikasi gambar, fitur saka lapisan pungkasan bisa uga dudu sing paling prediktif kanggo kategori obyek. Asil pisanan kita nuduhake yen kualitas fitur iku fungsi saka kedalaman sing mundhak tajem, banjur mudhun alon. Prilaku iki nuduhake yen model generatif transformer makarya ing rong fase: ing fase pisanan, saben posisi nglumpukake informasi saka konteks sakupenge kanggo mbangun fitur gambar sing dikontekstualake. Ing fase kapindho, fitur sing dikontekstualake iki digunakake kanggo ngrampungake tugas prediksi piksel sabanjure kondisional. Kinerja rong tahap sing diamati saka linear probe kita ngélingake marang jaringan saraf tanpa supervisi liyane, yaiku bottleneck autoencoder, sing dirancang kanthi manual supaya fitur ing tengah digunakake.

Lagi dimuat...

Asil sabanjure kita netepake hubungan antarane kinerja generatif lan kualitas fitur. Kita nemokake yen nambah skala model kita lan nglatih luwih akeh iterasi loro-lorone ngasilake kinerja generatif sing luwih apik, sing langsung nerjemah dadi kualitas fitur sing luwih apik.

Lagi dimuat...

Nalika kita ngevaluasi fitur kita nganggo linear probe ing CIFAR-10, CIFAR-100, lan STL-10, kita ngluwihi fitur saka kabeh algoritma transfer terawasi lan tanpa supervisi. Asil kita uga kuwat banget ing setelan fine-tuning lengkap.

Pra-dilatih ing ImageNet

Evaluasi

Model

Akurasi

tanpa label

kanthi label

CIFAR-10

Linear Probe

ResNet-15250

94.0

SimCLR12

95.3

iGPT‑L 32x32

96.3

CIFAR-100

Linear Probe

ResNet-152

78.0

SimCLR

80.2

iGPT‑L 32x32

82.8

STL-10

Linear Probe

AMDIM-L

94.2

iGPT‑L 32x32

95.5

CIFAR-10

Fine-tune

AutoAugment

98.5

SimCLR

98.6

GPipe

99.0

iGPT‑L

99.0

CIFAR-100

Fine-tune

iGPT‑L

88.5

SimCLR

89.0

AutoAugment

89.3

EfficientNet52

91.7

Perbandingan akurasi linear probe lan fine-tune antarane model kita lan model paling apik sing nggunakake transfer ImageNet tanpa supervisi utawa terawasi. Kita uga nyakup AutoAugment, model paling apik sing dilatih end-to-end ing CIFAR.

Amarga minat marang sinau tanpa supervisi lan self-supervised ing ImageNet bali mundhak, kita uga ngevaluasi kinerja model kita nganggo linear probe ing ImageNet. Iki setelan sing utamané angel, amarga kita ora nglatih ing résolusi input ImageNet standar. Sanadyan mangkono, linear probe ing 1536 fitur saka lapisan paling apik iGPT‑L sing dilatih ing gambar 48x48 ngasilake akurasi top-1 65.2%, ngluwihi AlexNet.

Metode kontrasif biasane nglaporake asil paling apik ing 8192 fitur, mula saenane kita ngevaluasi iGPT nganggo dimensi embedding 8192 kanggo perbandingan. Nanging, nglatih model kaya ngono larang banget, mula kita malah nggabungake fitur saka pirang-pirang lapisan minangka pendekatan kira-kira. Sayange, fitur kita cenderung saling berkorelasi antar lapisan, mula kita butuh luwih akeh supaya kompetitif. Nggunakake 15360 fitur saka 5 lapisan ing iGPT‑XL ngasilake akurasi top-1 72.0%, ngluwihi AMDIM, MoCo, lan CPC v2, nanging isih kalah saka SimCLR kanthi selisih sing lumayan.

Metode

Résolusi Input

Fitur

Parameter

Akurasi

Rotation53

original

8192

86M

55.4

iGPT‑L

32x32

1536

1362M

60.3

BigBiGAN37

original

16384

86M

61.3

iGPT‑L

48x48

1536

1362M

65.2

AMDIM13

original

8192

626M

68.1

MoCo24

original

8192

375M

68.6

iGPT‑XL

64x64

3072

6801M

68.7

SimCLR12

original

2048

24M

69.3

CPC v225

original

4096

303M

71.5

iGPT‑XL

64x64

3072 x 5

6801M

72.0

SimCLR

original

8192

375M

76.5

Perbandingan akurasi linear probe antarane model kita lan model self-supervised paling mutakhir. Kita nggayuh kinerja sing kompetitif nalika latihan ing résolusi input sing luwih murah, sanajan metode kita mbutuhake parameter lan komputasi luwih akeh.

Amarga model basa termask kaya BERT wis ngluwihi model generatif ing akèh tugas basa, kita uga ngevaluasi kinerja BERT ing model gambar kita. Tinimbang nglatih model kita kanggo prédhiksi piksel sabanjure adhedhasar kabeh piksel sadurunge, kita nutupi 15% saka piksel lan nglatih model kanggo prédhiksi saka piksel sing ora ditutupi. Kita nemokake yen sanajan kinerja linear probe ing model BERT luwih ala kanthi signifikan, model iki unggul nalika fine-tuning:

Lagi dimuat...

Sanajan sinau tanpa supervisi njanjèkaké fitur apik banget tanpa perlu data berlabel manungsa, kemajuan penting akhir-akhir iki wis dicapai ing kerangka sinau semi-supervisi sing luwih longgar, sing ngidini jumlah winates data berlabel manungsa. Cara semi-supervisi sing sukses asring gumantung marang teknik cerdas kayata regularisasi konsistensi, augmentasi data, utawa pseudo-labeling, lan pendekatan sing murni adhedhasar generatif54, 55 wis ora kompetitif pirang-pirang taun. Kita ngevaluasi iGPT‑LG ing benchmark kompetitif kanggo subbidang iki lan nemokake yen linear probe sing prasaja ing fitur saka gambar tanpa augmentasi ngluwihi Mean Teacher56 lan MixMatch,57 nanging isih kalah saka FixMatch.59

Model

40 label

250 label

4000 label

Improved GAN55

81.4 ± 2.3

Mean Teacher56

67.7 ± 2.3

90.8 ± 0.2

MixMatch57

52.5 ± 11.5

89.0 ± 0.9

93.6 ± 0.1

iGPT‑L

73.2 ± 01.5

87.6 ± 0.6

94.3 ± 0.1

UDA58

71.0 ± 05.9

91.2 ± 1.1

95.1 ± 0.2

FixMatch59 RA

86.2 ± 03.4

94.9 ± 0.7

95.7 ± 0.1

FixMatch CTA

88.6 ± 03.4

94.9 ± 0.3

95.7 ± 0.2

Perbandingan kinerja ing CIFAR-10 kanthi data sithik. Kanthi nggunakke akeh gambar ImageNet tanpa label, iGPT‑L bisa ngluwihi cara kayata Mean Teacher lan MixMatch nanging isih kalah saka cara paling apik. Pendekatan kita kanggo sinau semi-supervisi prasaja banget amarga kita mung nyocogake pengklasifikasi regresi logistik ing fitur iGPT‑L tanpa augmentasi data utawa fine-tuning—prabédan penting saka pendekatan semi-supervisi sing dirancang khusus.

Watesan

Sanajan kita wis nuduhake yen iGPT bisa sinau fitur gambar sing kuwat, isih ana watesan penting ing pendekatan kita. Amarga kita nggunakake sequence transformer umum sing digunakake kanggo GPT‑2 ing basa, metode kita mbutuhake komputasi gedhe: iGPT‑L dilatih kira-kira 2500 V100-days déné model MoCo24 sing kinerjane padha bisa dilatih kira-kira 70 V100-days.

Gandhengan karo kuwi, kita memodelake input résolusi rendah nganggo transformer, déné akèh asil self-supervised nggunakake encoder basis konvolusi sing gampang nampa input résolusi dhuwur. Arsitektur anyar, kayata transformer multiskala sing agnostik domain, bisa uga dibutuhake supaya bisa skala luwih adoh. Amarga watesan iki, karya kita utamané dadi demonstrasi bukti-konsep babagan kemampuan model basa gedhe basis transformer kanggo sinau representasi tanpa supervisi sing apik banget ing domain anyar, tanpa perlu kawruh domain sing di-hardcode. Nanging, biaya sumber daya sing gedhe kanggo nglatih model iki lan akurasi sing luwih dhuwur saka metode basis jaringan saraf konvolusional nggawe representasi iki ora praktis kanggo aplikasi nyata ing domain visi.

Pungkasan, model generatif bisa nampilake bias sing dadi akibat saka data sing digunakake kanggo nglatih. Akeh saka bias iki migunani, kayata nganggep gabungan piksel coklat lan ijo nggambarake dahan sing ketutupan godhong, banjur nggunakke bias iki kanggo nerusake gambar. Nanging sawetara bias iki bakal mbebayani yen dideleng saka sudut pandang keadilan lan representasi. Contoné, yen model ngembangake pemahaman visual babagan ilmuwan sing condhong lanang, mula bisa kanthi konsisten ngrampungake gambar ilmuwan nganggo wong sing katon lanang, tinimbang campuran gender. Kita ngarepake para pangembang kudu saya luwih merhatekake data sing diparingake menyang sistem lan luwih ngerti hubungane karo bias ing model sing wis dilatih.

Kesimpulan

Kita wis nuduhake manawa kanthi ngorbanake kawruh 2-D demi skala60 lan kanthi milih fitur prediktif saka tengah jaringan, sequence transformer bisa saingan karo jaringan konvolusional paling apik kanggo klasifikasi gambar tanpa supervisi. Sing wigati, kita nggayuh asil iki kanthi langsung nerapake model basa GPT‑2 kanggo generasi gambar. Asil kita nuduhake yen amarga kesederhanaan lan sifat umume, sequence transformer sing diwenehi komputasi cukup bisa dadi cara efektif kanggo sinau fitur apik banget ing akeh domain.

Yen sampeyan semangat kerja bareng kita ing area riset iki, kita lagi mbukak lowongan!

Cathetan kaki

  1. A

    Diukur liwat regresi logistik ing fitur sing disinaoni (linear probe).

  2. B

    Transformer dilatih kanggo ngoptimalake likelihood, mula nutupi mode, sing kanthi otomatis njamin keragaman sampelé.

  3. C

    Gagasan analisis liwat sintesis asli luwih minangka argumentasi kanggo model generatif kanthi variabel laten, nanging amarga model generatif tanpa variabel laten luwih apik banget ing memodelake distribusi data, kita mikir konjektur analisis-liwat-sintesis uga kudu berlaku kanggo model kasebut.

  4. D

    Kita mung nuduhake akurasi linear probe ing ImageNet kanggo iGPT-XL amarga eksperimen liyane durung rampung sadurunge kita kudu pindhah menyang fasilitas superkomputasi sing beda.

  5. E

    Kanggo ngekstrak fitur kanggo linear probe, kita njupuk input blok attention post layernorm ing lapisan tartamtu lan average pool ing dimensi urutan.

  6. F

    Kanggo fine-tuning, kita njupuk output transformer post layernorm lan average pool ing dimensi urutan minangka input kanggo classification head.

  7. G

    Model generatif sing sinau fitur kanthi cara murni tanpa supervisi.

Referensi

  1. 1
  2. 2

    Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Attention Is All You Need(mbukak ing jendhela anyar).” Ing NeurIPS 2017.

  3. 3

    Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). “BERT: latihan awalan Transformer Bidirectional Jero kanggo Pangerten Basa(mbukak ing jendhela anyar).” Pracetak arXiv.

  4. 4

    Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Model Basa iku Pamelajar Multitugas Tanpa Supervisi(mbukak ing jendhela anyar).” Laporan Teknis, OpenAI.

  5. 5

    Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: Pendekatan latihan awalan BERT sing Dioptimalake kanthi Tangguh(mbukak ing jendhela anyar).” Pracetak arXiv.

  6. 6

    Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “Njajaki Wates Transfer Learning nganggo Transformer Text-to-Text Terpadu(mbukak ing jendhela anyar).” Pracetak arXiv.

  7. 7

    Dai, A., Le, Q. V. (2015). “Sinau urutan semi-supervisi(mbukak ing jendhela anyar).” Ing NeurIPS 2015.

  8. 8

    Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “Representasi Tembung Kontekstual Jero(mbukak ing jendhela anyar).” Ing NAACL 2018.

  9. 9
  10. 10

    Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “Ningkatake pangerten basa liwat latihan awalan generatif(mbukak ing jendhela anyar).” Laporan Teknis, OpenAI.

  11. 11

    Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). “Sparse attentive backtracking: Temporal credit assignment through reminding(mbukak ing jendhela anyar).” Ing NeurIPS 2018.

  12. 12

    Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). “Kerangka Sederhana kanggo Contrastive Learning saka Representasi Visual(mbukak ing jendhela anyar).” Pracetak arXiv.

  13. 13

    Bachman, P., Hjelm, R., & Buchwalter, W. (2019). “Sinau representasi kanthi ngoptimalake informasi bebarengan antar tampilan(mbukak ing jendhela anyar).” Ing NeurIPS 2019.

  14. 14

    Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): Representasi Visual Umum(mbukak ing jendhela anyar).” Pracetak arXiv.

  15. 15

    Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: Pelatihan Efisien Jaringan Saraf Raksasa nganggo Paralelisme Pipeline(mbukak ing jendhela anyar).” Ing NeurIPS 2019.

  16. 16

    Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). “Data sing Ora Diskriminatif utawa Model sing Lemah? Bab Pentinge Relatif Résolusi Data lan Model(mbukak ing jendhela anyar).” Ing ICCV 2019.

  17. 17

    Lasserre, J., Bishop, C., & Minka, T. P. (2006). “Hibrida Prinsipil saka Model Generatif lan Diskriminatif(mbukak ing jendhela anyar).” Ing CVPR 2006.

  18. 18

    Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). “Napa latihan awalan tanpa supervisi mbantu sinau jero?(mbukak ing jendhela anyar).” Ing JMLR 2010.

  19. 19

    Elman, J. (1990). “Nggoleki Struktur ing Wektu(mbukak ing jendhela anyar).” Ing Cognitive Science 1990.

  20. 20

    Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Model basa basis recurrent neural network(mbukak ing jendhela anyar).” Ing INTERSPEECH-2010.

  21. 21

    Larochelle, H., Murray, I. (2011). “Estimator distribusi autoregresif saraf(mbukak ing jendhela anyar).” Ing AISTATS 2011.

  22. 22
  23. 23

    Tian, Y., Krishnan, D., & Isola, P. (2019). “Contrastive multiview coding(mbukak ing jendhela anyar).” Pracetak arXiv.

  24. 24

    He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). “Momentum Contrast kanggo Sinau Representasi Visual Tanpa Supervisi(mbukak ing jendhela anyar).” Pracetak arXiv.

  25. 25

    Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Pangenalan Gambar Efisien Data nganggo Contrastive Predictive Coding(mbukak ing jendhela anyar) .” Pracetak arXiv.

  26. 26

    Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Pixel recurrent neural networks(mbukak ing jendhela anyar).” Pracetak arXiv.

  27. 27

    Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer(mbukak ing jendhela anyar).” Ing ICML 2018.

  28. 28
  29. 29

    Mumford, D. (1992). “Bab arsitektur komputasional neokorteks(mbukak ing jendhela anyar).” Ing Biol. Cybern.

  30. 30
  31. 31
  32. 32
  33. 33

    Hinton, G., Osindero, S., & Teh, Y. (2006). “Algoritma sinau cepet kanggo deep belief nets(mbukak ing jendhela anyar).” Ing Neural Computation.

  34. 34

    Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). “Ngekstrak lan nyusun fitur sing tangguh nganggo denoising autoencoders(mbukak ing jendhela anyar).” Ing ICML 2008.

  35. 35

    Coates, A., Lee, H., & Ng, A. Y. (2011). “Analisis jaringan lapisan tunggal ing sinau fitur tanpa supervisi(mbukak ing jendhela anyar).” Ing AISTATS 2011.

  36. 36

    Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “Mbangun fitur tingkat dhuwur nganggo sinau tanpa supervisi skala gedhe(mbukak ing jendhela anyar).” Ing ICML 2012.

  37. 37

    Donahue, J., Simonyan, K. (2019). “Sinau representasi adversarial skala gedhe(mbukak ing jendhela anyar).” Ing NeurIPS 2019.

  38. 38

    Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). “Deep Big Simple Neural Nets Unggul ing Pangenalan Angka Tulisan Tangan(mbukak ing jendhela anyar).” Ing CoRR 2010.

  39. 39

    Shaw, P., Uszkoreit, J., & Vaswani A. (2018). “Self-attention kanthi representasi posisi relatif(mbukak ing jendhela anyar).” Ing NAACL 2018.

  40. 40

    Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “Generating long sequences with sparse transformers(mbukak ing jendhela anyar).” Pracetak arXiv.

  41. 41
  42. 42

    Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). “Verifikasi tandha tangan nganggo jaringan saraf time delay “siamese”(mbukak ing jendhela anyar).” Ing NeurIPS 1994.

  43. 43

    Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). “Representasi Terdistribusi saka Tembung lan Frasa lan Komposisionalitase(mbukak ing jendhela anyar) .” Ing NeurIPS 2013.

  44. 44

    Oord, A., Li, Y., Vinyals, O. (2018). “Sinau Representasi nganggo Contrastive Predictive Coding(mbukak ing jendhela anyar) .” Pracetak arXiv.

  45. 45

    Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Sinau representasi jero liwat estimasi lan maksimalisasi informasi bebarengan(mbukak ing jendhela anyar).” Ing ICLR 2019.

  46. 46

    Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). “Rekayasa protein rasional terpadu nganggo sinau representasi jero berbasis urutan wae(mbukak ing jendhela anyar).” Ing Nature Methods.

  47. 47

    Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). “Struktur lan Fungsi Biologis Muncul saka Skala Sinau Tanpa Supervisi menyang 250 Juta Urutan Protein(mbukak ing jendhela anyar).” Pracetak bioRxiv.

  48. 48

    Torralba, A., Fergus, R., Freeman, W. (2008). “80 yuta gambar cilik: Dataset gedhe kanggo pangenalan obyek lan adegan nonparametrik(mbukak ing jendhela anyar).” Ing IEEE transactions on pattern analysis and machine intelligence.

  49. 49
  50. 50

    Kornblith, S., Shlens, J., & Le, Q. V. (2019). “Apa Model ImageNet sing Luwih Apik Uga Transfer Luwih Apik?(mbukak ing jendhela anyar).” Ing CVPR 2019.

  51. 51

    Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: Sinau Strategi Augmentasi saka Data(mbukak ing jendhela anyar).” Ing CVPR 2019.

  52. 52
  53. 53

    Gidaris, S., Singh, P., & Komodakis, N. (2018). “Sinau Representasi Tanpa Supervisi kanthi Mredhiksi Rotasi Gambar(mbukak ing jendhela anyar).” Ing ICLR 2018.

  54. 54

    Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). “Sinau Semi-Supervisi nganggo Model Generatif Jero(mbukak ing jendhela anyar).” Ing NeurIPS 2014.

  55. 55

    Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “Teknik sing luwih apik kanggo nglatih GAN(mbukak ing jendhela anyar).” Ing NeurIPS 2016.

  56. 56
  57. 57

    Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: Pendekatan Holistik kanggo Sinau Semi-Supervisi(mbukak ing jendhela anyar).” Ing NeurIPS 2019.

  58. 58

    Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). “Augmentasi Data Tanpa Supervisi kanggo Pelatihan Konsistensi(mbukak ing jendhela anyar).” Pracetak arXiv.

  59. 59

    Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: Nyederhanakake sinau semi-supervisi nganggo konsistensi lan kapercayan(mbukak ing jendhela anyar).” Pracetak arXiv.

  60. 60

Panulis

Mark Chen, Alec Radford, Ilya Sutskever

Pangatur panuwun

Sing utama, kita pengin ngaturake panuwun marang para ko-panulis makalah kita yaiku Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, lan David Luan.

Matur nuwun marang wong-wong iki kanggo masukané tumrap karya iki lan kontribusi marang rilis iki: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le, lan Ashish Vaswani.

Editor: Ashley Pilipiszyn

Desain: Justin Jay Wang

Karya seni sampul: Ben Barry