17 Juni 2020

Image GPT

Waca makalah Deleng kode Makalah ICML 2020 (V1)

Illustration: Ben Barry

Lagi dimuat…

Kita nemokake yen, kaya model transformer gedhe sing dilatih ing basa bisa ngasilake teks sing runtut, model sing padha persis sing dilatih ing urutan piksel bisa ngasilake gambar pelengkapan⁠ lan sampel⁠ sing runtut. Kanthi netepake korélasi antarane kualitas sampel lan akurasi klasifikasi gambar, kita nuduhake manawa model generatif paling apik kita uga ngemot fitur sing saingan karo jaringan konvolusional paling apik ing setelan tanpa supervisi.

Pambuka

Sinau tanpa supervisi lan self-supervised,¹ utawa sinau tanpa data berlabel manungsa, wis dadi tantangan lawas ing machine learning. Bubar iki, pendekatan iki wis entuk sukses luar biasa ing basa, amarga model transformer² kaya BERT,³ GPT‑2,⁴ RoBERTa,⁵ T5,⁶ lan varian liyane^{7, 8, 9, 10} wis nggayuh kinerja paling dhuwur ing macem-macem tugas basa. Nanging, kelas model sing padha iki durung sukses ngasilake fitur sing kuwat kanggo klasifikasi gambar.¹¹ Karya kita tujuane kanggo mangerteni lan njembatani celah iki.

Model transformer kaya BERT lan GPT‑2 iku agnostik domain, tegese bisa langsung ditrapake marang urutan 1-D ing bentuk apa wae. Nalika kita nglatih GPT‑2 ing gambar sing diurai dadi urutan piksel dawa, sing kita sebut iGPT, kita nemokake manawa model kasebut katon ngerti karakteristik gambar 2-D kayata tampilan obyek lan kategori. Iki kabukten saka rentang manéka warna sampel gambar runtut sing diasilake, sanajan tanpa pandhuan label sing diwenehake manungsa. Minangka bukti tambahan, fitur saka model iki nggayuh kinerja state-of-the-art ing sawetara dataset klasifikasi lan akurasi tanpa supervisi sing meh state-of-the-art^A ing ImageNet.

Evaluasi	Dataset	Asil Kita	Asil non-iGPT paling apik
Regresi logistik ing fitur sing disinaoni (linear probe)	CIFAR-10	96.3 iGPT‑L 32x32 nganggo 1536 fitur	95.3 SimCLR¹²⁠ nganggo 8192 fitur
	CIFAR-100	82.8 iGPT‑L 32x32 nganggo 1536 fitur	80.2 SimCLR nganggo 8192 fitur
	STL-10	95.5 iGPT‑L 32x32 nganggo 1536 fitur	94.2 AMDIM¹³⁠ nganggo 8192 fitur
	ImageNet	72.0 iGPT‑XL^a⁠ 64x64 nganggo 15360 fitur	76.5 SimCLR nganggo 8192 fitur
Fine-tune lengkap	CIFAR-10	99.0 iGPT‑L 32x32, dilatih ing ImageNet	99.0^b⁠ GPipe,¹⁴⁠ dilatih ing ImageNet
	ImageNet 32x32	66.3 iGPT‑L 32x32	70.2 Isometric Nets¹⁵⁠

Kita mung nuduhake akurasi linear probe ImageNet kanggo iGPT‑XL amarga eksperimen liyane durung rampung sadurunge kita kudu pindhah menyang fasilitas superkomputasi liyane.
Bit-L, sing dilatih ing JFT (300M gambar kanthi 18K kelas), nggayuh asil 99.3.

Kanggo nyorot potensi model generatif^{17, 18} urutan^{19, 20, 21, 22} minangka algoritma sinau tanpa supervisi serbaguna, kita kanthi sengaja nggunakake arsitektur transformer sing padha kaya GPT‑2 ing basa. Akibate, kita mbutuhake komputasi luwih akeh supaya bisa ngasilake fitur sing kompetitif karo fitur saka jaringan konvolusional tanpa supervisi paling apik.^{13, 23, 24, 25, 12} Nanging, asil kita nuduhake yen nalika ngadhepi domain anyar sing prior model sing bener durung dingerteni, GPT‑2 gedhe bisa sinau fitur apik banget tanpa perlu pilihan desain arsitektur khusus domain^{26, 27, 28}.

Lagi dimuat...

Saka GPT basa menyang GPT gambar

Ing basa, algoritma sinau tanpa supervisi sing gumantung marang prediksi tembung (kayata GPT‑2 lan BERT) wis banget sukses, nganti nggayuh kinerja paling dhuwur ing manéka tugas basa. Salah siji sebab sing mungkin kanggo sukses iki yaiku conto tugas basa hilir katon alami ing teks: pitakon asring diterusake jawaban (sing bisa mbantu pitakon-jawaban) lan paragraf asring diterusake ringkesan (sing bisa mbantu panyaruman). Kosok baline, urutan piksel ora kanthi cetha ngemot label kanggo gambar sing dadi duwèké.

Sanajan tanpa supervisi eksplisit iki, isih ana alesan kenapa GPT‑2 ing gambar bisa makarya: transformer sing cukup gedhe sing dilatih kanggo prediksi piksel sabanjure bisa pungkasane sinau ngasilake sampel^B sing manéka warna kanthi obyek sing cetha bisa dikenali. Sawise model sinau nglakoni iki, gagasan sing dikenal minangka “Analisis liwat Sintesis”^{29, 30, C} nuduhake yen model uga bakal ngerti kategori obyek. Akeh model generatif awal^{31, 32, 33, 34, 35, 36} dipacu dening gagasan iki, lan luwih anyar, BigBiGAN³⁷ dadi salah siji conto sing ngasilake sampel lan fitur sing njanjèkaké. Ing karya kita, dhisik kita nuduhake yen model generatif sing luwih apik nggayuh kinerja klasifikasi sing luwih kuwat. Banjur, liwat optimasi GPT‑2 kanggo kemampuan generatif, kita nggayuh kinerja klasifikasi tingkat paling dhuwur ing akèh setelan, menehi bukti luwih lanjut kanggo analisis liwat sintesis.

Menyang sinau tanpa supervisi umum

Pemodelan urutan generatif iku algoritma sinau tanpa supervisi universal: amarga kabeh jinis data bisa diwakili minangka urutan byte, transformer bisa langsung ditrapake marang jinis data apa wae tanpa rekayasa tambahan. Karya kita nguji kekuwatan saka keumuman iki kanthi langsung nerapake arsitektur sing digunakake kanggo nglatih GPT‑2 ing basa alami marang generasi gambar. Kita kanthi sengaja milih ora nambah kawruh khusus gambar apa wae ing bentuk konvolusi³⁸ utawa teknik kaya relative attention,³⁹ sparse attention,⁴⁰ lan embedding posisi 2-D.²⁷

Minangka akibat saka sifat umume, metode kita mbutuhake komputasi luwih akeh kanggo nggayuh kinerja kompetitif ing setelan tanpa supervisi. Pancen, metode kontrasif^{41, 42, 43, 44, 45, 13, 23, 24, 25, 12} isih dadi metode sing paling efisien sacara komputasi kanggo ngasilake fitur kualitas dhuwur saka gambar. Nanging, kanthi nuduhake yen model transformer tanpa supervisi kompetitif karo jaringan konvolusional tanpa supervisi paling apik,^{24, 25, 12} kita menehi bukti yen bisa ngorbanake kawruh domain sing dikode kanthi tangan kanggo komputasi. Ing domain anyar,^{46, 47} sing ora nduweni akeh kawruh kanggo dikode tangan, nambah skala komputasi katon dadi teknik sing pas kanggo diuji.

Pendekatan

Kita nglatih iGPT‑S, iGPT‑M, lan iGPT‑L, transformer sing ngemot 76M, 455M, lan 1.4B parameter, ing ImageNet. Kita uga nglatih iGPT‑XL^D, transformer 6.8 milyar parameter, ing campuran ImageNet lan gambar saka web. Amarga biaya komputasi gedhe kanggo memodelake urutan dawa kanthi attention padhet, kita nglatih ing résolusi rendah 32x32, 48x48, lan 64x64.

Sanajan nyenengake kanggo makarya ing résolusi sing luwih murah maneh supaya biaya komputasi luwih suda, karya sadurunge wis nuduhake yen kinerja manungsa ing klasifikasi gambar wiwit mudhun kanthi cepet ing ngisor ukuran iki.⁴⁸ Nanging, kanthi inspirasi saka palet tampilan warna awal,⁴⁹ kita nggawe palet warna 9-bit dhewe kanggo makili piksel. Nggunakake palet iki ngasilake dawa urutan input 3 kaping luwih cekak tinimbang palet standar (R, G, B), nanging isih ngode warna kanthi setya.

Hasil eksperimen

Ana rong cara sing kita gunakake kanggo ngevaluasi kinerja model, loro-lorone nglibatake tugas klasifikasi hilir. Cara pisanan, sing kita sebut linear probe, nggunakake model sing wis dilatih kanggo ngekstrak fitur^E saka gambar ing dataset hilir, banjur nyocogake regresi logistik marang label-labele. Cara kapindho nyetel alus^F kabeh model ing dataset hilir.

Amarga prediksi piksel sabanjure ora mesthi ana gandhengané karo klasifikasi gambar, fitur saka lapisan pungkasan bisa uga dudu sing paling prediktif kanggo kategori obyek. Asil pisanan kita nuduhake yen kualitas fitur iku fungsi saka kedalaman sing mundhak tajem, banjur mudhun alon. Prilaku iki nuduhake yen model generatif transformer makarya ing rong fase: ing fase pisanan, saben posisi nglumpukake informasi saka konteks sakupenge kanggo mbangun fitur gambar sing dikontekstualake. Ing fase kapindho, fitur sing dikontekstualake iki digunakake kanggo ngrampungake tugas prediksi piksel sabanjure kondisional. Kinerja rong tahap sing diamati saka linear probe kita ngélingake marang jaringan saraf tanpa supervisi liyane, yaiku bottleneck autoencoder, sing dirancang kanthi manual supaya fitur ing tengah digunakake.

Lagi dimuat...

Asil sabanjure kita netepake hubungan antarane kinerja generatif lan kualitas fitur. Kita nemokake yen nambah skala model kita lan nglatih luwih akeh iterasi loro-lorone ngasilake kinerja generatif sing luwih apik, sing langsung nerjemah dadi kualitas fitur sing luwih apik.

Lagi dimuat...

Nalika kita ngevaluasi fitur kita nganggo linear probe ing CIFAR-10, CIFAR-100, lan STL-10, kita ngluwihi fitur saka kabeh algoritma transfer terawasi lan tanpa supervisi. Asil kita uga kuwat banget ing setelan fine-tuning lengkap.

			Pra-dilatih ing ImageNet
Evaluasi	Model	Akurasi	tanpa label	kanthi label
CIFAR-10 Linear Probe	ResNet-152⁵⁰	94.0		✔
	SimCLR¹²	95.3	✔
	iGPT‑L 32x32	96.3	✔	✔
CIFAR-100 Linear Probe	ResNet-152	78.0		✔
	SimCLR	80.2	✔
	iGPT‑L 32x32	82.8	✔
STL-10 Linear Probe	AMDIM-L	94.2	✔
	iGPT‑L 32x32	95.5	✔
CIFAR-10 Fine-tune	AutoAugment	98.5
	SimCLR	98.6	✔
	GPipe	99.0		✔
	iGPT‑L	99.0	✔
CIFAR-100 Fine-tune	iGPT‑L	88.5	✔
	SimCLR	89.0	✔
	AutoAugment	89.3
	EfficientNet⁵²	91.7		✔

Perbandingan akurasi linear probe lan fine-tune antarane model kita lan model paling apik sing nggunakake transfer ImageNet tanpa supervisi utawa terawasi. Kita uga nyakup AutoAugment, model paling apik sing dilatih end-to-end ing CIFAR.

Amarga minat marang sinau tanpa supervisi lan self-supervised ing ImageNet bali mundhak, kita uga ngevaluasi kinerja model kita nganggo linear probe ing ImageNet. Iki setelan sing utamané angel, amarga kita ora nglatih ing résolusi input ImageNet standar. Sanadyan mangkono, linear probe ing 1536 fitur saka lapisan paling apik iGPT‑L sing dilatih ing gambar 48x48 ngasilake akurasi top-1 65.2%, ngluwihi AlexNet.

Metode kontrasif biasane nglaporake asil paling apik ing 8192 fitur, mula saenane kita ngevaluasi iGPT nganggo dimensi embedding 8192 kanggo perbandingan. Nanging, nglatih model kaya ngono larang banget, mula kita malah nggabungake fitur saka pirang-pirang lapisan minangka pendekatan kira-kira. Sayange, fitur kita cenderung saling berkorelasi antar lapisan, mula kita butuh luwih akeh supaya kompetitif. Nggunakake 15360 fitur saka 5 lapisan ing iGPT‑XL ngasilake akurasi top-1 72.0%, ngluwihi AMDIM, MoCo, lan CPC v2, nanging isih kalah saka SimCLR kanthi selisih sing lumayan.

Metode	Résolusi Input	Fitur	Parameter	Akurasi
Rotation⁵³	original	8192	86M	55.4
iGPT‑L	32x32	1536	1362M	60.3
BigBiGAN³⁷	original	16384	86M	61.3
iGPT‑L	48x48	1536	1362M	65.2
AMDIM¹³	original	8192	626M	68.1
MoCo²⁴	original	8192	375M	68.6
iGPT‑XL	64x64	3072	6801M	68.7
SimCLR¹²	original	2048	24M	69.3
CPC v2²⁵	original	4096	303M	71.5
iGPT‑XL	64x64	3072 x 5	6801M	72.0
SimCLR	original	8192	375M	76.5

Perbandingan akurasi linear probe antarane model kita lan model self-supervised paling mutakhir. Kita nggayuh kinerja sing kompetitif nalika latihan ing résolusi input sing luwih murah, sanajan metode kita mbutuhake parameter lan komputasi luwih akeh.

Amarga model basa termask kaya BERT wis ngluwihi model generatif ing akèh tugas basa, kita uga ngevaluasi kinerja BERT ing model gambar kita. Tinimbang nglatih model kita kanggo prédhiksi piksel sabanjure adhedhasar kabeh piksel sadurunge, kita nutupi 15% saka piksel lan nglatih model kanggo prédhiksi saka piksel sing ora ditutupi. Kita nemokake yen sanajan kinerja linear probe ing model BERT luwih ala kanthi signifikan, model iki unggul nalika fine-tuning:

Lagi dimuat...

Sanajan sinau tanpa supervisi njanjèkaké fitur apik banget tanpa perlu data berlabel manungsa, kemajuan penting akhir-akhir iki wis dicapai ing kerangka sinau semi-supervisi sing luwih longgar, sing ngidini jumlah winates data berlabel manungsa. Cara semi-supervisi sing sukses asring gumantung marang teknik cerdas kayata regularisasi konsistensi, augmentasi data, utawa pseudo-labeling, lan pendekatan sing murni adhedhasar generatif^{54, 55} wis ora kompetitif pirang-pirang taun. Kita ngevaluasi iGPT‑L^G ing benchmark kompetitif kanggo subbidang iki lan nemokake yen linear probe sing prasaja ing fitur saka gambar tanpa augmentasi ngluwihi Mean Teacher⁵⁶ lan MixMatch,⁵⁷ nanging isih kalah saka FixMatch.⁵⁹

Model	40 label	250 label	4000 label
Improved GAN⁵⁵	—	—	81.4 ± 2.3
Mean Teacher⁵⁶	—	67.7 ± 2.3	90.8 ± 0.2
MixMatch⁵⁷	52.5 ± 11.5	89.0 ± 0.9	93.6 ± 0.1
iGPT‑L	73.2 ± 01.5	87.6 ± 0.6	94.3 ± 0.1
UDA⁵⁸	71.0 ± 05.9	91.2 ± 1.1	95.1 ± 0.2
FixMatch⁵⁹ RA	86.2 ± 03.4	94.9 ± 0.7	95.7 ± 0.1
FixMatch CTA	88.6 ± 03.4	94.9 ± 0.3	95.7 ± 0.2

Perbandingan kinerja ing CIFAR-10 kanthi data sithik. Kanthi nggunakke akeh gambar ImageNet tanpa label, iGPT‑L bisa ngluwihi cara kayata Mean Teacher lan MixMatch nanging isih kalah saka cara paling apik. Pendekatan kita kanggo sinau semi-supervisi prasaja banget amarga kita mung nyocogake pengklasifikasi regresi logistik ing fitur iGPT‑L tanpa augmentasi data utawa fine-tuning—prabédan penting saka pendekatan semi-supervisi sing dirancang khusus.

Watesan

Sanajan kita wis nuduhake yen iGPT bisa sinau fitur gambar sing kuwat, isih ana watesan penting ing pendekatan kita. Amarga kita nggunakake sequence transformer umum sing digunakake kanggo GPT‑2 ing basa, metode kita mbutuhake komputasi gedhe: iGPT‑L dilatih kira-kira 2500 V100-days déné model MoCo24⁠ sing kinerjane padha bisa dilatih kira-kira 70 V100-days.

Gandhengan karo kuwi, kita memodelake input résolusi rendah nganggo transformer, déné akèh asil self-supervised nggunakake encoder basis konvolusi sing gampang nampa input résolusi dhuwur. Arsitektur anyar, kayata transformer multiskala sing agnostik domain, bisa uga dibutuhake supaya bisa skala luwih adoh. Amarga watesan iki, karya kita utamané dadi demonstrasi bukti-konsep babagan kemampuan model basa gedhe basis transformer kanggo sinau representasi tanpa supervisi sing apik banget ing domain anyar, tanpa perlu kawruh domain sing di-hardcode. Nanging, biaya sumber daya sing gedhe kanggo nglatih model iki lan akurasi sing luwih dhuwur saka metode basis jaringan saraf konvolusional nggawe representasi iki ora praktis kanggo aplikasi nyata ing domain visi.

Pungkasan, model generatif bisa nampilake bias sing dadi akibat saka data sing digunakake kanggo nglatih. Akeh saka bias iki migunani, kayata nganggep gabungan piksel coklat lan ijo nggambarake dahan sing ketutupan godhong, banjur nggunakke bias iki kanggo nerusake gambar. Nanging sawetara bias iki bakal mbebayani yen dideleng saka sudut pandang keadilan lan representasi. Contoné, yen model ngembangake pemahaman visual babagan ilmuwan sing condhong lanang, mula bisa kanthi konsisten ngrampungake gambar ilmuwan nganggo wong sing katon lanang, tinimbang campuran gender. Kita ngarepake para pangembang kudu saya luwih merhatekake data sing diparingake menyang sistem lan luwih ngerti hubungane karo bias ing model sing wis dilatih.

Kesimpulan

Kita wis nuduhake manawa kanthi ngorbanake kawruh 2-D demi skala⁶⁰ lan kanthi milih fitur prediktif saka tengah jaringan, sequence transformer bisa saingan karo jaringan konvolusional paling apik kanggo klasifikasi gambar tanpa supervisi. Sing wigati, kita nggayuh asil iki kanthi langsung nerapake model basa GPT‑2 kanggo generasi gambar. Asil kita nuduhake yen amarga kesederhanaan lan sifat umume, sequence transformer sing diwenehi komputasi cukup bisa dadi cara efektif kanggo sinau fitur apik banget ing akeh domain.

Yen sampeyan semangat kerja bareng kita ing area riset iki, kita lagi mbukak lowongan⁠!

Cathetan kaki

A
Diukur liwat regresi logistik ing fitur sing disinaoni (linear probe).
B
Transformer dilatih kanggo ngoptimalake likelihood, mula nutupi mode, sing kanthi otomatis njamin keragaman sampelé.
C
Gagasan analisis liwat sintesis asli luwih minangka argumentasi kanggo model generatif kanthi variabel laten, nanging amarga model generatif tanpa variabel laten luwih apik banget ing memodelake distribusi data, kita mikir konjektur analisis-liwat-sintesis uga kudu berlaku kanggo model kasebut.
D
Kita mung nuduhake akurasi linear probe ing ImageNet kanggo iGPT-XL amarga eksperimen liyane durung rampung sadurunge kita kudu pindhah menyang fasilitas superkomputasi sing beda.
E
Kanggo ngekstrak fitur kanggo linear probe, kita njupuk input blok attention post layernorm ing lapisan tartamtu lan average pool ing dimensi urutan.
F
Kanggo fine-tuning, kita njupuk output transformer post layernorm lan average pool ing dimensi urutan minangka input kanggo classification head.
G
Model generatif sing sinau fitur kanthi cara murni tanpa supervisi.

Referensi

1
LeCun, Y. (2017). “Sinau Prediktif⁠(mbukak ing jendhela anyar).”
2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Attention Is All You Need⁠(mbukak ing jendhela anyar).” Ing NeurIPS 2017.
3
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). “BERT: latihan awalan Transformer Bidirectional Jero kanggo Pangerten Basa⁠(mbukak ing jendhela anyar).” Pracetak arXiv.
4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Model Basa iku Pamelajar Multitugas Tanpa Supervisi⁠(mbukak ing jendhela anyar).” Laporan Teknis, OpenAI.
5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: Pendekatan latihan awalan BERT sing Dioptimalake kanthi Tangguh⁠(mbukak ing jendhela anyar).” Pracetak arXiv.
6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “Njajaki Wates Transfer Learning nganggo Transformer Text-to-Text Terpadu⁠(mbukak ing jendhela anyar).” Pracetak arXiv.
7
Dai, A., Le, Q. V. (2015). “Sinau urutan semi-supervisi⁠(mbukak ing jendhela anyar).” Ing NeurIPS 2015.
8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “Representasi Tembung Kontekstual Jero⁠(mbukak ing jendhela anyar).” Ing NAACL 2018.
9
Howard, J., Ruder, S. (2018). “Fine-tuning Model Basa Universal kanggo Klasifikasi Teks⁠(mbukak ing jendhela anyar).” Ing ACL 2018.
10
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “Ningkatake pangerten basa liwat latihan awalan generatif⁠(mbukak ing jendhela anyar).” Laporan Teknis, OpenAI.
11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). “Sparse attentive backtracking: Temporal credit assignment through reminding⁠(mbukak ing jendhela anyar).” Ing NeurIPS 2018.
12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). “Kerangka Sederhana kanggo Contrastive Learning saka Representasi Visual⁠(mbukak ing jendhela anyar).” Pracetak arXiv.
13
Bachman, P., Hjelm, R., & Buchwalter, W. (2019). “Sinau representasi kanthi ngoptimalake informasi bebarengan antar tampilan⁠(mbukak ing jendhela anyar).” Ing NeurIPS 2019.
14
Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): Representasi Visual Umum⁠(mbukak ing jendhela anyar).” Pracetak arXiv.
15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: Pelatihan Efisien Jaringan Saraf Raksasa nganggo Paralelisme Pipeline⁠(mbukak ing jendhela anyar).” Ing NeurIPS 2019.
16
Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). “Data sing Ora Diskriminatif utawa Model sing Lemah? Bab Pentinge Relatif Résolusi Data lan Model⁠(mbukak ing jendhela anyar).” Ing ICCV 2019.
17
Lasserre, J., Bishop, C., & Minka, T. P. (2006). “Hibrida Prinsipil saka Model Generatif lan Diskriminatif⁠(mbukak ing jendhela anyar).” Ing CVPR 2006.
18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). “Napa latihan awalan tanpa supervisi mbantu sinau jero?⁠(mbukak ing jendhela anyar).” Ing JMLR 2010.
19
Elman, J. (1990). “Nggoleki Struktur ing Wektu⁠(mbukak ing jendhela anyar).” Ing Cognitive Science 1990.
20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Model basa basis recurrent neural network⁠(mbukak ing jendhela anyar).” Ing INTERSPEECH-2010.
21
Larochelle, H., Murray, I. (2011). “Estimator distribusi autoregresif saraf⁠(mbukak ing jendhela anyar).” Ing AISTATS 2011.
22
Graves, A. (2013). “Ngasilake urutan nganggo recurrent neural networks⁠(mbukak ing jendhela anyar).” Pracetak arXiv.
23
Tian, Y., Krishnan, D., & Isola, P. (2019). “Contrastive multiview coding⁠(mbukak ing jendhela anyar).” Pracetak arXiv.
24
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). “Momentum Contrast kanggo Sinau Representasi Visual Tanpa Supervisi⁠(mbukak ing jendhela anyar).” Pracetak arXiv.
25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Pangenalan Gambar Efisien Data nganggo Contrastive Predictive Coding⁠(mbukak ing jendhela anyar) .” Pracetak arXiv.
26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Pixel recurrent neural networks⁠(mbukak ing jendhela anyar).” Pracetak arXiv.
27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer⁠(mbukak ing jendhela anyar).” Ing ICML 2018.
28
Menick, J., Kalchbrenner, N. (2018). “Ngasilake Gambar Fidelitas Dhuwur nganggo Subscale Pixel Networks lan Multidimensional Upscaling⁠(mbukak ing jendhela anyar).” Pracetak arXiv.
29
Mumford, D. (1992). “Bab arsitektur komputasional neokorteks⁠(mbukak ing jendhela anyar).” Ing Biol. Cybern.
30
Rao, R., Ballard, D. (1999). “Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects⁠(mbukak ing jendhela anyar).” Ing Nature Neuroscience.
31
Smolensky, P. (1986). “Pemrosesan informasi ing sistem dinamis: Dasar teori harmoni⁠(mbukak ing jendhela anyar).”
32
Hinton, G. (2002). “Melatih Products of Experts kanthi Minimalake Contrastive Divergence⁠(mbukak ing jendhela anyar).” Ing MIT Press.
33
Hinton, G., Osindero, S., & Teh, Y. (2006). “Algoritma sinau cepet kanggo deep belief nets⁠(mbukak ing jendhela anyar).” Ing Neural Computation.
34
Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). “Ngekstrak lan nyusun fitur sing tangguh nganggo denoising autoencoders⁠(mbukak ing jendhela anyar).” Ing ICML 2008.
35
Coates, A., Lee, H., & Ng, A. Y. (2011). “Analisis jaringan lapisan tunggal ing sinau fitur tanpa supervisi⁠(mbukak ing jendhela anyar).” Ing AISTATS 2011.
36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “Mbangun fitur tingkat dhuwur nganggo sinau tanpa supervisi skala gedhe⁠(mbukak ing jendhela anyar).” Ing ICML 2012.
37
Donahue, J., Simonyan, K. (2019). “Sinau representasi adversarial skala gedhe⁠(mbukak ing jendhela anyar).” Ing NeurIPS 2019.
38
Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). “Deep Big Simple Neural Nets Unggul ing Pangenalan Angka Tulisan Tangan⁠(mbukak ing jendhela anyar).” Ing CoRR 2010.
39
Shaw, P., Uszkoreit, J., & Vaswani A. (2018). “Self-attention kanthi representasi posisi relatif⁠(mbukak ing jendhela anyar).” Ing NAACL 2018.
40
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “Generating long sequences with sparse transformers⁠(mbukak ing jendhela anyar).” Pracetak arXiv.
41
Becker, S., Hinton, G. (1991). “Jaringan saraf sing ngatur dhewe sing nemokake permukaan ing stereogram titik acak⁠(mbukak ing jendhela anyar).” Ing Nature.
42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). “Verifikasi tandha tangan nganggo jaringan saraf time delay “siamese”⁠(mbukak ing jendhela anyar).” Ing NeurIPS 1994.
43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). “Representasi Terdistribusi saka Tembung lan Frasa lan Komposisionalitase⁠(mbukak ing jendhela anyar) .” Ing NeurIPS 2013.
44
Oord, A., Li, Y., Vinyals, O. (2018). “Sinau Representasi nganggo Contrastive Predictive Coding⁠(mbukak ing jendhela anyar) .” Pracetak arXiv.
45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Sinau representasi jero liwat estimasi lan maksimalisasi informasi bebarengan⁠(mbukak ing jendhela anyar).” Ing ICLR 2019.
46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). “Rekayasa protein rasional terpadu nganggo sinau representasi jero berbasis urutan wae⁠(mbukak ing jendhela anyar).” Ing Nature Methods.
47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). “Struktur lan Fungsi Biologis Muncul saka Skala Sinau Tanpa Supervisi menyang 250 Juta Urutan Protein⁠(mbukak ing jendhela anyar).” Pracetak bioRxiv.
48
Torralba, A., Fergus, R., Freeman, W. (2008). “80 yuta gambar cilik: Dataset gedhe kanggo pangenalan obyek lan adegan nonparametrik⁠(mbukak ing jendhela anyar).” Ing IEEE transactions on pattern analysis and machine intelligence.
49
“Daftar Grafis Perangkat Keras Komputer 8-Bit⁠(mbukak ing jendhela anyar).” Wikipedia, 8 Mei 2020
50
Kornblith, S., Shlens, J., & Le, Q. V. (2019). “Apa Model ImageNet sing Luwih Apik Uga Transfer Luwih Apik?⁠(mbukak ing jendhela anyar).” Ing CVPR 2019.
51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: Sinau Strategi Augmentasi saka Data⁠(mbukak ing jendhela anyar).” Ing CVPR 2019.
52
Tan, M., Le, Q. V. (2019). “EfficientNet: Mikir Ulang Skala Model kanggo Jaringan Saraf Konvolusional⁠(mbukak ing jendhela anyar).” Ing ICML 2019.
53
Gidaris, S., Singh, P., & Komodakis, N. (2018). “Sinau Representasi Tanpa Supervisi kanthi Mredhiksi Rotasi Gambar⁠(mbukak ing jendhela anyar).” Ing ICLR 2018.
54
Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). “Sinau Semi-Supervisi nganggo Model Generatif Jero⁠(mbukak ing jendhela anyar).” Ing NeurIPS 2014.
55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “Teknik sing luwih apik kanggo nglatih GAN⁠(mbukak ing jendhela anyar).” Ing NeurIPS 2016.
56
Tarvainen, A., Valpola, H. (2017). “Mean teachers dadi panutan sing luwih apik: target konsistensi rata-rata bobot ningkatake asil sinau jero semi-supervisi⁠(mbukak ing jendhela anyar).” Ing NeurIPS 2017.
57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: Pendekatan Holistik kanggo Sinau Semi-Supervisi⁠(mbukak ing jendhela anyar).” Ing NeurIPS 2019.
58
Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). “Augmentasi Data Tanpa Supervisi kanggo Pelatihan Konsistensi⁠(mbukak ing jendhela anyar).” Pracetak arXiv.
59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: Nyederhanakake sinau semi-supervisi nganggo konsistensi lan kapercayan⁠(mbukak ing jendhela anyar).” Pracetak arXiv.
60
Sutton, R. (2019). “Pelajaran Pait⁠(mbukak ing jendhela anyar).”

Panulis

Mark Chen, Alec Radford, Ilya Sutskever

Pangatur panuwun

Sing utama, kita pengin ngaturake panuwun marang para ko-panulis makalah kita yaiku Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, lan David Luan.

Matur nuwun marang wong-wong iki kanggo masukané tumrap karya iki lan kontribusi marang rilis iki: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le, lan Ashish Vaswani.

Editor: Ashley Pilipiszyn

Desain: Justin Jay Wang

Karya seni sampul: Ben Barry

Image GPT

Pambuka

Saka GPT basa menyang GPT gambar

Menyang sinau tanpa supervisi umum

Pendekatan

Hasil eksperimen

Watesan

Kesimpulan

Cathetan kaki

Referensi

Panulis

Pangatur panuwun

Artikel terkait