5 Januari 2021

CLIP: Nyambungake teks lan gambar

Ilustrasi: Justin Jay Wang

Lagi dimuat…

Kita ngenalake jaringan saraf jenenge CLIP sing kanthi efisien sinau konsep visual saka supervisi basa alami. CLIP bisa ditrapake ing benchmark klasifikasi visual apa wae mung kanthi nyedhiyakake jeneng kategori visual sing arep dikenali, mirip karo kemampuan “conto tanpa latihan” saka GPT‑2 lan GPT‑3.

Sanadyan sinau jero wis ngrevolusi computer vision, pendekatan saiki nduweni sawetara masalah utama: dataset visi khas mbutuhake tenaga gedhe lan larang kanggo digawe nanging mung mulangake set konsep visual sing sempit; model visi standar mung apik kanggo siji tugas lan mung siji tugas, lan butuh usaha gedhe kanggo diadaptasi menyang tugas anyar; lan model sing kinerjane apik ing benchmark kerep nduweni kinerja sing nguciwani ing stress test,^{1, 2, 3, 4} sing ndadekake keraguan marang sakabehe pendekatan sinau jero kanggo computer vision.

Kita nampilake jaringan saraf sing tujuane ngatasi masalah iki: jaringan iki dilatih ing macem-macem gambar kanthi macem-macem supervisi basa alami sing akeh banget kasedhiya ing internet. Miturut desain, jaringan iki bisa diparingi instruksi nganggo basa alami kanggo nindakake maneka benchmark klasifikasi, tanpa langsung ngoptimalake kinerja benchmark kasebut, mirip karo kemampuan “conto tanpa latihan⁠(mbukak ing jendhela anyar)” saka GPT‑2⁵ lan GPT‑3.⁶ Iki owah-owahan penting: amarga ora langsung ngoptimalake benchmark, kita nuduhake yen asilé dadi luwih makili: sistem kita nutup “celah robustness” iki nganti 75% nalika nyandingi kinerja ResNet-50⁷ asli ing ImageNet⁠(mbukak ing jendhela anyar) conto tanpa latihan tanpa nggunakake siji wae saka 1.28M conto berlabel asli.

Lagi dimuat...

Latar mburi lan karya terkait

CLIP (Contrastive Language–Image Pre-training) mbangun saka akeh karya babagan transfer conto tanpa latihan, supervisi basa alami, lan sinau multimodal. Gagasan sinau tanpa data wis ana luwih saka sepuluh taun kepungkur⁸ nanging nganti bubar umume mung ditliti ing computer vision minangka cara kanggo nggeneralisasi menyang kategori obyek sing durung katon.^{9, 10} Wawasan penting yaiku nggunakke basa alami minangka ruang prediksi sing luwes supaya generalisasi lan transfer bisa kelakon. Ing 2013, Richard Socher lan para panulis bebarengan ing Stanford¹¹ ngembangake bukti konsep kanthi nglatih model ing CIFAR-10 kanggo nggawe prediksi ing ruang embedding vektor tembung lan nuduhake yen model iki bisa prédhiksi rong kelas sing durung katon. Ing taun sing padha DeVISE¹² ngskala pendekatan iki lan nduduhake yen bisa nindakake fine-tuning model ImageNet supaya bisa nggeneralisasi kanggo prédhiksi obyek ing njaba 1000 set latihan asli kanthi bener.

Sing paling menehi inspirasi kanggo CLIP yaiku karya Ang Li lan para panulis bebarengané ing FAIR¹³ sing ing 2016 nduduhake panggunaan supervisi basa alami kanggo ngaktifake transfer conto tanpa latihan menyang sawetara dataset klasifikasi computer vision sing wis ana, kayata dataset ImageNet kanonik. Dheweke nggayuh iki kanthi fine-tuning CNN ImageNet supaya prédhiksi set konsep visual sing luwih amba (visual n-grams) saka teks judhul, deskripsi, lan tag saka 30 yuta foto Flickr lan bisa tekan akurasi 11.5% ing ImageNet conto tanpa latihan.

Pungkasan, CLIP dadi bagean saka klompok paper sing mriksa maneh sinau representasi visual saka supervisi basa alami sajrone setaun kepungkur. Jalur karya iki nggunakake arsitektur luwih modern kaya Transformer³² lan kalebu VirTex,³³ sing nliti pemodelan basa autoregresif, ICMLM,³⁴ sing nyinaoni pemodelan basa masked, lan ConVIRT,³⁵ sing nyinaoni tujuan kontrastif sing padha karo sing digunakake kanggo CLIP nanging ing bidang pencitraan medis.

Pendekatan

Kita nuduhake manawa ngskala tugas latihan awalan sing sederhana wis cukup kanggo nggayuh kinerja conto tanpa latihan sing kompetitif ing maneka warna dataset klasifikasi gambar. Metode kita nggunakake sumber supervisi sing akeh banget kasedhiya: teks sing dipasangkan karo gambar sing ditemokake ing saindhenging internet. Data iki digunakake kanggo nggawe tugas latihan proksi ing ngisor iki kanggo CLIP: diwenehi gambar, prédhiksi potongan teks endi saka set 32.768 potongan teks sing dijupuk kanthi acak sing sejatiné dipasangkan karo gambar kasebut ing dataset kita.

Kanggo ngrampungake tugas iki, intuisi kita yaiku model CLIP kudu sinau ngenali maneka warna konsep visual ing gambar lan ngubungake karo jenenge. Akibate, model CLIP banjur bisa ditrapake ing tugas klasifikasi visual sing meh sembarang. Contone, yen tugas dataset yaiku nggolongake foto asu lawan kucing, kita mriksa kanggo saben gambar apa model CLIP prédhiksi deskripsi teks “foto asu” utawa “foto kucing” luwih mungkin dipasangkan karo gambar kasebut.

Lagi dimuat...

CLIP dirancang kanggo nyuda sawetara masalah utama ing pendekatan sinau jero standar kanggo computer vision:

Dataset sing larang: Sinau jero butuh akeh data, lan model visi sacara tradisional dilatih nganggo dataset sing diwenehi label kanthi manual, sing larang digawe lan mung nyedhiyakake supervisi kanggo jumlah winates konsep visual sing wis ditemtokake. Dataset ImageNet, salah siji upaya paling gedhe ing ruang iki, mbutuhake luwih saka 25.000 pekerja kanggo menehi anotasi 14 yuta gambar kanggo 22.000 kategori obyek. Kosok baline, CLIP sinau saka pasangan teks–gambar sing wis kasedhiya umum ing internet. Nyuda kebutuhan marang dataset gedhe berlabel sing larang wis akeh ditliti ing karya sadurunge, mligine sinau mandiri-terawasi,^{14, 15, 16} metode kontrastif,^{17, 18, 19, 20, 21} pendekatan self-training,^{22, 23} lan pemodelan generatif.^{24, 25, 26, 27}

Sempit: Model ImageNet apik kanggo prédhiksi 1000 kategori ImageNet, nanging mung kuwi sing bisa ditindakake “langsung saka kothak.” Yen kita pengin nindakake tugas liyane, praktisi ML kudu mbangun dataset anyar, nambah output head, lan nindakake fine-tuning model. Kosok baline, CLIP bisa diadaptasi kanggo nindakake macem-macem tugas klasifikasi visual tanpa perlu conto latihan tambahan. Kanggo nerapake CLIP menyang tugas anyar, sing dibutuhake mung “ngandhani” text-encoder CLIP jeneng konsep visual saka tugas kasebut, lan iki bakal ngasilake classifier linear saka representasi visual CLIP. Akurasi classifier iki asring kompetitif karo model sing diawasi kanthi lengkap.

Ing ngisor iki kita nuduhake prediksi acak, tanpa dipilih-pilih, saka classifier CLIP conto tanpa latihan ing conto saka macem-macem dataset.

Lagi dimuat...

Kinerja ala ing donya nyata: Sistem sinau jero asring dilaporake bisa nggayuh kinerja kaya manungsa utawa malah ngluwihi manungsa^{28, A} ing benchmark visi, nanging nalika disebarake ing lapangan, kinerjane bisa adoh ing ngisor pangarepan sing dibangun benchmark. Kanthi tembung liya, ana jarak antarane “kinerja benchmark” lan “kinerja nyata.” Kita nduga jarak iki kedadeyan amarga model “ngapusi” kanthi mung ngoptimalake kinerja ing benchmark, padha kaya murid sing lulus ujian amarga mung sinau pitakonan saka ujian taun-taun sadurunge. Kosok baline, model CLIP bisa dievaluasi ing benchmark tanpa kudu dilatih nganggo datane, mula ora bisa “ngapusi” kanthi cara iki. Iki ndadekake kinerja benchmarke luwih makili kinerjane ing lapangan. Kanggo verifikasi “hipotesis ngapusi”, kita uga ngukur carane kinerja CLIP owah nalika bisa “sinau” kanggo ImageNet. Nalika classifier linear dipasang ing ndhuwur fitur CLIP, iki nambah akurasi CLIP ing set tes ImageNet meh 10%. Nanging, classifier iki ora luwih apik rata-rata ing sakabèhé rangkaian evaluasi saka 7 dataset liyane sing ngukur kinerja “kuwat”.³⁰

Pokok penting

1. CLIP efisien banget

CLIP sinau saka data sing ora disaring, banget maneka warna, lan rame banget, lan dimaksudake kanggo digunakake kanthi cara conto tanpa latihan. Kita ngerti saka GPT‑2 lan 3 manawa model sing dilatih nganggo data kaya mangkono bisa nggayuh kinerja conto tanpa latihan sing meyakinkan; nanging, model kaya mangkono mbutuhake komputasi latihan sing gedhe. Kanggo nyuda komputasi sing dibutuhake, kita fokus marang cara algoritmik kanggo ningkatake efisiensi latihan saka pendekatan kita.

Kita nglaporake rong pilihan algoritmik sing nyebabake penghematan komputasi sing signifikan. Pilihan pisanan yaiku adopsi tujuan kontrastif kanggo nyambungake teks karo gambar.^{31, 17, 35} Awale kita nliti pendekatan image-to-text, mirip VirTex,³³ nanging nemoni kesulitan kanggo ngskala iki supaya nggayuh kinerja state-of-the-art. Ing eksperimen skala cilik nganti menengah, kita nemokake yen tujuan kontrastif sing digunakake CLIP 4x nganti 10x luwih efisien kanggo klasifikasi ImageNet conto tanpa latihan. Pilihan kapindho yaiku adopsi Vision Transformer,³⁶ sing menehi tambahan peningkatan efisiensi komputasi 3x dibandhingake ResNet standar. Pungkasane, model CLIP kita sing paling apik dilatih ing 256 GPU sajrone 2 minggu, sing padha karo model gambar skala gedhe sing wis ana.^{37, 23, 38, 36}

Lagi dimuat...

2. CLIP luwes lan umum

Amarga model CLIP sinau rentang konsep visual sing amba langsung saka basa alami, model iki luwih luwes lan umum tinimbang model ImageNet sing wis ana. Kita nemokake yen model iki bisa nindakake akeh tugas kanthi conto tanpa latihan. Kanggo validasi iki kita ngukur kinerja conto tanpa latihan CLIP ing luwih saka 30 dataset beda kalebu tugas kaya klasifikasi obyek rinci, geo-lokalisasi, pangenalan aksi ing video, lan OCR.^B Mligine, sinau OCR minangka conto prilaku menarik sing ora kedadeyan ing model ImageNet standar. Ing ndhuwur, kita nggambarake prediksi acak sing ora dipilih-pilih saka saben classifier conto tanpa latihan.

Temuan iki uga katon ing evaluasi sinau representasi standar nganggo linear probes. Model CLIP paling apik ngluwihi model ImageNet paling apik sing kasedhiya umum, yaiku Noisy Student EfficientNet-L2,²³ ing 20 saka 26 dataset transfer beda sing kita uji.

Lagi dimuat...

Watesan

Sanadyan CLIP biasane tampil apik ing ngenali obyek umum, model iki angel ing tugas sing luwih abstrak utawa sistematis kayata ngitung jumlah obyek ing gambar lan uga tugas sing luwih kompleks kayata prédhiksi sepira cedhake mobil paling cedhak ing foto. Ing loro dataset iki, CLIP conto tanpa latihan mung rada luwih apik tinimbang tebak acak. CLIP conto tanpa latihan uga kesulitan yen dibandhingake karo model khusus tugas ing klasifikasi sing banget rinci, kayata mbedakake model mobil, varian pesawat, utawa spesies kembang.

CLIP uga isih nduweni generalisasi sing kurang apik kanggo gambar sing ora kalebu ing dataset latihan awalané. Contone, sanadyan CLIP sinau sistem OCR sing mumpuni, nalika dievaluasi ing digit tulisan tangan saka dataset MNIST, CLIP conto tanpa latihan mung nggayuh akurasi 88%, adoh ing ngisor 99.75% sing digayuh manungsa ing dataset kasebut. Pungkasan, kita wis ngamati yen classifier conto tanpa latihan CLIP bisa sensitif marang pilihan tembung utawa cara nyusun ukara lan kadhangkala mbutuhake “rekayasa prompt” trial and error supaya tampil apik.

Dampak luwih amba

CLIP ngidini wong ngrancang classifier dhewe lan mbusak kabutuhan data latihan sing khusus tugas. Cara kelas-kelas iki dirancang bisa banget mengaruhi kinerja model lan bias model. Contone, kita nemokake yen nalika diwenehi sakumpulan label kalebu label ras Fairface³⁹ ^C lan sawetara istilah kasar kayata “criminal”, “animal,” lsp., model cenderung nggolongake gambar wong umur 0–20 menyang kategori kasar kanthi tingkat ~32.3%. Nanging, nalika kita nambah kelas “child” menyang dhaptar kelas sing mungkin, prilaku iki mudhun dadi ~8.7%.

Kajaba iku, amarga CLIP ora butuh data latihan khusus tugas, model iki bisa mbukak tugas niche tartamtu kanthi luwih gampang. Sawetara tugas iki bisa nimbulake risiko sing gegandhengan karo privasi utawa pengawasan, lan kita nliti keprihatinan iki kanthi nyinaoni kinerja CLIP ing identifikasi selebriti. CLIP nduweni akurasi top-1 59.2% kanggo klasifikasi gambar selebriti “in the wild” nalika milih saka 100 kandidat lan akurasi top-1 43.3% nalika milih saka 1000 pilihan sing bisa. Sanadyan penting dicathet yen asil iki bisa digayuh nganggo latihan awalan sing ora gumantung tugas, kinerja iki ora kompetitif yen dibandhingake karo model tingkat produksi sing akeh kasedhiya. Kita luwih jero nliti tantangan sing diajokake CLIP ing paper⁠(mbukak ing jendhela anyar) kita lan kita ngarep karya iki bisa nyurung riset mbesuk babagan karakterisasi kemampuan, kekurangan, lan bias model kaya iki. Kita bungah bisa sesambungan karo komunitas riset babagan pitakonan kaya mangkono.

Kesimpulan

Kanthi CLIP, kita wis nguji apa latihan awalan sing ora gumantung tugas ing skala internet nganggo basa alami, sing ndadekake terobosan anyar ing NLP, uga bisa dimanfaatake kanggo ningkatake kinerja sinau jero ing bidang liyane. Kita bungah karo asil sing wis kita deleng nganti saiki nalika nerapake pendekatan iki ing computer vision. Kaya kulawarga GPT, CLIP sinau macem-macem tugas sajrone latihan awalan sing kita tuduhake liwat transfer conto tanpa latihan. Kita uga kagiyatan dening temuan kita ing ImageNet sing nuduhake yen evaluasi conto tanpa latihan minangka ukuran sing luwih makili kemampuan model.

Cathetan sikil

29
Ing 2015, klompok panliti saka Microsoft pisanan nglatih model sing nggayuh akurasi top-5 ing ImageNet sing ngluwihi akurasi top-5 manungsa sing dilaporake.
B
Sanadyan kinerja OCR conto tanpa latihan CLIP campuran, representasi OCR semantike migunani banget. Nalika dievaluasi ing dataset NLP SST-2 sing dirender dadi gambar, classifier linear ing representasi CLIP nyandingi model CBoW sing nduweni akses langsung menyang teks. CLIP uga kompetitif kanggo ndeteksi meme kebencian tanpa butuh teks ground truth.
40
FairFace yaiku dataset gambar rai sing dirancang kanggo ngimbangi umur, gender, lan ras, supaya nyuda asimetri sing umum ing dataset rai sadurunge. Dataset iki ngelompokake gender dadi 2 grup: wadon lan lanang, lan ras dadi 7 grup: White, Black, Indian, East Asian, Southeast Asian, Middle Eastern, lan Latino. Ana masalah bawaan ing klasifikasi ras lan gender, kaya sing dituduhake Bowker and Star (2000) lan Keyes (2018) . Sanadyan dataset FairFace nyuda proporsi rai White, dataset iki isih kurang makili klompok demografis gedhe sakabehe, saengga kategori kaya mangkono kaya kaapus. Kita nggunakake 2 kategori gender lan 7 kategori ras sing ditemtokake ing dataset FairFace ing sawatara eksperimen kita dudu kanggo nguwatake utawa ndhukung panggunaan kategori sing nyederhanakake iki, nanging supaya kita bisa mbandhingake karo karya sadurunge.

Referensi

1
Dodge, S., & Karam, L. (2017, July). “Studi lan perbandingan kinerja pangenalan manungsa lan sinau jero ing sangisoré distorsi visual.⁠(mbukak ing jendhela anyar)” In ICCCN 2017.
2
Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, F. A., & Brendel, W. (2018). “CNN sing dilatih nganggo ImageNet nduweni bias marang tekstur; nambah bias bentuk ningkatake akurasi lan robustness.⁠(mbukak ing jendhela anyar)” In ICLR 2019.
3
Alcorn, M. A., Li, Q., Gong, Z., Wang, C., Mai, L., Ku, W. S., & Nguyen, A. (2019). “Strike (with) a pose: jaringan saraf gampang diapusi dening pose aneh saka obyek sing wis dikenal.⁠(mbukak ing jendhela anyar)” In CVPR 2019.
4
Barbu, A., Mayo, D., Alverio, J., Luo, W., Wang, C., Gutfreund, D., ... & Katz, B. (2019). “Objectnet: dataset skala gedhe sing biasé dikontrol kanggo nyurung wates model pangenalan obyek.⁠(mbukak ing jendhela anyar)” In NeurIPS 2019.
5
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Model Basa minangka Pamelajar Multitugas Tanpa Supervisi.⁠(mbukak ing jendhela anyar)” Technical Report, OpenAI.
6
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Agarwal, S. (2020). “Model Basa yaiku Pamelajar Conto Sithik.⁠(mbukak ing jendhela anyar)” In NeurIPS 2020.
7
He, K., Zhang, X., Ren, S., & Sun, J. (2016). “Sinau residual jero kanggo pangenalan gambar.⁠(mbukak ing jendhela anyar)” In CVPR 2016.
8
Larochelle, H., Erhan, D., & Bengio, Y. (2008, July). “Sinau tanpa data kanggo tugas anyar.⁠(mbukak ing jendhela anyar)” In AAAI 2008.
9
Lampert, C. H., Nickisch, H., & Harmeling, S. (2009, June). “Sinau ndeteksi kelas obyek sing durung katon liwat transfer atribut antar kelas.⁠(mbukak ing jendhela anyar)” In CVPR 2009.
10
Lei Ba, J., Swersky, K., & Fidler, S. (2015). “Prédhiksi jaringan saraf konvolusional sinau jero conto tanpa latihan nganggo deskripsi tekstual.⁠(mbukak ing jendhela anyar)” In ICCV 2015.
11
Socher, R., Ganjoo, M., Manning, C. D., & Ng, A. (2013). “Sinau conto tanpa latihan liwat transfer lintas-modal.⁠(mbukak ing jendhela anyar)” In NeurIPS 2013.
12
Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M. A., & Mikolov, T. (2013). “Devise: model embedding visual-semantik jero.⁠(mbukak ing jendhela anyar)” In NeurIPS 2013.
13
Li, A., Jabri, A., Joulin, A., & van der Maaten, L. (2017). “Sinau visual n-grams saka data web.⁠(mbukak ing jendhela anyar)” In Proceedings of the IEEE International Conference on Computer Vision 2017.
14
Doersch, C., Gupta, A., & Efros, A. A. (2015). “Sinau representasi visual tanpa supervisi liwat prédhiksi konteks.⁠(mbukak ing jendhela anyar)” In ICCV 2015.
15
Zhai, X., Oliver, A., Kolesnikov, A., & Beyer, L. (2019). “S4l: sinau semi-supervisi mandiri-terawasi.⁠(mbukak ing jendhela anyar)” In ICCV 2019.
16
Grill, J. B., Strub, F., Altché, F., Tallec, C., Richemond, P. H., Buchatskaya, E., ... & Piot, B. (2020). “Bootstrap latentmu dhewe: pendekatan anyar kanggo sinau mandiri-terawasi.⁠(mbukak ing jendhela anyar)” In NeurIPS 2020.
17
Oord, A. V. D., Li, Y., & Vinyals, O. (2018). “Representation Learning with Contrastive Predictive Coding.⁠(mbukak ing jendhela anyar)” arXiv preprint.
18
Hjelm, R. D., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Sinau representasi jero liwat estimasi lan maksimisasi informasi bebarengan.⁠(mbukak ing jendhela anyar)” In ICLR 2019.
19
Bachman, P., Hjelm, R. D., & Buchwalter, W. (2019). “Sinau representasi kanthi ngmaksimalkan informasi bebarengan antar tampilan.⁠(mbukak ing jendhela anyar)” In NeurIPS 2019.
20
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). “Momentum contrast kanggo sinau representasi visual tanpa supervisi.⁠(mbukak ing jendhela anyar)” In CVPR 2020.
21
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). “Kerangka sederhana kanggo sinau kontrastif representasi visual.⁠(mbukak ing jendhela anyar)” arXiv preprint.
22
Lee, D. H. (2013, June). “Pseudo-label: metode sinau semi-supervisi sing sederhana lan efisien kanggo jaringan saraf jero.⁠(mbukak ing jendhela anyar)” In Workshop on challenges in representation learning, ICML (2013).
23
Xie, Q., Luong, M. T., Hovy, E., & Le, Q. V. (2020). “Self-training nganggo noisy student ningkatake klasifikasi imagenet.⁠(mbukak ing jendhela anyar)” In CVPR 2020.
24
Kingma, D. P., Mohamed, S., Jimenez Rezende, D., & Welling, M. (2014). “Sinau semi-supervisi nganggo model generatif jero.⁠(mbukak ing jendhela anyar)” In NeurIPS 2014.
25
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., & Chen, X. (2016). “Teknik sing luwih apik kanggo nglatih gans.⁠(mbukak ing jendhela anyar)” In NeurIPS 2016.
26
Donahue, J., & Simonyan, K. (2019). “Sinau representasi adversarial skala gedhe.⁠(mbukak ing jendhela anyar)” In NeurIPS 2019.
27
Chen, M., Radford, A., Child, R., Wu, J., Jun, H., Luan, D., & Sutskever, I. (2020, November). “Latihan awalan generatif saka piksel.⁠(mbukak ing jendhela anyar)” In ICML 2020.
28
He, K., Zhang, X., Ren, S., & Sun, J. (2015). “Nglacak Jero menyang Rectifier: Ngluwihi Kinerja Tingkat Manungsa ing Klasifikasi ImageNet.⁠(mbukak ing jendhela anyar)” In ICCV 2015.
29
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., ... & Berg, A. C. (2015). “Tantangan pangenalan visual skala gedhe imagenet.⁠(mbukak ing jendhela anyar)” In IJCV 2015.
30
Taori, R., Dave, A., Shankar, V., Carlini, N., Recht, B., & Schmidt, L. (2020). “Ngukur robustness marang pergeseran distribusi alami ing klasifikasi gambar.⁠(mbukak ing jendhela anyar)” In NeurIPS 2020.
31
Sohn, K. (2016). “Sinau metrik jero sing luwih apik nganggo tujuan loss multi-class n-pair.⁠(mbukak ing jendhela anyar)” In NeurIPS 2016.
32
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). “Manungsa waé iku kabeh sing dibutuhake.⁠(mbukak ing jendhela anyar)” In NeurIPS 2017.
33
Desai, K., & Johnson, J. (2020). “VirTex: Sinau Representasi Visual saka Anotasi Tekstual.⁠(mbukak ing jendhela anyar)” arXiv preprint.
34
Sariyildiz, M. B., Perez, J., & Larlus, D. (2020). “Sinau Representasi Visual nganggo Anotasi Caption.⁠(mbukak ing jendhela anyar)” In ECCV 2020.
35
Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., & Langlotz, C. P. (2020). “Contrastive Learning of Medical Visual Representations from Paired Images and Text.⁠(mbukak ing jendhela anyar)” arXiv preprint.
36
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Uszkoreit, J. (2020). “Siji gambar regane 16x16 tembung: transformer kanggo pangenalan gambar ing skala gedhe.⁠(mbukak ing jendhela anyar)” arXiv preprint.
37
Mahajan, D., Girshick, R., Ramanathan, V., He, K., Paluri, M., Li, Y., ... & van der Maaten, L. (2018). “Njelajah wates latihan awalan sing diawasi lemah.⁠(mbukak ing jendhela anyar)” In ECCV 2018.
38
Kolesnikov, A., Beyer, L., Zhai, X., Puigcerver, J., Yung, J., Gelly, S., & Houlsby, N. (2019). “Big Transfer (BiT): General Visual Representation Learning.⁠(mbukak ing jendhela anyar)” arXiv preprint.
39
Kärkkäinen, K., & Joo, J. (2019). “Fairface: dataset atribut rai kanggo ras, gender, lan umur sing seimbang.⁠(mbukak ing jendhela anyar)” arXiv preprint.
40
Bowker, G., & Star, S. L. (1999). “Ngurutake samubarang. Klasifikasi lan akibaté⁠(mbukak ing jendhela anyar)” Book.
41
Keyes, O. (2018). “Mesin salah gender: implikasi Trans/HCI saka pangenalan gender otomatis.⁠(mbukak ing jendhela anyar)” In Proceedings of the ACM on Human-Computer Interaction.

Panulis

Alec Radford, Ilya Sutskever, Jong Wook Kim, Gretchen Krueger, Sandhini Agarwal

Pangatur nuwun

Kita arep matur nuwun marang jutaan wong sing melu nggawe data sing digunakake kanggo nglatih CLIP. Kita uga ngaturake panuwun marang kabeh panulis bebarengan kita kanggo kontribusine ing proyek iki. Pungkasan, kita uga pengin matur nuwun marang Jeff Clune, Miles Brundage, Ryan Lowe, Jakub Pachocki, lan Vedant Misra kanggo umpan balik tumrap draf blog iki lan marang Matthew Knight amarga wis mriksa rilis kode iki.

Desain & Sampul Karya Seni

Justin Jay Wang

CLIP: Nyambungake teks lan gambar

Latar mburi lan karya terkait

Pendekatan

Pokok penting

Watesan

Dampak luwih amba

Kesimpulan

Cathetan sikil

Referensi

Panulis

Pangatur nuwun

Desain & Sampul Karya Seni

Artikel terkait