Пређите на главни садржај
OpenAI
Учитавање…

Predstavljamo neuronsku mrežu pod nazivom CLIP koja efikasno uči vizuelne pojmove iz nadzora prirodnim jezikom. CLIP se može primeniti na bilo koji reper vizuelne klasifikacije jednostavnim navođenjem naziva vizuelnih kategorija koje treba prepoznati, slično „zero-shot“ sposobnostima GPT‑2 i GPT‑3.

Iako je duboko učenje revolucionisalo kompjuterski vid, sadašnji pristupi imaju nekoliko velikih problema: tipični skupovi podataka za vid zahtevaju mnogo rada i skupi su za izradu, a pritom podučavaju samo uzak skup vizuelnih pojmova; standardni modeli za vid dobri su za jedan i samo jedan zadatak i zahtevaju znatan trud da bi se prilagodili novom zadatku; a modeli koji dobro rade na reperima imaju razočaravajuće loše performanse na stres testovima,1, 2, 3 и 4 što baca sumnju na čitav pristup dubokog učenja kompjuterskom vidu.

Predstavljamo neuronsku mrežu koja ima za cilj da reši ove probleme: obučena je na širokom spektru slika sa širokim spektrom nadzora prirodnim jezikom koji je obilno dostupan na internetu. Po dizajnu, mreži se može prirodnim jezikom zadati da obavlja veliki broj repera klasifikacije, bez direktne optimizacije za performanse na tom reperu, slično „zero-shot(отвара се у новом прозору)“ sposobnostima GPT‑25 i GPT‑3.6 Ovo je ključna promena: time što se ne optimizuje direktno za reper, pokazujemo da on postaje mnogo reprezentativniji: naš sistem zatvara ovaj „jaz robusnosti“ za čak 75% uz istovremeno dostizanje performansi originalnog ResNet-507 modela na ImageNet(отвара се у новом прозору) zero-shot zadatku bez korišćenja bilo kog od originalnih 1,28 miliona označenih primera.

Учитавање...

Pozadina i srodni rad

CLIP (Kontrastivna predobuka jezika i slike) nadovezuje se na veliki korpus rada o prenosu bez pokushaja, nadzoru prirodnim jezikom i multimodalnom učenju. Ideja učenja bez podataka potiče od pre više od jedne decenije8, ali se do skoro uglavnom proučavala u kompjuterskom vidu kao način generalizacije na neviđene kategorije objekata.9 и 10 Ključni uvid bio je da se prirodni jezik iskoristi kao fleksibilan prostor predikcije kako bi se omogućili generalizacija i prenos. Godine 2013, Richard Socher i koautori sa Stanforda11 razvili su dokaz koncepta obučavanjem modela na CIFAR-10 da pravi predikcije u prostoru ugrađivanja vektora reči i pokazali da taj model može da predvidi dve neviđene klase. Iste godine DeVISE12 je proširio ovaj pristup i pokazao da je moguće fino podesiti ImageNet model tako da može da generalizuje i tačno predviđa objekte izvan originalnog skupa za obuku od 1000 kategorija.

Najinspirativniji za CLIP je rad Anga Lija i njegovih koautora iz FAIR-a13 koji su 2016. pokazali upotrebu nadzora prirodnim jezikom za omogućavanje prenosa bez pokushaja na nekoliko postojećih skupova podataka za klasifikaciju u kompjuterskom vidu, kao što je kanonski skup podataka ImageNet. To su postigli finim podešavanjem ImageNet CNN-a da predviđa mnogo širi skup vizuelnih pojmova (vizuelni n-grami) iz teksta naslova, opisa i oznaka 30 miliona Flickr fotografija i uspeli su da dostignu 11,5% tačnosti na ImageNet zero-shot zadatku.

Na kraju, CLIP je deo grupe radova koji tokom protekle godine ponovo razmatraju učenje vizuelnih reprezentacija uz nadzor prirodnim jezikom. Ova linija rada koristi modernije arhitekture kao što je transformator32 i uključuje VirTex,33 koji je istraživao autoregresivno jezičko modeliranje, ICMLM,34 koji je istraživao maskirano jezičko modeliranje, i ConVIRT,35 koji je proučavao isti kontrastivni cilj koji koristimo za CLIP, ali u oblasti medicinskog snimanja.

Pristup

Pokazujemo da je skaliranje jednostavnog zadatka predobuke dovoljno za postizanje konkurentnih performansi bez pokushaja na velikom broju skupova podataka za klasifikaciju slika. Naš metod koristi obilno dostupan izvor nadzora: tekst uparen sa slikama koje se nalaze širom interneta. Ovi podaci se koriste za kreiranje sledećeg pomoćnog zadatka obuke za CLIP: za datu sliku, predvideti koji je od skupa od 32.768 nasumično uzorkovanih tekstualnih isečaka zaista bio uparen sa njom u našem skupu podataka.

Da bi rešili ovaj zadatak, naša intuicija je da će CLIP modeli morati da nauče da prepoznaju širok spektar vizuelnih pojmova na slikama i povezuju ih sa njihovim nazivima. Kao rezultat toga, CLIP modeli se zatim mogu primeniti na gotovo proizvoljne zadatke vizuelne klasifikacije. Na primer, ako je zadatak nekog skupa podataka klasifikacija fotografija pasa naspram mačaka, za svaku sliku proveravamo da li CLIP model predviđa da će tekstualni opis „fotografija psa“ ili „fotografija mačke“ verovatnije biti uparen sa njom.

Учитавање...

CLIP je osmišljen da ublaži niz velikih problema u standardnom pristupu dubokog učenja kompjuterskom vidu:

Skupi skupovi podataka: Dubokom učenju je potrebno mnogo podataka, a modeli za vid tradicionalno su obučavani na ručno označenim skupovima podataka koji su skupi za izradu i pružaju nadzor samo za ograničen broj unapred određenih vizuelnih pojmova. Skup podataka ImageNet, jedan od najvećih napora u ovoj oblasti, zahtevao je više od 25.000 radnika da označe 14 miliona slika za 22.000 kategorija objekata. Nasuprot tome, CLIP uči iz parova tekst–slika koji su već javno dostupni na internetu. Smanjenje potrebe za skupim velikim označenim skupovima podataka opsežno je proučavano u ranijim radovima, naročito kroz samonadzirano učenje,14, 15 и 16 kontrastivne metode,17, 18, 19, 20 и 21 pristupe samoučenja,22 и 23 i generativno modelovanje.24, 25, 26 и 27

Usko: ImageNet model je dobar u predviđanju 1000 ImageNet kategorija, ali to je sve što može da uradi „odmah po instalaciji“. Ako želimo da obavimo bilo koji drugi zadatak, stručnjak za mašinsko učenje mora da napravi novi skup podataka, doda izlaznu glavu i fino podesi model. Nasuprot tome, CLIP se može prilagoditi za obavljanje širokog spektra zadataka vizuelne klasifikacije bez potrebe za dodatnim primerima za obuku. Da bismo primenili CLIP na novi zadatak, potrebno je samo da CLIP-ovom tekstualnom enkoderu „kažemo“ nazive vizuelnih pojmova tog zadatka, a on će dati linearni klasifikator CLIP-ovih vizuelnih reprezentacija. Tačnost ovog klasifikatora često je konkurentna potpuno nadziranim modelima.

Ispod prikazujemo nasumična, nebirana predviđanja zero-shot CLIP klasifikatora na primerima iz različitih skupova podataka.

Учитавање...

Loše performanse u stvarnom svetu: Često se navodi da sistemi dubokog učenja postižu ljudske, pa čak i nadljudske performanse28 и A na reperima iz oblasti vida, ali kada se primene u stvarnim uslovima, njihove performanse mogu biti daleko ispod očekivanja koje taj reper postavlja. Drugim rečima, postoji jaz između „performansi na reperu“ i „stvarnih performansi“. Pretpostavljamo da do tog jaza dolazi zato što modeli „varaju“ tako što optimizuju samo performanse na reperu, slično studentu koji je položio ispit učeći samo pitanja sa ispita iz prethodnih godina. Nasuprot tome, CLIP model može da se procenjuje na reperima bez obuke na njihovim podacima, pa ne može da „vara“ na ovaj način. Zbog toga su njegove performanse na reperu mnogo reprezentativnije za njegove performanse u stvarnim uslovima. Da bismo proverili „hipotezu o varanju“, merimo i kako se CLIP-ove performanse menjaju kada može da se „sprema“ za ImageNet. Kada se linearni klasifikator prilagodi preko CLIP-ovih obeležja, on poboljšava CLIP-ovu tačnost na ImageNet test skupu za skoro 10%. Međutim, ovaj klasifikator u proseku nije ništa bolji na paketu evaluacija od 7 drugih skupova podataka koji mere „robusne“ performanse.30

Ključni zaključci

1. CLIP je veoma efikasan

CLIP uči iz nefiltriranih, veoma raznovrsnih i veoma šumovitih podataka i namenjen je za upotrebu na način bez pokushaja. Iz GPT‑2 i 3 znamo da modeli obučeni na takvim podacima mogu postići uverljive performanse bez pokushaja; međutim, takvi modeli zahtevaju značajne računske resurse za obuku. Da bismo smanjili potrebne resurse, fokusirali smo se na algoritamske načine da poboljšamo efikasnost obuke našeg pristupa.

Izveštavamo o dva algoritamska izbora koja su dovela do značajnih ušteda računarskih resursa. Prvi izbor je usvajanje kontrastivnog cilja za povezivanje teksta sa slikama.31, 17 и 35 Prvobitno smo istraživali pristup slika-u-tekst, sličan VirTex-u,33 ali smo naišli na poteškoće pri skaliranju ovog pristupa da bi se postigle performanse na nivou najboljih rezultata. U eksperimentima malih i srednjih razmera ustanovili smo da je kontrastivni cilj koji koristi CLIP 4x do 10x efikasniji u zero-shot klasifikaciji na ImageNet-u. Drugi izbor bio je usvajanje Vision Transformer-a,36 što nam je donelo dodatno 3x povećanje efikasnosti računanja u odnosu na standardni ResNet. Na kraju, naš CLIP model sa najboljim performansama trenira se na 256 GPU jedinica tokom 2 nedelje, što je slično postojećim velikim modelima za slike.37, 23, 38 и 36

Учитавање...

2. CLIP je fleksibilan i opšti

Zato što uče širok spektar vizuelnih pojmova direktno iz prirodnog jezika, CLIP modeli su znatno fleksibilniji i opštiji od postojećih ImageNet modela. Utvrdili smo da mogu bez pokushaja da obavljaju mnogo različitih zadataka. Da bismo to potvrdili, izmerili smo CLIP-ove performanse bez pokushaja na više od 30 različitih skupova podataka, uključujući zadatke kao što su finozrnasta klasifikacija objekata, geolokalizacija, prepoznavanje radnji u video-zapisima i OCR.B Posebno, učenje OCR-a je primer uzbudljivog ponašanja koje se ne javlja kod standardnih ImageNet modela. Iznad prikazujemo nasumično, nebirano predviđanje iz svakog zero-shot klasifikatora.

Ovaj nalaz se odražava i na standardnoj evaluaciji učenja reprezentacija pomoću linearnih proba. Najbolji CLIP model nadmašuje najbolji javno dostupan ImageNet model, Noisy Student EfficientNet-L2,23 na 20 od 26 različitih transfer skupova podataka koje smo testirali.

Учитавање...

Ograničenja

Iako CLIP obično dobro prepoznaje uobičajene objekte, muči se sa apstraktnijim ili sistematskim zadacima kao što su brojanje objekata na slici i složenijim zadacima kao što je predviđanje koliko je najbliži automobil udaljen na fotografiji. Na ova dva skupa podataka, zero-shot CLIP je samo neznatno bolji od nasumičnog pogađanja. Zero-shot CLIP se takođe muči u poređenju sa modelima specifičnim za zadatak kod veoma finozrnaste klasifikacije, kao što je razlikovanje modela automobila, varijanti aviona ili vrsta cveća.

CLIP takođe i dalje slabo generalizuje na slike koje nisu obuhvaćene njegovim skupom podataka za predobuku. Na primer, iako CLIP uči sposoban OCR sistem, kada se procenjuje na ručno pisanim ciframa iz skupa podataka MNIST, zero-shot CLIP postiže samo 88% tačnosti, znatno ispod ljudskih 99,75% na tom skupu podataka. Na kraju, primetili smo da CLIP-ovi zero-shot klasifikatori mogu biti osetljivi na formulaciju ili način izražavanja i da ponekad zahtevaju pokušaje i greške u „formulisanju instrukcije“ da bi dobro radili.

Širi uticaji

CLIP omogućava ljudima da osmisle sopstvene klasifikatore i uklanja potrebu za podacima za obuku specifičnim za zadatak. Način na koji su te klase osmišljene može snažno da utiče i na performanse modela i na pristrasnosti modela. Na primer, ustanovili smo da, kada se dobije skup oznaka koji uključuje Fairface39 rasne oznakeC i nekoliko krajnje uvredljivih izraza kao što su „kriminalac“, „životinja“ itd., model ima tendenciju da slike ljudi uzrasta 0–20 klasifikuje u uvredljivu kategoriju po stopi od oko 32,3%. Međutim, kada na listu mogućih klasa dodamo klasu „dete“, ovo ponašanje pada na oko 8,7%.

Pored toga, pošto CLIP-u nisu potrebni podaci za obuku specifični za zadatak, on može lakše da omogući određene nišne zadatke. Neki od tih zadataka mogu otvoriti rizike povezane sa privatnošću ili nadzorom, pa ovu zabrinutost istražujemo proučavanjem performansi CLIP-a u identifikaciji poznatih ličnosti. CLIP ima top-1 tačnost od 59,2% za klasifikaciju slika poznatih ličnosti „u stvarnim uslovima“ kada bira među 100 kandidata i top-1 tačnost od 43,3% kada bira među 1000 mogućih opcija. Iako je značajno postići ove rezultate predobukom nezavisnom od zadatka, ove performanse nisu konkurentne u poređenju sa široko dostupnim modelima produkcionog nivoa. Dalje istražujemo izazove koje CLIP postavlja u našem radu(отвара се у новом прозору) i nadamo se da će ovaj rad podstaći buduća istraživanja o karakterizaciji sposobnosti, nedostataka i pristrasnosti takvih modela. Radujemo se razgovoru sa istraživačkom zajednicom o tim pitanjima.

Zaključak

Sa CLIP-om smo testirali da li se predobuka nezavisna od zadatka na internet razmeri prirodnog jezika, koja je pokrenula nedavni proboj u NLP-u, može iskoristiti i za poboljšanje performansi dubokog učenja u drugim oblastima. Oduševljeni smo rezultatima koje smo do sada videli primenjujući ovaj pristup na kompjuterski vid. Kao i GPT porodica, CLIP tokom predobuke uči širok spektar zadataka, što pokazujemo kroz prenos bez pokushaja. Ohrabruju nas i naši nalazi na ImageNet-u koji sugerišu da je evaluacija bez pokushaja reprezentativnija mera sposobnosti modela.

Fusnote

  1. 29

    Godine 2015, grupa istraživača iz kompanije Microsoft prva je obučila model koji je ostvario top-5 tačnost na ImageNet-u koja je nadmašila prijavljenu ljudsku top-5 tačnost.

  2. B

    Iako su CLIP-ove bez pokushaja OCR performanse mešovite, njegova semantička OCR reprezentacija je prilično korisna. Kada se procenjuje na SST-2 NLP skupu podataka prikazanom kao slike, linearni klasifikator na CLIP-ovoj reprezentaciji odgovara CBoW modelu sa direktnim pristupom tekstu. CLIP je takođe konkurentan u otkrivanju memova mržnje bez potrebe za stvarnim tekstom.

  3. 40

    FairFace je skup podataka slika lica osmišljen da uravnoteži uzrast, pol i rasu, kako bi se smanjile asimetrije uobičajene u ranijim skupovima podataka lica. On kategorizuje pol u 2 grupe: ženski i muški, a rasu u 7 grupa: beli, crni, indijski, istočnoazijski, jugoistočnoazijski, bliskoistočni i latino. Postoje urođeni problemi sa klasifikacijama rase i pola, kao što su, na primer, pokazali Bowker i Star (2000) i Keyes (2018). Iako FairFace-ov skup podataka smanjuje udeo belih lica, i dalje mu nedostaje zastupljenost čitavih velikih demografskih grupa, čime se takve kategorije praktično brišu. U nizu naših eksperimenata koristimo 2 rodne kategorije i 7 rasnih kategorija definisanih u skupu podataka FairFace ne da bismo pojačali ili podržali upotrebu takvih reduktivnih kategorija, već da bismo mogli da pravimo poređenja sa prethodnim radom.

Reference

  1. 1
  2. 2
  3. 3

    Alcorn, M. A., Li, Q., Gong, Z., Wang, C., Mai, L., Ku, W. S., & Nguyen, A. (2019). „Zauzmi pozu: neuronske mreže lako je zavarati neobičnim pozama poznatih objekata.(отвара се у новом прозору)“ In CVPR 2019.

  4. 4
  5. 5

    Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). „Jezički modeli su nenadzirani multitask učenici.(отвара се у новом прозору)“ Technical Report, OpenAI.

  6. 6

    Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Agarwal, S. (2020). „Jezički modeli su few-shot učenici.(отвара се у новом прозору)“ In NeurIPS 2020.

  7. 7

    He, K., Zhang, X., Ren, S., & Sun, J. (2016). „Duboko rezidualno učenje za prepoznavanje slika.(отвара се у новом прозору)“ In CVPR 2016.

  8. 8

    Larochelle, H., Erhan, D., & Bengio, Y. (2008, July). „Učenje novih zadataka bez podataka.(отвара се у новом прозору)“ In AAAI 2008.

  9. 9
  10. 10
  11. 11

    Socher, R., Ganjoo, M., Manning, C. D., & Ng, A. (2013). „Zero-shot učenje kroz unakrsni modalni prenos.(отвара се у новом прозору)“ In NeurIPS 2013.

  12. 12

    Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M. A., & Mikolov, T. (2013). „Devise: model dubokog vizuelno-semantičkog ugrađivanja.(отвара се у новом прозору)“ In NeurIPS 2013.

  13. 13

    Li, A., Jabri, A., Joulin, A., & van der Maaten, L. (2017). „Učenje vizuelnih n-grama iz veb podataka.(отвара се у новом прозору)“ In Proceedings of the IEEE International Conference on Computer Vision 2017.

  14. 14
  15. 15

    Zhai, X., Oliver, A., Kolesnikov, A., & Beyer, L. (2019). „S4l: samonadzirano polunadzirano učenje.(отвара се у новом прозору)“ In ICCV 2019.

  16. 16

    Grill, J. B., Strub, F., Altché, F., Tallec, C., Richemond, P. H., Buchatskaya, E., ... & Piot, B. (2020). „Pokrenite sopstveni latent: novi pristup samonadziranom učenju.(отвара се у новом прозору)“ In NeurIPS 2020.

  17. 17
  18. 18

    Hjelm, R. D., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). „Učenje dubokih reprezentacija procenom i maksimizacijom međusobne informacije.(отвара се у новом прозору)“ In ICLR 2019.

  19. 19
  20. 20

    He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). „Momentum kontrast za nenadzirano učenje vizuelnih reprezentacija.(отвара се у новом прозору)“ In CVPR 2020.

  21. 21

    Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). „Jednostavan okvir za kontrastivno učenje vizuelnih reprezentacija.(отвара се у новом прозору)“ arXiv preprint.

  22. 22

    Lee, D. H. (2013, June). „Pseudo-label: jednostavna i efikasna metoda polunadziranog učenja za duboke neuronske mreže.(отвара се у новом прозору)“ In Workshop on challenges in representation learning, ICML (2013).

  23. 23
  24. 24

    Kingma, D. P., Mohamed, S., Jimenez Rezende, D., & Welling, M. (2014). „Polunadzirano učenje sa dubokim generativnim modelima.(отвара се у новом прозору)“ In NeurIPS 2014.

  25. 25

    Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., & Chen, X. (2016). „Poboljšane tehnike za obuku GAN-ova.(отвара се у новом прозору)“ In NeurIPS 2016.

  26. 26
  27. 27

    Chen, M., Radford, A., Child, R., Wu, J., Jun, H., Luan, D., & Sutskever, I. (2020, November). „Generativna predobuka iz piksela.(отвара се у новом прозору)“ In ICML 2020.

  28. 28
  29. 29

    Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., ... & Berg, A. C. (2015). „ImageNet izazov velikih razmera za vizuelno prepoznavanje.(отвара се у новом прозору)“ In IJCV 2015.

  30. 30

    Taori, R., Dave, A., Shankar, V., Carlini, N., Recht, B., & Schmidt, L. (2020). „Merenje robusnosti na prirodne pomake distribucije u klasifikaciji slika.(отвара се у новом прозору)“ In NeurIPS 2020.

  31. 31
  32. 32

    Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). „Pažnja je sve što vam treba.(отвара се у новом прозору)“ In NeurIPS 2017.

  33. 33
  34. 34

    Sariyildiz, M. B., Perez, J., & Larlus, D. (2020). „Učenje vizuelnih reprezentacija uz anotacije opisa.(отвара се у новом прозору)“ In ECCV 2020.

  35. 35

    Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., & Langlotz, C. P. (2020). „Kontrastivno učenje medicinskih vizuelnih reprezentacija iz uparenih slika i teksta.(отвара се у новом прозору)“ arXiv preprint.

  36. 36

    Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Uszkoreit, J. (2020). „Slika vredi 16x16 reči: transformatori za prepoznavanje slika u velikim razmerama.(отвара се у новом прозору)“ arXiv preprint.

  37. 37

    Mahajan, D., Girshick, R., Ramanathan, V., He, K., Paluri, M., Li, Y., ... & van der Maaten, L. (2018). „Istraživanje granica slabo nadzirane predobuke.(отвара се у новом прозору)“ In ECCV 2018.

  38. 38

    Kolesnikov, A., Beyer, L., Zhai, X., Puigcerver, J., Yung, J., Gelly, S., & Houlsby, N. (2019). „Big Transfer (BiT): opšte vizuelno učenje reprezentacija.(отвара се у новом прозору)“ arXiv preprint.

  39. 39
  40. 40
  41. 41

Autori

Alec Radford, Ilya Sutskever, Jong Wook Kim, Gretchen Krueger и Sandhini Agarwal

Zahvalnice

Želeli bismo da zahvalimo milionima ljudi uključenih u stvaranje podataka na kojima je CLIP obučen. Takođe smo zahvalni svim našim koautorima na doprinosu projektu. Na kraju, želeli bismo da zahvalimo Jeffu Cluneu, Milesu Brundageu, Ryanu Loweu, Jakubu Pachockom i Vedantu Misri na povratnim komentarima o nacrtima ovog bloga, kao i Matthewu Knightu na pregledu objavljenog koda.

Dizajn i naslovna ilustracija

Justin Jay Wang