Пређите на главни садржај
OpenAI

Otkrivamo da, kao što veliki model transformatora obučen na jeziku može da generiše koherentan tekst, isti taj model obučen na sekvencama piksela može da generiše koherentna dovršavanja slika i uzorke. Uspostavljanjem korelacije između kvaliteta uzoraka i tačnosti klasifikacije slika, pokazujemo da naš najbolji generativni model sadrži i karakteristike konkurentne najboljim konvolucionim mrežama u nenadgledanom okruženju.

Uvod

Nenadgledano i samonadgledano učenje,1 odnosno učenje bez podataka koje su označili ljudi, dugotrajan je izazov mašinskog učenja. Nedavno je postiglo neverovatan uspeh u jeziku, jer su modeli transformatora2 kao što su BERT,3 GPT‑2,4 RoBERTa,5 T5,6 i druge varijante7, 8, 9 и 10 ostvarili vrhunske performanse na širokom spektru jezičkih zadataka. Međutim, ista široka klasa modela nije bila uspešna u dobijanju snažnih karakteristika za klasifikaciju slika.11 Naš rad ima za cilj da razume i premosti ovaj jaz.

Modeli transformatora kao što su BERT i GPT‑2 su domen-ski agnostični, što znači da se mogu direktno primeniti na 1-D sekvence bilo kog oblika. Kada GPT‑2 obučavamo na slikama razmotanim u duge sekvence piksela, što nazivamo iGPT, nalazimo da model izgleda razume 2-D karakteristike slike kao što su izgled objekta i kategorija. O tome svedoči raznovrstan raspon koherentnih uzoraka slika koje generiše, čak i bez smernica oznaka koje daju ljudi. Kao dodatni dokaz, karakteristike iz modela postižu najsavremenije performanse na brojnim skupovima podataka za klasifikaciju i gotovo najsavremeniju nenadgledanu tačnostA na ImageNet-u.

Evaluacija

Skup podataka

Naš rezultat

Najbolji rezultat koji nije iGPT

Logistička regresija na naučenim karakteristikama (linearna proba)

CIFAR-10

96.3 iGPT‑L 32x32 sa 1536 karakteristika

95.3 SimCLR12 sa 8192 karakteristike

CIFAR-100

82.8 iGPT‑L 32x32 sa 1536 karakteristika

80.2 SimCLR sa 8192 karakteristike

STL-10

95.5 iGPT‑L 32x32 sa 1536 karakteristika

94.2 AMDIM13 sa 8192 karakteristike

ImageNet

72.0 iGPT‑XLa 64x64 sa 15360 karakteristika

76.5 SimCLR sa 8192 karakteristike

Potpuno fino prilagođavanje

CIFAR-10

99.0 iGPT‑L 32x32, obučen na ImageNet-u

99.0b GPipe,14 obučen na ImageNet-u

ImageNet 32x32

66.3 iGPT‑L 32x32

70.2 Isometric Nets15

  1. Prikazujemo samo tačnost linearne probe na ImageNet-u za iGPT‑XL jer drugi eksperimenti nisu bili završeni pre nego što smo morali da pređemo na druga superračunarska postrojenja.
  2. Bit-L, obučen na JFT-u (300M slika sa 18K klasa), postigao je rezultat od 99.3.

Da bismo istakli potencijal generativnog17 и 18 modelovanja sekvenci19, 20, 21 и 22 kao algoritma nenadgledanog učenja opšte namene, namerno koristimo istu arhitekturu transformatora kao GPT‑2 u jeziku. Kao posledica toga, potrebni su nam znatno veći računarski resursi da bismo proizveli karakteristike konkurentne onima iz najboljih nenadgledanih konvolucionih mreža.13, 23, 24, 25 и 12 Međutim, naši rezultati sugerišu da, kada se suočimo s novim domenom u kome ispravni priori modela nisu poznati, veliki GPT‑2 može naučiti odlične karakteristike bez potrebe za arhitektonskim izborima specifičnim za domen.26, 27 и 28

Учитавање...

Od jezičkog GPT-a do GPT-a za slike

У језику су алгоритми ненадгледаног учења који се ослањају на предвиђање речи (као што су GPT‑2 и BERT) били изузетно успешни, постижући врхунске перформансе на широком спектру језичких задатака. Један могући разлог за овај успех је то што се примери низводних језичких задатака природно појављују у тексту: питања често прате одговори (што може помоћи у одговарању на питања), а одломке често прате сажетци (што може помоћи у сажимању). Насупрот томе, секвенце пиксела не садрже јасно ознаке за слике којима припадају.

Чак и без овог експлицитног надзора, и даље постоји разлог зашто би GPT‑2 на сликама могао да функционише: довољно велики трансформатор обучен за предвиђање следећег пиксела могао би на крају да научи да генерише разноврснеB узорке са јасно препознатљивим објектима. Када то научи, идеја позната као „анализа путем синтезе“29, 30 и C сугерише да ће модел такође знати и за категорије објеката. Многи рани генеративни модели31, 32, 33, 34, 35 и 36 били су мотивисани овом идејом, а у новије време BigBiGAN37 је био пример који је дао охрабрујуће узорке и карактеристике. У нашем раду најпре показујемо да бољи генеративни модели постижу јаче перформансе класификације. Затим, оптимизацијом GPT‑2 за генеративне могућности, постижемо врхунске перформансе класификације у многим поставкама, пружајући даље доказе за анализу путем синтезе.

Ka opštem nenadgledanom učenju

Generativno modelovanje sekvenci je univerzalni algoritam nenadgledanog učenja: pošto svi tipovi podataka mogu biti predstavljeni kao sekvence bajtova, transformator se može direktno primeniti na bilo koji tip podataka bez dodatnog inženjeringa. Naš rad ispituje snagu ove opštosti direktnom primenom arhitekture korišćene za obučavanje GPT‑2 na prirodnom jeziku na generisanje slika. Namerno smo odlučili da odustanemo od ručnog kodiranja bilo kakvog znanja specifičnog za slike u obliku konvolucija38 ili tehnika kao što su relativna pažnja,39 retka pažnja,40 i 2-D ugnežđivanja pozicija.27

Kao posledica te opštosti, naš metod zahteva znatno više računarskih resursa da bi postigao konkurentne performanse u nenadgledanom okruženju. Zaista, kontrastivne metode41, 42, 43, 44, 45, 13, 23, 24, 25 и 12 su i dalje računarski najefikasnije metode za proizvodnju visokokvalitetnih karakteristika iz slika. Međutim, time što pokazujemo da je nenadgledani model transformatora konkurentan najboljim nenadgledanim konvolucionim mrežama,24, 25 и 12 pružamo dokaz da je moguće zameniti ručno kodirano znanje o domenu računarskim ресурсима. U novim domenima,46 и 47 gde nema mnogo znanja koje bi se ručno kodiralo, čini se da je skaliranje računarskih resursa prikladna tehnika za testiranje.

Pristup

Obučavamo iGPT‑S, iGPT‑M i iGPT‑L, transformatore sa 76M, 455M i 1.4B parametara redom, na ImageNet-u. Takođe obučavamo iGPT‑XLD, transformator sa 6.8 milijardi parametara, na mešavini ImageNet-a i slika sa veba. Zbog velikih računarskih troškova modelovanja dugih sekvenci sa gustom pažnjom, obučavamo na niskim rezolucijama 32x32, 48x48 i 64x64.

Iako je primamljivo raditi na još nižim rezolucijama kako bi se dodatno smanjili računarski troškovi, prethodni rad je pokazao da ljudske performanse na klasifikaciji slika počinju brzo da opadaju ispod ovih veličina.48 Umesto toga, inspirisani ranim paletama boja na ekranima,49 kreiramo sopstvenu 9-bitnu paletu boja za predstavljanje piksela. Korišćenje ove palete daje ulaznu sekvencu 3 puta kraću od standardne (R, G, B) palete, a ipak verno kodira boju.

Eksperimentalni rezultati

Postoje dva метода која користимо за процену перформанси модела, а оба укључују низводни задатак класификације. Први, који називамо линеарном пробом, користи обучени модел за издвајање карактеристикаE из слика у низводном скупу података, а затим прилагођава логистичку регресију ознакама. Други метод фино прилагођаваF цео модел на низводном скупу података.

Пошто предвиђање следећег пиксела није очигледно релевантно за класификацију слика, карактеристике из завршног слоја можда нису најбољи предиктори категорије објекта. Наш први резултат показује да је квалитет карактеристика функција дубине која нагло расте, а затим благо опада. Ово понашање сугерише да генеративни модел трансформатора ради у две фазе: у првој фази, свака позиција прикупља информације из околног контекста како би изградила контекстуализовану карактеристику слике. У другој фази, ова контекстуализована карактеристика се користи за решавање задатка условног предвиђања следећег пиксела. Уочене перформансе у две фазе наших линеарних проба подсећају на још једну ненадгледану неуронску мрежу, аутоенкодер уског грла, који је ручно осмишљен тако да се користе карактеристике из средине.

Учитавање...

Naš sledeći rezultat uspostavlja vezu između generativnih performansi i kvaliteta karakteristika. Otkrivamo da i povećanje obima naših modela i obučavanje tokom više iteracija dovode do boljih generativnih performansi, što se direktno prevodi u bolji kvalitet karakteristika.

Учитавање...

Kada procenjujemo naše karakteristike pomoću linearnih proba na CIFAR-10, CIFAR-100 i STL-10, nadmašujemo karakteristike svih nadgledanih i nenadgledanih transfer algoritama. Naši rezultati su ubedljivi i u okruženju potpunog finog prilagođavanja.

Prethodno obučeno na ImageNet-u

Evaluacija

Model

Tačnost

bez oznaka

sa oznakama

CIFAR-10

Linearna proba

ResNet-15250

94.0

SimCLR12

95.3

iGPT‑L 32x32

96.3

CIFAR-100

Linearna proba

ResNet-152

78.0

SimCLR

80.2

iGPT‑L 32x32

82.8

STL-10

Linearna proba

AMDIM-L

94.2

iGPT‑L 32x32

95.5

CIFAR-10

Fino prilagođavanje

AutoAugment

98.5

SimCLR

98.6

GPipe

99.0

iGPT‑L

99.0

CIFAR-100

Fino prilagođavanje

iGPT‑L

88.5

SimCLR

89.0

AutoAugment

89.3

EfficientNet52

91.7

Poređenje tačnosti linearne probe i finog prilagođavanja između naših modela i modela sa najboljim performansama koji koriste nenadgledani ili nadgledani ImageNet transfer. Uključujemo i AutoAugment, model sa najboljim performansama obučen od početka do kraja na CIFAR-u.

S obzirom na obnovljeno interesovanje za nenadgledano i samonadgledano učenje na ImageNet-u, takođe procenjujemo performanse naših modela pomoću linearnih proba na ImageNet-u. Ovo je posebno teško okruženje, jer ne treniramo na standardnoj ulaznoj rezoluciji za ImageNet. Ipak, linearna proba na 1536 karakteristika iz najboljeg sloja iGPT‑L obučenog na slikama 48x48 daje 65.2% top-1 tačnosti, nadmašujući AlexNet.

Kontrastivne metode obično prijavljuju svoje najbolje rezultate na 8192 karakteristike, pa bismo idealno procenili iGPT sa dimenzijom ugnježđivanja od 8192 radi poređenja. Međutim, obučavanje takvog modela je preskupo, pa umesto toga konkateniramo karakteristike iz više slojeva kao aproksimaciju. Nažalost, naše karakteristike imaju tendenciju da budu korelisane kroz slojeve, pa nam ih je potrebno više da bismo bili konkurentni. Uzimanje 15360 karakteristika iz 5 slojeva u iGPT‑XL daje 72.0% top-1 tačnosti, nadmašujući AMDIM, MoCo i CPC v2, ali i dalje zaostaje za SimCLR-om za pristojnu razliku.

Metod

Ulazna rezolucija

Karakteristike

Parametri

Tačnost

Rotation53

originalna

8192

86M

55.4

iGPT‑L

32x32

1536

1362M

60.3

BigBiGAN37

originalna

16384

86M

61.3

iGPT‑L

48x48

1536

1362M

65.2

AMDIM13

originalna

8192

626M

68.1

MoCo24

originalna

8192

375M

68.6

iGPT‑XL

64x64

3072

6801M

68.7

SimCLR12

originalna

2048

24M

69.3

CPC v225

originalna

4096

303M

71.5

iGPT‑XL

64x64

3072 x 5

6801M

72.0

SimCLR

originalna

8192

375M

76.5

Poređenje tačnosti linearne probe između naših modela i najsavremenijih samonadgledanih modela. Postižemo konkurentne performanse uz obuku na znatno nižim ulaznim rezolucijama, iako naš metod zahteva više parametara i računarskih resursa.

Pošto su maskirani jezički modeli poput BERT-a nadmašili generativne modele na većini jezičkih zadataka, procenjujemo i performanse BERT-a na našim modelima za slike. Umesto da treniramo naš model da predvidi sledeći piksel na osnovu svih prethodnih piksela, maskiramo 15% piksela i treniramo model da ih predvidi iz nemaskiranih. Otkrivamo da su, iako su performanse linearne probe na BERT modelima značajno slabije, oni odlični tokom finog prilagođavanja:

Учитавање...

Иако ненадгледано учење обећава одличне карактеристике без потребе за подацима које су означили људи, значајан недавни напредак постигнут је у оквиру попустљивијег оквира полунaдгледаног учења, који дозвољава ограничене количине података означених од стране људи. Успешне полунaдгледане методе често се ослањају на домишљате технике као што су регуларизација конзистентности, аугментација података или псеудо-означавање, а приступи засновани искључиво на генеративним моделима54 и 55 нису били конкурентни годинама. Процењујемо iGPT‑LG на конкурентном реперу за ову подобласт и откривамо да једноставна линеарна проба на карактеристикама из неаугментованих слика надмашује Mean Teacher56 и MixMatch,57 али је слабија од FixMatch-а.59

Модел

40 ознака

250 ознака

4000 ознака

Improved GAN55

81.4 ± 2.3

Mean Teacher56

67.7 ± 2.3

90.8 ± 0.2

MixMatch57

52.5 ± 11.5

89.0 ± 0.9

93.6 ± 0.1

iGPT‑L

73.2 ± 01.5

87.6 ± 0.6

94.3 ± 0.1

UDA58

71.0 ± 05.9

91.2 ± 1.1

95.1 ± 0.2

FixMatch59 RA

86.2 ± 03.4

94.9 ± 0.7

95.7 ± 0.1

FixMatch CTA

88.6 ± 03.4

94.9 ± 0.3

95.7 ± 0.2

Поређење перформанси на CIFAR-10 са мало података. Користећи велики број неозначених ImageNet слика, iGPT‑L успева да надмаши методе као што су Mean Teacher и MixMatch, али је и даље слабији од најсавременијих метода. Наш приступ полунaдгледаном учењу је веома једноставан јер само прилагођавамо класификатор логистичке регресије на карактеристикама iGPT‑L‑а без икакве аугментације података или финог прилагођавања — што је значајна разлика у односу на посебно осмишљене полунaдгледане приступе.

Ograničenja

Иако смо показали да је iGPT способан да научи моћне карактеристике слика, наш приступ и даље има значајна ограничења. Пошто користимо генерички секвенцијални трансформатор који се користи за GPT‑2 у језику, наш метод захтева велике количине рачунарских ресурса: iGPT‑L је обучаван отприлике 2500 V100-дана, док се модел MoCo24 са сличним перформансама може обучити за отприлике 70 V100-дана.

С тим у вези, ми моделирамо улазе ниске резолуције помоћу трансформатора, док већина самонадгледаних резултата користи енкодере засноване на конволуцијама који лако могу да обрађују улазе високе резолуције. Можда ће бити потребна нова архитектура, као што је доменски агностички вишеразмерни трансформатор, да би се даље скалирало. С обзиром на ова ограничења, наш рад првенствено служи као доказ концепта способности великих језичких модела заснованих на трансформаторима да науче одличне ненадгледане репрезентације у новим доменима, без потребе за унапред кодираним знањем о домену. Међутим, значајни трошкови ресурса за обуку ових модела и већа тачност метода заснованих на конволуционим неуронским мрежама искључују ове репрезентације из практичних примена у стварном свету у домену визије.

Коначно, генеративни модели могу испољавати пристрасности које су последица података на којима су обучени. Многе од тих пристрасности су корисне, као што је претпоставка да комбинација браон и зелених пиксела представља грану прекривену лишћем, а затим коришћење те пристрасности за наставак слике. Али неке од тих пристрасности биће штетне, када се посматрају кроз призму правичности и репрезентације. На пример, ако модел развије визуелну представу научника која је склона мушкарцима, онда би могао доследно да довршава слике научника људима који изгледају као мушкарци, уместо мешавином полова. Очекујемо да ће програмери морати да посвећују све већу пажњу подацима које уносе у своје системе и да боље разумеју како су они повезани са пристрасностима у обученим моделима.

Zaključak

Pokazali smo da, uz zamenu 2-D znanja za skalu60 i izbor prediktivnih karakteristika iz sredine mreže, sekvencijalni transformator može biti konkurentan najboljim konvolucionim mrežama za nenadgledanu klasifikaciju slika. Posebno, naše rezultate postigli smo direktnom primenom GPT‑2 jezičkog modela na генерисање слика. Naši rezultati sugerišu da bi, zahvaljujući svojoj jednostavnosti i opštosti, sekvencijalni transformator uz dovoljno računarskih resursa mogao na kraju biti efikasan način za učenje odličnih karakteristika u mnogim domenima.

Ako vas uzbuđuje da radite s nama u ovoj oblasti istraživanja, zapošljavamo!

Fusnote

  1. A

    Mereno logističkom regresijom na naučenim karakteristikama (linearna proba).

  2. B

    Transformator se obučava da maksimizuje verovatnoću i stoga pokriva modove, što automatski obezbeđuje raznovrsnost njegovih uzoraka.

  3. C

    Originalna ideja analize putem sinteze više je argument za generativne modele sa latentnim promenljivama, ali pošto su generativni modeli bez latentnih promenljivih bili mnogo bolji u modelovanju raspodele podataka, smatrali smo da bi pretpostavka analize putem sinteze trebalo da važi i za njih.

  4. D

    Prikazujemo samo tačnost linearne probe na ImageNet-u za iGPT-XL jer drugi eksperimenti nisu bili završeni pre nego što smo morali da pređemo na druga superračunarska postrojenja.

  5. E

    Da bismo izdvojili karakteristike za linearnu probu, uzimamo ulaze attention bloka posle layernorm-a na nekom sloju i primenjujemo average pooling preko dimenzije sekvence.

  6. F

    Za fino prilagođavanje uzimamo izlaz transformatora posle layernorm-a i primenjujemo average pooling preko dimenzije sekvence kao ulaz za klasifikacionu glavu.

  7. G

    Generativni model koji uči karakteristike na potpuno nenadgledan način.

Reference

  1. 1
  2. 2

    Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. „Attention is All you Need(отвара се у новом прозору).” U NeurIPS 2017.

  3. 3
  4. 4

    Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). „Jezički modeli su nenadgledani višezadaci učenici(отвара се у новом прозору).” Tehnički izveštaj, OpenAI.

  5. 5

    Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). „RoBERTa: Robustan optimizovani pristup predobuci BERT-a(отвара се у новом прозору).” arXiv preprint.

  6. 6

    Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). „Ispitivanje granica transfernog učenja pomoću jedinstvenog transformatora tekst-u-tekst(отвара се у новом прозору).” arXiv preprint.

  7. 7
  8. 8

    Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). „Duboke kontekstualizovane reprezentacije reči(отвара се у новом прозору).” U NAACL 2018.

  9. 9
  10. 10

    Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). „Poboljšanje razumevanja jezika generativnom predobukom(отвара се у новом прозору).” Tehnički izveštaj, OpenAI.

  11. 11

    Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). „Retko pažljivo vraćanje unazad: dodela vremenskog kredita kroz podsećanje(отвара се у новом прозору).” U NeurIPS 2018.

  12. 12

    Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). „Jednostavan okvir za kontrastivno učenje vizuelnih reprezentacija(отвара се у новом прозору).” arXiv preprint.

  13. 13
  14. 14

    Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). „Big Transfer (BiT): opšte vizuelno učenje reprezentacija(отвара се у новом прозору).” arXiv preprint.

  15. 15

    Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) „GPipe: efikasna obuka džinovskih neuronskih mreža korišćenjem paralelizma cevovoda(отвара се у новом прозору).” U NeurIPS 2019.

  16. 16
  17. 17
  18. 18

    Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). „Zašto nenadgledana predobuka pomaže dubokom učenju?(отвара се у новом прозору).” U JMLR 2010.

  19. 19
  20. 20

    Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). „Jezički model zasnovan na rekurentnim neuronskim mrežama(отвара се у новом прозору).” U INTERSPEECH-2010.

  21. 21
  22. 22
  23. 23

    Tian, Y., Krishnan, D., & Isola, P. (2019). „Kontrastivno multiview kodiranje(отвара се у новом прозору).” arXiv preprint.

  24. 24

    He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). „Momentum Contrast za nenadgledano učenje vizuelnih reprezentacija(отвара се у новом прозору).” arXiv preprint.

  25. 25

    Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). „Podatkovno efikasno prepoznavanje slika uz kontrastivno prediktivno kodiranje(отвара се у новом прозору) .” arXiv preprint.

  26. 26

    Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). „Pikselske rekurentne neuronske mreže(отвара се у новом прозору).” arXiv preprint.

  27. 27

    Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). „Transformator za slike(отвара се у новом прозору).” U ICML 2018.

  28. 28
  29. 29
  30. 30
  31. 31
  32. 32
  33. 33

    Hinton, G., Osindero, S., & Teh, Y. (2006). „Brz algoritam učenja za duboke mreže verovanja(отвара се у новом прозору).” U Neural Computation.

  34. 34
  35. 35
  36. 36

    Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). „Izgradnja karakteristika visokog nivoa pomoću nenadgledanog učenja velikih razmera(отвара се у новом прозору).” U ICML 2012.

  37. 37
  38. 38
  39. 39

    Shaw, P., Uszkoreit, J., & Vaswani A. (2018). „Samopažnja sa reprezentacijama relativne pozicije(отвара се у новом прозору).” U NAACL 2018.

  40. 40

    Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). „Generisanje dugih sekvenci pomoću retkih transformatora(отвара се у новом прозору).” arXiv preprint.

  41. 41
  42. 42

    Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). „Provera potpisa pomoću „sijamske” neuronske mreže sa vremenskim kašnjenjem(отвара се у новом прозору).” U NeurIPS 1994.

  43. 43

    Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). „Distribuirane reprezentacije reči i fraza i njihova kompozicionalnost(отвара се у новом прозору) .” U NeurIPS 2013.

  44. 44
  45. 45

    Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). „Učenje dubokih reprezentacija procenom i maksimizacijom međusobne informacije(отвара се у новом прозору).” U ICLR 2019.

  46. 46
  47. 47

    Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). „Biološka struktura i funkcija proizlaze iz skaliranja nenadgledanog učenja na 250 miliona proteinskih sekvenci(отвара се у новом прозору).” bioRxiv preprint.

  48. 48

    Torralba, A., Fergus, R., Freeman, W. (2008). „80 miliona sićušnih slika: veliki skup podataka za neparametarsko prepoznavanje objekata i scena(отвара се у новом прозору).” U IEEE transactions on pattern analysis and machine intelligence.

  49. 49
  50. 50

    Kornblith, S., Shlens, J., & Le, Q. V. (2019). „Da li se bolji ImageNet modeli bolje prenose?(отвара се у новом прозору).” U CVPR 2019.

  51. 51

    Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). „AutoAugment: učenje strategija augmentacije iz podataka(отвара се у новом прозору).” U CVPR 2019.

  52. 52
  53. 53
  54. 54

    Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). „Polunadgledano učenje sa dubokim generativnim modelima(отвара се у новом прозору).” U NeurIPS 2014.

  55. 55

    Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). „Poboljšane tehnike za obučavanje GAN-ova(отвара се у новом прозору).” U NeurIPS 2016.

  56. 56
  57. 57

    Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). „MixMatch: holistički pristup polunadgledanom učenju(отвара се у новом прозору).” U NeurIPS 2019.

  58. 58

    Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). „Nenadgledana augmentacija podataka za obuku konzistentnosti(отвара се у новом прозору).” arXiv preprint.

  59. 59

    Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). „Fixmatch: pojednostavljivanje polunadgledanog učenja uz konzistentnost i pouzdanost(отвара се у новом прозору).” arXiv preprint.

  60. 60

Autori

Mark Chen, Alec Radford и Ilya Sutskever

Zahvalnice

Najpre bismo želeli da odamo priznanje koautorima našeg rada: Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal i David Luan.

Zahvaljujemo sledećima na povratnim informacijama o ovom radu i doprinosima ovom objavljivanju: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le i Ashish Vaswani.

Urednica: Ashley Pilipiszyn

Dizajn: Justin Jay Wang

Naslovna ilustracija: Ben Barry