17. јун 2020.

Image GPT

Pročitaj rad Pogledaj kôd ICML 2020 rad (V1)

Illustration: Ben Barry

Учитавање…

Otkrivamo da, kao što veliki model transformatora obučen na jeziku može da generiše koherentan tekst, isti taj model obučen na sekvencama piksela može da generiše koherentna dovršavanja slika⁠ i uzorke⁠. Uspostavljanjem korelacije između kvaliteta uzoraka i tačnosti klasifikacije slika, pokazujemo da naš najbolji generativni model sadrži i karakteristike konkurentne najboljim konvolucionim mrežama u nenadgledanom okruženju.

Uvod

Nenadgledano i samonadgledano učenje,¹ odnosno učenje bez podataka koje su označili ljudi, dugotrajan je izazov mašinskog učenja. Nedavno je postiglo neverovatan uspeh u jeziku, jer su modeli transformatora² kao što su BERT,³ GPT‑2,⁴ RoBERTa,⁵ T5,⁶ i druge varijante^{7, 8, 9 и 10} ostvarili vrhunske performanse na širokom spektru jezičkih zadataka. Međutim, ista široka klasa modela nije bila uspešna u dobijanju snažnih karakteristika za klasifikaciju slika.¹¹ Naš rad ima za cilj da razume i premosti ovaj jaz.

Modeli transformatora kao što su BERT i GPT‑2 su domen-ski agnostični, što znači da se mogu direktno primeniti na 1-D sekvence bilo kog oblika. Kada GPT‑2 obučavamo na slikama razmotanim u duge sekvence piksela, što nazivamo iGPT, nalazimo da model izgleda razume 2-D karakteristike slike kao što su izgled objekta i kategorija. O tome svedoči raznovrstan raspon koherentnih uzoraka slika koje generiše, čak i bez smernica oznaka koje daju ljudi. Kao dodatni dokaz, karakteristike iz modela postižu najsavremenije performanse na brojnim skupovima podataka za klasifikaciju i gotovo najsavremeniju nenadgledanu tačnost^A na ImageNet-u.

Evaluacija	Skup podataka	Naš rezultat	Najbolji rezultat koji nije iGPT
Logistička regresija na naučenim karakteristikama (linearna proba)	CIFAR-10	96.3 iGPT‑L 32x32 sa 1536 karakteristika	95.3 SimCLR¹²⁠ sa 8192 karakteristike
	CIFAR-100	82.8 iGPT‑L 32x32 sa 1536 karakteristika	80.2 SimCLR sa 8192 karakteristike
	STL-10	95.5 iGPT‑L 32x32 sa 1536 karakteristika	94.2 AMDIM¹³⁠ sa 8192 karakteristike
	ImageNet	72.0 iGPT‑XL^a⁠ 64x64 sa 15360 karakteristika	76.5 SimCLR sa 8192 karakteristike
Potpuno fino prilagođavanje	CIFAR-10	99.0 iGPT‑L 32x32, obučen na ImageNet-u	99.0^b⁠ GPipe,¹⁴⁠ obučen na ImageNet-u
	ImageNet 32x32	66.3 iGPT‑L 32x32	70.2 Isometric Nets¹⁵⁠

Prikazujemo samo tačnost linearne probe na ImageNet-u za iGPT‑XL jer drugi eksperimenti nisu bili završeni pre nego što smo morali da pređemo na druga superračunarska postrojenja.
Bit-L, obučen na JFT-u (300M slika sa 18K klasa), postigao je rezultat od 99.3.

Da bismo istakli potencijal generativnog^{17 и 18} modelovanja sekvenci^{19, 20, 21 и 22} kao algoritma nenadgledanog učenja opšte namene, namerno koristimo istu arhitekturu transformatora kao GPT‑2 u jeziku. Kao posledica toga, potrebni su nam znatno veći računarski resursi da bismo proizveli karakteristike konkurentne onima iz najboljih nenadgledanih konvolucionih mreža.^{13, 23, 24, 25 и 12} Međutim, naši rezultati sugerišu da, kada se suočimo s novim domenom u kome ispravni priori modela nisu poznati, veliki GPT‑2 može naučiti odlične karakteristike bez potrebe za arhitektonskim izborima specifičnim za domen.^{26, 27 и 28}

Учитавање...

Od jezičkog GPT-a do GPT-a za slike

У језику су алгоритми ненадгледаног учења који се ослањају на предвиђање речи (као што су GPT‑2 и BERT) били изузетно успешни, постижући врхунске перформансе на широком спектру језичких задатака. Један могући разлог за овај успех је то што се примери низводних језичких задатака природно појављују у тексту: питања често прате одговори (што може помоћи у одговарању на питања), а одломке често прате сажетци (што може помоћи у сажимању). Насупрот томе, секвенце пиксела не садрже јасно ознаке за слике којима припадају.

Чак и без овог експлицитног надзора, и даље постоји разлог зашто би GPT‑2 на сликама могао да функционише: довољно велики трансформатор обучен за предвиђање следећег пиксела могао би на крају да научи да генерише разноврсне^B узорке са јасно препознатљивим објектима. Када то научи, идеја позната као „анализа путем синтезе“^{29, 30 и C} сугерише да ће модел такође знати и за категорије објеката. Многи рани генеративни модели^{31, 32, 33, 34, 35 и 36} били су мотивисани овом идејом, а у новије време BigBiGAN³⁷ је био пример који је дао охрабрујуће узорке и карактеристике. У нашем раду најпре показујемо да бољи генеративни модели постижу јаче перформансе класификације. Затим, оптимизацијом GPT‑2 за генеративне могућности, постижемо врхунске перформансе класификације у многим поставкама, пружајући даље доказе за анализу путем синтезе.

Ka opštem nenadgledanom učenju

Generativno modelovanje sekvenci je univerzalni algoritam nenadgledanog učenja: pošto svi tipovi podataka mogu biti predstavljeni kao sekvence bajtova, transformator se može direktno primeniti na bilo koji tip podataka bez dodatnog inženjeringa. Naš rad ispituje snagu ove opštosti direktnom primenom arhitekture korišćene za obučavanje GPT‑2 na prirodnom jeziku na generisanje slika. Namerno smo odlučili da odustanemo od ručnog kodiranja bilo kakvog znanja specifičnog za slike u obliku konvolucija³⁸ ili tehnika kao što su relativna pažnja,³⁹ retka pažnja,⁴⁰ i 2-D ugnežđivanja pozicija.²⁷

Kao posledica te opštosti, naš metod zahteva znatno više računarskih resursa da bi postigao konkurentne performanse u nenadgledanom okruženju. Zaista, kontrastivne metode^{41, 42, 43, 44, 45, 13, 23, 24, 25 и 12} su i dalje računarski najefikasnije metode za proizvodnju visokokvalitetnih karakteristika iz slika. Međutim, time što pokazujemo da je nenadgledani model transformatora konkurentan najboljim nenadgledanim konvolucionim mrežama,^{24, 25 и 12} pružamo dokaz da je moguće zameniti ručno kodirano znanje o domenu računarskim ресурсима. U novim domenima,^{46 и 47} gde nema mnogo znanja koje bi se ručno kodiralo, čini se da je skaliranje računarskih resursa prikladna tehnika za testiranje.

Pristup

Obučavamo iGPT‑S, iGPT‑M i iGPT‑L, transformatore sa 76M, 455M i 1.4B parametara redom, na ImageNet-u. Takođe obučavamo iGPT‑XL^D, transformator sa 6.8 milijardi parametara, na mešavini ImageNet-a i slika sa veba. Zbog velikih računarskih troškova modelovanja dugih sekvenci sa gustom pažnjom, obučavamo na niskim rezolucijama 32x32, 48x48 i 64x64.

Iako je primamljivo raditi na još nižim rezolucijama kako bi se dodatno smanjili računarski troškovi, prethodni rad je pokazao da ljudske performanse na klasifikaciji slika počinju brzo da opadaju ispod ovih veličina.⁴⁸ Umesto toga, inspirisani ranim paletama boja na ekranima,⁴⁹ kreiramo sopstvenu 9-bitnu paletu boja za predstavljanje piksela. Korišćenje ove palete daje ulaznu sekvencu 3 puta kraću od standardne (R, G, B) palete, a ipak verno kodira boju.

Eksperimentalni rezultati

Postoje dva метода која користимо за процену перформанси модела, а оба укључују низводни задатак класификације. Први, који називамо линеарном пробом, користи обучени модел за издвајање карактеристика^E из слика у низводном скупу података, а затим прилагођава логистичку регресију ознакама. Други метод фино прилагођава^F цео модел на низводном скупу података.

Пошто предвиђање следећег пиксела није очигледно релевантно за класификацију слика, карактеристике из завршног слоја можда нису најбољи предиктори категорије објекта. Наш први резултат показује да је квалитет карактеристика функција дубине која нагло расте, а затим благо опада. Ово понашање сугерише да генеративни модел трансформатора ради у две фазе: у првој фази, свака позиција прикупља информације из околног контекста како би изградила контекстуализовану карактеристику слике. У другој фази, ова контекстуализована карактеристика се користи за решавање задатка условног предвиђања следећег пиксела. Уочене перформансе у две фазе наших линеарних проба подсећају на још једну ненадгледану неуронску мрежу, аутоенкодер уског грла, који је ручно осмишљен тако да се користе карактеристике из средине.

Учитавање...

Naš sledeći rezultat uspostavlja vezu između generativnih performansi i kvaliteta karakteristika. Otkrivamo da i povećanje obima naših modela i obučavanje tokom više iteracija dovode do boljih generativnih performansi, što se direktno prevodi u bolji kvalitet karakteristika.

Учитавање...

Kada procenjujemo naše karakteristike pomoću linearnih proba na CIFAR-10, CIFAR-100 i STL-10, nadmašujemo karakteristike svih nadgledanih i nenadgledanih transfer algoritama. Naši rezultati su ubedljivi i u okruženju potpunog finog prilagođavanja.

			Prethodno obučeno na ImageNet-u
Evaluacija	Model	Tačnost	bez oznaka	sa oznakama
CIFAR-10 Linearna proba	ResNet-152⁵⁰	94.0		✔
	SimCLR¹²	95.3	✔
	iGPT‑L 32x32	96.3	✔	✔
CIFAR-100 Linearna proba	ResNet-152	78.0		✔
	SimCLR	80.2	✔
	iGPT‑L 32x32	82.8	✔
STL-10 Linearna proba	AMDIM-L	94.2	✔
	iGPT‑L 32x32	95.5	✔
CIFAR-10 Fino prilagođavanje	AutoAugment	98.5
	SimCLR	98.6	✔
	GPipe	99.0		✔
	iGPT‑L	99.0	✔
CIFAR-100 Fino prilagođavanje	iGPT‑L	88.5	✔
	SimCLR	89.0	✔
	AutoAugment	89.3
	EfficientNet⁵²	91.7		✔

Poređenje tačnosti linearne probe i finog prilagođavanja između naših modela i modela sa najboljim performansama koji koriste nenadgledani ili nadgledani ImageNet transfer. Uključujemo i AutoAugment, model sa najboljim performansama obučen od početka do kraja na CIFAR-u.

S obzirom na obnovljeno interesovanje za nenadgledano i samonadgledano učenje na ImageNet-u, takođe procenjujemo performanse naših modela pomoću linearnih proba na ImageNet-u. Ovo je posebno teško okruženje, jer ne treniramo na standardnoj ulaznoj rezoluciji za ImageNet. Ipak, linearna proba na 1536 karakteristika iz najboljeg sloja iGPT‑L obučenog na slikama 48x48 daje 65.2% top-1 tačnosti, nadmašujući AlexNet.

Kontrastivne metode obično prijavljuju svoje najbolje rezultate na 8192 karakteristike, pa bismo idealno procenili iGPT sa dimenzijom ugnježđivanja od 8192 radi poređenja. Međutim, obučavanje takvog modela je preskupo, pa umesto toga konkateniramo karakteristike iz više slojeva kao aproksimaciju. Nažalost, naše karakteristike imaju tendenciju da budu korelisane kroz slojeve, pa nam ih je potrebno više da bismo bili konkurentni. Uzimanje 15360 karakteristika iz 5 slojeva u iGPT‑XL daje 72.0% top-1 tačnosti, nadmašujući AMDIM, MoCo i CPC v2, ali i dalje zaostaje za SimCLR-om za pristojnu razliku.

Metod	Ulazna rezolucija	Karakteristike	Parametri	Tačnost
Rotation⁵³	originalna	8192	86M	55.4
iGPT‑L	32x32	1536	1362M	60.3
BigBiGAN³⁷	originalna	16384	86M	61.3
iGPT‑L	48x48	1536	1362M	65.2
AMDIM¹³	originalna	8192	626M	68.1
MoCo²⁴	originalna	8192	375M	68.6
iGPT‑XL	64x64	3072	6801M	68.7
SimCLR¹²	originalna	2048	24M	69.3
CPC v2²⁵	originalna	4096	303M	71.5
iGPT‑XL	64x64	3072 x 5	6801M	72.0
SimCLR	originalna	8192	375M	76.5

Poređenje tačnosti linearne probe između naših modela i najsavremenijih samonadgledanih modela. Postižemo konkurentne performanse uz obuku na znatno nižim ulaznim rezolucijama, iako naš metod zahteva više parametara i računarskih resursa.

Pošto su maskirani jezički modeli poput BERT-a nadmašili generativne modele na većini jezičkih zadataka, procenjujemo i performanse BERT-a na našim modelima za slike. Umesto da treniramo naš model da predvidi sledeći piksel na osnovu svih prethodnih piksela, maskiramo 15% piksela i treniramo model da ih predvidi iz nemaskiranih. Otkrivamo da su, iako su performanse linearne probe na BERT modelima značajno slabije, oni odlični tokom finog prilagođavanja:

Учитавање...

Иако ненадгледано учење обећава одличне карактеристике без потребе за подацима које су означили људи, значајан недавни напредак постигнут је у оквиру попустљивијег оквира полунaдгледаног учења, који дозвољава ограничене количине података означених од стране људи. Успешне полунaдгледане методе често се ослањају на домишљате технике као што су регуларизација конзистентности, аугментација података или псеудо-означавање, а приступи засновани искључиво на генеративним моделима^{54 и 55} нису били конкурентни годинама. Процењујемо iGPT‑L^G на конкурентном реперу за ову подобласт и откривамо да једноставна линеарна проба на карактеристикама из неаугментованих слика надмашује Mean Teacher⁵⁶ и MixMatch,⁵⁷ али је слабија од FixMatch-а.⁵⁹

Модел	40 ознака	250 ознака	4000 ознака
Improved GAN⁵⁵	—	—	81.4 ± 2.3
Mean Teacher⁵⁶	—	67.7 ± 2.3	90.8 ± 0.2
MixMatch⁵⁷	52.5 ± 11.5	89.0 ± 0.9	93.6 ± 0.1
iGPT‑L	73.2 ± 01.5	87.6 ± 0.6	94.3 ± 0.1
UDA⁵⁸	71.0 ± 05.9	91.2 ± 1.1	95.1 ± 0.2
FixMatch⁵⁹ RA	86.2 ± 03.4	94.9 ± 0.7	95.7 ± 0.1
FixMatch CTA	88.6 ± 03.4	94.9 ± 0.3	95.7 ± 0.2

Поређење перформанси на CIFAR-10 са мало података. Користећи велики број неозначених ImageNet слика, iGPT‑L успева да надмаши методе као што су Mean Teacher и MixMatch, али је и даље слабији од најсавременијих метода. Наш приступ полунaдгледаном учењу је веома једноставан јер само прилагођавамо класификатор логистичке регресије на карактеристикама iGPT‑L‑а без икакве аугментације података или финог прилагођавања — што је значајна разлика у односу на посебно осмишљене полунaдгледане приступе.

Ograničenja

Иако смо показали да је iGPT способан да научи моћне карактеристике слика, наш приступ и даље има значајна ограничења. Пошто користимо генерички секвенцијални трансформатор који се користи за GPT‑2 у језику, наш метод захтева велике количине рачунарских ресурса: iGPT‑L је обучаван отприлике 2500 V100-дана, док се модел MoCo24⁠ са сличним перформансама може обучити за отприлике 70 V100-дана.

С тим у вези, ми моделирамо улазе ниске резолуције помоћу трансформатора, док већина самонадгледаних резултата користи енкодере засноване на конволуцијама који лако могу да обрађују улазе високе резолуције. Можда ће бити потребна нова архитектура, као што је доменски агностички вишеразмерни трансформатор, да би се даље скалирало. С обзиром на ова ограничења, наш рад првенствено служи као доказ концепта способности великих језичких модела заснованих на трансформаторима да науче одличне ненадгледане репрезентације у новим доменима, без потребе за унапред кодираним знањем о домену. Међутим, значајни трошкови ресурса за обуку ових модела и већа тачност метода заснованих на конволуционим неуронским мрежама искључују ове репрезентације из практичних примена у стварном свету у домену визије.

Коначно, генеративни модели могу испољавати пристрасности које су последица података на којима су обучени. Многе од тих пристрасности су корисне, као што је претпоставка да комбинација браон и зелених пиксела представља грану прекривену лишћем, а затим коришћење те пристрасности за наставак слике. Али неке од тих пристрасности биће штетне, када се посматрају кроз призму правичности и репрезентације. На пример, ако модел развије визуелну представу научника која је склона мушкарцима, онда би могао доследно да довршава слике научника људима који изгледају као мушкарци, уместо мешавином полова. Очекујемо да ће програмери морати да посвећују све већу пажњу подацима које уносе у своје системе и да боље разумеју како су они повезани са пристрасностима у обученим моделима.

Zaključak

Pokazali smo da, uz zamenu 2-D znanja za skalu⁶⁰ i izbor prediktivnih karakteristika iz sredine mreže, sekvencijalni transformator može biti konkurentan najboljim konvolucionim mrežama za nenadgledanu klasifikaciju slika. Posebno, naše rezultate postigli smo direktnom primenom GPT‑2 jezičkog modela na генерисање слика. Naši rezultati sugerišu da bi, zahvaljujući svojoj jednostavnosti i opštosti, sekvencijalni transformator uz dovoljno računarskih resursa mogao na kraju biti efikasan način za učenje odličnih karakteristika u mnogim domenima.

Ako vas uzbuđuje da radite s nama u ovoj oblasti istraživanja, zapošljavamo⁠!

Fusnote

A
Mereno logističkom regresijom na naučenim karakteristikama (linearna proba).
B
Transformator se obučava da maksimizuje verovatnoću i stoga pokriva modove, što automatski obezbeđuje raznovrsnost njegovih uzoraka.
C
Originalna ideja analize putem sinteze više je argument za generativne modele sa latentnim promenljivama, ali pošto su generativni modeli bez latentnih promenljivih bili mnogo bolji u modelovanju raspodele podataka, smatrali smo da bi pretpostavka analize putem sinteze trebalo da važi i za njih.
D
Prikazujemo samo tačnost linearne probe na ImageNet-u za iGPT-XL jer drugi eksperimenti nisu bili završeni pre nego što smo morali da pređemo na druga superračunarska postrojenja.
E
Da bismo izdvojili karakteristike za linearnu probu, uzimamo ulaze attention bloka posle layernorm-a na nekom sloju i primenjujemo average pooling preko dimenzije sekvence.
F
Za fino prilagođavanje uzimamo izlaz transformatora posle layernorm-a i primenjujemo average pooling preko dimenzije sekvence kao ulaz za klasifikacionu glavu.
G
Generativni model koji uči karakteristike na potpuno nenadgledan način.

Reference

1
LeCun, Y. (2017). „Prediktivno učenje⁠(отвара се у новом прозору).”
2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. „Attention is All you Need⁠(отвара се у новом прозору).” U NeurIPS 2017.
3
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). „BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding⁠(отвара се у новом прозору).” arXiv preprint.
4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). „Jezički modeli su nenadgledani višezadaci učenici⁠(отвара се у новом прозору).” Tehnički izveštaj, OpenAI.
5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). „RoBERTa: Robustan optimizovani pristup predobuci BERT-a⁠(отвара се у новом прозору).” arXiv preprint.
6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). „Ispitivanje granica transfernog učenja pomoću jedinstvenog transformatora tekst-u-tekst⁠(отвара се у новом прозору).” arXiv preprint.
7
Dai, A., Le, Q. V. (2015). „Polunadgledano učenje sekvenci⁠(отвара се у новом прозору).” U NeurIPS 2015.
8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). „Duboke kontekstualizovane reprezentacije reči⁠(отвара се у новом прозору).” U NAACL 2018.
9
Howard, J., Ruder, S. (2018). „Fino prilagođavanje univerzalnog jezičkog modela za klasifikaciju teksta⁠(отвара се у новом прозору).” U ACL 2018.
10
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). „Poboljšanje razumevanja jezika generativnom predobukom⁠(отвара се у новом прозору).” Tehnički izveštaj, OpenAI.
11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). „Retko pažljivo vraćanje unazad: dodela vremenskog kredita kroz podsećanje⁠(отвара се у новом прозору).” U NeurIPS 2018.
12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). „Jednostavan okvir za kontrastivno učenje vizuelnih reprezentacija⁠(отвара се у новом прозору).” arXiv preprint.
13
Bachman, P., Hjelm, R., & Buchwalter, W. (2019). „Učenje reprezentacija maksimizacijom međusobne informacije kroz poglede⁠(отвара се у новом прозору).” U NeurIPS 2019.
14
Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). „Big Transfer (BiT): opšte vizuelno učenje reprezentacija⁠(отвара се у новом прозору).” arXiv preprint.
15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) „GPipe: efikasna obuka džinovskih neuronskih mreža korišćenjem paralelizma cevovoda⁠(отвара се у новом прозору).” U NeurIPS 2019.
16
Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). „Nediskriminativni podaci ili slab model? O relativnoj važnosti podataka i rezolucije modela⁠(отвара се у новом прозору).” U ICCV 2019.
17
Lasserre, J., Bishop, C., & Minka, T. P. (2006). „Principijelni hibridi generativnih i diskriminativnih modela⁠(отвара се у новом прозору).” U CVPR 2006.
18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). „Zašto nenadgledana predobuka pomaže dubokom učenju?⁠(отвара се у новом прозору).” U JMLR 2010.
19
Elman, J. (1990). „Pronalaženje strukture u vremenu⁠(отвара се у новом прозору).” U Cognitive Science 1990.
20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). „Jezički model zasnovan na rekurentnim neuronskim mrežama⁠(отвара се у новом прозору).” U INTERSPEECH-2010.
21
Larochelle, H., Murray, I. (2011). „Neuronski autoregresivni procenitelj raspodele⁠(отвара се у новом прозору).” U AISTATS 2011.
22
Graves, A. (2013). „Generisanje sekvenci pomoću rekurentnih neuronskih mreža⁠(отвара се у новом прозору).” arXiv preprint.
23
Tian, Y., Krishnan, D., & Isola, P. (2019). „Kontrastivno multiview kodiranje⁠(отвара се у новом прозору).” arXiv preprint.
24
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). „Momentum Contrast za nenadgledano učenje vizuelnih reprezentacija⁠(отвара се у новом прозору).” arXiv preprint.
25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). „Podatkovno efikasno prepoznavanje slika uz kontrastivno prediktivno kodiranje⁠(отвара се у новом прозору) .” arXiv preprint.
26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). „Pikselske rekurentne neuronske mreže⁠(отвара се у новом прозору).” arXiv preprint.
27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). „Transformator za slike⁠(отвара се у новом прозору).” U ICML 2018.
28
Menick, J., Kalchbrenner, N. (2018). „Generisanje slika visoke vernosti sa Subscale Pixel Networks i višedimenzionalnim uvećanjem⁠(отвара се у новом прозору).” arXiv preprint.
29
Mumford, D. (1992). „O računarskoj arhitekturi neokorteksa⁠(отвара се у новом прозору).” U Biol. Cybern.
30
Rao, R., Ballard, D. (1999). „Prediktivno kodiranje u vizuelnom korteksu: funkcionalno tumačenje nekih ekstra-klasičnih efekata receptivnog polja⁠(отвара се у новом прозору).” U Nature Neuroscience.
31
Smolensky, P. (1986). „Obrada informacija u dinamičkim sistemima: osnove teorije harmonije⁠(отвара се у новом прозору).”
32
Hinton, G. (2002). „Obučavanje Products of Experts minimizacijom Contrastive Divergence⁠(отвара се у новом прозору).” U MIT Press.
33
Hinton, G., Osindero, S., & Teh, Y. (2006). „Brz algoritam učenja za duboke mreže verovanja⁠(отвара се у новом прозору).” U Neural Computation.
34
Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). „Izdvajanje i sastavljanje robusnih karakteristika pomoću autoenkodera sa šumom⁠(отвара се у новом прозору).” U ICML 2008.
35
Coates, A., Lee, H., & Ng, A. Y. (2011). „Analiza mreža sa jednim slojem u nenadgledanom učenju karakteristika⁠(отвара се у новом прозору).” U AISTATS 2011.
36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). „Izgradnja karakteristika visokog nivoa pomoću nenadgledanog učenja velikih razmera⁠(отвара се у новом прозору).” U ICML 2012.
37
Donahue, J., Simonyan, K. (2019). „Učenje reprezentacija protivničkim pristupom velikih razmera⁠(отвара се у новом прозору).” U NeurIPS 2019.
38
Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). „Velike jednostavne neuronske mreže postižu izvanredne rezultate u prepoznavanju rukom pisanih cifara⁠(отвара се у новом прозору).” U CoRR 2010.
39
Shaw, P., Uszkoreit, J., & Vaswani A. (2018). „Samopažnja sa reprezentacijama relativne pozicije⁠(отвара се у новом прозору).” U NAACL 2018.
40
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). „Generisanje dugih sekvenci pomoću retkih transformatora⁠(отвара се у новом прозору).” arXiv preprint.
41
Becker, S., Hinton, G. (1991). „Samorganizujuća neuronska mreža koja otkriva površine u stereogramima sa nasumičnim tačkama⁠(отвара се у новом прозору).” U Nature.
42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). „Provera potpisa pomoću „sijamske” neuronske mreže sa vremenskim kašnjenjem⁠(отвара се у новом прозору).” U NeurIPS 1994.
43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). „Distribuirane reprezentacije reči i fraza i njihova kompozicionalnost⁠(отвара се у новом прозору) .” U NeurIPS 2013.
44
Oord, A., Li, Y., Vinyals, O. (2018). „Učenje reprezentacija kontrastivnim prediktivnim kodiranjem⁠(отвара се у новом прозору) .” arXiv preprint.
45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). „Učenje dubokih reprezentacija procenom i maksimizacijom međusobne informacije⁠(отвара се у новом прозору).” U ICLR 2019.
46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). „Jedinstveni racionalni inženjering proteina pomoću dubokog učenja reprezentacija samo iz sekvenci⁠(отвара се у новом прозору).” U Nature Methods.
47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). „Biološka struktura i funkcija proizlaze iz skaliranja nenadgledanog učenja na 250 miliona proteinskih sekvenci⁠(отвара се у новом прозору).” bioRxiv preprint.
48
Torralba, A., Fergus, R., Freeman, W. (2008). „80 miliona sićušnih slika: veliki skup podataka za neparametarsko prepoznavanje objekata i scena⁠(отвара се у новом прозору).” U IEEE transactions on pattern analysis and machine intelligence.
49
„Spisak 8-bitne računarske grafičke opreme⁠(отвара се у новом прозору).” Wikipedia, 8. maj 2020
50
Kornblith, S., Shlens, J., & Le, Q. V. (2019). „Da li se bolji ImageNet modeli bolje prenose?⁠(отвара се у новом прозору).” U CVPR 2019.
51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). „AutoAugment: učenje strategija augmentacije iz podataka⁠(отвара се у новом прозору).” U CVPR 2019.
52
Tan, M., Le, Q. V. (2019). „EfficientNet: novo promišljanje skaliranja modela za konvolucione neuronske mreže⁠(отвара се у новом прозору).” U ICML 2019.
53
Gidaris, S., Singh, P., & Komodakis, N. (2018). „Nenadgledano učenje reprezentacija predviđanjem rotacija slike⁠(отвара се у новом прозору).” U ICLR 2018.
54
Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). „Polunadgledano učenje sa dubokim generativnim modelima⁠(отвара се у новом прозору).” U NeurIPS 2014.
55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). „Poboljšane tehnike za obučavanje GAN-ova⁠(отвара се у новом прозору).” U NeurIPS 2016.
56
Tarvainen, A., Valpola, H. (2017). „Mean teachers su bolji uzori: ciljevi konzistentnosti sa prosečno ponderisanim težinama poboljšavaju rezultate polunadgledanog dubokog učenja⁠(отвара се у новом прозору).” U NeurIPS 2017.
57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). „MixMatch: holistički pristup polunadgledanom učenju⁠(отвара се у новом прозору).” U NeurIPS 2019.
58
Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). „Nenadgledana augmentacija podataka za obuku konzistentnosti⁠(отвара се у новом прозору).” arXiv preprint.
59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). „Fixmatch: pojednostavljivanje polunadgledanog učenja uz konzistentnost i pouzdanost⁠(отвара се у новом прозору).” arXiv preprint.
60
Sutton, R. (2019). „Gorka lekcija⁠(отвара се у новом прозору).”

Autori

Mark Chen, Alec Radford и Ilya Sutskever

Zahvalnice

Najpre bismo želeli da odamo priznanje koautorima našeg rada: Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal i David Luan.

Zahvaljujemo sledećima na povratnim informacijama o ovom radu i doprinosima ovom objavljivanju: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le i Ashish Vaswani.

Urednica: Ashley Pilipiszyn

Dizajn: Justin Jay Wang

Naslovna ilustracija: Ben Barry