17 de juny del 2020

Image GPT

Llegir l’article Veure el codi Article de l’ICML 2020 (V1)

Illustration: Ben Barry

S'està carregant…

Hem comprovat que, de la mateixa manera que un gran model transformador entrenat amb llenguatge pot generar text coherent, exactament el mateix model entrenat amb seqüències de píxels pot generar completaments⁠ d’imatges coherents i mostres⁠. En establir una correlació entre la qualitat de les mostres i la precisió de la classificació d’imatges, mostrem que el nostre millor model generatiu també conté característiques competitives amb les millors xarxes convolucionals en un context no supervisat.

Introducció

L’aprenentatge no supervisat i auto-supervisat,¹ o l’aprenentatge sense dades etiquetades per humans, és un repte històric de l’aprenentatge automàtic. Recentment, ha tingut un èxit increïble en el llenguatge, ja que models transformadors² com BERT,³ GPT‑2,⁴ RoBERTa,⁵ T5,⁶ i altres variants^{7, 8, 9 i 10} han assolit un rendiment capdavanter en una àmplia varietat de tasques lingüístiques. Tanmateix, aquesta mateixa classe àmplia de models no ha tingut èxit a l’hora de produir característiques sòlides per a la classificació d’imatges.¹¹ El nostre treball pretén entendre i reduir aquesta bretxa.

Els models transformadors com BERT i GPT‑2 són independents del domini, cosa que significa que es poden aplicar directament a seqüències unidimensionals de qualsevol mena. Quan entrenem GPT‑2 amb imatges desplegades en llargues seqüències de píxels, cosa que anomenem iGPT, veiem que el model sembla entendre característiques d’imatge 2D com l’aparença i la categoria dels objectes. Això queda demostrat per l’àmplia gamma de mostres d’imatges coherents i diverses que genera, fins i tot sense la guia d’etiquetes proporcionades per humans. Com a prova addicional, les característiques del model assoleixen un rendiment d’última generació en diversos conjunts de dades de classificació i una precisió no supervisada gairebé d’última generació^A a ImageNet.

Avaluació	Conjunt de dades	El nostre resultat	Millor resultat no iGPT
Regressió logística sobre característiques apreses (sonda lineal)	CIFAR-10	96.3 iGPT‑L 32x32 amb 1536 característiques	95.3 SimCLR¹²⁠ amb 8192 característiques
	CIFAR-100	82.8 iGPT‑L 32x32 amb 1536 característiques	80.2 SimCLR amb 8192 característiques
	STL-10	95.5 iGPT‑L 32x32 amb 1536 característiques	94.2 AMDIM¹³⁠ amb 8192 característiques
	ImageNet	72.0 iGPT‑XL^a⁠ 64x64 amb 15360 característiques	76.5 SimCLR amb 8192 característiques
Ajust fi complet	CIFAR-10	99.0 iGPT‑L 32x32, entrenat amb ImageNet	99.0^b⁠ GPipe,¹⁴⁠ entrenat amb ImageNet
	ImageNet 32x32	66.3 iGPT‑L 32x32	70.2 Isometric Nets¹⁵⁠

Només mostrem la precisió de la sonda lineal a ImageNet per a iGPT‑XL, ja que altres experiments no es van acabar abans que haguéssim de passar a diferents instal·lacions de supercomputació.
Bit-L, entrenat amb JFT (300M d’imatges amb 18K classes), va assolir un resultat de 99.3.

Per destacar el potencial del modelatge de seqüències^{19, 20, 21 i 22} generatiu^{17 i 18} com a algorisme d’aprenentatge no supervisat de propòsit general, fem servir deliberadament la mateixa arquitectura de transformador que GPT‑2 en llenguatge. Com a conseqüència, necessitem significativament més còmput per produir característiques competitives amb les de les millors xarxes convolucionals no supervisades.^{13, 23, 24, 25 i 12} Tanmateix, els nostres resultats suggereixen que, quan ens trobem davant d’un domini nou on no es coneixen les priors correctes del model, un GPT‑2 gran pot aprendre característiques excel·lents sense necessitat d’opcions de disseny arquitectònic específiques del domini^{26, 27 i 28}.

S'està carregant...

Del GPT per al llenguatge al GPT per a imatges

En el llenguatge, els algorismes d’aprenentatge no supervisat que es basen en la predicció de paraules (com GPT‑2 i BERT) han tingut un èxit enorme i han assolit un rendiment capdavanter en una àmplia varietat de tasques lingüístiques. Una possible raó d’aquest èxit és que els casos de tasques lingüístiques posteriors apareixen de manera natural en el text: les preguntes sovint van seguides de respostes (cosa que podria ajudar en preguntes-respostes) i els passatges sovint van seguits de resums (cosa que podria ajudar en la resumició). En canvi, les seqüències de píxels no contenen de manera clara etiquetes de les imatges a les quals pertanyen.

Fins i tot sense aquesta supervisió explícita, encara hi ha una raó per la qual GPT‑2 aplicat a imatges podria funcionar: un transformador prou gran entrenat en la predicció del píxel següent podria acabar aprenent a generar mostres diverses^B amb objectes clarament recognoscibles. Un cop ho aprengui, una idea coneguda com a «anàlisi per síntesi»^{29, 30 i C} suggereix que el model també coneixerà les categories d’objectes. Molts dels primers models generatius^{31, 32, 33, 34, 35 i 36} estaven motivats per aquesta idea i, més recentment, BigBiGAN³⁷ n’ha estat un exemple que ha produït mostres i característiques encoratjadores. En el nostre treball, primer mostrem que els models generatius millors aconsegueixen un rendiment de classificació més fort. Després, optimitzant GPT‑2 per a capacitats generatives, assolim un rendiment de classificació de primer nivell en molts contextos, cosa que aporta més proves a favor de l’anàlisi per síntesi.

Cap a un aprenentatge no supervisat general

El modelatge generatiu de seqüències és un algorisme universal d’aprenentatge no supervisat: com que tots els tipus de dades es poden representar com a seqüències de bytes, un transformador es pot aplicar directament a qualsevol tipus de dada sense enginyeria addicional. El nostre treball posa a prova el poder d’aquesta generalitat aplicant directament a la generació d’imatges l’arquitectura utilitzada per entrenar GPT‑2 amb llenguatge natural. Vam escollir deliberadament renunciar a codificar manualment qualsevol coneixement específic d’imatge en forma de convolucions³⁸ o tècniques com l’atenció relativa,³⁹ l’atenció dispersa⁴⁰ i els embeddings de posició 2D.²⁷

Com a conseqüència de la seva generalitat, el nostre mètode requereix significativament més còmput per aconseguir un rendiment competitiu en el context no supervisat. De fet, els mètodes contrastius^{41, 42, 43, 44, 45, 13, 23, 24, 25 i 12} continuen sent els mètodes computacionalment més eficients per produir característiques d’alta qualitat a partir d’imatges. Tanmateix, en mostrar que un model transformador no supervisat és competitiu amb les millors xarxes convolucionals no supervisades,^{24, 25 i 12} aportem proves que és possible intercanviar coneixement de domini codificat manualment per còmput. En dominis nous,^{46 i 47} on no hi ha gaire coneixement per codificar manualment, escalar el còmput sembla una tècnica adequada per provar.

Enfocament

Entrenem iGPT‑S, iGPT‑M i iGPT‑L, transformadors amb 76M, 455M i 1.4B paràmetres respectivament, amb ImageNet. També entrenem iGPT‑XL^D, un transformador de 6.8 mil milions de paràmetres, amb una barreja d’ImageNet i imatges del web. A causa de l’elevat cost computacional de modelar seqüències llargues amb atenció densa, entrenem amb les baixes resolucions de 32x32, 48x48 i 64x64.

Tot i que seria temptador treballar amb resolucions encara més baixes per reduir encara més el cost computacional, treballs previs han demostrat que el rendiment humà en classificació d’imatges comença a caure ràpidament per sota d’aquestes mides.⁴⁸ En lloc d’això, inspirats en les primeres paletes de color de pantalles,⁴⁹ creem la nostra pròpia paleta de color de 9 bits per representar els píxels. Fer servir aquesta paleta dona una longitud de seqüència d’entrada 3 vegades més curta que la paleta estàndard (R, G, B), alhora que continua codificant el color de manera fidel.

Resultats experimentals

Hi ha dos mètodes que fem servir per avaluar el rendiment del model, i tots dos impliquen una tasca de classificació posterior. El primer, que anomenem sonda lineal, fa servir el model entrenat per extreure característiques^E de les imatges del conjunt de dades posterior i després ajusta una regressió logística a les etiquetes. El segon mètode ajusta fi^F tot el model al conjunt de dades posterior.

Com que la predicció del píxel següent no és òbviament rellevant per a la classificació d’imatges, és possible que les característiques de l’última capa no siguin les més predictives de la categoria de l’objecte. El nostre primer resultat mostra que la qualitat de les característiques és una funció que augmenta bruscament i després disminueix lleument amb la profunditat. Aquest comportament suggereix que un model generatiu transformador funciona en dues fases: en la primera fase, cada posició recopila informació del context que l’envolta per construir una característica d’imatge contextualitzada. En la segona fase, aquesta característica contextualitzada es fa servir per resoldre la tasca de predicció condicional del píxel següent. El rendiment observat en dues etapes de les nostres sondes lineals recorda una altra xarxa neuronal no supervisada, l’autoencoder de coll d’ampolla, que està dissenyat manualment perquè es facin servir les característiques del mig.

S'està carregant...

El nostre resultat següent estableix el vincle entre el rendiment generatiu i la qualitat de les característiques. Comprovem que tant augmentar l’escala dels nostres models com entrenar durant més iteracions dona lloc a un millor rendiment generatiu, cosa que es tradueix directament en una millor qualitat de les característiques.

S'està carregant...

Quan avaluem les nostres característiques mitjançant sondes lineals a CIFAR-10, CIFAR-100 i STL-10, superem les característiques de tots els algorismes de transferència supervisats i no supervisats. Els nostres resultats també són convincents en el context d’ajust fi complet.

			Preentrenat amb ImageNet
Avaluació	Model	Precisió	sense etiquetes	amb etiquetes
CIFAR-10 Sonda lineal	ResNet-152⁵⁰	94.0		✔
	SimCLR¹²	95.3	✔
	iGPT‑L 32x32	96.3	✔	✔
CIFAR-100 Sonda lineal	ResNet-152	78.0		✔
	SimCLR	80.2	✔
	iGPT‑L 32x32	82.8	✔
STL-10 Sonda lineal	AMDIM-L	94.2	✔
	iGPT‑L 32x32	95.5	✔
CIFAR-10 Ajust fi	AutoAugment	98.5
	SimCLR	98.6	✔
	GPipe	99.0		✔
	iGPT‑L	99.0	✔
CIFAR-100 Ajust fi	iGPT‑L	88.5	✔
	SimCLR	89.0	✔
	AutoAugment	89.3
	EfficientNet⁵²	91.7		✔

Una comparació de les precisions de sonda lineal i ajust fi entre els nostres models i els models amb millor rendiment que fan servir transferència supervisada o no supervisada d’ImageNet. També hi incloem AutoAugment, el model amb millor rendiment entrenat d’extrem a extrem a CIFAR.

Atès el ressorgiment de l’interès per l’aprenentatge no supervisat i auto-supervisat a ImageNet, també avaluem el rendiment dels nostres models amb sondes lineals a ImageNet. Aquest és un context especialment difícil, ja que no entrenem amb la resolució d’entrada estàndard d’ImageNet. Tot i així, una sonda lineal sobre les 1536 característiques de la millor capa d’iGPT‑L entrenat amb imatges de 48x48 dona una precisió top-1 del 65.2%, superior a la d’AlexNet.

Els mètodes contrastius solen informar dels seus millors resultats amb 8192 característiques, així que idealment avaluaríem iGPT amb una dimensió d’embedding de 8192 per comparar-lo. Tanmateix, entrenar un model així és prohibitivament car, de manera que concatenem característiques de diverses capes com a aproximació. Malauradament, les nostres característiques tendeixen a estar correlacionades entre capes, així que en necessitem més per ser competitius. Agafant 15360 característiques de 5 capes a iGPT‑XL s’obté una precisió top-1 del 72.0%, superior a AMDIM, MoCo i CPC v2, però encara clarament per sota de SimCLR.

Mètode	Resolució d’entrada	Característiques	Paràmetres	Precisió
Rotation⁵³	original	8192	86M	55.4
iGPT‑L	32x32	1536	1362M	60.3
BigBiGAN³⁷	original	16384	86M	61.3
iGPT‑L	48x48	1536	1362M	65.2
AMDIM¹³	original	8192	626M	68.1
MoCo²⁴	original	8192	375M	68.6
iGPT‑XL	64x64	3072	6801M	68.7
SimCLR¹²	original	2048	24M	69.3
CPC v2²⁵	original	4096	303M	71.5
iGPT‑XL	64x64	3072 x 5	6801M	72.0
SimCLR	original	8192	375M	76.5

Una comparació de les precisions de sonda lineal entre els nostres models i els millors models auto-supervisats de l’estat de l’art. Aconseguim un rendiment competitiu tot entrenant amb resolucions d’entrada molt més baixes, tot i que el nostre mètode requereix més paràmetres i còmput.

Com que els models de llenguatge emmascarat com BERT han superat els models generatius en la majoria de tasques lingüístiques, també avaluem el rendiment de BERT en els nostres models d’imatge. En lloc d’entrenar el nostre model perquè predigui el píxel següent donats tots els píxels anteriors, emmascarem el 15% dels píxels i entrenem el model perquè els predigui a partir dels no emmascarats. Comprovem que, tot i que el rendiment de les sondes lineals en models BERT és significativament pitjor, aquests destaquen durant l’ajust fi:

S'està carregant...

Tot i que l’aprenentatge no supervisat promet característiques excel·lents sense necessitat de dades etiquetades per humans, recentment s’han fet progressos importants dins del marc més permissiu de l’aprenentatge semisupervisat, que permet quantitats limitades de dades etiquetades per humans. Els mètodes semisupervisats d’èxit sovint es basen en tècniques enginyoses com la regularització de consistència, l’augment de dades o el pseudoetiquetatge, i els enfocaments purament basats en la generació^{54 i 55} fa anys que no són competitius. Avaluem iGPT‑L^G en un punt de referència competitiu d’aquest subcamp i observem que una simple sonda lineal sobre característiques d’imatges no augmentades supera Mean Teacher⁵⁶ i MixMatch,⁵⁷ tot i que queda per sota de FixMatch.⁵⁹

Model	40 etiquetes	250 etiquetes	4000 etiquetes
Improved GAN⁵⁵	—	—	81.4 ± 2.3
Mean Teacher⁵⁶	—	67.7 ± 2.3	90.8 ± 0.2
MixMatch⁵⁷	52.5 ± 11.5	89.0 ± 0.9	93.6 ± 0.1
iGPT‑L	73.2 ± 01.5	87.6 ± 0.6	94.3 ± 0.1
UDA⁵⁸	71.0 ± 05.9	91.2 ± 1.1	95.1 ± 0.2
FixMatch⁵⁹ RA	86.2 ± 03.4	94.9 ± 0.7	95.7 ± 0.1
FixMatch CTA	88.6 ± 03.4	94.9 ± 0.3	95.7 ± 0.2

Una comparació del rendiment a CIFAR-10 amb poques dades. Aprofitant moltes imatges d’ImageNet sense etiquetar, iGPT‑L és capaç de superar mètodes com Mean Teacher i MixMatch, però encara queda per sota dels mètodes capdavanters. El nostre enfocament de l’aprenentatge semisupervisat és molt simple, ja que només ajustem un classificador de regressió logística sobre les característiques d’iGPT‑L sense cap augment de dades ni ajust fi, una diferència important respecte dels enfocaments semisupervisats dissenyats específicament.

Limitacions

Tot i que hem demostrat que iGPT és capaç d’aprendre característiques d’imatge potents, encara hi ha limitacions importants en el nostre enfocament. Com que fem servir el transformador de seqüències genèric que s’utilitza per a GPT‑2 en llenguatge, el nostre mètode requereix grans quantitats de còmput: iGPT‑L es va entrenar durant aproximadament 2500 dies-V100, mentre que un model MoCo24⁠ amb un rendiment semblant es pot entrenar en aproximadament 70 dies-V100.

De manera relacionada, modelem entrades de baixa resolució amb un transformador, mentre que la majoria dels resultats auto-supervisats fan servir codificadors basats en convolucions que poden consumir fàcilment entrades d’alta resolució. Potser caldrà una arquitectura nova, com un transformador multiescala independent del domini, per continuar escalant. Tenint en compte aquestes limitacions, el nostre treball serveix principalment com una demostració de prova de concepte de la capacitat dels grans models de llenguatge basats en transformadors per aprendre representacions no supervisades excel·lents en dominis nous, sense necessitat de coneixement de domini codificat manualment. Tanmateix, l’elevat cost de recursos per entrenar aquests models i la major precisió dels mètodes basats en xarxes neuronals convolucionals impedeixen que aquestes representacions tinguin aplicacions pràctiques al món real en el domini de la visió.

Finalment, els models generatius poden mostrar biaixos que són conseqüència de les dades amb què s’han entrenat. Molts d’aquests biaixos són útils, com assumir que una combinació de píxels marrons i verds representa una branca coberta de fulles i després fer servir aquest biaix per continuar la imatge. Però alguns d’aquests biaixos seran perjudicials si es consideren des d’una perspectiva d’equitat i representació. Per exemple, si el model desenvolupa una noció visual de científic esbiaixada cap als homes, podria completar de manera sistemàtica imatges de científics amb persones de presentació masculina, en lloc d’una barreja de gèneres. Esperem que els desenvolupadors hagin de prestar cada vegada més atenció a les dades que introdueixen als seus sistemes i a entendre millor com es relacionen amb els biaixos dels models entrenats.

Conclusió

Hem demostrat que, substituint coneixement 2D per escala⁶⁰ i triant característiques predictives del mig de la xarxa, un transformador de seqüències pot competir amb les millors xarxes convolucionals per a la classificació no supervisada d’imatges. Cal destacar que hem obtingut aquests resultats aplicant directament el model de llenguatge GPT‑2 a la generació d'imatges. Els nostres resultats suggereixen que, per la seva simplicitat i generalitat, un transformador de seqüències amb prou còmput podria acabar sent una manera efectiva d’aprendre característiques excel·lents en molts dominis.

Si us fa il·lusió treballar amb nosaltres en aquesta àrea de recerca, estem contractant⁠!

Notes al peu

A
Mesurat mitjançant regressió logística sobre característiques apreses (sonda lineal).
B
Un transformador s’entrena per maximitzar la versemblança i, per tant, cobreix modes, cosa que garanteix automàticament la diversitat de les seves mostres.
C
La idea original d’anàlisi per síntesi és més aviat un argument a favor dels models generatius amb variables latents, però com que els models generatius sense variables latents eren molt millors modelant la distribució de dades, vam pensar que la conjectura d’anàlisi per síntesi també havia de ser vàlida per a ells.
D
Només mostrem la precisió de la sonda lineal a ImageNet per a iGPT-XL, ja que altres experiments no es van acabar abans que haguéssim de passar a diferents instal·lacions de supercomputació.
E
Per extreure característiques per a una sonda lineal, prenem les entrades del bloc d’atenció post-layernorm en alguna capa i fem average pooling sobre la dimensió de seqüència.
F
Per fer ajust fi, prenem la sortida del transformador post-layernorm i fem average pooling sobre la dimensió de seqüència com a entrada per al cap de classificació.
G
Un model generatiu que aprèn característiques d’una manera purament no supervisada.

Referències

1
LeCun, Y. (2017). «Aprenentatge predictiu⁠(s'obre en una finestra nova)».
2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L. i Polosukhin, I. «L’atenció és tot el que necessites⁠(s'obre en una finestra nova)». A NeurIPS 2017.
3
Devlin, J., Chang, M., Lee, K. i Toutanova, K. (2018). «BERT: preentrenament de transformadors bidireccionals profunds per a la comprensió del llenguatge⁠(s'obre en una finestra nova)». Prepublicació a arXiv.
4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. i Sutskever, I. (2019). «Els models de llenguatge són aprenents multitasca no supervisats⁠(s'obre en una finestra nova)». Informe tècnic, OpenAI.
5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L. i Stoyanov, V. (2019). «RoBERTa: un enfocament sòlidament optimitzat per al preentrenament de BERT⁠(s'obre en una finestra nova)». Prepublicació a arXiv.
6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W. i Liu, P. (2019). «Explorant els límits de l’aprenentatge per transferència amb un transformador de text a text unificat⁠(s'obre en una finestra nova)». Prepublicació a arXiv.
7
Dai, A. i Le, Q. V. (2015). «Aprenentatge de seqüències semisupervisat⁠(s'obre en una finestra nova)». A NeurIPS 2015.
8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K. i Zettlemoyer, L. (2018). «Representacions de paraules contextualitzades profundes⁠(s'obre en una finestra nova)». A NAACL 2018.
9
Howard, J. i Ruder, S. (2018). «Ajust fi del model de llenguatge universal per a la classificació de text⁠(s'obre en una finestra nova)». A ACL 2018.
10
Radford, A., Narasimhan, K., Salimans, T. i Sutskever, I. (2018). «Millora de la comprensió del llenguatge mitjançant preentrenament generatiu⁠(s'obre en una finestra nova)». Informe tècnic, OpenAI.
11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). «Retropropagació atencional dispersa: assignació temporal de crèdit mitjançant recordatoris⁠(s'obre en una finestra nova)». A NeurIPS 2018.
12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). «Un marc simple per a l’aprenentatge contrastiu de representacions visuals⁠(s'obre en una finestra nova)». Prepublicació a arXiv.
13
Bachman, P., Hjelm, R. i Buchwalter, W. (2019). «Aprenentatge de representacions mitjançant la maximització de la informació mútua entre vistes⁠(s'obre en una finestra nova)». A NeurIPS 2019.
14
Kolesnikov, A. i Beyer, L. i Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). «Big Transfer (BiT): aprenentatge general de representacions visuals⁠(s'obre en una finestra nova)». Prepublicació a arXiv.
15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y. i Chen, Z. (2019) «GPipe: entrenament eficient de xarxes neuronals gegants mitjançant paral·lelisme en pipeline⁠(s'obre en una finestra nova)». A NeurIPS 2019.
16
Sandler, M., Baccash, J., Zhmoginov, A. i Howard, A. (2019). «Dades no discriminatives o model feble? Sobre la importància relativa de les dades i de la resolució del model⁠(s'obre en una finestra nova)». A ICCV 2019.
17
Lasserre, J., Bishop, C. i Minka, T. P. (2006). «Híbrids fonamentats de models generatius i discriminatius⁠(s'obre en una finestra nova)». A CVPR 2006.
18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). «Per què el preentrenament no supervisat ajuda l’aprenentatge profund?⁠(s'obre en una finestra nova)». A JMLR 2010.
19
Elman, J. (1990). «Trobar estructura en el temps⁠(s'obre en una finestra nova)». A Cognitive Science 1990.
20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). «Model de llenguatge basat en xarxes neuronals recurrents⁠(s'obre en una finestra nova)». A INTERSPEECH-2010.
21
Larochelle, H., Murray, I. (2011). «L’estimador neuronal autoregressiu de distribucions⁠(s'obre en una finestra nova)». A AISTATS 2011.
22
Graves, A. (2013). «Generació de seqüències amb xarxes neuronals recurrents⁠(s'obre en una finestra nova)». Prepublicació a arXiv.
23
Tian, Y., Krishnan, D. i Isola, P. (2019). «Codificació multivista contrastiva⁠(s'obre en una finestra nova)». Prepublicació a arXiv.
24
He, K., Fan, H., Wu, Y., Xie, S. i Girshick, R. (2019). «Contrast de moment per a l’aprenentatge no supervisat de representacions visuals⁠(s'obre en una finestra nova)». Prepublicació a arXiv.
25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). «Reconeixement d’imatges eficient en dades amb codificació predictiva contrastiva⁠(s'obre en una finestra nova) ». Prepublicació a arXiv.
26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). «Xarxes neuronals recurrents de píxels⁠(s'obre en una finestra nova)». Prepublicació a arXiv.
27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A. i Tran, D. (2018). «Transformador d’imatge⁠(s'obre en una finestra nova)». A ICML 2018.
28
Menick, J., Kalchbrenner, N. (2018). «Generació d’imatges d’alta fidelitat amb xarxes de píxels subescala i ampliació multidimensional⁠(s'obre en una finestra nova)». Prepublicació a arXiv.
29
Mumford, D. (1992). «Sobre l’arquitectura computacional del neocòrtex⁠(s'obre en una finestra nova)». A Biol. Cybern.
30
Rao, R., Ballard, D. (1999). «Codificació predictiva al còrtex visual: una interpretació funcional d’alguns efectes de camp receptiu extraclàssic⁠(s'obre en una finestra nova)». A Nature Neuroscience.
31
Smolensky, P. (1986). «Processament de la informació en sistemes dinàmics: fonaments de la teoria de l’harmonia⁠(s'obre en una finestra nova)».
32
Hinton, G. (2002). «Entrenament de productes d’experts mitjançant la minimització de la divergència contrastiva⁠(s'obre en una finestra nova)». A MIT Press.
33
Hinton, G., Osindero, S. i Teh, Y. (2006). «Un algorisme d’aprenentatge ràpid per a xarxes de creences profundes⁠(s'obre en una finestra nova)». A Neural Computation.
34
Vincent, P., Larochelle, H., Bengio, Y. i Manzagol, P. (2008). «Extracció i composició de característiques robustes amb autoencoders amb soroll⁠(s'obre en una finestra nova)». A ICML 2008.
35
Coates, A., Lee, H. i Ng, A. Y. (2011). «Una anàlisi de xarxes d’una sola capa en l’aprenentatge no supervisat de característiques⁠(s'obre en una finestra nova)». A AISTATS 2011.
36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. i Ng, A. Y. (2012). «Construcció de característiques d’alt nivell mitjançant aprenentatge no supervisat a gran escala⁠(s'obre en una finestra nova)». A ICML 2012.
37
Donahue, J., Simonyan, K. (2019). «Aprenentatge adversari de representacions a gran escala⁠(s'obre en una finestra nova)». A NeurIPS 2019.
38
Ciresan, D., Meier, U., Gambardella, L. i Schmidhuber, J. (2010). «Les xarxes neuronals profundes grans i simples excel·leixen en el reconeixement de dígits manuscrits⁠(s'obre en una finestra nova)». A CoRR 2010.
39
Shaw, P., Uszkoreit, J. i Vaswani A. (2018). «Autoatenció amb representacions de posició relatives⁠(s'obre en una finestra nova)». A NAACL 2018.
40
Child, R., Gray, S., Radford, A. i Sutskever, I. (2019). «Generació de seqüències llargues amb transformadors dispersos⁠(s'obre en una finestra nova)». Prepublicació a arXiv.
41
Becker, S., Hinton, G. (1991). «Xarxa neuronal autoorganitzativa que descobreix superfícies en estereogrames de punts aleatoris⁠(s'obre en una finestra nova)». A Nature.
42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E. i Shah, R. (1994). «Verificació de signatures amb una xarxa neuronal de retard temporal “siamesa”⁠(s'obre en una finestra nova)». A NeurIPS 1994.
43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G. i Dean, J. (2013). «Representacions distribuïdes de paraules i frases i la seva composicionalitat⁠(s'obre en una finestra nova) ». A NeurIPS 2013.
44
Oord, A., Li, Y., Vinyals, O. (2018). «Aprenentatge de representacions amb codificació predictiva contrastiva⁠(s'obre en una finestra nova) ». Prepublicació a arXiv.
45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A. i Bengio, Y. (2018). «Aprenentatge de representacions profundes mitjançant estimació i maximització de la informació mútua⁠(s'obre en una finestra nova)». A ICLR 2019.
46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). «Enginyeria racional unificada de proteïnes amb aprenentatge profund de representacions només de seqüència⁠(s'obre en una finestra nova)». A Nature Methods.
47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). «L’estructura i la funció biològiques emergeixen en escalar l’aprenentatge no supervisat a 250 milions de seqüències de proteïnes⁠(s'obre en una finestra nova)». Prepublicació bioRxiv.
48
Torralba, A., Fergus, R., Freeman, W. (2008). «80 milions de petites imatges: un gran conjunt de dades per al reconeixement no paramètric d’objectes i escenes⁠(s'obre en una finestra nova)». A IEEE transactions on pattern analysis and machine intelligence.
49
«Llista de gràfics de maquinari informàtic de 8 bits⁠(s'obre en una finestra nova)». Wikipedia, 8 de maig de 2020
50
Kornblith, S., Shlens, J. i Le, Q. V. (2019). «Els millors models d’ImageNet transfereixen millor?⁠(s'obre en una finestra nova)». A CVPR 2019.
51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V. i Le, Q. V. (2019). «AutoAugment: aprenentatge d’estratègies d’augment a partir de les dades⁠(s'obre en una finestra nova)». A CVPR 2019.
52
Tan, M., Le, Q. V. (2019). «EfficientNet: replantejant l’escalat de models per a xarxes neuronals convolucionals⁠(s'obre en una finestra nova)». A ICML 2019.
53
Gidaris, S., Singh, P. i Komodakis, N. (2018). «Aprenentatge no supervisat de representacions mitjançant la predicció de rotacions d’imatge⁠(s'obre en una finestra nova)». A ICLR 2018.
54
Kingma, D., Rezende, D. J., Mohamed, S. i Welling, M. (2014). «Aprenentatge semisupervisat amb models generatius profunds⁠(s'obre en una finestra nova)». A NeurIPS 2014.
55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). «Tècniques millorades per entrenar GANs⁠(s'obre en una finestra nova)». A NeurIPS 2016.
56
Tarvainen, A., Valpola, H. (2017). «Els mestres mitjans són millors models: les dianes de consistència amb mitjana de pesos milloren els resultats de l’aprenentatge profund semisupervisat⁠(s'obre en una finestra nova)». A NeurIPS 2017.
57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). «MixMatch: un enfocament holístic de l’aprenentatge semisupervisat⁠(s'obre en una finestra nova)». A NeurIPS 2019.
58
Xie, Q., Dai, Z., Hovy, E., Luong, M. i Le, Q. V. (2019). «Augment no supervisat de dades per a l’entrenament de consistència⁠(s'obre en una finestra nova)». Prepublicació a arXiv.
59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). «Fixmatch: simplificació de l’aprenentatge semisupervisat amb consistència i confiança⁠(s'obre en una finestra nova)». Prepublicació a arXiv.
60
Sutton, R. (2019). «La lliçó amarga⁠(s'obre en una finestra nova)».

Autors

Mark Chen, Alec Radford i Ilya Sutskever

Agraïments

En primer lloc, volem reconèixer els coautors del nostre article Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal i David Luan.

Gràcies a les persones següents pels seus comentaris sobre aquest treball i per les seves contribucions a aquesta publicació: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le i Ashish Vaswani.

Editor: Ashley Pilipiszyn

Disseny: Justin Jay Wang

Il·lustració de portada: Ben Barry