17 de junio de 2020

GPT de imagen

Leer documento Ver código ICML 2020 Paper (V1)

Illustration: Ben Barry

Cargando...

Descubrimos que, así como un modelo transformador grande entrenado en lenguaje puede generar texto coherente, el mismo modelo exacto entrenado en secuencias de píxeles puede generar respuestas⁠ y muestras⁠ de imágenes coherentes. Al establecer una correlación entre la calidad de muestras y la exactitud de clasificación de imágenes, mostramos que nuestro mejor modelo generativo también contiene características competitivas con redes convolucionales superiores en el entorno no supervisado.

Introducción

El aprendizaje no supervisado y autosupervisado ¹ o aprendizaje sin datos etiquetados por humanos, es un desafío de larga duración del aprendizaje automático. Recientemente, ha tenido un increíble éxito en lenguaje: modelos transformadores² como BERT,³ GPT‑2,⁴ RoBERTa,⁵ T5,⁶ y otras variantes^{7, 8, 9 y 10} han logrado un rendimiento superior en una amplia variedad de tareas de lenguaje. Sin embargo, la misma amplia clase de modelos no fue exitosa en la producción de características sólidas de clasificación de imágenes.¹¹ Nuestro trabajo tiene la finalidad de comprender y salvar estas diferencias.

Los modelos transformadores como BERT y GPT‑2 son independientes de dominio, lo que significa que pueden aplicarse directamente a secuencias de 1D de cualquier forma. Cuando entrenamos GPT‑2 en imágenes desenrolladas en secuencias largas de píxeles, que llamamos iGPT, descubrimos que el modelo parece comprender características de imágenes 2D como el aspecto y la categoría del objeto. Esto se evidencia por el diverso rango de muestras de imágenes coherentes que genera, incluso sin la orientación de etiquetas provistas por humanos. Como prueba adicional, las características del modelo alcanzan un rendimiento de última generación en una cantidad de conjuntos de datos sin clasificación y precisión casi sin supervisión de última generación^A en ImageNet.

Evaluación	Conjunto de datos	Nuestro resultado	Mejor resultado no iGPT
Regresión logística sobre características aprendidas (sonda lineal)	CIFAR-10	96,3 iGPT‑L 32x32 con 1536 características	95,3 SimCLR¹²⁠ con 8192 características
	CIFAR-100	82,8 iGPT‑L 32x32 con 1536 características	80,2 SimCLR con 8192 características
	STL-10	95,5 iGPT‑L 32x32 con 1536 características	94,2 AMDIM¹³⁠ con 8192 características
	ImageNet	72,0 iGPT‑XL^a⁠ 64x64 con 15 360 características	76,5 SimCLR con 8192 características
Ajuste fino completo	CIFAR-10	99,0 iGPT‑L 32x32, entrenado con ImageNet	99,0^b⁠ GPipe,¹⁴⁠ entrenado en ImageNet
	ImageNet 32x32	66,3 iGPT‑L 32x32	70,2 Redes isométricas¹⁵⁠

Solo mostramos precisión de sonda lineal en ImageNet para iGPT‑XL dado que otros experimentos no terminaron antes de que necesitáramos pasar a diferentes instalaciones de supercomputación.
Bit-L, entrenado en JFT (300 millones de imágenes con 18 000 clases), alcanzaron un resultado de 99,3.

Para destacar el potencial de modelado de secuencia^{19, 20, 21 y 22} generativa^{17 y 18} como un algoritmo de aprendizaje no supervisado de propósito general, usamos deliberadamente la misma arquitectura transformadora como GPT‑2 en el lenguaje. Como consecuencia, requerimos significativamente más cómputos para producir características competitivas con aquellas de redes convolucionales no supervisadas superiores.^{13, 23, 24, 25 y 12} Sin embargo, nuestros resultados sugieren que cuando nos enfrentamos a un nuevo dominio donde se desconocen los antecedentes del modelo correcto, un GPT‑2 puede aprender características excelentes sin necesidad de opciones de diseño arquitectónicas específicas al dominio ^{26, 27 y 28}.

Cargando...

De GPT de lenguaje a GPT de imagen

En lenguaje, algoritmos de aprendizaje no supervisado que dependen de la predicción de palabras (como GPT‑2 y BERT) han tenido gran éxito, ya que han alcanzado un rendimiento superior en una amplia variedad de tareas de lenguaje. Un posible motivo de este éxito es que las instancias de tareas de lenguaje de salida aparecen naturalmente en el texto: las preguntas a menudo son seguidas de respuestas (lo cual podría ayudar con la respuesta a preguntas) y los fragmentos a menudo son seguidos de resúmenes (lo cual podría ayudar con la recapitulación). Por el contrario, las secuencias de píxeles no contienen claramente etiquetas para las imágenes a las que pertenecen.

Incluso sin esta supervisión explícita, aún hay un motivo por el que GPT‑2 podría funcionar en imágenes: un transformador lo suficientemente grande entrenado en la predicción del siguiente píxel podría eventualmente aprender a generar muestras diversas^B con objetos claramente identificables. Una vez que aprenda a hacerlo, una idea conocida como “Análisis por síntesis”^{29, 30 y C} sugiere que el modelo también sabrá sobre categorías de objetos. Esta idea motivó a muchos modelos generativos preliminares^{31, 32, 33, 34, 35 y 36} y más recientemente, BigBiGAN³⁷ fue un ejemplo que produjo muestras y características favorables. En nuestro trabajo, primero mostramos que mejores modelos generativos logran un rendimiento de clasificación más sólido. Luego, gracias a la optimización de GPT‑2 para capacidades generativas, logramos un rendimiento de clasificación de primer nivel en muchos entornos, lo que brinda más pruebas para el análisis por síntesis.

Hacia el aprendizaje no supervisado general

El modelado generativo de secuencias es un algoritmo de aprendizaje no supervisado universal: dado que todos los tipos de datos se pueden representar como secuencias de bytes, un transformador puede aplicarse directamente a cualquier tipo de dato sin ingeniería adicional. Nuestro trabajo prueba el poder de esta generalización mediante la aplicación directa de la arquitectura usada para entrenar GPT‑2 en lenguaje natural para la generación de imágenes. Deliberadamente elegimos renunciar a la codificación manual de cualquier conocimiento específico de imágenes en forma de convoluciones³⁸ o técnicas como atención relativa,³⁹ atención dispersa,⁴⁰ e integraciones de posición 2D.²⁷

Como consecuencia de esta generalización, nuestro método requiere significativamente más cómputos para alcanzar un rendimiento competitivo en el entorno no supervisado. De hecho, los métodos contrastivos^{41, 42, 43, 44, 45, 13, 23, 24, 25 y 12} aún son los métodos más eficientes computacionalmente para producir características de alta calidad a partir de imágenes. Sin embargo, al mostrar que un modelo transformador no supervisado es competitivo con las mejores redes convolucionales no supervisadas^{24, 25 y 12}, proporcionamos evidencia de que es posible compensar conocimiento de dominio codificado manualmente para cómputo. En dominios nuevos^{46 y 47}, donde no hay mucho conocimiento para codificar manualmente, el escalado de cómputos parece una técnica apropiada para probar.

Enfoque

Entrenamos iGPT‑S, iGPT‑M e iGPT‑L, transformadores que contienen 76 millones, 455 millones y 1400 millones de parámetros respectivamente, en ImageNet. También entrenamos iGPT‑XL^D, un transformador de 6800 millones de parámetros, en una mezcla de ImageNet e imágenes de la web. Debido al gran costo computacional del modelado de secuencias largas con atención densa, entrenamos a bajas resoluciones de 32x32, 48x48 y 64x64.

Aunque resulta tentador trabajar a resoluciones incluso más bajas para reducir más el costo de cómputos, trabajos previos han demostrado que el rendimiento humano en clasificación de imágenes comienza a disminuir rápidamente por debajo de estos tamaños. ⁴⁸ En cambio, motivados por paletas de visualización de color preliminares,⁴⁹ creamos nuestra propia paleta de color de 9 bits para representar píxeles. Con esta paleta se genera una secuencia de entrada 3 veces más corta que la paleta estándar (R, G, B) mientras aún codificamos el color con exactitud.

Resultados experimentales

Existen dos métodos que usamos para evaluar el rendimiento del modelo y ambos implican una tarea de clasificación posterior. El primero, al que hacemos referencia como una sonda lineal, utiliza el modelo entrenado para extraer las características^E a partir de las imágenes en el conjunto de datos de salida y, luego, se adaptan a una regresión logística a las etiquetas. El segundo método ajusta ^F todo el modelo en el conjunto de datos de salida.

Dado que la siguiente predicción de píxeles no es obviamente relevante a la clasificación de imágenes, es posible que las características de la capa final no sean las más predictivas de la categoría del objeto. Nuestro primer resultado muestra que la calidad de la característica es una función que aumenta drásticamente y luego desciende ligeramente de profundidad. Este comportamiento sugiere que un modelo generativo de transformador opera en dos fases: en la primera fase, cada posición recopila información de su contexto circundante para crear una característica de imagen contextualizada. En la segunda fase, esta característica contextualizada se usa para resolver la siguiente tarea de predicción de píxeles condicional. El rendimiento observado de dos etapas de nuestras sondas lineales es evocador de otra red neuronal no supervisada, el autocodificador cuello de botella, que está diseñado manualmente para que se usen las características en el medio.

Cargando...

Nuestro siguiente resultado establece el enlace entre rendimiento generativo y la calidad de las características. Descubrimos que tanto el aumento de la escala de nuestros modelos como el entrenamiento para más iteraciones producen mejor rendimiento generativo, lo cual se refleja directamente en mejor calidad de las características.

Cargando...

Cuando evaluamos nuestras características con sondas lineales en CIFAR-10, CIFAR-100 y STL-10, conseguimos mejores resultados de las características de todos los algoritmos de transferencia supervisada y no supervisada. Nuestros resultados también son convincentes en el entorno de ajuste fino completo.

			Entrenado previamente en ImageNet
Evaluación	Modelo	Precisión	sin etiquetas	con etiquetas
CIFAR-10 Sonda lineal	ResNet-152⁵⁰	94,0		✔
	SimCLR¹²	95,3	✔
	iGPT‑L 32x32	96,3	✔	✔
CIFAR-100 Sonda lineal	ResNet-152	78,0		✔
	SimCLR	80,2	✔
	iGPT‑L 32x32	82,8	✔
STL-10 Sonda lineal	AMDIM-L	94,2	✔
	iGPT‑L 32x32	95,5	✔
CIFAR-10 Ajuste fino	AutoAugment	98,5
	SimCLR	98,6	✔
	GPipe	99,0		✔
	iGPT‑L	99,0	✔
CIFAR-100 Ajuste fino	iGPT‑L	88,5	✔
	SimCLR	89,0	✔
	AutoAugment	89,3
	EfficientNet⁵²	91,7		✔

Una comparación de sonda lineal y precisiones de ajuste fino entre nuestros modelos y modelos de alto rendimiento que utilizan transferencia no supervisada y supervisada en ImageNet. También incluimos AutoAugment, el mejor modelo de rendimiento entrenado de extremo a extremo en CIFAR.

Dado el resurgimiento de interés en aprendizaje no supervisado y autosupervisado en ImageNet, también evaluamos el rendimiento de nuestros modelos usando sondas lineales en ImageNet. Este es un entorno particularmente difícil, dado que no entrenamos en la resolución de entrada estándar de ImageNet. Pese a eso, una sonda lineal sobre las 1536 características de la mejor capa de iGPT‑L entrenado en imágenes de 48x48 arroja un 65,2 % de precisión número 1, y consigue mejores resultados que AlexNet.

Por lo general, los métodos contrastivos informan sus mejores resultados en 8192 características, por lo que lo ideal sería evaluar iGPT con una dimensión de integración de 8192 para comparar. Sin embargo, entrenar un modelo así es demasiado costoso, por lo que, en su lugar, unimos características de múltiples capas como una aproximación. Desafortunadamente, nuestras características tienden a estar correlacionadas a lo largo de capas, por lo que necesitamos más de estas para ser competitivos. Tomar 15 360 características a partir de 5 capas en iGPT‑XL arroja un 72,0 % de precisión número 1, y consigue mejores resultados que AMDIM, MoCo y CPC v2, pero aún obtener resultados inferiores que SimCLR en un margen decente.

Método	Resolución de entrada	Características	Parámetros	Precisión
Rotación⁵³	original	8192	86 millones	55,4
iGPT‑L	32x32	1536	1362 millones	60,3
BigBiGAN³⁷	original	16 384	86 millones	61,3
iGPT‑L	48x48	1536	1362 millones	65,2
AMDIM¹³	original	8192	626 millones	68,1
MoCo²⁴	original	8192	375 millones	68,6
iGPT‑XL	64x64	3072	6801 millones	68,7
SimCLR¹²	original	2048	24 millones	69,3
CPC v2²⁵	original	4096	303 millones	71,5
iGPT‑XL	64x64	3072 x 5	6801 millones	72,0
SimCLR	original	8192	375 millones	76,5

Una comparación de precisiones de sonda lineal entre nuestros modelos y los modelos autosupervisados de última generación. Logramos un rendimiento competitivo mientras entrenamos a resoluciones de entrada mucho más bajas, aunque nuestro método requiere más parámetros y cómputos.

Debido a que los modelos de lenguaje enmascarados como BERT han conseguido mejores resultados que los modelos generativos en la mayoría de las tareas de lenguaje, también evaluamos el rendimiento de BERT en nuestros modelos de imagen. En lugar de entrenar nuestro modelo para predecir el siguiente píxel dados todos los píxeles anteriores, enmascaramos 15 % de los píxeles y entrenamos nuestro modelo para predecirlos de los desenmascarados. Descubrimos que, aunque el rendimiento de la sonda lineal en modelos BERT es significativamente peor, sobresalen durante el ajuste fino:

Cargando...

A pesar de las excelentes características de promesas de aprendizaje no supervisado sin necesidad de datos etiquetados por humanos, recientemente se lograron avances significativos bajo el marco flexible de aprendizaje semisupervisado, lo que permite cantidades limitadas de datos etiquetados por humanos. Los métodos semisupervisados exitosos a menudo dependen de técnicas más inteligentes, como regularización de consistencia, aumento de datos o seudoetiquetado, y los enfoques con base puramente generativa ^{54 y 55} no han sido competitivos durante años. Evaluamos iGPT‑L^G en una referencia competitiva para este subcampo y descubrimos que una sonda lineal simple sobre características a partir de imágenes aumentadas consigue mejores resultados que Mean Teacher⁵⁶ y MixMatch⁵⁷, aunque obtiene resultados inferiores a FixMatch.⁵⁹

Modelo	40 etiquetas	250 etiquetas	4000 etiquetas
GAN mejorada⁵⁵	—	—	81,4 ± 2,3
Mean Teacher⁵⁶	—	67,7 ± 2,3	90,8 ± 0,2
MixMatch⁵⁷	52,5 ± 11,5	89,0 ± 0,9	93,6 ± 0,1
iGPT‑L	73,2 ± 01,5	87,6 ± 0,6	94,3 ± 0,1
UDA⁵⁸	71,0 ± 05,9	91,2 ± 1,1	95,1 ± 0,2
FixMatch⁵⁹ RA	86,2 ± 03,4	94,9 ± 0,7	95,7 ± 0,1
FixMatch CTA	88,6 ± 03,4	94,9 ± 0,3	95,7 ± 0,2

Una comparación de rendimiento en CIFAR-10 de datos bajos. Al aprovechar muchas imágenes de ImageNet no etiquetadas, iGPT‑L es capaz de conseguir mejores resultados en métodos como Mean Teacher y MixMatch, pero todavía obtiene resultados inferiores en métodos de última generación. Nuestro enfoque para el aprendizaje semisupervisado es muy simple, dado que solo ajustamos un clasificador de regresión logística en características de iGPT‑L sin ningún aumento de datos o ajuste fino, una diferencia significativa de enfoques semisupervisados especialmente diseñados.

Limitaciones

A pesar de que mostramos que iGPT es capaz de aprender potentes características de imágenes, aún existen limitaciones significativas a nuestro enfoque. Dado que usamos el transformador de secuencia genérica utilizado para GPT‑2 en lenguaje, nuestro método requiere grandes cantidades de cómputo: iGPT‑L recibió entrenamiento para casi 2500 días a V100, mientras que un modelo MoCo24⁠ de rendimiento similar se puede entrenar en casi 70 días a V100.

En relación con lo anterior, modelamos entradas de resolución baja usando un transformador, mientras que la mayoría de los resultados supervisados usan codificadores con base convolucional que pueden fácilmente consumir entradas a alta resolución. Es posible que una arquitectura nueva, como un transformador multiescala de dominio independiente, requiera escalar más. Dadas estas limitaciones, nuestro trabajo principalmente sirve como demostración de prueba de concepto de la capacidad de modelos de lenguaje basada en grandes transformadores para aprender excelentes representaciones no supervisadas en dominios noveles, sin necesidad de conocimiento de dominio preprogramado. Sin embargo, el significativo costo de recursos para entrenar estos modelos y la mayor precisión de red neurológica convolucional basada en métodos descarta estas representaciones de aplicaciones prácticas en el mundo real en el dominio de la visión.

Por último, los modelos generativos pueden mostrar sesgos que son consecuencia de los datos sobre los que se entrenaron. Muchos de estos sesgos son útiles, como suponer que una combinación de píxeles marrones y verdes representa una rama cubierta de hojas, y luego usar este sesgo para continuar la imagen. Pero algunos de estos sesgos serán nocivos cuando se consideren a través de una lente de imparcialidad y representación. Por ejemplo, si el modelo desarrolla una noción visual de un científico que sesga hombres, entonces podría completar de forma consistente imágenes de científicos con personas que presentan hombres, en lugar de una mezcla de géneros. Creemos que los desarrolladores deberán prestar más atención a los datos que alimentan en sus sistemas y comprender mejor cómo se relaciona a sesgos en modelos entrenados.

Conclusión

Demostramos que al compensar el conocimiento 2D para escala⁶⁰ y al seleccionar características predictivas desde el medio de la red, un transformador de secuencias puede ser competitivo con redes convolucionales superiores para la clasificación de imágenes no supervisadas. En especial, logramos nuestros resultados al aplicar directamente el modelo de lenguaje GPT‑2 a la generación de imágenes. Nuestros resultados sugieren que debido a su simplicidad y generalización, un transformador de secuencias con suficiente cómputo podría finalmente ser una forma eficaz de aprender excelentes características en muchos dominios.

Si te emociona trabajar con nosotros en esta área de investigación, estamos contratando⁠.

Footnotes

A
Measured through logistic regression on learned features (linear probe).
B
A transformer is trained to maximize the likelihood, and thus is mode covering, which automatically ensures the diversity of its samples.
C
The original analysis by synthesis idea is more an argument for generative models with latent variables, but because generative models without latent variables were so much better at modeling the data distribution, we thought the analysis-by-synthesis conjecture should hold for them as well.
D
We only show linear probe accuracy on ImageNet for iGPT-XL since other experiments did not finish before we needed to transition to different supercomputing facilities.
E
To extract features for a linear probe, we take the post layernorm attention block inputs at some layer and average pool over the sequence dimension.
F
To fine-tune, we take the post layernorm transformer output and average pool over the sequence dimension as input for the classification head.
G
A generative model which learns features in a purely unsupervised fashion.

References

1
LeCun, Y. (2017). “Predictive Learning⁠(se abre en una nueva ventana).”
2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Attention is All you Need⁠(se abre en una nueva ventana).” In NeurIPS 2017.
3
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding⁠(se abre en una nueva ventana).” arXiv preprint.
4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Language Models are Unsupervised Multitask Learners⁠(se abre en una nueva ventana).” Technical Report, OpenAI.
5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: A Robustly Optimized BERT Pretraining Approach⁠(se abre en una nueva ventana).” arXiv preprint.
6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer⁠(se abre en una nueva ventana).” arXiv preprint.
7
Dai, A., Le, Q. V. (2015). “Semi-supervised sequence learning⁠(se abre en una nueva ventana).” In NeurIPS 2015.
8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “Deep Contextualized Word Representations⁠(se abre en una nueva ventana).” In NAACL 2018.
9
Howard, J., Ruder, S. (2018). “Universal Language Model Fine-tuning for Text Classification⁠(se abre en una nueva ventana).” In ACL 2018.
10
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “Improving language understanding by generative pre-training⁠(se abre en una nueva ventana).” Technical Report, OpenAI.
11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). “Sparse attentive backtracking: Temporal credit assignment through reminding⁠(se abre en una nueva ventana).” In NeurIPS 2018.
12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). “A Simple Framework for Contrastive Learning of Visual Representations⁠(se abre en una nueva ventana).” arXiv preprint.
13
Bachman, P., Hjelm, R., & Buchwalter, W. (2019). “Learning representations by maximizing mutual information across views⁠(se abre en una nueva ventana).” In NeurIPS 2019.
14
Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): General Visual Representation Learning⁠(se abre en una nueva ventana).” arXiv preprint.
15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism⁠(se abre en una nueva ventana).” In NeurIPS 2019.
16
Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). “Non-discriminative data or weak model? On the relative importance of data and model resolution⁠(se abre en una nueva ventana).” In ICCV 2019.
17
Lasserre, J., Bishop, C., & Minka, T. P. (2006). “Principled Hybrids of Generative and Discriminative Models⁠(se abre en una nueva ventana).” In CVPR 2006.
18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). “Why does unsupervised pre-training help deep learning?⁠(se abre en una nueva ventana).” In JMLR 2010.
19
Elman, J. (1990). “Finding Structure in Time⁠(se abre en una nueva ventana).” In Cognitive Science 1990.
20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Recurrent neural network based language model⁠(se abre en una nueva ventana).” In INTERSPEECH-2010.
21
Larochelle, H., Murray, I. (2011). “The neural autoregressive distribution estimator⁠(se abre en una nueva ventana).” In AISTATS 2011.
22
Graves, A. (2013). “Generating sequences with recurrent neural networks⁠(se abre en una nueva ventana).” arXiv preprint.
23
Tian, Y., Krishnan, D., & Isola, P. (2019). “Contrastive multiview coding⁠(se abre en una nueva ventana).” arXiv preprint.
24
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). “Momentum Contrast for Unsupervised Visual Representation Learning⁠(se abre en una nueva ventana).” arXiv preprint.
25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Data-Efficient Image Recognition with Contrastive Predictive Coding⁠(se abre en una nueva ventana) .” arXiv preprint.
26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Pixel recurrent neural networks⁠(se abre en una nueva ventana).” arXiv preprint.
27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer⁠(se abre en una nueva ventana).” In ICML 2018.
28
Menick, J., Kalchbrenner, N. (2018). “Generating High Fidelity Images with Subscale Pixel Networks and Multidimensional Upscaling⁠(se abre en una nueva ventana).” arXiv preprint.
29
Mumford, D. (1992). “On the computational architecture of the neocortex⁠(se abre en una nueva ventana).” In Biol. Cybern.
30
Rao, R., Ballard, D. (1999). “Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects⁠(se abre en una nueva ventana).” In Nature Neuroscience.
31
Smolensky, P. (1986). “Information processing in dynamical systems: Foundations of harmony theory⁠(se abre en una nueva ventana).”
32
Hinton, G. (2002). “Training Products of Experts by Minimizing Contrastive Divergence⁠(se abre en una nueva ventana).” In MIT Press.
33
Hinton, G., Osindero, S., & Teh, Y. (2006). “A fast learning algorithm for deep belief nets⁠(se abre en una nueva ventana).” In Neural Computation.
34
Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). “Extracting and composing robust features with denoising autoencoders⁠(se abre en una nueva ventana).” In ICML 2008.
35
Coates, A., Lee, H., & Ng, A. Y. (2011). “An analysis of single-layer networks in unsupervised feature learning⁠(se abre en una nueva ventana).” In AISTATS 2011.
36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “Building high-level features using large scale unsupervised learning⁠(se abre en una nueva ventana).” In ICML 2012.
37
Donahue, J., Simonyan, K. (2019). “Large scale adversarial representation learning⁠(se abre en una nueva ventana).” In NeurIPS 2019.
38
Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). “Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition⁠(se abre en una nueva ventana).” In CoRR 2010.
39
Shaw, P., Uszkoreit, J., & Vaswani A. (2018). “Self-attention with relative position representations⁠(se abre en una nueva ventana).” In NAACL 2018.
40
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “Generating long sequences with sparse transformers⁠(se abre en una nueva ventana).” arXiv preprint.
41
Becker, S., Hinton, G. (1991). “Self-organizing neural network that discovers surfaces in random-dot stereograms⁠(se abre en una nueva ventana).” In Nature.
42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). “Signature verification using a” siamese” time delay neural network⁠(se abre en una nueva ventana).” In NeurIPS 1994.
43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). “Distributed Representations of Words and Phrases and their Compositionality⁠(se abre en una nueva ventana) .” In NeurIPS 2013.
44
Oord, A., Li, Y., Vinyals, O. (2018). “Representation Learning with Contrastive Predictive Coding⁠(se abre en una nueva ventana) .” arXiv preprint.
45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Learning deep representations by mutual information estimation and maximization⁠(se abre en una nueva ventana).” In ICLR 2019.
46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). “Unified rational protein engineering with sequence-only deep representation learning⁠(se abre en una nueva ventana).” In Nature Methods.
47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). “Biological Structure and Function Emerge from Scaling Unsupervised Learning to 250 Million Protein Sequences⁠(se abre en una nueva ventana).” bioRxiv preprint.
48
Torralba, A., Fergus, R., Freeman, W. (2008). “80 million tiny images: A large data set for nonparametric object and scene recognition⁠(se abre en una nueva ventana).” In IEEE transactions on pattern analysis and machine intelligence.
49
“List of 8-Bit Computer Hardware Graphics⁠(se abre en una nueva ventana).” Wikipedia, 8 May 2020
50
Kornblith, S., Shlens, J., & Le, Q. V. (2019). “Do Better ImageNet Models Transfer Better?⁠(se abre en una nueva ventana).” In CVPR 2019.
51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: Learning Augmentation Strategies From Data⁠(se abre en una nueva ventana).” In CVPR 2019.
52
Tan, M., Le, Q. V. (2019). “EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks⁠(se abre en una nueva ventana).” In ICML 2019.
53
Gidaris, S., Singh, P., & Komodakis, N. (2018). “Unsupervised Representation Learning by Predicting Image Rotations⁠(se abre en una nueva ventana).” In ICLR 2018.
54
Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). “Semi-Supervised Learning with Deep Generative Models⁠(se abre en una nueva ventana).” In NeurIPS 2014.
55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “Improved techniques for training gans⁠(se abre en una nueva ventana).” In NeurIPS 2016.
56
Tarvainen, A., Valpola, H. (2017). “Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results⁠(se abre en una nueva ventana).” In NeurIPS 2017.
57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: A Holistic Approach to Semi-Supervised Learning⁠(se abre en una nueva ventana).” In NeurIPS 2019.
58
Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). “Unsupervised Data Augmentation for Consistency Training⁠(se abre en una nueva ventana).” arXiv preprint.
59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: Simplifying semi-supervised learning with consistency and confidence⁠(se abre en una nueva ventana).” arXiv preprint.
60
Sutton, R. (2019). “The Bitter Lesson⁠(se abre en una nueva ventana).”

Authors

Mark Chen, Alec Radford e Ilya Sutskever

Acknowledgments

Foremost, we would like to acknowledge our paper co-authors Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, and David Luan.

Thanks to the following for their feedback on this work and contributions to this release: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le, and Ashish Vaswani.

Editor: Ashley Pilipiszyn

Design: Justin Jay Wang

Cover artwork: Ben Barry

GPT de imagen

Introducción

De GPT de lenguaje a GPT de imagen

Hacia el aprendizaje no supervisado general

Enfoque

Resultados experimentales

Limitaciones

Conclusión

Footnotes

References

Authors

Acknowledgments

Artículos relacionados