17 de junio de 2020

GPT de imagen

Leer el artículo Ver el código ICML 2020 Paper (V1)

Illustration: Ben Barry

Cargando…

Hemos observado que, del mismo modo que un modelo de transformador de gran tamaño entrenado con lenguaje puede generar texto coherente, si se entrena con secuencias de píxeles, el mismo modelo es capaz de generar imágenes⁠ y muestras⁠ de imágenes coherentes. Al establecer una correlación entre la calidad de la muestra y la precisión de la clasificación de imágenes, hemos demostrado que las características de nuestro mejor modelo generativo pueden competir con las principales redes convolucionales en un entorno no supervisado.

Introducción

El aprendizaje no supervisado y autosupervisado¹, o el aprendizaje sin datos etiquetados por humanos, ha sido un desafío para el aprendizaje automático durante mucho tiempo. Recientemente, ha tenido mucho éxito con el lenguaje, ya que los modelos de transformador² como BERT,³ GPT‑2,⁴ RoBERTa,⁵ T5,⁶ y similares^{7, 8, 9 y 10} han logrado el máximo rendimiento en una gran variedad de tareas lingüísticas. Sin embargo, la misma amplia gama de modelos no ha logrado producir características sólidas para la clasificación de imágenes.¹¹ Nuestra labor tiene como objetivo comprender y cerrar esta brecha.

Los modelos de transformador como BERT y GPT‑2 son independientes del dominio, lo que significa que pueden aplicarse directamente a secuencias 1D de cualquier tipo. Cuando hemos entrenado GPT‑2 con imágenes desglosadas en largas secuencias de píxeles, a las que llamamos iGPT, hemos observado que el modelo parece comprender las características de la imagen 2D, como el aspecto y la categoría del objeto. Esto queda patente en la diversa gama de muestras de imágenes coherentes que genera, incluso sin la guía de etiquetas proporcionadas por humanos. Como prueba adicional, las características del modelo logran un rendimiento excepcional en varios conjuntos de datos de clasificación y una precisión no supervisada muy avanzada^A en ImageNet.

Evaluación	Conjunto de datos	Nuestro resultado	Mejor resultado no iGPT
Regresión logística de características aprendidas (sonda lineal)	CIFAR-10	96,3 iGPT‑L 32 x 32 con 1536 características	95,3 SimCLR¹²⁠ con 8192 características
	CIFAR-100	82,8 iGPT‑L 32 x 32 con 1536 características	80,2 SimCLR con 8192 características
	STL-10	95,5 iGPT‑L 32 x 32 con 1536 características	94,2 AMDIM¹³⁠ con 8192 características
	ImageNet	72,0 iGPT‑XL^a⁠ 64 x 64 con 15 360 características	76,5 SimCLR con 8192 características
Optimización completa	CIFAR-10	99,0 iGPT‑L 32 x 32, entrenado con ImageNet	99,0^b⁠ GPipe,¹⁴⁠ entrenado con ImageNet
	ImageNet 32 x 32	66,3 iGPT‑L 32 x 32	70,2 Redes isométricas¹⁵⁠

Solo hemos incluido la precisión de la sonda lineal ImageNet para iGPT‑XL, ya que otros experimentos no finalizaron antes de que tuviéramos que cambiarnos a otras instalaciones de supercomputación.
Bit-L, entrenado con JFT (300 millones de imágenes con 18 000 clases), logró un resultado de 99,3.

Para resaltar el potencial del modelado de secuencias^{19, 20, 21 y 22} generativo^{17 y 18} como algoritmo de aprendizaje general no supervisado, hemos utilizado deliberadamente la misma arquitectura de transformador que GPT‑2 en el lenguaje. Como consecuencia, necesitamos mucha más capacidad computacional para producir características capaces de competir con las de las principales redes convolucionales no supervisadas.^{13, 23, 24, 25 y 12} Sin embargo, nuestros resultados sugieren que, cuando nos enfrentamos a un nuevo dominio en el que se desconocen los modelos previos correctos, un GPT‑2 de gran tamaño puede aprender características excelentes sin la necesidad de opciones de diseño arquitectónico específicas del dominio^{26, 27 y 28}.

Cargando...

Del GPT de lenguaje al GPT de imágenes

En el ámbito del lenguaje, los algoritmos de aprendizaje no supervisados que se basan en la predicción de palabras (como GPT‑2 y BERT) han tenido un gran éxito y han obtenido un rendimiento máximo en una amplia gama de tareas lingüísticas. Parte de este éxito puede deberse a que las tareas lingüísticas posteriores aparecen de forma natural en el texto: las preguntas suelen ir seguidas de respuestas (lo que podría ayudar a responder a las preguntas) y los textos suelen ir seguidos de resúmenes (lo que podría ayudar a resumirlos). Por el contrario, las secuencias de píxeles no contienen etiquetas claras para las imágenes a las que pertenecen.

Incluso sin esta supervisión explícita, todavía hay una razón por la que GPT‑2 podría funcionar con imágenes: un transformador suficientemente grande entrenado en la predicción del siguiente píxel podría, con el tiempo, aprender a generar muestras diversas^B con objetos claramente reconocibles. Una vez que aprenda a hacerlo, la idea del «análisis por síntesis»^{29, 30 y C} sugiere que el modelo también conocerá las categorías de objetos. Muchos de los primeros modelos generativos^{31, 32, 33, 34, 35 y 36} estuvieron motivados por esta teoría y, más recientemente, BigBiGAN³⁷ ha sido un ejemplo que ha producido muestras y características alentadoras. En nuestro trabajo, hemos demostrado en primer lugar que los mejores modelos generativos logran un mejor rendimiento de clasificación. Posteriormente, al optimizar GPT‑2 para las capacidades generativas, hemos logrado un rendimiento de clasificación de alto nivel en numerosos entornos, lo que proporciona más pruebas del análisis por síntesis.

Hacia el aprendizaje general no supervisado

El modelado de secuencias generativas es un algoritmo universal de aprendizaje no supervisado: como todos los tipos de datos se pueden representar como secuencias de bytes, se puede aplicar directamente un transformador a cualquier tipo de datos sin ingeniería adicional. Nuestro trabajo ha puesto a prueba la potencia de esta generalidad aplicando directamente la arquitectura utilizada para entrenar GPT‑2 con lenguaje natural a la generación de imágenes. Hemos elegido deliberadamente renunciar a la codificación manual de cualquier conocimiento específico de la imagen en convoluciones³⁸ o técnicas como la atención relativa³⁹, la atención escasa⁴⁰ y las incrustaciones de posiciones 2D.²⁷

Como consecuencia de su generalidad, nuestro método requiere mucha más capacidad computacional para lograr un rendimiento competitivo en un entorno no supervisado. De hecho, los métodos contrastivos^{41, 42, 43, 44, 45, 13, 23, 24, 25 y 12} siguen siendo los métodos más eficaces a nivel computacional para producir características de gran calidad a partir de imágenes. Sin embargo, al demostrar que un modelo de transformador no supervisado puede competir con las mejores redes convolucionales no supervisadas^{24, 25 y 12}, hemos proporcionado pruebas de que es posible intercambiar conocimientos de dominio codificados manualmente por computación. En dominios nuevos^{46 y 47}, en los que no hay mucho conocimiento para codificar a mano, ampliar la computación resulta una técnica adecuada para realizar pruebas.

Metodología

Hemos entrenado transformadores iGPT‑S, iGPT‑M e iGPT‑L que contienen parámetros de 76 millones, 455 millones y 1400 millones respectivamente en ImageNet. También hemos entrenado iGPT‑XL^D, un transformador de 6800 millones de parámetros, en una combinación de ImageNet e imágenes de la web. Debido al elevado coste computacional de modelar secuencias largas con mucha atención, el entrenamiento se realiza a resoluciones bajas de 32 x 32, 48 x 48 y 64 x 64.

Aunque resulta tentador trabajar con resoluciones más bajas para reducir aún más el coste computacional, nuestro trabajo anterior ha demostrado que el rendimiento humano en la clasificación de imágenes comienza a descender rápidamente por debajo de estos tamaños⁴⁸. En su lugar, inspirados por las primeras paletas de visualización de colores⁴⁹, hemos creado nuestra propia paleta de colores de 9 bits para representar píxeles. El uso de esta paleta produce una longitud de secuencia de entrada tres veces más corta que la paleta estándar (R, G, B), sin dejar de codificar el color fielmente.

Resultados experimentales

Hemos utilizado dos métodos para evaluar el rendimiento del modelo, y ambos conllevan una tarea de clasificación posterior. El primero, al que denominamos sonda lineal, utiliza el modelo entrenado para extraer características^E de las imágenes en el conjunto de datos posterior y luego asigna una regresión logística a las etiquetas. El segundo método optimiza^F todo el modelo en el conjunto de datos posterior.

Dado que la predicción del siguiente píxel no resulta obviamente pertinente para la clasificación de imágenes, las características de la capa final pueden no ser las más predictivas de la categoría del objeto. Nuestro primer resultado indica que la calidad de las características es una función de la profundidad que aumenta considerablemente y luego disminuye ligeramente. Este comportamiento sugiere que un modelo generativo de transformador funciona en dos fases: en la primera fase, cada posición recopila información del contexto para crear una característica de imagen contextualizada. En la segunda fase, esta característica contextualizada se utiliza para resolver la tarea de predicción condicional del siguiente píxel. El rendimiento en dos etapas observado de nuestras sondas lineales recuerda a otra red neuronal no supervisada, el codificador automático de cuello de botella, que está diseñado manualmente para que se utilicen funciones intermedias.

Cargando...

Nuestro siguiente resultado establece el vínculo entre el rendimiento generativo y la calidad de las características. Hemos observado que tanto el aumento de la escala de nuestros modelos como el entrenamiento para más iteraciones da como resultado un mejor rendimiento generativo, lo que conlleva una mejor calidad de las funciones.

Cargando...

Cuando hemos evaluado nuestras características utilizando sondas lineales en CIFAR-10, CIFAR-100 y STL-10, hemos superado las funciones de todos los algoritmos de transferencia supervisados y no supervisados. Nuestros resultados también son convincentes en un entorno de optimización total.

			Preentrenado en ImageNet
Evaluación	Modelo	Precisión	sin etiquetas	con etiquetas
CIFAR-10 Sonda lineal	ResNet-152⁵⁰	94,0		✔
	SimCLR¹²	95,3	✔
	iGPT‑L 32x32	96,3	✔	✔
CIFAR-100 Sonda lineal	ResNet-152	78,0		✔
	SimCLR	80,2	✔
	iGPT‑L 32x32	82,8	✔
STL-10 Sonda lineal	AMDIM-L	94,2	✔
	iGPT‑L 32x32	95,5	✔
CIFAR-10 Optimización	AutoAugment	98,5
	SimCLR	98,6	✔
	GPipe	99,0		✔
	iGPT‑L	99,0	✔
CIFAR-100 Optimización	iGPT‑L	88,5	✔
	SimCLR	89,0	✔
	AutoAugment	89,3
	EfficientNet⁵²	91,7		✔

Una comparación de las precisiones de la sonda lineal y la optimización entre nuestros modelos y los modelos de mayor rendimiento que utilizan transferencia de ImageNet supervisada o no supervisada. También hemos incluido AutoAugment, el modelo de mayor rendimiento entrenado de extremo a extremo en CIFAR.

Dado el resurgimiento del interés en el aprendizaje autosupervisado y no supervisado en ImageNet, también hemos evaluado el rendimiento de nuestros modelos con sondas lineales en ImageNet. Este es un entorno particularmente exigente, ya que no entrenamos nuestros modelos con la resolución de entrada estándar de ImageNet. Sin embargo, una sonda lineal en las 1536 características de la mejor capa de iGPT‑L entrenada con imágenes de 48 x 48 produce una precisión superior al 65,2 %, superando a AlexNet.

Los métodos contrastivos obtienen los mejores resultados, por lo general, en 8192 características, por lo que lo ideal sería evaluar iGPT con una dimensión de incrustación de 8192 a modo de comparación. Sin embargo, los costes de entrenar un modelo de este tipo son extremadamente elevados, por lo que en su lugar aunamos características de múltiples capas para aproximarnos lo máximo posible. Lamentablemente, nuestras características tienden a estar correlacionadas entre capas, por lo que necesitamos más para que sean competitivas. El uso de 15 360 funciones de cinco capas en iGPT‑XL produce una precisión superior al 72,0 %, superando a AMDIM, MoCo y CPC v2, pero aún bastante por debajo de SimCLR.

Método	Resolución de entrada	Características	Parámetros	Precisión
Rotación⁵³	original	8192	86 millones	55,4
iGPT‑L	32x32	1536	1362 millones	60,3
BigBiGAN³⁷	original	16 384	86 millones	61,3
iGPT‑L	48x48	1536	1362 millones	65,2
AMDIM¹³	original	8192	626 millones	68,1
MoCo²⁴	original	8192	375 millones	68,6
iGPT‑XL	64x64	3072	6801 millones	68,7
SimCLR¹²	original	2048	24 millones	69,3
CPC v2²⁵	original	4096	303 millones	71,5
iGPT‑XL	64x64	3072 x 5	6801 millones	72,0
SimCLR	original	8192	375 millones	76,5

Una comparación de las precisiones de las sondas lineales entre nuestros modelos y los modelos autosupervisados más vanguardistas. Hemos logrado un rendimiento competitivo entrenando con resoluciones de entrada mucho más bajas, aunque nuestro método requiere más parámetros y cálculos.

Dado que los modelos de lenguaje enmascarado como BERT han superado a los modelos generativos en la mayoría de las tareas lingüísticas, también hemos evaluado el rendimiento de BERT en nuestros modelos de imágenes. En lugar de entrenar nuestro modelo para predecir el siguiente píxel a partir de todos los píxeles anteriores, hemos enmascarado el 15 % de los píxeles y hemos entrenado a nuestro modelo para predecirlos a partir de los píxeles desenmascarados. Hemos descubierto que, aunque el rendimiento de la sonda lineal en los modelos BERT es significativamente peor, estos sobresalen en la optimización:

Cargando...

Aunque el aprendizaje no supervisado promete excelentes características sin la necesidad de datos etiquetados por humanos, recientemente se han logrado avances significativos con el marco más permisivo de aprendizaje semisupervisado, que permite cantidades limitadas de datos etiquetados por humanos. Los métodos semisupervisados de éxito suelen basarse en técnicas inteligentes como la regularización de la coherencia, el aumento de los datos o el pseudoetiquetado, mientras que los enfoques puramente generativos^{54 y 55} no han sido competitivos durante años. Hemos evaluado iGPT‑L^G en un punto de referencia competitivo para este subcampo y hemos observado que una sonda lineal simple en características de imágenes no aumentadas supera a Mean Teacher⁵⁶ y MixMatch⁵⁷, aunque tiene un rendimiento inferior a FixMatch.⁵⁹

Modelo	40 etiquetas	250 etiquetas	4000 etiquetas
GAN mejorada⁵⁵	—	—	81,4 ± 2,3
Mean Teacher⁵⁶	—	67,7 ± 2,3	90,8 ± 0,2
MixMatch⁵⁷	52,5 ± 11,5	89,0 ± 0,9	93,6 ± 0,1
iGPT‑L	73,2 ± 01,5	87,6 ± 0,6	94,3 ± 0,1
UDA⁵⁸	71,0 ± 05,9	91,2 ± 1,1	95,1 ± 0,2
FixMatch⁵⁹ RA	86,2 ± 03,4	94,9 ± 0,7	95,7 ± 0,1
FixMatch CTA	88,6 ± 03,4	94,9 ± 0,3	95,7 ± 0,2

Una comparación del rendimiento en CIFAR-10 con pocos datos. Al aprovechar muchas imágenes de ImageNet sin etiquetar, iGPT‑L es capaz de superar a métodos como Mean Teacher y MixMatch, pero su rendimiento sigue siendo inferior a los métodos más vanguardistas. Nuestro enfoque en lo referente al aprendizaje semisupervisado es muy simple, ya que solo ajustamos un clasificador de regresión logística a las características de iGPT‑L sin ningún aumento ni optimización de datos, una diferencia significativa con respecto a los enfoques semisupervisados diseñados especialmente.

Limitaciones

Aunque hemos demostrado que iGPT es capaz de aprender potentes funciones de imagen, todavía existen limitaciones importantes en nuestro enfoque. Dado que usamos el transformador de secuencia genérico utilizado para GPT‑2 en el lenguaje, nuestro método requiere grandes capacidades computacionales: iGPT‑L se entrenó durante aproximadamente 2500 días V100, mientras que un modelo MoCo24⁠⁠ de rendimiento similar se puede entrenar en aproximadamente 70 días V100.

De manera similar, modelamos entradas de baja resolución con un transformador, mientras que la mayoría de los resultados autosupervisados utilizan codificadores convolucionales que pueden consumir fácilmente entradas de alta resolución. Es posible que se necesite una nueva arquitectura, como un transformador multiescala independiente del dominio, para ampliar la escala. Dadas estas limitaciones, nuestro trabajo sirve principalmente como demostración de prueba de concepto de la capacidad que los modelos de lenguaje basados en transformadores de gran tamaño tienen para aprender excelentes representaciones no supervisadas en dominios novedosos, sin la necesidad de conocimientos de dominio codificados. Sin embargo, el elevado coste de entrenar estos modelos y la mayor precisión de los métodos basados en redes neuronales convolucionales excluyen estas representaciones de aplicaciones prácticas reales en el dominio de la visión.

Por último, los modelos generativos pueden mostrar sesgos como consecuencia de los datos con los que han sido entrenados. Muchos de estos sesgos son útiles, como asumir que una combinación de píxeles marrones y verdes representa una rama cubierta de hojas y usar el sesgo para continuar la imagen. Sin embargo, algunos de estos sesgos pueden afectar negativamente a la equidad y la representación. Por ejemplo, si el modelo desarrolla una noción visual de un científico que favorece a los hombres, podría generar constantemente imágenes de científicos hombres, en lugar de plasmar distintos géneros. Creemos que los desarrolladores deberán prestar cada vez más atención a los datos que introducen en sus sistemas y comprender mejor cómo se relacionan con los sesgos en los modelos entrenados.

Conclusiones

Hemos demostrado que, al sacrificar conocimientos 2D en favor de la escala⁶⁰ y elegir características predictivas del medio de la red, un transformador de secuencia puede competir con las mejores redes convolucionales en la clasificación de imágenes no supervisada. En particular, hemos logrado nuestros resultados aplicando directamente el modelo de lenguaje de GPT‑2 a la generación de imágenes. Nuestros resultados sugieren que, debido a su simplicidad y generalidad, un transformador de secuencia con suficiente capacidad de computación podría, en última instancia, ser una forma eficaz de aprender características excelentes en muchos dominios.

Si deseas trabajar con nosotros en esta área de investigación, ¡tenemos vacantes⁠⁠!

Footnotes

A
Measured through logistic regression on learned features (linear probe).
B
A transformer is trained to maximize the likelihood, and thus is mode covering, which automatically ensures the diversity of its samples.
C
The original analysis by synthesis idea is more an argument for generative models with latent variables, but because generative models without latent variables were so much better at modeling the data distribution, we thought the analysis-by-synthesis conjecture should hold for them as well.
D
We only show linear probe accuracy on ImageNet for iGPT-XL since other experiments did not finish before we needed to transition to different supercomputing facilities.
E
To extract features for a linear probe, we take the post layernorm attention block inputs at some layer and average pool over the sequence dimension.
F
To fine-tune, we take the post layernorm transformer output and average pool over the sequence dimension as input for the classification head.
G
A generative model which learns features in a purely unsupervised fashion.

References

1
LeCun, Y. (2017). “Predictive Learning⁠(se abre en una ventana nueva).”
2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Attention is All you Need⁠(se abre en una ventana nueva).” In NeurIPS 2017.
3
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding⁠(se abre en una ventana nueva).” arXiv preprint.
4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Language Models are Unsupervised Multitask Learners⁠(se abre en una ventana nueva).” Technical Report, OpenAI.
5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: A Robustly Optimized BERT Pretraining Approach⁠(se abre en una ventana nueva).” arXiv preprint.
6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer⁠(se abre en una ventana nueva).” arXiv preprint.
7
Dai, A., Le, Q. V. (2015). “Semi-supervised sequence learning⁠(se abre en una ventana nueva).” In NeurIPS 2015.
8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “Deep Contextualized Word Representations⁠(se abre en una ventana nueva).” In NAACL 2018.
9
Howard, J., Ruder, S. (2018). “Universal Language Model Fine-tuning for Text Classification⁠(se abre en una ventana nueva).” In ACL 2018.
10
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “Improving language understanding by generative pre-training⁠(se abre en una ventana nueva).” Technical Report, OpenAI.
11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). “Sparse attentive backtracking: Temporal credit assignment through reminding⁠(se abre en una ventana nueva).” In NeurIPS 2018.
12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). “A Simple Framework for Contrastive Learning of Visual Representations⁠(se abre en una ventana nueva).” arXiv preprint.
13
Bachman, P., Hjelm, R., & Buchwalter, W. (2019). “Learning representations by maximizing mutual information across views⁠(se abre en una ventana nueva).” In NeurIPS 2019.
14
Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): General Visual Representation Learning⁠(se abre en una ventana nueva).” arXiv preprint.
15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism⁠(se abre en una ventana nueva).” In NeurIPS 2019.
16
Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). “Non-discriminative data or weak model? On the relative importance of data and model resolution⁠(se abre en una ventana nueva).” In ICCV 2019.
17
Lasserre, J., Bishop, C., & Minka, T. P. (2006). “Principled Hybrids of Generative and Discriminative Models⁠(se abre en una ventana nueva).” In CVPR 2006.
18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). “Why does unsupervised pre-training help deep learning?⁠(se abre en una ventana nueva).” In JMLR 2010.
19
Elman, J. (1990). “Finding Structure in Time⁠(se abre en una ventana nueva).” In Cognitive Science 1990.
20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Recurrent neural network based language model⁠(se abre en una ventana nueva).” In INTERSPEECH-2010.
21
Larochelle, H., Murray, I. (2011). “The neural autoregressive distribution estimator⁠(se abre en una ventana nueva).” In AISTATS 2011.
22
Graves, A. (2013). “Generating sequences with recurrent neural networks⁠(se abre en una ventana nueva).” arXiv preprint.
23
Tian, Y., Krishnan, D., & Isola, P. (2019). “Contrastive multiview coding⁠(se abre en una ventana nueva).” arXiv preprint.
24
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). “Momentum Contrast for Unsupervised Visual Representation Learning⁠(se abre en una ventana nueva).” arXiv preprint.
25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Data-Efficient Image Recognition with Contrastive Predictive Coding⁠(se abre en una ventana nueva) .” arXiv preprint.
26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Pixel recurrent neural networks⁠(se abre en una ventana nueva).” arXiv preprint.
27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer⁠(se abre en una ventana nueva).” In ICML 2018.
28
Menick, J., Kalchbrenner, N. (2018). “Generating High Fidelity Images with Subscale Pixel Networks and Multidimensional Upscaling⁠(se abre en una ventana nueva).” arXiv preprint.
29
Mumford, D. (1992). “On the computational architecture of the neocortex⁠(se abre en una ventana nueva).” In Biol. Cybern.
30
Rao, R., Ballard, D. (1999). “Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects⁠(se abre en una ventana nueva).” In Nature Neuroscience.
31
Smolensky, P. (1986). “Information processing in dynamical systems: Foundations of harmony theory⁠(se abre en una ventana nueva).”
32
Hinton, G. (2002). “Training Products of Experts by Minimizing Contrastive Divergence⁠(se abre en una ventana nueva).” In MIT Press.
33
Hinton, G., Osindero, S., & Teh, Y. (2006). “A fast learning algorithm for deep belief nets⁠(se abre en una ventana nueva).” In Neural Computation.
34
Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). “Extracting and composing robust features with denoising autoencoders⁠(se abre en una ventana nueva).” In ICML 2008.
35
Coates, A., Lee, H., & Ng, A. Y. (2011). “An analysis of single-layer networks in unsupervised feature learning⁠(se abre en una ventana nueva).” In AISTATS 2011.
36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “Building high-level features using large scale unsupervised learning⁠(se abre en una ventana nueva).” In ICML 2012.
37
Donahue, J., Simonyan, K. (2019). “Large scale adversarial representation learning⁠(se abre en una ventana nueva).” In NeurIPS 2019.
38
Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). “Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition⁠(se abre en una ventana nueva).” In CoRR 2010.
39
Shaw, P., Uszkoreit, J., & Vaswani A. (2018). “Self-attention with relative position representations⁠(se abre en una ventana nueva).” In NAACL 2018.
40
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “Generating long sequences with sparse transformers⁠(se abre en una ventana nueva).” arXiv preprint.
41
Becker, S., Hinton, G. (1991). “Self-organizing neural network that discovers surfaces in random-dot stereograms⁠(se abre en una ventana nueva).” In Nature.
42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). “Signature verification using a” siamese” time delay neural network⁠(se abre en una ventana nueva).” In NeurIPS 1994.
43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). “Distributed Representations of Words and Phrases and their Compositionality⁠(se abre en una ventana nueva) .” In NeurIPS 2013.
44
Oord, A., Li, Y., Vinyals, O. (2018). “Representation Learning with Contrastive Predictive Coding⁠(se abre en una ventana nueva) .” arXiv preprint.
45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Learning deep representations by mutual information estimation and maximization⁠(se abre en una ventana nueva).” In ICLR 2019.
46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). “Unified rational protein engineering with sequence-only deep representation learning⁠(se abre en una ventana nueva).” In Nature Methods.
47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). “Biological Structure and Function Emerge from Scaling Unsupervised Learning to 250 Million Protein Sequences⁠(se abre en una ventana nueva).” bioRxiv preprint.
48
Torralba, A., Fergus, R., Freeman, W. (2008). “80 million tiny images: A large data set for nonparametric object and scene recognition⁠(se abre en una ventana nueva).” In IEEE transactions on pattern analysis and machine intelligence.
49
“List of 8-Bit Computer Hardware Graphics⁠(se abre en una ventana nueva).” Wikipedia, 8 May 2020
50
Kornblith, S., Shlens, J., & Le, Q. V. (2019). “Do Better ImageNet Models Transfer Better?⁠(se abre en una ventana nueva).” In CVPR 2019.
51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: Learning Augmentation Strategies From Data⁠(se abre en una ventana nueva).” In CVPR 2019.
52
Tan, M., Le, Q. V. (2019). “EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks⁠(se abre en una ventana nueva).” In ICML 2019.
53
Gidaris, S., Singh, P., & Komodakis, N. (2018). “Unsupervised Representation Learning by Predicting Image Rotations⁠(se abre en una ventana nueva).” In ICLR 2018.
54
Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). “Semi-Supervised Learning with Deep Generative Models⁠(se abre en una ventana nueva).” In NeurIPS 2014.
55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “Improved techniques for training gans⁠(se abre en una ventana nueva).” In NeurIPS 2016.
56
Tarvainen, A., Valpola, H. (2017). “Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results⁠(se abre en una ventana nueva).” In NeurIPS 2017.
57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: A Holistic Approach to Semi-Supervised Learning⁠(se abre en una ventana nueva).” In NeurIPS 2019.
58
Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). “Unsupervised Data Augmentation for Consistency Training⁠(se abre en una ventana nueva).” arXiv preprint.
59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: Simplifying semi-supervised learning with consistency and confidence⁠(se abre en una ventana nueva).” arXiv preprint.
60
Sutton, R. (2019). “The Bitter Lesson⁠(se abre en una ventana nueva).”

Authors

Mark Chen, Alec Radford e Ilya Sutskever

Acknowledgments

Foremost, we would like to acknowledge our paper co-authors Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, and David Luan.

Thanks to the following for their feedback on this work and contributions to this release: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le, and Ashish Vaswani.

Editor: Ashley Pilipiszyn

Design: Justin Jay Wang

Cover artwork: Ben Barry

GPT de imagen

Introducción

Del GPT de lenguaje al GPT de imágenes

Hacia el aprendizaje general no supervisado

Metodología

Resultados experimentales

Limitaciones

Conclusiones

Footnotes

References

Authors

Acknowledgments

Artículos relacionados