
Illustration: Ben Barry
Hemos observado que, del mismo modo que un modelo de transformador de gran tamaño entrenado con lenguaje puede generar texto coherente, si se entrena con secuencias de píxeles, el mismo modelo es capaz de generar imágenes y muestras de imágenes coherentes. Al establecer una correlación entre la calidad de la muestra y la precisión de la clasificación de imágenes, hemos demostrado que las características de nuestro mejor modelo generativo pueden competir con las principales redes convolucionales en un entorno no supervisado.
El aprendizaje no supervisado y autosupervisado1, o el aprendizaje sin datos etiquetados por humanos, ha sido un desafío para el aprendizaje automático durante mucho tiempo. Recientemente, ha tenido mucho éxito con el lenguaje, ya que los modelos de transformador2 como BERT,3 GPT‑2,4 RoBERTa,5 T5,6 y similares7, 8, 9 y 10 han logrado el máximo rendimiento en una gran variedad de tareas lingüísticas. Sin embargo, la misma amplia gama de modelos no ha logrado producir características sólidas para la clasificación de imágenes.11 Nuestra labor tiene como objetivo comprender y cerrar esta brecha.
Los modelos de transformador como BERT y GPT‑2 son independientes del dominio, lo que significa que pueden aplicarse directamente a secuencias 1D de cualquier tipo. Cuando hemos entrenado GPT‑2 con imágenes desglosadas en largas secuencias de píxeles, a las que llamamos iGPT, hemos observado que el modelo parece comprender las características de la imagen 2D, como el aspecto y la categoría del objeto. Esto queda patente en la diversa gama de muestras de imágenes coherentes que genera, incluso sin la guía de etiquetas proporcionadas por humanos. Como prueba adicional, las características del modelo logran un rendimiento excepcional en varios conjuntos de datos de clasificación y una precisión no supervisada muy avanzadaA en ImageNet.
Evaluación | Conjunto de datos | Nuestro resultado | Mejor resultado no iGPT |
|---|---|---|---|
Regresión logística de características aprendidas (sonda lineal) | CIFAR-10 | 96,3 iGPT‑L 32 x 32 con 1536 características | 95,3 SimCLR12 con 8192 características |
CIFAR-100 | 82,8 iGPT‑L 32 x 32 con 1536 características | 80,2 SimCLR con 8192 características | |
STL-10 | 95,5 iGPT‑L 32 x 32 con 1536 características | 94,2 AMDIM13 con 8192 características | |
ImageNet | 72,0 iGPT‑XLa 64 x 64 con 15 360 características | 76,5 SimCLR con 8192 características | |
Optimización completa | CIFAR-10 | 99,0 iGPT‑L 32 x 32, entrenado con ImageNet | |
ImageNet 32 x 32 | 66,3 iGPT‑L 32 x 32 | 70,2 Redes isométricas15 |
- Solo hemos incluido la precisión de la sonda lineal ImageNet para iGPT‑XL, ya que otros experimentos no finalizaron antes de que tuviéramos que cambiarnos a otras instalaciones de supercomputación.
- Bit-L, entrenado con JFT (300 millones de imágenes con 18 000 clases), logró un resultado de 99,3.
Para resaltar el potencial del modelado de secuencias19, 20, 21 y 22 generativo17 y 18 como algoritmo de aprendizaje general no supervisado, hemos utilizado deliberadamente la misma arquitectura de transformador que GPT‑2 en el lenguaje. Como consecuencia, necesitamos mucha más capacidad computacional para producir características capaces de competir con las de las principales redes convolucionales no supervisadas.13, 23, 24, 25 y 12 Sin embargo, nuestros resultados sugieren que, cuando nos enfrentamos a un nuevo dominio en el que se desconocen los modelos previos correctos, un GPT‑2 de gran tamaño puede aprender características excelentes sin la necesidad de opciones de diseño arquitectónico específicas del dominio26, 27 y 28.
En el ámbito del lenguaje, los algoritmos de aprendizaje no supervisados que se basan en la predicción de palabras (como GPT‑2 y BERT) han tenido un gran éxito y han obtenido un rendimiento máximo en una amplia gama de tareas lingüísticas. Parte de este éxito puede deberse a que las tareas lingüísticas posteriores aparecen de forma natural en el texto: las preguntas suelen ir seguidas de respuestas (lo que podría ayudar a responder a las preguntas) y los textos suelen ir seguidos de resúmenes (lo que podría ayudar a resumirlos). Por el contrario, las secuencias de píxeles no contienen etiquetas claras para las imágenes a las que pertenecen.
Incluso sin esta supervisión explícita, todavía hay una razón por la que GPT‑2 podría funcionar con imágenes: un transformador suficientemente grande entrenado en la predicción del siguiente píxel podría, con el tiempo, aprender a generar muestras diversasB con objetos claramente reconocibles. Una vez que aprenda a hacerlo, la idea del «análisis por síntesis»29, 30 y C sugiere que el modelo también conocerá las categorías de objetos. Muchos de los primeros modelos generativos31, 32, 33, 34, 35 y 36 estuvieron motivados por esta teoría y, más recientemente, BigBiGAN37 ha sido un ejemplo que ha producido muestras y características alentadoras. En nuestro trabajo, hemos demostrado en primer lugar que los mejores modelos generativos logran un mejor rendimiento de clasificación. Posteriormente, al optimizar GPT‑2 para las capacidades generativas, hemos logrado un rendimiento de clasificación de alto nivel en numerosos entornos, lo que proporciona más pruebas del análisis por síntesis.
El modelado de secuencias generativas es un algoritmo universal de aprendizaje no supervisado: como todos los tipos de datos se pueden representar como secuencias de bytes, se puede aplicar directamente un transformador a cualquier tipo de datos sin ingeniería adicional. Nuestro trabajo ha puesto a prueba la potencia de esta generalidad aplicando directamente la arquitectura utilizada para entrenar GPT‑2 con lenguaje natural a la generación de imágenes. Hemos elegido deliberadamente renunciar a la codificación manual de cualquier conocimiento específico de la imagen en convoluciones38 o técnicas como la atención relativa39, la atención escasa40 y las incrustaciones de posiciones 2D.27
Como consecuencia de su generalidad, nuestro método requiere mucha más capacidad computacional para lograr un rendimiento competitivo en un entorno no supervisado. De hecho, los métodos contrastivos41, 42, 43, 44, 45, 13, 23, 24, 25 y 12 siguen siendo los métodos más eficaces a nivel computacional para producir características de gran calidad a partir de imágenes. Sin embargo, al demostrar que un modelo de transformador no supervisado puede competir con las mejores redes convolucionales no supervisadas24, 25 y 12, hemos proporcionado pruebas de que es posible intercambiar conocimientos de dominio codificados manualmente por computación. En dominios nuevos46 y 47, en los que no hay mucho conocimiento para codificar a mano, ampliar la computación resulta una técnica adecuada para realizar pruebas.
Hemos entrenado transformadores iGPT‑S, iGPT‑M e iGPT‑L que contienen parámetros de 76 millones, 455 millones y 1400 millones respectivamente en ImageNet. También hemos entrenado iGPT‑XLD, un transformador de 6800 millones de parámetros, en una combinación de ImageNet e imágenes de la web. Debido al elevado coste computacional de modelar secuencias largas con mucha atención, el entrenamiento se realiza a resoluciones bajas de 32 x 32, 48 x 48 y 64 x 64.
Aunque resulta tentador trabajar con resoluciones más bajas para reducir aún más el coste computacional, nuestro trabajo anterior ha demostrado que el rendimiento humano en la clasificación de imágenes comienza a descender rápidamente por debajo de estos tamaños48. En su lugar, inspirados por las primeras paletas de visualización de colores49, hemos creado nuestra propia paleta de colores de 9 bits para representar píxeles. El uso de esta paleta produce una longitud de secuencia de entrada tres veces más corta que la paleta estándar (R, G, B), sin dejar de codificar el color fielmente.
Hemos utilizado dos métodos para evaluar el rendimiento del modelo, y ambos conllevan una tarea de clasificación posterior. El primero, al que denominamos sonda lineal, utiliza el modelo entrenado para extraer característicasE de las imágenes en el conjunto de datos posterior y luego asigna una regresión logística a las etiquetas. El segundo método optimizaF todo el modelo en el conjunto de datos posterior.
Dado que la predicción del siguiente píxel no resulta obviamente pertinente para la clasificación de imágenes, las características de la capa final pueden no ser las más predictivas de la categoría del objeto. Nuestro primer resultado indica que la calidad de las características es una función de la profundidad que aumenta considerablemente y luego disminuye ligeramente. Este comportamiento sugiere que un modelo generativo de transformador funciona en dos fases: en la primera fase, cada posición recopila información del contexto para crear una característica de imagen contextualizada. En la segunda fase, esta característica contextualizada se utiliza para resolver la tarea de predicción condicional del siguiente píxel. El rendimiento en dos etapas observado de nuestras sondas lineales recuerda a otra red neuronal no supervisada, el codificador automático de cuello de botella, que está diseñado manualmente para que se utilicen funciones intermedias.
Nuestro siguiente resultado establece el vínculo entre el rendimiento generativo y la calidad de las características. Hemos observado que tanto el aumento de la escala de nuestros modelos como el entrenamiento para más iteraciones da como resultado un mejor rendimiento generativo, lo que conlleva una mejor calidad de las funciones.
Cuando hemos evaluado nuestras características utilizando sondas lineales en CIFAR-10, CIFAR-100 y STL-10, hemos superado las funciones de todos los algoritmos de transferencia supervisados y no supervisados. Nuestros resultados también son convincentes en un entorno de optimización total.
Preentrenado en ImageNet | ||||
Evaluación | Modelo | Precisión | sin etiquetas | con etiquetas |
CIFAR-10 Sonda lineal | ResNet-15250 | 94,0 | ✔ | |
SimCLR12 | 95,3 | ✔ | ||
iGPT‑L 32x32 | 96,3 | ✔ | ✔ | |
CIFAR-100 Sonda lineal | ResNet-152 | 78,0 | ✔ | |
SimCLR | 80,2 | ✔ | ||
iGPT‑L 32x32 | 82,8 | ✔ | ||
STL-10 Sonda lineal | AMDIM-L | 94,2 | ✔ | |
iGPT‑L 32x32 | 95,5 | ✔ | ||
CIFAR-10 Optimización | AutoAugment | 98,5 | ||
SimCLR | 98,6 | ✔ | ||
GPipe | 99,0 | ✔ | ||
iGPT‑L | 99,0 | ✔ | ||
CIFAR-100 Optimización | iGPT‑L | 88,5 | ✔ | |
SimCLR | 89,0 | ✔ | ||
AutoAugment | 89,3 | |||
EfficientNet52 | 91,7 | ✔ |
Una comparación de las precisiones de la sonda lineal y la optimización entre nuestros modelos y los modelos de mayor rendimiento que utilizan transferencia de ImageNet supervisada o no supervisada. También hemos incluido AutoAugment, el modelo de mayor rendimiento entrenado de extremo a extremo en CIFAR.
Dado el resurgimiento del interés en el aprendizaje autosupervisado y no supervisado en ImageNet, también hemos evaluado el rendimiento de nuestros modelos con sondas lineales en ImageNet. Este es un entorno particularmente exigente, ya que no entrenamos nuestros modelos con la resolución de entrada estándar de ImageNet. Sin embargo, una sonda lineal en las 1536 características de la mejor capa de iGPT‑L entrenada con imágenes de 48 x 48 produce una precisión superior al 65,2 %, superando a AlexNet.
Los métodos contrastivos obtienen los mejores resultados, por lo general, en 8192 características, por lo que lo ideal sería evaluar iGPT con una dimensión de incrustación de 8192 a modo de comparación. Sin embargo, los costes de entrenar un modelo de este tipo son extremadamente elevados, por lo que en su lugar aunamos características de múltiples capas para aproximarnos lo máximo posible. Lamentablemente, nuestras características tienden a estar correlacionadas entre capas, por lo que necesitamos más para que sean competitivas. El uso de 15 360 funciones de cinco capas en iGPT‑XL produce una precisión superior al 72,0 %, superando a AMDIM, MoCo y CPC v2, pero aún bastante por debajo de SimCLR.
Método | Resolución de entrada | Características | Parámetros | Precisión |
Rotación53 | original | 8192 | 86 millones | 55,4 |
iGPT‑L | 32x32 | 1536 | 1362 millones | 60,3 |
BigBiGAN37 | original | 16 384 | 86 millones | 61,3 |
iGPT‑L | 48x48 | 1536 | 1362 millones | 65,2 |
AMDIM13 | original | 8192 | 626 millones | 68,1 |
MoCo24 | original | 8192 | 375 millones | 68,6 |
iGPT‑XL | 64x64 | 3072 | 6801 millones | 68,7 |
SimCLR12 | original | 2048 | 24 millones | 69,3 |
CPC v225 | original | 4096 | 303 millones | 71,5 |
iGPT‑XL | 64x64 | 3072 x 5 | 6801 millones | 72,0 |
SimCLR | original | 8192 | 375 millones | 76,5 |
Una comparación de las precisiones de las sondas lineales entre nuestros modelos y los modelos autosupervisados más vanguardistas. Hemos logrado un rendimiento competitivo entrenando con resoluciones de entrada mucho más bajas, aunque nuestro método requiere más parámetros y cálculos.
Dado que los modelos de lenguaje enmascarado como BERT han superado a los modelos generativos en la mayoría de las tareas lingüísticas, también hemos evaluado el rendimiento de BERT en nuestros modelos de imágenes. En lugar de entrenar nuestro modelo para predecir el siguiente píxel a partir de todos los píxeles anteriores, hemos enmascarado el 15 % de los píxeles y hemos entrenado a nuestro modelo para predecirlos a partir de los píxeles desenmascarados. Hemos descubierto que, aunque el rendimiento de la sonda lineal en los modelos BERT es significativamente peor, estos sobresalen en la optimización:
Aunque el aprendizaje no supervisado promete excelentes características sin la necesidad de datos etiquetados por humanos, recientemente se han logrado avances significativos con el marco más permisivo de aprendizaje semisupervisado, que permite cantidades limitadas de datos etiquetados por humanos. Los métodos semisupervisados de éxito suelen basarse en técnicas inteligentes como la regularización de la coherencia, el aumento de los datos o el pseudoetiquetado, mientras que los enfoques puramente generativos54 y 55 no han sido competitivos durante años. Hemos evaluado iGPT‑LG en un punto de referencia competitivo para este subcampo y hemos observado que una sonda lineal simple en características de imágenes no aumentadas supera a Mean Teacher56 y MixMatch57, aunque tiene un rendimiento inferior a FixMatch.59
Modelo | 40 etiquetas | 250 etiquetas | 4000 etiquetas |
GAN mejorada55 | — | — | 81,4 ± 2,3 |
Mean Teacher56 | — | 67,7 ± 2,3 | 90,8 ± 0,2 |
MixMatch57 | 52,5 ± 11,5 | 89,0 ± 0,9 | 93,6 ± 0,1 |
iGPT‑L | 73,2 ± 01,5 | 87,6 ± 0,6 | 94,3 ± 0,1 |
UDA58 | 71,0 ± 05,9 | 91,2 ± 1,1 | 95,1 ± 0,2 |
FixMatch59 RA | 86,2 ± 03,4 | 94,9 ± 0,7 | 95,7 ± 0,1 |
FixMatch CTA | 88,6 ± 03,4 | 94,9 ± 0,3 | 95,7 ± 0,2 |
Una comparación del rendimiento en CIFAR-10 con pocos datos. Al aprovechar muchas imágenes de ImageNet sin etiquetar, iGPT‑L es capaz de superar a métodos como Mean Teacher y MixMatch, pero su rendimiento sigue siendo inferior a los métodos más vanguardistas. Nuestro enfoque en lo referente al aprendizaje semisupervisado es muy simple, ya que solo ajustamos un clasificador de regresión logística a las características de iGPT‑L sin ningún aumento ni optimización de datos, una diferencia significativa con respecto a los enfoques semisupervisados diseñados especialmente.
Aunque hemos demostrado que iGPT es capaz de aprender potentes funciones de imagen, todavía existen limitaciones importantes en nuestro enfoque. Dado que usamos el transformador de secuencia genérico utilizado para GPT‑2 en el lenguaje, nuestro método requiere grandes capacidades computacionales: iGPT‑L se entrenó durante aproximadamente 2500 días V100, mientras que un modelo MoCo24 de rendimiento similar se puede entrenar en aproximadamente 70 días V100.
De manera similar, modelamos entradas de baja resolución con un transformador, mientras que la mayoría de los resultados autosupervisados utilizan codificadores convolucionales que pueden consumir fácilmente entradas de alta resolución. Es posible que se necesite una nueva arquitectura, como un transformador multiescala independiente del dominio, para ampliar la escala. Dadas estas limitaciones, nuestro trabajo sirve principalmente como demostración de prueba de concepto de la capacidad que los modelos de lenguaje basados en transformadores de gran tamaño tienen para aprender excelentes representaciones no supervisadas en dominios novedosos, sin la necesidad de conocimientos de dominio codificados. Sin embargo, el elevado coste de entrenar estos modelos y la mayor precisión de los métodos basados en redes neuronales convolucionales excluyen estas representaciones de aplicaciones prácticas reales en el dominio de la visión.
Por último, los modelos generativos pueden mostrar sesgos como consecuencia de los datos con los que han sido entrenados. Muchos de estos sesgos son útiles, como asumir que una combinación de píxeles marrones y verdes representa una rama cubierta de hojas y usar el sesgo para continuar la imagen. Sin embargo, algunos de estos sesgos pueden afectar negativamente a la equidad y la representación. Por ejemplo, si el modelo desarrolla una noción visual de un científico que favorece a los hombres, podría generar constantemente imágenes de científicos hombres, en lugar de plasmar distintos géneros. Creemos que los desarrolladores deberán prestar cada vez más atención a los datos que introducen en sus sistemas y comprender mejor cómo se relacionan con los sesgos en los modelos entrenados.
Hemos demostrado que, al sacrificar conocimientos 2D en favor de la escala60 y elegir características predictivas del medio de la red, un transformador de secuencia puede competir con las mejores redes convolucionales en la clasificación de imágenes no supervisada. En particular, hemos logrado nuestros resultados aplicando directamente el modelo de lenguaje de GPT‑2 a la generación de imágenes. Nuestros resultados sugieren que, debido a su simplicidad y generalidad, un transformador de secuencia con suficiente capacidad de computación podría, en última instancia, ser una forma eficaz de aprender características excelentes en muchos dominios.
Si deseas trabajar con nosotros en esta área de investigación, ¡tenemos vacantes!
Footnotes
- A
Measured through logistic regression on learned features (linear probe).
- B
A transformer is trained to maximize the likelihood, and thus is mode covering, which automatically ensures the diversity of its samples.
- C
The original analysis by synthesis idea is more an argument for generative models with latent variables, but because generative models without latent variables were so much better at modeling the data distribution, we thought the analysis-by-synthesis conjecture should hold for them as well.
- D
We only show linear probe accuracy on ImageNet for iGPT-XL since other experiments did not finish before we needed to transition to different supercomputing facilities.
- E
To extract features for a linear probe, we take the post layernorm attention block inputs at some layer and average pool over the sequence dimension.
- F
To fine-tune, we take the post layernorm transformer output and average pool over the sequence dimension as input for the classification head.
- G
A generative model which learns features in a purely unsupervised fashion.
References
- 1
LeCun, Y. (2017). “Predictive Learning(se abre en una ventana nueva).”
- 2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Attention is All you Need(se abre en una ventana nueva).” In NeurIPS 2017.
- 3
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(se abre en una ventana nueva).” arXiv preprint.
- 4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Language Models are Unsupervised Multitask Learners(se abre en una ventana nueva).” Technical Report, OpenAI.
- 5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: A Robustly Optimized BERT Pretraining Approach(se abre en una ventana nueva).” arXiv preprint.
- 6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(se abre en una ventana nueva).” arXiv preprint.
- 7
Dai, A., Le, Q. V. (2015). “Semi-supervised sequence learning(se abre en una ventana nueva).” In NeurIPS 2015.
- 8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “Deep Contextualized Word Representations(se abre en una ventana nueva).” In NAACL 2018.
- 9
Howard, J., Ruder, S. (2018). “Universal Language Model Fine-tuning for Text Classification(se abre en una ventana nueva).” In ACL 2018.
- 10
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “Improving language understanding by generative pre-training(se abre en una ventana nueva).” Technical Report, OpenAI.
- 11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). “Sparse attentive backtracking: Temporal credit assignment through reminding(se abre en una ventana nueva).” In NeurIPS 2018.
- 12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). “A Simple Framework for Contrastive Learning of Visual Representations(se abre en una ventana nueva).” arXiv preprint.
- 13
Bachman, P., Hjelm, R., & Buchwalter, W. (2019). “Learning representations by maximizing mutual information across views(se abre en una ventana nueva).” In NeurIPS 2019.
- 14
Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): General Visual Representation Learning(se abre en una ventana nueva).” arXiv preprint.
- 15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism(se abre en una ventana nueva).” In NeurIPS 2019.
- 16
Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). “Non-discriminative data or weak model? On the relative importance of data and model resolution(se abre en una ventana nueva).” In ICCV 2019.
- 17
Lasserre, J., Bishop, C., & Minka, T. P. (2006). “Principled Hybrids of Generative and Discriminative Models(se abre en una ventana nueva).” In CVPR 2006.
- 18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). “Why does unsupervised pre-training help deep learning?(se abre en una ventana nueva).” In JMLR 2010.
- 19
Elman, J. (1990). “Finding Structure in Time(se abre en una ventana nueva).” In Cognitive Science 1990.
- 20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Recurrent neural network based language model(se abre en una ventana nueva).” In INTERSPEECH-2010.
- 21
Larochelle, H., Murray, I. (2011). “The neural autoregressive distribution estimator(se abre en una ventana nueva).” In AISTATS 2011.
- 22
Graves, A. (2013). “Generating sequences with recurrent neural networks(se abre en una ventana nueva).” arXiv preprint.
- 23
Tian, Y., Krishnan, D., & Isola, P. (2019). “Contrastive multiview coding(se abre en una ventana nueva).” arXiv preprint.
- 24
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). “Momentum Contrast for Unsupervised Visual Representation Learning(se abre en una ventana nueva).” arXiv preprint.
- 25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Data-Efficient Image Recognition with Contrastive Predictive Coding(se abre en una ventana nueva) .” arXiv preprint.
- 26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Pixel recurrent neural networks(se abre en una ventana nueva).” arXiv preprint.
- 27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer(se abre en una ventana nueva).” In ICML 2018.
- 28
Menick, J., Kalchbrenner, N. (2018). “Generating High Fidelity Images with Subscale Pixel Networks and Multidimensional Upscaling(se abre en una ventana nueva).” arXiv preprint.
- 29
Mumford, D. (1992). “On the computational architecture of the neocortex(se abre en una ventana nueva).” In Biol. Cybern.
- 30
Rao, R., Ballard, D. (1999). “Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects(se abre en una ventana nueva).” In Nature Neuroscience.
- 31
- 32
Hinton, G. (2002). “Training Products of Experts by Minimizing Contrastive Divergence(se abre en una ventana nueva).” In MIT Press.
- 33
Hinton, G., Osindero, S., & Teh, Y. (2006). “A fast learning algorithm for deep belief nets(se abre en una ventana nueva).” In Neural Computation.
- 34
Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). “Extracting and composing robust features with denoising autoencoders(se abre en una ventana nueva).” In ICML 2008.
- 35
Coates, A., Lee, H., & Ng, A. Y. (2011). “An analysis of single-layer networks in unsupervised feature learning(se abre en una ventana nueva).” In AISTATS 2011.
- 36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “Building high-level features using large scale unsupervised learning(se abre en una ventana nueva).” In ICML 2012.
- 37
Donahue, J., Simonyan, K. (2019). “Large scale adversarial representation learning(se abre en una ventana nueva).” In NeurIPS 2019.
- 38
Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). “Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition(se abre en una ventana nueva).” In CoRR 2010.
- 39
Shaw, P., Uszkoreit, J., & Vaswani A. (2018). “Self-attention with relative position representations(se abre en una ventana nueva).” In NAACL 2018.
- 40
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “Generating long sequences with sparse transformers(se abre en una ventana nueva).” arXiv preprint.
- 41
Becker, S., Hinton, G. (1991). “Self-organizing neural network that discovers surfaces in random-dot stereograms(se abre en una ventana nueva).” In Nature.
- 42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). “Signature verification using a” siamese” time delay neural network(se abre en una ventana nueva).” In NeurIPS 1994.
- 43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). “Distributed Representations of Words and Phrases and their Compositionality(se abre en una ventana nueva) .” In NeurIPS 2013.
- 44
Oord, A., Li, Y., Vinyals, O. (2018). “Representation Learning with Contrastive Predictive Coding(se abre en una ventana nueva) .” arXiv preprint.
- 45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Learning deep representations by mutual information estimation and maximization(se abre en una ventana nueva).” In ICLR 2019.
- 46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). “Unified rational protein engineering with sequence-only deep representation learning(se abre en una ventana nueva).” In Nature Methods.
- 47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). “Biological Structure and Function Emerge from Scaling Unsupervised Learning to 250 Million Protein Sequences(se abre en una ventana nueva).” bioRxiv preprint.
- 48
Torralba, A., Fergus, R., Freeman, W. (2008). “80 million tiny images: A large data set for nonparametric object and scene recognition(se abre en una ventana nueva).” In IEEE transactions on pattern analysis and machine intelligence.
- 49
“List of 8-Bit Computer Hardware Graphics(se abre en una ventana nueva).” Wikipedia, 8 May 2020
- 50
Kornblith, S., Shlens, J., & Le, Q. V. (2019). “Do Better ImageNet Models Transfer Better?(se abre en una ventana nueva).” In CVPR 2019.
- 51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: Learning Augmentation Strategies From Data(se abre en una ventana nueva).” In CVPR 2019.
- 52
Tan, M., Le, Q. V. (2019). “EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks(se abre en una ventana nueva).” In ICML 2019.
- 53
Gidaris, S., Singh, P., & Komodakis, N. (2018). “Unsupervised Representation Learning by Predicting Image Rotations(se abre en una ventana nueva).” In ICLR 2018.
- 54
Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). “Semi-Supervised Learning with Deep Generative Models(se abre en una ventana nueva).” In NeurIPS 2014.
- 55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “Improved techniques for training gans(se abre en una ventana nueva).” In NeurIPS 2016.
- 56
Tarvainen, A., Valpola, H. (2017). “Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results(se abre en una ventana nueva).” In NeurIPS 2017.
- 57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: A Holistic Approach to Semi-Supervised Learning(se abre en una ventana nueva).” In NeurIPS 2019.
- 58
Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). “Unsupervised Data Augmentation for Consistency Training(se abre en una ventana nueva).” arXiv preprint.
- 59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: Simplifying semi-supervised learning with consistency and confidence(se abre en una ventana nueva).” arXiv preprint.
- 60
Sutton, R. (2019). “The Bitter Lesson(se abre en una ventana nueva).”
Authors
Acknowledgments
Foremost, we would like to acknowledge our paper co-authors Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, and David Luan.
Thanks to the following for their feedback on this work and contributions to this release: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le, and Ashish Vaswani.
Editor: Ashley Pilipiszyn
Design: Justin Jay Wang
Cover artwork: Ben Barry


