5 de enero de 2021

CLIP: conexión de texto e imágenes

Ilustración: Justin Jay Wang

Cargando…

Estamos introduciendo una red neuronal llamada CLIP, que aprende conceptos visuales de manera eficaz a partir de la supervisión del lenguaje natural. CLIP puede aplicarse en cualquier prueba comparativa de clasificación visual sencillamente indicando los nombres de las categorías visuales que deben reconocerse, de forma similar a las capacidades zero shot de GPT‑2 y GPT‑3.

En los últimos tiempos, el aprendizaje profundo ha revolucionado el campo de la visión artificial. No obstante, los métodos actuales presentan algunas deficiencias importantes. Los conjuntos de datos de visión estándar son caros y lentos de producir, y solo permiten entrenar un conjunto limitado de conceptos visuales. Además, los modelos estándar son eficaces para abordar tareas específicas, pero son complicados de adaptar a nuevas tareas. Finalmente, los modelos que obtienen buenos resultados en las pruebas comparativas presentan un rendimiento deficiente en condiciones de estrés,^{1, 2, 3 y 4} lo cual cuestiona la eficacia del modelo de aprendizaje profundo empleado para la visión artificial.

La red neuronal de OpenAI tiene la finalidad de poner punto final a estos problemas. Se entrena con una gran variedad de imágenes e integrando la supervisión de lenguaje natural a partir de conjuntos de datos ampliamente accesibles en internet. La red está diseñada para recibir instrucciones en lenguaje natural con el fin de que lleve a cabo una gran variedad de pruebas comparativas de clasificación, sin aplicar directamente optimizaciones de cara al rendimiento de las pruebas de referencia, de forma similar a las capacidades de entrenamiento zero shot⁠(se abre en una ventana nueva) de GPT‑2⁵ y GPT‑3.⁶. Esto supone un cambio importante porque, al no aplicar directamente optimizaciones para mejorar los resultados de las pruebas de rendimiento, el modelo se vuelve mucho más representativo: nuestro sistema reduce la diferencia de robustez en hasta un 75 % e iguala el rendimiento del modelo ResNet-50⁷ entrenado siguiendo el método zero shot con la base de imágenes ImageNet⁠(se abre en una ventana nueva), sin emplear ninguno de los 1,28 millones de ejemplos etiquetados originales.

Cargando...

Antecedentes y estudios relacionados

CLIP (del inglés Contrastive Language–Image Pre-training) se nutre de los abundantes estudios sobre transferencia zero shot, supervisión del lenguaje natural y aprendizaje multimodal. El concepto del aprendizaje zero shot se remonta a más de una década.⁸ No obstante, hasta hace poco se estudiaba sobre todo en el campo de la visión artificial como un sistema para generalizar a categorías de objetos nunca vistas.^{9 y 10} Uno de los pilares fue aprovechar el lenguaje natural como espacio de predicción flexible para permitir la generalización y la transferencia. En 2013, Richard Socher y colaboradores de la universidad de Stanford¹¹ desarrollaron una prueba de concepto entrenando un modelo con CIFAR-10 para hacer predicciones en un espacio de incrustación de vectores de palabras. Los resultados revelaron que dicho modelo podía predecir dos clases nunca vistas. Ese mismo año, DeVISE¹² profundizó en este método y demostró que era posible optimizar un modelo de ImageNet para que adquiriera la capacidad de generalizar y predecir así objetos que no figuraban entre los 1000 del conjunto de datos de entrenamiento original.

Aún más inspirador para el nacimiento de CLIP fue el trabajo que Ang Li y coautores presentaron en FAIR,¹³ quienes en 2016 introdujeron el uso de la supervisión del lenguaje natural para habilitar la transferencia zero shot en varios conjuntos de datos de clasificación de visión artificial actuales, como el clásico conjunto de datos ImageNet. Para ello, optimizaron una CNN de ImageNet para que predijera un conjunto mucho más amplio de conceptos visuales (n-gramas visuales) a partir de texto (nombres, descripciones y etiquetas) procedente de 30 millones de fotos de Flickr, alcanzando una precisión del 11,5 % en ImageNet con zero shot.

Por último, CLIP está incluido en una serie de artículos del año pasado en los que se replantea el aprendizaje de representaciones visuales a partir de la supervisión del lenguaje natural. Esta línea de trabajo aplica arquitecturas más modernas, como la Transformer,³² e incluye VirTex,³³ que exploró el modelado del lenguaje autorregresivo; ICMLM,³⁴ que investigó el modelado enmascarado del lenguaje, y ConVIRT,³⁵ que estudió el mismo objetivo contrastivo que empleamos para CLIP, pero en el ámbito del diagnóstico por imagen.

Metodología

Demostramos que basta con escalar una sencilla tarea de preentrenamiento para conseguir unos resultados zero shot competitivos en una gran variedad de conjuntos de datos de clasificación de imágenes. En nuestro método, partimos de una fuente de supervisión ampliamente disponible: el texto emparejado con imágenes de internet. Estos datos sirven para generar la siguiente tarea de entrenamiento proxy de CLIP: partiendo de una imagen, predecir cuál de los 32 768 fragmentos de texto muestreados aleatoriamente se asocia con ella en nuestro conjunto de datos.

Para resolver esta tarea, intuimos que los modelos CLIP tendrán que aprender a reconocer una gran variedad de conceptos visuales en imágenes y asociarlos con su denominación. Como resultado, los modelos CLIP podrán aplicarse a tareas de clasificación de imágenes casi arbitrarias. Por ejemplo, si un conjunto de datos tiene como objetivo distinguir entre fotos de perros y de gatos, podemos comprobar si, para cada imagen, el modelo CLIP predice el texto de la descripción que es más probable que vaya asociado con ella, como «una foto de un perro» o «una foto de un gato».

Cargando...

Diseñamos CLIP para abordar algunas deficiencias importantes de los métodos convencionales de aprendizaje profundo para la visión artificial.

Conjuntos de datos caros: el aprendizaje profundo requiere gran cantidad de datos y, tradicionalmente, los modelos para visión se han entrenado con conjuntos de datos etiquetados manualmente, que son muy caros de producir y solo proporcionan supervisión para una cantidad limitada de conceptos visuales específicos. Para crear el conjunto de datos ImageNet, uno de los más extensos en esta categoría, se contó con más de 25 000 trabajadores para etiquetar 14 millones de imágenes de 22 000 categorías de objetos. A diferencia de este sistema, CLIP aprende a partir de pares texto-imagen que son públicos en internet. Minimizar la dependencia de amplios conjuntos de datos etiquetados, cuya producción es muy laboriosa, ha sido objeto de estudio en múltiples publicaciones, entre las que destacan la del aprendizaje autosupervisado,^{14, 15 y 16} los métodos contrastivos,^{17, 18, 19, 20 y 21} los métodos de autoentrenamiento^{22 y 23} y el modelado generativo.^{24, 25, 26 y 27}

Generalización: el funcionamiento del modelo ImageNet es bueno a la hora de predecir las 1000 categorías de ImageNet, pero eso es todo lo que es capaz de hacer sin más optimizaciones. En caso de querer llevar a cabo cualquier otra tarea, el experto en ML tendrá que crear un nuevo conjunto de datos, definir un número de resultados y perfeccionar el modelo. Por el contrario, CLIP puede adaptarse para llevar a cabo multitud de tareas de clasificación visual sin necesidad de entrenamiento adicional. Para aplicar CLIP a una nueva tarea, basta con «decirle» al codificador de texto de CLIP los nombres de los conceptos visuales de la tarea para que genere un clasificador lineal de las representaciones visuales de CLIP. El nivel de precisión de dicho clasificador suele estar a la par de los modelos enteramente supervisados.

A continuación, mostramos predicciones aleatorias, sin selección manual, de los clasificadores zero shot de CLIP a partir de varios conjuntos de datos.

Cargando...

Rendimiento deficiente en escenarios reales: los sistemas de aprendizaje profundo suelen alcanzar un rendimiento equivalente al de un humano o incluso superior^{28 y A} en pruebas de referencia de visión. Sin embargo, puestos en práctica en el mundo real, los resultados pueden estar muy por debajo de los valores obtenidos en las pruebas. Dicho de otro modo, existe una brecha entre el «rendimiento en las pruebas comparativas» y el «rendimiento real». Sospechamos que esta diferencia se produce porque los modelos «hacen trampas» y buscan el máximo rendimiento en la prueba comparativa, de forma similar a cuando un estudiante aprueba un examen tras estudiar únicamente las preguntas que entraron en exámenes de otros años. Por el contrario, el modelo CLIP puede evaluarse en pruebas comparativas sin tener que entrenarse con sus datos, por lo que no puede comportarse de este modo. Como consecuencia, los resultados obtenidos en las pruebas comparativas son mucho más representativos de su rendimiento en un escenario real. Para contrastar la «hipótesis de las trampas», también evaluamos cómo influye en los resultados de CLIP la posibilidad de «estudiar» para ImageNet. Al añadir un clasificador lineal a las funciones de CLIP, la precisión del modelo mejora cerca de un 10 % en la prueba de ImageNet. Sin embargo, de media, el mismo clasificador no obtiene mejores resultados en un paquete de evaluación de otros siete conjuntos de datos que evalúan el nivel de «robustez».³⁰

Conclusiones principales

1. CLIP es muy eficiente

CLIP puede aprender a partir de datos no filtrados, diversos y ruidosos, y está diseñado para usarse en escenarios zero shot. Sabemos por GPT‑2 y 3 que los modelos entrenados con este tipo de datos pueden alcanzar buenos resultados en condiciones zero shot. Sin embargo, dichos modelos exigen grandes recursos computacionales. Para minimizar estos requisitos, apostamos por una estrategia algorítmica con el fin de mejorar los resultados durante el proceso de entrenamiento.

Estas son las dos opciones algorítmicas que empleamos para optimizar los recursos computacionales. La primera opción fue definir un objetivo contrastivo para asociar el texto con las imágenes.^{31, 17 y 35} En un principio, nos planteamos un enfoque imagen-texto similar al de VirTex,³³ pero a la hora de escalarlo nos encontramos con varias dificultades. En experimentos a pequeña y mediana escala, descubrimos que el objetivo contrastivo que emplea CLIP es entre 4 y 10 veces más eficiente en la clasificación zero shot de ImageNet. La segunda opción fue adoptar el Transformer de visión,³⁶ que nos proporcionó una mejora adicional en la eficiencia computacional tres veces superior a la de una ResNet estándar. Como resultado, nuestro modelo CLIP más eficiente se entrena con 256 GPU durante dos semanas, similar a los modelos de imagen a gran escala actuales.^{37, 23, 38 y 36}

Cargando...

2. CLIP es flexible y genérico

Debido a que es capaz de aprender multitud de conceptos visuales a partir del lenguaje natural, los modelos CLIP son mucho más flexibles y genéricos que los modelos ImageNet actuales. Por ejemplo, hemos visto que son capaces de llevar a cabo muchas tareas distintas con un enfoque zero shot. Para contrastar este hallazgo, hemos evaluado el rendimiento zero shot de CLIP en más de 30 conjuntos de datos distintos, que abarcan tareas como la clasificación detallada de objetos, la geolocalización, el reconocimiento de acciones en vídeos y el OCR.^B En particular, el aprendizaje de OCR es un ejemplo de un comportamiento muy interesante que no se da en los modelos estándar de ImageNet. Arriba, vemos una predicción aleatoria, no seleccionada, para cada clasificador zero shot.

Este descubrimiento también se refleja en una evaluación del aprendizaje por representaciones estándar empleando sondas lineales. El mejor modelo CLIP supera al mejor modelo ImageNet disponible públicamente, el Noisy Student EfficientNet-L2,²³ en 20 de los 26 conjuntos de datos de transferencia que analizamos.

Cargando...

Limitaciones

Aunque el modelo CLIP ha demostrado ser muy efectivo a la hora de reconocer objetos comunes, aún tiene dificultades con tareas más abstractas o sistemáticas, como contar el número de objetos que hay en una imagen, o con tareas más complejas, como determinar la distancia al coche más cercano en una imagen. En estos dos conjuntos de datos, el modelo CLIP con entrenamiento zero shot muestra un rendimiento ligeramente superior al de la predicción aleatoria. En comparación con los modelos para tareas específicas, CLIP también tiene dificultades con la clasificación de grupos muy detallados, como diferenciar entre modelos de coches, tipos de aeronaves o especies de flores.

Asimismo, tiene problemas para generalizar imágenes que no estaban incluidas en el conjunto de datos de preentrenamiento. Por ejemplo, si bien CLIP puede aprender un sistema de OCR competente, al evaluarlo con los dígitos escritos a mano del conjunto de datos MNIST, solo alcanza un 88 % de precisión en zero shot, muy por debajo del resultado del 99,75 % de los humanos. Para terminar, hemos observado que los clasificadores zero shot de CLIP son sensibles a la forma como se formulan o se redactan las etiquetas, y a menudo se necesita hacer ajustes adicionales en forma de ensayo y error para que el modelo rinda en estas situaciones.

Repercusiones

CLIP permite a los usuarios crear sus propios clasificadores y no exige que los datos de entrenamiento sean específicos para la tarea en cuestión. La forma en la que se diseñan las clases puede influir notablemente tanto en el rendimiento como en los sesgos del modelo. Por ejemplo, hemos visto que cuando el modelo se entrena con un conjunto de etiquetas entre las cuales aparecen etiquetas raciales^C FairFace³⁹ y una serie de términos peyorativos, como «criminal» o «animal», hay un ~32,3 % más de probabilidades de que clasifique las imágenes de los individuos de 0 a 20 años en la categoría peyorativa. Sin embargo, cuando añadimos la clase «niño» a la lista de clases posibles, este comportamiento desciende hasta el ~8,7 %.

Además, dado que CLIP no precisa datos de entrenamiento específicos para cada tarea, puede facilitar tareas muy especializadas, algunas de las cuales pueden entrañar riesgos para la privacidad o la vigilancia. Abordaremos esta cuestión analizando el rendimiento de CLIP en la identificación de personajes famosos. En un escenario real, CLIP presenta una precisión del 59,2 % en la primera predicción de la clasificación de imágenes de famosos cuando le pedimos elegir entre 100 candidatos, y una precisión del 43,3 % en la primera predicción tras elegir entre 1000 opciones posibles. Por muy destacable que sea alcanzar estos resultados con un preentrenamiento que no tiene en cuenta las tareas, no pueden competir con los que ofrecen los modelos de producción del mercado. En nuestro artículo⁠(se abre en una ventana nueva), analizamos más a fondo los retos que plantea CLIP, y esperamos que nuestro trabajo inspire nuevas investigaciones sobre la descripción de las capacidades, las deficiencias y los sesgos de los modelos de estas características. Estamos deseando conocer las perspectivas de la comunidad científica con respecto a estas cuestiones.

Conclusiones

A través de CLIP, hemos podido evaluar si el preentrenamiento con lenguaje natural procedente de internet y sin tareas específicas —que ha marcado un antes y un después en el campo del procesamiento del lenguaje natural— también puede servir para mejorar el rendimiento del aprendizaje profundo en otros ámbitos. Hasta ahora, los resultados que hemos obtenido en el campo de la visión artificial son muy prometedores. Como el resto de la familia GPT, CLIP es capaz de aprender una gran variedad de tareas durante la fase de preentrenamiento, hecho que hemos demostrado a partir de una transferencia zero shot. Asimismo, nuestros hallazgos sobre ImageNet también son reveladores, ya que apuntan a que la evaluación zero shot predice con mayor exactitud las capacidades de un modelo.

Notas al pie

29
En 2015, un grupo de investigadores de Microsoft entrenó por primera vez un modelo con ImageNet cuyo nivel de precisión superó los cinco valores de precisión más altos obtenidos por humanos.
B
Aunque los resultados zero shot de CLIP con respecto al OCR son variables, la representación semántica del OCR es muy útil. Al evaluar el modelo con el conjunto de datos SST-2 NLP renderizado en forma de imágenes, el clasificador lineal de la representación de CLIP equivale al de un modelo CBoW con acceso directo al texto. CLIP también es eficaz en la detección de memes de odio sin necesidad de etiquetado manual.
40
FairFace es un conjunto de datos de imágenes de rostros diseñado para compensar la representación de edades, sexos y razas distintas, así como paliar la falta de diversidad de los conjuntos de datos de rostros anteriores. Clasifica el sexo en dos grupos, hombre y mujer, y las razas en siete grupos: blancos, negros, indios, asiáticos del este, asiáticos del sureste, asiáticos de Oriente Medio y latinos. Existen problemas inherentes a la clasificación por raza y sexo, como revelan, por ejemplo, Bowker y Star (2000) y Keyes (2018). Aunque la proporción de rostros blancos es inferior en FairFace, hay grandes grupos demográficos que siguen sin estar representados, y esto comporta que no existan dichas categorías. En varios de nuestros experimentos, hemos aplicado las dos categorías de sexo y las siete categorías de raza que se definen en el conjunto de datos FairFace, no para reforzar ni respaldar el uso de dichas categorías reduccionistas, sino para cotejarlas con trabajos anteriores.

Referencias

1
Dodge, S., & Karam, L. (julio de 2017). «A study and comparison of human and deep learning recognition performance under visual distortions⁠(se abre en una ventana nueva)». En ICCCN 2017.
2
Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, F. A., & Brendel, W. (2018). «ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness⁠(se abre en una ventana nueva)». En ICLR 2019.
3
Alcorn, M. A., Li, Q., Gong, Z., Wang, C., Mai, L., Ku, W. S., & Nguyen, A. (2019). «Strike (with) a pose: Neural networks are easily fooled by strange poses of familiar objects⁠(se abre en una ventana nueva)». En CVPR 2019.
4
Barbu, A., Mayo, D., Alverio, J., Luo, W., Wang, C., Gutfreund, D., ... & Katz, B. (2019). «Objectnet: A large-scale bias-controlled dataset for pushing the limits of object recognition models⁠(se abre en una ventana nueva)». En NeurIPS 2019.
5
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). «Language Models are Unsupervised Multitask Learners⁠(se abre en una ventana nueva)». Informe técnico de OpenAI.
6
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Agarwal, S. (2020). «Language Models are Few-Shot Learners⁠(se abre en una ventana nueva)». En NeurIPS 2020.
7
He, K., Zhang, X., Ren, S., & Sun, J. (2016). «Deep residual learning for image recognition⁠(se abre en una ventana nueva)». En CVPR 2016.
8
Larochelle, H., Erhan, D., & Bengio, Y. (julio de 2008). «Zero-data learning of new tasks⁠(se abre en una ventana nueva)». En AAAI 2008.
9
Lampert, C. H., Nickisch, H., & Harmeling, S. (junio de 2009). «Learning to detect unseen object classes by between-class attribute transfer⁠(se abre en una ventana nueva)». En CVPR 2009.
10
Lei Ba, J., Swersky, K., & Fidler, S. (2015). «Predicting deep zero-shot convolutional neural networks using textual descriptions⁠(se abre en una ventana nueva)». En ICCV 2015.
11
Socher, R., Ganjoo, M., Manning, C. D., & Ng, A. (2013). «Zero-shot learning through cross-modal transfer⁠(se abre en una ventana nueva)». En NeurIPS 2013.
12
Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M. A., & Mikolov, T. (2013). «Devise: A deep visual-semantic embedding model⁠(se abre en una ventana nueva)». En NeurIPS 2013.
13
Li, A., Jabri, A., Joulin, A., & van der Maaten, L. (2017). «Learning visual n-grams from web data⁠(se abre en una ventana nueva)». En Proceedings of the IEEE International Conference on Computer Vision 2017.
14
Doersch, C., Gupta, A., & Efros, A. A. (2015). «Unsupervised visual representation learning by context prediction⁠(se abre en una ventana nueva)». En ICCV 2015.
15
Zhai, X., Oliver, A., Kolesnikov, A., & Beyer, L. (2019). «S4l: Self-supervised semi-supervised learning⁠(se abre en una ventana nueva)». En ICCV 2019.
16
Grill, J. B., Strub, F., Altché, F., Tallec, C., Richemond, P. H., Buchatskaya, E., ... & Piot, B. (2020). «Bootstrap your own latent: A new approach to self-supervised learning⁠(se abre en una ventana nueva)». En NeurIPS 2020.
17
Oord, A. V. D., Li, Y., & Vinyals, O. (2018). «Representation Learning with Contrastive Predictive Coding⁠(se abre en una ventana nueva)», preimpresión de arXiv.
18
Hjelm, R. D., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). «Learning deep representations by mutual information estimation and maximization⁠(se abre en una ventana nueva)». En ICLR 2019.
19
Bachman, P., Hjelm, R. D., & Buchwalter, W. (2019). «Learning representations by maximizing mutual information across views⁠(se abre en una ventana nueva)». En NeurIPS 2019.
20
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). «Momentum contrast for unsupervised visual representation learning⁠(se abre en una ventana nueva)». En CVPR 2020.
21
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). «A simple framework for contrastive learning of visual representations»⁠(se abre en una ventana nueva). Preimpresión de arXiv.
22
Lee, D. H. (junio de 2013). «Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks⁠(se abre en una ventana nueva)». En Workshop on Challenges in Representation Learning, ICML (2013).
23
Xie, Q., Luong, M. T., Hovy, E., & Le, Q. V. (2020). «Self-training with noisy student improves imagenet classification⁠(se abre en una ventana nueva)». En CVPR 2020.
24
Kingma, D. P., Mohamed, S., Jimenez Rezende, D., & Welling, M. (2014). «Semi-supervised learning with deep generative models⁠(se abre en una ventana nueva)». En NeurIPS 2014.
25
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., & Chen, X. (2016). «Improved techniques for training gans»⁠(se abre en una ventana nueva). En NeurIPS 2016.
26
Donahue, J., & Simonyan, K. (2019). «Large scale adversarial representation learning⁠(se abre en una ventana nueva)». En NeurIPS 2019.
27
Chen, M., Radford, A., Child, R., Wu, J., Jun, H., Luan, D., & Sutskever, I. (noviembre de 2020). «Generative pretraining from pixels⁠(se abre en una ventana nueva)». En ICML 2020.
28
He, K., Zhang, X., Ren, S., & Sun, J. (2015). «Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification⁠(se abre en una ventana nueva)». En ICCV 2015.
29
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., ... & Berg, A. C. (2015). «Imagenet large scale visual recognition challenge⁠(se abre en una ventana nueva)». En IJCV 2015.
30
Taori, R., Dave, A., Shankar, V., Carlini, N., Recht, B., & Schmidt, L. (2020). «Measuring robustness to natural distribution shifts in image classification⁠(se abre en una ventana nueva)». En NeurIPS 2020.
31
Sohn, K. (2016). «Improved deep metric learning with multi-class n-pair loss objective⁠(se abre en una ventana nueva)». En NeurIPS 2016.
32
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). «Attention is all you need⁠(se abre en una ventana nueva)». En NeurIPS 2017.
33
Desai, K., & Johnson, J. (2020). «VirTex: Learning Visual Representations from Textual Annotations⁠(se abre en una ventana nueva)». Preimpresión de arXiv.
34
Sariyildiz, M. B., Perez, J., & Larlus, D. (2020). «Learning Visual Representations with Caption Annotations⁠(se abre en una ventana nueva)». En ECCV 2020.
35
Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., & Langlotz, C. P. (2020). «Contrastive Learning of Medical Visual Representations from Paired Images and Text»⁠(se abre en una ventana nueva). Preimpresión de arXiv.
36
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Uszkoreit, J. (2020). «An image is worth 16x16 words: Transformers for image recognition at scale⁠(se abre en una ventana nueva)». Preimpresión de arXiv.
37
Mahajan, D., Girshick, R., Ramanathan, V., He, K., Paluri, M., Li, Y., ... & van der Maaten, L. (2018). «Exploring the limits of weakly supervised pretraining⁠(se abre en una ventana nueva)». En ECCV 2018.
38
Kolesnikov, A., Beyer, L., Zhai, X., Puigcerver, J., Yung, J., Gelly, S., & Houlsby, N. (2019). «Big Transfer (BiT): General Visual Representation Learning⁠(se abre en una ventana nueva)». Preimpresión de arXiv.
39
Kärkkäinen, K., & Joo, J. (2019). «Fairface: Face attribute dataset for balanced race, gender, and age⁠(se abre en una ventana nueva)». Preimpresión de arXiv.
40
Bowker, G., & Star, S. L. (1999). «Sorting things out. Classification and its consequences⁠(se abre en una ventana nueva)». Publicación.
41
Keyes, O. (2018). «The misgendering machines: Trans/HCI implications of automatic gender recognition⁠(se abre en una ventana nueva)». En Proceedings of the ACM on Human-Computer Interaction.

Autores

Alec Radford, Ilya Sutskever, Jong Wook Kim, Gretchen Krueger y Sandhini Agarwal

Agradecimientos

Nos gustaría dar las gracias a las millones de personas que han ayudado a crear los datos con los que se entrena CLIP. También agradecemos a todos los coautores su contribución en el proyecto. Por último, nos gustaría dar las gracias a Jeff Clune, Miles Brundage, Ryan Lowe, Jakub Pachocki y Vedant Misra por sus observaciones sobre los borradores de este blog y a Matthew Knight por revisar la versión del código.

Diseño y portada

Justin Jay Wang

CLIP: conexión de texto e imágenes

Antecedentes y estudios relacionados

Metodología

Conclusiones principales

Limitaciones

Repercusiones

Conclusiones

Notas al pie

Referencias

Autores

Agradecimientos

Diseño y portada

Artículos relacionados