5 de enero de 2021

CLIP: correlación entre texto e imágenes

Ilustración: Justin Jay Wang

Cargando...

Presentamos una red neuronal denominada CLIP, que aprende rápidamente conceptos visuales a partir de interpretaciones descritas en lenguaje natural. CLIP puede ser aplicada a cualquier punto de referencia de clasificación visual simplemente al proporcionar los nombres de las categorías visuales que deben reconocerse, de forma similar a las capacidades de “zero-shot” de GPT‑2 y GPT‑3.

A pesar de que el aprendizaje profundo ha revolucionado la visión artificial, los enfoques actuales tienen varios problemas importantes: los conjuntos de datos de visión típicos son laboriosos y costosos de crear, al tiempo que enseñan solo un conjunto limitado de conceptos visuales. Por otro lado, los modelos de visión estándar son buenos en una tarea, pero solo en una, y requieren un esfuerzo significativo para adaptarse a una tarea nueva. Por último, los modelos que funcionan bien en los puntos de referencia tienen un rendimiento decepcionantemente malo en las pruebas de estrés,^{1, 2, 3 y 4} lo que pone en duda todo el enfoque de aprendizaje profundo de la visión artificial.

Presentamos una red neuronal que pretende abordar estos problemas: se entrena en una amplia variedad de imágenes con una gran variedad de supervisión de lenguaje natural que abunda en Internet. Por su diseño, la red puede ser instruida en lenguaje natural para realizar una gran variedad de puntos de referencia de clasificación, sin optimizar directamente el rendimiento del punto de referencia, similar a las capacidades “zero-shot⁠(se abre en una nueva ventana)” de GPT‑2⁵ y GPT‑3.⁶ Este es un cambio clave: al no optimizar directamente para el punto de referencia, demostramos que se vuelve mucho más representativo; nuestro sistema cierra esta “brecha de solidez” hasta en un 75 % mientras iguala el rendimiento de la ResNet-50⁷ original en ImageNet⁠(se abre en una nueva ventana) zero-shot sin usar ninguno de los ejemplos de los 1,28 millones etiquetados originales.

Cargando...

Antecedentes y trabajos relacionados

El preentrenamiento contrastivo de lenguaje e imagen (Contrastive Language-Image Pre-training, CLIP) se basa en un amplio conjunto de trabajos sobre la transferencia de zero-shot, la supervisión del lenguaje natural y el aprendizaje multimodal. La idea del aprendizaje de zero-data se remonta a hace más de una década⁸, pero hasta hace poco se estudiaba sobre todo en visión artificial como forma de generalizar a categorías de objetos no vistas.^{9 y 10} Una idea fundamental fue aprovechar el lenguaje natural como espacio de predicción flexible para permitir la generalización y la transferencia. En 2013, Richard Socher y sus coautores en Stanford¹¹ desarrollaron un prototipo al entrenar un modelo en CIFAR-10 para realizar predicciones en un espacio de incrustación de vectores de palabras y demostraron que este modelo podía predecir dos clases no vistas. Ese mismo año, DeVISE¹² amplió este enfoque y demostró que era posible hacer un ajuste fino de un modelo de ImageNet para que pudiera generalizar y predecir correctamente objetos fuera del conjunto de entrenamiento original de 1 000.

Lo más inspirador para CLIP es el trabajo de Ang Li y sus coautores en FAIR¹³, que en 2016 demostraron el uso de la supervisión del lenguaje natural para permitir la transferencia de zero-shot a varios conjuntos de datos de clasificación de visión artificial existentes, como el conjunto de datos canónico ImageNet. Lo consiguieron al hacer un ajuste fino de la precisión de una red neuronal convolucional (CNN) de ImageNet para predecir un conjunto mucho más amplio de conceptos visuales (n-gramas visuales) a partir del texto de títulos, descripciones y etiquetas de 30 millones de fotos de Flickr y fueron capaces de alcanzar una precisión del 11,5 % en ImageNet zero-shot.

Por último, CLIP forma parte de un grupo de artículos que revisan el aprendizaje de representaciones visuales a partir de la supervisión del lenguaje natural en el último año. Esta línea de trabajo utiliza arquitecturas más modernas como Transformer³² e incluye VirTex,³³ que exploró el modelado autorregresivo del lenguaje, ICMLM,³⁴ que investigó el modelado enmascarado del lenguaje, y ConVIRT,³⁵ que estudió el mismo objetivo contrastivo que utilizamos para CLIP pero en el campo de las imágenes médicas.

Enfoque

Demostramos que basta con escalar una sencilla tarea de entrenamiento previo para lograr un rendimiento competitivo zero-shot en una gran variedad de conjuntos de datos de clasificación de imágenes. Nuestro método utiliza una fuente de supervisión abundantemente disponible: el texto emparejado con imágenes que se encuentran en Internet. Estos datos se utilizan para crear la siguiente tarea de entrenamiento proxy para CLIP: con una imagen, predecir cuál de un conjunto de 32 768 fragmentos de texto de muestra aleatoria estaba realmente emparejado con ella en nuestro conjunto de datos.

Para resolver esta tarea, nuestra intuición es que los modelos CLIP tendrán que aprender a reconocer una amplia variedad de conceptos visuales en imágenes y asociarlos a sus nombres. Como resultado, los modelos CLIP pueden aplicarse a tareas de clasificación visual casi arbitrarias. Por ejemplo, si la tarea de un conjunto de datos es clasificar fotos de perros en comparación con gatos, comprobamos para cada imagen si un modelo CLIP predice que es más probable que se empareje con ella la descripción de texto “una foto de un perro” o “una foto de un gato”.

Cargando...

CLIP se diseñó para mitigar una serie de problemas importantes en el enfoque habitual de aprendizaje profundo de la visión artificial:

Conjuntos de datos costosos: El aprendizaje profundo necesita muchos datos, y los modelos de visión se han entrenado tradicionalmente en conjuntos de datos etiquetados de forma manual que son costosos de desarrollar y solo proporcionan supervisión para un número limitado de conceptos visuales predeterminados. El conjunto de datos ImageNet, uno de los mayores esfuerzos en este ámbito, necesitó más de 25 000 trabajadores para registrar 14 millones de imágenes correspondientes a 22 000 categorías de objetos. Por el contrario, CLIP aprende a partir de pares texto e imagen que ya están disponibles públicamente en Internet. La reducción de la necesidad de conjuntos de datos etiquetados grandes y costosos se ha estudiado ampliamente en trabajos anteriores, en particular el aprendizaje autosupervisado,^{14, 15 y 16} métodos contrastivos,^{17, 18, 19, 20 y 21} enfoques de autoformación,^{22 y 23} y modelado generativo.^{24, 25, 26 y 27}

Reducción: Un modelo de ImageNet es bueno para predecir las 1000 categorías ImageNet, pero eso es todo lo que puede hacer por defecto. Si queremos realizar cualquier otra tarea, un profesional del aprendizaje automatizado (ML) necesita desarrollar un conjunto de datos nuevo, añadir una responsable de datos de salida y hacer un ajuste fino del modelo. Por el contrario, CLIP puede adaptarse para realizar una amplia variedad de tareas de clasificación visual sin necesidad de otros ejemplos de entrenamiento. Para aplicar CLIP a una tarea nueva, basta con indicarle al codificador de texto de CLIP los nombres de los conceptos visuales de la tarea, y este emitirá un clasificador lineal de las representaciones visuales de CLIP. La precisión de este clasificador suele competir con la de los modelos totalmente supervisados.

A continuación, mostramos las predicciones aleatorias, sin una selección por conveniencia, de los clasificadores CLIP de zero-shot en ejemplos de varios conjuntos de datos.

Cargando...

Bajo rendimiento en el mundo real: Los sistemas de aprendizaje profundo suelen alcanzar un rendimiento humano o incluso sobrehumano^{28 y A} en pruebas de visión, pero cuando se utilizan en la práctica, su rendimiento puede estar muy por debajo de las expectativas fijadas por la referencia. En otras palabras, hay una diferencia entre el “rendimiento de referencia” y el “rendimiento real”. Conjeturamos que esta diferencia se produce porque los modelos “hacen trampa” al optimizar únicamente el rendimiento en el punto de referencia, de forma parecida a un estudiante que aprueba un examen tras estudiar solo las preguntas de los exámenes de años anteriores. Por el contrario, el modelo CLIP puede evaluarse en puntos de referencia sin tener que entrenarse con sus datos, por lo que en este sentido no puede “hacer trampa”. Esto hace que su rendimiento en las pruebas de referencia sea mucho más representativo respecto de su rendimiento en el mundo real. Para verificar la “hipótesis de la trampa”, también evaluamos cómo cambia el rendimiento de CLIP cuando puede “estudiar” para ImageNet. Cuando se ajusta un clasificador lineal sobre las características de CLIP, mejora la precisión de CLIP en el conjunto de pruebas ImageNet casi en un 10 %. Sin embargo, este clasificador no obtiene mejores resultados de media en un conjunto de evaluación de otros siete conjuntos de datos que evalúan el rendimiento “sólido”.³⁰

Conclusiones principales

1. CLIP es muy eficaz

CLIP aprende a partir de datos sin filtrar, muy variados y con mucho ruido, y está pensado para utilizarse de forma zero-shot. Sabemos por GPT‑2 y 3 que los modelos entrenados con esos datos pueden lograr un rendimiento de zero-shot convincente; sin embargo, esos modelos requieren un importante proceso de entrenamiento. Para reducir el proceso necesario, nos centramos en formas algorítmicas de mejorar la eficacia del entrenamiento de nuestro enfoque.

Presentamos dos opciones algorítmicas que permitieron un importante ahorro de proceso. La primera opción es la adopción de un objetivo contrastivo para conectar el texto con las imágenes.^{31, 17 y 35}En un principio, exploramos un enfoque de imagen-texto, similar al de VirTex,³³ pero nos encontramos con dificultades a la hora de escalar para lograr un rendimiento de vanguardia. En experimentos a pequeña y mediana escala, descubrimos que el objetivo contrastivo que CLIP utiliza es de entre cuatro y diez veces más eficiente en la clasificación de zero-shot de ImageNet. La segunda opción fue la adopción del transformador de visión,³⁶ que nos proporcionó una ganancia de eficiencia de proceso tres veces mayor que una ResNet estándar. Al final, nuestro modelo CLIP de mejor rendimiento se entrena en 256 GPU durante dos semanas, lo que es similar a los modelos de imagen a gran escala existentes.^{37, 23, 38 y 36}.

Cargando...

2. CLIP es flexible y de uso general

Dado que aprenden una amplia variedad de conceptos visuales directamente del lenguaje natural, los modelos CLIP son mucho más flexibles y de uso general que los modelos ImageNet existentes. Descubrimos que son capaces de realizar con zero-shot muchas tareas diferentes. Para validar esto, hemos evaluado el rendimiento zero-shot de CLIP en más de 30 conjuntos de datos diferentes que incluyen tareas como la clasificación detallada de objetos, la geolocalización, el reconocimiento de acciones en videos y el reconocimiento óptico de caracteres (OCR).^B En particular, el aprendizaje de OCR es un ejemplo de un comportamiento interesante que no se da en los modelos estándar de ImageNet. Arriba, visualizamos una predicción aleatoria, sin una selección por conveniencia, de cada clasificador de zero-shot.

Este resultado también se refleja en una evaluación habitual de aprendizaje de representación mediante sondas lineales. El mejor modelo CLIP supera al mejor modelo ImageNet disponible públicamente, EfficientNet-L2 de Noisy Student,²³ en 20 de los 26 conjuntos de datos de transferencia diferentes que probamos.

Cargando...

Limitaciones

A pesar de que CLIP suele obtener buenos resultados en el reconocimiento de objetos comunes, tiene dificultades en tareas más abstractas o sistemáticas, como contar el número de objetos de una imagen, y en tareas más complejas, como predecir a qué distancia se encuentra el auto más cercano en una foto. En estos dos conjuntos de datos, CLIP de zero-shot es solo un poco mejor que la adivinación aleatoria. CLIP de zero-shot también tiene dificultades en comparación con los modelos de tareas específicas en clasificaciones muy precisas, como diferenciar entre modelos de autos, variantes de aviones o especies de flores.

CLIP tampoco generaliza bien las imágenes no incluidas en su conjunto de datos de entrenamiento previo. Por ejemplo, aunque CLIP aprende un sistema de OCR capaz, cuando se evalúa con dígitos manuscritos del conjunto de datos MNIST, CLIP de zero-shot solo logra un 88 % de precisión, muy por debajo del 99,75 % de los humanos en el conjunto de datos. Por último, hemos observado que los clasificadores de zero-shot de CLIP pueden ser sensibles a la redacción o a la expresión y, a veces, requieren “ingeniería rápida” de ensayo y error para funcionar bien.

Mayor impacto

CLIP permite a los usuarios diseñar sus propios clasificadores y no requiere de datos de entrenamiento específicos para cada tarea. La forma en que se diseñan estas clases puede influir mucho, tanto en el rendimiento como en los sesgos de los modelos. Por ejemplo, encontramos que cuando se indica un conjunto de etiquetas que incluyen etiquetas de raza^C FairFace³⁹ y un puñado de términos atroces como “criminal”, “animal”, etc., el modelo tiende a clasificar las imágenes de personas de 0 a 20 años en la categoría “atroz” en un porcentaje de aproximadamente 32,3 %. Sin embargo, cuando añadimos la clase “niño” a la lista de clases posibles, este comportamiento desciende a alrededor de 8,7 %.

Además, dado que CLIP no necesita datos de entrenamiento específicos para cada tarea, puede desbloquear ciertas tareas especializadas con mayor facilidad. Algunas de estas tareas pueden plantear riesgos relacionados con la privacidad o la supervisión, y exploramos esta preocupación al evaluar el rendimiento de CLIP en la identificación de famosos. CLIP tiene una precisión máxima del 59,2 % en la clasificación de imágenes de famosos circulando libremente al elegir entre 100 candidatos y una precisión máxima del 43,3 % al elegir entre 1000 opciones posibles. A pesar de que lograr estos resultados con un entrenamiento previo agnóstico de tareas es digno de mención, este rendimiento no es competitivo si se compara con modelos de nivel de producción ampliamente disponibles. En nuestro artículo⁠(se abre en una nueva ventana) exploramos más a fondo los desafíos que plantea CLIP y esperamos que este trabajo motive futuras investigaciones sobre la caracterización de las capacidades, las deficiencias y los sesgos de tales modelos. Nos complace colaborar con la comunidad de investigación en estos aspectos.

Conclusión

Con CLIP, hemos evaluado si el entrenamiento previo agnóstico de tareas en lenguaje natural a escala de Internet, que ha impulsado un avance reciente en PLN, también puede aprovecharse para mejorar el rendimiento del aprendizaje profundo en otros campos. Estamos entusiasmados con los resultados que hemos visto hasta ahora al aplicar este enfoque a la visión artificial. Al igual que la familia GPT, CLIP aprende una amplia variedad de tareas durante el entrenamiento previo, que demostramos mediante la transferencia de zero-shot. También nos animan nuestros resultados en ImageNet, que sugieren que la evaluación de zero-shot es una medida más representativa de la capacidad de un modelo.

Notas al pie

29
En 2015, un grupo de investigadores de Microsoft entrenó por primera vez un modelo que logró una precisión entre los mejores cinco en ImageNet que superó la precisión humana informada, entre los mejores cinco.
B
A pesar de que el rendimiento del OCR de zero-shot de CLIP es variado, su representación semántica del OCR es bastante útil. Cuando se evalúa en el conjunto de datos SST-2 NLP representado como imágenes, un clasificador lineal en la representación de CLIP coincide con un modelo CBoW con acceso directo al texto. CLIP también es competitivo en la detección de memes de odio sin necesidad de un texto verdadero.
40
FairFace es un conjunto de datos de imágenes faciales diseñado para equilibrar la edad, el sexo y la raza, con el fin de reducir las asimetrías habituales en conjuntos anteriores de datos faciales. Clasifica el género en dos grupos: femenino y masculino, y la raza en siete grupos: blanco, negro, indio, asiático del este, asiático del sureste, de Medio Oriente y latino. Existen problemas inherentes a las clasificaciones por raza y género, como han demostrado, por ejemplo, Bowker y Star (2000) y Keyes (2018). A pesar de que el conjunto de datos de FairFace reduce la proporción de rostros blancos, sigue careciendo de representación de grandes grupos demográficos enteros, lo que omite tales categorías. Utilizamos las dos categorías de género y las siete categorías de raza definidas en el conjunto de datos FairFace en varios de nuestros experimentos, no para reforzar o respaldar el uso de tales categorías reductoras, sino para poder hacer comparaciones con trabajos anteriores.

Referencias

1
Dodge, S. y Karam, L. (2017, julio). “A study and comparison of human and deep learning recognition performance under visual distortions⁠(se abre en una nueva ventana)”. En ICCCN 2017.
2
Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, F. A. y Brendel, W. (2018). “ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness⁠(se abre en una nueva ventana)”. En ICLR 2019.
3
Alcorn, M. A., Li, Q., Gong, Z., Wang, C., Mai, L., Ku, W. S. y Nguyen, A. (2019). “Strike (with) a pose: Neural networks are easily fooled by strange poses of familiar objects⁠(se abre en una nueva ventana)”. En CVPR 2019.
4
Barbu, A., Mayo, D., Alverio, J., Luo, W., Wang, C., Gutfreund, D. ... y Katz, B. (2019). “Objectnet: A large-scale bias-controlled dataset for pushing the limits of object recognition models⁠(se abre en una nueva ventana).” En NeurIPS 2019.
5
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. y Sutskever, I. (2019). “Language Models are Unsupervised Multitask Learners⁠(se abre en una nueva ventana)”. Informe técnico, OpenAI.
6
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P. ... y Agarwal, S. (2020). “Language Models are Few-Shot Learners⁠(se abre en una nueva ventana)”. En NeurIPS 2020.
7
He, K., Zhang, X., Ren, S. y Sun, J. (2016). “Deep residual learning for image recognition⁠(se abre en una nueva ventana)”. En CVPR 2016.
8
Larochelle, H., Erhan, D. y Bengio, Y. (2008, julio). “Zero-data learning of new tasks⁠(se abre en una nueva ventana)”. En AAAI 2008.
9
Lampert, C. H., Nickisch, H. y Harmeling, S. (2009, junio). “Learning to detect unseen object classes by between-class attribute transfer⁠(se abre en una nueva ventana).” En CVPR 2009.
10
Lei Ba, J., Swersky, K. y Fidler, S. (2015). “Predicting deep zero-shot convolutional neural networks using textual descriptions⁠(se abre en una nueva ventana)”. En ICCV 2015.
11
Socher, R., Ganjoo, M., Manning, C. D. y Ng, A. (2013). “Zero-shot learning through cross-modal transfer⁠(se abre en una nueva ventana)”. En NeurIPS 2013.
12
Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M. A. y Mikolov, T. (2013). “Devise: A deep visual-semantic embedding model⁠(se abre en una nueva ventana)”. En NeurIPS 2013.
13
Li, A., Jabri, A., Joulin, A. y van der Maaten, L. (2017). “Learning visual n-grams from web data⁠(se abre en una nueva ventana)”. En Proceedings of the IEEE International Conference on Computer Vision 2017.
14
Doersch, C., Gupta, A. y Efros, A. A. (2015). “Unsupervised visual representation learning by context prediction⁠(se abre en una nueva ventana)”. En ICCV 2015.
15
Zhai, X., Oliver, A., Kolesnikov, A. y Beyer, L. (2019). “S4l: Self-supervised semi-supervised learning⁠(se abre en una nueva ventana)”. En ICCV 2019.
16
Grill, J. B., Strub, F., Altché, F., Tallec, C., Richemond, P. H., Buchatskaya, E.... y Piot, B. (2020). “Bootstrap your own latent: A new approach to self-supervised learning⁠(se abre en una nueva ventana)”. En NeurIPS 2020.
17
Oord, A. V. D., Li, Y. y Vinyals, O. (2018). “Representation Learning with Contrastive Predictive Coding⁠(se abre en una nueva ventana)”. Preimpresión de arXiv.
18
Hjelm, R. D., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A. y Bengio, Y. (2018). “Learning deep representations by mutual information estimation and maximization⁠(se abre en una nueva ventana)”. En ICLR 2019.
19
Bachman, P., Hjelm, R. D. y Buchwalter, W. (2019). “Learning representations by maximizing mutual information across views⁠(se abre en una nueva ventana)”. En NeurIPS 2019.
20
He, K., Fan, H., Wu, Y., Xie, S. y Girshick, R. (2020). “Momentum contrast for unsupervised visual representation learning⁠(se abre en una nueva ventana)”. En CVPR 2020.
21
Chen, T., Kornblith, S., Norouzi, M. y Hinton, G. (2020). “A simple framework for contrastive learning of visual representations⁠(se abre en una nueva ventana)”. Preimpresión de arXiv.
22
Lee, D. H. (2013, junio). “Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks⁠(se abre en una nueva ventana)”. En Workshop on challenges in representation learning, ICML (2013).
23
Xie, Q., Luong, M. T., Hovy, E. y Le, Q. V. (2020). “Self-training with noisy student improves imagenet classification⁠(se abre en una nueva ventana)”. En CVPR 2020.
24
Kingma, D. P., Mohamed, S., Jimenez Rezende, D. y Welling, M. (2014). “Semi-supervised learning with deep generative models⁠(se abre en una nueva ventana)”. En NeurIPS 2014.
25
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A. y Chen, X. (2016). “Improved techniques for training gans⁠(se abre en una nueva ventana)”. En NeurIPS 2016.
26
Donahue, J. y Simonyan, K. (2019). “Large scale adversarial representation learning⁠(se abre en una nueva ventana)”. En NeurIPS 2019.
27
Chen, M., Radford, A., Child, R., Wu, J., Jun, H., Luan, D. y Sutskever, I. (2020, noviembre). “Generative pretraining from pixels⁠(se abre en una nueva ventana)”. En ICML 2020.
28
He, K., Zhang, X., Ren, S. y Sun, J. (2015). “Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification⁠(se abre en una nueva ventana)”. En ICCV 2015.
29
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S.... y Berg, A. C. (2015). “Imagenet large scale visual recognition challenge⁠(se abre en una nueva ventana)”. En IJCV 2015.
30
Taori, R., Dave, A., Shankar, V., Carlini, N., Recht, B. y Schmidt, L. (2020). “Measuring robustness to natural distribution shifts in image classification⁠(se abre en una nueva ventana)”. En NeurIPS 2020.
31
Sohn, K. (2016). “Improved deep metric learning with multi-class n-pair loss objective⁠(se abre en una nueva ventana)”. En NeurIPS 2016.
32
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N.... y Polosukhin, I. (2017). “Attention is all you need⁠(se abre en una nueva ventana)”. En NeurIPS 2017.
33
Desai, K. y Johnson, J. (2020). “VirTex: Learning Visual Representations from Textual Annotations⁠(se abre en una nueva ventana)”. Preimpresión de arXiv.
34
Sariyildiz, M. B., Perez, J. y Larlus, D. (2020). “Learning Visual Representations with Caption Annotations⁠(se abre en una nueva ventana)”. En ECCV 2020.
35
Zhang, Y., Jiang, H., Miura, Y., Manning, C. D. y Langlotz, C. P. (2020). “Contrastive Learning of Medical Visual Representations from Paired Images and Text⁠(se abre en una nueva ventana)”. Preimpresión de arXiv.
36
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T.... y Uszkoreit, J. (2020). “An image is worth 16x16 words: Transformers for image recognition at scale⁠(se abre en una nueva ventana)”. Preimpresión de arXiv.
37
Mahajan, D., Girshick, R., Ramanathan, V., He, K., Paluri, M., Li, Y.... y van der Maaten, L. (2018). “Exploring the limits of weakly supervised pretraining⁠(se abre en una nueva ventana).” En ECCV 2018.
38
Kolesnikov, A., Beyer, L., Zhai, X., Puigcerver, J., Yung, J., Gelly, S. y Houlsby, N. (2019). “Big Transfer (BiT): General Visual Representation Learning⁠(se abre en una nueva ventana)”. Preimpresión de arXiv.
39
Kärkkäinen, K. y Joo, J. (2019). “Fairface: Face attribute dataset for balanced race, gender, and age⁠(se abre en una nueva ventana)”. Preimpresión de arXiv.
40
Bowker, G. y Star, S. L. (1999). “Sorting things out. Classification and its consequences⁠(se abre en una nueva ventana)”. Libro.
41
Keyes, O. (2018). “The misgendering machines: Trans/HCI implications of automatic gender recognition⁠(se abre en una nueva ventana)”. En Proceedings of the ACM on Human-Computer Interaction.

Autores

Alec Radford, Ilya Sutskever, Jong Wook Kim, Gretchen Krueger y Sandhini Agarwal

Agradecimientos

Nos gustaría dar las gracias a los millones de personas que han participado en la creación de los datos con los que se entrena CLIP. También agradecemos a todos los coautores su contribución al proyecto. Por último, nos gustaría dar las gracias a Jeff Clune, Miles Brundage, Ryan Lowe, Jakub Pachocki y Vedant Misra por sus comentarios sobre los borradores de este blog y a Matthew Knight por revisar la liberación del código.

Diseño y portada

Justin Jay Wang

CLIP: correlación entre texto e imágenes

Antecedentes y trabajos relacionados

Enfoque

Conclusiones principales

Limitaciones

Mayor impacto

Conclusión

Notas al pie

Referencias

Autores

Agradecimientos

Diseño y portada

Artículos relacionados