Salta al contingut principal
OpenAI
CLIP

Il·lustració: Justin Jay Wang

S'està carregant…

Presentem una xarxa neuronal anomenada CLIP que aprèn de manera eficient conceptes visuals a partir de supervisió amb llenguatge natural. CLIP es pot aplicar a qualsevol benchmark de classificació visual simplement proporcionant els noms de les categories visuals que s’han de reconèixer, de manera similar a les capacitats «zero-shot» de GPT‑2 i GPT‑3.

Tot i que l’aprenentatge profund ha revolucionat la visió per computador, els enfocaments actuals tenen diversos problemes importants: els conjunts de dades de visió típics requereixen molta mà d’obra i són costosos de crear, alhora que només ensenyen un conjunt reduït de conceptes visuals; els models de visió estàndard són bons en una sola tasca i només en una, i requereixen un esforç considerable per adaptar-se a una nova tasca; i els models que funcionen bé en benchmarks tenen un rendiment decebedorament baix en proves d’estrès,1, 2, 3 i 4 fet que posa en dubte tot l’enfocament de l’aprenentatge profund a la visió per computador.

Presentem una xarxa neuronal que pretén abordar aquests problemes: s’entrena amb una gran varietat d’imatges i una gran varietat de supervisió amb llenguatge natural, abundantment disponible a internet. Per disseny, es pot instruir la xarxa en llenguatge natural perquè faci una gran varietat de benchmarks de classificació, sense optimitzar directament el rendiment del benchmark, de manera similar a les capacitats «zero-shot(s'obre en una finestra nova)» de GPT‑25 i GPT‑3.6 Aquest és un canvi clau: en no optimitzar directament per al benchmark, mostrem que esdevé molt més representatiu; el nostre sistema redueix aquesta «bretxa de robustesa» fins a un 75% mentre iguala el rendiment del ResNet-50 original7 a ImageNet(s'obre en una finestra nova) zero-shot sense utilitzar cap dels 1,28 M exemples etiquetats originals.

S'està carregant...

Context i treball relacionat

CLIP (Contrastive Language–Image Pre-training) es basa en un ampli cos de treballs sobre transferència sense exemples, supervisió amb llenguatge natural i aprenentatge multimodal. La idea de l’aprenentatge sense dades es remunta a més d’una dècada enrere8 però fins fa poc s’havia estudiat sobretot en visió per computador com una manera de generalitzar a categories d’objectes no vistes.9 i 10 Una intuïció clau va ser aprofitar el llenguatge natural com a espai de predicció flexible per permetre la generalització i la transferència. El 2013, Richard Socher i coautors de Stanford11 van desenvolupar una prova de concepte entrenant un model sobre CIFAR-10 perquè fes prediccions en un espai d’incrustació de vectors de paraules i van mostrar que aquest model podia predir dues classes no vistes. Aquell mateix any, DeVISE12 va escalar aquest enfocament i va demostrar que era possible ajustar finament un model d’ImageNet perquè pogués generalitzar i predir correctament objectes fora del conjunt original de 1000 exemples d’entrenament.

La inspiració més directa per a CLIP és el treball d’Ang Li i els seus coautors a FAIR13 que el 2016 van demostrar que es podia fer servir supervisió amb llenguatge natural per habilitar la transferència sense exemples a diversos conjunts de dades de classificació de visió per computador existents, com ara el conjunt de dades canònic ImageNet. Ho van aconseguir ajustant finament una CNN d’ImageNet perquè predigués un conjunt molt més ampli de conceptes visuals (n-grames visuals) a partir del text de títols, descripcions i etiquetes de 30 milions de fotos de Flickr, i van aconseguir arribar a un 11,5% de precisió a ImageNet zero-shot.

Finalment, CLIP forma part d’un grup d’articles que durant l’últim any han revisitat l’aprenentatge de representacions visuals a partir de supervisió amb llenguatge natural. Aquesta línia de treball utilitza arquitectures més modernes com el transformador32 i inclou VirTex,33 que va explorar la modelització del llenguatge autoregressiva, ICMLM,34 que va investigar la modelització del llenguatge emmascarada, i ConVIRT,35 que va estudiar el mateix objectiu contrastiu que fem servir per a CLIP però en l’àmbit de la imatge mèdica.

Enfocament

Mostrem que escalar una tasca simple de preentrenament és suficient per aconseguir un rendiment zero-shot competitiu en una gran varietat de conjunts de dades de classificació d’imatges. El nostre mètode fa servir una font de supervisió disponible en abundància: el text aparellat amb imatges que es troba arreu d’internet. Aquestes dades s’utilitzen per crear la tasca d’entrenament intermèdia següent per a CLIP: donada una imatge, predir quin d’un conjunt de 32.768 fragments de text mostrejats aleatòriament estava realment aparellat amb ella al nostre conjunt de dades.

Per resoldre aquesta tasca, la nostra intuïció és que els models CLIP hauran d’aprendre a reconèixer una gran varietat de conceptes visuals a les imatges i associar-los amb els seus noms. Com a resultat, els models CLIP es poden aplicar a tasques de classificació visual gairebé arbitràries. Per exemple, si la tasca d’un conjunt de dades és classificar fotos de gossos davant de gats, comprovem per a cada imatge si un model CLIP prediu que la descripció textual «una foto d’un gos» o «una foto d’un gat» és més probable que hi estigui aparellada.

S'està carregant...

CLIP es va dissenyar per mitigar diversos problemes importants de l’enfocament estàndard d’aprenentatge profund en visió per computador:

Conjunts de dades costosos: L’aprenentatge profund necessita moltes dades, i els models de visió tradicionalment s’han entrenat amb conjunts de dades etiquetats manualment que són cars de construir i només proporcionen supervisió per a un nombre limitat de conceptes visuals predeterminats. El conjunt de dades ImageNet, un dels esforços més grans en aquest àmbit, va requerir més de 25.000 treballadors per anotar 14 milions d’imatges per a 22.000 categories d’objectes. En canvi, CLIP aprèn de parelles de text i imatge que ja estan disponibles públicament a internet. La reducció de la necessitat de grans conjunts de dades etiquetats i costosos ha estat àmpliament estudiada en treballs previs, especialment l’aprenentatge autosupervisat,14, 15 i 16 els mètodes contrastius,17, 18, 19, 20 i 21 els enfocaments d’autoentrenament,22 i 23 i la modelització generativa.24, 25, 26 i 27

Estret: Un model d’ImageNet és bo predint les 1000 categories d’ImageNet, però això és tot el que pot fer «tal com ve». Si volem fer qualsevol altra tasca, un professional del ML ha de crear un nou conjunt de dades, afegir-hi un capçal de sortida i ajustar finament el model. En canvi, CLIP es pot adaptar per fer una gran varietat de tasques de classificació visual sense necessitat d’exemples d’entrenament addicionals. Per aplicar CLIP a una nova tasca, tot el que hem de fer és «dir-li» al codificador de text de CLIP els noms dels conceptes visuals de la tasca, i generarà un classificador lineal de les representacions visuals de CLIP. La precisió d’aquest classificador sovint és competitiva amb la dels models totalment supervisats.

A continuació mostrem prediccions aleatòries, no seleccionades expressament, de classificadors CLIP zero-shot sobre exemples de diversos conjunts de dades.

S'està carregant...

Mal rendiment al món real: Sovint s’informa que els sistemes d’aprenentatge profund aconsegueixen un rendiment humà o fins i tot sobrehumà28 i A en punts de referència de visió, però quan es despleguen en entorns reals, el seu rendiment pot quedar molt per sota de l’expectativa creada pel punt de referència. Dit d’una altra manera, hi ha una bretxa entre el «rendiment en benchmark» i el «rendiment real». Conjecturem que aquesta bretxa es produeix perquè els models «fan trampes» i només optimitzen per al rendiment al benchmark, com un estudiant que aprova un examen estudiant només les preguntes dels exàmens d’anys anteriors. En canvi, el model CLIP es pot avaluar en benchmarks sense haver-se d’entrenar amb les seves dades, de manera que no pot «fer trampes» d’aquesta manera. Això fa que el seu rendiment al benchmark sigui molt més representatiu del seu rendiment en entorns reals. Per verificar la «hipòtesi de la trampa», també mesurem com canvia el rendiment de CLIP quan pot «estudiar» per a ImageNet. Quan s’ajusta un classificador lineal sobre les característiques de CLIP, la precisió de CLIP al conjunt de prova d’ImageNet millora gairebé un 10%. Tanmateix, aquest classificador no ho fa gens millor de mitjana en una suite d’avaluació de 7 altres conjunts de dades que mesuren el rendiment «robust».30

Conclusions clau

1. CLIP és altament eficient

CLIP aprèn de dades no filtrades, molt variades i molt sorolloses, i està pensat per fer-se servir de manera zero-shot. Sabem per GPT‑2 i 3 que els models entrenats amb aquestes dades poden assolir un rendiment zero-shot convincent; tanmateix, aquests models requereixen un còmput d’entrenament considerable. Per reduir el còmput necessari, ens hem centrat en maneres algorítmiques de millorar l’eficiència d’entrenament del nostre enfocament.

Informem de dues decisions algorítmiques que van comportar estalvis significatius de còmput. La primera és l’adopció d’un objectiu contrastiu per connectar text i imatges.31, 17 i 35 Originalment vam explorar un enfocament d’imatge a text, semblant a VirTex,33 però vam trobar dificultats per escalar-lo fins a assolir un rendiment d’última generació. En experiments a petita i mitjana escala, vam comprovar que l’objectiu contrastiu utilitzat per CLIP és entre 4 i 10 vegades més eficient en la classificació zero-shot d’ImageNet. La segona decisió va ser adoptar el Vision Transformer,36 que ens va proporcionar un guany addicional de 3x en eficiència de còmput respecte d’un ResNet estàndard. Al final, el nostre model CLIP amb millor rendiment s’entrena amb 256 GPU durant 2 setmanes, cosa similar als models d’imatge existents a gran escala.37, 23, 38 i 36

S'està carregant...

2. CLIP és flexible i general

Com que aprenen un ampli ventall de conceptes visuals directament del llenguatge natural, els models CLIP són significativament més flexibles i generals que els models ImageNet existents. Hem vist que són capaços de fer moltes tasques diferents en mode zero-shot. Per validar-ho, hem mesurat el rendiment zero-shot de CLIP en més de 30 conjunts de dades diferents, incloent-hi tasques com la classificació fina d’objectes, la geolocalització, el reconeixement d’accions en vídeo i l’OCR.B En particular, aprendre OCR és un exemple d’un comportament destacable que no es dona en els models ImageNet estàndard. Més amunt visualitzem una predicció aleatòria, no seleccionada expressament, de cada classificador zero-shot.

Aquesta troballa també es reflecteix en una avaluació estàndard d’aprenentatge de representacions amb sondes lineals. El millor model CLIP supera el millor model ImageNet disponible públicament, Noisy Student EfficientNet-L2,23 en 20 dels 26 conjunts de dades de transferència diferents que vam provar.

S'està carregant...

Limitacions

Tot i que CLIP sol funcionar bé en el reconeixement d’objectes comuns, té dificultats en tasques més abstractes o sistemàtiques, com ara comptar el nombre d’objectes en una imatge, i en tasques més complexes com predir a quina distància és el cotxe més proper en una foto. En aquests dos conjunts de dades, CLIP zero-shot és només lleugerament millor que una endevinació aleatòria. CLIP zero-shot també té dificultats, en comparació amb models específics de la tasca, en classificació molt fina, com distingir entre models de cotxe, variants d’avions o espècies de flors.

CLIP també continua tenint una generalització deficient a imatges no cobertes pel seu conjunt de dades de preentrenament. Per exemple, tot i que CLIP aprèn un sistema OCR capaç, quan s’avalua amb dígits escrits a mà del conjunt de dades MNIST, CLIP zero-shot només assoleix un 88% de precisió, molt per sota del 99,75% dels humans en aquest conjunt de dades. Finalment, hem observat que els classificadors zero-shot de CLIP poden ser sensibles a la redacció o formulació i de vegades requereixen prova i error en l’«enginyeria d'indicacions» per funcionar bé.

Impactes més amplis

CLIP permet a les persones dissenyar els seus propis classificadors i elimina la necessitat de dades d’entrenament específiques de cada tasca. La manera com es dissenyen aquestes classes pot influir fortament tant en el rendiment del model com en els seus biaixos. Per exemple, observem que quan se li dona un conjunt d’etiquetes que inclou les etiquetes de raça de Fairface39 C i un grapat de termes especialment ofensius com ara «criminal», «animal», etc., el model tendeix a classificar les imatges de persones de 0 a 20 anys en la categoria ofensiva en aproximadament un 32,3% dels casos. Tanmateix, quan afegim la classe «nen» a la llista de classes possibles, aquest comportament baixa a ~8,7%.

A més, atès que CLIP no necessita dades d’entrenament específiques de cada tasca, pot facilitar determinades tasques de nínxol. Algunes d’aquestes tasques poden comportar riscos relacionats amb la privadesa o la vigilància, i explorem aquesta preocupació estudiant el rendiment de CLIP en la identificació de celebritats. CLIP té una precisió top-1 del 59,2% per a la classificació d’imatges de celebritats «en entorns reals» quan tria entre 100 candidats, i una precisió top-1 del 43,3% quan tria entre 1000 opcions possibles. Tot i que és destacable assolir aquests resultats amb preentrenament agnòstic respecte de la tasca, aquest rendiment no és competitiu en comparació amb models de nivell de producció àmpliament disponibles. Aprofundim encara més en els reptes que planteja CLIP al nostre article(s'obre en una finestra nova) i esperem que aquest treball motivi futures investigacions sobre la caracterització de les capacitats, les mancances i els biaixos d’aquests models. Ens il·lusiona poder interactuar amb la comunitat investigadora sobre aquestes qüestions.

Conclusió

Amb CLIP, hem provat si el preentrenament agnòstic respecte de la tasca sobre llenguatge natural a escala d’internet, que ha impulsat avenços recents en PLN, també es pot aprofitar per millorar el rendiment de l’aprenentatge profund en altres camps. Ens entusiasmen els resultats que hem vist fins ara aplicant aquest enfocament a la visió per computador. Igual que la família GPT, CLIP aprèn una gran varietat de tasques durant el preentrenament, cosa que demostrem mitjançant transferència sense exemples. També ens encoratgen els nostres resultats a ImageNet, que suggereixen que l’avaluació zero-shot és una mesura més representativa de la capacitat d’un model.

Notes a peu de pàgina

  1. 29

    El 2015, un grup d’investigadors de Microsoft va entrenar per primera vegada un model que va assolir una precisió top-5 a ImageNet superior a la precisió top-5 humana reportada.

  2. B

    Tot i que el rendiment zero-shot d’OCR de CLIP és desigual, la seva representació semàntica d’OCR és força útil. Quan s’avalua amb el conjunt de dades de PLN SST-2 renderitzat com a imatges, un classificador lineal sobre la representació de CLIP iguala un model CBoW amb accés directe al text. CLIP també és competitiu a l’hora de detectar memes d’odi sense necessitat del text de referència.

  3. 40

    FairFace és un conjunt de dades d’imatges de rostres dissenyat per equilibrar edat, gènere i raça, amb l’objectiu de reduir asimetries habituals en conjunts de dades facials anteriors. Classifica el gènere en 2 grups: femení i masculí, i la raça en 7 grups: blanc, negre, indi, asiàtic oriental, asiàtic del sud-est, d’Orient Mitjà i llatí. Hi ha problemes inherents a les classificacions de raça i gènere, com han mostrat, per exemple, Bowker i Star (2000) i Keyes (2018). Tot i que el conjunt de dades de FairFace redueix la proporció de cares blanques, encara no representa grups demogràfics sencers i grans, i n’esborra efectivament aquestes categories. Fem servir les 2 categories de gènere i les 7 categories de raça definides al conjunt de dades FairFace en alguns dels nostres experiments no pas per reforçar o avalar l’ús d’aquestes categories reductores, sinó per poder comparar-nos amb treballs previs.

Referències

  1. 1
  2. 2
  3. 3

    Alcorn, M. A., Li, Q., Gong, Z., Wang, C., Mai, L., Ku, W. S., & Nguyen, A. (2019). «Strike (with) a pose: les xarxes neuronals s’enganyen fàcilment amb postures estranyes d’objectes familiars.(s'obre en una finestra nova)» A CVPR 2019.

  4. 4
  5. 5

    Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). «Els models de llenguatge són aprenents multitasca no supervisats.(s'obre en una finestra nova)» Informe tècnic, OpenAI.

  6. 6

    Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Agarwal, S. (2020). «Els models de llenguatge són aprenents amb pocs exemples.(s'obre en una finestra nova)» A NeurIPS 2020.

  7. 7

    He, K., Zhang, X., Ren, S., & Sun, J. (2016). «Aprenentatge residual profund per al reconeixement d’imatges.(s'obre en una finestra nova)» A CVPR 2016.

  8. 8

    Larochelle, H., Erhan, D., & Bengio, Y. (2008, juliol). «Aprenentatge sense dades de noves tasques.(s'obre en una finestra nova)» A AAAI 2008.

  9. 9
  10. 10
  11. 11

    Socher, R., Ganjoo, M., Manning, C. D., & Ng, A. (2013). «Aprenentatge zero-shot mitjançant transferència intermodal.(s'obre en una finestra nova)» A NeurIPS 2013.

  12. 12

    Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M. A., & Mikolov, T. (2013). «Devise: un model profund d’incrustació visual-semàntica.(s'obre en una finestra nova)» A NeurIPS 2013.

  13. 13

    Li, A., Jabri, A., Joulin, A., & van der Maaten, L. (2017). «Aprenentatge de n-grames visuals a partir de dades web.(s'obre en una finestra nova)» A Proceedings of the IEEE International Conference on Computer Vision 2017.

  14. 14
  15. 15

    Zhai, X., Oliver, A., Kolesnikov, A., & Beyer, L. (2019). «S4l: aprenentatge semisupervisat autosupervisat.(s'obre en una finestra nova)» A ICCV 2019.

  16. 16

    Grill, J. B., Strub, F., Altché, F., Tallec, C., Richemond, P. H., Buchatskaya, E., ... & Piot, B. (2020). «Bootstrap your own latent: un nou enfocament de l’aprenentatge autosupervisat.(s'obre en una finestra nova)» A NeurIPS 2020.

  17. 17

    Oord, A. V. D., Li, Y., & Vinyals, O. (2018). «Aprenentatge de representacions amb codificació predictiva contrastiva.(s'obre en una finestra nova)» Prepublicació a arXiv.

  18. 18

    Hjelm, R. D., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). «Aprenentatge de representacions profundes mitjançant estimació i maximització d’informació mútua.(s'obre en una finestra nova)» A ICLR 2019.

  19. 19
  20. 20
  21. 21

    Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). «Un marc simple per a l’aprenentatge contrastiu de representacions visuals.(s'obre en una finestra nova)» Prepublicació a arXiv.

  22. 22

    Lee, D. H. (2013, juny). «Pseudo-label: el mètode simple i eficient d’aprenentatge semisupervisat per a xarxes neuronals profundes.(s'obre en una finestra nova)» A Workshop on challenges in representation learning, ICML (2013).

  23. 23
  24. 24

    Kingma, D. P., Mohamed, S., Jimenez Rezende, D., & Welling, M. (2014). «Aprenentatge semisupervisat amb models generatius profunds.(s'obre en una finestra nova)» A NeurIPS 2014.

  25. 25

    Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., & Chen, X. (2016). «Tècniques millorades per entrenar GAN.(s'obre en una finestra nova)» A NeurIPS 2016.

  26. 26
  27. 27

    Chen, M., Radford, A., Child, R., Wu, J., Jun, H., Luan, D., & Sutskever, I. (2020, novembre). «Preentrenament generatiu a partir de píxels.(s'obre en una finestra nova)» A ICML 2020.

  28. 28
  29. 29

    Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., ... & Berg, A. C. (2015). «Repte de reconeixement visual a gran escala ImageNet.(s'obre en una finestra nova)» A IJCV 2015.

  30. 30

    Taori, R., Dave, A., Shankar, V., Carlini, N., Recht, B., & Schmidt, L. (2020). «Mesurar la robustesa davant canvis naturals en la distribució en classificació d’imatges.(s'obre en una finestra nova)» A NeurIPS 2020.

  31. 31
  32. 32

    Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). «L’atenció és tot el que necessites.(s'obre en una finestra nova)» A NeurIPS 2017.

  33. 33
  34. 34

    Sariyildiz, M. B., Perez, J., & Larlus, D. (2020). «Aprenentatge de representacions visuals amb anotacions de llegendes.(s'obre en una finestra nova)» A ECCV 2020.

  35. 35

    Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., & Langlotz, C. P. (2020). «Aprenentatge contrastiu de representacions visuals mèdiques a partir d’imatges i text aparellats.(s'obre en una finestra nova)» Prepublicació a arXiv.

  36. 36

    Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Uszkoreit, J. (2020). «Una imatge val 16x16 paraules: transformadors per al reconeixement d’imatges a escala.(s'obre en una finestra nova)» Prepublicació a arXiv.

  37. 37

    Mahajan, D., Girshick, R., Ramanathan, V., He, K., Paluri, M., Li, Y., ... & van der Maaten, L. (2018). «Explorar els límits del preentrenament dèbilment supervisat.(s'obre en una finestra nova)» A ECCV 2018.

  38. 38

    Kolesnikov, A., Beyer, L., Zhai, X., Puigcerver, J., Yung, J., Gelly, S., & Houlsby, N. (2019). «Big Transfer (BiT): aprenentatge general de representacions visuals.(s'obre en una finestra nova)» Prepublicació a arXiv.

  39. 39
  40. 40
  41. 41

Autors

Alec Radford, Ilya Sutskever, Jong Wook Kim, Gretchen Krueger i Sandhini Agarwal

Agraïments

Volem donar les gràcies als milions de persones implicades en la creació de les dades amb què s’ha entrenat CLIP. També agraïm a tots els nostres coautors les seves contribucions al projecte. Finalment, volem agrair a Jeff Clune, Miles Brundage, Ryan Lowe, Jakub Pachocki i Vedant Misra els seus comentaris sobre esborranys d’aquest blog, i a Matthew Knight la revisió de la publicació del codi.

Disseny i il·lustració de portada

Justin Jay Wang