5 Eanáir 2021

CLIP: Téacs agus íomhánna a nascadh

Léaráid: Justin Jay Wang

Ag lódáil…

Táimid ag cur líonra néarach darb ainm CLIP i láthair a fhoghlaimíonn coincheapa amhairc go héifeachtúil ó mhaoirseacht teanga nádúrtha. Is féidir CLIP a chur i bhfeidhm ar aon tagarmharc aicmithe amhairc trí ainmneacha na gcatagóirí amhairc atá le haithint a sholáthar go simplí, cosúil le cumais “neamh-iarracht” GPT‑2 agus GPT‑3.

Cé gur réabhlóidigh an domhainfhoghlaim fís ríomhaireachta, tá roinnt fadhbanna móra ag baint leis na cuir chuige reatha: bíonn tacair sonraí fís tipiciúla dian ar shaothar agus costasach le cruthú agus ní mhúineann siad ach tacar cúng coincheap amhairc; bíonn samhlacha caighdeánacha fís go maith ar thasc amháin agus ar thasc amháin amháin, agus teastaíonn iarracht shuntasach chun iad a oiriúnú do thasc nua; agus bíonn drochfheidhmíocht díomách ag samhlacha a éiríonn go maith ar thagarmharcanna ar thrialacha struis,^{1, 2, 3, 4} rud a chaitheann amhras ar an gcur chuige iomlán domhainfhoghlama i leith fís ríomhaireachta.

Cuirimid líonra néarach i láthair a bhfuil sé mar aidhm aige aghaidh a thabhairt ar na fadhbanna seo: cuirtear oiliúint air ar réimse leathan íomhánna le réimse leathan maoirseachta teanga nádúrtha atá fairsing ar fáil ar an idirlíon. De réir dearaidh, is féidir treoir a thabhairt don líonra i dteanga nádúrtha chun réimse mór tagarmharcanna aicmithe a dhéanamh, gan barrfheabhsú díreach a dhéanamh ar fheidhmíocht an tagarmhairc, cosúil le cumais “neamh-iarracht⁠(osclaíonn i bhfuinneog nua)” GPT‑2⁵ agus GPT‑3.⁶ Is athrú tábhachtach é seo: trí gan barrfheabhsú díreach a dhéanamh ar an tagarmharc, léirímid go n-éiríonn sé i bhfad níos ionadaí: dúnann ár gcóras an “bhearna láidreachta” seo suas le 75% agus feidhmíocht an ResNet-50 bhunaidh⁷ á meaitseáil aige ar ImageNet⁠(osclaíonn i bhfuinneog nua) neamh-iarracht gan aon cheann de na 1.28M samplaí lipéadaithe bunaidh a úsáid.

Ag lódáil...

Cúlra agus obair ghaolmhar

Tógann CLIP (Contrastive Language–Image Pre-training) ar chorp mór oibre ar aistriú neamh-iarracht, maoirseacht teanga nádúrtha, agus foghlaim ilmhódach. Téann smaoineamh na foghlama gan sonraí siar breis agus deich mbliana⁸ ach go dtí le déanaí rinneadh staidéar air den chuid is mó i bhfís ríomhaireachta mar bhealach chun ginearálú chuig catagóirí rudaí nach bhfacthas roimhe seo.^{9, 10} Léargas ríthábhachtach ab ea teanga nádúrtha a ghiaráil mar spás tuartha solúbtha chun ginearálú agus aistriú a chumasú. In 2013, d’fhorbair Richard Socher agus comhúdair in Stanford¹¹ cruthúnas coincheapa trí shamhail a oiliúint ar CIFAR-10 chun tuartha a dhéanamh i spás leabaithe veicteoir focal agus léirigh siad go bhféadfadh an tsamhail seo dhá rang nach bhfacthas roimhe seo a thuar. An bhliain chéanna, mhéadaigh DeVISE¹² an cur chuige seo agus léirigh sé gur fhéadfaí samhail ImageNet a mhionchoigeartú ionas go bhféadfadh sí ginearálú chun rudaí lasmuigh den bhuntacar oiliúna 1000 a thuar i gceart.

Ba í obair Ang Li agus a chomhúdair ag FAIR¹³ ba mhó a spreag CLIP; in 2016 léirigh siad úsáid maoirseachta teanga nádúrtha chun aistriú neamh-iarracht a chumasú chuig roinnt tacar sonraí aicmithe fís ríomhaireachta a bhí ann cheana, mar shampla an tacar sonraí canónach ImageNet. Bhain siad é seo amach trí CNN ImageNet a mhionchoigeartú chun tacar i bhfad níos leithne de choincheapa amhairc (n-ghraim amhairc) a thuar ó théacs teidil, tuairiscí, agus clibeanna 30 milliún grianghraf Flickr agus bhí siad in ann cruinneas 11.5% a bhaint amach ar neamh-iarracht ImageNet.

Ar deireadh, is cuid de ghrúpa páipéar é CLIP a rinne athchuairt le bliain anuas ar fhoghlaim léirithe amhairc ó mhaoirseacht teanga nádúrtha. Úsáideann an líne oibre seo ailtireachtaí níos nua-aimseartha cosúil leis an trasfhoirmitheoir³² agus áirítear leis VirTex,³³ a d’fhiosraigh samhaltú teanga uathaischéimniúil, ICMLM,³⁴ a rinne iniúchadh ar shamhaltú teanga folaithe, agus ConVIRT,³⁵ a rinne staidéar ar an gcuspóir codarsnachta céanna a úsáidimid do CLIP ach i réimse na híomháithe leighis.

Cur chuige

Léirímid gur leor tasc réamh-oiliúna simplí a scálú chun feidhmíocht iomaíoch neamh-iarracht a bhaint amach ar réimse mór tacar sonraí aicmithe íomhánna. Úsáideann ár modh foinse maoirseachta atá ar fáil go fairsing: an téacs péireáilte le híomhánna a fhaightear ar fud an idirlín. Úsáidtear na sonraí seo chun an tasc seachfhreastalaí oiliúna seo a leanas a chruthú do CLIP: má thugtar íomhá, tuar cén ceann as sraith de 32,768 mír théacs a sampláladh go randamach a bhí péireáilte léi inár dtacar sonraí i ndáiríre.

Chun an tasc seo a réiteach, is é ár n-intuigtheacht go mbeidh ar shamhlacha CLIP foghlaim conas réimse leathan coincheap amhairc a aithint in íomhánna agus iad a cheangal lena n-ainmneacha. Mar thoradh air sin, is féidir samhlacha CLIP a chur i bhfeidhm ansin ar thascanna aicmithe amhairc beagnach treallacha. Mar shampla, más é tasc tacair sonraí grianghraif de mhadraí i gcoinne cait a aicmiú, seiceálaimid do gach íomhá an dtuarann samhail CLIP gur dóichí an cur síos téacs “grianghraf de mhadra” nó “grianghraf de chat” a bheith péireáilte léi.

Ag lódáil...

Dearadh CLIP chun roinnt fadhbanna móra a mhaolú sa chur chuige caighdeánach domhainfhoghlama i leith fís ríomhaireachta:

Tacair sonraí chostasaí: Teastaíonn go leor sonraí ón domhainfhoghlaim, agus go traidisiúnta cuireadh oiliúint ar shamhlacha fís ar thacair sonraí a lipéadaíodh de láimh atá costasach le cruthú agus nach soláthraíonn maoirseacht ach do líon teoranta de choincheapa amhairc réamhshainithe. Bhí breis agus 25,000 oibrí de dhíth ar thacar sonraí ImageNet, ceann de na hiarrachtaí is mó sa réimse seo, chun 14 mhilliún íomhá a anótáil do 22,000 catagóir réad. I gcodarsnacht leis sin, foghlaimíonn CLIP ó phéirí téacs–íomhá atá ar fáil go poiblí ar an idirlíon cheana féin. Rinne obair roimhe seo staidéar fairsing ar an ngá le tacair shonraithe mhóra lipéadaithe costasacha a laghdú, go háirithe foghlaim fhéinmhaoirsithe,^{14, 15, 16} modhanna codarsnacha,^{17, 18, 19, 20, 21} cuir chuige féin-oiliúna,^{22, 23} agus samhlacha giniúna.^{24, 25, 26, 27}

Cúng: Tá samhail ImageNet go maith ag tuar na 1000 catagóir ImageNet, ach sin uile is féidir léi a dhéanamh “as an mbosca.” Más mian linn aon tasc eile a dhéanamh, ní mór do chleachtóir ML tacar sonraí nua a thógáil, ceann aschuir a chur leis, agus an tsamhail a mhionchoigeartú. I gcodarsnacht leis sin, is féidir CLIP a oiriúnú chun réimse leathan tascanna aicmithe amhairc a dhéanamh gan samplaí oiliúna breise a bheith ag teastáil. Chun CLIP a chur i bhfeidhm ar thasc nua, níl le déanamh againn ach ainmneacha choincheapa amhairc an taisc a “insint” d’ionchódóir téacs CLIP, agus aschuirfidh sé aicmitheoir líneach de léirithe amhairc CLIP. Is minic a bhíonn cruinneas an aicmitheora seo iomaíoch le samhlacha atá maoirsithe go hiomlán.

Taispeánaimid thíos tuartha randamacha, neamhroghnaithe go speisialta, ó aicmitheoirí CLIP neamh-iarracht ar shamplaí ó thacair sonraí éagsúla.

Ag lódáil...

Drochfheidhmíocht sa saol fíor: Tuairiscítear go minic go mbaineann córais domhainfhoghlama feidhmíocht dhaonna nó fiú sárdhaonna amach^{28, A} ar thagarmharcanna fís, ach nuair a imlonnaítear sa bhfíorshaol iad, féadfaidh a bhfeidhmíocht a bheith i bhfad faoi bhun an ionchais a leagann an tagarmharc síos. I bhfocail eile, tá bearna idir “feidhmíocht tagarmhairc” agus “fíorfheidhmíocht”. Tuigimid go dtarlaíonn an bhearna seo mar go “gceileann” na samhlacha trí bharrfheabhsú a dhéanamh ar fheidhmíocht ar an tagarmharc amháin, cosúil le mac léinn a d’éirigh le scrúdú trí staidéar a dhéanamh ar na ceisteanna ar pháipéir scrúdaithe na mblianta roimhe sin amháin. I gcodarsnacht leis sin, is féidir samhail CLIP a mheas ar thagarmharcanna gan oiliúint a fháil ar a gcuid sonraí, mar sin ní féidir léi “ceilt” ar an mbealach seo. Fágann sé sin go bhfuil a feidhmíocht tagarmhairc i bhfad níos ionadaí dá feidhmíocht sa bhfíorshaol. Chun an “hipitéis ceilte” a fhíorú, tomhaisimid freisin conas a athraíonn feidhmíocht CLIP nuair a bhíonn sé in ann “staidéar” a dhéanamh do ImageNet. Nuair a chuirtear aicmitheoir líneach ar bharr ghnéithe CLIP, feabhsaíonn sé cruinneas CLIP ar thacar tástála ImageNet faoi bheagnach 10%. Mar sin féin, ní dhéanann an t-aicmitheoir seo níos fearr ar chor ar bith ar an meán ar fud sraith mheasúnaithe de 7 dtacar sonraí eile a thomhaiseann feidhmíocht “láidir”.³⁰

Príomhbhealaí beir leat

1. Tá CLIP an-éifeachtúil

Foghlaimíonn CLIP ó shonraí neamhscagtha, an-éagsúil agus an-torannach, agus tá sé beartaithe é a úsáid ar bhealach neamh-iarracht. Tá a fhios againn ó GPT‑2 agus 3 gur féidir le samhlacha atá oilte ar shonraí den sórt sin feidhmíocht neamh-iarracht láidir a bhaint amach; áfach, teastaíonn ríomhaireacht oiliúna shuntasach ó shamhlacha den sórt sin. Chun an ríomhaireacht riachtanach a laghdú, dhíríomar ar bhealaí algartamacha chun éifeachtúlacht oiliúna ár gcur chuige a fheabhsú.

Tuairiscímid dhá rogha algartamacha a d’fhág coigilteas suntasach ríomhaireachta. Is é an chéad rogha cuspóir codarsnachta a ghlacadh chun téacs a nascadh le híomhánna.^{31, 17, 35} Rinneamar iniúchadh ar dtús ar chur chuige íomhá-go-téacs, cosúil le VirTex,³³ ach tháinig deacrachtaí romhainn agus é seo á scálú chun feidhmíocht úrscothach a bhaint amach. I dturgnaimh ar scála beag go meánach, fuaireamar amach go bhfuil an cuspóir codarsnachta a úsáideann CLIP 4x go 10x níos éifeachtúla ag aicmiú neamh-iarracht ImageNet. Ba é an dara rogha ná glacadh leis an Vision Transformer,³⁶ a thug gnóthachan 3x eile dúinn in éifeachtúlacht ríomhaireachta i gcomparáid le ResNet caighdeánach. Sa deireadh, cuirtear oiliúint ar ár samhail CLIP is fearr feidhmíochta ar 256 GPU ar feadh 2 sheachtain, rud atá cosúil le samhlacha móra íomhá atá ann cheana.^{37, 23, 38, 36}

Ag lódáil...

2. Tá CLIP solúbtha agus ginearálta

Toisc go bhfoghlaimíonn siad réimse leathan coincheap amhairc go díreach ó theanga nádúrtha, tá samhlacha CLIP i bhfad níos solúbtha agus níos ginearálta ná samhlacha ImageNet atá ann cheana. Feicimid go bhfuil siad in ann go leor tascanna éagsúla a dhéanamh ar bhealach neamh-iarracht. Chun é seo a bhailíochtú, thomhaiseamar feidhmíocht neamh-iarracht CLIP ar níos mó ná 30 tacar sonraí éagsúla lena n-áirítear tascanna ar nós aicmiú mínmhionsonraithe réad, geologánú, aithint gnímh i bhfíseáin, agus OCR.^B Go háirithe, is sampla d’iompar spreagúil é foghlaim OCR nach dtarlaíonn i samhlacha caighdeánacha ImageNet. Thuas, léirímid tuar randamach neamhroghnaithe go speisialta ó gach aicmitheoir neamh-iarracht.

Léirítear an toradh seo freisin i measúnú caighdeánach ar fhoghlaim léirithe ag úsáid tóireadóirí líneacha. Sáraíonn an tsamhail CLIP is fearr an tsamhail ImageNet is fearr atá ar fáil go poiblí, an Noisy Student EfficientNet-L2,²³ ar 20 as 26 tacar sonraí aistrithe éagsúla a ndearnamar tástáil orthu.

Ag lódáil...

Teorainneacha

Cé go n-éiríonn go maith le CLIP de ghnáth ag aithint réada coitianta, bíonn deacracht aici le tascanna níos teibí nó níos córasaí, amhail líon na réad in íomhá a chomhaireamh, agus le tascanna níos casta, amhail tuar cé chomh cóngarach agus atá an carr is gaire i ngrianghraf. Ar an dá thacar sonraí seo, níl CLIP neamh-iarracht ach beagán níos fearr ná buille faoi thuairim randamach. Bíonn deacracht ag CLIP neamh-iarracht freisin i gcomparáid le samhlacha atá sonrach do thasc maidir le haicmiú an-mhínmhionsonraithe, amhail an difríocht idir samhlacha carranna, leaganacha eitleán, nó speicis bláthanna a insint.

Tá drochghinearálú fós ag CLIP freisin chuig íomhánna nach bhfuil clúdaithe ina thacar sonraí réamh-oiliúna. Mar shampla, cé go bhfoghlaimíonn CLIP córas cumasach OCR, nuair a dhéantar measúnú air ar dhigítí lámhscríofa ón tacar sonraí MNIST, ní bhaineann CLIP neamh-iarracht ach cruinneas 88% amach, i bhfad faoi bhun 99.75% na ndaoine ar an tacar sonraí. Ar deireadh, thugamar faoi deara gur féidir le haicmitheoirí neamh-iarracht CLIP a bheith íogair d’fhoclaíocht nó de fhrásaíocht agus go mbíonn “innealtóireacht treoracha” trialach agus earráide ag teastáil uaireanta chun feidhmiú go maith.

Tionchair níos leithne

Ligeann CLIP do dhaoine a n-aicmitheoirí féin a dhearadh agus cuireann sé deireadh leis an ngá atá le sonraí oiliúna atá sonrach do thasc. Is féidir leis an mbealach a dheartar na ranganna seo tionchar mór a imirt ar fheidhmíocht na samhla agus ar chlaontaí na samhla araon. Mar shampla, feicimid nuair a thugtar tacar lipéad lena n-áirítear lipéid chine Fairface^{39, C} agus dornán téarmaí uafásacha mar “coirpeach”, “ainmhí,” srl., go mbíonn claonadh ag an tsamhail íomhánna de dhaoine idir 0–20 bliain d’aois a rangú sa chatagóir uafásach ag ráta thart ar 32.3%. Mar sin féin, nuair a chuirimid an rang “leanbh” leis an liosta ranganna féideartha, titeann an t-iompar seo go thart ar 8.7%.

Ina theannta sin, ós rud é nach bhfuil sonraí oiliúna atá sonrach do thasc ag teastáil ó CLIP, is féidir leis tascanna nideoige áirithe a chumasú níos fusa. D’fhéadfadh rioscaí a bhaineann le príobháideachas nó faireachas a bheith ag roinnt de na tascanna seo agus déanaimid iniúchadh ar an ábhar imní seo trí staidéar a dhéanamh ar fheidhmíocht CLIP in aithint daoine cáiliúla. Tá cruinneas barr-1 de 59.2% ag CLIP d’aicmiú íomhánna daoine cáiliúla “sa bhfíorshaol” nuair a roghnaítear as 100 iarrthóir agus cruinneas barr-1 de 43.3% nuair a roghnaítear as 1000 rogha fhéideartha. Cé gur fiú a thabhairt faoi deara na torthaí seo a bhaint amach le réamh-oiliúint neamhshonrach do thasc, níl an fheidhmíocht seo iomaíoch i gcomparáid le samhlacha ar leibhéal táirgthe atá ar fáil go forleathan. Déanaimid iniúchadh breise ar na dúshláin a chuireann CLIP romhainn inár bpáipéar⁠(osclaíonn i bhfuinneog nua) agus tá súil againn go spreagfaidh an obair seo taighde amach anseo ar thréithriú chumais, laigí agus chlaontaí a leithéid de shamhlacha. Táimid ar bís chun dul i gcomhar leis an bpobal taighde ar cheisteanna dá leithéid.

Conclúid

Le CLIP, rinneamar tástáil ar cé acu an féidir réamh-oiliúint neamhshonrach do thasc ar theanga nádúrtha ar scála an idirlín, a chumasaigh dul chun cinn le déanaí in NLP, a ghiaráil freisin chun feidhmíocht na domhainfhoghlama i réimsí eile a fheabhsú. Táimid ar bís faoi na torthaí atá feicthe againn go dtí seo agus an cur chuige seo á chur i bhfeidhm ar fhís ríomhaireachta. Cosúil leis an teaghlach GPT, foghlaimíonn CLIP réimse leathan tascanna le linn na réamh-oiliúna, rud a léirímid trí aistriú neamh-iarracht. Tá ár dtorthaí ar ImageNet spreagúil dúinn freisin, agus tugann siad le fios gur tomhas níos ionadaí ar chumas samhail é measúnú neamh-iarracht.

Fonótaí

29
In 2015, chuir grúpa taighdeoirí ó Microsoft oiliúint ar shamhail den chéad uair a bhain cruinneas barr-5 amach ar ImageNet a sháraigh an cruinneas barr-5 daonna a tuairiscíodh.
B
Cé go bhfuil feidhmíocht neamh-iarracht OCR CLIP measctha, tá a léiriú séimeantach OCR an-úsáideach. Nuair a dhéantar measúnú air ar an tacar sonraí NLP SST-2 a rindreáladh mar íomhánna, meaitseálann aicmitheoir líneach ar léiriú CLIP samhail CBoW a bhfuil rochtain dhíreach aici ar an téacs. Tá CLIP iomaíoch freisin maidir le memes fuatha a bhrath gan téacs fírinne talún a bheith ag teastáil.
40
Is tacar sonraí íomhánna aghaidhe é FairFace atá deartha chun aois, inscne agus cine a chothromú, chun neamhshiméadrachtaí atá coitianta i dtacair sonraí aghaidhe roimhe seo a laghdú. Rangaíonn sé inscne ina 2 ghrúpa: baineann agus fireann agus cine ina 7 ngrúpa: Bán, Dubh, Indiach, Oirthear na hÁise, Oirdheisceart na hÁise, an Meánoirthear, agus Laidineach. Tá fadhbanna bunúsacha le haicmithe cine agus inscne, mar a léirigh Bowker and Star (2000) agus Keyes (2018). Cé go laghdaíonn tacar sonraí FairFace an chomhréir d’aghaidheanna Bána, tá easpa ionadaíochta ann fós do ghrúpaí móra déimeagrafacha iomlána, rud a scriosann a leithéid de chatagóirí go héifeachtach. Úsáidimid an 2 chatagóir inscne agus an 7 gcatagóir cine atá sainmhínithe i dtacar sonraí FairFace i roinnt dár dturgnaimh, ní chun úsáid na gcatagóirí laghdaitheacha sin a neartú ná a fhormhuiniú, ach chun cur ar ár gcumas comparáidí a dhéanamh le hobair roimhe seo.

Tagairtí

1
Dodge, S., & Karam, L. (2017, Iúil). “Staidéar agus comparáid ar fheidhmíocht aithinte daoine agus domhainfhoghlama faoi shaobhadh amhairc.⁠(osclaíonn i bhfuinneog nua)” In ICCCN 2017.
2
Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, F. A., & Brendel, W. (2018). “Tá CNNanna a cuireadh oiliúint orthu ar ImageNet claonta i dtreo uigeachta; feabhsaíonn claonadh crutha cruinneas agus láidreacht.⁠(osclaíonn i bhfuinneog nua)” In ICLR 2019.
3
Alcorn, M. A., Li, Q., Gong, Z., Wang, C., Mai, L., Ku, W. S., & Nguyen, A. (2019). “Stailc (le) staidiúir: Cuirtear líonraí néaracha ar seachrán go héasca le staidiúir aisteacha réad aitheanta.⁠(osclaíonn i bhfuinneog nua)” In CVPR 2019.
4
Barbu, A., Mayo, D., Alverio, J., Luo, W., Wang, C., Gutfreund, D., ... & Katz, B. (2019). “Objectnet: Tacar sonraí ar scála mór rialaithe ó thaobh claonta de chun teorainneacha samhlacha aithinte réad a bhrú chun cinn.⁠(osclaíonn i bhfuinneog nua)” In NeurIPS 2019.
5
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Is foghlaimeoirí ilthasc neamhmhaoirsithe iad Samhlacha Teanga.⁠(osclaíonn i bhfuinneog nua)” Technical Report, OpenAI.
6
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Agarwal, S. (2020). “Is foghlaimeoirí beagiarracht iad Samhlacha Teanga.⁠(osclaíonn i bhfuinneog nua)” In NeurIPS 2020.
7
He, K., Zhang, X., Ren, S., & Sun, J. (2016). “Foghlaim iarmharach dhomhain d’aithint íomhá.⁠(osclaíonn i bhfuinneog nua)” In CVPR 2016.
8
Larochelle, H., Erhan, D., & Bengio, Y. (2008, Iúil). “Foghlaim tascanna nua gan sonraí.⁠(osclaíonn i bhfuinneog nua)” In AAAI 2008.
9
Lampert, C. H., Nickisch, H., & Harmeling, S. (2009, Meitheamh). “Foghlaim chun ranganna réad nach bhfacthas a bhrath trí aistriú tréithe idir ranganna.⁠(osclaíonn i bhfuinneog nua)” In CVPR 2009.
10
Lei Ba, J., Swersky, K., & Fidler, S. (2015). “Réamh-mheas ar líonraí néaracha comhiompaithe domhain neamh-iarracht trí thuairiscí téacsúla a úsáid.⁠(osclaíonn i bhfuinneog nua)” In ICCV 2015.
11
Socher, R., Ganjoo, M., Manning, C. D., & Ng, A. (2013). “Foghlaim neamh-iarracht trí aistriú trasmhódach.⁠(osclaíonn i bhfuinneog nua)” In NeurIPS 2013.
12
Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M. A., & Mikolov, T. (2013). “Devise: Samhail leabaithe dhomhain amhairc-shéimeantaigh.⁠(osclaíonn i bhfuinneog nua)” In NeurIPS 2013.
13
Li, A., Jabri, A., Joulin, A., & van der Maaten, L. (2017). “Foghlaim n-ghram amhairc ó shonraí gréasáin.⁠(osclaíonn i bhfuinneog nua)” In Proceedings of the IEEE International Conference on Computer Vision 2017.
14
Doersch, C., Gupta, A., & Efros, A. A. (2015). “Foghlaim neamhmhaoirsithe léirithe amhairc trí réamh-mheas comhthéacs.⁠(osclaíonn i bhfuinneog nua)” In ICCV 2015.
15
Zhai, X., Oliver, A., Kolesnikov, A., & Beyer, L. (2019). “S4l: Foghlaim leath-mhaoirsithe féinmhaoirsithe.⁠(osclaíonn i bhfuinneog nua)” In ICCV 2019.
16
Grill, J. B., Strub, F., Altché, F., Tallec, C., Richemond, P. H., Buchatskaya, E., ... & Piot, B. (2020). “Bootstrap do chiarsúr féin: Cur chuige nua i leith foghlaim fhéinmhaoirsithe.⁠(osclaíonn i bhfuinneog nua)” In NeurIPS 2020.
17
Oord, A. V. D., Li, Y., & Vinyals, O. (2018). “Foghlaim Léirithe le Códú Réamh-mheasta Codarsnachta.⁠(osclaíonn i bhfuinneog nua)” arXiv preprint.
18
Hjelm, R. D., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Foghlaim léirithe domhain trí mheastachán agus uasmhéadú faisnéise frithpháirtí.⁠(osclaíonn i bhfuinneog nua)” In ICLR 2019.
19
Bachman, P., Hjelm, R. D., & Buchwalter, W. (2019). “Foghlaim léirithe trí fhaisnéis fhrithpháirtí a uasmhéadú trasna dearcthaí.⁠(osclaíonn i bhfuinneog nua)” In NeurIPS 2019.
20
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). “Codarsnacht mhóiminteam d’fhoghlaim neamhmhaoirsithe léirithe amhairc.⁠(osclaíonn i bhfuinneog nua)” In CVPR 2020.
21
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). “Creat simplí d’fhoghlaim chodarsnachta léirithe amhairc.⁠(osclaíonn i bhfuinneog nua)” arXiv preprint.
22
Lee, D. H. (2013, Meitheamh). “Pseudo-label: An modh simplí agus éifeachtúil foghlama leath-mhaoirsithe do líonraí néaracha domhain.⁠(osclaíonn i bhfuinneog nua)” In Workshop on challenges in representation learning, ICML (2013).
23
Xie, Q., Luong, M. T., Hovy, E., & Le, Q. V. (2020). “Feabhsaíonn féin-oiliúint le student torannach aicmiú imagenet.⁠(osclaíonn i bhfuinneog nua)” In CVPR 2020.
24
Kingma, D. P., Mohamed, S., Jimenez Rezende, D., & Welling, M. (2014). “Foghlaim leath-mhaoirsithe le samhlacha giniúna domhain.⁠(osclaíonn i bhfuinneog nua)” In NeurIPS 2014.
25
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., & Chen, X. (2016). “Teicnící feabhsaithe chun gans a oiliúint.⁠(osclaíonn i bhfuinneog nua)” In NeurIPS 2016.
26
Donahue, J., & Simonyan, K. (2019). “Foghlaim léirithe freasúracha ar scála mór.⁠(osclaíonn i bhfuinneog nua)” In NeurIPS 2019.
27
Chen, M., Radford, A., Child, R., Wu, J., Jun, H., Luan, D., & Sutskever, I. (2020, Samhain). “Réamh-oiliúint ghiniúnach ó phicteilíní.⁠(osclaíonn i bhfuinneog nua)” In ICML 2020.
28
He, K., Zhang, X., Ren, S., & Sun, J. (2015). “Dul níos doimhne isteach i gceartaitheoirí: Feidhmíocht os cionn an duine ar aicmiú ImageNet.⁠(osclaíonn i bhfuinneog nua)” In ICCV 2015.
29
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., ... & Berg, A. C. (2015). “Dúshlán aithinte amhairc ar scála mór Imagenet.⁠(osclaíonn i bhfuinneog nua)” In IJCV 2015.
30
Taori, R., Dave, A., Shankar, V., Carlini, N., Recht, B., & Schmidt, L. (2020). “Láidreacht i gcoinne athruithe nádúrtha i ndáileadh a thomhas in aicmiú íomhánna.⁠(osclaíonn i bhfuinneog nua)” In NeurIPS 2020.
31
Sohn, K. (2016). “Foghlaim mhéadrach dhomhain fheabhsaithe le cuspóir caillteanais n-péire ilranga.⁠(osclaíonn i bhfuinneog nua)” In NeurIPS 2016.
32
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). “Ní theastaíonn ach aird uait.⁠(osclaíonn i bhfuinneog nua)” In NeurIPS 2017.
33
Desai, K., & Johnson, J. (2020). “VirTex: Foghlaim Léirithe Amhairc ó Anótálacha Téacsúla.⁠(osclaíonn i bhfuinneog nua)” arXiv preprint.
34
Sariyildiz, M. B., Perez, J., & Larlus, D. (2020). “Foghlaim Léirithe Amhairc le hAnótálacha Fotheideal.⁠(osclaíonn i bhfuinneog nua)” In ECCV 2020.
35
Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., & Langlotz, C. P. (2020). “Foghlaim Chodarsnachta ar Léirithe Leighis Amhairc ó Íomhánna agus Téacs Péireáilte.⁠(osclaíonn i bhfuinneog nua)” arXiv preprint.
36
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Uszkoreit, J. (2020). “Is fiú 16x16 focal íomhá: Trasfhoirmitheoirí d’aithint íomhá ar scála.⁠(osclaíonn i bhfuinneog nua)” arXiv preprint.
37
Mahajan, D., Girshick, R., Ramanathan, V., He, K., Paluri, M., Li, Y., ... & van der Maaten, L. (2018). “Teorainneacha na réamh-oiliúna faoi mhaoirseacht lag a iniúchadh.⁠(osclaíonn i bhfuinneog nua)” In ECCV 2018.
38
Kolesnikov, A., Beyer, L., Zhai, X., Puigcerver, J., Yung, J., Gelly, S., & Houlsby, N. (2019). “Big Transfer (BiT): Foghlaim Ghinearálta Léirithe Amhairc.⁠(osclaíonn i bhfuinneog nua)” arXiv preprint.
39
Kärkkäinen, K., & Joo, J. (2019). “Fairface: Tacar sonraí tréithe aghaidhe do chine, inscne, agus aois chothromaithe.⁠(osclaíonn i bhfuinneog nua)” arXiv preprint.
40
Bowker, G., & Star, S. L. (1999). “Rudaí a shórtáil. Aicmiú agus a iarmhairtí⁠(osclaíonn i bhfuinneog nua)” Book.
41
Keyes, O. (2018). “Na hinnill mhí-inscnithe: Impleachtaí Tras/HCI a bhaineann le haitheantas inscne uathoibríoch.⁠(osclaíonn i bhfuinneog nua)” In Proceedings of the ACM on Human-Computer Interaction.

Údair

Alec Radford, Ilya Sutskever, Jong Wook Kim, Gretchen Krueger, Sandhini Agarwal

Admhálacha

Ba mhaith linn buíochas a ghabháil leis na milliúin daoine a bhí páirteach i gcruthú na sonraí ar cuireadh oiliúint ar CLIP orthu. Táimid buíoch freisin dár gcomhúdair uile as a gcuid ranníocaíochtaí leis an tionscadal. Mar fhocal scoir, ba mhaith linn buíochas a ghabháil le Jeff Clune, Miles Brundage, Ryan Lowe, Jakub Pachocki, agus Vedant Misra as aiseolas ar dhréachtaí den bhlag seo agus le Matthew Knight as athbhreithniú a dhéanamh ar eisiúint an chóid.