5 ta’ Jannar 2021

CLIP: Ngħaqqdu test u stampi

Illustrazzjoni: Justin Jay Wang

Qed jillowdja…

Qed nintroduċu network newrali msejjaħ CLIP li jitgħallem kunċetti viżwali b’mod effiċjenti minn superviżjoni tal-lingwa naturali. CLIP jista’ jiġi applikat għal kwalunkwe benchmark ta’ klassifikazzjoni viżwali billi sempliċement jipprovdi l-ismijiet tal-kategoriji viżwali li għandhom jiġu rikonoxxuti, simili għall-kapaċitajiet “zero-shot” ta’ GPT‑2 u GPT‑3.

Għalkemm l-apprendiment profond irrivoluzzjona l-viżjoni kompjuterizzata, l-approċċi attwali għandhom diversi problemi ewlenin: is-settijiet tad-dejta tipiċi tal-viżjoni jeħtieġu ħafna xogħol u jiswew ħafna biex jinħolqu filwaqt li jgħallmu biss sett ristrett ta’ kunċetti viżwali; il-mudelli standard tal-viżjoni huma tajbin għal kompitu wieħed u wieħed biss, u jeħtieġu sforz sinifikanti biex jiġu adattati għal kompitu ġdid; u l-mudelli li jagħmlu tajjeb fuq benchmarks għandhom prestazzjoni diżappuntanti ħafna fuq stress tests,^{1, 2, 3, u 4} u dan jitfa’ dubju fuq l-approċċ kollu tal-apprendiment profond għall-viżjoni kompjuterizzata.

Nippreżentaw network newrali li għandu l-għan li jindirizza dawn il-problemi: huwa mħarreġ fuq varjetà wiesgħa ta’ stampi b’varjetà wiesgħa ta’ superviżjoni tal-lingwa naturali li hija abbundanti fuq l-internet. Mid-disinn tiegħu, in-network jista’ jingħata struzzjonijiet bil-lingwa naturali biex iwettaq varjetà kbira ta’ benchmarks ta’ klassifikazzjoni, mingħajr ma jottimizza direttament għall-prestazzjoni tal-benchmark, simili għall-kapaċitajiet “zero-shot⁠(jinfetaħ f’tieqa ġdida)” ta’ GPT‑2⁵ u GPT‑3.⁶ Din hija bidla ewlenija: billi ma ntejbux direttament għall-benchmark, nuru li jsir ħafna aktar rappreżentattiv: is-sistema tagħna tagħlaq dan id-“distakk fir-robustezza” sa 75% waqt li tqabbel il-prestazzjoni tar-ResNet-50 oriġinali⁷ fuq ImageNet⁠(jinfetaħ f’tieqa ġdida) zero-shot mingħajr ma tuża ebda wieħed mill-1.28M eżempji ttikkettati oriġinali.

Qed jillowdja...

Sfond u xogħol relatat

CLIP (Qabel it-taħriġ Kuntrastiv tal-Lingwa u l-Immaġni) jibni fuq korp kbir ta’ xogħol dwar trasferiment zero-shot, superviżjoni tal-lingwa naturali, u tagħlim multimodali. L-idea tat-tagħlim mingħajr dejta tmur lura għal aktar minn għaxar snin⁸ iżda sa ftit ilu kienet studjata l-aktar fil-viżjoni kompjuterizzata bħala mod kif tiġi ġġeneralizzata għal kategoriji ta’ oġġetti li qatt ma dehru.^{9 u 10} Għarfien kruċjali kien li tintuża l-lingwa naturali bħala spazju flessibbli ta’ tbassir biex tippermetti ġeneralizzazzjoni u trasferiment. Fl-2013, Richard Socher u koawturi f’Stanford¹¹ żviluppaw prova ta’ kunċett billi ħarrġu mudell fuq CIFAR-10 biex jagħmel tbassir fi spazju ta’ embeddings ta’ vetturi tal-kliem u wrew li dan il-mudell seta’ jbassar żewġ klassijiet li qatt ma dehru. Fl-istess sena DeVISE¹² kabbar dan l-approċċ u wera li kien possibbli li jsir fine-tuning ta’ mudell ImageNet sabiex ikun jista’ jiġġeneralizza biex ibassar b’mod korrett oġġetti barra mis-sett oriġinali ta’ 1000 ta’ taħriġ.

L-aktar xogħol li ispira lil CLIP huwa x-xogħol ta’ Ang Li u l-koawturi tiegħu f’FAIR¹³ li fl-2016 wrew l-użu ta’ superviżjoni tal-lingwa naturali biex jippermettu trasferiment zero-shot għal diversi settijiet eżistenti ta’ klassifikazzjoni fil-viżjoni kompjuterizzata, bħas-sett kanoniku ImageNet. Huma kisbu dan billi għamlu fine-tuning ta’ CNN ta’ ImageNet biex ibassar sett ħafna usa’ ta’ kunċetti viżwali (visual n-grams) mit-test tat-titli, deskrizzjonijiet, u tags ta’ 30 miljun ritratt ta’ Flickr u rnexxielhom jilħqu preċiżjoni ta’ 11.5% fuq ImageNet zero-shot.

Fl-aħħar nett, CLIP huwa parti minn grupp ta’ karti li reġgħu żaru t-tagħlim ta’ rappreżentazzjonijiet viżwali minn superviżjoni tal-lingwa naturali matul is-sena li għaddiet. Din il-linja ta’ xogħol tuża arkitetturi aktar moderni bħat-Transformer³² u tinkludi VirTex,³³ li esplorat immudellar tal-lingwa awtoregressiv, ICMLM,³⁴ li investiga immudellar tal-lingwa masked, u ConVIRT,³⁵ li studja l-istess objettiv kuntrastiv li nużaw għal CLIP iżda fil-qasam tal-immaġini mediċi.

Approċċ

Nuru li l-iskalar ta’ kompitu sempliċi ta’ qabel it-taħriġ huwa biżżejjed biex tinkiseb prestazzjoni zero-shot kompetittiva fuq varjetà kbira ta’ settijiet tad-dejta ta’ klassifikazzjoni tal-immaġni. Il-metodu tagħna juża sors ta’ superviżjoni abbundanti: it-test imqabbad mal-istampi li jinstab madwar l-internet. Din id-dejta tintuża biex jinħoloq il-kompitu proxy ta’ taħriġ li ġej għal CLIP: mogħtija stampa, ibassar liema minn sett ta’ 32,768 siltiet ta’ test magħżula bl-addoċċ, kienet fil-fatt imqabbda magħha fis-sett tad-dejta tagħna.

Biex insolvu dan il-kompitu, l-intuwizzjoni tagħna hija li l-mudelli CLIP se jkollhom bżonn jitgħallmu jagħrfu varjetà wiesgħa ta’ kunċetti viżwali fl-istampi u jassoċjawhom ma’ isimhom. B’riżultat ta’ dan, il-mudelli CLIP jistgħu mbagħad jiġu applikati għal kważi kull kompitu ta’ klassifikazzjoni viżwali. Pereżempju, jekk il-kompitu ta’ sett tad-dejta huwa l-klassifikazzjoni ta’ ritratti ta’ klieb kontra qtates niċċekkjaw għal kull stampa jekk mudell CLIP ibassarx li d-deskrizzjoni tat-test “ritratt ta’ kelb” jew “ritratt ta’ qattus” hija aktar probabbli li tkun imqabbda magħha.

Qed jillowdja...

CLIP ġie ddisinjat biex itaffi għadd ta’ problemi ewlenin fl-approċċ standard tal-apprendiment profond għall-viżjoni kompjuterizzata:

Settijiet tad-dejta għaljin: L-apprendiment profond jeħtieġ ħafna dejta, u l-mudelli tal-viżjoni tradizzjonalment ġew imħarrġa fuq settijiet tad-dejta ttikkettati manwalment li jiswew ħafna biex jinbnew u jipprovdu superviżjoni biss għal numru limitat ta’ kunċetti viżwali predeterminati. Is-sett tad-dejta ImageNet, wieħed mill-akbar sforzi f’dan l-ispazju, kien jeħtieġ aktar minn 25,000 ħaddiem biex jannotaw 14-il miljun stampa għal 22,000 kategorija ta’ oġġetti. B’kuntrast, CLIP jitgħallem minn pari test-stampa li huma diġà disponibbli pubblikament fuq l-internet. It-tnaqqis tal-ħtieġa għal settijiet tad-dejta kbar u għaljin bit-tikketti ġie studjat b’mod estensiv minn xogħol preċedenti, notevolment tagħlim awto-sorveljat,^{14, 15, u 16} metodi kuntrastivi,^{17, 18, 19, 20, u 21} approċċi ta’ self-training,^{22 u 23} u immudellar ġenerattiv.^{24, 25, 26, u 27}

Ristrett: Mudell ta’ ImageNet huwa tajjeb biex ibassar l-1000 kategorija ta’ ImageNet, iżda dak huwa kulma jista’ jagħmel “minnufih.” Jekk irridu nwettqu xi kompitu ieħor, prattikant tal-ML jeħtieġ jibni sett tad-dejta ġdid, iżid output head, u jagħmel fine-tuning tal-mudell. B’kuntrast, CLIP jista’ jiġi adattat biex iwettaq varjetà wiesgħa ta’ kompiti ta’ klassifikazzjoni viżwali mingħajr il-ħtieġa ta’ eżempji addizzjonali ta’ taħriġ. Biex napplikaw CLIP għal kompitu ġdid, kull ma rridu nagħmlu hu li “ngħidu” lill-encoder tat-test ta’ CLIP l-ismijiet tal-kunċetti viżwali tal-kompitu, u dan joħroġ klassifikatur lineari tar-rappreżentazzjonijiet viżwali ta’ CLIP. Il-preċiżjoni ta’ dan il-klassifikatur ħafna drabi hija kompetittiva ma’ mudelli kompletament sorveljati.

Aħna nuru tbassir każwali, mhux magħżul apposta, ta’ klassifikaturi zero-shot ta’ CLIP fuq eżempji minn diversi settijiet tad-dejta hawn taħt.

Qed jillowdja...

Prestazzjoni fqira fid-dinja reali: Is-sistemi tal-apprendiment profond ħafna drabi jiġu rrappurtati li jilħqu prestazzjoni umana jew saħansitra superumana^{28 u A} fuq benchmarks tal-viżjoni, iżda meta jiġu skjerati fid-dinja reali, il-prestazzjoni tagħhom tista’ tkun ferm inqas mill-aspettattiva stabbilita mill-benchmark. Fi kliem ieħor, hemm distakk bejn “prestazzjoni tal-benchmark” u “prestazzjoni reali.” Aħna nassumu li dan id-distakk iseħħ minħabba li l-mudelli “iqarrqu” billi jottimizzaw biss għall-prestazzjoni fuq il-benchmark, ħafna bħalma student li għadda minn eżami billi studja biss il-mistoqsijiet tal-eżamijiet tas-snin preċedenti. B’kuntrast, il-mudell CLIP jista’ jiġi evalwat fuq benchmarks mingħajr ma jkollu jitħarreġ fuq id-dejta tagħhom, u għalhekk ma jistax “iqarrqu” b’dan il-mod. Dan iwassal biex il-prestazzjoni tiegħu fuq il-benchmark tkun ħafna aktar rappreżentattiva tal-prestazzjoni tiegħu fid-dinja reali. Biex nivverifikaw l-“ipoteżi tal-qerq”, nkejlu wkoll kif tinbidel il-prestazzjoni ta’ CLIP meta jkun jista’ “jistudja” għal ImageNet. Meta klassifikatur lineari jiġi adattat fuq il-karatteristiċi ta’ CLIP, itejjeb il-preċiżjoni ta’ CLIP fuq is-sett tat-test ta’ ImageNet b’kważi 10%. Madankollu, dan il-klassifikatur ma jagħmilx aħjar bħala medja fuq suite ta’ evalwazzjoni ta’ 7 settijiet tad-dejta oħra li jkejlu prestazzjoni “robusta”.³⁰

Punti ewlenin

1. CLIP huwa effiċjenti ħafna

CLIP jitgħallem minn dejta mhux iffiltrata, varjata ħafna, u storbjuża ħafna, u huwa maħsub biex jintuża b’mod zero-shot. Nafu minn GPT‑2 u 3 li mudelli mħarrġa fuq dejta bħal din jistgħu jiksbu prestazzjoni zero-shot konvinċenti; madankollu, mudelli bħal dawn jeħtieġu ammont sinifikanti ta’ compute għat-taħriġ. Biex innaqqsu l-compute meħtieġ, iffukajna fuq modi algoritmiċi biex intejbu l-effiċjenza tat-taħriġ tal-approċċ tagħna.

Nirrapportaw żewġ għażliet algoritmiċi li wasslu għal iffrankar sinifikanti fil-compute. L-ewwel għażla hija l-adozzjoni ta’ objettiv kuntrastiv biex jgħaqqad it-test mal-istampi.^{31, 17, u 35} Oriġinarjament esplorajna approċċ minn stampa għal test, simili għal VirTex,³³ iżda ltqajna ma’ diffikultajiet biex inkabbruh ħalli niksbu prestazzjoni state-of-the-art. F’esperimenti fuq skala żgħira sa medja, sibna li l-objettiv kuntrastiv użat minn CLIP huwa 4x sa 10x aktar effiċjenti fil-klassifikazzjoni zero-shot ta’ ImageNet. It-tieni għażla kienet l-adozzjoni tal-Vision Transformer,³⁶ li tatna żieda oħra ta’ 3x fl-effiċjenza tal-compute meta mqabbel ma’ ResNet standard. Fl-aħħar mill-aħħar, l-aqwa mudell CLIP tagħna jitħarreġ fuq 256 GPU għal ġimagħtejn li huwa simili għal mudelli kbar eżistenti tal-immaġni.^{37, 23, 38, u 36}

Qed jillowdja...

2. CLIP huwa flessibbli u ġenerali

Minħabba li jitgħallmu firxa wiesgħa ta’ kunċetti viżwali direttament mil-lingwa naturali, il-mudelli CLIP huma ferm aktar flessibbli u ġenerali mill-mudelli eżistenti ta’ ImageNet. Insibu li huma kapaċi jwettqu ħafna kompiti differenti b’mod zero-shot. Biex nivvalidaw dan kejjelna l-prestazzjoni zero-shot ta’ CLIP fuq aktar minn 30 sett tad-dejta differenti inklużi kompiti bħal klassifikazzjoni fina ta’ oġġetti, ġeolokalizzazzjoni, rikonoxximent ta’ azzjonijiet fil-vidjows, u OCR.^B B’mod partikolari, it-tagħlim tal-OCR huwa eżempju ta’ mġiba eċċitanti li ma sseħħx fil-mudelli standard ta’ ImageNet. Hawn fuq, niviżwalizzaw tbassir każwali mhux magħżul apposta minn kull klassifikatur zero-shot.

Din is-sejba hija riflessa wkoll fuq evalwazzjoni standard tat-tagħlim tar-rappreżentazzjoni bl-użu ta’ linear probes. L-aqwa mudell CLIP jaqbeż lill-aqwa mudell ImageNet disponibbli pubblikament, in-Noisy Student EfficientNet-L2,²³ fuq 20 minn 26 sett tad-dejta ta’ trasferiment differenti li ttestjajna.

Qed jillowdja...

Limitazzjonijiet

Filwaqt li CLIP ġeneralment jagħmel tajjeb biex jagħraf oġġetti komuni, ibati fuq kompiti aktar astratti jew sistemiċi bħall-għadd tan-numru ta’ oġġetti fi stampa u fuq kompiti aktar kumplessi bħat-tbassir ta’ kemm hi qrib l-eqreb karozza f’ritratt. Fuq dawn iż-żewġ settijiet tad-dejta, CLIP zero-shot huwa biss ftit aħjar minn tbassir każwali. CLIP zero-shot ukoll ibati meta mqabbel ma’ mudelli speċifiċi għall-kompitu fuq klassifikazzjoni fina ħafna, bħad-distinzjoni bejn mudelli ta’ karozzi, varjanti ta’ ajruplani, jew speċi ta’ fjuri.

CLIP ukoll għad għandu ġeneralizzazzjoni fqira għal stampi li mhumiex koperti fis-sett tad-dejta tiegħu ta’ qabel it-taħriġ. Pereżempju, għalkemm CLIP jitgħallem sistema OCR kapaċi, meta evalwat fuq ċifri miktuba bl-idejn mis-sett tad-dejta MNIST, CLIP zero-shot jikseb biss preċiżjoni ta’ 88%, ferm taħt id-99.75% tal-bnedmin fuq is-sett tad-dejta. Fl-aħħar nett, osservajna li l-klassifikaturi zero-shot ta’ CLIP jistgħu jkunu sensittivi għall-kliem jew il-formulazzjoni u xi drabi jeħtieġu prova u żball fl-“inġinerija tal-prompts” biex jagħmlu tajjeb.

Impatti usa’

CLIP jippermetti lin-nies jiddisinjaw il-klassifikaturi tagħhom stess u jneħħi l-ħtieġa għal dejta ta’ taħriġ speċifika għall-kompitu. Il-mod kif jiġu ddisinjati dawn il-klassijiet jista’ jinfluwenza ħafna kemm il-prestazzjoni tal-mudell kif ukoll il-preġudizzji tal-mudell. Pereżempju, insibu li meta jingħata sett ta’ labels li jinkludi labels tar-razza ta’ Fairface³⁹ ^C u ftit termini gravi bħal “kriminal”, “annimal,” eċċ., il-mudell għandu t-tendenza jikklassifika stampi ta’ nies ta’ bejn 0 u 20 sena fil-kategorija gravi b’rata ta’ ~32.3%. Madankollu, meta nżidu l-klassi “tifel/tifla” mal-lista ta’ klassijiet possibbli, din l-imġiba tinżel għal ~8.7%.

Barra minn hekk, minħabba li CLIP ma jeħtieġx dejta ta’ taħriġ speċifika għall-kompitu jista’ jiftaħ ċerti kompiti niċċa b’aktar faċilità. Xi wħud minn dawn il-kompiti jistgħu jqajmu riskji relatati mal-privatezza jew is-sorveljanza u nesploraw dan it-tħassib billi nistudjaw il-prestazzjoni ta’ CLIP fuq l-identifikazzjoni ta’ ċelebritajiet. CLIP għandu preċiżjoni top-1 ta’ 59.2% għall-klassifikazzjoni ta’ stampi ta’ ċelebritajiet “fid-dinja reali” meta jagħżel minn 100 kandidat u preċiżjoni top-1 ta’ 43.3% meta jagħżel minn 1000 għażla possibbli. Għalkemm huwa notevoli li jintlaħqu dawn ir-riżultati b’qabel it-taħriġ indipendenti mill-kompitu, din il-prestazzjoni mhix kompetittiva meta mqabbla ma’ mudelli ta’ livell ta’ produzzjoni disponibbli b’mod wiesa’. Aħna nesploraw aktar l-isfidi li joħloq CLIP fil-karta⁠(jinfetaħ f’tieqa ġdida) tagħna u nittamaw li dan ix-xogħol jimmotiva riċerka futura dwar il-karatterizzazzjoni tal-kapaċitajiet, in-nuqqasijiet, u l-preġudizzji ta’ mudelli bħal dawn. Aħna eċċitati li ninvolvu ruħna mal-komunità tar-riċerka dwar mistoqsijiet bħal dawn.

Konklużjoni

Bi CLIP, ittestjajna jekk qabel it-taħriġ indipendenti mill-kompitu fuq lingwa naturali fuq skala tal-internet, li mexxa avvanz reċenti fl-NLP, jistax jintuża wkoll biex itejjeb il-prestazzjoni tal-apprendiment profond għal oqsma oħra. Aħna eċċitati bir-riżultati li rajna s’issa meta applikajna dan l-approċċ għall-viżjoni kompjuterizzata. Bħall-familja GPT, CLIP jitgħallem varjetà wiesgħa ta’ kompiti waqt qabel it-taħriġ li nuru permezz ta’ trasferiment zero-shot. Aħna wkoll imħeġġa mis-sejbiet tagħna fuq ImageNet li jissuġġerixxu li l-evalwazzjoni zero-shot hija miżura aktar rappreżentattiva tal-kapaċità ta’ mudell.

Noti ta’ qiegħ il-paġna

29
Fl-2015, grupp ta’ riċerkaturi minn Microsoft l-ewwel ħarrġu mudell li kiseb preċiżjoni top-5 fuq ImageNet li qabżet il-preċiżjoni top-5 tal-bniedem irrappurtata.
B
Filwaqt li l-prestazzjoni zero-shot OCR ta’ CLIP hija mħallta, ir-rappreżentazzjoni semantika OCR tiegħu hija utli ħafna. Meta evalwata fuq is-sett tad-dejta NLP SST-2 irrendut bħala stampi, klassifikatur lineari fuq ir-rappreżentazzjoni ta’ CLIP jaqbel ma’ mudell CBoW b’aċċess dirett għat-test. CLIP huwa wkoll kompetittiv biex jidentifika memes ta’ mibegħda mingħajr il-bżonn ta’ test ground truth.
40
FairFace huwa sett tad-dejta ta’ stampi ta’ uċuħ iddisinjat biex jibbilanċja l-età, il-ġeneru u r-razza, sabiex inaqqas l-asimetriji komuni f’settijiet tad-dejta preċedenti ta’ uċuħ. Jikkategorizza l-ġeneru f’2 gruppi: mara u raġel u r-razza f’7 gruppi: Abjad, Iswed, Indjan, Asjatiku tal-Lvant, Asjatiku tax-Xlokk, tal-Lvant Nofsani, u Latino. Hemm problemi inerenti bil-klassifikazzjonijiet tar-razza u tal-ġeneru, kif pereżempju wrew Bowker and Star (2000) u Keyes (2018). Filwaqt li s-sett tad-dejta FairFace inaqqas il-proporzjon ta’ uċuħ bojod, xorta jonqsu rappreżentazzjonijiet ta’ gruppi demografiċi kbar sħaħ, u effettivament iħassru kategoriji bħal dawn. Aħna nużaw iż-2 kategoriji tal-ġeneru u s-7 kategoriji tar-razza definiti fis-sett tad-dejta FairFace f’għadd ta’ esperimenti tagħna mhux biex insaħħu jew napprovaw l-użu ta’ kategoriji riduttivi bħal dawn, iżda biex inkunu nistgħu nagħmlu paraguni ma’ xogħol preċedenti.

Referenzi

1
Dodge, S., & Karam, L. (2017, July). “Studju u tqabbil tal-prestazzjoni ta’ rikonoxximent tal-bniedem u tal-apprendiment profond taħt distorsjonijiet viżwali.⁠(jinfetaħ f’tieqa ġdida)” In ICCCN 2017.
2
Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, F. A., & Brendel, W. (2018). “CNNs imħarrġa fuq ImageNet huma preġudikati lejn it-tessut; iż-żieda tal-preġudizzju lejn il-forma ttejjeb il-preċiżjoni u r-robustezza.⁠(jinfetaħ f’tieqa ġdida)” In ICLR 2019.
3
Alcorn, M. A., Li, Q., Gong, Z., Wang, C., Mai, L., Ku, W. S., & Nguyen, A. (2019). “Agħmel poża: in-networks newrali faċilment jiġu mqarrqa minn pożizzjonijiet strambi ta’ oġġetti familjari.⁠(jinfetaħ f’tieqa ġdida)” In CVPR 2019.
4
Barbu, A., Mayo, D., Alverio, J., Luo, W., Wang, C., Gutfreund, D., ... & Katz, B. (2019). “Objectnet: sett tad-dejta fuq skala kbira kkontrollat għall-preġudizzju biex jimbotta l-limiti tal-mudelli ta’ rikonoxximent tal-oġġetti.⁠(jinfetaħ f’tieqa ġdida)” In NeurIPS 2019.
5
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Mudelli tal-Lingwa huma Studenti Multitask Mhux Superviżjonati.⁠(jinfetaħ f’tieqa ġdida)” Technical Report, OpenAI.
6
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Agarwal, S. (2020). “Mudelli tal-Lingwa huma Studenti Few-Shot.⁠(jinfetaħ f’tieqa ġdida)” In NeurIPS 2020.
7
He, K., Zhang, X., Ren, S., & Sun, J. (2016). “Apprendiment residwu profond għar-rikonoxximent tal-immaġni.⁠(jinfetaħ f’tieqa ġdida)” In CVPR 2016.
8
Larochelle, H., Erhan, D., & Bengio, Y. (2008, July). “Tagħlim ta’ kompiti ġodda mingħajr dejta.⁠(jinfetaħ f’tieqa ġdida)” In AAAI 2008.
9
Lampert, C. H., Nickisch, H., & Harmeling, S. (2009, June). “Titgħallem tiskopri klassijiet ta’ oġġetti li qatt ma dehru permezz ta’ trasferiment ta’ attributi bejn il-klassijiet.⁠(jinfetaħ f’tieqa ġdida)” In CVPR 2009.
10
Lei Ba, J., Swersky, K., & Fidler, S. (2015). “Tbassir ta’ networks newrali konvoluzzjonali profondi zero-shot bl-użu ta’ deskrizzjonijiet testwali.⁠(jinfetaħ f’tieqa ġdida)” In ICCV 2015.
11
Socher, R., Ganjoo, M., Manning, C. D., & Ng, A. (2013). “Tagħlim zero-shot permezz ta’ trasferiment cross-modal.⁠(jinfetaħ f’tieqa ġdida)” In NeurIPS 2013.
12
Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M. A., & Mikolov, T. (2013). “Devise: mudell profond ta’ embeddings viżwali-semantiku.⁠(jinfetaħ f’tieqa ġdida)” In NeurIPS 2013.
13
Li, A., Jabri, A., Joulin, A., & van der Maaten, L. (2017). “Tagħlim ta’ visual n-grams minn dejta tal-web.⁠(jinfetaħ f’tieqa ġdida)” In Proceedings of the IEEE International Conference on Computer Vision 2017.
14
Doersch, C., Gupta, A., & Efros, A. A. (2015). “Tagħlim mhux superviżjonat ta’ rappreżentazzjoni viżwali permezz ta’ tbassir tal-kuntest.⁠(jinfetaħ f’tieqa ġdida)” In ICCV 2015.
15
Zhai, X., Oliver, A., Kolesnikov, A., & Beyer, L. (2019). “S4l: Tagħlim semi-superviżjonat awto-sorveljat.⁠(jinfetaħ f’tieqa ġdida)” In ICCV 2019.
16
Grill, J. B., Strub, F., Altché, F., Tallec, C., Richemond, P. H., Buchatskaya, E., ... & Piot, B. (2020). “Ibni r-rappreżentazzjoni moħbija tiegħek stess: approċċ ġdid għat-tagħlim awto-sorveljat.⁠(jinfetaħ f’tieqa ġdida)” In NeurIPS 2020.
17
Oord, A. V. D., Li, Y., & Vinyals, O. (2018). “Tagħlim ta’ rappreżentazzjoni b’Contrastive Predictive Coding.⁠(jinfetaħ f’tieqa ġdida)” arXiv preprint.
18
Hjelm, R. D., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Tagħlim ta’ rappreżentazzjonijiet profondi permezz ta’ stima u massimizzazzjoni tal-informazzjoni reċiproka.⁠(jinfetaħ f’tieqa ġdida)” In ICLR 2019.
19
Bachman, P., Hjelm, R. D., & Buchwalter, W. (2019). “Tagħlim ta’ rappreżentazzjonijiet billi timmassimizza l-informazzjoni reċiproka bejn veduti differenti.⁠(jinfetaħ f’tieqa ġdida)” In NeurIPS 2019.
20
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). “Kuntrast tal-momentum għal tagħlim mhux superviżjonat ta’ rappreżentazzjoni viżwali.⁠(jinfetaħ f’tieqa ġdida)” In CVPR 2020.
21
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). “Qafas sempliċi għat-tagħlim kuntrastiv ta’ rappreżentazzjonijiet viżwali.⁠(jinfetaħ f’tieqa ġdida)” arXiv preprint.
22
Lee, D. H. (2013, June). “Pseudo-label: il-metodu sempliċi u effiċjenti ta’ tagħlim semi-superviżjonat għal networks newrali profondi.⁠(jinfetaħ f’tieqa ġdida)” In Workshop on challenges in representation learning, ICML (2013).
23
Xie, Q., Luong, M. T., Hovy, E., & Le, Q. V. (2020). “Self-training b’noisy student itejjeb il-klassifikazzjoni ta’ imagenet.⁠(jinfetaħ f’tieqa ġdida)” In CVPR 2020.
24
Kingma, D. P., Mohamed, S., Jimenez Rezende, D., & Welling, M. (2014). “Tagħlim semi-superviżjonat b’mudelli ġenerattivi profondi.⁠(jinfetaħ f’tieqa ġdida)” In NeurIPS 2014.
25
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., & Chen, X. (2016). “Tekniki mtejba għat-taħriġ ta’ gans.⁠(jinfetaħ f’tieqa ġdida)” In NeurIPS 2016.
26
Donahue, J., & Simonyan, K. (2019). “Tagħlim ta’ rappreżentazzjoni avversarja fuq skala kbira.⁠(jinfetaħ f’tieqa ġdida)” In NeurIPS 2019.
27
Chen, M., Radford, A., Child, R., Wu, J., Jun, H., Luan, D., & Sutskever, I. (2020, November). “Qabel it-taħriġ ġenerattiv mill-pixels.⁠(jinfetaħ f’tieqa ġdida)” In ICML 2020.
28
He, K., Zhang, X., Ren, S., & Sun, J. (2015). “Nidħlu fil-fond fir-Rectifiers: Ngħaddu l-prestazzjoni tal-bniedem fil-klassifikazzjoni ta’ ImageNet.⁠(jinfetaħ f’tieqa ġdida)” In ICCV 2015.
29
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., ... & Berg, A. C. (2015). “L-isfida ta’ rikonoxximent viżwali fuq skala kbira ta’ Imagenet.⁠(jinfetaħ f’tieqa ġdida)” In IJCV 2015.
30
Taori, R., Dave, A., Shankar, V., Carlini, N., Recht, B., & Schmidt, L. (2020). “Kejl tar-robustezza għal tibdiliet naturali fid-distribuzzjoni fil-klassifikazzjoni tal-immaġni.⁠(jinfetaħ f’tieqa ġdida)” In NeurIPS 2020.
31
Sohn, K. (2016). “Tagħlim metriku profond imtejjeb b’objettiv ta’ telf n-pair multi-class.⁠(jinfetaħ f’tieqa ġdida)” In NeurIPS 2016.
32
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). “L-attenzjoni hija kulma għandek bżonn.⁠(jinfetaħ f’tieqa ġdida)” In NeurIPS 2017.
33
Desai, K., & Johnson, J. (2020). “VirTex: Tagħlim ta’ Rappreżentazzjonijiet Viżwali minn Annotazzjonijiet Testwali.⁠(jinfetaħ f’tieqa ġdida)” arXiv preprint.
34
Sariyildiz, M. B., Perez, J., & Larlus, D. (2020). “Tagħlim ta’ Rappreżentazzjonijiet Viżwali b’Annotazzjonijiet ta’ Caption.⁠(jinfetaħ f’tieqa ġdida)” In ECCV 2020.
35
Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., & Langlotz, C. P. (2020). “Tagħlim Kuntrastiv ta’ Rappreżentazzjonijiet Viżwali Mediċi minn Stampi u Test Imqabbla.⁠(jinfetaħ f’tieqa ġdida)” arXiv preprint.
36
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Uszkoreit, J. (2020). “Stampa tiswa 16x16-il kelma: Transformers għar-rikonoxximent tal-immaġni fuq skala kbira.⁠(jinfetaħ f’tieqa ġdida)” arXiv preprint.
37
Mahajan, D., Girshick, R., Ramanathan, V., He, K., Paluri, M., Li, Y., ... & van der Maaten, L. (2018). “Nesploraw il-limiti ta’ qabel it-taħriġ dgħajjef sorveljat.⁠(jinfetaħ f’tieqa ġdida)” In ECCV 2018.
38
Kolesnikov, A., Beyer, L., Zhai, X., Puigcerver, J., Yung, J., Gelly, S., & Houlsby, N. (2019). “Big Transfer (BiT): Tagħlim Ġenerali ta’ Rappreżentazzjoni Viżwali.⁠(jinfetaħ f’tieqa ġdida)” arXiv preprint.
39
Kärkkäinen, K., & Joo, J. (2019). “Fairface: sett tad-dejta ta’ attributi tal-wiċċ għal razza, ġeneru u età bbilanċjati.⁠(jinfetaħ f’tieqa ġdida)” arXiv preprint.
40
Bowker, G., & Star, S. L. (1999). “Inqassmu l-affarijiet. Il-klassifikazzjoni u l-konsegwenzi tagħha⁠(jinfetaħ f’tieqa ġdida)” Book.
41
Keyes, O. (2018). “Il-magni li jagħtu ġeneru ħażin: implikazzjonijiet Trans/HCI tar-rikonoxximent awtomatiku tal-ġeneru.⁠(jinfetaħ f’tieqa ġdida)” In Proceedings of the ACM on Human-Computer Interaction.

Awturi

Alec Radford, Ilya Sutskever, Jong Wook Kim, Gretchen Krueger, u Sandhini Agarwal

Rikonoxximenti

Nixtiequ nirringrazzjaw lill-miljuni ta’ nies involuti fil-ħolqien tad-dejta li fuqha jitħarreġ CLIP. Aħna wkoll grati lejn il-koawturi kollha tagħna għall-kontribuzzjonijiet tagħhom għall-proġett. Fl-aħħar nett, nixtiequ nirringrazzjaw lil Jeff Clune, Miles Brundage, Ryan Lowe, Jakub Pachocki, u Vedant Misra għall-feedback fuq abbozzi ta’ dan il-blog u lil Matthew Knight għar-reviżjoni tar-rilaxx tal-kodiċi.