Janaayo 5, 2021

CLIP: Isku xirka qoraalka iyo sawirrada

Sawir: Justin Jay Wang

Soo kacaya…

Waxaan soo bandhigaynaa shabakad neerfo ah oo la yiraahdo CLIP taas oo si hufan uga barata fikradaha muuqaalka kormeerka luuqadda dabiiciga ah. CLIP waxaa lagu dabaqi karaa cabbir kasta oo kala-soocid muuqaal ah adigoo si fudud u siinaya magacyada qaybaha muuqaalka ee la rabo in la aqoonsado, si la mid ah awoodaha “zero-shot” ee GPT‑2 iyo GPT‑3.

In kasta oo waxbarashada qotada dheer ay wax ka beddeshay aragga kombiyuutarka, hababka hadda jira waxay leeyihiin dhowr dhibaato oo waaweyn: xog-ururinta aragga ee caadiga ah waxay u baahan yihiin shaqo badan oo qaali ku ah samayntooda halka ay baraan keliya tiro cidhiidhi ah oo fikrado muuqaal ah; noocyada aragga ee caadiga ah waxay ku fiican yihiin hal hawl oo keliya, waxayna u baahan yihiin dadaal weyn si loogu waafajiyo hawl cusub; noocyada si fiican uga shaqeeya benchmark-yada ayaana leh waxqabad niyad-jab leh oo liita marka lagu sameeyo tijaabooyin culus,^{1, 2, 3, 4} taas oo shaki gelinaysa gebi ahaanba habka waxbarashada qotada dheer ee aragga kombiyuutarka.

Waxaan soo bandhigaynaa shabakad neerfo ah oo ujeedadeedu tahay inay wax ka qabato dhibaatooyinkan: waxaa lagu tabbabaray sawirro aad u kala duwan oo wata kormeer luuqad dabiici ah oo aad u kala duwan kana badan oo si weyn looga heli karo internetka. Naqshad ahaan, shabakadda waxaa lagu farikaraa luuqad dabiici ah inay qabato noocyo badan oo kala duwan oo benchmark-yo kala-soocid ah, iyada oo aan si toos ah loogu wanaajin waxqabadka benchmark-ka, si la mid ah awoodaha “zero-shot⁠(ku furmaa daaqad cusub)” ee GPT‑2⁵ iyo GPT‑3.⁶ Tani waa isbeddel muhiim ah: maadaama aan si toos ah loogu wanaajin benchmark-ka, waxaan muujineynaa inay noqoto mid aad uga wakiilnimo badan: nidaamkeennu wuxuu xirayaa “farqiga robustness-ka” ilaa 75% isagoo la jaanqaadaya waxqabadka ResNet-50 asalka ah⁷ ee ImageNet⁠(ku furmaa daaqad cusub) zero-shot iyada oo aan la isticmaalin midkoodna 1.28M tusaalooyinka calaamadeysan ee asalka ahaa.

Soo raraya...

Asalka iyo shaqooyinka la xiriira

CLIP (Contrastive Language–Image Pre-training) wuxuu ku dhisan yahay shaqo badan oo ku saabsan waxqabadka tooska ah, kormeerka luuqadda dabiiciga ah, iyo barashada multimodal. Fikradda barashada xog-la’aanta waxay soo bilaabatay in ka badan toban sano ka hor⁸ laakiin ilaa dhowaan inta badan waxaa lagu bartay aragga kombiyuutarka si ay u noqoto hab lagu gaarsiiyo guudmar qaybaha walxaha aan hore loo arag.^{9, 10} Aragti muhiim ah ayaa ahayd in luuqadda dabiiciga ah loo adeegsado meel saadaalin dabacsan ah si loo suurtageliyo guudmar iyo wareejin. Sannadkii 2013, Richard Socher iyo qoraayaal kale oo Stanford ka tirsan¹¹ ayaa sameeyay caddeyn fikradeed iyagoo tababbaray nooc ku saabsan CIFAR-10 si uu saadaal uga sameeyo meel ku-dhejis vector eray ah, waxayna muujiyeen in noocani saadaalin karo laba fasal oo aan hore loo arag. Isla sannadkaas DeVISE¹² ayaa ballaariyay habkan waxayna muujisay inay suurtagal tahay in si gaar ah loo hagaajiyo nooc ImageNet ah si uu ugu gaarsiiyo saadaalinta saxda ah ee walxaha ka baxsan 1000-kii qaybood ee tabbabarka asalka ahaa.

Shaqada ugu dhiirrigelinta badan ee CLIP waa shaqada Ang Li iyo wada-qorayaashiisa FAIR¹³ kuwaas oo sannadkii 2016 muujiyay isticmaalka kormeerka luuqadda dabiiciga ah si loo suurtageliyo wareejinta zero-shot ee dhowr xog-ururin kala-soocid arag kombiyuutar oo hore u jiray, sida xog-ururinta caanka ah ee ImageNet. Waxay taas ku gaareen iyagoo si gaar ah u hagaajiyay ImageNet CNN si uu u saadaaliyo tiro aad uga ballaaran oo fikrado muuqaal ah (visual n-grams) laga soo qaatay qoraalka cinwaannada, sharaxaadaha, iyo tags-ka 30 milyan oo sawir Flickr ah, waxayna gaareen 11.5% saxnaan ah oo ku saabsan ImageNet zero-shot.

Ugu dambayn, CLIP wuxuu ka mid yahay koox waraaqo cilmiyeed ah oo dib u eegay barashada matalaadaha muuqaalka laga helo kormeerka luuqadda dabiiciga ah sannadkii la soo dhaafay. Khadkan shaqo wuxuu isticmaalaa dhismayaal casri ah sida transformer³² waxayna ka mid yihiin VirTex,³³ oo sahamisay qaabeynta luuqadda autoregressive, ICMLM,³⁴ oo baaray qaabeynta luuqadda ee masked, iyo ConVIRT,³⁵ oo daraasaysay isla ujeeddada contrastive ee aan u isticmaalno CLIP balse ku jirta dhinaca sawir-qaadista caafimaadka.

Habka

Waxaan muujineynaa in ballaarinta hawl fudud oo wejiga hore ee tabbabarka ah ay ku filan tahay in lagu gaaro waxqabad zero-shot oo la tartami kara xog-ururin badan oo kala-soocid sawir ah. Habkeenna wuxuu isticmaalaa il kormeer oo si badan loo heli karo: qoraalka lala lammaaniyay sawirrada ee laga helo internetka oo dhan. Xogtan waxaa loo isticmaalaa in lagu abuuro hawsha tabbabareed ee wakiilka ah ee soo socota ee CLIP: marka sawir la siiyo, saadaali midka ka mid ah 32,768 qaybo qoraal ah oo si random ah loo soo xulay kaas oo dhab ahaantii lagu lammaaniyay xog-ururintayada.

Si hawshan loo xalliyo, dareenkeenna ayaa ah in noocyada CLIP ay u baahan doonaan inay bartaan aqoonsiga tiro badan oo fikrado muuqaal ah oo ku jira sawirrada ayna la xiriiriyaan magacyadooda. Natiijadaas awgeed, noocyada CLIP waxaa markaas lagu dabaqi karaa ku dhowaad hawl kasta oo kala-soocid muuqaal ah. Tusaale ahaan, haddii hawsha xog-ururintu tahay kala-soocidda sawirrada eyda iyo bisadaha, sawir kasta waxaan ka hubinnaa in nooc CLIP ahi saadaaliyo in sharaxaadda qoraalka “sawir ey ah” ama “sawir bisad ah” ay u badan tahay in lagu lammaaniyo.

Soo raraya...

CLIP waxaa loo naqshadeeyay si uu u yareeyo dhowr dhibaato oo waaweyn oo ku jira habka caadiga ah ee waxbarashada qotada dheer ee aragga kombiyuutarka:

Xog-ururin qaali ah: Waxbarashada qotada dheer waxay u baahan tahay xog badan, noocyada araggana dhaqan ahaan waxaa lagu tabbabaray xog-ururin si gacanta ah loo calaamadeeyay oo qaali ku ah dhisiddu isla markaana bixisa kormeer keliya tiro kooban oo fikrado muuqaal ah oo horay loo sii go’aamiyay. Xog-ururinta ImageNet, oo ka mid ah dadaallada ugu waaweyn ee goobtan, waxay u baahatay in ka badan 25,000 shaqaale si ay u calaamadeeyaan 14 milyan oo sawir oo loogu talagalay 22,000 qaybood oo walxo ah. Taas beddelkeeda, CLIP wuxuu ka barta lammaaneyaasha qoraal–sawir ee horay si dadweyne ah uga jira internetka. Yaraynta baahida loo qabo xog-ururin waaweyn oo calaamadeysan oo qaali ah waxaa si ballaaran u daraaseeyay shaqooyinkii hore, gaar ahaan is-barashada la kormeero nafteeda,^{14, 15, 16} hababka contrastive,^{17, 18, 19, 20, 21} hababka self-training,^{22, 23} iyo qaababka wax soo saarka.^{24, 25, 26, 27}

Cidhiidhi: Nooc ImageNet ah wuxuu ku fiican yahay saadaalinta 1000-ka qaybood ee ImageNet, balse intaas oo keliya ayuu “sanduuqa ka soo baxo” ku qaban karaa. Haddii aan rabno inaan fulinno hawl kale, khabiir ML ah waa inuu dhisaa xog-ururin cusub, ku daraa madax soo saarid, kadibna si gaar ah u hagaajiyaa nooca. Taas beddelkeeda, CLIP waxaa loo waafajin karaa inuu qabto hawlo badan oo kala duwan oo kala-soocid muuqaal ah isaga oo aan u baahnayn tusaalooyin tabbabareed dheeraad ah. Si CLIP loogu dabaqo hawl cusub, waxa kaliya ee aan u baahanahay waa inaan u “sheegno” qoraal-enkoodharka CLIP magacyada fikradaha muuqaalka ee hawsha, wuxuuna soo saari doonaa kala-soociye toosan oo matalaadaha muuqaalka ee CLIP ah. Saxnaanta kala-soociyahan badanaa waxay la tartantaa noocyada si buuxda loo kormeero.

Hoos waxaan ku muujineynaa saadaallo random ah oo aan si gaar ah loo xulan oo ka yimid kala-soociyeyaasha zero-shot CLIP ee tusaalooyin ka socda xog-ururin kala duwan.

Soo raraya...

Waxqabad daciif ah oo dunida dhabta ah: Nidaamyada waxbarashada qotada dheer waxaa badanaa lagu soo warramaa inay gaaraan waxqabad la mid ah bini’aadamka ama xitaa ka sarreeya^{28, A} marka lagu eego cabbirrada aragga, hase yeeshee marka lagu dabaqo xaaladaha dhabta ah waxqabadkoodu aad buu uga hooseyn karaa filashadii ay cabbirradani abuureen. Si kale haddii loo dhigo, waxaa jira farqi u dhexeeya “waxqabadka benchmark” iyo “waxqabadka dhabta ah.” Waxaan qiyaasaynaa in farqigan uu dhaco sababtoo ah noocyadu waxay “qiyaanaan” iyagoo keliya u wanaajinaya waxqabadka benchmark-ka, si la mid ah arday imtixaan ku baasay isagoo bartay oo keliya su’aalihii imtixaannadii sannadihii hore. Taas beddelkeeda, nooca CLIP waxaa lagu qiimeyn karaa benchmark-yada iyada oo aan lagu tabbabarin xogtooda, sidaas darteed sidan uma “qiyaami” karo. Tani waxay keentaa in waxqabadkiisa benchmark uu si aad uga wakiilnimo badan u noqdo waxqabadkiisa xaaladaha dhabta ah. Si loo xaqiijiyo “mala-awaalka qiyaanada”, waxaan sidoo kale cabbirnaa sida waxqabadka CLIP isu beddelo marka uu awoodo inuu “u barto” ImageNet. Marka kala-soociye toosan lagu habeeyo dusha astaamaha CLIP, wuxuu kor u qaadaa saxnaanta CLIP ee xogta tijaabada ImageNet ku dhowaad 10%. Hase yeeshee, kala-soociyahani celcelis ahaan kama wanaagsana guud ahaan xirmo qiimeyn ah oo ka kooban 7 xog-ururin oo kale oo cabbiraya waxqabadka “adag”.³⁰

Qodobbada muhiimka ah

1. CLIP waa mid aad u hufan

CLIP wuxuu ka barta xog aan la shaandhayn, aad u kala duwan, isla markaana aad u buuq badan, waxaana loogu talagalay in loo isticmaalo qaab zero-shot ah. Waxaan ka ognahay GPT‑2 iyo 3 in noocyada lagu tabbabaro xog noocan ah ay gaari karaan waxqabad zero-shot oo qancin leh; hase yeeshee, noocyadaas waxay u baahan yihiin xisaabin tabbabareed oo weyn. Si loo yareeyo xisaabinta loo baahan yahay, waxaan diiradda saarnay habab algoriitham ah oo lagu hagaajinayo hufnaanta tabbabarka ee habkeenna.

Waxaan soo sheegeynaa laba doorasho oo algoriitham ah oo horseeday keydin weyn oo xisaabin ah. Doorashada koowaad waa qaadashada ujeeddo contrastive ah oo lagu xiriirinayo qoraalka iyo sawirrada.^{31, 17, 35} Markii hore waxaan sahaminay hab sawir-ilaa-qoraal ah, oo la mid ah VirTex,³³ laakiin waxaan la kulannay dhibaatooyin ku saabsan ballaarinta si loo gaaro waxqabad heerka ugu sarreeya. Tijaabooyin yar ilaa dhexdhexaad ah, waxaan ogaanay in ujeeddada contrastive ee CLIP isticmaalo ay 4x ilaa 10x uga hufan tahay kala-soocidda zero-shot ImageNet. Doorashada labaad waxay ahayd qaadashada Vision Transformer,³⁶ taas oo na siisay faa’iido kale oo 3x ah oo hufnaanta xisaabinta ah marka loo eego ResNet caadi ah. Ugu dambayn, nooca CLIP ee noogu waxqabadka fiican wuxuu ku tabbabarmayaa 256 GPUs muddo 2 toddobaad ah taas oo la mid ah noocyada sawirrada waaweyn ee hadda jira.^{37, 23, 38, 36}

Soo raraya...

2. CLIP waa dabacsan oo guud

Sababtoo ah waxay si toos ah uga bartaan luuqadda dabiiciga ah fikrado muuqaal ah oo kala duwan, noocyada CLIP aad bay uga dabacsan yihiin ugana guud badan yihiin noocyada ImageNet ee hadda jira. Waxaan ogaanay inay awoodaan inay zero-shot ku qabtaan hawlo badan oo kala duwan. Si tan loo xaqiijiyo waxaan cabbirnay waxqabadka zero-shot ee CLIP in ka badan 30 xog-ururin oo kala duwan oo ay ku jiraan hawlo sida kala-soocidda walxaha si aad u faahfaahsan, geo-localization, aqoonsiga ficillada ee fiidyowyada, iyo OCR.^B Gaar ahaan, barashada OCR waa tusaale dabeecad xiiso leh oo aan ka dhicin noocyada caadiga ah ee ImageNet. Kor, waxaan ku muujineynaa saadaal random ah oo aan si gaar ah loo xulan oo ka socota kala-soociye kasta oo zero-shot ah.

Natiijadan sidoo kale waxay ka muuqataa qiimeyn caadi ah oo barashada matalaadda ah oo la adeegsanayo linear probes. Nooca CLIP ee ugu fiican wuxuu ka sarreeyaa nooca ImageNet ee ugu fiican ee si dadweyne ah loo heli karo, Noisy Student EfficientNet-L2,²³ 20 ka mid ah 26-ka xog-ururin wareejin ee kala duwan ee aan tijaabinay.

Soo raraya...

Xaddidaadaha

In kasta oo CLIP badanaa si fiican uga shaqeeyo aqoonsiga walxaha caamka ah, haddana wuxuu ku dhibtoodaa hawlo ka sii mala-awaalsan ama nidaamsan sida tirinta tirada walxaha ku jira sawir iyo hawlo ka sii adag sida saadaalinta inta uu u dhow yahay gaariga ugu dhow ee ku jira sawir. Labadan xog-ururin, zero-shot CLIP wax yar oo keliya ayuu kaga fiican yahay qiyaas random ah. Zero-shot CLIP sidoo kale wuu ku dhibtoodaa marka lala barbar dhigo noocyada hawl-gaar ah ee kala-soocid aad u faahfaahsan, sida kala saaridda moodooyinka baabuurta, noocyada kala duwan ee diyaaradaha, ama noocyada ubaxa.

CLIP sidoo kale weli wuxuu leeyahay awood guudmar oo liidata marka la eego sawirrada aan ku jirin xogtiisa wejiga hore ee tabbabarka. Tusaale ahaan, inkasta oo CLIP barto nidaam OCR oo awood leh, marka lagu qiimeeyo tirooyinka gacanta lagu qoray ee xog-ururinta MNIST, zero-shot CLIP wuxuu gaaraa oo keliya 88% saxnaan, taas oo aad uga hooseysa 99.75% ee bini’aadamka ee xog-ururintaas. Ugu dambayn, waxaan aragnay in kala-soociyeyaasha zero-shot ee CLIP ay u nuglaan karaan eray-bixinta ama weedhaynta, marmarna u baahan yihiin tijaabo iyo khalad “injineeriyadda weydiinta” si ay si fiican u shaqeeyaan.

Saameynaha ballaaran

CLIP wuxuu dadka u oggolaanayaa inay sameystaan kala-soociyayaal u gaar ah wuxuuna meesha ka saaraa baahida loo qabo xog tabbabareed oo hawl-gaar ah. Sida fasalladan loo qaabeeyo waxay si weyn u saameyn kartaa waxqabadka nooca iyo eexda nooca labadaba. Tusaale ahaan, waxaan ogaanay in marka la siiyo qaybo magacyo ah oo ay ku jiraan summadaha isirka ee Fairface³⁹ ^C iyo dhowr eray oo aad u xun sida “dambiile”, “xayawaan,” iwm, noocu u janjeero inuu sawirrada dadka da’doodu u dhexeyso 0–20 sano ku daro qaybta xun qiyaastii ~32.3%. Hase yeeshee, marka aan ku darno fasalka “cunug” liiska fasallada suurtagalka ah, dhaqankan wuxuu hoos ugu dhacaa ~8.7%.

Intaa waxaa dheer, maadaama CLIP uusan u baahnayn xog tabbabareed oo hawl-gaar ah, wuxuu fududeyn karaa hawlo gaar-gaar ah oo qaarkood si sahlan loo fuliyo. Qaar ka mid ah hawlahan waxay dhalin karaan khataro la xiriira asturnaanta ama la socodka, waxaana arrintan ku baarnay anagoo daraaseynayna waxqabadka CLIP ee aqoonsiga dadka caanka ah. CLIP wuxuu leeyahay saxnaan top-1 ah oo dhan 59.2% ee kala-soocidda sawirrada dadka caanka ah ee “duurjoogta” marka laga xulayo 100 musharrax, iyo saxnaan top-1 ah oo dhan 43.3% marka laga xulayo 1000 doorasho oo suurtagal ah. Inkasta oo ay mudan tahay in la gaaro natiijooyinkan iyadoo la adeegsanayo wejiga hore ee tabbabarka ee aan ku xirnayn hawl gaar ah, haddana waxqabadkani ma aha mid la tartami kara marka lala barbar dhigo noocyada heer-soo-saar ee si ballaaran loo heli karo. Waxaan si dheeraad ah ugu falanqeyneynaa caqabadaha uu CLIP keeno waraaqdeena⁠(ku furmaa daaqad cusub) waxaanan rajeyneynaa in shaqadani dhiirrigeliso cilmi-baaris mustaqbalka ku saabsan sifeynta awoodaha, gaabisyada, iyo eexaha noocyadan oo kale. Waxaan ku faraxsanahay inaan su’aalahan kala shaqeyno bulshada cilmi-baarista.

Gunaanad

Iyada oo la adeegsanayo CLIP, waxaan tijaabinay in wejiga hore ee tabbabarka ee aan ku xidhneyn hawl gaar ah ee ku saabsan luuqadda dabiiciga ah ee heerka internetka, taas oo horseedday horumarro waaweyn oo dhawaan ka dhacay NLP, sidoo kale loo adeegsan karo in lagu hagaajiyo waxqabadka waxbarashada qotada dheer ee dhinacyo kale. Aad ayaan ugu faraxsanahay natiijooyinka aan illaa hadda ku aragnay marka aan habkan ku dabaqno aragga kombiyuutarka. Sida qoyska GPT, CLIP wuxuu barto hawlo kala duwan inta lagu jiro wejiga hore ee tabbabarka, taas oo aan ku muujinno wareejinta zero-shot. Sidoo kale waxaa na dhiirrigeliyay natiijooyinkayaga ku saabsan ImageNet oo tilmaamaya in qiimeynta zero-shot ay tahay cabbir si ka wakiilnimo badan u muujinaya awoodda nooc.

Qoraallada hoose

29
Sannadkii 2015, koox cilmi-baarayaal ah oo ka socday Microsoft ayaa markii ugu horreysay tababbaray nooc gaadhay saxnaan top-5 ah oo ku saabsan ImageNet taas oo ka sarreysay saxnaanta top-5 ee bini’aadamka ee la soo sheegay.
B
In kasta oo waxqabadka zero-shot OCR ee CLIP uu isugu jiro heerar kala duwan, matalaaddiisa macneyeed ee OCR aad bay waxtar u leedahay. Marka lagu qiimeeyo xog-ururinta NLP ee SST-2 oo loo rogay sawirro, kala-soociye toosan oo ku salaysan matalaadda CLIP wuxuu la jaanqaadaa nooc CBoW ah oo si toos ah u heli kara qoraalka. CLIP sidoo kale wuxuu ku tartami karaa ogaanshaha memes naceyb ah isaga oo aan u baahnayn qoraalka saxda ah ee asalka ah.
40
FairFace waa xog-ururin sawirrada wejiyada ah oo loo sameeyay in lagu dheellitiro da’da, jinsiga, iyo isirka, si loo yareeyo sinnnaan la’aanta ku badan xog-ururintii wejiyada ee hore. Waxay jinsiga u kala saartaa 2 kooxood: dhedig iyo lab, halka isirkana u kala saarto 7 kooxood: Caddaan, Madow, Hindi, Bariga Aasiya, Koonfur-bari Aasiya, Bariga Dhexe, iyo Latino. Waxaa jira dhibaatooyin dabiici ah oo la socda kala-saarista isirka iyo jinsiga, sida tusaale ahaan Bowker and Star (2000) iyo Keyes (2018) ay muujiyeen. Inkasta oo xog-ururinta FairFace ay yarayso saamiga wejiyada Caddaanka ah, haddana weli waxaa ka maqan matalaadda dhammaan kooxo dadweyne oo waaweyn, taas oo si wax ku ool ah u tirtiraysa qaybahaas. Waxaan tijaabooyinkeenna qaarkood ku isticmaalnaa 2-da qaybood ee jinsiga iyo 7-da qaybood ee isirka ee lagu qeexay xog-ururinta FairFace, ma aha si aan u xoojinno ama u taageerno isticmaalka qaybahan aadka u koobban, balse si ay noogu suurtagasho inaan isbarbardhig ku samaynno shaqooyinkii hore.

Tixraacyo

1
Dodge, S., & Karam, L. (2017, July). “Daraasad iyo isbarbardhig ku saabsan waxqabadka aqoonsiga ee bini’aadamka iyo waxbarashada qotada dheer marka ay jiraan qalloocyo muuqaal ah.⁠(ku furmaa daaqad cusub)” In ICCCN 2017.
2
Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, F. A., & Brendel, W. (2018). “CNN-yada lagu tabbabaro ImageNet waxay u eexdaan qaab-dhismeedka dusha; kordhinta eexda qaabka waxay hagaajisaa saxnaanta iyo adkeysiga.⁠(ku furmaa daaqad cusub)” In ICLR 2019.
3
Alcorn, M. A., Li, Q., Gong, Z., Wang, C., Mai, L., Ku, W. S., & Nguyen, A. (2019). “Qaado istaagis: shabakadaha neerfaha si sahlan ayaa loogu khaldaa qaabab yaab leh oo walxo la yaqaan leh.⁠(ku furmaa daaqad cusub)” In CVPR 2019.
4
Barbu, A., Mayo, D., Alverio, J., Luo, W., Wang, C., Gutfreund, D., ... & Katz, B. (2019). “Objectnet: Xog-ururin baaxad weyn leh oo eexda la xakameeyay si loo riixo xadka noocyada aqoonsiga walxaha.⁠(ku furmaa daaqad cusub)” In NeurIPS 2019.
5
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Qaababka luuqadda waa bartayaal hawlo badan oo aan la kormeerin.⁠(ku furmaa daaqad cusub)” Technical Report, OpenAI.
6
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Agarwal, S. (2020). “Qaababka luuqaddu waa bartayaal tiro yar.⁠(ku furmaa daaqad cusub)” In NeurIPS 2020.
7
He, K., Zhang, X., Ren, S., & Sun, J. (2016). “Barashada hadhaaga qotada dheer ee aqoonsiga sawirrada.⁠(ku furmaa daaqad cusub)” In CVPR 2016.
8
Larochelle, H., Erhan, D., & Bengio, Y. (2008, July). “Barashada hawlo cusub iyadoo aan xog la hayn.⁠(ku furmaa daaqad cusub)” In AAAI 2008.
9
Lampert, C. H., Nickisch, H., & Harmeling, S. (2009, June). “Barashada ogaanshaha fasallada walxaha aan la arag iyadoo la adeegsanayo wareejinta sifooyinka u dhexeeya fasallada.⁠(ku furmaa daaqad cusub)” In CVPR 2009.
10
Lei Ba, J., Swersky, K., & Fidler, S. (2015). “Saadaalinta shabakadaha neerfaha convolutional ee qotada dheer ee zero-shot iyadoo la adeegsanayo sharaxaad qoraal ah.⁠(ku furmaa daaqad cusub)” In ICCV 2015.
11
Socher, R., Ganjoo, M., Manning, C. D., & Ng, A. (2013). “Barashada zero-shot iyada oo loo marayo wareejin iskutallaab-modal ah.⁠(ku furmaa daaqad cusub)” In NeurIPS 2013.
12
Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M. A., & Mikolov, T. (2013). “Devise: nooc ku-dhejis qoto dheer oo muuqaal-macne ah.⁠(ku furmaa daaqad cusub)” In NeurIPS 2013.
13
Li, A., Jabri, A., Joulin, A., & van der Maaten, L. (2017). “Barashada visual n-grams laga helo xogta webka.⁠(ku furmaa daaqad cusub)” In Proceedings of the IEEE International Conference on Computer Vision 2017.
14
Doersch, C., Gupta, A., & Efros, A. A. (2015). “Barashada matalaadda muuqaalka ee aan la kormeerin iyadoo la adeegsanayo saadaalinta macnaha ku xeeran.⁠(ku furmaa daaqad cusub)” In ICCV 2015.
15
Zhai, X., Oliver, A., Kolesnikov, A., & Beyer, L. (2019). “S4l: Is-barasho la kormeeran iyo nus-kormeeran.⁠(ku furmaa daaqad cusub)” In ICCV 2019.
16
Grill, J. B., Strub, F., Altché, F., Tallec, C., Richemond, P. H., Buchatskaya, E., ... & Piot, B. (2020). “Dhiso astaantaada qarsoon: hab cusub oo is-barasho ah.⁠(ku furmaa daaqad cusub)” In NeurIPS 2020.
17
Oord, A. V. D., Li, Y., & Vinyals, O. (2018). “Barashada matalaadda iyadoo la adeegsanayo Contrastive Predictive Coding.⁠(ku furmaa daaqad cusub)” arXiv preprint.
18
Hjelm, R. D., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Barashada matalaado qoto dheer iyadoo la qiyaasayo lana badinayo xogta wadaagga ah.⁠(ku furmaa daaqad cusub)” In ICLR 2019.
19
Bachman, P., Hjelm, R. D., & Buchwalter, W. (2019). “Barashada matalaadaha iyadoo la badinayo xogta wadaagga ah ee u dhexeysa aragtiyo kala duwan.⁠(ku furmaa daaqad cusub)” In NeurIPS 2019.
20
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). “Momentum contrast ee barashada matalaadda muuqaalka aan la kormeerin.⁠(ku furmaa daaqad cusub)” In CVPR 2020.
21
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). “Qaab fudud oo loogu talagalay barashada contrastive ee matalaadaha muuqaalka.⁠(ku furmaa daaqad cusub)” arXiv preprint.
22
Lee, D. H. (2013, June). “Pseudo-label: Habka fudud oo hufan ee barashada nus-kormeeran ee shabakadaha neerfaha qotada dheer.⁠(ku furmaa daaqad cusub)” In Workshop on challenges in representation learning, ICML (2013).
23
Xie, Q., Luong, M. T., Hovy, E., & Le, Q. V. (2020). “Is-tabbabar la socda arday buuq leh wuxuu hagaajiyaa kala-soocidda imagenet.⁠(ku furmaa daaqad cusub)” In CVPR 2020.
24
Kingma, D. P., Mohamed, S., Jimenez Rezende, D., & Welling, M. (2014). “Barashada nus-kormeeran iyadoo la adeegsanayo qaababka wax soo saarka qotada dheer.⁠(ku furmaa daaqad cusub)” In NeurIPS 2014.
25
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., & Chen, X. (2016). “Farsamooyin la hagaajiyay oo loogu talagalay tabbabarka gans.⁠(ku furmaa daaqad cusub)” In NeurIPS 2016.
26
Donahue, J., & Simonyan, K. (2019). “Barashada matalaadda liddi ku ah ee baaxad weyn.⁠(ku furmaa daaqad cusub)” In NeurIPS 2019.
27
Chen, M., Radford, A., Child, R., Wu, J., Jun, H., Luan, D., & Sutskever, I. (2020, November). “Wejiga hore ee tabbabarka wax soo saar ee pixels.⁠(ku furmaa daaqad cusub)” In ICML 2020.
28
He, K., Zhang, X., Ren, S., & Sun, J. (2015). “U kuurgalid qoto dheer oo Rectifiers ah: ka gudubka waxqabadka heerka bini’aadamka ee kala-soocidda ImageNet.⁠(ku furmaa daaqad cusub)” In ICCV 2015.
29
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., ... & Berg, A. C. (2015). “Caqabadda aqoonsiga muuqaalka baaxadda weyn ee Imagenet.⁠(ku furmaa daaqad cusub)” In IJCV 2015.
30
Taori, R., Dave, A., Shankar, V., Carlini, N., Recht, B., & Schmidt, L. (2020). “Cabbiridda adkeysiga ee isbeddellada dabiiciga ah ee qaybinta kala-soocidda sawirrada.⁠(ku furmaa daaqad cusub)” In NeurIPS 2020.
31
Sohn, K. (2016). “Barashada metric qoto dheer oo la hagaajiyay iyadoo la adeegsanayo ujeeddada khasaaraha multi-class n-pair.⁠(ku furmaa daaqad cusub)” In NeurIPS 2016.
32
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). “Attention waa waxa kaliya ee aad u baahan tahay.⁠(ku furmaa daaqad cusub)” In NeurIPS 2017.
33
Desai, K., & Johnson, J. (2020). “VirTex: Barashada Matalaadaha Muuqaalka laga helo Faallooyin Qoraal ah.⁠(ku furmaa daaqad cusub)” arXiv preprint.
34
Sariyildiz, M. B., Perez, J., & Larlus, D. (2020). “Barashada Matalaadaha Muuqaalka iyadoo la adeegsanayo Faallooyin Caption ah.⁠(ku furmaa daaqad cusub)” In ECCV 2020.
35
Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., & Langlotz, C. P. (2020). “Barashada Contrastive ee Matalaadaha Muuqaalka Caafimaadka laga helo Sawirro iyo Qoraal Isbarbar yaal ah.⁠(ku furmaa daaqad cusub)” arXiv preprint.
36
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Uszkoreit, J. (2020). “Sawir wuxuu u qalmaa 16x16 eray: Transformers loogu talagalay aqoonsiga sawirrada ee baaxad weyn.⁠(ku furmaa daaqad cusub)” arXiv preprint.
37
Mahajan, D., Girshick, R., Ramanathan, V., He, K., Paluri, M., Li, Y., ... & van der Maaten, L. (2018). “Sahaminta xuduudaha wejiga hore ee tabbabarka si daciif ah loo kormeero.⁠(ku furmaa daaqad cusub)” In ECCV 2018.
38
Kolesnikov, A., Beyer, L., Zhai, X., Puigcerver, J., Yung, J., Gelly, S., & Houlsby, N. (2019). “Big Transfer (BiT): Barashada Guud ee Matalaadda Muuqaalka.⁠(ku furmaa daaqad cusub)” arXiv preprint.
39
Kärkkäinen, K., & Joo, J. (2019). “Fairface: Xog-ururinta sifooyinka wejiga ee isir, jinsi, iyo da’ dheellitiran.⁠(ku furmaa daaqad cusub)” arXiv preprint.
40
Bowker, G., & Star, S. L. (1999). “Kala saarista waxyaabaha. Kala-saarista iyo cawaaqibkeeda⁠(ku furmaa daaqad cusub)” Book.
41
Keyes, O. (2018). “Mashiinnada khalda jinsiga: Saameynta Trans/HCI ee aqoonsiga jinsiga otomaatiga ah.⁠(ku furmaa daaqad cusub)” In Proceedings of the ACM on Human-Computer Interaction.

Qorayaasha

Alec Radford, Ilya Sutskever, Jong Wook Kim, Gretchen Krueger, Sandhini Agarwal

Mahadcelin

Waxaan jeclaan lahayn inaan u mahadcelinno malaayiinta qof ee ku lug lahaa abuurista xogta lagu tabbabaro CLIP. Sidoo kale waxaan uga mahadcelineynaa dhammaan wada-qorayaasheenna wax-ku-darsigooda mashruuca. Ugu dambayn, waxaan jeclaan lahayn inaan u mahadcelinno Jeff Clune, Miles Brundage, Ryan Lowe, Jakub Pachocki, iyo Vedant Misra fikrad-celintii ay ka bixiyeen qabyo-qoraallada bloggan, iyo Matthew Knight dib-u-eegistii sii-daynta koodhka.