5 જાન્યુઆરી, 2021

CLIP: લખાણ અને છબીઓને જોડવું

ચિત્રાંકન: Justin Jay Wang

લોડિંગ…

અમે CLIP નામનું એક ન્યુરલ નેટવર્ક રજૂ કરી રહ્યા છીએ, જે કુદરતી ભાષા સુપરવિઝનથી દૃશ્ય સંકલ્પનાઓ કાર્યક્ષમ રીતે શીખે છે. GPT‑2 અને GPT‑3ની “ઝીરો-શોટ” ક્ષમતાઓની જેમ, CLIPને ઓળખવાની દૃશ્ય શ્રેણીઓના નામો આપીને તે કોઈપણ દૃશ્ય વર્ગીકરણ બૅન્ચમાર્ક પર લાગુ કરી શકાય છે.

જોકે ડીપ લર્નિંગે કમ્પ્યુટર વિઝનમાં ક્રાંતિ લાવી છે, વર્તમાન અભિગમોમાં કેટલીક મોટી સમસ્યાઓ છે: સામાન્ય વિઝન ડેટાસેટ્સ બનાવવામાં ભારે માનવીય મહેનત અને ખર્ચ લાગે છે અને તેઓ માત્ર મર્યાદિત દૃશ્ય સંકલ્પનાઓ જ શીખવે છે; માનક વિઝન મોડલ્સ એક જ કાર્યમાં સારા હોય છે અને નવા કાર્ય માટે તેમને અનુકૂલિત કરવા નોંધપાત્ર પ્રયત્ન જોઈએ; અને બૅન્ચમાર્ક્સ પર સારું પ્રદર્શન કરતા મોડલ્સ સ્ટ્રેસ ટેસ્ટ્સમાં નિરાશાજનક રીતે નબળું પ્રદર્શન આપે છે,^{1, 2, 3, 4} જે કમ્પ્યુટર વિઝન માટેના સમગ્ર ડીપ લર્નિંગ અભિગમ પર શંકા ઊભી કરે છે.

અમે એક ન્યુરલ નેટવર્ક રજૂ કરીએ છીએ જે આ સમસ્યાઓ ઉકેલવાનો પ્રયત્ન કરે છે: તેને ઇન્ટરનેટ પર પ્રચુર પ્રમાણમાં ઉપલબ્ધ વિવિધ પ્રકારની કુદરતી ભાષા સુપરવિઝન સાથેની વિવિધ પ્રકારની છબીઓ પર ટ્રેન કરવામાં આવ્યું છે. ડિઝાઇન મુજબ, નેટવર્કને કુદરતી ભાષામાં સૂચના આપી બહુવિધ વર્ગીકરણ બૅન્ચમાર્ક્સ કરવા કહી શકાય છે, બૅન્ચમાર્કના પ્રદર્શન માટે સીધું ઑપ્ટિમાઇઝ કર્યા વગર, GPT‑2⁵ અને GPT‑3.⁶ ની “ઝીરો-શોટ⁠(નવી વિન્ડોમાં ખૂલે છે)” ક્ષમતાઓ જેવી રીતે. આ એક મહત્વપૂર્ણ ફેરફાર છે: બૅન્ચમાર્ક માટે સીધું ઑપ્ટિમાઇઝ ન કરવાથી, અમે બતાવીએ છીએ કે તે ઘણું વધુ પ્રતિનિધિત્વશીલ બને છે: અમારી સિસ્ટમ આ “robustness gap” ને 75% સુધી ઘટાડે છે અને મૂળ ResNet-50⁷ ના ImageNet⁠(નવી વિન્ડોમાં ખૂલે છે) ઝીરો-શોટ પ્રદર્શનને બરાબરી આપે છે, તે પણ મૂળ 1.28M લેબલ્ડ ઉદાહરણોમાંથી એક પણ વાપર્યા વગર.

લોડ થઈ રહ્યું છે...

પૃષ્ઠભૂમિ અને સંબંધિત કાર્ય

CLIP (Contrastive Language–Image Pre-training) ઝીરો-શોટ ટ્રાન્સફર, કુદરતી ભાષા સુપરવિઝન અને મલ્ટીમોડલ લર્નિંગ પરના વિશાળ કાર્યસંગ્રહ પર આધારિત છે. ઝીરો-ડેટા લર્નિંગનો વિચાર એક દાયકાથી પણ જૂનો છે⁸ પરંતુ તાજેતર સુધી તેનો અભ્યાસ મુખ્યત્વે કમ્પ્યુટર વિઝનમાં અદેખા વસ્તુ વર્ગોમાં સામાન્યકરણના એક માર્ગ તરીકે થતો હતો.^{9, 10} એક મહત્વપૂર્ણ સમજ એ હતી કે સામાન્યકરણ અને ટ્રાન્સફર સક્ષમ કરવા માટે કુદરતી ભાષાને લવચીક આગાહી અવકાશ તરીકે ઉપયોગમાં લેવાય. 2013માં, Stanfordના Richard Socher અને સહ-લેખકોએ¹¹ CIFAR-10 પર એક મોડલ ટ્રેન કરીને word vector embedding spaceમાં આગાહીઓ કરવાની સંકલ્પના-પ્રમાણ પદ્ધતિ વિકસાવી અને બતાવ્યું કે આ મોડલ બે અદેખા વર્ગોની આગાહી કરી શકે છે. એ જ વર્ષે DeVISE¹² એ આ અભિગમને વિસ્તૃત કર્યો અને બતાવ્યું કે ImageNet મોડલને fine-tune કરીને તેને મૂળ 1000 ટ્રેનિંગ સેટની બહારની વસ્તુઓની યોગ્ય આગાહી કરવા માટે સામાન્યકરણ કરાવી શકાય છે.

CLIP માટે સૌથી પ્રેરણાદાયક કામ Ang Li અને FAIR ખાતેના તેમના સહ-લેખકોનું છે¹³ જેમણે 2016માં બતાવ્યું કે કુદરતી ભાષા સુપરવિઝનનો ઉપયોગ કરીને ImageNet જેવા અનેક અસ્તિત્વમાં રહેલા કમ્પ્યુટર વિઝન વર્ગીકરણ ડેટાસેટ્સ પર ઝીરો-શોટ ટ્રાન્સફર સક્ષમ કરી શકાય છે. તેમણે 30 મિલિયન Flickr ફોટાઓના શીર્ષકો, વર્ણનો અને ટૅગ્સના લખાણમાંથી ઘણાં વિસ્તૃત દૃશ્ય સંકલ્પનાઓ (visual n-grams) ની આગાહી કરવા માટે ImageNet CNNને fine-tune કરીને આ સિદ્ધિ હાંસલ કરી અને ImageNet ઝીરો-શોટ પર 11.5% ચોકસાઈ સુધી પહોંચ્યા.

અંતમાં, CLIP છેલ્લા વર્ષમાં કુદરતી ભાષા સુપરવિઝનથી દૃશ્ય પ્રતિનિધિત્વો શીખવાના અભ્યાસને ફરીથી જોતા પેપર્સના એક સમૂહનો ભાગ છે. આ કાર્યરેખા વધુ આધુનિક આર્કિટેક્ચર્સ જેમ કે ટ્રાન્સફોર્મર³² નો ઉપયોગ કરે છે અને તેમાં VirTex,³³ જે autoregressive લેન્ગ્વેજ મોડેલિંગની શોધ કરે છે, ICMLM,³⁴ જે masked લેન્ગ્વેજ મોડેલિંગનું અભ્યાસ કરે છે, અને ConVIRT,³⁵ જે CLIP માટે અમે વાપરતા સમાન contrastive objectiveનો ચિકિત્સાત્મક ઇમેજિંગ ક્ષેત્રમાં અભ્યાસ કરે છે, નો સમાવેશ થાય છે.

અભિગમ

અમે બતાવીએ છીએ કે સરળ પ્રી-ટ્રેનિંગ કાર્યને મોટા પાયે વિસ્તૃત કરવું વિવિધ પ્રકારના છબી વર્ગીકરણ ડેટાસેટ્સ પર સ્પર્ધાત્મક ઝીરો-શોટ પ્રદર્શન મેળવવા માટે પૂરતું છે. અમારી પદ્ધતિ સુપરવિઝનના એક પ્રચુર પ્રમાણમાં ઉપલબ્ધ સ્ત્રોતનો ઉપયોગ કરે છે: ઇન્ટરનેટભરમાં મળતું છબીઓ સાથે જોડાયેલું લખાણ. આ ડેટાનો ઉપયોગ CLIP માટે નીચેના પ્રોક્સી ટ્રેનિંગ કાર્ય બનાવવા માટે થાય છે: કોઈ છબી આપેલી હોય, ત્યારે 32,768 રેન્ડમ રીતે નમૂના લેવાયેલા લખાણના ટુકડાઓમાંથી કયો ટુકડો ખરેખર અમારી ડેટાસેટમાં તેની સાથે જોડાયેલો હતો તે આગાહી કરો.

આ કાર્ય ઉકેલવા માટે, અમારી સમજ મુજબ CLIP મોડલ્સને છબીઓમાં વિવિધ પ્રકારની દૃશ્ય સંકલ્પનાઓ ઓળખવી અને તેમને તેમના નામો સાથે જોડવું શીખવું પડશે. પરિણામે, CLIP મોડલ્સને લગભગ મનસ્વી દૃશ્ય વર્ગીકરણ કાર્યો માટે લાગુ કરી શકાય છે. ઉદાહરણ તરીકે, જો કોઈ ડેટાસેટનું કાર્ય કૂતરા અને બિલાડીનાં ફોટાઓનું વર્ગીકરણ કરવાનું હોય, તો અમે દરેક છબી માટે તપાસીએ છીએ કે CLIP મોડલ “a photo of a dog” કે “a photo of a cat” પૈકી કયા લખાણ વર્ણનને તેની સાથે વધુ સંભાવનાપૂર્વક જોડાયેલું માને છે.

લોડ થઈ રહ્યું છે...

CLIPને કમ્પ્યુટર વિઝન માટેના માનક ડીપ લર્નિંગ અભિગમની કેટલીક મુખ્ય સમસ્યાઓ ઘટાડવા માટે ડિઝાઇન કરવામાં આવ્યું હતું:

મોંઘા ડેટાસેટ્સ: ડીપ લર્નિંગને ઘણાં ડેટાની જરૂર પડે છે, અને વિઝન મોડલ્સ પરંપરાગત રીતે હાથથી લેબલ કરાયેલા ડેટાસેટ્સ પર ટ્રેન થયા છે, જે બનાવવામાં મોંઘાં હોય છે અને માત્ર મર્યાદિત પૂર્વનિર્ધારિત દૃશ્ય સંકલ્પનાઓ માટે જ સુપરવિઝન આપે છે. ImageNet ડેટાસેટ, આ ક્ષેત્રના સૌથી મોટા પ્રયત્નોમાંનું એક, માટે 22,000 વસ્તુ વર્ગો માટે 14 મિલિયન છબીઓ annotate કરવા 25,000થી વધુ કામદારોની જરૂર પડી હતી. તેના વિરુદ્ધમાં, CLIP લખાણ–છબી જોડીઓમાંથી શીખે છે, જે ઇન્ટરનેટ પર પહેલેથી જ જાહેરમાં ઉપલબ્ધ છે. મોંઘાં મોટા લેબલ્ડ ડેટાસેટ્સની જરૂરિયાત ઘટાડવા પર અગાઉના કાર્યમાં વ્યાપક અભ્યાસ થયો છે, ખાસ કરીને self-supervised learning,^{14, 15, 16} contrastive methods,^{17, 18, 19, 20, 21} self-training approaches,^{22, 23} અને generative modeling.^{24, 25, 26, 27}

સંકુચિત: ImageNet મોડલ 1000 ImageNet શ્રેણીઓની આગાહી કરવામાં સારો છે, પરંતુ “out of the box” તે માત્ર એટલું જ કરી શકે છે. જો અમને બીજું કોઈ કાર્ય કરવું હોય, તો ML પ્રેક્ટિશનરે નવો ડેટાસેટ બનાવવો પડે, output head ઉમેરવું પડે અને મોડલને fine-tune કરવું પડે. તેના વિરુદ્ધમાં, CLIPને વધારાના ટ્રેનિંગ ઉદાહરણોની જરૂર વગર વિવિધ દૃશ્ય વર્ગીકરણ કાર્યો માટે અનુકૂલિત કરી શકાય છે. CLIPને નવા કાર્ય માટે લાગુ કરવા, અમને માત્ર CLIPના text-encoderને કાર્યની દૃશ્ય સંકલ્પનાઓના નામ “કહેવાના” રહે છે, અને તે CLIPના દૃશ્ય પ્રતિનિધિત્વોનો એક લીનીયર વર્ગીકરણકાર આપશે. આ વર્ગીકરણકારની ચોકસાઈ ઘણીવાર સંપૂર્ણ રીતે supervised મોડલ્સ સાથે સ્પર્ધાત્મક હોય છે.

નીચે અમે વિવિધ ડેટાસેટ્સમાંથી ઉદાહરણો પર ઝીરો-શોટ CLIP વર્ગીકરણકારોની રેન્ડમ, non-cherry picked આગાહીઓ દર્શાવીએ છીએ.

લોડ થઈ રહ્યું છે...

વાસ્તવિક દુનિયામાં નબળું પ્રદર્શન: ડીપ લર્નિંગ સિસ્ટમ્સ વિશે ઘણીવાર કહેવાય છે કે તેઓ વિઝન બૅન્ચમાર્ક્સ પર માનવીય અથવા અતિમાનવીય પ્રદર્શન હાંસલ કરે છે^{28, A}, પરંતુ જ્યારે તેમને વાસ્તવિક પરિસ્થિતિઓમાં તૈનાત કરવામાં આવે છે, ત્યારે તેમનું પ્રદર્શન બૅન્ચમાર્કથી ઉભી થયેલી અપેક્ષાથી ઘણી નીચે હોઈ શકે છે. બીજા શબ્દોમાં કહીએ તો, “બૅન્ચમાર્ક પ્રદર્શન” અને “વાસ્તવિક પ્રદર્શન” વચ્ચે અંતર છે. અમે અનુમાન કરીએ છીએ કે આ અંતર તેથી થાય છે કે મોડલ્સ માત્ર બૅન્ચમાર્ક પરના પ્રદર્શન માટે જ “cheat” કરે છે, જેમ કે કોઈ વિદ્યાર્થી માત્ર જૂના વર્ષોના પરીક્ષાના પ્રશ્નો ભણીને પરીક્ષા પાસ કરે. તેના વિરુદ્ધમાં, CLIP મોડલને બૅન્ચમાર્ક્સ પર તેમના ડેટા પર ટ્રેન કર્યા વગર મૂલ્યાંકિત કરી શકાય છે, તેથી તે આ રીતે “cheat” કરી શકતું નથી. પરિણામે, તેનું બૅન્ચમાર્ક પ્રદર્શન વાસ્તવિક દુનિયામાં તેના પ્રદર્શનનું ઘણું વધુ પ્રતિનિધિત્વ કરે છે. “cheating hypothesis” ચકાસવા માટે, અમે એ પણ માપીએ છીએ કે જ્યારે CLIPને ImageNet માટે “અભ્યાસ” કરવાની ક્ષમતા મળે છે ત્યારે તેનું પ્રદર્શન કેવી રીતે બદલાય છે. જ્યારે CLIPની ફીચર્સ પર એક લીનીયર વર્ગીકરણકાર ફિટ કરવામાં આવે છે, ત્યારે તે ImageNet ટેસ્ટ સેટ પર CLIPની ચોકસાઈ લગભગ 10% જેટલી સુધારે છે. પરંતુ, “robust” પ્રદર્શન માપતા અન્ય 7 ડેટાસેટ્સના મૂલ્યાંકન સ્યુટમાં સરેરાશ રીતે આ વર્ગીકરણકાર કોઈ વધુ સારું નથી કરતો.³⁰

મુખ્ય મુદ્દાઓ

1. CLIP અત્યંત કાર્યક્ષમ છે

CLIP અનફિલ્ટર્ડ, અત્યંત વૈવિધ્યસભર અને ઘણાં નોઇઝ ધરાવતા ડેટામાંથી શીખે છે, અને તેનો ઉપયોગ ઝીરો-શોટ રીતે કરવાનો ઉદ્દેશ છે. GPT‑2 અને 3 પરથી આપણે જાણીએ છીએ કે આવા ડેટા પર ટ્રેન થયેલા મોડલ્સ પ્રભાવશાળી zero-shot પ્રદર્શન આપી શકે છે; પરંતુ એવા મોડલ્સને નોંધપાત્ર ટ્રેનિંગ computeની જરૂર પડે છે. જરૂરી compute ઘટાડવા માટે, અમે અમારા અભિગમની ટ્રેનિંગ કાર્યક્ષમતા સુધારવાના અલ્ગોરિથમિક માર્ગો પર ધ્યાન કેન્દ્રિત કર્યું.

અમે બે અલ્ગોરિથમિક પસંદગીઓ વિશે જણાવીએ છીએ, જેણે computeમાં નોંધપાત્ર બચત કરી. પ્રથમ પસંદગી લખાણને છબીઓ સાથે જોડવા માટે contrastive objective અપનાવવાની હતી.^{31, 17, 35} અમે મૂળરૂપે VirTex જેવી image-to-text પદ્ધતિની શોધ કરી હતી,³³ પરંતુ state-of-the-art પ્રદર્શન મેળવવા માટે તેને મોટા પાયે વિસ્તૃત કરવામાં મુશ્કેલીઓ આવી. નાના થી મધ્યમ પાયાના પ્રયોગોમાં અમે જોયું કે CLIP દ્વારા વપરાતો contrastive objective zero-shot ImageNet વર્ગીકરણમાં 4x થી 10x વધુ કાર્યક્ષમ છે. બીજી પસંદગી Vision Transformer અપનાવવાની હતી,³⁶ જેણે અમને માનક ResNetની તુલનામાં compute કાર્યક્ષમતામાં વધુ 3x લાભ આપ્યો. અંતે, અમારો સૌથી સારો CLIP મોડલ 256 GPUs પર 2 અઠવાડિયા સુધી ટ્રેન થાય છે, જે હાલના મોટા પાયાના છબી મોડલ્સ જેવા જ છે.^{37, 23, 38, 36}

લોડ થઈ રહ્યું છે...

2. CLIP લવચીક અને વ્યાપક છે

કારણ કે CLIP મોડલ્સ સીધા કુદરતી ભાષામાંથી દૃશ્ય સંકલ્પનાઓની વિશાળ શ્રેણી શીખે છે, તેઓ અસ્તિત્વમાં રહેલા ImageNet મોડલ્સ કરતાં નોંધપાત્ર રીતે વધુ લવચીક અને વ્યાપક છે. અમે જોયું કે તેઓ અનેક જુદા જુદા કાર્યો ઝીરો-શોટ રીતે કરી શકે છે. આને માન્ય કરવા માટે અમે CLIPના ઝીરો-શોટ પ્રદર્શનને 30થી વધુ જુદા ડેટાસેટ્સ પર માપ્યું છે, જેમાં fine-grained object classification, geo-localization, વિડિઓમાં action recognition, અને OCR જેવા કાર્યોનો સમાવેશ થાય છે.^B ખાસ કરીને, OCR શીખવું એવું રસપ્રદ વર્તન છે જે માનક ImageNet મોડલ્સમાં જોવા મળતું નથી. ઉપર અમે દરેક ઝીરો-શોટ વર્ગીકરણકારમાંથી એક રેન્ડમ non-cherry picked આગાહી દર્શાવીએ છીએ.

આ નિષ્કર્ષ linear probes વાપરતી માનક representation learning evaluationમાં પણ દેખાય છે. શ્રેષ્ઠ CLIP મોડલ, અમે પરીક્ષણ કરેલા 26 જુદા ટ્રાન્સફર ડેટાસેટ્સમાંથી 20 પર, જાહેરમાં ઉપલબ્ધ શ્રેષ્ઠ ImageNet મોડલ Noisy Student EfficientNet-L2,²³ ને વટાવે છે.

લોડ થઈ રહ્યું છે...

મર્યાદાઓ

જ્યારે CLIP સામાન્ય વસ્તુઓ ઓળખવામાં સામાન્ય રીતે સારું પ્રદર્શન કરે છે, ત્યારે તે વધુ અભ્યાસાત્મક અથવા વ્યવસ્થિત કાર્યોમાં મુશ્કેલી અનુભવે છે, જેમ કે છબીમાં રહેલી વસ્તુઓની સંખ્યા ગણવી, તેમજ વધુ જટિલ કાર્યોમાં, જેમ કે ફોટોમાં સૌથી નજીકની કાર કેટલી નજીક છે તેની આગાહી કરવી. આ બે ડેટાસેટ્સ પર, ઝીરો-શોટ CLIP માત્ર રેન્ડમ અંદાજ કરતાં થોડું જ સારું છે. ઝીરો-શોટ CLIP કાર્ય-વિશિષ્ટ મોડલ્સની સરખામણીમાં અત્યંત સૂક્ષ્મ વર્ગીકરણમાં પણ મુશ્કેલી અનુભવે છે, જેમ કે અલગ અલગ કાર મોડલ્સ, વિમાનના પ્રકારો, અથવા ફૂલની પ્રજાતિઓ વચ્ચેનો ફરક જણાવવામાં.

CLIP પાસે તેની પ્રી-ટ્રેનિંગ ડેટાસેટમાં આવરી ન લેવાયેલી છબીઓ માટે હજુ પણ નબળું સામાન્યકરણ છે. ઉદાહરણ તરીકે, CLIP સક્ષમ OCR સિસ્ટમ શીખે છે છતાં, જ્યારે MNIST ડેટાસેટના હાથથી લખાયેલા અંકો પર મૂલ્યાંકન કરવામાં આવે છે, ત્યારે ઝીરો-શોટ CLIP માત્ર 88% ચોકસાઈ હાંસલ કરે છે, જે આ ડેટાસેટ પર માનવોની 99.75% ચોકસાઈ કરતાં ઘણું ઓછું છે. અંતમાં, અમે જોયું છે કે CLIPના ઝીરો-શોટ વર્ગીકરણકારો શબ્દપ્રયોગ અથવા વાક્યરચના પ્રત્યે સંવેદનશીલ હોઈ શકે છે અને સારું પ્રદર્શન કરવા માટે ક્યારેક trial and error “પ્રોમ્પ્ટ એન્જિનિયરિંગ” ની જરૂર પડે છે.

વ્યાપક પ્રભાવ

CLIP લોકોને તેમના પોતાના વર્ગીકરણકારો ડિઝાઇન કરવાની મંજૂરી આપે છે અને કાર્ય-વિશિષ્ટ ટ્રેનિંગ ડેટાની જરૂરિયાત દૂર કરે છે. આ વર્ગો કેવી રીતે રચાય છે તે મોડલના પ્રદર્શન અને મોડલના પક્ષપાત બંનેને ભારે અસર કરી શકે છે. ઉદાહરણ તરીકે, અમે જોયું કે જ્યારે Fairface³⁹ જાતિ લેબલ્સ^C અને “criminal”, “animal,” વગેરે જેવા થોડા અત્યંત અપમાનજનક શબ્દો ધરાવતા લેબલ્સનો સેટ આપવામાં આવે છે, ત્યારે મોડલ 0–20 વર્ષની વયના લોકોની છબીઓને આશરે ~32.3% દરે અપમાનજનક વર્ગમાં મૂકે છે. જોકે, જ્યારે અમે સંભવિત વર્ગોની યાદીમાં “child” વર્ગ ઉમેરીએ છીએ, ત્યારે આ વર્તન ~8.7% સુધી ઘટે છે.

વધારેમાં, CLIPને કાર્ય-વિશિષ્ટ ટ્રેનિંગ ડેટાની જરૂર નથી હોવાને કારણે તે કેટલીક વિશિષ્ટ કાર્યોને વધુ સરળતાથી શક્ય બનાવી શકે છે. આમાંથી કેટલીક કાર્યો ગોપનીયતા અથવા દેખરેખ સંબંધિત જોખમો ઊભા કરી શકે છે, અને અમે સેલિબ્રિટી ઓળખાણ પર CLIPના પ્રદર્શનનો અભ્યાસ કરીને આ ચિંતા તપાસીએ છીએ. 100 ઉમેદવારોમાંથી પસંદગી કરતી વખતે “in the wild” સેલિબ્રિટી છબી વર્ગીકરણ માટે CLIPની top-1 ચોકસાઈ 59.2% છે અને 1000 સંભવિત વિકલ્પોમાંથી પસંદ કરતી વખતે top-1 ચોકસાઈ 43.3% છે. કાર્ય-અગ્નોસ્ટિક પ્રી-ટ્રેનિંગ સાથે આ પરિણામો મેળવવા નોંધપાત્ર છે, છતાં વ્યાપક રીતે ઉપલબ્ધ પ્રોડક્શન-સ્તરના મોડલ્સની સરખામણીમાં આ પ્રદર્શન સ્પર્ધાત્મક નથી. અમારા પેપર⁠(નવી વિન્ડોમાં ખૂલે છે) માં અમે CLIP ઉભું કરેલા પડકારોની વધુ તપાસ કરીએ છીએ અને આશા રાખીએ છીએ કે આ કામ આવી મોડલ્સની ક્ષમતાઓ, ખામીઓ અને પક્ષપાતોના વર્ણન પર ભવિષ્યના સંશોધનને પ્રેરિત કરશે. આવા પ્રશ્નો પર સંશોધન સમુદાય સાથે જોડાવા માટે અમે ઉત્સાહિત છીએ.

નિષ્કર્ષ

CLIP સાથે, અમે તપાસ્યું છે કે ઇન્ટરનેટ-સ્તરના કુદરતી ભાષા પરનું કાર્ય-અગ્નોસ્ટિક પ્રી-ટ્રેનિંગ, જેણે તાજેતરમાં NLPમાં મોટી સિદ્ધિ મેળવી છે, શું બીજા ક્ષેત્રોમાં ડીપ લર્નિંગનું પ્રદર્શન સુધારવા માટે પણ ઉપયોગી બની શકે. કમ્પ્યુટર વિઝન માટે આ અભિગમ લાગુ કરતાં અત્યાર સુધીના પરિણામોથી અમે ઉત્સાહિત છીએ. GPT પરિવારની જેમ, CLIP પ્રી-ટ્રેનિંગ દરમિયાન અનેક પ્રકારનાં કાર્યો શીખે છે, જે અમે ઝીરો-શોટ ટ્રાન્સફર દ્વારા દર્શાવીએ છીએ. ImageNet પરના અમારા નિષ્કર્ષો પણ અમને પ્રોત્સાહિત કરે છે, કારણ કે તેઓ સૂચવે છે કે ઝીરો-શોટ મૂલ્યાંકન મોડલની ક્ષમતાનું વધુ પ્રતિનિધિત્વ કરતું માપદંડ છે.

ફૂટનોટ્સ

29
2015માં, Microsoftના સંશોધકોના એક સમૂહે પ્રથમ વખત એક મોડલને ટ્રેન કર્યું, જેણે ImageNet પર top-5 ચોકસાઈ હાંસલ કરી હતી, જે નોંધાયેલી માનવીય top-5 ચોકસાઈને વટાવી ગઈ હતી.
B
જ્યારે CLIPનું ઝીરો-શોટ OCR પ્રદર્શન મિશ્ર છે, ત્યારે તેનું સેમેન્ટિક OCR પ્રતિનિધિત્વ ઘણું ઉપયોગી છે. જ્યારે છબીઓ તરીકે રેન્ડર કરાયેલા SST-2 NLP ડેટાસેટ પર મૂલ્યાંકન કરવામાં આવે છે, ત્યારે CLIPના પ્રતિનિધિત્વ પરનો એક લીનીયર વર્ગીકરણકાર લખાણ સુધી સીધી ઍક્સેસ ધરાવતા CBoW મોડલને બરાબર ટક્કર આપે છે. CLIPને ગ્રાઉન્ડ ટ્રુથ લખાણની જરૂર વગર દ્વેષપૂર્ણ મીમ્સ શોધવામાં પણ સ્પર્ધાત્મક માનવામાં આવે છે.
40
FairFace એ ચહેરાની છબીઓનો ડેટાસેટ છે, જે ઉંમર, લિંગ અને જાતિમાં સંતુલન લાવવા માટે બનાવાયો છે, જેથી અગાઉના ચહેરા ડેટાસેટ્સમાં સામાન્ય અસમતાઓ ઓછી થાય. તે લિંગને 2 જૂથોમાં વર્ગીકૃત કરે છે: female અને male અને જાતિને 7 જૂથોમાં: White, Black, Indian, East Asian, Southeast Asian, Middle Eastern, અને Latino. જાતિ અને લિંગના વર્ગીકરણોમાં મૂળભૂત સમસ્યાઓ છે, જેમ કે Bowker and Star (2000) અને Keyes (2018) એ દર્શાવ્યું છે. FairFaceનો ડેટાસેટ White ચહેરાઓનું પ્રમાણ ઘટાડે છે, છતાં તેમાં મોટા પ્રજાસાંખ્યિક જૂથોના સંપૂર્ણ પ્રતિનિધિત્વનો અભાવ છે, અને તેવા વર્ગોને અસરકારક રીતે અદૃશ્ય કરે છે. અમે અમારા અનેક પ્રયોગોમાં FairFace ડેટાસેટમાં વ્યાખ્યાયિત 2 લિંગ શ્રેણીઓ અને 7 જાતિ શ્રેણીઓનો ઉપયોગ કરીએ છીએ, આવા સીમિત વર્ગોના ઉપયોગને મજબૂત કરવા અથવા સમર્થન આપવા માટે નહીં, પરંતુ અગાઉના કાર્ય સાથે તુલના કરી શકીએ તે માટે.

સંદર્ભો

1
Dodge, S., & Karam, L. (2017, July). “દૃશ્ય વિકૃતિઓ હેઠળ માનવીય અને ડીપ લર્નિંગ ઓળખ પ્રદર્શનનો અભ્યાસ અને તુલના.⁠(નવી વિન્ડોમાં ખૂલે છે)” In ICCCN 2017.
2
Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, F. A., & Brendel, W. (2018). “ImageNet-trained CNNs ટેક્સચર તરફ ઝૂકેલા છે; આકાર તરફનો પક્ષપાત વધારવાથી ચોકસાઈ અને મજબૂતી સુધરે છે.⁠(નવી વિન્ડોમાં ખૂલે છે)” In ICLR 2019.
3
Alcorn, M. A., Li, Q., Gong, Z., Wang, C., Mai, L., Ku, W. S., & Nguyen, A. (2019). “Strike (with) a pose: ન્યુરલ નેટવર્ક્સ પરિચિત વસ્તુઓના અજબ પોઝથી સહેલાઈથી ગેરમાર્ગે દોરાઈ જાય છે.⁠(નવી વિન્ડોમાં ખૂલે છે)” In CVPR 2019.
4
Barbu, A., Mayo, D., Alverio, J., Luo, W., Wang, C., Gutfreund, D., ... & Katz, B. (2019). “Objectnet: વસ્તુ ઓળખ મોડલ્સની મર્યાદાઓ આગળ ધપાવવા માટેનું મોટા પાયે bias-controlled ડેટાસેટ.⁠(નવી વિન્ડોમાં ખૂલે છે)” In NeurIPS 2019.
5
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “લેન્ગ્વેજ મોડેલ્સ અનસુપરવાઇઝ્ડ મલ્ટીટાસ્ક લર્નર્સ છે.⁠(નવી વિન્ડોમાં ખૂલે છે)” Technical Report, OpenAI.
6
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Agarwal, S. (2020). “લેન્ગ્વેજ મોડેલ્સ ફ્યુ-શોટ લર્નર્સ છે.⁠(નવી વિન્ડોમાં ખૂલે છે)” In NeurIPS 2020.
7
He, K., Zhang, X., Ren, S., & Sun, J. (2016). “છબી ઓળખ માટે ડીપ residual learning.⁠(નવી વિન્ડોમાં ખૂલે છે)” In CVPR 2016.
8
Larochelle, H., Erhan, D., & Bengio, Y. (2008, July). “નવી કાર્યોનું zero-data learning.⁠(નવી વિન્ડોમાં ખૂલે છે)” In AAAI 2008.
9
Lampert, C. H., Nickisch, H., & Harmeling, S. (2009, June). “વર્ગો વચ્ચેના લક્ષણ ટ્રાન્સફર દ્વારા અદેખા વસ્તુ વર્ગો શોધતા શીખવું.⁠(નવી વિન્ડોમાં ખૂલે છે)” In CVPR 2009.
10
Lei Ba, J., Swersky, K., & Fidler, S. (2015). “લખિત વર્ણનોનો ઉપયોગ કરીને ડીપ zero-shot convolutional neural networks ની આગાહી.⁠(નવી વિન્ડોમાં ખૂલે છે)” In ICCV 2015.
11
Socher, R., Ganjoo, M., Manning, C. D., & Ng, A. (2013). “cross-modal transfer દ્વારા zero-shot learning.⁠(નવી વિન્ડોમાં ખૂલે છે)” In NeurIPS 2013.
12
Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M. A., & Mikolov, T. (2013). “Devise: એક ડીપ visual-semantic embedding મોડલ.⁠(નવી વિન્ડોમાં ખૂલે છે)” In NeurIPS 2013.
13
Li, A., Jabri, A., Joulin, A., & van der Maaten, L. (2017). “વેબ ડેટામાંથી visual n-grams શીખવું.⁠(નવી વિન્ડોમાં ખૂલે છે)” In Proceedings of the IEEE International Conference on Computer Vision 2017.
14
Doersch, C., Gupta, A., & Efros, A. A. (2015). “સંદર્ભ આગાહી દ્વારા unsupervised visual representation learning.⁠(નવી વિન્ડોમાં ખૂલે છે)” In ICCV 2015.
15
Zhai, X., Oliver, A., Kolesnikov, A., & Beyer, L. (2019). “S4l: self-supervised semi-supervised learning.⁠(નવી વિન્ડોમાં ખૂલે છે)” In ICCV 2019.
16
Grill, J. B., Strub, F., Altché, F., Tallec, C., Richemond, P. H., Buchatskaya, E., ... & Piot, B. (2020). “Bootstrap your own latent: self-supervised learning માટેનો નવો અભિગમ.⁠(નવી વિન્ડોમાં ખૂલે છે)” In NeurIPS 2020.
17
Oord, A. V. D., Li, Y., & Vinyals, O. (2018). “Contrastive Predictive Coding સાથે Representation Learning.⁠(નવી વિન્ડોમાં ખૂલે છે)” arXiv preprint.
18
Hjelm, R. D., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “મ્યુચ્યુઅલ ઇન્ફોર્મેશન એસ્ટિમેશન અને મહત્તમીકરણ દ્વારા ડીપ પ્રતિનિધિત્વો શીખવું.⁠(નવી વિન્ડોમાં ખૂલે છે)” In ICLR 2019.
19
Bachman, P., Hjelm, R. D., & Buchwalter, W. (2019). “વ્યૂઝમાં મ્યુચ્યુઅલ ઇન્ફોર્મેશન મહત્તમ કરીને પ્રતિનિધિત્વો શીખવું.⁠(નવી વિન્ડોમાં ખૂલે છે)” In NeurIPS 2019.
20
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). “unsupervised visual representation learning માટે momentum contrast.⁠(નવી વિન્ડોમાં ખૂલે છે)” In CVPR 2020.
21
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). “દૃશ્ય પ્રતિનિધિત્વોના contrastive learning માટેનું સરળ framework.⁠(નવી વિન્ડોમાં ખૂલે છે)” arXiv preprint.
22
Lee, D. H. (2013, June). “Pseudo-label: ડીપ ન્યુરલ નેટવર્ક્સ માટે સરળ અને કાર્યક્ષમ semi-supervised learning પદ્ધતિ.⁠(નવી વિન્ડોમાં ખૂલે છે)” In Workshop on challenges in representation learning, ICML (2013).
23
Xie, Q., Luong, M. T., Hovy, E., & Le, Q. V. (2020). “Noisy Student સાથેનું self-training imagenet classification સુધારે છે.⁠(નવી વિન્ડોમાં ખૂલે છે)” In CVPR 2020.
24
Kingma, D. P., Mohamed, S., Jimenez Rezende, D., & Welling, M. (2014). “ડીપ જનરેટિવ મોડેલ્સ સાથે semi-supervised learning.⁠(નવી વિન્ડોમાં ખૂલે છે)” In NeurIPS 2014.
25
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., & Chen, X. (2016). “gans ટ્રેન કરવા માટેની સુધારેલી પદ્ધતિઓ.⁠(નવી વિન્ડોમાં ખૂલે છે)” In NeurIPS 2016.
26
Donahue, J., & Simonyan, K. (2019). “મોટા પાયે adversarial representation learning.⁠(નવી વિન્ડોમાં ખૂલે છે)” In NeurIPS 2019.
27
Chen, M., Radford, A., Child, R., Wu, J., Jun, H., Luan, D., & Sutskever, I. (2020, November). “પિક્સેલ્સમાંથી જનરેટિવ પ્રી-ટ્રેનિંગ.⁠(નવી વિન્ડોમાં ખૂલે છે)” In ICML 2020.
28
He, K., Zhang, X., Ren, S., & Sun, J. (2015). “Rectifiersમાં ઊંડાણપૂર્વક પ્રવેશ: ImageNet વર્ગીકરણમાં માનવીય-સ્તરની કામગીરીને વટાવવી.⁠(નવી વિન્ડોમાં ખૂલે છે)” In ICCV 2015.
29
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., ... & Berg, A. C. (2015). “Imagenet large scale visual recognition challenge.⁠(નવી વિન્ડોમાં ખૂલે છે)” In IJCV 2015.
30
Taori, R., Dave, A., Shankar, V., Carlini, N., Recht, B., & Schmidt, L. (2020). “છબી વર્ગીકરણમાં કુદરતી વિતરણ પરિવર્તનો સામેની મજબૂતી માપવી.⁠(નવી વિન્ડોમાં ખૂલે છે)” In NeurIPS 2020.
31
Sohn, K. (2016). “multi-class n-pair loss objective સાથે સુધારેલું deep metric learning.⁠(નવી વિન્ડોમાં ખૂલે છે)” In NeurIPS 2016.
32
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). “Attention is all you need.⁠(નવી વિન્ડોમાં ખૂલે છે)” In NeurIPS 2017.
33
Desai, K., & Johnson, J. (2020). “VirTex: લખાણીય annotationsમાંથી visual representations શીખવું.⁠(નવી વિન્ડોમાં ખૂલે છે)” arXiv preprint.
34
Sariyildiz, M. B., Perez, J., & Larlus, D. (2020). “Caption Annotations સાથે visual representations શીખવું.⁠(નવી વિન્ડોમાં ખૂલે છે)” In ECCV 2020.
35
Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., & Langlotz, C. P. (2020). “Paired Images and Textમાંથી Medical Visual Representations નું Contrastive Learning.⁠(નવી વિન્ડોમાં ખૂલે છે)” arXiv preprint.
36
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Uszkoreit, J. (2020). “એક છબી 16x16 શબ્દોની બરાબર: મોટા પાયે છબી ઓળખ માટે ટ્રાન્સફોર્મર્સ.⁠(નવી વિન્ડોમાં ખૂલે છે)” arXiv preprint.
37
Mahajan, D., Girshick, R., Ramanathan, V., He, K., Paluri, M., Li, Y., ... & van der Maaten, L. (2018). “નબળી રીતે supervised pretraining ની મર્યાદાઓનું અન્વેષણ.⁠(નવી વિન્ડોમાં ખૂલે છે)” In ECCV 2018.
38
Kolesnikov, A., Beyer, L., Zhai, X., Puigcerver, J., Yung, J., Gelly, S., & Houlsby, N. (2019). “Big Transfer (BiT): General Visual Representation Learning.⁠(નવી વિન્ડોમાં ખૂલે છે)” arXiv preprint.
39
Kärkkäinen, K., & Joo, J. (2019). “Fairface: સંતુલિત જાતિ, લિંગ અને ઉંમર માટેનો ચહેરાના લક્ષણોનો ડેટાસેટ.⁠(નવી વિન્ડોમાં ખૂલે છે)” arXiv preprint.
40
Bowker, G., & Star, S. L. (1999). “વસ્તુઓને ગોઠવવું. વર્ગીકરણ અને તેના પરિણામો⁠(નવી વિન્ડોમાં ખૂલે છે)” Book.
41
Keyes, O. (2018). “misgendering machines: સ્વચાલિત લિંગ ઓળખાણના Trans/HCI અર્થઘટનો.⁠(નવી વિન્ડોમાં ખૂલે છે)” In Proceedings of the ACM on Human-Computer Interaction.

લેખકો

Alec Radford, Ilya Sutskever, Jong Wook Kim, Gretchen Krueger, Sandhini Agarwal

આભારવિધિ

અમે લાખો લોકોનો આભાર માનવા માંગીએ છીએ, જેઓ CLIPને ટ્રેન કરવામાં વપરાતા ડેટા બનાવવામાં જોડાયેલા હતા. અમે અમારા તમામ સહ-લેખકોના પણ આ પ્રોજેક્ટમાં આપેલા યોગદાન માટે આભારી છીએ. અંતમાં, અમે Jeff Clune, Miles Brundage, Ryan Lowe, Jakub Pachocki અને Vedant Misraનો આ બ્લોગના ડ્રાફ્ટ્સ પર પ્રતિસાદ માટે અને Matthew Knightનો કોડ રિલીઝની સમીક્ષા કરવા માટે આભાર માનીએ છીએ.