17 જૂન, 2020

ઇમેજ GPT

પેપર વાંચો કોડ જુઓ ICML 2020 પેપર (V1)

Illustration: Ben Barry

લોડિંગ…

અમે શોધ્યું કે, જેમ ભાષા પર ટ્રેન કરાયેલું મોટું ટ્રાન્સફોર્મર મોડલ સુસંગત લખાણ જનરેટ કરી શકે છે, તેમ જ પિક્સેલ ક્રમો પર ટ્રેન કરાયેલું એ જ ચોક્કસ મોડલ સુસંગત ઇમેજ પૂર્ણતાઓ⁠ અને નમૂનાઓ⁠ જનરેટ કરી શકે છે. નમૂનાની ગુણવત્તા અને ઇમેજ વર્ગીકરણ ચોકસાઈ વચ્ચેનો સંબંધ સ્થાપિત કરીને, અમે બતાવીએ છીએ કે અમારું શ્રેષ્ઠ જનરેટિવ મોડલ અનસુપરવાઇઝ્ડ પરિસ્થિતિમાં ટોચના કન્વોલ્યુશનલ નેટ્સ સાથે સ્પર્ધાત્મક લક્ષણો પણ ધરાવે છે.

પરિચય

અનસુપરવાઇઝ્ડ અને self-supervised learning,¹ અથવા માનવ-લેબલ કરાયેલ ડેટા વગરનું લર્નિંગ, મશીન લર્નિંગ માટે લાંબા સમયથી રહેલો પડકાર છે. તાજેતરમાં, તેને ભાષામાં અદ્ભુત સફળતા મળી છે, કારણ કે BERT,³ GPT‑2,⁴ RoBERTa,⁵ T5,⁶ અને અન્ય variants^{7, 8, 9, 10} જેવા ટ્રાન્સફોર્મર² મોડેલ્સે ભાષાના વિવિધ કાર્યોમાં ટોચનું પ્રદર્શન હાંસલ કર્યું છે. જોકે, મોડેલ્સનો આ જ વ્યાપક વર્ગ ઇમેજ વર્ગીકરણ માટે મજબૂત લક્ષણો ઉત્પન્ન કરવામાં સફળ રહ્યો નથી.¹¹ અમારું કાર્ય આ ખાડાને સમજવા અને પાટો પાડવાનું ધ્યેય ધરાવે છે.

BERT અને GPT‑2 જેવા ટ્રાન્સફોર્મર મોડેલ્સ domain agnostic છે, એટલે કે તેઓ સીધા કોઈપણ પ્રકારના 1-D ક્રમો પર લાગુ કરી શકાય છે. જ્યારે અમે લાંબા પિક્સેલ ક્રમોમાં ઉકેલી મૂકાયેલી ઇમેજો પર GPT‑2 ને ટ્રેન કરીએ છીએ, જેને અમે iGPT કહીએ છીએ, ત્યારે અમે શોધીએ છીએ કે મોડલ 2-D ઇમેજ લક્ષણો જેમ કે ઑબ્જેક્ટનું દેખાવ અને શ્રેણીને સમજતું હોય એવું લાગે છે. માનવદ્વારા આપેલા લેબલ્સના માર્ગદર્શન વગર પણ તે જનરેટ કરતા સુસંગત ઇમેજ નમૂનાઓની વિવિધતા આનો પુરાવો આપે છે. વધુ પુરાવા તરીકે, મોડલમાંથી મળેલા લક્ષણો અનેક વર્ગીકરણ ડેટાસેટ્સ પર state-of-the-art પ્રદર્શન હાંસલ કરે છે અને ImageNet પર લગભગ state-of-the-art અનસુપરવાઇઝ્ડ ચોકસાઈ^A પ્રાપ્ત કરે છે.

મૂલ્યાંકન	ડેટાસેટ	અમારું પરિણામ	શ્રેષ્ઠ non-iGPT પરિણામ
શીખાયેલા લક્ષણો પર logistic regression (linear probe)	CIFAR-10	96.3 iGPT‑L 32x32 w/ 1536 લક્ષણો	95.3 SimCLR¹²⁠ w/ 8192 લક્ષણો
	CIFAR-100	82.8 iGPT‑L 32x32 w/ 1536 લક્ષણો	80.2 SimCLR w/ 8192 લક્ષણો
	STL-10	95.5 iGPT‑L 32x32 w/ 1536 લક્ષણો	94.2 AMDIM¹³⁠ w/ 8192 લક્ષણો
	ImageNet	72.0 iGPT‑XL^a⁠ 64x64 w/ 15360 લક્ષણો	76.5 SimCLR w/ 8192 લક્ષણો
Full fine-tune	CIFAR-10	99.0 iGPT‑L 32x32, ImageNet પર ટ્રેન કરેલું	99.0^b⁠ GPipe,¹⁴⁠ ImageNet પર ટ્રેન કરેલું
	ImageNet 32x32	66.3 iGPT‑L 32x32	70.2 Isometric Nets¹⁵⁠

અમે iGPT‑XL માટે માત્ર ImageNet linear probe ચોકસાઈ બતાવીએ છીએ કારણ કે અન્ય પ્રયોગો અમે જુદી સુપરકમ્પ્યુટિંગ સુવિધાઓ તરફ પરિવર્તન કરવું પડે તે પહેલાં પૂર્ણ થયા નહોતા.
JFT (18K વર્ગો સાથે 300M ઇમેજો) પર ટ્રેન કરાયેલ Bit-L એ 99.3 નું પરિણામ હાંસલ કર્યું.

સામાન્ય હેતુ માટેના અનસુપરવાઇઝ્ડ લર્નિંગ અલ્ગોરિધમ તરીકે જનરેટિવ^{17, 18} સિક્વન્સ મોડેલિંગ^{19, 20, 21, 22} ની ક્ષમતા ઉજાગર કરવા માટે, અમે ભાષામાં GPT‑2 જેવી જ ટ્રાન્સફોર્મર આર્કિટેક્ચર જ્ઞાતપણે વાપરીએ છીએ. પરિણામે, ટોચના અનસુપરવાઇઝ્ડ કન્વોલ્યુશનલ નેટ્સના લક્ષણો સાથે સ્પર્ધાત્મક લક્ષણો ઉત્પન્ન કરવા માટે અમને નોંધપાત્ર રીતે વધુ ગણતરીશક્તિની જરૂર પડે છે.^{13, 23, 24, 25, 12} જોકે, અમારા પરિણામો સૂચવે છે કે જ્યારે કોઈ નવા ડોમેઇનનો સામનો થાય અને યોગ્ય model priors અજ્ઞાત હોય, ત્યારે મોટું GPT‑2 domain-specific^{26, 27, 28} આર્કિટેક્ચરલ ડિઝાઇન પસંદગીઓની જરૂર વગર ઉત્તમ લક્ષણો શીખી શકે છે.

લોડ થઈ રહ્યું છે...

ભાષા GPT થી ઇમેજ GPT સુધી

ભાષામાં, શબ્દ આગાહી પર આધારિત અનસુપરવાઇઝ્ડ લર્નિંગ અલ્ગોરિધમ્સ (GPT‑2 અને BERT જેવી) અત્યંત સફળ રહી છે અને ભાષાના વિવિધ કાર્યોમાં શ્રેષ્ઠ પ્રદર્શન હાંસલ કર્યું છે. આ સફળતાનું એક સંભવિત કારણ એ છે કે ડાઉનસ્ટ્રીમ ભાષા કાર્યોના ઉદાહરણો સ્વાભાવિક રીતે લખાણમાં દેખાય છે: પ્રશ્નો પછી વારંવાર જવાબો આવે છે, જે પ્રશ્નોત્તરીમાં મદદરૂપ થઈ શકે છે, અને અવતરણો પછી સારાંશો આવે છે, જે સારાંશીકરણમાં મદદરૂપ થઈ શકે છે. તેની સરખામણીએ, પિક્સેલોના ક્રમો સ્પષ્ટ રીતે તે જે ઇમેજના છે તેના લેબલ્સ ધરાવતા નથી.

આ સ્પષ્ટ સુપરવિઝન વગર પણ, ઇમેજ પર GPT‑2 કામ કરી શકે તે માટે હજી એક કારણ છે: આગામી પિક્સેલ આગાહી પર ટ્રેન કરાયેલું પૂરતું મોટું ટ્રાન્સફોર્મર અંતે સ્પષ્ટ રીતે ઓળખી શકાય એવા ઑબ્જેક્ટ્સ ધરાવતા વિવિધ^B નમૂનાઓ જનરેટ કરવાનું શીખી શકે છે. એકવાર તે આવું કરવાનું શીખી જાય, ત્યારે “Analysis by Synthesis”^{29, 30, C} તરીકે ઓળખાતી કલ્પના સૂચવે છે કે મોડલને ઑબ્જેક્ટ શ્રેણીઓ વિશે પણ ખબર હશે. ઘણા પ્રારંભિક જનરેટિવ મોડેલ્સ^{31, 32, 33, 34, 35, 36} આ વિચારથી પ્રેરિત હતા, અને તાજેતરમાં BigBiGAN³⁷ એ પ્રોત્સાહક નમૂનાઓ અને લક્ષણો આપનાર ઉદાહરણ હતું. અમારા કાર્યમાં, અમે પહેલાં દર્શાવીએ છીએ કે વધુ સારા જનરેટિવ મોડેલ્સ વધુ મજબૂત વર્ગીકરણ પ્રદર્શન હાંસલ કરે છે. પછી, જનરેટિવ ક્ષમતાઓ માટે GPT‑2 ને ઑપ્ટિમાઇઝ કરીને, અમે ઘણી પરિસ્થિતિઓમાં ટોચસ્તરીય વર્ગીકરણ પ્રદર્શન હાંસલ કરીએ છીએ, જે analysis by synthesis માટે વધુ પુરાવા પૂરા પાડે છે.

સામાન્ય અનસુપરવાઇઝ્ડ લર્નિંગ તરફ

જનરેટિવ સિક્વન્સ મોડેલિંગ એક સર્વવ્યાપક અનસુપરવાઇઝ્ડ લર્નિંગ અલ્ગોરિધમ છે: કારણ કે તમામ પ્રકારના ડેટાને બાઇટ્સના ક્રમ તરીકે રજૂ કરી શકાય છે, ટ્રાન્સફોર્મર કોઈ વધારાની એન્જિનિયરિંગ વગર સીધો કોઈપણ ડેટા પ્રકાર પર લાગુ કરી શકાય છે. અમારા કાર્યમાં GPT‑2 ને પ્રાકૃતિક ભાષા માટે ટ્રેન કરવા ઉપયોગમાં લેવાયેલી આર્કિટેક્ચરને સીધી ઇમેજ જનરેશન પર લાગુ કરીને આ સામાન્યતાની શક્તિની કસોટી કરવામાં આવી છે. અમે જ્ઞાતપણે convolutions³⁸ અથવા relative attention,³⁹ sparse attention,⁴⁰ અને 2-D position embeddings.²⁷ જેવી તકનીકોના રૂપમાં કોઈપણ ઇમેજ-વિશિષ્ટ જ્ઞાન હસ્તલેખિત રીતે ઉમેરવાનું ટાળ્યું છે.

તેની સામાન્યતાના પરિણામરૂપ, અનસુપરવાઇઝ્ડ પરિસ્થિતિમાં સ્પર્ધાત્મક પ્રદર્શન હાંસલ કરવા માટે અમારી પદ્ધતિને નોંધપાત્ર રીતે વધુ ગણતરીશક્તિની જરૂર પડે છે. ખરેખર, contrastive પદ્ધતિઓ^{41, 42, 43, 44, 45, 13, 23, 24, 25, 12} હજી પણ ઇમેજોમાંથી ઉચ્ચ ગુણવત્તાવાળા લક્ષણો ઉત્પન્ન કરવા માટે સૌથી વધુ ગણતરી-કાર્યક્ષમ પદ્ધતિઓ છે. છતાં, અનસુપરવાઇઝ્ડ ટ્રાન્સફોર્મર મોડલ શ્રેષ્ઠ અનસુપરવાઇઝ્ડ કન્વોલ્યુશનલ નેટ્સ સાથે સ્પર્ધાત્મક છે એવું બતાવીને,^{24, 25, 12} અમે પુરાવો આપીએ છીએ કે હસ્તલેખિત ડોમેન જ્ઞાનને ગણતરીશક્તિ સામે બદલી શકાય છે. નવા ડોમેઇન્સમાં,^{46, 47} જ્યાં હસ્તલેખિત કરવા માટે ઘણું જ્ઞાન ઉપલબ્ધ નથી, ત્યાં ગણતરીશક્તિનું સ્કેલિંગ પરીક્ષણ કરવા યોગ્ય તકનીક લાગે છે.

અભિગમ

અમે ImageNet પર અનુક્રમે 76M, 455M, અને 1.4B પરિમાણો ધરાવતા ટ્રાન્સફોર્મર્સ iGPT‑S, iGPT‑M, અને iGPT‑L ને ટ્રેન કરીએ છીએ. અમે iGPT‑XL^D ને પણ ટ્રેન કરીએ છીએ, જે 6.8 બિલિયન પરિમાણો ધરાવતું ટ્રાન્સફોર્મર છે, ImageNet અને વેબની ઇમેજોના મિશ્રણ પર. dense attention સાથે લાંબા ક્રમોનું મોડેલિંગ કરવાના મોટા ગણતરી ખર્ચને કારણે, અમે 32x32, 48x48, અને 64x64 જેવી નીચી રિઝોલ્યુશન પર ટ્રેન કરીએ છીએ.

ગણતરી ખર્ચને વધુ ઘટાડવા માટે વધુ નીચી રિઝોલ્યુશન પર કામ કરવું આકર્ષક લાગે છે, પરંતુ અગાઉના કાર્યે દર્શાવ્યું છે કે આ કદથી નીચે ઇમેજ વર્ગીકરણમાં માનવીય પ્રદર્શન ઝડપથી ઘટવા લાગે છે.⁴⁸ તેના બદલે, પ્રારંભિક રંગીન ડિસ્પ્લે પેલેટ્સથી પ્રેરાઈને,⁴⁹ અમે પિક્સેલ્સને પ્રતિનિધિત્વ કરવા માટે અમારી પોતાની 9-bit રંગ પેલેટ બનાવીએ છીએ. આ પેલેટનો ઉપયોગ standard (R, G, B) પેલેટ કરતાં 3 ગણો ટૂંકો ઇનપુટ ક્રમ આપે છે, અને છતાં રંગને વિશ્વસનીય રીતે એન્કોડ કરે છે.

પ્રયોગાત્મક પરિણામો

મોડલના પ્રદર્શનનું મૂલ્યાંકન કરવા માટે અમે બે પદ્ધતિઓ વાપરીએ છીએ, અને બંનેમાં ડાઉનસ્ટ્રીમ વર્ગીકરણ કાર્ય સામેલ છે. પ્રથમ પદ્ધતિ, જેને અમે લિનિયર પ્રોબ કહીએ છીએ, ટ્રેન કરાયેલા મોડલનો ઉપયોગ કરીને ડાઉનસ્ટ્રીમ ડેટાસેટની ઇમેજોમાંથી લક્ષણો^E કાઢે છે, અને પછી લેબલ્સ પર લોજિસ્ટિક રિગ્રેશન ફિટ કરે છે. બીજી પદ્ધતિ સમગ્ર મોડલને ડાઉનસ્ટ્રીમ ડેટાસેટ પર ફાઇન-ટ્યુન^F કરે છે.

આગલા પિક્સેલની આગાહી ઇમેજ વર્ગીકરણ માટે સ્પષ્ટ રીતે સંબંધિત નથી, તેથી અંતિમ સ્તરના લક્ષણો કદાચ ઑબ્જેક્ટ શ્રેણીની આગાહી કરવા માટે સૌથી વધુ ઉપયોગી ન હોય. અમારું પ્રથમ પરિણામ દર્શાવે છે કે લક્ષણોની ગુણવત્તા ઊંડાઈ સાથે તેજીથી વધે છે અને પછી થોડું ઘટે છે. આ વર્તન સૂચવે છે કે ટ્રાન્સફોર્મર જનરેટિવ મોડલ બે તબક્કામાં કાર્ય કરે છે: પ્રથમ તબક્કામાં, દરેક સ્થાન તેની આસપાસના સંદર્ભમાંથી માહિતી એકત્રિત કરીને સંદર્ભિત ઇમેજ લક્ષણ બનાવે છે. બીજા તબક્કામાં, આ સંદર્ભિત લક્ષણનો ઉપયોગ શરતી આગળના પિક્સેલની આગાહીનું કાર્ય ઉકેલવા માટે થાય છે. અમારા લિનિયર પ્રોબ્સમાં જોવાયેલું આ બે-તબક્કાનું પ્રદર્શન બીજા એક અનસુપરવાઇઝ્ડ ન્યુરલ નેટ, બોટલનેક ઑટોએન્કોડર, જે હસ્તચાલિત રીતે એમ ડિઝાઇન કરવામાં આવ્યું છે કે મધ્યના લક્ષણો ઉપયોગમાં લેવાય, તેની યાદ અપાવે છે.

લોડ થઈ રહ્યું છે...

અમારું આગળનું પરિણામ જનરેટિવ પ્રદર્શન અને લક્ષણોની ગુણવત્તા વચ્ચેનો સંબંધ સ્થાપિત કરે છે. અમે શોધીએ છીએ કે અમારા મોડેલ્સનું સ્કેલ વધારવાથી અને વધુ iterations માટે ટ્રેનિંગ કરવાથી બંનેમાં વધુ સારું જનરેટિવ પ્રદર્શન મળે છે, જે સીધું વધુ સારી લક્ષણ ગુણવત્તામાં રૂપાંતરિત થાય છે.

લોડ થઈ રહ્યું છે...

જ્યારે અમે CIFAR-10, CIFAR-100, અને STL-10 પર linear probes નો ઉપયોગ કરીને અમારા લક્ષણોનું મૂલ્યાંકન કરીએ છીએ, ત્યારે અમે તમામ supervised અને unsupervised transfer algorithms ના લક્ષણો કરતાં વધુ સારું પ્રદર્શન કરીએ છીએ. full fine-tuning પરિસ્થિતિમાં પણ અમારા પરિણામો મજબૂત છે.

			ImageNet પર pre-trained
મૂલ્યાંકન	મોડલ	ચોકસાઈ	લેબલ્સ વગર	લેબલ્સ સાથે
CIFAR-10 લિનિયર પ્રોબ	ResNet-152⁵⁰	94.0		✔
	SimCLR¹²	95.3	✔
	iGPT‑L 32x32	96.3	✔	✔
CIFAR-100 લિનિયર પ્રોબ	ResNet-152	78.0		✔
	SimCLR	80.2	✔
	iGPT‑L 32x32	82.8	✔
STL-10 લિનિયર પ્રોબ	AMDIM-L	94.2	✔
	iGPT‑L 32x32	95.5	✔
CIFAR-10 ફાઇન-ટ્યુન	AutoAugment	98.5
	SimCLR	98.6	✔
	GPipe	99.0		✔
	iGPT‑L	99.0	✔
CIFAR-100 ફાઇન-ટ્યુન	iGPT‑L	88.5	✔
	SimCLR	89.0	✔
	AutoAugment	89.3
	EfficientNet⁵²	91.7		✔

અમારા મોડેલ્સ અને ટોચના પ્રદર્શન કરનારા મોડેલ્સ વચ્ચે linear probe અને fine-tune ચોકસાઈની તુલના, જે unsupervised અથવા supervised ImageNet transfer નો ઉપયોગ કરે છે. અમે AutoAugment ને પણ સમાવેશ કરીએ છીએ, જે CIFAR પર end-to-end ટ્રેન કરાયેલું શ્રેષ્ઠ પ્રદર્શન કરતું મોડલ છે.

ImageNet પર unsupervised અને self-supervised learning પ્રત્યે વધતા રસને ધ્યાનમાં રાખીને, અમે અમારા મોડેલ્સનું મૂલ્યાંકન ImageNet પર linear probes નો ઉપયોગ કરીને પણ કરીએ છીએ. આ ખાસ કરીને મુશ્કેલ પરિસ્થિતિ છે, કારણ કે અમે standard ImageNet input resolution પર ટ્રેન કરતા નથી. તેમ છતાં, 48x48 ઇમેજો પર ટ્રેન કરાયેલા iGPT‑L ના શ્રેષ્ઠ સ્તરમાંથી 1536 લક્ષણો પરનો linear probe 65.2% top-1 ચોકસાઈ આપે છે, અને AlexNet કરતાં વધુ સારું પ્રદર્શન કરે છે.

Contrastive પદ્ધતિઓ સામાન્ય રીતે 8192 લક્ષણો પર તેમના શ્રેષ્ઠ પરિણામો જણાવે છે, તેથી તુલનાને માટે આદર્શ રીતે અમે 8192 ની embedding dimension સાથે iGPT નું મૂલ્યાંકન કરીએ. જોકે, એવું મોડલ ટ્રેન કરવું અત્યંત ખર્ચાળ છે, તેથી તેના બદલે અમે અંદાજ તરીકે અનેક સ્તરોના લક્ષણોને concatenate કરીએ છીએ. દુર્ભાગ્યે, અમારા લક્ષણો સ્તરોમાં પરસ્પર સંબંધિત હોય છે, તેથી સ્પર્ધાત્મક બનવા માટે અમને તેમની વધુ જરૂર પડે છે. iGPT‑XL માં 5 સ્તરોમાંથી 15360 લક્ષણો લેવાથી 72.0% top-1 ચોકસાઈ મળે છે, જે AMDIM, MoCo, અને CPC v2 કરતાં વધુ સારું છે, પરંતુ હજી પણ SimCLR કરતાં નોંધપાત્ર અંતરે ઓછું છે.

પદ્ધતિ	ઇનપુટ રિઝોલ્યુશન	લક્ષણો	પરિમાણો	ચોકસાઈ
Rotation⁵³	original	8192	86M	55.4
iGPT‑L	32x32	1536	1362M	60.3
BigBiGAN³⁷	original	16384	86M	61.3
iGPT‑L	48x48	1536	1362M	65.2
AMDIM¹³	original	8192	626M	68.1
MoCo²⁴	original	8192	375M	68.6
iGPT‑XL	64x64	3072	6801M	68.7
SimCLR¹²	original	2048	24M	69.3
CPC v2²⁵	original	4096	303M	71.5
iGPT‑XL	64x64	3072 x 5	6801M	72.0
SimCLR	original	8192	375M	76.5

અમારા મોડેલ્સ અને state-of-the-art self-supervised મોડેલ્સ વચ્ચે linear probe ચોકસાઈની તુલના. અમે ઘણાં ઓછા ઇનપુટ રિઝોલ્યુશન પર ટ્રેનિંગ કરતાં હોવા છતાં સ્પર્ધાત્મક પ્રદર્શન હાંસલ કરીએ છીએ, જોકે અમારી પદ્ધતિને વધુ પરિમાણો અને ગણતરીશક્તિની જરૂર પડે છે.

કારણ કે BERT જેવા masked language models એ મોટાભાગના ભાષાકીય કાર્યોમાં જનરેટિવ મોડેલ્સ કરતાં સારું પ્રદર્શન કર્યું છે, અમે અમારા ઇમેજ મોડેલ્સ પર BERT નું પ્રદર્શન પણ મૂલ્યાંકન કરીએ છીએ. અમારા મોડલને અગાઉના બધા પિક્સેલ્સને આધારે આગામી પિક્સેલની આગાહી કરવા માટે ટ્રેન કરવાની જગ્યાએ, અમે 15% પિક્સેલ્સને mask કરીએ છીએ અને અમારા મોડલને unmasked પિક્સેલ્સથી તેમની આગાહી કરવા માટે ટ્રેન કરીએ છીએ. અમે શોધ્યું કે BERT મોડેલ્સ પર linear probe પ્રદર્શન નોંધપાત્ર રીતે નબળું હોવા છતાં, fine-tuning દરમિયાન તેઓ ઉત્તમ સાબિત થાય છે:

લોડ થઈ રહ્યું છે...

જ્યારે અનસુપરવાઇઝ્ડ લર્નિંગ માનવ-લેબલ કરાયેલ ડેટાની જરૂરિયાત વગર ઉત્તમ લક્ષણો આપવાનું વચન આપે છે, ત્યારે તાજેતરમાં વધુ સહનશીલ સેમી-સુપરવાઇઝ્ડ લર્નિંગ ફ્રેમવર્ક હેઠળ નોંધપાત્ર પ્રગતિ થઈ છે, જે મર્યાદિત પ્રમાણમાં માનવ-લેબલ કરાયેલ ડેટાને મંજૂરી આપે છે. સફળ સેમી-સુપરવાઇઝ્ડ પદ્ધતિઓ ઘણી વાર consistency regularization, data augmentation, અથવા pseudo-labeling જેવી ચતુર તકનીકો પર આધારિત હોય છે, અને સંપૂર્ણપણે જનરેટિવ આધારિત અભિગમો^{54, 55} વર્ષોથી સ્પર્ધાત્મક રહ્યા નથી. અમે આ ઉપક્ષેત્ર માટેના સ્પર્ધાત્મક બેન્ચમાર્ક પર iGPT‑L^G નું મૂલ્યાંકન કરીએ છીએ અને શોધીએ છીએ કે non-augmented ઇમેજોમાંથી મળેલા લક્ષણો પરનો સરળ લિનિયર પ્રોબ Mean Teacher⁵⁶ અને MixMatch કરતાં વધુ સારું પ્રદર્શન કરે છે, જોકે તે FixMatch.⁵⁹ કરતાં ઓછું પ્રદર્શન કરે છે.

મોડલ	40 લેબલ્સ	250 લેબલ્સ	4000 લેબલ્સ
Improved GAN⁵⁵	—	—	81.4 ± 2.3
Mean Teacher⁵⁶	—	67.7 ± 2.3	90.8 ± 0.2
MixMatch⁵⁷	52.5 ± 11.5	89.0 ± 0.9	93.6 ± 0.1
iGPT‑L	73.2 ± 01.5	87.6 ± 0.6	94.3 ± 0.1
UDA⁵⁸	71.0 ± 05.9	91.2 ± 1.1	95.1 ± 0.2
FixMatch⁵⁹ RA	86.2 ± 03.4	94.9 ± 0.7	95.7 ± 0.1
FixMatch CTA	88.6 ± 03.4	94.9 ± 0.3	95.7 ± 0.2

ઓછા ડેટાવાળા CIFAR-10 પરના પ્રદર્શનની તુલના. ઘણા unlabeled ImageNet ઇમેજોનો લાભ લઈને, iGPT‑L Mean Teacher અને MixMatch જેવી પદ્ધતિઓ કરતાં વધુ સારું પ્રદર્શન કરી શકે છે, પરંતુ હજુ state of the art પદ્ધતિઓ કરતાં ઓછું પ્રદર્શન કરે છે. સેમી-સુપરવાઇઝ્ડ લર્નિંગ માટેનો અમારો અભિગમ ખૂબ જ સરળ છે કારણ કે અમે કોઈપણ data augmentation અથવા fine-tuning વગર માત્ર iGPT‑L ના લક્ષણો પર logistic regression classifier ફિટ કરીએ છીએ, જે ખાસ ડિઝાઇન કરાયેલા સેમી-સુપરવાઇઝ્ડ અભિગમોથી મહત્વપૂર્ણ રીતે અલગ છે.

મર્યાદાઓ

જ્યારે અમે બતાવ્યું છે કે iGPT શક્તિશાળી ઇમેજ લક્ષણો શીખી શકે છે, ત્યારે પણ અમારા અભિગમમાં નોંધપાત્ર મર્યાદાઓ છે. કારણ કે અમે ભાષામાં GPT‑2 માટે વપરાતા સામાન્ય સિક્વન્સ ટ્રાન્સફોર્મરનો ઉપયોગ કરીએ છીએ, અમારી પદ્ધતિને વિશાળ ગણતરીશક્તિની જરૂર પડે છે: iGPT‑L ને અંદાજે 2500 V100-દિવસ માટે ટ્રેન કરવામાં આવ્યું હતું, જ્યારે સમાન પ્રદર્શન કરતું MoCo24⁠ મોડલ અંદાજે 70 V100-દિવસમાં ટ્રેન થઈ શકે છે.

સંબંધિત રીતે, અમે ટ્રાન્સફોર્મરનો ઉપયોગ કરીને નીચી રિઝોલ્યુશન ઇનપુટ્સનું મોડેલિંગ કરીએ છીએ, જ્યારે મોટાભાગના self-supervised પરિણામો convolutional-based encoders નો ઉપયોગ કરે છે, જે સહેલાઈથી ઊંચી રિઝોલ્યુશન પર ઇનપુટ લઈ શકે છે. વધુ સ્કેલ કરવા માટે domain-agnostic multiscale transformer જેવી નવી આર્કિટેક્ચરની જરૂર પડી શકે છે. આ મર્યાદાઓને જોતા, અમારું કાર્ય મુખ્યત્વે એક proof-of-concept તરીકે કામ કરે છે, જે દર્શાવે છે કે મોટા transformer-based ભાષા મોડેલ્સ hardcoded domain knowledge ની જરૂર વગર નવા ડોમેઇન્સમાં ઉત્તમ અનસુપરવાઇઝ્ડ પ્રતિનિધિત્વો શીખી શકે છે. જોકે, આ મોડેલ્સને ટ્રેન કરવા માટેનો મોટો સંસાધન ખર્ચ અને convolutional neural-network આધારિત પદ્ધતિઓની વધુ ચોકસાઈ આ પ્રતિનિધિત્વોને vision domain માં વાસ્તવિક પ્રયોગ માટે અપ્રાયોગિક બનાવે છે.

છેલ્લે, જનરેટિવ મોડેલ્સ તે ડેટાના પરિણામરૂપ પૂર્વગ્રહો દર્શાવી શકે છે જેના પર તેમને ટ્રેન કરવામાં આવ્યા છે. આમાંથી ઘણા પૂર્વગ્રહો ઉપયોગી હોય છે, જેમ કે ભૂરા અને લીલા પિક્સેલોના સંયોજનને પાંદડાઓથી ઢંકાયેલી ડાળી તરીકે માનવું અને પછી તે પૂર્વગ્રહનો ઉપયોગ કરીને ઇમેજ આગળ વધારવી. પરંતુ ન્યાય અને પ્રતિનિધિત્વના દૃષ્ટિકોણથી જોવામાં આવે ત્યારે આમાંથી કેટલાક પૂર્વગ્રહો હાનિકારક બનશે. ઉદાહરણ તરીકે, જો મોડલમાં વૈજ્ઞાનિકની દૃશ્ય કલ્પના પુરુષ તરફ ઝૂકે, તો તે વૈજ્ઞાનિકોની ઇમેજોને મિશ્ર લિંગોના બદલે સતત પુરુષ-પ્રસ્તુત લોકોને સાથે પૂર્ણ કરી શકે છે. અમે અપેક્ષા રાખીએ છીએ કે ડેવલપર્સને તેઓ તેમની સિસ્ટમોમાં જે ડેટા આપે છે તેની તરફ વધતું ધ્યાન આપવું પડશે અને તે ટ્રેન કરાયેલા મોડેલ્સમાં આવેલા પૂર્વગ્રહો સાથે કેવી રીતે સંબંધિત છે તે વધુ સારી રીતે સમજવું પડશે.

નિષ્કર્ષ

અમે બતાવ્યું છે કે 2-D જ્ઞાનને સ્કેલ⁶⁰ સામે સમાયોજિત કરીને અને નેટવર્કના મધ્યમાંથી આગાહીકારી લક્ષણો પસંદ કરીને, સિક્વન્સ ટ્રાન્સફોર્મર અનસુપરવાઇઝ્ડ ઇમેજ વર્ગીકરણ માટે ટોચના કન્વોલ્યુશનલ નેટ્સ સાથે સ્પર્ધાત્મક બની શકે છે. ખાસ કરીને, અમે સીધું GPT‑2 ભાષા મોડલ ઇમેજ જનરેશન પર લાગુ કરીને અમારા પરિણામો હાંસલ કર્યા. અમારા પરિણામો સૂચવે છે કે તેની સરળતા અને સામાન્યતાને કારણે, પૂરતી ગણતરીશક્તિ આપવામાં આવે તો સિક્વન્સ ટ્રાન્સફોર્મર અંતે ઘણા ડોમેઇન્સમાં ઉત્તમ લક્ષણો શીખવાનો અસરકારક માર્ગ બની શકે છે.

જો તમે સંશોધનના આ ક્ષેત્રમાં અમારી સાથે કામ કરવા ઉત્સાહિત હો, તો અમે ભરતી કરી રહ્યા છીએ⁠!

ફૂટનોટ્સ

A
શીખાયેલા લક્ષણો પર logistic regression (linear probe) દ્વારા માપેલું.
B
ટ્રાન્સફોર્મરને likelihood વધારે તે રીતે ટ્રેન કરવામાં આવે છે, અને તેથી તે mode covering હોય છે, જે આપમેળે તેના નમૂનાઓની વિવિધતા સુનિશ્ચિત કરે છે.
C
મૂળ analysis by synthesis વિચાર latent variables ધરાવતા જનરેટિવ મોડેલ્સ માટે વધુ દલીલ હતો, પરંતુ latent variables વગરના જનરેટિવ મોડેલ્સ ડેટા વિતરણનું મોડેલિંગ કરવામાં એટલા સારા હતા કે અમને લાગ્યું કે analysis-by-synthesis અનુમાન તેમના માટે પણ સાચું હોવું જોઈએ.
D
અમે iGPT-XL માટે ImageNet પર માત્ર linear probe ચોકસાઈ બતાવીએ છીએ કારણ કે અન્ય પ્રયોગો અમે જુદી સુપરકમ્પ્યુટિંગ સુવિધાઓ તરફ પરિવર્તન કરવું પડે તે પહેલાં પૂર્ણ થયા નહોતા.
E
linear probe માટે લક્ષણો કાઢવા, અમે કોઈક સ્તરે post layernorm attention block inputs લઈએ છીએ અને sequence dimension પર average pool કરીએ છીએ.
F
fine-tune કરવા, અમે post layernorm transformer output લઈએ છીએ અને classification head માટે ઇનપુટ તરીકે sequence dimension પર average pool કરીએ છીએ.
G
એક જનરેટિવ મોડલ જે સંપૂર્ણપણે અનસુપરવાઇઝ્ડ રીતે લક્ષણો શીખે છે.

સંદર્ભો

1
LeCun, Y. (2017). “આગાહી આધારિત લર્નિંગ⁠(નવી વિન્ડોમાં ખૂલે છે).”
2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Attention is All you Need⁠(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2017.
3
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). “BERT: ભાષા સમજણ માટે ડીપ દ્વિમાર્ગી ટ્રાન્સફોર્મર્સનું પ્રી-ટ્રેનિંગ⁠(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “ભાષા મોડેલ્સ અનસુપરવાઇઝ્ડ મલ્ટીટાસ્ક લર્નર્સ છે⁠(નવી વિન્ડોમાં ખૂલે છે).” Technical Report, OpenAI.
5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: એક મજબૂત રીતે ઑપ્ટિમાઇઝ કરાયેલ BERT પ્રી-ટ્રેનિંગ અભિગમ⁠(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “એક એકીકૃત Text-to-Text ટ્રાન્સફોર્મર સાથે ટ્રાન્સફર લર્નિંગની મર્યાદાઓનું અન્વેષણ⁠(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
7
Dai, A., Le, Q. V. (2015). “સેમી-સુપરવાઇઝ્ડ સિક્વન્સ લર્નિંગ⁠(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2015.
8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “ડીપ સંદર્ભિત શબ્દ પ્રતિનિધિત્વો⁠(નવી વિન્ડોમાં ખૂલે છે).” In NAACL 2018.
9
Howard, J., Ruder, S. (2018). “ટેક્સ્ટ વર્ગીકરણ માટે યુનિવર્સલ ભાષા મોડલ ફાઇન-ટ્યુનિંગ⁠(નવી વિન્ડોમાં ખૂલે છે).” In ACL 2018.
10
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “જનરેટિવ પ્રી-ટ્રેનિંગ દ્વારા ભાષા સમજણમાં સુધારો⁠(નવી વિન્ડોમાં ખૂલે છે).” Technical Report, OpenAI.
11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). “Sparse attentive backtracking: યાદ અપાવવાથી સમયગત ક્રેડિટ અસાઇન્મેન્ટ⁠(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2018.
12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). “વિઝ્યુઅલ પ્રતિનિધિત્વોના contrastive learning માટે એક સરળ ફ્રેમવર્ક⁠(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
13
Bachman, P., Hjelm, R., & Buchwalter, W. (2019). “વિવિધ દૃશ્યોમાં પરસ્પર માહિતી મહત્તમ કરીને પ્રતિનિધિત્વો શીખવા⁠(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2019.
14
Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): સામાન્ય વિઝ્યુઅલ પ્રતિનિધિત્વ લર્નિંગ⁠(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: Pipeline parallelism નો ઉપયોગ કરીને વિશાળ ન્યુરલ નેટવર્ક્સની કાર્યક્ષમ ટ્રેનિંગ⁠(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2019.
16
Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). “અભેદ્ય ડેટા કે નબળું મોડલ? ડેટા અને મોડલ રિઝોલ્યુશનની સાપેક્ષ મહત્વતા વિશે⁠(નવી વિન્ડોમાં ખૂલે છે).” In ICCV 2019.
17
Lasserre, J., Bishop, C., & Minka, T. P. (2006). “જનરેટિવ અને ડિસ્ક્રિમિનેટિવ મોડેલ્સના સિદ્ધાંતઆધારિત હાઇબ્રિડ્સ⁠(નવી વિન્ડોમાં ખૂલે છે).” In CVPR 2006.
18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). “અનસુપરવાઇઝ્ડ પ્રી-ટ્રેનિંગ ડીપ લર્નિંગમાં કેમ મદદ કરે છે?⁠(નવી વિન્ડોમાં ખૂલે છે).” In JMLR 2010.
19
Elman, J. (1990). “સમયમાં રચના શોધવી⁠(નવી વિન્ડોમાં ખૂલે છે).” In Cognitive Science 1990.
20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Recurrent neural network આધારિત ભાષા મોડલ⁠(નવી વિન્ડોમાં ખૂલે છે).” In INTERSPEECH-2010.
21
Larochelle, H., Murray, I. (2011). “ન્યુરલ ઑટોરિગ્રેસિવ વિતરણ એસ્ટિમેટર⁠(નવી વિન્ડોમાં ખૂલે છે).” In AISTATS 2011.
22
Graves, A. (2013). “Recurrent neural networks સાથે સિક્વન્સ જનરેટ કરવી⁠(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
23
Tian, Y., Krishnan, D., & Isola, P. (2019). “Contrastive multiview coding⁠(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
24
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). “અનસુપરવાઇઝ્ડ વિઝ્યુઅલ પ્રતિનિધિત્વ લર્નિંગ માટે Momentum Contrast⁠(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Contrastive Predictive Coding સાથે ડેટા-કાર્યક્ષમ ઇમેજ ઓળખ⁠(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Pixel recurrent neural networks⁠(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer⁠(નવી વિન્ડોમાં ખૂલે છે).” In ICML 2018.
28
Menick, J., Kalchbrenner, N. (2018). “Subscale Pixel Networks અને Multidimensional Upscaling સાથે ઉચ્ચ-નિષ્ઠાવાળી ઇમેજો જનરેટ કરવી⁠(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
29
Mumford, D. (1992). “નિયોકોર્ટેક્સની ગણનાત્મક આર્કિટેક્ચર વિશે⁠(નવી વિન્ડોમાં ખૂલે છે).” In Biol. Cybern.
30
Rao, R., Ballard, D. (1999). “દૃષ્ટિ કોર્ટેક્સમાં predictive coding: કેટલાક extra-classical receptive-field effects ની કાર્યાત્મક વ્યાખ્યા⁠(નવી વિન્ડોમાં ખૂલે છે).” In Nature Neuroscience.
31
Smolensky, P. (1986). “ગતિશીલ પ્રણાલીઓમાં માહિતી સંસ્કરણ: harmony theory ની પાયાઓ⁠(નવી વિન્ડોમાં ખૂલે છે).”
32
Hinton, G. (2002). “Contrastive Divergence ને ઘટાડીને Products of Experts ને ટ્રેન કરવું⁠(નવી વિન્ડોમાં ખૂલે છે).” In MIT Press.
33
Hinton, G., Osindero, S., & Teh, Y. (2006). “ડીપ belief nets માટે ઝડપી લર્નિંગ અલ્ગોરિધમ⁠(નવી વિન્ડોમાં ખૂલે છે).” In Neural Computation.
34
Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). “Denoising autoencoders વડે મજબૂત લક્ષણો કાઢવા અને રચવા⁠(નવી વિન્ડોમાં ખૂલે છે).” In ICML 2008.
35
Coates, A., Lee, H., & Ng, A. Y. (2011). “અનસુપરવાઇઝ્ડ feature learning માં single-layer networks નું વિશ્લેષણ⁠(નવી વિન્ડોમાં ખૂલે છે).” In AISTATS 2011.
36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “વિશાળ પાયે અનસુપરવાઇઝ્ડ લર્નિંગ વડે ઉચ્ચ-સ્તરીય લક્ષણો બનાવવું⁠(નવી વિન્ડોમાં ખૂલે છે).” In ICML 2012.
37
Donahue, J., Simonyan, K. (2019). “વિશાળ પાયે adversarial representation learning⁠(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2019.
38
Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). “Deep Big Simple Neural Nets હસ્તલેખિત અંકોની ઓળખમાં ઉત્તમ છે⁠(નવી વિન્ડોમાં ખૂલે છે).” In CoRR 2010.
39
Shaw, P., Uszkoreit, J., & Vaswani A. (2018). “Relative position representations સાથે self-attention⁠(નવી વિન્ડોમાં ખૂલે છે).” In NAACL 2018.
40
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “Sparse transformers સાથે લાંબા ક્રમો જનરેટ કરવું⁠(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
41
Becker, S., Hinton, G. (1991). “Self-organizing neural network જે random-dot stereograms માં સપાટીઓ શોધે છે⁠(નવી વિન્ડોમાં ખૂલે છે).” In Nature.
42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). “એક “siamese” time delay neural network નો ઉપયોગ કરીને હસ્તાક્ષર ચકાસણી⁠(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 1994.
43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). “શબ્દો અને વાક્યાંશોના વિતરિત પ્રતિનિધિત્વો અને તેમની રચનાત્મકતા⁠(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2013.
44
Oord, A., Li, Y., Vinyals, O. (2018). “Contrastive Predictive Coding સાથે Representation Learning⁠(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “પરસ્પર માહિતીના અંદાજ અને મહત્તમીકરણ દ્વારા ડીપ પ્રતિનિધિત્વો શીખવા⁠(નવી વિન્ડોમાં ખૂલે છે).” In ICLR 2019.
46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). “માત્ર સિક્વન્સ આધારિત ડીપ representation learning સાથે એકીકૃત તર્કસંગત protein engineering⁠(નવી વિન્ડોમાં ખૂલે છે).” In Nature Methods.
47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). “250 મિલિયન પ્રોટીન સિક્વન્સ પર અનસુપરવાઇઝ્ડ લર્નિંગનું સ્કેલિંગ કરતાં જૈવિક રચના અને કાર્ય પ્રગટ થાય છે⁠(નવી વિન્ડોમાં ખૂલે છે).” bioRxiv preprint.
48
Torralba, A., Fergus, R., Freeman, W. (2008). “80 મિલિયન tiny images: નોનપેરામેટ્રિક ઑબ્જેક્ટ અને દૃશ્ય ઓળખ માટે મોટું ડેટાસેટ⁠(નવી વિન્ડોમાં ખૂલે છે).” In IEEE transactions on pattern analysis and machine intelligence.
49
“8-Bit Computer Hardware Graphics ની સૂચિ⁠(નવી વિન્ડોમાં ખૂલે છે).” Wikipedia, 8 May 2020
50
Kornblith, S., Shlens, J., & Le, Q. V. (2019). “શું વધુ સારા ImageNet મોડેલ્સ વધુ સારી રીતે ટ્રાન્સફર થાય છે?⁠(નવી વિન્ડોમાં ખૂલે છે).” In CVPR 2019.
51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: ડેટામાંથી augmentation strategies શીખવી⁠(નવી વિન્ડોમાં ખૂલે છે).” In CVPR 2019.
52
Tan, M., Le, Q. V. (2019). “EfficientNet: Convolutional Neural Networks માટે Model Scaling નું પુનર્વિચાર⁠(નવી વિન્ડોમાં ખૂલે છે).” In ICML 2019.
53
Gidaris, S., Singh, P., & Komodakis, N. (2018). “ઇમેજ રોટેશન્સની આગાહી કરીને અનસુપરવાઇઝ્ડ representation learning⁠(નવી વિન્ડોમાં ખૂલે છે).” In ICLR 2018.
54
Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). “ડીપ જનરેટિવ મોડેલ્સ સાથે સેમી-સુપરવાઇઝ્ડ લર્નિંગ⁠(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2014.
55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “GANs ને ટ્રેન કરવાની સુધારેલી તકનીકો⁠(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2016.
56
Tarvainen, A., Valpola, H. (2017). “Mean teachers વધુ સારા role models છે: weight-averaged consistency targets સેમી-સુપરવાઇઝ્ડ ડીપ લર્નિંગ પરિણામોમાં સુધારો કરે છે⁠(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2017.
57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: સેમી-સુપરવાઇઝ્ડ લર્નિંગ માટે એક સમગ્ર અભિગમ⁠(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2019.
58
Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). “Consistency Training માટે Unsupervised Data Augmentation⁠(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: consistency અને confidence સાથે સેમી-સુપરવાઇઝ્ડ લર્નિંગને સરળ બનાવવું⁠(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
60
Sutton, R. (2019). “The Bitter Lesson⁠(નવી વિન્ડોમાં ખૂલે છે).”

લેખકો

Mark Chen, Alec Radford, Ilya Sutskever

આભારવિદિ

સર્વપ્રથમ, અમે અમારા પેપરના સહ-લેખકો Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, અને David Luan નો આભાર માનવા માંગીએ છીએ.

આ કાર્ય પરના પ્રતિસાદ અને આ રિલીઝમાં યોગદાન માટે નીચેના લોકોનો આભાર: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le, અને Ashish Vaswani.

સંપાદક: Ashley Pilipiszyn

ડિઝાઇન: Justin Jay Wang

કવર આર્ટવર્ક: Ben Barry