મુખ્ય વિષય-સામગ્રી પર જાવો
OpenAI

અમે શોધ્યું કે, જેમ ભાષા પર ટ્રેન કરાયેલું મોટું ટ્રાન્સફોર્મર મોડલ સુસંગત લખાણ જનરેટ કરી શકે છે, તેમ જ પિક્સેલ ક્રમો પર ટ્રેન કરાયેલું એ જ ચોક્કસ મોડલ સુસંગત ઇમેજ પૂર્ણતાઓ અને નમૂનાઓ જનરેટ કરી શકે છે. નમૂનાની ગુણવત્તા અને ઇમેજ વર્ગીકરણ ચોકસાઈ વચ્ચેનો સંબંધ સ્થાપિત કરીને, અમે બતાવીએ છીએ કે અમારું શ્રેષ્ઠ જનરેટિવ મોડલ અનસુપરવાઇઝ્ડ પરિસ્થિતિમાં ટોચના કન્વોલ્યુશનલ નેટ્સ સાથે સ્પર્ધાત્મક લક્ષણો પણ ધરાવે છે.

પરિચય

અનસુપરવાઇઝ્ડ અને self-supervised learning,1 અથવા માનવ-લેબલ કરાયેલ ડેટા વગરનું લર્નિંગ, મશીન લર્નિંગ માટે લાંબા સમયથી રહેલો પડકાર છે. તાજેતરમાં, તેને ભાષામાં અદ્ભુત સફળતા મળી છે, કારણ કે BERT,3 GPT‑2,4 RoBERTa,5 T5,6 અને અન્ય variants7, 8, 9, 10 જેવા ટ્રાન્સફોર્મર2 મોડેલ્સે ભાષાના વિવિધ કાર્યોમાં ટોચનું પ્રદર્શન હાંસલ કર્યું છે. જોકે, મોડેલ્સનો આ જ વ્યાપક વર્ગ ઇમેજ વર્ગીકરણ માટે મજબૂત લક્ષણો ઉત્પન્ન કરવામાં સફળ રહ્યો નથી.11 અમારું કાર્ય આ ખાડાને સમજવા અને પાટો પાડવાનું ધ્યેય ધરાવે છે.

BERT અને GPT‑2 જેવા ટ્રાન્સફોર્મર મોડેલ્સ domain agnostic છે, એટલે કે તેઓ સીધા કોઈપણ પ્રકારના 1-D ક્રમો પર લાગુ કરી શકાય છે. જ્યારે અમે લાંબા પિક્સેલ ક્રમોમાં ઉકેલી મૂકાયેલી ઇમેજો પર GPT‑2 ને ટ્રેન કરીએ છીએ, જેને અમે iGPT કહીએ છીએ, ત્યારે અમે શોધીએ છીએ કે મોડલ 2-D ઇમેજ લક્ષણો જેમ કે ઑબ્જેક્ટનું દેખાવ અને શ્રેણીને સમજતું હોય એવું લાગે છે. માનવદ્વારા આપેલા લેબલ્સના માર્ગદર્શન વગર પણ તે જનરેટ કરતા સુસંગત ઇમેજ નમૂનાઓની વિવિધતા આનો પુરાવો આપે છે. વધુ પુરાવા તરીકે, મોડલમાંથી મળેલા લક્ષણો અનેક વર્ગીકરણ ડેટાસેટ્સ પર state-of-the-art પ્રદર્શન હાંસલ કરે છે અને ImageNet પર લગભગ state-of-the-art અનસુપરવાઇઝ્ડ ચોકસાઈA પ્રાપ્ત કરે છે.

મૂલ્યાંકન

ડેટાસેટ

અમારું પરિણામ

શ્રેષ્ઠ non-iGPT પરિણામ

શીખાયેલા લક્ષણો પર logistic regression (linear probe)

CIFAR-10

96.3 iGPT‑L 32x32 w/ 1536 લક્ષણો

95.3 SimCLR12 w/ 8192 લક્ષણો

CIFAR-100

82.8 iGPT‑L 32x32 w/ 1536 લક્ષણો

80.2 SimCLR w/ 8192 લક્ષણો

STL-10

95.5 iGPT‑L 32x32 w/ 1536 લક્ષણો

94.2 AMDIM13 w/ 8192 લક્ષણો

ImageNet

72.0 iGPT‑XLa 64x64 w/ 15360 લક્ષણો

76.5 SimCLR w/ 8192 લક્ષણો

Full fine-tune

CIFAR-10

99.0 iGPT‑L 32x32, ImageNet પર ટ્રેન કરેલું

99.0b GPipe,14 ImageNet પર ટ્રેન કરેલું

ImageNet 32x32

66.3 iGPT‑L 32x32

70.2 Isometric Nets15

  1. અમે iGPT‑XL માટે માત્ર ImageNet linear probe ચોકસાઈ બતાવીએ છીએ કારણ કે અન્ય પ્રયોગો અમે જુદી સુપરકમ્પ્યુટિંગ સુવિધાઓ તરફ પરિવર્તન કરવું પડે તે પહેલાં પૂર્ણ થયા નહોતા.
  2. JFT (18K વર્ગો સાથે 300M ઇમેજો) પર ટ્રેન કરાયેલ Bit-L એ 99.3 નું પરિણામ હાંસલ કર્યું.

સામાન્ય હેતુ માટેના અનસુપરવાઇઝ્ડ લર્નિંગ અલ્ગોરિધમ તરીકે જનરેટિવ17, 18 સિક્વન્સ મોડેલિંગ19, 20, 21, 22 ની ક્ષમતા ઉજાગર કરવા માટે, અમે ભાષામાં GPT‑2 જેવી જ ટ્રાન્સફોર્મર આર્કિટેક્ચર જ્ઞાતપણે વાપરીએ છીએ. પરિણામે, ટોચના અનસુપરવાઇઝ્ડ કન્વોલ્યુશનલ નેટ્સના લક્ષણો સાથે સ્પર્ધાત્મક લક્ષણો ઉત્પન્ન કરવા માટે અમને નોંધપાત્ર રીતે વધુ ગણતરીશક્તિની જરૂર પડે છે.13, 23, 24, 25, 12 જોકે, અમારા પરિણામો સૂચવે છે કે જ્યારે કોઈ નવા ડોમેઇનનો સામનો થાય અને યોગ્ય model priors અજ્ઞાત હોય, ત્યારે મોટું GPT‑2 domain-specific26, 27, 28 આર્કિટેક્ચરલ ડિઝાઇન પસંદગીઓની જરૂર વગર ઉત્તમ લક્ષણો શીખી શકે છે.

લોડ થઈ રહ્યું છે...

ભાષા GPT થી ઇમેજ GPT સુધી

ભાષામાં, શબ્દ આગાહી પર આધારિત અનસુપરવાઇઝ્ડ લર્નિંગ અલ્ગોરિધમ્સ (GPT‑2 અને BERT જેવી) અત્યંત સફળ રહી છે અને ભાષાના વિવિધ કાર્યોમાં શ્રેષ્ઠ પ્રદર્શન હાંસલ કર્યું છે. આ સફળતાનું એક સંભવિત કારણ એ છે કે ડાઉનસ્ટ્રીમ ભાષા કાર્યોના ઉદાહરણો સ્વાભાવિક રીતે લખાણમાં દેખાય છે: પ્રશ્નો પછી વારંવાર જવાબો આવે છે, જે પ્રશ્નોત્તરીમાં મદદરૂપ થઈ શકે છે, અને અવતરણો પછી સારાંશો આવે છે, જે સારાંશીકરણમાં મદદરૂપ થઈ શકે છે. તેની સરખામણીએ, પિક્સેલોના ક્રમો સ્પષ્ટ રીતે તે જે ઇમેજના છે તેના લેબલ્સ ધરાવતા નથી.

આ સ્પષ્ટ સુપરવિઝન વગર પણ, ઇમેજ પર GPT‑2 કામ કરી શકે તે માટે હજી એક કારણ છે: આગામી પિક્સેલ આગાહી પર ટ્રેન કરાયેલું પૂરતું મોટું ટ્રાન્સફોર્મર અંતે સ્પષ્ટ રીતે ઓળખી શકાય એવા ઑબ્જેક્ટ્સ ધરાવતા વિવિધB નમૂનાઓ જનરેટ કરવાનું શીખી શકે છે. એકવાર તે આવું કરવાનું શીખી જાય, ત્યારે “Analysis by Synthesis”29, 30, C તરીકે ઓળખાતી કલ્પના સૂચવે છે કે મોડલને ઑબ્જેક્ટ શ્રેણીઓ વિશે પણ ખબર હશે. ઘણા પ્રારંભિક જનરેટિવ મોડેલ્સ31, 32, 33, 34, 35, 36 આ વિચારથી પ્રેરિત હતા, અને તાજેતરમાં BigBiGAN37 એ પ્રોત્સાહક નમૂનાઓ અને લક્ષણો આપનાર ઉદાહરણ હતું. અમારા કાર્યમાં, અમે પહેલાં દર્શાવીએ છીએ કે વધુ સારા જનરેટિવ મોડેલ્સ વધુ મજબૂત વર્ગીકરણ પ્રદર્શન હાંસલ કરે છે. પછી, જનરેટિવ ક્ષમતાઓ માટે GPT‑2 ને ઑપ્ટિમાઇઝ કરીને, અમે ઘણી પરિસ્થિતિઓમાં ટોચસ્તરીય વર્ગીકરણ પ્રદર્શન હાંસલ કરીએ છીએ, જે analysis by synthesis માટે વધુ પુરાવા પૂરા પાડે છે.

સામાન્ય અનસુપરવાઇઝ્ડ લર્નિંગ તરફ

જનરેટિવ સિક્વન્સ મોડેલિંગ એક સર્વવ્યાપક અનસુપરવાઇઝ્ડ લર્નિંગ અલ્ગોરિધમ છે: કારણ કે તમામ પ્રકારના ડેટાને બાઇટ્સના ક્રમ તરીકે રજૂ કરી શકાય છે, ટ્રાન્સફોર્મર કોઈ વધારાની એન્જિનિયરિંગ વગર સીધો કોઈપણ ડેટા પ્રકાર પર લાગુ કરી શકાય છે. અમારા કાર્યમાં GPT‑2 ને પ્રાકૃતિક ભાષા માટે ટ્રેન કરવા ઉપયોગમાં લેવાયેલી આર્કિટેક્ચરને સીધી ઇમેજ જનરેશન પર લાગુ કરીને આ સામાન્યતાની શક્તિની કસોટી કરવામાં આવી છે. અમે જ્ઞાતપણે convolutions38 અથવા relative attention,39 sparse attention,40 અને 2-D position embeddings.27 જેવી તકનીકોના રૂપમાં કોઈપણ ઇમેજ-વિશિષ્ટ જ્ઞાન હસ્તલેખિત રીતે ઉમેરવાનું ટાળ્યું છે.

તેની સામાન્યતાના પરિણામરૂપ, અનસુપરવાઇઝ્ડ પરિસ્થિતિમાં સ્પર્ધાત્મક પ્રદર્શન હાંસલ કરવા માટે અમારી પદ્ધતિને નોંધપાત્ર રીતે વધુ ગણતરીશક્તિની જરૂર પડે છે. ખરેખર, contrastive પદ્ધતિઓ41, 42, 43, 44, 45, 13, 23, 24, 25, 12 હજી પણ ઇમેજોમાંથી ઉચ્ચ ગુણવત્તાવાળા લક્ષણો ઉત્પન્ન કરવા માટે સૌથી વધુ ગણતરી-કાર્યક્ષમ પદ્ધતિઓ છે. છતાં, અનસુપરવાઇઝ્ડ ટ્રાન્સફોર્મર મોડલ શ્રેષ્ઠ અનસુપરવાઇઝ્ડ કન્વોલ્યુશનલ નેટ્સ સાથે સ્પર્ધાત્મક છે એવું બતાવીને,24, 25, 12 અમે પુરાવો આપીએ છીએ કે હસ્તલેખિત ડોમેન જ્ઞાનને ગણતરીશક્તિ સામે બદલી શકાય છે. નવા ડોમેઇન્સમાં,46, 47 જ્યાં હસ્તલેખિત કરવા માટે ઘણું જ્ઞાન ઉપલબ્ધ નથી, ત્યાં ગણતરીશક્તિનું સ્કેલિંગ પરીક્ષણ કરવા યોગ્ય તકનીક લાગે છે.

અભિગમ

અમે ImageNet પર અનુક્રમે 76M, 455M, અને 1.4B પરિમાણો ધરાવતા ટ્રાન્સફોર્મર્સ iGPT‑S, iGPT‑M, અને iGPT‑L ને ટ્રેન કરીએ છીએ. અમે iGPT‑XLD ને પણ ટ્રેન કરીએ છીએ, જે 6.8 બિલિયન પરિમાણો ધરાવતું ટ્રાન્સફોર્મર છે, ImageNet અને વેબની ઇમેજોના મિશ્રણ પર. dense attention સાથે લાંબા ક્રમોનું મોડેલિંગ કરવાના મોટા ગણતરી ખર્ચને કારણે, અમે 32x32, 48x48, અને 64x64 જેવી નીચી રિઝોલ્યુશન પર ટ્રેન કરીએ છીએ.

ગણતરી ખર્ચને વધુ ઘટાડવા માટે વધુ નીચી રિઝોલ્યુશન પર કામ કરવું આકર્ષક લાગે છે, પરંતુ અગાઉના કાર્યે દર્શાવ્યું છે કે આ કદથી નીચે ઇમેજ વર્ગીકરણમાં માનવીય પ્રદર્શન ઝડપથી ઘટવા લાગે છે.48 તેના બદલે, પ્રારંભિક રંગીન ડિસ્પ્લે પેલેટ્સથી પ્રેરાઈને,49 અમે પિક્સેલ્સને પ્રતિનિધિત્વ કરવા માટે અમારી પોતાની 9-bit રંગ પેલેટ બનાવીએ છીએ. આ પેલેટનો ઉપયોગ standard (R, G, B) પેલેટ કરતાં 3 ગણો ટૂંકો ઇનપુટ ક્રમ આપે છે, અને છતાં રંગને વિશ્વસનીય રીતે એન્કોડ કરે છે.

પ્રયોગાત્મક પરિણામો

મોડલના પ્રદર્શનનું મૂલ્યાંકન કરવા માટે અમે બે પદ્ધતિઓ વાપરીએ છીએ, અને બંનેમાં ડાઉનસ્ટ્રીમ વર્ગીકરણ કાર્ય સામેલ છે. પ્રથમ પદ્ધતિ, જેને અમે લિનિયર પ્રોબ કહીએ છીએ, ટ્રેન કરાયેલા મોડલનો ઉપયોગ કરીને ડાઉનસ્ટ્રીમ ડેટાસેટની ઇમેજોમાંથી લક્ષણોE કાઢે છે, અને પછી લેબલ્સ પર લોજિસ્ટિક રિગ્રેશન ફિટ કરે છે. બીજી પદ્ધતિ સમગ્ર મોડલને ડાઉનસ્ટ્રીમ ડેટાસેટ પર ફાઇન-ટ્યુનF કરે છે.

આગલા પિક્સેલની આગાહી ઇમેજ વર્ગીકરણ માટે સ્પષ્ટ રીતે સંબંધિત નથી, તેથી અંતિમ સ્તરના લક્ષણો કદાચ ઑબ્જેક્ટ શ્રેણીની આગાહી કરવા માટે સૌથી વધુ ઉપયોગી ન હોય. અમારું પ્રથમ પરિણામ દર્શાવે છે કે લક્ષણોની ગુણવત્તા ઊંડાઈ સાથે તેજીથી વધે છે અને પછી થોડું ઘટે છે. આ વર્તન સૂચવે છે કે ટ્રાન્સફોર્મર જનરેટિવ મોડલ બે તબક્કામાં કાર્ય કરે છે: પ્રથમ તબક્કામાં, દરેક સ્થાન તેની આસપાસના સંદર્ભમાંથી માહિતી એકત્રિત કરીને સંદર્ભિત ઇમેજ લક્ષણ બનાવે છે. બીજા તબક્કામાં, આ સંદર્ભિત લક્ષણનો ઉપયોગ શરતી આગળના પિક્સેલની આગાહીનું કાર્ય ઉકેલવા માટે થાય છે. અમારા લિનિયર પ્રોબ્સમાં જોવાયેલું આ બે-તબક્કાનું પ્રદર્શન બીજા એક અનસુપરવાઇઝ્ડ ન્યુરલ નેટ, બોટલનેક ઑટોએન્કોડર, જે હસ્તચાલિત રીતે એમ ડિઝાઇન કરવામાં આવ્યું છે કે મધ્યના લક્ષણો ઉપયોગમાં લેવાય, તેની યાદ અપાવે છે.

લોડ થઈ રહ્યું છે...

અમારું આગળનું પરિણામ જનરેટિવ પ્રદર્શન અને લક્ષણોની ગુણવત્તા વચ્ચેનો સંબંધ સ્થાપિત કરે છે. અમે શોધીએ છીએ કે અમારા મોડેલ્સનું સ્કેલ વધારવાથી અને વધુ iterations માટે ટ્રેનિંગ કરવાથી બંનેમાં વધુ સારું જનરેટિવ પ્રદર્શન મળે છે, જે સીધું વધુ સારી લક્ષણ ગુણવત્તામાં રૂપાંતરિત થાય છે.

લોડ થઈ રહ્યું છે...

જ્યારે અમે CIFAR-10, CIFAR-100, અને STL-10 પર linear probes નો ઉપયોગ કરીને અમારા લક્ષણોનું મૂલ્યાંકન કરીએ છીએ, ત્યારે અમે તમામ supervised અને unsupervised transfer algorithms ના લક્ષણો કરતાં વધુ સારું પ્રદર્શન કરીએ છીએ. full fine-tuning પરિસ્થિતિમાં પણ અમારા પરિણામો મજબૂત છે.

ImageNet પર pre-trained

મૂલ્યાંકન

મોડલ

ચોકસાઈ

લેબલ્સ વગર

લેબલ્સ સાથે

CIFAR-10

લિનિયર પ્રોબ

ResNet-15250

94.0

SimCLR12

95.3

iGPT‑L 32x32

96.3

CIFAR-100

લિનિયર પ્રોબ

ResNet-152

78.0

SimCLR

80.2

iGPT‑L 32x32

82.8

STL-10

લિનિયર પ્રોબ

AMDIM-L

94.2

iGPT‑L 32x32

95.5

CIFAR-10

ફાઇન-ટ્યુન

AutoAugment

98.5

SimCLR

98.6

GPipe

99.0

iGPT‑L

99.0

CIFAR-100

ફાઇન-ટ્યુન

iGPT‑L

88.5

SimCLR

89.0

AutoAugment

89.3

EfficientNet52

91.7

અમારા મોડેલ્સ અને ટોચના પ્રદર્શન કરનારા મોડેલ્સ વચ્ચે linear probe અને fine-tune ચોકસાઈની તુલના, જે unsupervised અથવા supervised ImageNet transfer નો ઉપયોગ કરે છે. અમે AutoAugment ને પણ સમાવેશ કરીએ છીએ, જે CIFAR પર end-to-end ટ્રેન કરાયેલું શ્રેષ્ઠ પ્રદર્શન કરતું મોડલ છે.

ImageNet પર unsupervised અને self-supervised learning પ્રત્યે વધતા રસને ધ્યાનમાં રાખીને, અમે અમારા મોડેલ્સનું મૂલ્યાંકન ImageNet પર linear probes નો ઉપયોગ કરીને પણ કરીએ છીએ. આ ખાસ કરીને મુશ્કેલ પરિસ્થિતિ છે, કારણ કે અમે standard ImageNet input resolution પર ટ્રેન કરતા નથી. તેમ છતાં, 48x48 ઇમેજો પર ટ્રેન કરાયેલા iGPT‑L ના શ્રેષ્ઠ સ્તરમાંથી 1536 લક્ષણો પરનો linear probe 65.2% top-1 ચોકસાઈ આપે છે, અને AlexNet કરતાં વધુ સારું પ્રદર્શન કરે છે.

Contrastive પદ્ધતિઓ સામાન્ય રીતે 8192 લક્ષણો પર તેમના શ્રેષ્ઠ પરિણામો જણાવે છે, તેથી તુલનાને માટે આદર્શ રીતે અમે 8192 ની embedding dimension સાથે iGPT નું મૂલ્યાંકન કરીએ. જોકે, એવું મોડલ ટ્રેન કરવું અત્યંત ખર્ચાળ છે, તેથી તેના બદલે અમે અંદાજ તરીકે અનેક સ્તરોના લક્ષણોને concatenate કરીએ છીએ. દુર્ભાગ્યે, અમારા લક્ષણો સ્તરોમાં પરસ્પર સંબંધિત હોય છે, તેથી સ્પર્ધાત્મક બનવા માટે અમને તેમની વધુ જરૂર પડે છે. iGPT‑XL માં 5 સ્તરોમાંથી 15360 લક્ષણો લેવાથી 72.0% top-1 ચોકસાઈ મળે છે, જે AMDIM, MoCo, અને CPC v2 કરતાં વધુ સારું છે, પરંતુ હજી પણ SimCLR કરતાં નોંધપાત્ર અંતરે ઓછું છે.

પદ્ધતિ

ઇનપુટ રિઝોલ્યુશન

લક્ષણો

પરિમાણો

ચોકસાઈ

Rotation53

original

8192

86M

55.4

iGPT‑L

32x32

1536

1362M

60.3

BigBiGAN37

original

16384

86M

61.3

iGPT‑L

48x48

1536

1362M

65.2

AMDIM13

original

8192

626M

68.1

MoCo24

original

8192

375M

68.6

iGPT‑XL

64x64

3072

6801M

68.7

SimCLR12

original

2048

24M

69.3

CPC v225

original

4096

303M

71.5

iGPT‑XL

64x64

3072 x 5

6801M

72.0

SimCLR

original

8192

375M

76.5

અમારા મોડેલ્સ અને state-of-the-art self-supervised મોડેલ્સ વચ્ચે linear probe ચોકસાઈની તુલના. અમે ઘણાં ઓછા ઇનપુટ રિઝોલ્યુશન પર ટ્રેનિંગ કરતાં હોવા છતાં સ્પર્ધાત્મક પ્રદર્શન હાંસલ કરીએ છીએ, જોકે અમારી પદ્ધતિને વધુ પરિમાણો અને ગણતરીશક્તિની જરૂર પડે છે.

કારણ કે BERT જેવા masked language models એ મોટાભાગના ભાષાકીય કાર્યોમાં જનરેટિવ મોડેલ્સ કરતાં સારું પ્રદર્શન કર્યું છે, અમે અમારા ઇમેજ મોડેલ્સ પર BERT નું પ્રદર્શન પણ મૂલ્યાંકન કરીએ છીએ. અમારા મોડલને અગાઉના બધા પિક્સેલ્સને આધારે આગામી પિક્સેલની આગાહી કરવા માટે ટ્રેન કરવાની જગ્યાએ, અમે 15% પિક્સેલ્સને mask કરીએ છીએ અને અમારા મોડલને unmasked પિક્સેલ્સથી તેમની આગાહી કરવા માટે ટ્રેન કરીએ છીએ. અમે શોધ્યું કે BERT મોડેલ્સ પર linear probe પ્રદર્શન નોંધપાત્ર રીતે નબળું હોવા છતાં, fine-tuning દરમિયાન તેઓ ઉત્તમ સાબિત થાય છે:

લોડ થઈ રહ્યું છે...

જ્યારે અનસુપરવાઇઝ્ડ લર્નિંગ માનવ-લેબલ કરાયેલ ડેટાની જરૂરિયાત વગર ઉત્તમ લક્ષણો આપવાનું વચન આપે છે, ત્યારે તાજેતરમાં વધુ સહનશીલ સેમી-સુપરવાઇઝ્ડ લર્નિંગ ફ્રેમવર્ક હેઠળ નોંધપાત્ર પ્રગતિ થઈ છે, જે મર્યાદિત પ્રમાણમાં માનવ-લેબલ કરાયેલ ડેટાને મંજૂરી આપે છે. સફળ સેમી-સુપરવાઇઝ્ડ પદ્ધતિઓ ઘણી વાર consistency regularization, data augmentation, અથવા pseudo-labeling જેવી ચતુર તકનીકો પર આધારિત હોય છે, અને સંપૂર્ણપણે જનરેટિવ આધારિત અભિગમો54, 55 વર્ષોથી સ્પર્ધાત્મક રહ્યા નથી. અમે આ ઉપક્ષેત્ર માટેના સ્પર્ધાત્મક બેન્ચમાર્ક પર iGPT‑LG નું મૂલ્યાંકન કરીએ છીએ અને શોધીએ છીએ કે non-augmented ઇમેજોમાંથી મળેલા લક્ષણો પરનો સરળ લિનિયર પ્રોબ Mean Teacher56 અને MixMatch કરતાં વધુ સારું પ્રદર્શન કરે છે, જોકે તે FixMatch.59 કરતાં ઓછું પ્રદર્શન કરે છે.

મોડલ

40 લેબલ્સ

250 લેબલ્સ

4000 લેબલ્સ

Improved GAN55

81.4 ± 2.3

Mean Teacher56

67.7 ± 2.3

90.8 ± 0.2

MixMatch57

52.5 ± 11.5

89.0 ± 0.9

93.6 ± 0.1

iGPT‑L

73.2 ± 01.5

87.6 ± 0.6

94.3 ± 0.1

UDA58

71.0 ± 05.9

91.2 ± 1.1

95.1 ± 0.2

FixMatch59 RA

86.2 ± 03.4

94.9 ± 0.7

95.7 ± 0.1

FixMatch CTA

88.6 ± 03.4

94.9 ± 0.3

95.7 ± 0.2

ઓછા ડેટાવાળા CIFAR-10 પરના પ્રદર્શનની તુલના. ઘણા unlabeled ImageNet ઇમેજોનો લાભ લઈને, iGPT‑L Mean Teacher અને MixMatch જેવી પદ્ધતિઓ કરતાં વધુ સારું પ્રદર્શન કરી શકે છે, પરંતુ હજુ state of the art પદ્ધતિઓ કરતાં ઓછું પ્રદર્શન કરે છે. સેમી-સુપરવાઇઝ્ડ લર્નિંગ માટેનો અમારો અભિગમ ખૂબ જ સરળ છે કારણ કે અમે કોઈપણ data augmentation અથવા fine-tuning વગર માત્ર iGPT‑L ના લક્ષણો પર logistic regression classifier ફિટ કરીએ છીએ, જે ખાસ ડિઝાઇન કરાયેલા સેમી-સુપરવાઇઝ્ડ અભિગમોથી મહત્વપૂર્ણ રીતે અલગ છે.

મર્યાદાઓ

જ્યારે અમે બતાવ્યું છે કે iGPT શક્તિશાળી ઇમેજ લક્ષણો શીખી શકે છે, ત્યારે પણ અમારા અભિગમમાં નોંધપાત્ર મર્યાદાઓ છે. કારણ કે અમે ભાષામાં GPT‑2 માટે વપરાતા સામાન્ય સિક્વન્સ ટ્રાન્સફોર્મરનો ઉપયોગ કરીએ છીએ, અમારી પદ્ધતિને વિશાળ ગણતરીશક્તિની જરૂર પડે છે: iGPT‑L ને અંદાજે 2500 V100-દિવસ માટે ટ્રેન કરવામાં આવ્યું હતું, જ્યારે સમાન પ્રદર્શન કરતું MoCo24 મોડલ અંદાજે 70 V100-દિવસમાં ટ્રેન થઈ શકે છે.

સંબંધિત રીતે, અમે ટ્રાન્સફોર્મરનો ઉપયોગ કરીને નીચી રિઝોલ્યુશન ઇનપુટ્સનું મોડેલિંગ કરીએ છીએ, જ્યારે મોટાભાગના self-supervised પરિણામો convolutional-based encoders નો ઉપયોગ કરે છે, જે સહેલાઈથી ઊંચી રિઝોલ્યુશન પર ઇનપુટ લઈ શકે છે. વધુ સ્કેલ કરવા માટે domain-agnostic multiscale transformer જેવી નવી આર્કિટેક્ચરની જરૂર પડી શકે છે. આ મર્યાદાઓને જોતા, અમારું કાર્ય મુખ્યત્વે એક proof-of-concept તરીકે કામ કરે છે, જે દર્શાવે છે કે મોટા transformer-based ભાષા મોડેલ્સ hardcoded domain knowledge ની જરૂર વગર નવા ડોમેઇન્સમાં ઉત્તમ અનસુપરવાઇઝ્ડ પ્રતિનિધિત્વો શીખી શકે છે. જોકે, આ મોડેલ્સને ટ્રેન કરવા માટેનો મોટો સંસાધન ખર્ચ અને convolutional neural-network આધારિત પદ્ધતિઓની વધુ ચોકસાઈ આ પ્રતિનિધિત્વોને vision domain માં વાસ્તવિક પ્રયોગ માટે અપ્રાયોગિક બનાવે છે.

છેલ્લે, જનરેટિવ મોડેલ્સ તે ડેટાના પરિણામરૂપ પૂર્વગ્રહો દર્શાવી શકે છે જેના પર તેમને ટ્રેન કરવામાં આવ્યા છે. આમાંથી ઘણા પૂર્વગ્રહો ઉપયોગી હોય છે, જેમ કે ભૂરા અને લીલા પિક્સેલોના સંયોજનને પાંદડાઓથી ઢંકાયેલી ડાળી તરીકે માનવું અને પછી તે પૂર્વગ્રહનો ઉપયોગ કરીને ઇમેજ આગળ વધારવી. પરંતુ ન્યાય અને પ્રતિનિધિત્વના દૃષ્ટિકોણથી જોવામાં આવે ત્યારે આમાંથી કેટલાક પૂર્વગ્રહો હાનિકારક બનશે. ઉદાહરણ તરીકે, જો મોડલમાં વૈજ્ઞાનિકની દૃશ્ય કલ્પના પુરુષ તરફ ઝૂકે, તો તે વૈજ્ઞાનિકોની ઇમેજોને મિશ્ર લિંગોના બદલે સતત પુરુષ-પ્રસ્તુત લોકોને સાથે પૂર્ણ કરી શકે છે. અમે અપેક્ષા રાખીએ છીએ કે ડેવલપર્સને તેઓ તેમની સિસ્ટમોમાં જે ડેટા આપે છે તેની તરફ વધતું ધ્યાન આપવું પડશે અને તે ટ્રેન કરાયેલા મોડેલ્સમાં આવેલા પૂર્વગ્રહો સાથે કેવી રીતે સંબંધિત છે તે વધુ સારી રીતે સમજવું પડશે.

નિષ્કર્ષ

અમે બતાવ્યું છે કે 2-D જ્ઞાનને સ્કેલ60 સામે સમાયોજિત કરીને અને નેટવર્કના મધ્યમાંથી આગાહીકારી લક્ષણો પસંદ કરીને, સિક્વન્સ ટ્રાન્સફોર્મર અનસુપરવાઇઝ્ડ ઇમેજ વર્ગીકરણ માટે ટોચના કન્વોલ્યુશનલ નેટ્સ સાથે સ્પર્ધાત્મક બની શકે છે. ખાસ કરીને, અમે સીધું GPT‑2 ભાષા મોડલ ઇમેજ જનરેશન પર લાગુ કરીને અમારા પરિણામો હાંસલ કર્યા. અમારા પરિણામો સૂચવે છે કે તેની સરળતા અને સામાન્યતાને કારણે, પૂરતી ગણતરીશક્તિ આપવામાં આવે તો સિક્વન્સ ટ્રાન્સફોર્મર અંતે ઘણા ડોમેઇન્સમાં ઉત્તમ લક્ષણો શીખવાનો અસરકારક માર્ગ બની શકે છે.

જો તમે સંશોધનના આ ક્ષેત્રમાં અમારી સાથે કામ કરવા ઉત્સાહિત હો, તો અમે ભરતી કરી રહ્યા છીએ!

ફૂટનોટ્સ

  1. A

    શીખાયેલા લક્ષણો પર logistic regression (linear probe) દ્વારા માપેલું.

  2. B

    ટ્રાન્સફોર્મરને likelihood વધારે તે રીતે ટ્રેન કરવામાં આવે છે, અને તેથી તે mode covering હોય છે, જે આપમેળે તેના નમૂનાઓની વિવિધતા સુનિશ્ચિત કરે છે.

  3. C

    મૂળ analysis by synthesis વિચાર latent variables ધરાવતા જનરેટિવ મોડેલ્સ માટે વધુ દલીલ હતો, પરંતુ latent variables વગરના જનરેટિવ મોડેલ્સ ડેટા વિતરણનું મોડેલિંગ કરવામાં એટલા સારા હતા કે અમને લાગ્યું કે analysis-by-synthesis અનુમાન તેમના માટે પણ સાચું હોવું જોઈએ.

  4. D

    અમે iGPT-XL માટે ImageNet પર માત્ર linear probe ચોકસાઈ બતાવીએ છીએ કારણ કે અન્ય પ્રયોગો અમે જુદી સુપરકમ્પ્યુટિંગ સુવિધાઓ તરફ પરિવર્તન કરવું પડે તે પહેલાં પૂર્ણ થયા નહોતા.

  5. E

    linear probe માટે લક્ષણો કાઢવા, અમે કોઈક સ્તરે post layernorm attention block inputs લઈએ છીએ અને sequence dimension પર average pool કરીએ છીએ.

  6. F

    fine-tune કરવા, અમે post layernorm transformer output લઈએ છીએ અને classification head માટે ઇનપુટ તરીકે sequence dimension પર average pool કરીએ છીએ.

  7. G

    એક જનરેટિવ મોડલ જે સંપૂર્ણપણે અનસુપરવાઇઝ્ડ રીતે લક્ષણો શીખે છે.

સંદર્ભો

  1. 1
  2. 2

    Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Attention is All you Need(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2017.

  3. 3
  4. 4
  5. 5

    Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: એક મજબૂત રીતે ઑપ્ટિમાઇઝ કરાયેલ BERT પ્રી-ટ્રેનિંગ અભિગમ(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.

  6. 6
  7. 7
  8. 8

    Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “ડીપ સંદર્ભિત શબ્દ પ્રતિનિધિત્વો(નવી વિન્ડોમાં ખૂલે છે).” In NAACL 2018.

  9. 9
  10. 10
  11. 11
  12. 12
  13. 13
  14. 14
  15. 15
  16. 16
  17. 17
  18. 18
  19. 19
  20. 20

    Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Recurrent neural network આધારિત ભાષા મોડલ(નવી વિન્ડોમાં ખૂલે છે).” In INTERSPEECH-2010.

  21. 21
  22. 22
  23. 23

    Tian, Y., Krishnan, D., & Isola, P. (2019). “Contrastive multiview coding(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.

  24. 24
  25. 25

    Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Contrastive Predictive Coding સાથે ડેટા-કાર્યક્ષમ ઇમેજ ઓળખ(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.

  26. 26

    Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Pixel recurrent neural networks(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.

  27. 27

    Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer(નવી વિન્ડોમાં ખૂલે છે).” In ICML 2018.

  28. 28
  29. 29
  30. 30
  31. 31
  32. 32
  33. 33
  34. 34
  35. 35
  36. 36
  37. 37
  38. 38
  39. 39
  40. 40
  41. 41
  42. 42
  43. 43
  44. 44
  45. 45
  46. 46
  47. 47
  48. 48
  49. 49
  50. 50
  51. 51
  52. 52
  53. 53
  54. 54
  55. 55

    Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “GANs ને ટ્રેન કરવાની સુધારેલી તકનીકો(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2016.

  56. 56
  57. 57
  58. 58
  59. 59
  60. 60

લેખકો

Mark Chen, Alec Radford, Ilya Sutskever

આભારવિદિ

સર્વપ્રથમ, અમે અમારા પેપરના સહ-લેખકો Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, અને David Luan નો આભાર માનવા માંગીએ છીએ.

આ કાર્ય પરના પ્રતિસાદ અને આ રિલીઝમાં યોગદાન માટે નીચેના લોકોનો આભાર: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le, અને Ashish Vaswani.

સંપાદક: Ashley Pilipiszyn

ડિઝાઇન: Justin Jay Wang

કવર આર્ટવર્ક: Ben Barry