
Illustration: Ben Barry
અમે શોધ્યું કે, જેમ ભાષા પર ટ્રેન કરાયેલું મોટું ટ્રાન્સફોર્મર મોડલ સુસંગત લખાણ જનરેટ કરી શકે છે, તેમ જ પિક્સેલ ક્રમો પર ટ્રેન કરાયેલું એ જ ચોક્કસ મોડલ સુસંગત ઇમેજ પૂર્ણતાઓ અને નમૂનાઓ જનરેટ કરી શકે છે. નમૂનાની ગુણવત્તા અને ઇમેજ વર્ગીકરણ ચોકસાઈ વચ્ચેનો સંબંધ સ્થાપિત કરીને, અમે બતાવીએ છીએ કે અમારું શ્રેષ્ઠ જનરેટિવ મોડલ અનસુપરવાઇઝ્ડ પરિસ્થિતિમાં ટોચના કન્વોલ્યુશનલ નેટ્સ સાથે સ્પર્ધાત્મક લક્ષણો પણ ધરાવે છે.
અનસુપરવાઇઝ્ડ અને self-supervised learning,1 અથવા માનવ-લેબલ કરાયેલ ડેટા વગરનું લર્નિંગ, મશીન લર્નિંગ માટે લાંબા સમયથી રહેલો પડકાર છે. તાજેતરમાં, તેને ભાષામાં અદ્ભુત સફળતા મળી છે, કારણ કે BERT,3 GPT‑2,4 RoBERTa,5 T5,6 અને અન્ય variants7, 8, 9, 10 જેવા ટ્રાન્સફોર્મર2 મોડેલ્સે ભાષાના વિવિધ કાર્યોમાં ટોચનું પ્રદર્શન હાંસલ કર્યું છે. જોકે, મોડેલ્સનો આ જ વ્યાપક વર્ગ ઇમેજ વર્ગીકરણ માટે મજબૂત લક્ષણો ઉત્પન્ન કરવામાં સફળ રહ્યો નથી.11 અમારું કાર્ય આ ખાડાને સમજવા અને પાટો પાડવાનું ધ્યેય ધરાવે છે.
BERT અને GPT‑2 જેવા ટ્રાન્સફોર્મર મોડેલ્સ domain agnostic છે, એટલે કે તેઓ સીધા કોઈપણ પ્રકારના 1-D ક્રમો પર લાગુ કરી શકાય છે. જ્યારે અમે લાંબા પિક્સેલ ક્રમોમાં ઉકેલી મૂકાયેલી ઇમેજો પર GPT‑2 ને ટ્રેન કરીએ છીએ, જેને અમે iGPT કહીએ છીએ, ત્યારે અમે શોધીએ છીએ કે મોડલ 2-D ઇમેજ લક્ષણો જેમ કે ઑબ્જેક્ટનું દેખાવ અને શ્રેણીને સમજતું હોય એવું લાગે છે. માનવદ્વારા આપેલા લેબલ્સના માર્ગદર્શન વગર પણ તે જનરેટ કરતા સુસંગત ઇમેજ નમૂનાઓની વિવિધતા આનો પુરાવો આપે છે. વધુ પુરાવા તરીકે, મોડલમાંથી મળેલા લક્ષણો અનેક વર્ગીકરણ ડેટાસેટ્સ પર state-of-the-art પ્રદર્શન હાંસલ કરે છે અને ImageNet પર લગભગ state-of-the-art અનસુપરવાઇઝ્ડ ચોકસાઈA પ્રાપ્ત કરે છે.
મૂલ્યાંકન | ડેટાસેટ | અમારું પરિણામ | શ્રેષ્ઠ non-iGPT પરિણામ |
|---|---|---|---|
શીખાયેલા લક્ષણો પર logistic regression (linear probe) | CIFAR-10 | 96.3 iGPT‑L 32x32 w/ 1536 લક્ષણો | 95.3 SimCLR12 w/ 8192 લક્ષણો |
CIFAR-100 | 82.8 iGPT‑L 32x32 w/ 1536 લક્ષણો | 80.2 SimCLR w/ 8192 લક્ષણો | |
STL-10 | 95.5 iGPT‑L 32x32 w/ 1536 લક્ષણો | 94.2 AMDIM13 w/ 8192 લક્ષણો | |
ImageNet | 72.0 iGPT‑XLa 64x64 w/ 15360 લક્ષણો | 76.5 SimCLR w/ 8192 લક્ષણો | |
Full fine-tune | CIFAR-10 | 99.0 iGPT‑L 32x32, ImageNet પર ટ્રેન કરેલું | |
ImageNet 32x32 | 66.3 iGPT‑L 32x32 | 70.2 Isometric Nets15 |
- અમે iGPT‑XL માટે માત્ર ImageNet linear probe ચોકસાઈ બતાવીએ છીએ કારણ કે અન્ય પ્રયોગો અમે જુદી સુપરકમ્પ્યુટિંગ સુવિધાઓ તરફ પરિવર્તન કરવું પડે તે પહેલાં પૂર્ણ થયા નહોતા.
- JFT (18K વર્ગો સાથે 300M ઇમેજો) પર ટ્રેન કરાયેલ Bit-L એ 99.3 નું પરિણામ હાંસલ કર્યું.
સામાન્ય હેતુ માટેના અનસુપરવાઇઝ્ડ લર્નિંગ અલ્ગોરિધમ તરીકે જનરેટિવ17, 18 સિક્વન્સ મોડેલિંગ19, 20, 21, 22 ની ક્ષમતા ઉજાગર કરવા માટે, અમે ભાષામાં GPT‑2 જેવી જ ટ્રાન્સફોર્મર આર્કિટેક્ચર જ્ઞાતપણે વાપરીએ છીએ. પરિણામે, ટોચના અનસુપરવાઇઝ્ડ કન્વોલ્યુશનલ નેટ્સના લક્ષણો સાથે સ્પર્ધાત્મક લક્ષણો ઉત્પન્ન કરવા માટે અમને નોંધપાત્ર રીતે વધુ ગણતરીશક્તિની જરૂર પડે છે.13, 23, 24, 25, 12 જોકે, અમારા પરિણામો સૂચવે છે કે જ્યારે કોઈ નવા ડોમેઇનનો સામનો થાય અને યોગ્ય model priors અજ્ઞાત હોય, ત્યારે મોટું GPT‑2 domain-specific26, 27, 28 આર્કિટેક્ચરલ ડિઝાઇન પસંદગીઓની જરૂર વગર ઉત્તમ લક્ષણો શીખી શકે છે.
ભાષામાં, શબ્દ આગાહી પર આધારિત અનસુપરવાઇઝ્ડ લર્નિંગ અલ્ગોરિધમ્સ (GPT‑2 અને BERT જેવી) અત્યંત સફળ રહી છે અને ભાષાના વિવિધ કાર્યોમાં શ્રેષ્ઠ પ્રદર્શન હાંસલ કર્યું છે. આ સફળતાનું એક સંભવિત કારણ એ છે કે ડાઉનસ્ટ્રીમ ભાષા કાર્યોના ઉદાહરણો સ્વાભાવિક રીતે લખાણમાં દેખાય છે: પ્રશ્નો પછી વારંવાર જવાબો આવે છે, જે પ્રશ્નોત્તરીમાં મદદરૂપ થઈ શકે છે, અને અવતરણો પછી સારાંશો આવે છે, જે સારાંશીકરણમાં મદદરૂપ થઈ શકે છે. તેની સરખામણીએ, પિક્સેલોના ક્રમો સ્પષ્ટ રીતે તે જે ઇમેજના છે તેના લેબલ્સ ધરાવતા નથી.
આ સ્પષ્ટ સુપરવિઝન વગર પણ, ઇમેજ પર GPT‑2 કામ કરી શકે તે માટે હજી એક કારણ છે: આગામી પિક્સેલ આગાહી પર ટ્રેન કરાયેલું પૂરતું મોટું ટ્રાન્સફોર્મર અંતે સ્પષ્ટ રીતે ઓળખી શકાય એવા ઑબ્જેક્ટ્સ ધરાવતા વિવિધB નમૂનાઓ જનરેટ કરવાનું શીખી શકે છે. એકવાર તે આવું કરવાનું શીખી જાય, ત્યારે “Analysis by Synthesis”29, 30, C તરીકે ઓળખાતી કલ્પના સૂચવે છે કે મોડલને ઑબ્જેક્ટ શ્રેણીઓ વિશે પણ ખબર હશે. ઘણા પ્રારંભિક જનરેટિવ મોડેલ્સ31, 32, 33, 34, 35, 36 આ વિચારથી પ્રેરિત હતા, અને તાજેતરમાં BigBiGAN37 એ પ્રોત્સાહક નમૂનાઓ અને લક્ષણો આપનાર ઉદાહરણ હતું. અમારા કાર્યમાં, અમે પહેલાં દર્શાવીએ છીએ કે વધુ સારા જનરેટિવ મોડેલ્સ વધુ મજબૂત વર્ગીકરણ પ્રદર્શન હાંસલ કરે છે. પછી, જનરેટિવ ક્ષમતાઓ માટે GPT‑2 ને ઑપ્ટિમાઇઝ કરીને, અમે ઘણી પરિસ્થિતિઓમાં ટોચસ્તરીય વર્ગીકરણ પ્રદર્શન હાંસલ કરીએ છીએ, જે analysis by synthesis માટે વધુ પુરાવા પૂરા પાડે છે.
જનરેટિવ સિક્વન્સ મોડેલિંગ એક સર્વવ્યાપક અનસુપરવાઇઝ્ડ લર્નિંગ અલ્ગોરિધમ છે: કારણ કે તમામ પ્રકારના ડેટાને બાઇટ્સના ક્રમ તરીકે રજૂ કરી શકાય છે, ટ્રાન્સફોર્મર કોઈ વધારાની એન્જિનિયરિંગ વગર સીધો કોઈપણ ડેટા પ્રકાર પર લાગુ કરી શકાય છે. અમારા કાર્યમાં GPT‑2 ને પ્રાકૃતિક ભાષા માટે ટ્રેન કરવા ઉપયોગમાં લેવાયેલી આર્કિટેક્ચરને સીધી ઇમેજ જનરેશન પર લાગુ કરીને આ સામાન્યતાની શક્તિની કસોટી કરવામાં આવી છે. અમે જ્ઞાતપણે convolutions38 અથવા relative attention,39 sparse attention,40 અને 2-D position embeddings.27 જેવી તકનીકોના રૂપમાં કોઈપણ ઇમેજ-વિશિષ્ટ જ્ઞાન હસ્તલેખિત રીતે ઉમેરવાનું ટાળ્યું છે.
તેની સામાન્યતાના પરિણામરૂપ, અનસુપરવાઇઝ્ડ પરિસ્થિતિમાં સ્પર્ધાત્મક પ્રદર્શન હાંસલ કરવા માટે અમારી પદ્ધતિને નોંધપાત્ર રીતે વધુ ગણતરીશક્તિની જરૂર પડે છે. ખરેખર, contrastive પદ્ધતિઓ41, 42, 43, 44, 45, 13, 23, 24, 25, 12 હજી પણ ઇમેજોમાંથી ઉચ્ચ ગુણવત્તાવાળા લક્ષણો ઉત્પન્ન કરવા માટે સૌથી વધુ ગણતરી-કાર્યક્ષમ પદ્ધતિઓ છે. છતાં, અનસુપરવાઇઝ્ડ ટ્રાન્સફોર્મર મોડલ શ્રેષ્ઠ અનસુપરવાઇઝ્ડ કન્વોલ્યુશનલ નેટ્સ સાથે સ્પર્ધાત્મક છે એવું બતાવીને,24, 25, 12 અમે પુરાવો આપીએ છીએ કે હસ્તલેખિત ડોમેન જ્ઞાનને ગણતરીશક્તિ સામે બદલી શકાય છે. નવા ડોમેઇન્સમાં,46, 47 જ્યાં હસ્તલેખિત કરવા માટે ઘણું જ્ઞાન ઉપલબ્ધ નથી, ત્યાં ગણતરીશક્તિનું સ્કેલિંગ પરીક્ષણ કરવા યોગ્ય તકનીક લાગે છે.
અમે ImageNet પર અનુક્રમે 76M, 455M, અને 1.4B પરિમાણો ધરાવતા ટ્રાન્સફોર્મર્સ iGPT‑S, iGPT‑M, અને iGPT‑L ને ટ્રેન કરીએ છીએ. અમે iGPT‑XLD ને પણ ટ્રેન કરીએ છીએ, જે 6.8 બિલિયન પરિમાણો ધરાવતું ટ્રાન્સફોર્મર છે, ImageNet અને વેબની ઇમેજોના મિશ્રણ પર. dense attention સાથે લાંબા ક્રમોનું મોડેલિંગ કરવાના મોટા ગણતરી ખર્ચને કારણે, અમે 32x32, 48x48, અને 64x64 જેવી નીચી રિઝોલ્યુશન પર ટ્રેન કરીએ છીએ.
ગણતરી ખર્ચને વધુ ઘટાડવા માટે વધુ નીચી રિઝોલ્યુશન પર કામ કરવું આકર્ષક લાગે છે, પરંતુ અગાઉના કાર્યે દર્શાવ્યું છે કે આ કદથી નીચે ઇમેજ વર્ગીકરણમાં માનવીય પ્રદર્શન ઝડપથી ઘટવા લાગે છે.48 તેના બદલે, પ્રારંભિક રંગીન ડિસ્પ્લે પેલેટ્સથી પ્રેરાઈને,49 અમે પિક્સેલ્સને પ્રતિનિધિત્વ કરવા માટે અમારી પોતાની 9-bit રંગ પેલેટ બનાવીએ છીએ. આ પેલેટનો ઉપયોગ standard (R, G, B) પેલેટ કરતાં 3 ગણો ટૂંકો ઇનપુટ ક્રમ આપે છે, અને છતાં રંગને વિશ્વસનીય રીતે એન્કોડ કરે છે.
મોડલના પ્રદર્શનનું મૂલ્યાંકન કરવા માટે અમે બે પદ્ધતિઓ વાપરીએ છીએ, અને બંનેમાં ડાઉનસ્ટ્રીમ વર્ગીકરણ કાર્ય સામેલ છે. પ્રથમ પદ્ધતિ, જેને અમે લિનિયર પ્રોબ કહીએ છીએ, ટ્રેન કરાયેલા મોડલનો ઉપયોગ કરીને ડાઉનસ્ટ્રીમ ડેટાસેટની ઇમેજોમાંથી લક્ષણોE કાઢે છે, અને પછી લેબલ્સ પર લોજિસ્ટિક રિગ્રેશન ફિટ કરે છે. બીજી પદ્ધતિ સમગ્ર મોડલને ડાઉનસ્ટ્રીમ ડેટાસેટ પર ફાઇન-ટ્યુનF કરે છે.
આગલા પિક્સેલની આગાહી ઇમેજ વર્ગીકરણ માટે સ્પષ્ટ રીતે સંબંધિત નથી, તેથી અંતિમ સ્તરના લક્ષણો કદાચ ઑબ્જેક્ટ શ્રેણીની આગાહી કરવા માટે સૌથી વધુ ઉપયોગી ન હોય. અમારું પ્રથમ પરિણામ દર્શાવે છે કે લક્ષણોની ગુણવત્તા ઊંડાઈ સાથે તેજીથી વધે છે અને પછી થોડું ઘટે છે. આ વર્તન સૂચવે છે કે ટ્રાન્સફોર્મર જનરેટિવ મોડલ બે તબક્કામાં કાર્ય કરે છે: પ્રથમ તબક્કામાં, દરેક સ્થાન તેની આસપાસના સંદર્ભમાંથી માહિતી એકત્રિત કરીને સંદર્ભિત ઇમેજ લક્ષણ બનાવે છે. બીજા તબક્કામાં, આ સંદર્ભિત લક્ષણનો ઉપયોગ શરતી આગળના પિક્સેલની આગાહીનું કાર્ય ઉકેલવા માટે થાય છે. અમારા લિનિયર પ્રોબ્સમાં જોવાયેલું આ બે-તબક્કાનું પ્રદર્શન બીજા એક અનસુપરવાઇઝ્ડ ન્યુરલ નેટ, બોટલનેક ઑટોએન્કોડર, જે હસ્તચાલિત રીતે એમ ડિઝાઇન કરવામાં આવ્યું છે કે મધ્યના લક્ષણો ઉપયોગમાં લેવાય, તેની યાદ અપાવે છે.
અમારું આગળનું પરિણામ જનરેટિવ પ્રદર્શન અને લક્ષણોની ગુણવત્તા વચ્ચેનો સંબંધ સ્થાપિત કરે છે. અમે શોધીએ છીએ કે અમારા મોડેલ્સનું સ્કેલ વધારવાથી અને વધુ iterations માટે ટ્રેનિંગ કરવાથી બંનેમાં વધુ સારું જનરેટિવ પ્રદર્શન મળે છે, જે સીધું વધુ સારી લક્ષણ ગુણવત્તામાં રૂપાંતરિત થાય છે.
જ્યારે અમે CIFAR-10, CIFAR-100, અને STL-10 પર linear probes નો ઉપયોગ કરીને અમારા લક્ષણોનું મૂલ્યાંકન કરીએ છીએ, ત્યારે અમે તમામ supervised અને unsupervised transfer algorithms ના લક્ષણો કરતાં વધુ સારું પ્રદર્શન કરીએ છીએ. full fine-tuning પરિસ્થિતિમાં પણ અમારા પરિણામો મજબૂત છે.
ImageNet પર pre-trained | ||||
મૂલ્યાંકન | મોડલ | ચોકસાઈ | લેબલ્સ વગર | લેબલ્સ સાથે |
CIFAR-10 લિનિયર પ્રોબ | ResNet-15250 | 94.0 | ✔ | |
SimCLR12 | 95.3 | ✔ | ||
iGPT‑L 32x32 | 96.3 | ✔ | ✔ | |
CIFAR-100 લિનિયર પ્રોબ | ResNet-152 | 78.0 | ✔ | |
SimCLR | 80.2 | ✔ | ||
iGPT‑L 32x32 | 82.8 | ✔ | ||
STL-10 લિનિયર પ્રોબ | AMDIM-L | 94.2 | ✔ | |
iGPT‑L 32x32 | 95.5 | ✔ | ||
CIFAR-10 ફાઇન-ટ્યુન | AutoAugment | 98.5 | ||
SimCLR | 98.6 | ✔ | ||
GPipe | 99.0 | ✔ | ||
iGPT‑L | 99.0 | ✔ | ||
CIFAR-100 ફાઇન-ટ્યુન | iGPT‑L | 88.5 | ✔ | |
SimCLR | 89.0 | ✔ | ||
AutoAugment | 89.3 | |||
EfficientNet52 | 91.7 | ✔ |
અમારા મોડેલ્સ અને ટોચના પ્રદર્શન કરનારા મોડેલ્સ વચ્ચે linear probe અને fine-tune ચોકસાઈની તુલના, જે unsupervised અથવા supervised ImageNet transfer નો ઉપયોગ કરે છે. અમે AutoAugment ને પણ સમાવેશ કરીએ છીએ, જે CIFAR પર end-to-end ટ્રેન કરાયેલું શ્રેષ્ઠ પ્રદર્શન કરતું મોડલ છે.
ImageNet પર unsupervised અને self-supervised learning પ્રત્યે વધતા રસને ધ્યાનમાં રાખીને, અમે અમારા મોડેલ્સનું મૂલ્યાંકન ImageNet પર linear probes નો ઉપયોગ કરીને પણ કરીએ છીએ. આ ખાસ કરીને મુશ્કેલ પરિસ્થિતિ છે, કારણ કે અમે standard ImageNet input resolution પર ટ્રેન કરતા નથી. તેમ છતાં, 48x48 ઇમેજો પર ટ્રેન કરાયેલા iGPT‑L ના શ્રેષ્ઠ સ્તરમાંથી 1536 લક્ષણો પરનો linear probe 65.2% top-1 ચોકસાઈ આપે છે, અને AlexNet કરતાં વધુ સારું પ્રદર્શન કરે છે.
Contrastive પદ્ધતિઓ સામાન્ય રીતે 8192 લક્ષણો પર તેમના શ્રેષ્ઠ પરિણામો જણાવે છે, તેથી તુલનાને માટે આદર્શ રીતે અમે 8192 ની embedding dimension સાથે iGPT નું મૂલ્યાંકન કરીએ. જોકે, એવું મોડલ ટ્રેન કરવું અત્યંત ખર્ચાળ છે, તેથી તેના બદલે અમે અંદાજ તરીકે અનેક સ્તરોના લક્ષણોને concatenate કરીએ છીએ. દુર્ભાગ્યે, અમારા લક્ષણો સ્તરોમાં પરસ્પર સંબંધિત હોય છે, તેથી સ્પર્ધાત્મક બનવા માટે અમને તેમની વધુ જરૂર પડે છે. iGPT‑XL માં 5 સ્તરોમાંથી 15360 લક્ષણો લેવાથી 72.0% top-1 ચોકસાઈ મળે છે, જે AMDIM, MoCo, અને CPC v2 કરતાં વધુ સારું છે, પરંતુ હજી પણ SimCLR કરતાં નોંધપાત્ર અંતરે ઓછું છે.
પદ્ધતિ | ઇનપુટ રિઝોલ્યુશન | લક્ષણો | પરિમાણો | ચોકસાઈ |
Rotation53 | original | 8192 | 86M | 55.4 |
iGPT‑L | 32x32 | 1536 | 1362M | 60.3 |
BigBiGAN37 | original | 16384 | 86M | 61.3 |
iGPT‑L | 48x48 | 1536 | 1362M | 65.2 |
AMDIM13 | original | 8192 | 626M | 68.1 |
MoCo24 | original | 8192 | 375M | 68.6 |
iGPT‑XL | 64x64 | 3072 | 6801M | 68.7 |
SimCLR12 | original | 2048 | 24M | 69.3 |
CPC v225 | original | 4096 | 303M | 71.5 |
iGPT‑XL | 64x64 | 3072 x 5 | 6801M | 72.0 |
SimCLR | original | 8192 | 375M | 76.5 |
અમારા મોડેલ્સ અને state-of-the-art self-supervised મોડેલ્સ વચ્ચે linear probe ચોકસાઈની તુલના. અમે ઘણાં ઓછા ઇનપુટ રિઝોલ્યુશન પર ટ્રેનિંગ કરતાં હોવા છતાં સ્પર્ધાત્મક પ્રદર્શન હાંસલ કરીએ છીએ, જોકે અમારી પદ્ધતિને વધુ પરિમાણો અને ગણતરીશક્તિની જરૂર પડે છે.
કારણ કે BERT જેવા masked language models એ મોટાભાગના ભાષાકીય કાર્યોમાં જનરેટિવ મોડેલ્સ કરતાં સારું પ્રદર્શન કર્યું છે, અમે અમારા ઇમેજ મોડેલ્સ પર BERT નું પ્રદર્શન પણ મૂલ્યાંકન કરીએ છીએ. અમારા મોડલને અગાઉના બધા પિક્સેલ્સને આધારે આગામી પિક્સેલની આગાહી કરવા માટે ટ્રેન કરવાની જગ્યાએ, અમે 15% પિક્સેલ્સને mask કરીએ છીએ અને અમારા મોડલને unmasked પિક્સેલ્સથી તેમની આગાહી કરવા માટે ટ્રેન કરીએ છીએ. અમે શોધ્યું કે BERT મોડેલ્સ પર linear probe પ્રદર્શન નોંધપાત્ર રીતે નબળું હોવા છતાં, fine-tuning દરમિયાન તેઓ ઉત્તમ સાબિત થાય છે:
જ્યારે અનસુપરવાઇઝ્ડ લર્નિંગ માનવ-લેબલ કરાયેલ ડેટાની જરૂરિયાત વગર ઉત્તમ લક્ષણો આપવાનું વચન આપે છે, ત્યારે તાજેતરમાં વધુ સહનશીલ સેમી-સુપરવાઇઝ્ડ લર્નિંગ ફ્રેમવર્ક હેઠળ નોંધપાત્ર પ્રગતિ થઈ છે, જે મર્યાદિત પ્રમાણમાં માનવ-લેબલ કરાયેલ ડેટાને મંજૂરી આપે છે. સફળ સેમી-સુપરવાઇઝ્ડ પદ્ધતિઓ ઘણી વાર consistency regularization, data augmentation, અથવા pseudo-labeling જેવી ચતુર તકનીકો પર આધારિત હોય છે, અને સંપૂર્ણપણે જનરેટિવ આધારિત અભિગમો54, 55 વર્ષોથી સ્પર્ધાત્મક રહ્યા નથી. અમે આ ઉપક્ષેત્ર માટેના સ્પર્ધાત્મક બેન્ચમાર્ક પર iGPT‑LG નું મૂલ્યાંકન કરીએ છીએ અને શોધીએ છીએ કે non-augmented ઇમેજોમાંથી મળેલા લક્ષણો પરનો સરળ લિનિયર પ્રોબ Mean Teacher56 અને MixMatch કરતાં વધુ સારું પ્રદર્શન કરે છે, જોકે તે FixMatch.59 કરતાં ઓછું પ્રદર્શન કરે છે.
ઓછા ડેટાવાળા CIFAR-10 પરના પ્રદર્શનની તુલના. ઘણા unlabeled ImageNet ઇમેજોનો લાભ લઈને, iGPT‑L Mean Teacher અને MixMatch જેવી પદ્ધતિઓ કરતાં વધુ સારું પ્રદર્શન કરી શકે છે, પરંતુ હજુ state of the art પદ્ધતિઓ કરતાં ઓછું પ્રદર્શન કરે છે. સેમી-સુપરવાઇઝ્ડ લર્નિંગ માટેનો અમારો અભિગમ ખૂબ જ સરળ છે કારણ કે અમે કોઈપણ data augmentation અથવા fine-tuning વગર માત્ર iGPT‑L ના લક્ષણો પર logistic regression classifier ફિટ કરીએ છીએ, જે ખાસ ડિઝાઇન કરાયેલા સેમી-સુપરવાઇઝ્ડ અભિગમોથી મહત્વપૂર્ણ રીતે અલગ છે.
જ્યારે અમે બતાવ્યું છે કે iGPT શક્તિશાળી ઇમેજ લક્ષણો શીખી શકે છે, ત્યારે પણ અમારા અભિગમમાં નોંધપાત્ર મર્યાદાઓ છે. કારણ કે અમે ભાષામાં GPT‑2 માટે વપરાતા સામાન્ય સિક્વન્સ ટ્રાન્સફોર્મરનો ઉપયોગ કરીએ છીએ, અમારી પદ્ધતિને વિશાળ ગણતરીશક્તિની જરૂર પડે છે: iGPT‑L ને અંદાજે 2500 V100-દિવસ માટે ટ્રેન કરવામાં આવ્યું હતું, જ્યારે સમાન પ્રદર્શન કરતું MoCo24 મોડલ અંદાજે 70 V100-દિવસમાં ટ્રેન થઈ શકે છે.
સંબંધિત રીતે, અમે ટ્રાન્સફોર્મરનો ઉપયોગ કરીને નીચી રિઝોલ્યુશન ઇનપુટ્સનું મોડેલિંગ કરીએ છીએ, જ્યારે મોટાભાગના self-supervised પરિણામો convolutional-based encoders નો ઉપયોગ કરે છે, જે સહેલાઈથી ઊંચી રિઝોલ્યુશન પર ઇનપુટ લઈ શકે છે. વધુ સ્કેલ કરવા માટે domain-agnostic multiscale transformer જેવી નવી આર્કિટેક્ચરની જરૂર પડી શકે છે. આ મર્યાદાઓને જોતા, અમારું કાર્ય મુખ્યત્વે એક proof-of-concept તરીકે કામ કરે છે, જે દર્શાવે છે કે મોટા transformer-based ભાષા મોડેલ્સ hardcoded domain knowledge ની જરૂર વગર નવા ડોમેઇન્સમાં ઉત્તમ અનસુપરવાઇઝ્ડ પ્રતિનિધિત્વો શીખી શકે છે. જોકે, આ મોડેલ્સને ટ્રેન કરવા માટેનો મોટો સંસાધન ખર્ચ અને convolutional neural-network આધારિત પદ્ધતિઓની વધુ ચોકસાઈ આ પ્રતિનિધિત્વોને vision domain માં વાસ્તવિક પ્રયોગ માટે અપ્રાયોગિક બનાવે છે.
છેલ્લે, જનરેટિવ મોડેલ્સ તે ડેટાના પરિણામરૂપ પૂર્વગ્રહો દર્શાવી શકે છે જેના પર તેમને ટ્રેન કરવામાં આવ્યા છે. આમાંથી ઘણા પૂર્વગ્રહો ઉપયોગી હોય છે, જેમ કે ભૂરા અને લીલા પિક્સેલોના સંયોજનને પાંદડાઓથી ઢંકાયેલી ડાળી તરીકે માનવું અને પછી તે પૂર્વગ્રહનો ઉપયોગ કરીને ઇમેજ આગળ વધારવી. પરંતુ ન્યાય અને પ્રતિનિધિત્વના દૃષ્ટિકોણથી જોવામાં આવે ત્યારે આમાંથી કેટલાક પૂર્વગ્રહો હાનિકારક બનશે. ઉદાહરણ તરીકે, જો મોડલમાં વૈજ્ઞાનિકની દૃશ્ય કલ્પના પુરુષ તરફ ઝૂકે, તો તે વૈજ્ઞાનિકોની ઇમેજોને મિશ્ર લિંગોના બદલે સતત પુરુષ-પ્રસ્તુત લોકોને સાથે પૂર્ણ કરી શકે છે. અમે અપેક્ષા રાખીએ છીએ કે ડેવલપર્સને તેઓ તેમની સિસ્ટમોમાં જે ડેટા આપે છે તેની તરફ વધતું ધ્યાન આપવું પડશે અને તે ટ્રેન કરાયેલા મોડેલ્સમાં આવેલા પૂર્વગ્રહો સાથે કેવી રીતે સંબંધિત છે તે વધુ સારી રીતે સમજવું પડશે.
અમે બતાવ્યું છે કે 2-D જ્ઞાનને સ્કેલ60 સામે સમાયોજિત કરીને અને નેટવર્કના મધ્યમાંથી આગાહીકારી લક્ષણો પસંદ કરીને, સિક્વન્સ ટ્રાન્સફોર્મર અનસુપરવાઇઝ્ડ ઇમેજ વર્ગીકરણ માટે ટોચના કન્વોલ્યુશનલ નેટ્સ સાથે સ્પર્ધાત્મક બની શકે છે. ખાસ કરીને, અમે સીધું GPT‑2 ભાષા મોડલ ઇમેજ જનરેશન પર લાગુ કરીને અમારા પરિણામો હાંસલ કર્યા. અમારા પરિણામો સૂચવે છે કે તેની સરળતા અને સામાન્યતાને કારણે, પૂરતી ગણતરીશક્તિ આપવામાં આવે તો સિક્વન્સ ટ્રાન્સફોર્મર અંતે ઘણા ડોમેઇન્સમાં ઉત્તમ લક્ષણો શીખવાનો અસરકારક માર્ગ બની શકે છે.
જો તમે સંશોધનના આ ક્ષેત્રમાં અમારી સાથે કામ કરવા ઉત્સાહિત હો, તો અમે ભરતી કરી રહ્યા છીએ!
ફૂટનોટ્સ
- A
શીખાયેલા લક્ષણો પર logistic regression (linear probe) દ્વારા માપેલું.
- B
ટ્રાન્સફોર્મરને likelihood વધારે તે રીતે ટ્રેન કરવામાં આવે છે, અને તેથી તે mode covering હોય છે, જે આપમેળે તેના નમૂનાઓની વિવિધતા સુનિશ્ચિત કરે છે.
- C
મૂળ analysis by synthesis વિચાર latent variables ધરાવતા જનરેટિવ મોડેલ્સ માટે વધુ દલીલ હતો, પરંતુ latent variables વગરના જનરેટિવ મોડેલ્સ ડેટા વિતરણનું મોડેલિંગ કરવામાં એટલા સારા હતા કે અમને લાગ્યું કે analysis-by-synthesis અનુમાન તેમના માટે પણ સાચું હોવું જોઈએ.
- D
અમે iGPT-XL માટે ImageNet પર માત્ર linear probe ચોકસાઈ બતાવીએ છીએ કારણ કે અન્ય પ્રયોગો અમે જુદી સુપરકમ્પ્યુટિંગ સુવિધાઓ તરફ પરિવર્તન કરવું પડે તે પહેલાં પૂર્ણ થયા નહોતા.
- E
linear probe માટે લક્ષણો કાઢવા, અમે કોઈક સ્તરે post layernorm attention block inputs લઈએ છીએ અને sequence dimension પર average pool કરીએ છીએ.
- F
fine-tune કરવા, અમે post layernorm transformer output લઈએ છીએ અને classification head માટે ઇનપુટ તરીકે sequence dimension પર average pool કરીએ છીએ.
- G
એક જનરેટિવ મોડલ જે સંપૂર્ણપણે અનસુપરવાઇઝ્ડ રીતે લક્ષણો શીખે છે.
સંદર્ભો
- 1
LeCun, Y. (2017). “આગાહી આધારિત લર્નિંગ(નવી વિન્ડોમાં ખૂલે છે).”
- 2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Attention is All you Need(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2017.
- 3
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). “BERT: ભાષા સમજણ માટે ડીપ દ્વિમાર્ગી ટ્રાન્સફોર્મર્સનું પ્રી-ટ્રેનિંગ(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
- 4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “ભાષા મોડેલ્સ અનસુપરવાઇઝ્ડ મલ્ટીટાસ્ક લર્નર્સ છે(નવી વિન્ડોમાં ખૂલે છે).” Technical Report, OpenAI.
- 5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: એક મજબૂત રીતે ઑપ્ટિમાઇઝ કરાયેલ BERT પ્રી-ટ્રેનિંગ અભિગમ(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
- 6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “એક એકીકૃત Text-to-Text ટ્રાન્સફોર્મર સાથે ટ્રાન્સફર લર્નિંગની મર્યાદાઓનું અન્વેષણ(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
- 7
Dai, A., Le, Q. V. (2015). “સેમી-સુપરવાઇઝ્ડ સિક્વન્સ લર્નિંગ(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2015.
- 8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “ડીપ સંદર્ભિત શબ્દ પ્રતિનિધિત્વો(નવી વિન્ડોમાં ખૂલે છે).” In NAACL 2018.
- 9
Howard, J., Ruder, S. (2018). “ટેક્સ્ટ વર્ગીકરણ માટે યુનિવર્સલ ભાષા મોડલ ફાઇન-ટ્યુનિંગ(નવી વિન્ડોમાં ખૂલે છે).” In ACL 2018.
- 10
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “જનરેટિવ પ્રી-ટ્રેનિંગ દ્વારા ભાષા સમજણમાં સુધારો(નવી વિન્ડોમાં ખૂલે છે).” Technical Report, OpenAI.
- 11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). “Sparse attentive backtracking: યાદ અપાવવાથી સમયગત ક્રેડિટ અસાઇન્મેન્ટ(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2018.
- 12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). “વિઝ્યુઅલ પ્રતિનિધિત્વોના contrastive learning માટે એક સરળ ફ્રેમવર્ક(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
- 13
Bachman, P., Hjelm, R., & Buchwalter, W. (2019). “વિવિધ દૃશ્યોમાં પરસ્પર માહિતી મહત્તમ કરીને પ્રતિનિધિત્વો શીખવા(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2019.
- 14
Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): સામાન્ય વિઝ્યુઅલ પ્રતિનિધિત્વ લર્નિંગ(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
- 15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: Pipeline parallelism નો ઉપયોગ કરીને વિશાળ ન્યુરલ નેટવર્ક્સની કાર્યક્ષમ ટ્રેનિંગ(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2019.
- 16
Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). “અભેદ્ય ડેટા કે નબળું મોડલ? ડેટા અને મોડલ રિઝોલ્યુશનની સાપેક્ષ મહત્વતા વિશે(નવી વિન્ડોમાં ખૂલે છે).” In ICCV 2019.
- 17
Lasserre, J., Bishop, C., & Minka, T. P. (2006). “જનરેટિવ અને ડિસ્ક્રિમિનેટિવ મોડેલ્સના સિદ્ધાંતઆધારિત હાઇબ્રિડ્સ(નવી વિન્ડોમાં ખૂલે છે).” In CVPR 2006.
- 18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). “અનસુપરવાઇઝ્ડ પ્રી-ટ્રેનિંગ ડીપ લર્નિંગમાં કેમ મદદ કરે છે?(નવી વિન્ડોમાં ખૂલે છે).” In JMLR 2010.
- 19
Elman, J. (1990). “સમયમાં રચના શોધવી(નવી વિન્ડોમાં ખૂલે છે).” In Cognitive Science 1990.
- 20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Recurrent neural network આધારિત ભાષા મોડલ(નવી વિન્ડોમાં ખૂલે છે).” In INTERSPEECH-2010.
- 21
Larochelle, H., Murray, I. (2011). “ન્યુરલ ઑટોરિગ્રેસિવ વિતરણ એસ્ટિમેટર(નવી વિન્ડોમાં ખૂલે છે).” In AISTATS 2011.
- 22
Graves, A. (2013). “Recurrent neural networks સાથે સિક્વન્સ જનરેટ કરવી(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
- 23
Tian, Y., Krishnan, D., & Isola, P. (2019). “Contrastive multiview coding(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
- 24
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). “અનસુપરવાઇઝ્ડ વિઝ્યુઅલ પ્રતિનિધિત્વ લર્નિંગ માટે Momentum Contrast(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
- 25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Contrastive Predictive Coding સાથે ડેટા-કાર્યક્ષમ ઇમેજ ઓળખ(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
- 26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Pixel recurrent neural networks(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
- 27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer(નવી વિન્ડોમાં ખૂલે છે).” In ICML 2018.
- 28
Menick, J., Kalchbrenner, N. (2018). “Subscale Pixel Networks અને Multidimensional Upscaling સાથે ઉચ્ચ-નિષ્ઠાવાળી ઇમેજો જનરેટ કરવી(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
- 29
Mumford, D. (1992). “નિયોકોર્ટેક્સની ગણનાત્મક આર્કિટેક્ચર વિશે(નવી વિન્ડોમાં ખૂલે છે).” In Biol. Cybern.
- 30
Rao, R., Ballard, D. (1999). “દૃષ્ટિ કોર્ટેક્સમાં predictive coding: કેટલાક extra-classical receptive-field effects ની કાર્યાત્મક વ્યાખ્યા(નવી વિન્ડોમાં ખૂલે છે).” In Nature Neuroscience.
- 31
Smolensky, P. (1986). “ગતિશીલ પ્રણાલીઓમાં માહિતી સંસ્કરણ: harmony theory ની પાયાઓ(નવી વિન્ડોમાં ખૂલે છે).”
- 32
Hinton, G. (2002). “Contrastive Divergence ને ઘટાડીને Products of Experts ને ટ્રેન કરવું(નવી વિન્ડોમાં ખૂલે છે).” In MIT Press.
- 33
Hinton, G., Osindero, S., & Teh, Y. (2006). “ડીપ belief nets માટે ઝડપી લર્નિંગ અલ્ગોરિધમ(નવી વિન્ડોમાં ખૂલે છે).” In Neural Computation.
- 34
Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). “Denoising autoencoders વડે મજબૂત લક્ષણો કાઢવા અને રચવા(નવી વિન્ડોમાં ખૂલે છે).” In ICML 2008.
- 35
Coates, A., Lee, H., & Ng, A. Y. (2011). “અનસુપરવાઇઝ્ડ feature learning માં single-layer networks નું વિશ્લેષણ(નવી વિન્ડોમાં ખૂલે છે).” In AISTATS 2011.
- 36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “વિશાળ પાયે અનસુપરવાઇઝ્ડ લર્નિંગ વડે ઉચ્ચ-સ્તરીય લક્ષણો બનાવવું(નવી વિન્ડોમાં ખૂલે છે).” In ICML 2012.
- 37
Donahue, J., Simonyan, K. (2019). “વિશાળ પાયે adversarial representation learning(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2019.
- 38
Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). “Deep Big Simple Neural Nets હસ્તલેખિત અંકોની ઓળખમાં ઉત્તમ છે(નવી વિન્ડોમાં ખૂલે છે).” In CoRR 2010.
- 39
Shaw, P., Uszkoreit, J., & Vaswani A. (2018). “Relative position representations સાથે self-attention(નવી વિન્ડોમાં ખૂલે છે).” In NAACL 2018.
- 40
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “Sparse transformers સાથે લાંબા ક્રમો જનરેટ કરવું(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
- 41
Becker, S., Hinton, G. (1991). “Self-organizing neural network જે random-dot stereograms માં સપાટીઓ શોધે છે(નવી વિન્ડોમાં ખૂલે છે).” In Nature.
- 42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). “એક “siamese” time delay neural network નો ઉપયોગ કરીને હસ્તાક્ષર ચકાસણી(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 1994.
- 43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). “શબ્દો અને વાક્યાંશોના વિતરિત પ્રતિનિધિત્વો અને તેમની રચનાત્મકતા(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2013.
- 44
Oord, A., Li, Y., Vinyals, O. (2018). “Contrastive Predictive Coding સાથે Representation Learning(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
- 45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “પરસ્પર માહિતીના અંદાજ અને મહત્તમીકરણ દ્વારા ડીપ પ્રતિનિધિત્વો શીખવા(નવી વિન્ડોમાં ખૂલે છે).” In ICLR 2019.
- 46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). “માત્ર સિક્વન્સ આધારિત ડીપ representation learning સાથે એકીકૃત તર્કસંગત protein engineering(નવી વિન્ડોમાં ખૂલે છે).” In Nature Methods.
- 47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). “250 મિલિયન પ્રોટીન સિક્વન્સ પર અનસુપરવાઇઝ્ડ લર્નિંગનું સ્કેલિંગ કરતાં જૈવિક રચના અને કાર્ય પ્રગટ થાય છે(નવી વિન્ડોમાં ખૂલે છે).” bioRxiv preprint.
- 48
Torralba, A., Fergus, R., Freeman, W. (2008). “80 મિલિયન tiny images: નોનપેરામેટ્રિક ઑબ્જેક્ટ અને દૃશ્ય ઓળખ માટે મોટું ડેટાસેટ(નવી વિન્ડોમાં ખૂલે છે).” In IEEE transactions on pattern analysis and machine intelligence.
- 49
“8-Bit Computer Hardware Graphics ની સૂચિ(નવી વિન્ડોમાં ખૂલે છે).” Wikipedia, 8 May 2020
- 50
Kornblith, S., Shlens, J., & Le, Q. V. (2019). “શું વધુ સારા ImageNet મોડેલ્સ વધુ સારી રીતે ટ્રાન્સફર થાય છે?(નવી વિન્ડોમાં ખૂલે છે).” In CVPR 2019.
- 51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: ડેટામાંથી augmentation strategies શીખવી(નવી વિન્ડોમાં ખૂલે છે).” In CVPR 2019.
- 52
Tan, M., Le, Q. V. (2019). “EfficientNet: Convolutional Neural Networks માટે Model Scaling નું પુનર્વિચાર(નવી વિન્ડોમાં ખૂલે છે).” In ICML 2019.
- 53
Gidaris, S., Singh, P., & Komodakis, N. (2018). “ઇમેજ રોટેશન્સની આગાહી કરીને અનસુપરવાઇઝ્ડ representation learning(નવી વિન્ડોમાં ખૂલે છે).” In ICLR 2018.
- 54
Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). “ડીપ જનરેટિવ મોડેલ્સ સાથે સેમી-સુપરવાઇઝ્ડ લર્નિંગ(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2014.
- 55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “GANs ને ટ્રેન કરવાની સુધારેલી તકનીકો(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2016.
- 56
Tarvainen, A., Valpola, H. (2017). “Mean teachers વધુ સારા role models છે: weight-averaged consistency targets સેમી-સુપરવાઇઝ્ડ ડીપ લર્નિંગ પરિણામોમાં સુધારો કરે છે(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2017.
- 57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: સેમી-સુપરવાઇઝ્ડ લર્નિંગ માટે એક સમગ્ર અભિગમ(નવી વિન્ડોમાં ખૂલે છે).” In NeurIPS 2019.
- 58
Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). “Consistency Training માટે Unsupervised Data Augmentation(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
- 59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: consistency અને confidence સાથે સેમી-સુપરવાઇઝ્ડ લર્નિંગને સરળ બનાવવું(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint.
- 60
Sutton, R. (2019). “The Bitter Lesson(નવી વિન્ડોમાં ખૂલે છે).”
લેખકો
આભારવિદિ
સર્વપ્રથમ, અમે અમારા પેપરના સહ-લેખકો Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, અને David Luan નો આભાર માનવા માંગીએ છીએ.
આ કાર્ય પરના પ્રતિસાદ અને આ રિલીઝમાં યોગદાન માટે નીચેના લોકોનો આભાર: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le, અને Ashish Vaswani.
સંપાદક: Ashley Pilipiszyn
ડિઝાઇન: Justin Jay Wang
કવર આર્ટવર્ક: Ben Barry


