Juun 17, 2020

Image GPT

Akhri warqadda Eeg koodhka Warqadda ICML 2020 (V1)

Illustration: Ben Barry

Soo kacaya…

Waxaan ogaanay in, sida nooc transformer weyn oo lagu tabbabaray luqadda uu u soo saari karo qoraal isku xiran, isla noocaas saxda ah ee lagu tabbabaray taxanaha pixel-yaduna uu u soo saari karo dhammaystirro⁠ sawir iyo muunado⁠ isku xiran. Anagoo samaynayna xiriir ka dhexeeya tayada muunadda iyo saxnaanta kala soocidda sawirka, waxaan muujinaynaa in noocayaga wax soo saarka ee ugu fiican uu sidoo kale leeyahay sifooyin kula tartami kara shabakadaha convolutional-ka ugu sarreeya ee habka aan la kormeerin.

Hordhac

Waxbarashada aan la kormeerin iyo self-supervised,¹ ama waxbarashada aan lahayn xog ay bini'aadamku summadeeyeen, waa caqabad muddo dheer jirtay oo ka mid ah barashada mashiinka. Dhowaanahan, waxay guul cajiib ah ka gaartay luqadda, maadaama noocyada transformer² sida BERT,³ GPT‑2,⁴ RoBERTa,⁵ T5,⁶ iyo noocyo kale^{7, 8, 9, 10} ay gaareen waxqabadka ugu sarreeya hawlo luqadeed oo kala duwan. Si kastaba ha ahaatee, isla fasalka ballaaran ee noocyadani kuma aysan guulaysan soo saarista sifooyin xooggan oo loogu talagalay kala soocidda sawirka.¹¹ Shaqadeennu waxay ujeedadeedu tahay in la fahmo lana xiro farqigan.

Noocyada transformer sida BERT iyo GPT‑2 waa domain agnostic, taas oo macnaheedu yahay in si toos ah loogu dabaqi karo taxanayaal 1-D ah nooc kasta ha noqdee. Marka aan ku tabbabarno GPT‑2 sawirro loo furfuray taxanayaal dhaadheer oo pixel-yo ah, oo aan ugu yeerno iGPT, waxaan ogaanay in noocu u muuqdo inuu fahmayo sifooyinka sawirka 2-D sida muuqaalka shayga iyo qaybtiisa. Tani waxaa caddeyn u ah kala duwanaanta badan ee muunadaha sawirka isku xiran ee uu soo saaro, xitaa iyada oo aan la helin hagidda summadaha ay bini'aadamku bixiyeen. Caddayn dheeraad ah ahaan, sifooyinka nooca ayaa gaara waxqabad heer sare ah dhowr xog-ururin kala soocid ah iyo saxnaan aan la kormeerin oo ku dhow tan ugu sarraysa^A ee ImageNet.

Qiimeyn	Xog-ururin	Natiijadeenna	Natiijada ugu fiican ee aan iGPT ahayn
Logistic regression oo lagu sameeyay sifooyinka la bartay (linear probe)	CIFAR-10	96.3 iGPT‑L 32x32 leh 1536 sifo	95.3 SimCLR¹²⁠ leh 8192 sifo
	CIFAR-100	82.8 iGPT‑L 32x32 leh 1536 sifo	80.2 SimCLR leh 8192 sifo
	STL-10	95.5 iGPT‑L 32x32 leh 1536 sifo	94.2 AMDIM¹³⁠ leh 8192 sifo
	ImageNet	72.0 iGPT‑XL^a⁠ 64x64 leh 15360 sifo	76.5 SimCLR leh 8192 sifo
Full fine-tune	CIFAR-10	99.0 iGPT‑L 32x32, lagu tabbabaray ImageNet	99.0^b⁠ GPipe,¹⁴⁠ lagu tabbabaray ImageNet
	ImageNet 32x32	66.3 iGPT‑L 32x32	70.2 Isometric Nets¹⁵⁠

Waxaan kaliya muujineynaa saxnaanta linear probe ee ImageNet ee iGPT‑XL maadaama tijaabooyin kale aysan dhammaan ka hor intaanan u baahnayn inaan u wareegno xarumo supercomputing oo kala duwan.
Bit-L, oo lagu tabbabaray JFT (300M sawir leh 18K fasal), wuxuu gaaray natiijo 99.3 ah.

Si loo muujiyo awoodda qaabeynta taxanaha ee wax soo saarka^{17, 18} iyo sequence modeling^{19, 20, 21, 22} sida algoriim waxbarasho guud-ujeeddo leh oo aan la kormeerin, waxaan si ula kac ah u isticmaalnaa isla qaab-dhismeedka transformer-ka sida GPT‑2 ee luqadda. Sidaas darteed, waxaan u baahanahay xisaab aad uga badan si aan u soo saarno sifooyin kula tartami kara kuwa ka yimaada shabakadaha convolutional ee ugu sarreeya ee aan la kormeerin.^{13, 23, 24, 25, 12} Hase yeeshee, natiijooyinkeenna waxay soo jeedinayaan in marka lala kulmo domain cusub oo aan la aqoon model priors-kiisa saxda ah, GPT‑2 weyn uu baran karo sifooyin heer sare ah iyada oo aan loo baahnayn go'aamo naqshadeed oo gaar u ah domain-ka.^{26, 27, 28}

Soo raraya...

Laga bilaabo GPT-ka luqadda ilaa GPT-ka sawirka

Luqadda dhexdeeda, algoriimyada waxbarashada aan la kormeerin ee ku tiirsan saadaalinta erayada (sida GPT‑2 iyo BERT) waxay gaareen guul aad u weyn, iyagoo helay waxqabadka ugu sarreeya hawlo luqadeed oo aad u kala duwan. Mid ka mid ah sababaha suurtagalka ah ee guushan ayaa ah in tusaalooyinka hawlaha luqadeed ee daba socdaa si dabiici ah ugu muuqdaan qoraalka: su'aalaha waxaa inta badan raaca jawaabo (taas oo ka caawin karta su'aal-jawaabid), marinnadana waxaa inta badan raaca soo koobid (taas oo ka caawin karta soo koobidda). Taas beddelkeeda, taxanaha pixel-yadu si cad uma wataan summado loogu talagalay sawirrada ay leeyihiin.

Xitaa iyada oo aan jirin kormeerkan cad, haddana weli waxaa jira sabab GPT‑2 ee sawirrada loogu dabaqi karo: transformer ku filan oo weyn oo lagu tabbabaray saadaalinta pixel-ka xiga ayaa ugu dambayn baran kara inuu soo saaro muunado kala duwan^B oo leh walxo si cad loo garan karo. Marka uu taas barto, fikrad loo yaqaan “Falanqayn iyadoo la adeegsanayo Isku-dubarid”^{29, 30, C} ayaa soo jeedinaysa in noocu sidoo kale aqoon u yeelan doono qaybaha walxaha. Qaabab badan oo wax soo saar hore ah^{31, 32, 33, 34, 35, 36} waxaa dhiirrigeliyay fikraddan, dhawaanahanna BigBiGAN³⁷ wuxuu ahaa tusaale soo saaray muunado iyo sifooyin dhiirrigelin leh. Shaqadeenna gudaheeda, marka hore waxaan muujinaynaa in qaababka wax soo saarka ee ka fiican ay gaaraan waxqabad kala soocid oo ka xoog badan. Kadib, annagoo u wanaajinayna GPT‑2 awoodaha wax soo saar, waxaan gaaraynaa waxqabad kala soocid heer sare ah goobo badan, taas oo bixinaysa caddayn dheeraad ah oo ku saabsan falanqaynta iyadoo la adeegsanayo isku-dubarid.

Dhanka waxbarashada guud ee aan la kormeerin

Qaabeynta wax soo saarka ee taxanuhu waa algoriim waxbarasho oo guud oo aan la kormeerin: maadaama dhammaan noocyada xogta lagu meteli karo taxane bytes ah, transformer waxaa si toos ah loogu dabaqi karaa nooc kasta oo xog ah iyada oo aan loo baahnayn injineernimo dheeraad ah. Shaqadeennu waxay tijaabinaysaa awoodda guud ahaantan annagoo si toos ah ugu dabaqayna qaab-dhismeedka loo adeegsaday tabbabaridda GPT‑2 luqadda dabiiciga ah soo saarida sawirka. Waxaan si ula kac ah u doorannay inaan ka tanaasulno in si gacanta ah loogu daro aqoon gaar u ah sawirka oo ah convolutions³⁸ ama farsamooyin sida relative attention,³⁹ sparse attention,⁴⁰ iyo 2-D position embeddings.²⁷

Natiijada guud ahaantiisa awgeed, habkeenna wuxuu u baahan yahay xisaab aad uga badan si loo gaaro waxqabad tartan leh goobta aan la kormeerin. Runtii, hababka contrastive^{41, 42, 43, 44, 45, 13, 23, 24, 25, 12} ayaa weli ah hababka xisaab ahaan ugu wax ku oolka badan ee lagu soo saaro sifooyin tayo sare leh oo sawirro laga helo. Hase yeeshee, annagoo muujinayna in nooc transformer oo aan la kormeerin uu kula tartami karo shabakadaha convolutional ee ugu fiican ee aan la kormeerin,^{24, 25, 12} waxaan bixinaynaa caddayn ah in suurtagal tahay in aqoonta domain-ka ee gacanta lagu koodheeyay lagu beddelo xisaab. Domain-yo cusub,^{46, 47} oo aysan jirin aqoon badan oo gacanta lagu koodheeyo, kordhinta xisaabtu waxay u muuqataa farsamo ku habboon in la tijaabiyo.

Habraac

Waxaan ku tabbabarnaa iGPT‑S, iGPT‑M, iyo iGPT‑L, transformers ka kooban 76M, 455M, iyo 1.4B halbeegyo siday u kala horreeyaan, ImageNet. Waxaan sidoo kale ku tabbabarnaa iGPT‑XL^D, oo ah transformer leh 6.8 bilyan halbeeg, isku darka ImageNet iyo sawirro ka yimid webka. Sababtoo ah kharashka xisaabeed ee weyn ee ku baxa qaabeynta taxane dhaadheer oo leh attention cufan, waxaan ku tabbabarnaa xallinno hoose oo ah 32x32, 48x48, iyo 64x64.

Iyadoo ay soo jiidanayso in laga shaqeeyo xallinno xitaa ka hooseeya si loo sii yareeyo kharashka xisaabeed, shaqooyin hore ayaa muujiyay in waxqabadka aadanaha ee kala soocidda sawirka uu si degdeg ah hoos ugu dhaco marka laga hoos maro cabbirradan.⁴⁸ Halkii, annagoo ka duulayna palettes-kii hore ee bandhigyada midabka,⁴⁹ waxaan abuurnaa palette midab oo 9-bit ah oo noo gaar ah si aan ugu metelno pixel-yada. Adeegsiga palette-kan wuxuu keenayaa dherer taxane gelin ah oo 3 jeer ka gaaban palette-ga caadiga ah ee (R, G, B), iyadoo haddana si daacad ah loo metelayo midabka.

Natiijooyinka tijaabada

Waxaa jira laba hab oo aan u isticmaalno qiimeynta waxqabadka nooca, labaduba waxay ku lug leeyihiin hawl kala soocid oo daba socota. Habka koowaad, oo aan ugu yeerno linear probe, wuxuu adeegsadaa nooca la tabbabaray si uu uga soo saaro sifooyin^E sawirrada ku jira xog-ururinta daba socota, ka dibna wuxuu la jaanqaadiyaa logistic regression summadaha. Habka labaad wuxuu sameeyaa fine-tuning^F ee nooca oo dhan xog-ururinta daba socota.

Maadaama saadaalinta pixel-ka xiga aysan si muuqata ugu habboonayn kala soocidda sawirka, sifooyinka lakabka ugu dambeeya laga yaabee inaysan ahayn kuwa ugu saadaalin fiican qaybta shayga. Natiijadeenna koowaad waxay muujinaysaa in tayada sifadu si xooggan u kororto, dabadeedna si khafiif ah u yaraato marka qoto-dheeraantu kordho. Dhaqankani wuxuu soo jeedinayaa in nooc wax soo saar ah oo transformer ahi ku shaqeeyo laba marxaladood: marxaladda koowaad, boos kasta wuxuu ka urursadaa xogta macnaha ku hareeraysan si uu u dhiso sifo sawir oo macneysan. Marxaladda labaad, sifadan macneysan ayaa loo adeegsadaa xallinta hawsha shuruudaysan ee saadaalinta pixel-ka xiga. Waxqabadka laba-marxaladood ee aan ku aragnay linear probe-yadeenna wuxuu xusuusinayaa shabakad neerfo oo kale oo aan la kormeerin, bottleneck autoencoder, oo si gacanta ah loo naqshadeeyay si sifooyinka dhexda ku yaal loo adeegsado.

Soo raraya...

Natiijadeenna xigta waxay dhisaysaa xiriirka ka dhexeeya waxqabadka wax soo saarka iyo tayada sifada. Waxaan ogaanay in kordhinta cabbirka noocyadeenna iyo sidoo kale tabbabaridda wareegyo badan ay keenaan waxqabad wax soo saar oo ka wanaagsan, taas oo si toos ah ugu tarjumaysa tayada sifada oo ka fiican.

Soo raraya...

Markaan qiimeyno sifooyinkeenna annagoo adeegsanayna linear probe-yada CIFAR-10, CIFAR-100, iyo STL-10, waxaan ka fiicnaanaa sifooyinka dhammaan algoriimyada wareejinta ee la kormeeray iyo kuwa aan la kormeerin. Natiijooyinkeenna sidoo kale waa kuwo xooggan marka la joogo goobta full fine-tuning.

			Hore loogu tabbabaray ImageNet
Qiimeyn	Nooc	Saxnaan	aan summado lahayn	leh summado
CIFAR-10 Linear Probe	ResNet-152⁵⁰	94.0		✔
	SimCLR¹²	95.3	✔
	iGPT‑L 32x32	96.3	✔	✔
CIFAR-100 Linear Probe	ResNet-152	78.0		✔
	SimCLR	80.2	✔
	iGPT‑L 32x32	82.8	✔
STL-10 Linear Probe	AMDIM-L	94.2	✔
	iGPT‑L 32x32	95.5	✔
CIFAR-10 Fine-tune	AutoAugment	98.5
	SimCLR	98.6	✔
	GPipe	99.0		✔
	iGPT‑L	99.0	✔
CIFAR-100 Fine-tune	iGPT‑L	88.5	✔
	SimCLR	89.0	✔
	AutoAugment	89.3
	EfficientNet⁵²	91.7		✔

Isbarbardhig saxnaanta linear probe iyo fine-tune ee u dhexeysa noocyadeenna iyo noocyada ugu waxqabadka sarreeya ee adeegsada wareejinta ImageNet ee aan la kormeerin ama la kormeeray. Waxaan sidoo kale ku darnay AutoAugment, oo ah nooca ugu waxqabadka sarreeya ee dhammaad-ilaa-dhammaad lagu tabbabaray CIFAR.

Iyadoo xiisaha waxbarashada aan la kormeerin iyo self-supervised ee ImageNet uu dib u soo laabtay, waxaan sidoo kale ku qiimeynaa waxqabadka noocyadeenna annagoo adeegsanayna linear probe-yada ImageNet. Tani waa goob si gaar ah u adag, maadaama aynaan ku tabbabarin xallinta gelinta caadiga ah ee ImageNet. Si kastaba ha ahaatee, linear probe lagu sameeyo 1536 sifo oo ka imanaya lakabka ugu fiican ee iGPT‑L ee lagu tabbabaray sawirro 48x48 ah wuxuu keenayaa 65.2% saxnaanta top-1, isagoo ka fiicnaanaya AlexNet.

Hababka contrastive badanaa waxay soo sheegaan natiijooyinkooda ugu fiican 8192 sifo, sidaas darteed si ku habboon waxaan isbarbardhig ugu qiimeyn lahayn iGPT oo leh embedding dimension dhan 8192. Si kastaba ha ahaatee, tabbabaridda nooc noocaas ahi aad bay qaali u tahay, sidaas darteed waxaan halkii ka isku darnaa sifooyinka lakabyo badan sidii qiyaas dhow. Nasiib darro, sifooyinkeenna waxay u janjeeraan inay isku xiran yihiin lakabyada oo dhan, sidaas darteed waxaan u baahan nahay tiro badan si aan u noqono kuwo tartan geli kara. Qaadashada 15360 sifo oo ka timid 5 lakab oo iGPT‑XL ah waxay keentaa 72.0% saxnaanta top-1, iyadoo ka fiicnaanaysa AMDIM, MoCo, iyo CPC v2, balse weli si muuqata uga hooseysa SimCLR.

Hab	Xallinta gelinta	Sifooyin	Halbeegyo	Saxnaan
Rotation⁵³	original	8192	86M	55.4
iGPT‑L	32x32	1536	1362M	60.3
BigBiGAN³⁷	original	16384	86M	61.3
iGPT‑L	48x48	1536	1362M	65.2
AMDIM¹³	original	8192	626M	68.1
MoCo²⁴	original	8192	375M	68.6
iGPT‑XL	64x64	3072	6801M	68.7
SimCLR¹²	original	2048	24M	69.3
CPC v2²⁵	original	4096	303M	71.5
iGPT‑XL	64x64	3072 x 5	6801M	72.0
SimCLR	original	8192	375M	76.5

Isbarbardhig saxnaanta linear probe ee u dhexeysa noocyadeenna iyo noocyada self-supervised ee ugu horreeya. Waxaan gaarnaa waxqabad tartan leh annagoo ku tabbabarayna xallin gelin aad uga hooseysa, inkastoo habkeenna uu u baahan yahay halbeegyo iyo xisaab badan.

Sababtoo ah noocyada luqadda ee la daboolay sida BERT ay ka fiicnaadeen qaababka wax soo saarka hawlaha luqadda intooda badan, waxaan sidoo kale qiimeynaa waxqabadka BERT ee noocyadeenna sawirka. Halkii aan noocayaga ku tabbabarilahayn inuu saadaaliyo pixel-ka xiga marka la siiyo dhammaan pixel-yadii ka horreeyay, waxaan daboolnaa 15% pixel-yada waxaana ku tabbabarnaa noocayaga inuu ka saadaaliyo kuwa aan la daboolin. Waxaan ogaanay in inkastoo waxqabadka linear probe ee noocyada BERT uu si weyn uga liito, haddana ay aad ugu fiican yihiin inta lagu jiro fine-tuning:

Soo raraya...

Iyadoo waxbarashada aan la kormeerin ay ballanqaaddo sifooyin heer sare ah iyada oo aan loo baahnayn xog bini'aadam calaamadeeyey, horumar weyn oo dhowaanahan ah ayaa lagu sameeyay qaabka dabacsan ee waxbarashada nus-kormeeran, kaas oo oggolaanaya xaddi kooban oo xog bini'aadam calaamadeeyey ah. Hababka nus-kormeeran ee guuleysta badanaa waxay ku tiirsan yihiin farsamooyin xeel dheer sida consistency regularization, data augmentation, ama pseudo-labeling, halka habab ku salaysan wax soo saar oo keliya^{54, 55} aysan sanado badan tartan gelin. Waxaan qiimeynaa iGPT‑L^G halbeeg tartan leh oo ku saabsan waaxdan hoose waxaana ogaanay in linear probe fudud oo lagu sameeyo sifooyinka sawirrada aan la augment-gareyn uu ka fiicnaado Mean Teacher⁵⁶ iyo MixMatch,⁵⁷ inkastoo uu ka hooseeyo FixMatch.⁵⁹

Nooc	40 summadood	250 summadood	4000 summadood
Improved GAN⁵⁵	—	—	81.4 ± 2.3
Mean Teacher⁵⁶	—	67.7 ± 2.3	90.8 ± 0.2
MixMatch⁵⁷	52.5 ± 11.5	89.0 ± 0.9	93.6 ± 0.1
iGPT‑L	73.2 ± 01.5	87.6 ± 0.6	94.3 ± 0.1
UDA⁵⁸	71.0 ± 05.9	91.2 ± 1.1	95.1 ± 0.2
FixMatch⁵⁹ RA	86.2 ± 03.4	94.9 ± 0.7	95.7 ± 0.1
FixMatch CTA	88.6 ± 03.4	94.9 ± 0.3	95.7 ± 0.2

Isbarbardhig waxqabadka xog-yar ee CIFAR-10. Iyada oo la adeegsanayo sawirro badan oo ImageNet ah oo aan summad lahayn, iGPT‑L wuxuu awoodaa inuu ka fiicnaado hababka sida Mean Teacher iyo MixMatch balse weli wuxuu ka hooseeyaa hababka ugu heerka sarreeya. Habkeenna waxbarashada nus-kormeeran waa mid aad u fudud maadaama aan kaliya ku waafajino logistic regression classifier sifooyinka iGPT‑L anagoo aan isticmaalin wax data augmentation ah ama fine-tuning—taas oo ah farqi weyn marka loo eego hababka nus-kormeeran ee si gaar ah loo naqshadeeyay.

Xaddidaadaha

Iyadoo aan muujinay in iGPT uu awood u leeyahay barashada sifooyin sawir oo awood leh, haddana weli waxaa jira xaddidaadyo muhiim ah oo ku saabsan habkeenna. Maadaama aan isticmaalno sequence transformer guud oo loo adeegsaday GPT‑2 luqadda, habkeenna wuxuu u baahan yahay xaddi xisaabeed aad u badan: iGPT‑L waxaa la tabbabaray qiyaastii 2500 V100-days halka nooc MoCo24⁠ ah oo waxqabad la mid ah leh lagu tabbabari karo qiyaastii 70 V100-days.

Si la xiriirta arrintan, waxaan ku dayaleynaa gelinno xallin hoose leh annagoo adeegsanayna transformer, halka natiijooyinka ugu badan ee self-supervised ay adeegsadaan encoders ku salaysan convolutional oo si fudud u qaadan kara gelinno xallin sare leh. Qaab-dhismeed cusub, sida transformer miisaan-badan oo domain-agnostic ah, ayaa laga yaabaa in loo baahdo si loo sii ballaariyo. Marka la eego xaddidaadyadan, shaqadeennu inta badan waxay u adeegtaa caddayn-fikradeed muujinaysa awoodda noocyada luqadeed ee waaweyn ee ku salaysan transformer inay bartaan matalaado aan la kormeerin oo heer sare ah domain-yo cusub, iyada oo aan loo baahnayn aqoon domain oo hore loogu qoondeeyay. Si kastaba ha ahaatee, kharashka kheyraadka badan ee lagu tabbabaro noocyadan iyo saxnaanta sare ee hababka ku salaysan shabakadaha neerfaha convolutional ayaa ka horjoogsanaya in matalaadahani noqdaan kuwo wax ku ool ah oo loo adeegsado codsiyada dhabta ah ee dunida aragga gudaheeda.

Ugu dambayn, qaababka wax soo saarka waxay muujin karaan eexyo ka dhasha xogta lagu tabbabaray. Qaar badan oo eexyadaas ka mid ahi waa faa'iido, sida in la maleeyo in isku darka pixel-yo bunni iyo cagaar ah uu yahay laan caleemo daboolan, kadibna eexdaas loo adeegsado sii wadista sawirka. Laakiin qaar ka mid ah eexyadan waxay noqon doonaan kuwo waxyeello leh marka lagu eego aragti caddaalad iyo matalaad. Tusaale ahaan, haddii noocu yeesho aragti muuqaal ah oo saynisyahan ah oo u janjeerta ragga, markaas waxa laga yaabaa inuu si joogto ah u dhammaystiro sawirrada saynisyahannada dad u muuqda rag halkii uu ka soo saari lahaa isku dhaf jinsiyo kala duwan ah. Waxaan filaynaa in horumariyayaashu u baahan doonaan inay sii kordhiyaan feejignaanta ay siinayaan xogta ay ku quudiyaan nidaamyadooda iyo inay si fiican u fahmaan sida ay ula xiriirto eexyada ku jira noocyada la tabbabaray.

Gabagabo

Waxaan muujinay in anagoo ka beddelaneyna aqoonta 2-D miisaan⁶⁰ iyo annagoo ka dooranayna sifooyinka saadaalinta qaybta dhexe ee shabakadda, sequence transformer uu kula tartami karo shabakadaha convolutional-ka ugu sarreeya ee kala soocidda sawirrada aan la kormeerin. Waxaa xusid mudan, waxaan natiijooyinkeenna ku gaarnay annagoo si toos ah ugu dabaqnay nooca luqadda GPT‑2 soo saarida sawirka. Natiijooyinkeenna waxay soo jeedinayaan in sababta oo ah fudaydkiisa iyo guud ahaantiisa, sequence transformer haddii la siiyo xisaab ku filan uu ugu dambayn noqon karo hab wax ku ool ah oo lagu barto sifooyin heer sare ah domain-yo badan.

Haddii aad ku faraxsan tahay inaad nagala shaqeyso aaggan cilmi-baarista, waan shaqaaleysiineynaa⁠!

Qoraallo hoose

A
Waxaa lagu cabbiray logistic regression oo lagu sameeyay sifooyinka la bartay (linear probe).
B
Transformer waxaa loo tabbabaray inuu kordhiyo suurtagalnimada, sidaas darteedna wuxuu daboolaa mode-yada, taas oo si toos ah u xaqiijisa kala duwanaanshaha muunadihiisa.
C
Fikradda asalka ah ee falanqaynta iyadoo la adeegsanayo isku-dubarid waxay ka badan tahay dood ku saabsan qaababka wax soo saarka ee leh latent variables, laakiin sababta oo ah qaababka wax soo saarka ee aan lahayn latent variables aad bay uga fiicnaayeen qaabeynta qaybinta xogta, waxaan u malaynay in mala-awaalka analysis-by-synthesis uu sidoo kale iyaga quseeyo.
D
Waxaan kaliya muujineynaa saxnaanta linear probe ee ImageNet ee iGPT-XL maadaama tijaabooyin kale aysan dhammaan ka hor intaanan u baahnayn inaan u wareegno xarumo supercomputing oo kala duwan.
E
Si sifooyin loogu soo saaro linear probe, waxaan qaadanaa gelinnada attention block-ka ee post layernorm ee lakab gaar ah ka dibna average pool ayaan ku sameynaa cabbirka taxanaha.
F
Si loo sameeyo fine-tuning, waxaan qaadanaa wax-soo-saarka transformer-ka ee post layernorm waxaana average pool ugu sameynaa cabbirka taxanaha sidii gelin loogu talagalay madaxa kala soocidda.
G
Nooc wax soo saar ah oo barta sifooyinka si gebi ahaan aan la kormeerin.

Tixraacyo

1
LeCun, Y. (2017). “Barashada Saadaalinta⁠(ku furmaa daaqad cusub).”
2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Attention waa Waxa Keliya ee Aad U Baahan Tahay⁠(ku furmaa daaqad cusub).” In NeurIPS 2017.
3
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). “BERT: Wejiga hore ee tabbabarka ee transformers qotodheer oo laba-jiho ah ee fahamka luqadda⁠(ku furmaa daaqad cusub).” arXiv preprint.
4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Noocyada luqaddu waa bartayaal hawlo badan oo aan la kormeerin⁠(ku furmaa daaqad cusub).” Warbixin farsamo, OpenAI.
5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: Hab si adkaysi leh loo wanaajiyay oo loogu talagalay wejiga hore ee tabbabarka BERT⁠(ku furmaa daaqad cusub).” arXiv preprint.
6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “Sahaminta xuduudaha wareejinta waxbarashada iyadoo la adeegsanayo transformer mideysan oo qoraal-ilaa-qoraal ah⁠(ku furmaa daaqad cusub).” arXiv preprint.
7
Dai, A., Le, Q. V. (2015). “Waxbarashada taxanaha nus-kormeeran⁠(ku furmaa daaqad cusub).” In NeurIPS 2015.
8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “Matalaadaha erayga ee qotada dheer ee macnaha leh⁠(ku furmaa daaqad cusub).” In NAACL 2018.
9
Howard, J., Ruder, S. (2018). “Fine-tuning-ka nooca luqadeed ee guud ee kala soocidda qoraalka⁠(ku furmaa daaqad cusub).” In ACL 2018.
10
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “Hagaajinta fahamka luqadda iyadoo la adeegsanayo wejiga hore ee tabbabarka ee wax soo saarka⁠(ku furmaa daaqad cusub).” Warbixin farsamo, OpenAI.
11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). “Sparse attentive backtracking: Qaybinta amaahda waqtiyeed iyada oo loo marayo xasuusin⁠(ku furmaa daaqad cusub).” In NeurIPS 2018.
12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). “Qaab sahlan oo loogu talagalay waxbarashada contrastive ee matalaadaha muuqaalka⁠(ku furmaa daaqad cusub).” arXiv preprint.
13
Bachman, P., Hjelm, R., & Buchwalter, W. (2019). “Barashada matalaadaha iyadoo la kordhinayo xog-is-weydaarsiga labada dhinac ee muuqaalada kala duwan⁠(ku furmaa daaqad cusub).” In NeurIPS 2019.
14
Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): Barashada guud ee matalaadda muuqaalka⁠(ku furmaa daaqad cusub).” arXiv preprint.
15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: Tabbabar wax ku ool ah oo shabakado neerfaha waaweyn ah iyadoo la adeegsanayo pipeline parallelism⁠(ku furmaa daaqad cusub).” In NeurIPS 2019.
16
Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). “Xog aan kala sooc lahayn mise nooc daciif ah? Ku saabsan muhiimada isu dheellitiran ee xogta iyo xallinta nooca⁠(ku furmaa daaqad cusub).” In ICCV 2019.
17
Lasserre, J., Bishop, C., & Minka, T. P. (2006). “Isku-dhafka mabda'a leh ee qaababka wax soo saarka iyo kala soocidda⁠(ku furmaa daaqad cusub).” In CVPR 2006.
18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). “Waa maxay sababta wejiga hore ee tabbabarka ee aan la kormeerin uu uga caawiyo waxbarashada qotada dheer?⁠(ku furmaa daaqad cusub).” In JMLR 2010.
19
Elman, J. (1990). “Helidda qaab-dhismeedka waqtiga⁠(ku furmaa daaqad cusub).” In Cognitive Science 1990.
20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Nooca luqadeed ee ku salaysan shabakad neerfaha soo noqnoqota⁠(ku furmaa daaqad cusub).” In INTERSPEECH-2010.
21
Larochelle, H., Murray, I. (2011). “Qiyaasaha qaybinta autoregressive ee neerfaha⁠(ku furmaa daaqad cusub).” In AISTATS 2011.
22
Graves, A. (2013). “Soo saarista taxanayaasha iyadoo la adeegsanayo shabakado neerfaha soo noqnoqda⁠(ku furmaa daaqad cusub).” arXiv preprint.
23
Tian, Y., Krishnan, D., & Isola, P. (2019). “Koodheynta aragtiyo badan ee contrastive⁠(ku furmaa daaqad cusub).” arXiv preprint.
24
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). “Momentum Contrast ee barashada matalaadda muuqaalka aan la kormeerin⁠(ku furmaa daaqad cusub).” arXiv preprint.
25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Aqoonsiga sawirka ee xog-wax-ku-oolka ah iyadoo la adeegsanayo Contrastive Predictive Coding⁠(ku furmaa daaqad cusub) .” arXiv preprint.
26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Shabakadaha neerfaha soo noqnoqda ee pixel⁠(ku furmaa daaqad cusub).” arXiv preprint.
27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer⁠(ku furmaa daaqad cusub).” In ICML 2018.
28
Menick, J., Kalchbrenner, N. (2018). “Soo saarista sawirro aad u heer sareeya iyadoo la adeegsanayo Subscale Pixel Networks iyo kor-u-qaadis badan-cabbir leh⁠(ku furmaa daaqad cusub).” arXiv preprint.
29
Mumford, D. (1992). “Ku saabsan qaab-dhismeedka xisaabeed ee neocortex-ka⁠(ku furmaa daaqad cusub).” In Biol. Cybern.
30
Rao, R., Ballard, D. (1999). “Predictive coding ee aragga cortex-ka: fasiraad shaqaynaysa oo ku saabsan qaar ka mid ah saamaynta receptive-field-ka ee ka baxsan kuwii caadiga ahaa⁠(ku furmaa daaqad cusub).” In Nature Neuroscience.
31
Smolensky, P. (1986). “Habaynta xogta ee nidaamyada firfircoon: Aasaaska harmony theory⁠(ku furmaa daaqad cusub).”
32
Hinton, G. (2002). “Tabbabaridda Products of Experts iyadoo la yareynayo Contrastive Divergence⁠(ku furmaa daaqad cusub).” In MIT Press.
33
Hinton, G., Osindero, S., & Teh, Y. (2006). “Algoriim waxbarasho degdeg ah oo loogu talagalay deep belief nets⁠(ku furmaa daaqad cusub).” In Neural Computation.
34
Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). “Soo saarista iyo isku dubbaridka sifooyin adkaysi leh iyadoo la adeegsanayo denoising autoencoders⁠(ku furmaa daaqad cusub).” In ICML 2008.
35
Coates, A., Lee, H., & Ng, A. Y. (2011). “Falanqayn ku saabsan shabakadaha hal-lakab ah ee barashada sifooyinka aan la kormeerin⁠(ku furmaa daaqad cusub).” In AISTATS 2011.
36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “Dhisidda sifooyin heer sare ah iyadoo la adeegsanayo waxbarasho aan la kormeerin oo baaxad weyn⁠(ku furmaa daaqad cusub).” In ICML 2012.
37
Donahue, J., Simonyan, K. (2019). “Barashada matalaadda lidka ah ee baaxad weyn⁠(ku furmaa daaqad cusub).” In NeurIPS 2019.
38
Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). “Shabakadaha neerfaha waaweyn ee fudud waxay aad ugu fiican yihiin aqoonsiga tirooyinka gacanta lagu qoray⁠(ku furmaa daaqad cusub).” In CoRR 2010.
39
Shaw, P., Uszkoreit, J., & Vaswani A. (2018). “Self-attention oo leh matalaado boos qaraabo ah⁠(ku furmaa daaqad cusub).” In NAACL 2018.
40
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “Soo saarista taxanayaal dhaadheer iyadoo la adeegsanayo sparse transformers⁠(ku furmaa daaqad cusub).” arXiv preprint.
41
Becker, S., Hinton, G. (1991). “Shabakad neerfaha is-abaabusha oo ogaanaysa dushooyin ku jira stereograms random-dot ah⁠(ku furmaa daaqad cusub).” In Nature.
42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). “Xaqiijinta saxiixa iyadoo la adeegsanayo shabakad neerfaha waqtiga-dib-u-dhaca ah oo “siamese” ah⁠(ku furmaa daaqad cusub).” In NeurIPS 1994.
43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). “Matalaadaha kala firdhisan ee erayada iyo weedhaha iyo awooddooda isku-dubarid⁠(ku furmaa daaqad cusub) .” In NeurIPS 2013.
44
Oord, A., Li, Y., Vinyals, O. (2018). “Barashada matalaadda iyadoo la adeegsanayo Contrastive Predictive Coding⁠(ku furmaa daaqad cusub) .” arXiv preprint.
45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Barashada matalaado qotodheer iyadoo la qiyaasayo lana kordhinayo xog-is-weydaarsiga labada dhinac⁠(ku furmaa daaqad cusub).” In ICLR 2019.
46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). “Injineernimada borotiinka ee mideysan oo caqli leh iyadoo la adeegsanayo barashada matalaad qotodheer oo taxane-keliya ah⁠(ku furmaa daaqad cusub).” In Nature Methods.
47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). “Qaab-dhismeedka iyo shaqada bayooloji waxay ka soo baxaan kordhinta waxbarashada aan la kormeerin ilaa 250 milyan taxane borotiin⁠(ku furmaa daaqad cusub).” bioRxiv preprint.
48
Torralba, A., Fergus, R., Freeman, W. (2008). “80 milyan sawir oo yaryar: xog-ururin weyn oo loogu talagalay aqoonsiga shayga iyo muuqaalka goobta ee aan xuduud lahayn⁠(ku furmaa daaqad cusub).” In IEEE transactions on pattern analysis and machine intelligence.
49
“Liiska garaafyada qalabka kombiyuutarka 8-Bit⁠(ku furmaa daaqad cusub).” Wikipedia, 8 May 2020
50
Kornblith, S., Shlens, J., & Le, Q. V. (2019). “Noocyada ImageNet ee ka fiican ma wareejiyaan si ka fiican?⁠(ku furmaa daaqad cusub).” In CVPR 2019.
51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: Barashada istaraatijiyadaha augmentation-ka ee xogta⁠(ku furmaa daaqad cusub).” In CVPR 2019.
52
Tan, M., Le, Q. V. (2019). “EfficientNet: Dib-u-fikirka kordhinta cabbirka nooca ee shabakadaha neerfaha convolutional⁠(ku furmaa daaqad cusub).” In ICML 2019.
53
Gidaris, S., Singh, P., & Komodakis, N. (2018). “Barashada matalaadda aan la kormeerin iyadoo la saadaalinayo wareegyada sawirka⁠(ku furmaa daaqad cusub).” In ICLR 2018.
54
Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). “Waxbarashada nus-kormeeran iyadoo la adeegsanayo qaababka wax soo saarka qotada dheer⁠(ku furmaa daaqad cusub).” In NeurIPS 2014.
55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “Farsamooyin la hagaajiyay oo loogu talagalay tabbabaridda gans⁠(ku furmaa daaqad cusub).” In NeurIPS 2016.
56
Tarvainen, A., Valpola, H. (2017). “Mean teachers waa ku dayashooyin ka fiican: consistency targets miisaan-celcelis ah ayaa hagaajiya natiijooyinka waxbarashada qotada dheer ee nus-kormeeran⁠(ku furmaa daaqad cusub).” In NeurIPS 2017.
57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: Hab dhammaystiran oo loogu talagalay waxbarashada nus-kormeeran⁠(ku furmaa daaqad cusub).” In NeurIPS 2019.
58
Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). “Data augmentation aan la kormeerin oo loogu talagalay tabbabaridda consistency⁠(ku furmaa daaqad cusub).” arXiv preprint.
59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: Fududeynta waxbarashada nus-kormeeran iyadoo la adeegsanayo consistency iyo kalsooni⁠(ku furmaa daaqad cusub).” arXiv preprint.
60
Sutton, R. (2019). “Casharka Qadhaadh⁠(ku furmaa daaqad cusub).”

Qorayaasha

Mark Chen, Alec Radford, Ilya Sutskever

Mahadcelin

Ugu horrayn, waxaan jeclaan lahayn inaan qirno wada-qorayaasha warqaddeenna Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, iyo David Luan.

Waxaan uga mahadcelineynaa kuwa soo socda jawaab-celintooda shaqadan iyo kaalintooda sii-deyntan: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le, iyo Ashish Vaswani.

Tifaftire: Ashley Pilipiszyn

Naqshad: Justin Jay Wang

Farshaxanka daboolka: Ben Barry