17 ta’ Ġunju 2020

Image GPT

Aqra d-dokument Ara l-kodiċi Dokument ICML 2020 (V1)

Illustration: Ben Barry

Qed jillowdja…

Insibu li, bħalma mudell transformer kbir imħarreġ fuq il-lingwa jista’ jiġġenera test koerenti, l-istess mudell eżatt imħarreġ fuq sekwenzi ta’ pixels jista’ jiġġenera tlestijiet⁠ u kampjuni⁠ koerenti ta’ immaġnijiet. Billi nistabbilixxu korrelazzjoni bejn il-kwalità tal-kampjuni u l-eżattezza tal-klassifikazzjoni tal-immaġnijiet, nuru li l-aħjar mudell ġenerattiv tagħna fih ukoll karatteristiċi kompetittivi mal-aqwa networks konvoluzzjonali f’ambjent mhux issorveljat.

Introduzzjoni

It-tagħlim mhux issorveljat u self-supervised,¹ jew tagħlim mingħajr data mmarkata mill-bniedem, huwa sfida li ilha teżisti fit-tagħlim awtomatiku. Dan l-aħħar, kiseb suċċess inkredibbli fil-lingwa, hekk kif mudelli transformer² bħal BERT,³ GPT‑2,⁴ RoBERTa,⁵ T5,⁶ u varjanti oħra^{7, 8, 9, u 10} kisbu prestazzjoni mill-aqwa fuq firxa wiesgħa ta’ kompiti tal-lingwa. Madankollu, l-istess klassi wiesgħa ta’ mudelli ma rnexxilhiex tipproduċi karatteristiċi b’saħħithom għall-klassifikazzjoni tal-immaġnijiet.¹¹ Ix-xogħol tagħna għandu l-għan li jifhem u jagħlaq din il-lakuna.

Mudelli transformer bħal BERT u GPT‑2 huma agnostiċi għad-dominju, jiġifieri jistgħu jiġu applikati direttament għal sekwenzi 1-D ta’ kwalunkwe forma. Meta nħarrġu GPT‑2 fuq immaġnijiet mifruxa f’sekwenzi twal ta’ pixels, li nsejħulha iGPT, insibu li l-mudell jidher li jifhem karatteristiċi tal-immaġni 2-D bħad-dehra tal-oġġetti u l-kategorija. Dan jidher mill-firxa diversa ta’ kampjuni koerenti ta’ immaġnijiet li jiġġenera, anke mingħajr il-gwida ta’ tikketti pprovduti mill-bniedem. Bħala prova oħra, il-karatteristiċi mill-mudell jiksbu prestazzjoni state-of-the-art fuq għadd ta’ datasets ta’ klassifikazzjoni u eżattezza mhux issorveljata kważi state-of-the-art^A fuq ImageNet.

Evalwazzjoni	Dataset	Ir-riżultat tagħna	L-aħjar riżultat mhux iGPT
Regresżjoni loġistika fuq karatteristiċi mitgħallma (linear probe)	CIFAR-10	96.3 iGPT‑L 32x32 b’1536 karatteristika	95.3 SimCLR¹²⁠ b’8192 karatteristika
	CIFAR-100	82.8 iGPT‑L 32x32 b’1536 karatteristika	80.2 SimCLR b’8192 karatteristika
	STL-10	95.5 iGPT‑L 32x32 b’1536 karatteristika	94.2 AMDIM¹³⁠ b’8192 karatteristika
	ImageNet	72.0 iGPT‑XL^a⁠ 64x64 b’15360 karatteristika	76.5 SimCLR b’8192 karatteristika
Fine-tune sħiħ	CIFAR-10	99.0 iGPT‑L 32x32, imħarreġ fuq ImageNet	99.0^b⁠ GPipe,¹⁴⁠ imħarreġ fuq ImageNet
	ImageNet 32x32	66.3 iGPT‑L 32x32	70.2 Isometric Nets¹⁵⁠

Nuru biss l-eżattezza tal-linear probe fuq ImageNet għal iGPT‑XL peress li esperimenti oħra ma tlestewx qabel kellna ngħaddu għal faċilitajiet differenti ta’ supercomputing.
Bit-L, imħarreġ fuq JFT (300M immaġnijiet bi 18K klassi), kiseb riżultat ta’ 99.3.

Biex nenfasizzaw il-potenzjal tal-immudellar ġenerattiv^{17 u 18} tas-sekwenzi^{19, 20, 21, u 22} bħala algoritmu ta’ tagħlim mhux issorveljat għal skop ġenerali, apposta nużaw l-istess arkitettura transformer bħal GPT‑2 fil-lingwa. Bħala konsegwenza, neħtieġu ferm aktar compute sabiex nipproduċu karatteristiċi kompetittivi ma’ dawk mill-aqwa networks konvoluzzjonali mhux issorveljati.^{13, 23, 24, 25, u 12} Madankollu, ir-riżultati tagħna jissuġġerixxu li meta wieħed jiffaċċja dominju ġdid fejn il-priors korretti tal-mudell mhumiex magħrufa, GPT‑2 kbir jista’ jitgħallem karatteristiċi eċċellenti mingħajr il-ħtieġa ta’ għażliet ta’ disinn arkitettoniku speċifiċi għad-dominju.^{26, 27, u 28}

Qed jillowdja...

Minn GPT tal-lingwa għal GPT tal-immaġni

Fil-lingwa, algoritmi ta’ tagħlim mhux issorveljat li jiddependu fuq it-tbassir tal-kliem (bħal GPT‑2 u BERT) kellhom suċċess enormi, u kisbu prestazzjoni mill-aqwa fuq firxa wiesgħa ta’ kompiti tal-lingwa. Raġuni waħda possibbli għal dan is-suċċess hija li eżempji ta’ kompiti downstream tal-lingwa jidhru b’mod naturali fit-test: il-mistoqsijiet spiss ikunu segwiti bi tweġibiet (li jistgħu jgħinu fil-question-answering) u s-siltiet spiss ikunu segwiti b’sommarji (li jistgħu jgħinu fis-sommarizzazzjoni). B’kuntrast, sekwenzi ta’ pixels ma fihomx b’mod ċar tikketti għall-immaġnijiet li jappartjenu għalihom.

Anke mingħajr din is-superviżjoni espliċita, għad hemm raġuni għaliex GPT‑2 fuq l-immaġnijiet jista’ jaħdem: transformer kbir biżżejjed imħarreġ fuq it-tbassir tal-pixel li jmiss jista’ eventwalment jitgħallem jiġġenera kampjuni diversi^B b’oġġetti li jintgħarfu b’mod ċar. Ladarba jitgħallem jagħmel dan, idea magħrufa bħala “Analiżi permezz tas-Sinteżi”^{29, 30, u C} tissuġġerixxi li l-mudell ikun jaf ukoll dwar kategoriji ta’ oġġetti. Ħafna mudelli ġenerattivi bikrin^{31, 32, 33, 34, 35, u 36} kienu motivati minn din l-idea, u aktar reċentement, BigBiGAN³⁷ kien eżempju li pproduċa kampjuni u karatteristiċi inkoraġġanti. Fix-xogħol tagħna, l-ewwel nuru li mudelli ġenerattivi aħjar jiksbu prestazzjoni ta’ klassifikazzjoni aktar b’saħħitha. Imbagħad, billi nottimizzaw GPT‑2 għall-kapaċitajiet ġenerattivi, niksbu prestazzjoni ta’ klassifikazzjoni tal-ogħla livell f’ħafna kuntesti, u nipprovdu evidenza oħra għall-analiżi permezz tas-sinteżi.

Lejn tagħlim mhux issorveljat ġenerali

L-immudellar ġenerattiv tas-sekwenzi huwa algoritmu universali ta’ tagħlim mhux issorveljat: peress li t-tipi kollha ta’ data jistgħu jiġu rrappreżentati bħala sekwenzi ta’ bytes, transformer jista’ jiġi applikat direttament għal kwalunkwe tip ta’ data mingħajr inġinerija addizzjonali. Ix-xogħol tagħna jittestja l-qawwa ta’ din il-ġeneralità billi japplika direttament l-arkitettura użata biex jitħarreġ GPT‑2 fuq lingwa naturali għall-ġenerazzjoni tal-immaġnijiet. Apposta għażilna li ma ndaħħlux bl-idejn ebda għarfien speċifiku għall-immaġnijiet fil-forma ta’ konvoluzzjonijiet³⁸ jew tekniki bħal attenzjoni relattiva,³⁹ attenzjoni skarsa,⁴⁰ u embeddings tal-pożizzjoni 2-D.²⁷

Bħala konsegwenza tal-ġeneralità tiegħu, il-metodu tagħna jeħtieġ ferm aktar compute biex jikseb prestazzjoni kompetittiva fl-ambjent mhux issorveljat. Tabilħaqq, il-metodi contrastive^{41, 42, 43, 44, 45, 13, 23, 24, 25, u 12} għadhom l-aktar metodi effiċjenti komputazzjonalment biex jipproduċu karatteristiċi ta’ kwalità għolja mill-immaġnijiet. Madankollu, billi nuru li mudell transformer mhux issorveljat huwa kompetittiv mal-aqwa networks konvoluzzjonali mhux issorveljati,^{24, 25, u 12} nipprovdu evidenza li huwa possibbli li tagħmel trade-off bejn għarfien tad-dominju kkodifikat bl-idejn u compute. F’oqsma ġodda,^{46 u 47} fejn ma hemmx ħafna għarfien x’jiġi kkodifikat bl-idejn, l-iskalar tal-compute jidher teknika xierqa biex tiġi ttestjata.

Approċċ

Aħna nħarrġu iGPT‑S, iGPT‑M, u iGPT‑L, transformers li fihom rispettivament 76M, 455M, u 1.4B parametri, fuq ImageNet. Inħarrġu wkoll iGPT‑XL^D, transformer ta’ 6.8 biljun parametru, fuq taħlita ta’ ImageNet u immaġnijiet mill-web. Minħabba l-ispiża komputazzjonali kbira tal-immudellar ta’ sekwenzi twal b’attenzjoni densa, nitħarrġu bir-riżoluzzjonijiet baxxi ta’ 32x32, 48x48, u 64x64.

Għalkemm huwa tentanti li naħdmu b’riżoluzzjonijiet saħansitra aktar baxxi biex innaqqsu aktar l-ispiża tal-compute, xogħol preċedenti wera li l-prestazzjoni tal-bniedem fil-klassifikazzjoni tal-immaġnijiet tibda tonqos malajr taħt dawn id-daqsijiet.⁴⁸ Minflok, ispirati mill-paletti bikrin tad-displays bil-kulur,⁴⁹ noħolqu l-paletta tagħna stess ta’ kulur ta’ 9 bits biex nirrappreżentaw il-pixels. L-użu ta’ din il-paletta jagħti tul ta’ sekwenza tal-input 3 darbiet iqsar mill-paletta standard (R, G, B), filwaqt li xorta jikkodifika l-kulur b’mod fidil.

Riżultati sperimentali

Hemm żewġ metodi li nużaw biex nivvalutaw il-prestazzjoni tal-mudell, u t-tnejn jinvolvu kompitu ta’ klassifikazzjoni downstream. L-ewwel wieħed, li nirreferu għalih bħala linear probe, juża l-mudell imħarreġ biex jiġbed karatteristiċi^E mill-immaġnijiet fid-dataset downstream, u mbagħad jadatta regresżjoni loġistika mat-tikketti. It-tieni metodu jagħmel fine-tuning^F tal-mudell kollu fuq id-dataset downstream.

Peress li t-tbassir tal-pixel li jmiss mhuwiex ovvjament rilevanti għall-klassifikazzjoni tal-immaġnijiet, il-karatteristiċi mill-aħħar saff jistgħu ma jkunux l-aktar predittivi tal-kategorija tal-oġġett. L-ewwel riżultat tagħna juri li l-kwalità tal-karatteristiċi hija funzjoni li tiżdied b’mod qawwi, imbagħad tonqos ħafif skont il-fond. Din l-imġiba tissuġġerixxi li mudell ġenerattiv transformer jopera f’żewġ fażijiet: fl-ewwel fażi, kull pożizzjoni tiġbor informazzjoni mill-kuntest ta’ madwarha sabiex tibni karatteristika tal-immaġni kuntestwalizzata. Fit-tieni fażi, din il-karatteristika kuntestwalizzata tintuża biex issolvi l-kompitu kundizzjonali tat-tbassir tal-pixel li jmiss. Il-prestazzjoni osservata f’żewġ stadji tal-linear probes tagħna tfakkar f’network newrali ieħor mhux issorveljat, il-bottleneck autoencoder, li huwa mfassal manwalment sabiex jintużaw il-karatteristiċi fin-nofs.

Qed jillowdja...

Ir-riżultat li jmiss tagħna jistabbilixxi r-rabta bejn il-prestazzjoni ġenerattiva u l-kwalità tal-karatteristiċi. Insibu li kemm iż-żieda fl-iskala tal-mudelli tagħna kif ukoll it-taħriġ għal aktar iterazzjonijiet iwasslu għal prestazzjoni ġenerattiva aħjar, li tittraduċi direttament f’kwalità aħjar tal-karatteristiċi.

Qed jillowdja...

Meta nivvalutaw il-karatteristiċi tagħna billi nużaw linear probes fuq CIFAR-10, CIFAR-100, u STL-10, aħna naqbżu l-karatteristiċi mill-algoritmi kollha ta’ trasferiment sorveljat u mhux issorveljat. Ir-riżultati tagħna huma wkoll konvinċenti fl-ambjent sħiħ ta’ fine-tuning.

			Imħarreġ minn qabel fuq ImageNet
Evalwazzjoni	Mudell	Eżattezza	mingħajr tikketti	b’tikketti
CIFAR-10 Linear Probe	ResNet-152⁵⁰	94.0		✔
	SimCLR¹²	95.3	✔
	iGPT‑L 32x32	96.3	✔	✔
CIFAR-100 Linear Probe	ResNet-152	78.0		✔
	SimCLR	80.2	✔
	iGPT‑L 32x32	82.8	✔
STL-10 Linear Probe	AMDIM-L	94.2	✔
	iGPT‑L 32x32	95.5	✔
CIFAR-10 Fine-tune	AutoAugment	98.5
	SimCLR	98.6	✔
	GPipe	99.0		✔
	iGPT‑L	99.0	✔
CIFAR-100 Fine-tune	iGPT‑L	88.5	✔
	SimCLR	89.0	✔
	AutoAugment	89.3
	EfficientNet⁵²	91.7		✔

Tqabbil tal-eżattezzi tal-linear probe u fine-tune bejn il-mudelli tagħna u mudelli bl-aqwa prestazzjoni li jużaw trasferiment ImageNet mhux issorveljat jew sorveljat. Ninkludu wkoll AutoAugment, l-aqwa mudell imħarreġ end-to-end fuq CIFAR.

Minħabba r-rinaxximent tal-interess fit-tagħlim mhux issorveljat u self-supervised fuq ImageNet, nivvalutaw ukoll il-prestazzjoni tal-mudelli tagħna billi nużaw linear probes fuq ImageNet. Dan huwa ambjent partikolarment diffiċli, peress li ma nitħarrġux bir-riżoluzzjoni standard tal-input ta’ ImageNet. Minkejja dan, linear probe fuq il-1536 karatteristika mill-aħjar saff ta’ iGPT‑L imħarreġ fuq immaġnijiet 48x48 jagħti 65.2% eżattezza top-1, u jaqbeż lil AlexNet.

Metodi contrastive tipikament jirrappurtaw l-aħjar riżultati tagħhom fuq 8192 karatteristika, għalhekk idealment nivvalutaw iGPT b’dimensjoni ta’ embedding ta’ 8192 għat-tqabbil. Madankollu, it-taħriġ ta’ mudell bħal dan huwa għali wisq, għalhekk minflok ngħaqqdu karatteristiċi minn bosta saffi bħala approssimazzjoni. Sfortunatament, il-karatteristiċi tagħna għandhom tendenza li jkunu korrelati bejn is-saffi, għalhekk neħtieġu aktar minnhom biex inkunu kompetittivi. Meta nieħdu 15360 karatteristika minn 5 saffi f’iGPT‑XL niksbu 72.0% eżattezza top-1, u naqbżu lil AMDIM, MoCo, u CPC v2, iżda xorta nibqgħu lura minn SimCLR b’marġni deċenti.

Metodu	Riżoluzzjoni tal-input	Karatteristiċi	Parametri	Eżattezza
Rotation⁵³	oriġinali	8192	86M	55.4
iGPT‑L	32x32	1536	1362M	60.3
BigBiGAN³⁷	oriġinali	16384	86M	61.3
iGPT‑L	48x48	1536	1362M	65.2
AMDIM¹³	oriġinali	8192	626M	68.1
MoCo²⁴	oriġinali	8192	375M	68.6
iGPT‑XL	64x64	3072	6801M	68.7
SimCLR¹²	oriġinali	2048	24M	69.3
CPC v2²⁵	oriġinali	4096	303M	71.5
iGPT‑XL	64x64	3072 x 5	6801M	72.0
SimCLR	oriġinali	8192	375M	76.5

Tqabbil tal-eżattezzi tal-linear probe bejn il-mudelli tagħna u l-mudelli self-supervised l-aktar avvanzati. Nilħqu prestazzjoni kompetittiva waqt li nitħarrġu b’riżoluzzjonijiet tal-input ħafna aktar baxxi, għalkemm il-metodu tagħna jeħtieġ aktar parametri u compute.

Minħabba li mudelli tal-lingwa masked bħal BERT qabżu lil mudelli ġenerattivi fuq ħafna kompiti tal-lingwa, nivvalutaw ukoll il-prestazzjoni ta’ BERT fuq il-mudelli tagħna tal-immaġni. Minflok nitħarrġu l-mudell tagħna biex ibassar il-pixel li jmiss mogħti l-pixels kollha ta’ qabel, inmaskjaw 15% tal-pixels u nitħarrġu l-mudell tagħna biex ibassarhom mill-oħrajn mhux immaskjati. Insibu li għalkemm il-prestazzjoni tal-linear probe fuq mudelli BERT hija ferm agħar, dawn jeċċellaw waqt il-fine-tuning:

Qed jillowdja...

Filwaqt li t-tagħlim mhux issorveljat iwiegħed karatteristiċi eċċellenti mingħajr il-ħtieġa ta’ data mmarkata mill-bniedem, sar progress sinifikanti reċenti taħt il-qafas aktar tolleranti tat-tagħlim semi-issorveljat, li jippermetti ammonti limitati ta’ data mmarkata mill-bniedem. Metodi semi-issorveljati ta’ suċċess spiss jiddependu fuq tekniki intelliġenti bħal consistency regularization, data augmentation, jew pseudo-labeling, u approċċi purament ibbażati fuq il-ġenerazzjoni^{54 u 55} ilhom ma jkunu kompetittivi għal snin. Aħna nivvalutaw iGPT‑L^G fuq benchmark kompetittiv għal dan is-subqasam u nsibu li linear probe sempliċi fuq karatteristiċi minn immaġnijiet mhux augmentati jaqbeż lil Mean Teacher⁵⁶ u MixMatch,⁵⁷ għalkemm jibqa’ lura minn FixMatch.⁵⁹

Mudell	40 tikketta	250 tikketta	4000 tikketta
Improved GAN⁵⁵	—	—	81.4 ± 2.3
Mean Teacher⁵⁶	—	67.7 ± 2.3	90.8 ± 0.2
MixMatch⁵⁷	52.5 ± 11.5	89.0 ± 0.9	93.6 ± 0.1
iGPT‑L	73.2 ± 01.5	87.6 ± 0.6	94.3 ± 0.1
UDA⁵⁸	71.0 ± 05.9	91.2 ± 1.1	95.1 ± 0.2
FixMatch⁵⁹ RA	86.2 ± 03.4	94.9 ± 0.7	95.7 ± 0.1
FixMatch CTA	88.6 ± 03.4	94.9 ± 0.3	95.7 ± 0.2

Tqabbil tal-prestazzjoni fuq CIFAR-10 b’ammont żgħir ta’ data. Billi jisfrutta ħafna immaġnijiet ImageNet mhux ittikkettati, iGPT‑L kapaċi jaqbeż metodi bħal Mean Teacher u MixMatch iżda xorta jibqa’ lura mill-metodi l-aktar avvanzati. L-approċċ tagħna għat-tagħlim semi-issorveljat huwa sempliċi ħafna peress li aħna nadattaw biss klassifikatur ta’ regresżjoni loġistika fuq il-karatteristiċi ta’ iGPT‑L mingħajr ebda data augmentation jew fine-tuning—differenza sinifikanti minn approċċi semi-issorveljati mfassla apposta.

Limitazzjonijiet

Filwaqt li wrejna li iGPT kapaċi jitgħallem karatteristiċi qawwija tal-immaġni, għad hemm limitazzjonijiet sinifikanti fl-approċċ tagħna. Minħabba li nużaw is-sekwenza transformer ġenerika użata għal GPT‑2 fil-lingwa, il-metodu tagħna jeħtieġ ammonti kbar ta’ compute: iGPT‑L ġie mħarreġ għal madwar 2500 V100-jum filwaqt li mudell MoCo24⁠ bi prestazzjoni simili jista’ jitħarreġ f’madwar 70 V100-jum.

Marbut ma’ dan, aħna nimmudellaw inputs b’riżoluzzjoni baxxa bl-użu ta’ transformer, filwaqt li ħafna riżultati self-supervised jużaw encoders ibbażati fuq konvoluzzjonijiet li jistgħu faċilment jikkunsmaw inputs b’riżoluzzjoni għolja. Tista’ tkun meħtieġa arkitettura ġdida, bħal transformer multiskala agnostiku għad-dominju, sabiex inkomplu niskalaw. Minħabba dawn il-limitazzjonijiet, ix-xogħol tagħna primarjament iservi bħala dimostrazzjoni proof-of-concept tal-kapaċità ta’ mudelli kbar tal-lingwa bbażati fuq transformer biex jitgħallmu rappreżentazzjonijiet eċċellenti mhux issorveljati f’oqsma ġodda, mingħajr il-ħtieġa ta’ għarfien tad-dominju hardcoded. Madankollu, l-ispiża sinifikanti tar-riżorsi biex jitħarrġu dawn il-mudelli u l-eżattezza akbar ta’ metodi bbażati fuq networks newrali konvoluzzjonali jeskludu dawn ir-rappreżentazzjonijiet minn applikazzjonijiet prattiċi fid-dinja reali fid-dominju tal-viżjoni.

Fl-aħħar, il-mudelli ġenerattivi jistgħu juru preġudizzji li huma konsegwenza tad-data li ġew imħarrġa fuqha. Ħafna minn dawn il-preġudizzji huma utli, bħal meta wieħed jassumi li taħlita ta’ pixels kannella u ħodor tirrappreżenta fergħa miksija bil-weraq, u mbagħad juża dan il-preġudizzju biex ikompli l-immaġni. Iżda wħud minn dawn il-preġudizzji jkunu ta’ ħsara, meta jitqiesu mil-lenti tal-ġustizzja u r-rappreżentazzjoni. Pereżempju, jekk il-mudell jiżviluppa kunċett viżiv ta’ xjenzat li jxaqleb lejn l-irġiel, allura jista’ b’mod konsistenti jtemm immaġnijiet ta’ xjenzati b’persuni li jidhru rġiel, minflok taħlita ta’ ġeneri. Nistennew li l-iżviluppaturi jkollhom jagħtu attenzjoni dejjem akbar lid-data li jdaħħlu fis-sistemi tagħhom u jifhmu aħjar kif din tirrelata mal-preġudizzji fil-mudelli mħarrġa.

Konklużjoni

Urejna li billi nagħmlu trade-off bejn għarfien 2-D u skala⁶⁰ u billi nagħżlu karatteristiċi predittivi min-nofs tan-network, sekwenza transformer tista’ tkun kompetittiva mal-aqwa networks konvoluzzjonali għall-klassifikazzjoni mhux issorveljata tal-immaġnijiet. B’mod notevoli, ksibna r-riżultati tagħna billi applikajna direttament il-mudell tal-lingwa GPT‑2 għall-ġenerazzjoni tal-immaġnijiet. Ir-riżultati tagħna jissuġġerixxu li minħabba s-sempliċità u l-ġeneralità tiegħu, sekwenza transformer li tingħata biżżejjed compute tista’ fl-aħħar tkun mod effettiv biex jitgħallmu karatteristiċi eċċellenti f’ħafna oqsma.

Jekk tħossok eċitat biex taħdem magħna fuq dan il-qasam ta’ riċerka, qegħdin nirreklutaw⁠!

Noti f’qiegħ il-paġna

A
Imkejla permezz ta’ regresżjoni loġistika fuq karatteristiċi mitgħallma (linear probe).
B
Transformer jitħarreġ biex jimmassimizza l-likelihood, u għalhekk ikopri l-modi, li awtomatikament jiżgura d-diversità tal-kampjuni tiegħu.
C
L-idea oriġinali ta’ analiżi permezz tas-sinteżi hija aktar argument favur mudelli ġenerattivi b’varjabbli latenti, iżda peress li mudelli ġenerattivi mingħajr varjabbli latenti kienu ferm aħjar fl-immudellar tad-distribuzzjoni tad-data, ħsibna li l-konġettura tal-analiżi-permezz-tas-sinteżi kellha tapplika għalihom ukoll.
D
Aħna nuru biss l-eżattezza tal-linear probe fuq ImageNet għal iGPT-XL peress li esperimenti oħra ma tlestewx qabel kellna ngħaddu għal faċilitajiet differenti ta’ supercomputing.
E
Biex niġbdu karatteristiċi għal linear probe, nieħdu l-inputs tal-attention block wara layernorm f’xi saff u nagħmlu average pool fuq id-dimensjoni tas-sekwenza.
F
Biex nagħmlu fine-tune, nieħdu l-output tat-transformer wara layernorm u nagħmlu average pool fuq id-dimensjoni tas-sekwenza bħala input għar-ras tal-klassifikazzjoni.
G
Mudell ġenerattiv li jitgħallem karatteristiċi b’mod purament mhux issorveljat.

Referenzi

1
LeCun, Y. (2017). “Tagħlim Predittiv⁠(jinfetaħ f’tieqa ġdida).”
2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Attention is All you Need⁠(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2017.
3
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding⁠(jinfetaħ f’tieqa ġdida).” Preprint arXiv.
4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Language Models are Unsupervised Multitask Learners⁠(jinfetaħ f’tieqa ġdida).” Rapport tekniku, OpenAI.
5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: A Robustly Optimized BERT Pretraining Approach⁠(jinfetaħ f’tieqa ġdida).” Preprint arXiv.
6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer⁠(jinfetaħ f’tieqa ġdida).” Preprint arXiv.
7
Dai, A., Le, Q. V. (2015). “Semi-supervised sequence learning⁠(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2015.
8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “Deep Contextualized Word Representations⁠(jinfetaħ f’tieqa ġdida).” F’NAACL 2018.
9
Howard, J., Ruder, S. (2018). “Universal Language Model Fine-tuning for Text Classification⁠(jinfetaħ f’tieqa ġdida).” F’ACL 2018.
10
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “Improving language understanding by generative pre-training⁠(jinfetaħ f’tieqa ġdida).” Rapport tekniku, OpenAI.
11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). “Sparse attentive backtracking: Temporal credit assignment through reminding⁠(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2018.
12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). “A Simple Framework for Contrastive Learning of Visual Representations⁠(jinfetaħ f’tieqa ġdida).” Preprint arXiv.
13
Bachman, P., Hjelm, R., & Buchwalter, W. (2019). “Learning representations by maximizing mutual information across views⁠(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2019.
14
Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): General Visual Representation Learning⁠(jinfetaħ f’tieqa ġdida).” Preprint arXiv.
15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism⁠(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2019.
16
Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). “Non-discriminative data or weak model? On the relative importance of data and model resolution⁠(jinfetaħ f’tieqa ġdida).” F’ICCV 2019.
17
Lasserre, J., Bishop, C., & Minka, T. P. (2006). “Principled Hybrids of Generative and Discriminative Models⁠(jinfetaħ f’tieqa ġdida).” F’CVPR 2006.
18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). “Why does unsupervised pre-training help deep learning?⁠(jinfetaħ f’tieqa ġdida).” F’JMLR 2010.
19
Elman, J. (1990). “Finding Structure in Time⁠(jinfetaħ f’tieqa ġdida).” F’Cognitive Science 1990.
20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Recurrent neural network based language model⁠(jinfetaħ f’tieqa ġdida).” F’INTERSPEECH-2010.
21
Larochelle, H., Murray, I. (2011). “The neural autoregressive distribution estimator⁠(jinfetaħ f’tieqa ġdida).” F’AISTATS 2011.
22
Graves, A. (2013). “Generating sequences with recurrent neural networks⁠(jinfetaħ f’tieqa ġdida).” Preprint arXiv.
23
Tian, Y., Krishnan, D., & Isola, P. (2019). “Contrastive multiview coding⁠(jinfetaħ f’tieqa ġdida).” Preprint arXiv.
24
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). “Momentum Contrast for Unsupervised Visual Representation Learning⁠(jinfetaħ f’tieqa ġdida).” Preprint arXiv.
25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Data-Efficient Image Recognition with Contrastive Predictive Coding⁠(jinfetaħ f’tieqa ġdida).” Preprint arXiv.
26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Pixel recurrent neural networks⁠(jinfetaħ f’tieqa ġdida).” Preprint arXiv.
27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer⁠(jinfetaħ f’tieqa ġdida).” F’ICML 2018.
28
Menick, J., Kalchbrenner, N. (2018). “Generating High Fidelity Images with Subscale Pixel Networks and Multidimensional Upscaling⁠(jinfetaħ f’tieqa ġdida).” Preprint arXiv.
29
Mumford, D. (1992). “On the computational architecture of the neocortex⁠(jinfetaħ f’tieqa ġdida).” F’Biol. Cybern.
30
Rao, R., Ballard, D. (1999). “Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects⁠(jinfetaħ f’tieqa ġdida).” F’Nature Neuroscience.
31
Smolensky, P. (1986). “Information processing in dynamical systems: Foundations of harmony theory⁠(jinfetaħ f’tieqa ġdida).”
32
Hinton, G. (2002). “Training Products of Experts by Minimizing Contrastive Divergence⁠(jinfetaħ f’tieqa ġdida).” F’MIT Press.
33
Hinton, G., Osindero, S., & Teh, Y. (2006). “A fast learning algorithm for deep belief nets⁠(jinfetaħ f’tieqa ġdida).” F’Neural Computation.
34
Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). “Extracting and composing robust features with denoising autoencoders⁠(jinfetaħ f’tieqa ġdida).” F’ICML 2008.
35
Coates, A., Lee, H., & Ng, A. Y. (2011). “An analysis of single-layer networks in unsupervised feature learning⁠(jinfetaħ f’tieqa ġdida).” F’AISTATS 2011.
36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “Building high-level features using large scale unsupervised learning⁠(jinfetaħ f’tieqa ġdida).” F’ICML 2012.
37
Donahue, J., Simonyan, K. (2019). “Large scale adversarial representation learning⁠(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2019.
38
Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). “Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition⁠(jinfetaħ f’tieqa ġdida).” F’CoRR 2010.
39
Shaw, P., Uszkoreit, J., & Vaswani A. (2018). “Self-attention with relative position representations⁠(jinfetaħ f’tieqa ġdida).” F’NAACL 2018.
40
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “Generating long sequences with sparse transformers⁠(jinfetaħ f’tieqa ġdida).” Preprint arXiv.
41
Becker, S., Hinton, G. (1991). “Self-organizing neural network that discovers surfaces in random-dot stereograms⁠(jinfetaħ f’tieqa ġdida).” F’Nature.
42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). “Signature verification using a” siamese” time delay neural network⁠(jinfetaħ f’tieqa ġdida).” F’NeurIPS 1994.
43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). “Distributed Representations of Words and Phrases and their Compositionality⁠(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2013.
44
Oord, A., Li, Y., Vinyals, O. (2018). “Representation Learning with Contrastive Predictive Coding⁠(jinfetaħ f’tieqa ġdida).” Preprint arXiv.
45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Learning deep representations by mutual information estimation and maximization⁠(jinfetaħ f’tieqa ġdida).” F’ICLR 2019.
46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). “Unified rational protein engineering with sequence-only deep representation learning⁠(jinfetaħ f’tieqa ġdida).” F’Nature Methods.
47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). “Biological Structure and Function Emerge from Scaling Unsupervised Learning to 250 Million Protein Sequences⁠(jinfetaħ f’tieqa ġdida).” Preprint bioRxiv.
48
Torralba, A., Fergus, R., Freeman, W. (2008). “80 million tiny images: A large data set for nonparametric object and scene recognition⁠(jinfetaħ f’tieqa ġdida).” F’IEEE transactions on pattern analysis and machine intelligence.
49
“Lista ta’ Grafika ta’ Ħardwer tal-Kompjuters 8-Bit⁠(jinfetaħ f’tieqa ġdida).” Wikipedia, 8 ta’ Mejju 2020
50
Kornblith, S., Shlens, J., & Le, Q. V. (2019). “Do Better ImageNet Models Transfer Better?⁠(jinfetaħ f’tieqa ġdida).” F’CVPR 2019.
51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: Learning Augmentation Strategies From Data⁠(jinfetaħ f’tieqa ġdida).” F’CVPR 2019.
52
Tan, M., Le, Q. V. (2019). “EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks⁠(jinfetaħ f’tieqa ġdida).” F’ICML 2019.
53
Gidaris, S., Singh, P., & Komodakis, N. (2018). “Unsupervised Representation Learning by Predicting Image Rotations⁠(jinfetaħ f’tieqa ġdida).” F’ICLR 2018.
54
Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). “Semi-Supervised Learning with Deep Generative Models⁠(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2014.
55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “Improved techniques for training gans⁠(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2016.
56
Tarvainen, A., Valpola, H. (2017). “Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results⁠(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2017.
57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: A Holistic Approach to Semi-Supervised Learning⁠(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2019.
58
Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). “Unsupervised Data Augmentation for Consistency Training⁠(jinfetaħ f’tieqa ġdida).” Preprint arXiv.
59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: Simplifying semi-supervised learning with consistency and confidence⁠(jinfetaħ f’tieqa ġdida).” Preprint arXiv.
60
Sutton, R. (2019). “The Bitter Lesson⁠(jinfetaħ f’tieqa ġdida).”

Awturi

Mark Chen, Alec Radford, u Ilya Sutskever

Rikonoxximenti

L-ewwel nett, nixtiequ nirrikonoxxu lill-koawturi tal-artiklu tagħna Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, u David Luan.

Grazzi lil dawn li ġejjin għall-feedback tagħhom dwar dan ix-xogħol u l-kontribuzzjonijiet għal din ir-rilaxx: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le, u Ashish Vaswani.

Editur: Ashley Pilipiszyn

Disinn: Justin Jay Wang

Arti tal-qoxra: Ben Barry