Aqbeż għall-kontenut prinċipali
OpenAI

Insibu li, bħalma mudell transformer kbir imħarreġ fuq il-lingwa jista’ jiġġenera test koerenti, l-istess mudell eżatt imħarreġ fuq sekwenzi ta’ pixels jista’ jiġġenera tlestijiet u kampjuni koerenti ta’ immaġnijiet. Billi nistabbilixxu korrelazzjoni bejn il-kwalità tal-kampjuni u l-eżattezza tal-klassifikazzjoni tal-immaġnijiet, nuru li l-aħjar mudell ġenerattiv tagħna fih ukoll karatteristiċi kompetittivi mal-aqwa networks konvoluzzjonali f’ambjent mhux issorveljat.

Introduzzjoni

It-tagħlim mhux issorveljat u self-supervised,1 jew tagħlim mingħajr data mmarkata mill-bniedem, huwa sfida li ilha teżisti fit-tagħlim awtomatiku. Dan l-aħħar, kiseb suċċess inkredibbli fil-lingwa, hekk kif mudelli transformer2 bħal BERT,3 GPT‑2,4 RoBERTa,5 T5,6 u varjanti oħra7, 8, 9, u 10 kisbu prestazzjoni mill-aqwa fuq firxa wiesgħa ta’ kompiti tal-lingwa. Madankollu, l-istess klassi wiesgħa ta’ mudelli ma rnexxilhiex tipproduċi karatteristiċi b’saħħithom għall-klassifikazzjoni tal-immaġnijiet.11 Ix-xogħol tagħna għandu l-għan li jifhem u jagħlaq din il-lakuna.

Mudelli transformer bħal BERT u GPT‑2 huma agnostiċi għad-dominju, jiġifieri jistgħu jiġu applikati direttament għal sekwenzi 1-D ta’ kwalunkwe forma. Meta nħarrġu GPT‑2 fuq immaġnijiet mifruxa f’sekwenzi twal ta’ pixels, li nsejħulha iGPT, insibu li l-mudell jidher li jifhem karatteristiċi tal-immaġni 2-D bħad-dehra tal-oġġetti u l-kategorija. Dan jidher mill-firxa diversa ta’ kampjuni koerenti ta’ immaġnijiet li jiġġenera, anke mingħajr il-gwida ta’ tikketti pprovduti mill-bniedem. Bħala prova oħra, il-karatteristiċi mill-mudell jiksbu prestazzjoni state-of-the-art fuq għadd ta’ datasets ta’ klassifikazzjoni u eżattezza mhux issorveljata kważi state-of-the-artA fuq ImageNet.

Evalwazzjoni

Dataset

Ir-riżultat tagħna

L-aħjar riżultat mhux iGPT

Regresżjoni loġistika fuq karatteristiċi mitgħallma (linear probe)

CIFAR-10

96.3 iGPT‑L 32x32 b’1536 karatteristika

95.3 SimCLR12 b’8192 karatteristika

CIFAR-100

82.8 iGPT‑L 32x32 b’1536 karatteristika

80.2 SimCLR b’8192 karatteristika

STL-10

95.5 iGPT‑L 32x32 b’1536 karatteristika

94.2 AMDIM13 b’8192 karatteristika

ImageNet

72.0 iGPT‑XLa 64x64 b’15360 karatteristika

76.5 SimCLR b’8192 karatteristika

Fine-tune sħiħ

CIFAR-10

99.0 iGPT‑L 32x32, imħarreġ fuq ImageNet

99.0b GPipe,14 imħarreġ fuq ImageNet

ImageNet 32x32

66.3 iGPT‑L 32x32

70.2 Isometric Nets15

  1. Nuru biss l-eżattezza tal-linear probe fuq ImageNet għal iGPT‑XL peress li esperimenti oħra ma tlestewx qabel kellna ngħaddu għal faċilitajiet differenti ta’ supercomputing.
  2. Bit-L, imħarreġ fuq JFT (300M immaġnijiet bi 18K klassi), kiseb riżultat ta’ 99.3.

Biex nenfasizzaw il-potenzjal tal-immudellar ġenerattiv17 u 18 tas-sekwenzi19, 20, 21, u 22 bħala algoritmu ta’ tagħlim mhux issorveljat għal skop ġenerali, apposta nużaw l-istess arkitettura transformer bħal GPT‑2 fil-lingwa. Bħala konsegwenza, neħtieġu ferm aktar compute sabiex nipproduċu karatteristiċi kompetittivi ma’ dawk mill-aqwa networks konvoluzzjonali mhux issorveljati.13, 23, 24, 25, u 12 Madankollu, ir-riżultati tagħna jissuġġerixxu li meta wieħed jiffaċċja dominju ġdid fejn il-priors korretti tal-mudell mhumiex magħrufa, GPT‑2 kbir jista’ jitgħallem karatteristiċi eċċellenti mingħajr il-ħtieġa ta’ għażliet ta’ disinn arkitettoniku speċifiċi għad-dominju.26, 27, u 28

Qed jillowdja...

Minn GPT tal-lingwa għal GPT tal-immaġni

Fil-lingwa, algoritmi ta’ tagħlim mhux issorveljat li jiddependu fuq it-tbassir tal-kliem (bħal GPT‑2 u BERT) kellhom suċċess enormi, u kisbu prestazzjoni mill-aqwa fuq firxa wiesgħa ta’ kompiti tal-lingwa. Raġuni waħda possibbli għal dan is-suċċess hija li eżempji ta’ kompiti downstream tal-lingwa jidhru b’mod naturali fit-test: il-mistoqsijiet spiss ikunu segwiti bi tweġibiet (li jistgħu jgħinu fil-question-answering) u s-siltiet spiss ikunu segwiti b’sommarji (li jistgħu jgħinu fis-sommarizzazzjoni). B’kuntrast, sekwenzi ta’ pixels ma fihomx b’mod ċar tikketti għall-immaġnijiet li jappartjenu għalihom.

Anke mingħajr din is-superviżjoni espliċita, għad hemm raġuni għaliex GPT‑2 fuq l-immaġnijiet jista’ jaħdem: transformer kbir biżżejjed imħarreġ fuq it-tbassir tal-pixel li jmiss jista’ eventwalment jitgħallem jiġġenera kampjuni diversiB b’oġġetti li jintgħarfu b’mod ċar. Ladarba jitgħallem jagħmel dan, idea magħrufa bħala “Analiżi permezz tas-Sinteżi”29, 30, u C tissuġġerixxi li l-mudell ikun jaf ukoll dwar kategoriji ta’ oġġetti. Ħafna mudelli ġenerattivi bikrin31, 32, 33, 34, 35, u 36 kienu motivati minn din l-idea, u aktar reċentement, BigBiGAN37 kien eżempju li pproduċa kampjuni u karatteristiċi inkoraġġanti. Fix-xogħol tagħna, l-ewwel nuru li mudelli ġenerattivi aħjar jiksbu prestazzjoni ta’ klassifikazzjoni aktar b’saħħitha. Imbagħad, billi nottimizzaw GPT‑2 għall-kapaċitajiet ġenerattivi, niksbu prestazzjoni ta’ klassifikazzjoni tal-ogħla livell f’ħafna kuntesti, u nipprovdu evidenza oħra għall-analiżi permezz tas-sinteżi.

Lejn tagħlim mhux issorveljat ġenerali

L-immudellar ġenerattiv tas-sekwenzi huwa algoritmu universali ta’ tagħlim mhux issorveljat: peress li t-tipi kollha ta’ data jistgħu jiġu rrappreżentati bħala sekwenzi ta’ bytes, transformer jista’ jiġi applikat direttament għal kwalunkwe tip ta’ data mingħajr inġinerija addizzjonali. Ix-xogħol tagħna jittestja l-qawwa ta’ din il-ġeneralità billi japplika direttament l-arkitettura użata biex jitħarreġ GPT‑2 fuq lingwa naturali għall-ġenerazzjoni tal-immaġnijiet. Apposta għażilna li ma ndaħħlux bl-idejn ebda għarfien speċifiku għall-immaġnijiet fil-forma ta’ konvoluzzjonijiet38 jew tekniki bħal attenzjoni relattiva,39 attenzjoni skarsa,40 u embeddings tal-pożizzjoni 2-D.27

Bħala konsegwenza tal-ġeneralità tiegħu, il-metodu tagħna jeħtieġ ferm aktar compute biex jikseb prestazzjoni kompetittiva fl-ambjent mhux issorveljat. Tabilħaqq, il-metodi contrastive41, 42, 43, 44, 45, 13, 23, 24, 25, u 12 għadhom l-aktar metodi effiċjenti komputazzjonalment biex jipproduċu karatteristiċi ta’ kwalità għolja mill-immaġnijiet. Madankollu, billi nuru li mudell transformer mhux issorveljat huwa kompetittiv mal-aqwa networks konvoluzzjonali mhux issorveljati,24, 25, u 12 nipprovdu evidenza li huwa possibbli li tagħmel trade-off bejn għarfien tad-dominju kkodifikat bl-idejn u compute. F’oqsma ġodda,46 u 47 fejn ma hemmx ħafna għarfien x’jiġi kkodifikat bl-idejn, l-iskalar tal-compute jidher teknika xierqa biex tiġi ttestjata.

Approċċ

Aħna nħarrġu iGPT‑S, iGPT‑M, u iGPT‑L, transformers li fihom rispettivament 76M, 455M, u 1.4B parametri, fuq ImageNet. Inħarrġu wkoll iGPT‑XLD, transformer ta’ 6.8 biljun parametru, fuq taħlita ta’ ImageNet u immaġnijiet mill-web. Minħabba l-ispiża komputazzjonali kbira tal-immudellar ta’ sekwenzi twal b’attenzjoni densa, nitħarrġu bir-riżoluzzjonijiet baxxi ta’ 32x32, 48x48, u 64x64.

Għalkemm huwa tentanti li naħdmu b’riżoluzzjonijiet saħansitra aktar baxxi biex innaqqsu aktar l-ispiża tal-compute, xogħol preċedenti wera li l-prestazzjoni tal-bniedem fil-klassifikazzjoni tal-immaġnijiet tibda tonqos malajr taħt dawn id-daqsijiet.48 Minflok, ispirati mill-paletti bikrin tad-displays bil-kulur,49 noħolqu l-paletta tagħna stess ta’ kulur ta’ 9 bits biex nirrappreżentaw il-pixels. L-użu ta’ din il-paletta jagħti tul ta’ sekwenza tal-input 3 darbiet iqsar mill-paletta standard (R, G, B), filwaqt li xorta jikkodifika l-kulur b’mod fidil.

Riżultati sperimentali

Hemm żewġ metodi li nużaw biex nivvalutaw il-prestazzjoni tal-mudell, u t-tnejn jinvolvu kompitu ta’ klassifikazzjoni downstream. L-ewwel wieħed, li nirreferu għalih bħala linear probe, juża l-mudell imħarreġ biex jiġbed karatteristiċiE mill-immaġnijiet fid-dataset downstream, u mbagħad jadatta regresżjoni loġistika mat-tikketti. It-tieni metodu jagħmel fine-tuningF tal-mudell kollu fuq id-dataset downstream.

Peress li t-tbassir tal-pixel li jmiss mhuwiex ovvjament rilevanti għall-klassifikazzjoni tal-immaġnijiet, il-karatteristiċi mill-aħħar saff jistgħu ma jkunux l-aktar predittivi tal-kategorija tal-oġġett. L-ewwel riżultat tagħna juri li l-kwalità tal-karatteristiċi hija funzjoni li tiżdied b’mod qawwi, imbagħad tonqos ħafif skont il-fond. Din l-imġiba tissuġġerixxi li mudell ġenerattiv transformer jopera f’żewġ fażijiet: fl-ewwel fażi, kull pożizzjoni tiġbor informazzjoni mill-kuntest ta’ madwarha sabiex tibni karatteristika tal-immaġni kuntestwalizzata. Fit-tieni fażi, din il-karatteristika kuntestwalizzata tintuża biex issolvi l-kompitu kundizzjonali tat-tbassir tal-pixel li jmiss. Il-prestazzjoni osservata f’żewġ stadji tal-linear probes tagħna tfakkar f’network newrali ieħor mhux issorveljat, il-bottleneck autoencoder, li huwa mfassal manwalment sabiex jintużaw il-karatteristiċi fin-nofs.

Qed jillowdja...

Ir-riżultat li jmiss tagħna jistabbilixxi r-rabta bejn il-prestazzjoni ġenerattiva u l-kwalità tal-karatteristiċi. Insibu li kemm iż-żieda fl-iskala tal-mudelli tagħna kif ukoll it-taħriġ għal aktar iterazzjonijiet iwasslu għal prestazzjoni ġenerattiva aħjar, li tittraduċi direttament f’kwalità aħjar tal-karatteristiċi.

Qed jillowdja...

Meta nivvalutaw il-karatteristiċi tagħna billi nużaw linear probes fuq CIFAR-10, CIFAR-100, u STL-10, aħna naqbżu l-karatteristiċi mill-algoritmi kollha ta’ trasferiment sorveljat u mhux issorveljat. Ir-riżultati tagħna huma wkoll konvinċenti fl-ambjent sħiħ ta’ fine-tuning.

Imħarreġ minn qabel fuq ImageNet

Evalwazzjoni

Mudell

Eżattezza

mingħajr tikketti

b’tikketti

CIFAR-10

Linear Probe

ResNet-15250

94.0

SimCLR12

95.3

iGPT‑L 32x32

96.3

CIFAR-100

Linear Probe

ResNet-152

78.0

SimCLR

80.2

iGPT‑L 32x32

82.8

STL-10

Linear Probe

AMDIM-L

94.2

iGPT‑L 32x32

95.5

CIFAR-10

Fine-tune

AutoAugment

98.5

SimCLR

98.6

GPipe

99.0

iGPT‑L

99.0

CIFAR-100

Fine-tune

iGPT‑L

88.5

SimCLR

89.0

AutoAugment

89.3

EfficientNet52

91.7

Tqabbil tal-eżattezzi tal-linear probe u fine-tune bejn il-mudelli tagħna u mudelli bl-aqwa prestazzjoni li jużaw trasferiment ImageNet mhux issorveljat jew sorveljat. Ninkludu wkoll AutoAugment, l-aqwa mudell imħarreġ end-to-end fuq CIFAR.

Minħabba r-rinaxximent tal-interess fit-tagħlim mhux issorveljat u self-supervised fuq ImageNet, nivvalutaw ukoll il-prestazzjoni tal-mudelli tagħna billi nużaw linear probes fuq ImageNet. Dan huwa ambjent partikolarment diffiċli, peress li ma nitħarrġux bir-riżoluzzjoni standard tal-input ta’ ImageNet. Minkejja dan, linear probe fuq il-1536 karatteristika mill-aħjar saff ta’ iGPT‑L imħarreġ fuq immaġnijiet 48x48 jagħti 65.2% eżattezza top-1, u jaqbeż lil AlexNet.

Metodi contrastive tipikament jirrappurtaw l-aħjar riżultati tagħhom fuq 8192 karatteristika, għalhekk idealment nivvalutaw iGPT b’dimensjoni ta’ embedding ta’ 8192 għat-tqabbil. Madankollu, it-taħriġ ta’ mudell bħal dan huwa għali wisq, għalhekk minflok ngħaqqdu karatteristiċi minn bosta saffi bħala approssimazzjoni. Sfortunatament, il-karatteristiċi tagħna għandhom tendenza li jkunu korrelati bejn is-saffi, għalhekk neħtieġu aktar minnhom biex inkunu kompetittivi. Meta nieħdu 15360 karatteristika minn 5 saffi f’iGPT‑XL niksbu 72.0% eżattezza top-1, u naqbżu lil AMDIM, MoCo, u CPC v2, iżda xorta nibqgħu lura minn SimCLR b’marġni deċenti.

Metodu

Riżoluzzjoni tal-input

Karatteristiċi

Parametri

Eżattezza

Rotation53

oriġinali

8192

86M

55.4

iGPT‑L

32x32

1536

1362M

60.3

BigBiGAN37

oriġinali

16384

86M

61.3

iGPT‑L

48x48

1536

1362M

65.2

AMDIM13

oriġinali

8192

626M

68.1

MoCo24

oriġinali

8192

375M

68.6

iGPT‑XL

64x64

3072

6801M

68.7

SimCLR12

oriġinali

2048

24M

69.3

CPC v225

oriġinali

4096

303M

71.5

iGPT‑XL

64x64

3072 x 5

6801M

72.0

SimCLR

oriġinali

8192

375M

76.5

Tqabbil tal-eżattezzi tal-linear probe bejn il-mudelli tagħna u l-mudelli self-supervised l-aktar avvanzati. Nilħqu prestazzjoni kompetittiva waqt li nitħarrġu b’riżoluzzjonijiet tal-input ħafna aktar baxxi, għalkemm il-metodu tagħna jeħtieġ aktar parametri u compute.

Minħabba li mudelli tal-lingwa masked bħal BERT qabżu lil mudelli ġenerattivi fuq ħafna kompiti tal-lingwa, nivvalutaw ukoll il-prestazzjoni ta’ BERT fuq il-mudelli tagħna tal-immaġni. Minflok nitħarrġu l-mudell tagħna biex ibassar il-pixel li jmiss mogħti l-pixels kollha ta’ qabel, inmaskjaw 15% tal-pixels u nitħarrġu l-mudell tagħna biex ibassarhom mill-oħrajn mhux immaskjati. Insibu li għalkemm il-prestazzjoni tal-linear probe fuq mudelli BERT hija ferm agħar, dawn jeċċellaw waqt il-fine-tuning:

Qed jillowdja...

Filwaqt li t-tagħlim mhux issorveljat iwiegħed karatteristiċi eċċellenti mingħajr il-ħtieġa ta’ data mmarkata mill-bniedem, sar progress sinifikanti reċenti taħt il-qafas aktar tolleranti tat-tagħlim semi-issorveljat, li jippermetti ammonti limitati ta’ data mmarkata mill-bniedem. Metodi semi-issorveljati ta’ suċċess spiss jiddependu fuq tekniki intelliġenti bħal consistency regularization, data augmentation, jew pseudo-labeling, u approċċi purament ibbażati fuq il-ġenerazzjoni54 u 55 ilhom ma jkunu kompetittivi għal snin. Aħna nivvalutaw iGPT‑LG fuq benchmark kompetittiv għal dan is-subqasam u nsibu li linear probe sempliċi fuq karatteristiċi minn immaġnijiet mhux augmentati jaqbeż lil Mean Teacher56 u MixMatch,57 għalkemm jibqa’ lura minn FixMatch.59

Mudell

40 tikketta

250 tikketta

4000 tikketta

Improved GAN55

81.4 ± 2.3

Mean Teacher56

67.7 ± 2.3

90.8 ± 0.2

MixMatch57

52.5 ± 11.5

89.0 ± 0.9

93.6 ± 0.1

iGPT‑L

73.2 ± 01.5

87.6 ± 0.6

94.3 ± 0.1

UDA58

71.0 ± 05.9

91.2 ± 1.1

95.1 ± 0.2

FixMatch59 RA

86.2 ± 03.4

94.9 ± 0.7

95.7 ± 0.1

FixMatch CTA

88.6 ± 03.4

94.9 ± 0.3

95.7 ± 0.2

Tqabbil tal-prestazzjoni fuq CIFAR-10 b’ammont żgħir ta’ data. Billi jisfrutta ħafna immaġnijiet ImageNet mhux ittikkettati, iGPT‑L kapaċi jaqbeż metodi bħal Mean Teacher u MixMatch iżda xorta jibqa’ lura mill-metodi l-aktar avvanzati. L-approċċ tagħna għat-tagħlim semi-issorveljat huwa sempliċi ħafna peress li aħna nadattaw biss klassifikatur ta’ regresżjoni loġistika fuq il-karatteristiċi ta’ iGPT‑L mingħajr ebda data augmentation jew fine-tuning—differenza sinifikanti minn approċċi semi-issorveljati mfassla apposta.

Limitazzjonijiet

Filwaqt li wrejna li iGPT kapaċi jitgħallem karatteristiċi qawwija tal-immaġni, għad hemm limitazzjonijiet sinifikanti fl-approċċ tagħna. Minħabba li nużaw is-sekwenza transformer ġenerika użata għal GPT‑2 fil-lingwa, il-metodu tagħna jeħtieġ ammonti kbar ta’ compute: iGPT‑L ġie mħarreġ għal madwar 2500 V100-jum filwaqt li mudell MoCo24 bi prestazzjoni simili jista’ jitħarreġ f’madwar 70 V100-jum.

Marbut ma’ dan, aħna nimmudellaw inputs b’riżoluzzjoni baxxa bl-użu ta’ transformer, filwaqt li ħafna riżultati self-supervised jużaw encoders ibbażati fuq konvoluzzjonijiet li jistgħu faċilment jikkunsmaw inputs b’riżoluzzjoni għolja. Tista’ tkun meħtieġa arkitettura ġdida, bħal transformer multiskala agnostiku għad-dominju, sabiex inkomplu niskalaw. Minħabba dawn il-limitazzjonijiet, ix-xogħol tagħna primarjament iservi bħala dimostrazzjoni proof-of-concept tal-kapaċità ta’ mudelli kbar tal-lingwa bbażati fuq transformer biex jitgħallmu rappreżentazzjonijiet eċċellenti mhux issorveljati f’oqsma ġodda, mingħajr il-ħtieġa ta’ għarfien tad-dominju hardcoded. Madankollu, l-ispiża sinifikanti tar-riżorsi biex jitħarrġu dawn il-mudelli u l-eżattezza akbar ta’ metodi bbażati fuq networks newrali konvoluzzjonali jeskludu dawn ir-rappreżentazzjonijiet minn applikazzjonijiet prattiċi fid-dinja reali fid-dominju tal-viżjoni.

Fl-aħħar, il-mudelli ġenerattivi jistgħu juru preġudizzji li huma konsegwenza tad-data li ġew imħarrġa fuqha. Ħafna minn dawn il-preġudizzji huma utli, bħal meta wieħed jassumi li taħlita ta’ pixels kannella u ħodor tirrappreżenta fergħa miksija bil-weraq, u mbagħad juża dan il-preġudizzju biex ikompli l-immaġni. Iżda wħud minn dawn il-preġudizzji jkunu ta’ ħsara, meta jitqiesu mil-lenti tal-ġustizzja u r-rappreżentazzjoni. Pereżempju, jekk il-mudell jiżviluppa kunċett viżiv ta’ xjenzat li jxaqleb lejn l-irġiel, allura jista’ b’mod konsistenti jtemm immaġnijiet ta’ xjenzati b’persuni li jidhru rġiel, minflok taħlita ta’ ġeneri. Nistennew li l-iżviluppaturi jkollhom jagħtu attenzjoni dejjem akbar lid-data li jdaħħlu fis-sistemi tagħhom u jifhmu aħjar kif din tirrelata mal-preġudizzji fil-mudelli mħarrġa.

Konklużjoni

Urejna li billi nagħmlu trade-off bejn għarfien 2-D u skala60 u billi nagħżlu karatteristiċi predittivi min-nofs tan-network, sekwenza transformer tista’ tkun kompetittiva mal-aqwa networks konvoluzzjonali għall-klassifikazzjoni mhux issorveljata tal-immaġnijiet. B’mod notevoli, ksibna r-riżultati tagħna billi applikajna direttament il-mudell tal-lingwa GPT‑2 għall-ġenerazzjoni tal-immaġnijiet. Ir-riżultati tagħna jissuġġerixxu li minħabba s-sempliċità u l-ġeneralità tiegħu, sekwenza transformer li tingħata biżżejjed compute tista’ fl-aħħar tkun mod effettiv biex jitgħallmu karatteristiċi eċċellenti f’ħafna oqsma.

Jekk tħossok eċitat biex taħdem magħna fuq dan il-qasam ta’ riċerka, qegħdin nirreklutaw!

Noti f’qiegħ il-paġna

  1. A

    Imkejla permezz ta’ regresżjoni loġistika fuq karatteristiċi mitgħallma (linear probe).

  2. B

    Transformer jitħarreġ biex jimmassimizza l-likelihood, u għalhekk ikopri l-modi, li awtomatikament jiżgura d-diversità tal-kampjuni tiegħu.

  3. C

    L-idea oriġinali ta’ analiżi permezz tas-sinteżi hija aktar argument favur mudelli ġenerattivi b’varjabbli latenti, iżda peress li mudelli ġenerattivi mingħajr varjabbli latenti kienu ferm aħjar fl-immudellar tad-distribuzzjoni tad-data, ħsibna li l-konġettura tal-analiżi-permezz-tas-sinteżi kellha tapplika għalihom ukoll.

  4. D

    Aħna nuru biss l-eżattezza tal-linear probe fuq ImageNet għal iGPT-XL peress li esperimenti oħra ma tlestewx qabel kellna ngħaddu għal faċilitajiet differenti ta’ supercomputing.

  5. E

    Biex niġbdu karatteristiċi għal linear probe, nieħdu l-inputs tal-attention block wara layernorm f’xi saff u nagħmlu average pool fuq id-dimensjoni tas-sekwenza.

  6. F

    Biex nagħmlu fine-tune, nieħdu l-output tat-transformer wara layernorm u nagħmlu average pool fuq id-dimensjoni tas-sekwenza bħala input għar-ras tal-klassifikazzjoni.

  7. G

    Mudell ġenerattiv li jitgħallem karatteristiċi b’mod purament mhux issorveljat.

Referenzi

  1. 1
  2. 2

    Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Attention is All you Need(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2017.

  3. 3

    Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(jinfetaħ f’tieqa ġdida).” Preprint arXiv.

  4. 4

    Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Language Models are Unsupervised Multitask Learners(jinfetaħ f’tieqa ġdida).” Rapport tekniku, OpenAI.

  5. 5

    Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: A Robustly Optimized BERT Pretraining Approach(jinfetaħ f’tieqa ġdida).” Preprint arXiv.

  6. 6

    Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(jinfetaħ f’tieqa ġdida).” Preprint arXiv.

  7. 7

    Dai, A., Le, Q. V. (2015). “Semi-supervised sequence learning(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2015.

  8. 8

    Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “Deep Contextualized Word Representations(jinfetaħ f’tieqa ġdida).” F’NAACL 2018.

  9. 9
  10. 10

    Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “Improving language understanding by generative pre-training(jinfetaħ f’tieqa ġdida).” Rapport tekniku, OpenAI.

  11. 11

    Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). “Sparse attentive backtracking: Temporal credit assignment through reminding(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2018.

  12. 12

    Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). “A Simple Framework for Contrastive Learning of Visual Representations(jinfetaħ f’tieqa ġdida).” Preprint arXiv.

  13. 13

    Bachman, P., Hjelm, R., & Buchwalter, W. (2019). “Learning representations by maximizing mutual information across views(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2019.

  14. 14

    Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): General Visual Representation Learning(jinfetaħ f’tieqa ġdida).” Preprint arXiv.

  15. 15

    Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2019.

  16. 16

    Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). “Non-discriminative data or weak model? On the relative importance of data and model resolution(jinfetaħ f’tieqa ġdida).” F’ICCV 2019.

  17. 17

    Lasserre, J., Bishop, C., & Minka, T. P. (2006). “Principled Hybrids of Generative and Discriminative Models(jinfetaħ f’tieqa ġdida).” F’CVPR 2006.

  18. 18

    Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). “Why does unsupervised pre-training help deep learning?(jinfetaħ f’tieqa ġdida).” F’JMLR 2010.

  19. 19

    Elman, J. (1990). “Finding Structure in Time(jinfetaħ f’tieqa ġdida).” F’Cognitive Science 1990.

  20. 20

    Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Recurrent neural network based language model(jinfetaħ f’tieqa ġdida).” F’INTERSPEECH-2010.

  21. 21

    Larochelle, H., Murray, I. (2011). “The neural autoregressive distribution estimator(jinfetaħ f’tieqa ġdida).” F’AISTATS 2011.

  22. 22
  23. 23

    Tian, Y., Krishnan, D., & Isola, P. (2019). “Contrastive multiview coding(jinfetaħ f’tieqa ġdida).” Preprint arXiv.

  24. 24

    He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). “Momentum Contrast for Unsupervised Visual Representation Learning(jinfetaħ f’tieqa ġdida).” Preprint arXiv.

  25. 25

    Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Data-Efficient Image Recognition with Contrastive Predictive Coding(jinfetaħ f’tieqa ġdida).” Preprint arXiv.

  26. 26

    Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Pixel recurrent neural networks(jinfetaħ f’tieqa ġdida).” Preprint arXiv.

  27. 27

    Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer(jinfetaħ f’tieqa ġdida).” F’ICML 2018.

  28. 28
  29. 29
  30. 30
  31. 31
  32. 32
  33. 33

    Hinton, G., Osindero, S., & Teh, Y. (2006). “A fast learning algorithm for deep belief nets(jinfetaħ f’tieqa ġdida).” F’Neural Computation.

  34. 34

    Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). “Extracting and composing robust features with denoising autoencoders(jinfetaħ f’tieqa ġdida).” F’ICML 2008.

  35. 35

    Coates, A., Lee, H., & Ng, A. Y. (2011). “An analysis of single-layer networks in unsupervised feature learning(jinfetaħ f’tieqa ġdida).” F’AISTATS 2011.

  36. 36

    Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “Building high-level features using large scale unsupervised learning(jinfetaħ f’tieqa ġdida).” F’ICML 2012.

  37. 37

    Donahue, J., Simonyan, K. (2019). “Large scale adversarial representation learning(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2019.

  38. 38

    Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). “Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition(jinfetaħ f’tieqa ġdida).” F’CoRR 2010.

  39. 39

    Shaw, P., Uszkoreit, J., & Vaswani A. (2018). “Self-attention with relative position representations(jinfetaħ f’tieqa ġdida).” F’NAACL 2018.

  40. 40

    Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “Generating long sequences with sparse transformers(jinfetaħ f’tieqa ġdida).” Preprint arXiv.

  41. 41
  42. 42

    Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). “Signature verification using a” siamese” time delay neural network(jinfetaħ f’tieqa ġdida).” F’NeurIPS 1994.

  43. 43

    Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). “Distributed Representations of Words and Phrases and their Compositionality(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2013.

  44. 44

    Oord, A., Li, Y., Vinyals, O. (2018). “Representation Learning with Contrastive Predictive Coding(jinfetaħ f’tieqa ġdida).” Preprint arXiv.

  45. 45

    Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Learning deep representations by mutual information estimation and maximization(jinfetaħ f’tieqa ġdida).” F’ICLR 2019.

  46. 46

    Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). “Unified rational protein engineering with sequence-only deep representation learning(jinfetaħ f’tieqa ġdida).” F’Nature Methods.

  47. 47

    Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). “Biological Structure and Function Emerge from Scaling Unsupervised Learning to 250 Million Protein Sequences(jinfetaħ f’tieqa ġdida).” Preprint bioRxiv.

  48. 48

    Torralba, A., Fergus, R., Freeman, W. (2008). “80 million tiny images: A large data set for nonparametric object and scene recognition(jinfetaħ f’tieqa ġdida).” F’IEEE transactions on pattern analysis and machine intelligence.

  49. 49
  50. 50

    Kornblith, S., Shlens, J., & Le, Q. V. (2019). “Do Better ImageNet Models Transfer Better?(jinfetaħ f’tieqa ġdida).” F’CVPR 2019.

  51. 51

    Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: Learning Augmentation Strategies From Data(jinfetaħ f’tieqa ġdida).” F’CVPR 2019.

  52. 52
  53. 53

    Gidaris, S., Singh, P., & Komodakis, N. (2018). “Unsupervised Representation Learning by Predicting Image Rotations(jinfetaħ f’tieqa ġdida).” F’ICLR 2018.

  54. 54

    Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). “Semi-Supervised Learning with Deep Generative Models(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2014.

  55. 55

    Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “Improved techniques for training gans(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2016.

  56. 56
  57. 57

    Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: A Holistic Approach to Semi-Supervised Learning(jinfetaħ f’tieqa ġdida).” F’NeurIPS 2019.

  58. 58

    Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). “Unsupervised Data Augmentation for Consistency Training(jinfetaħ f’tieqa ġdida).” Preprint arXiv.

  59. 59

    Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: Simplifying semi-supervised learning with consistency and confidence(jinfetaħ f’tieqa ġdida).” Preprint arXiv.

  60. 60

Awturi

Mark Chen, Alec Radford, u Ilya Sutskever

Rikonoxximenti

L-ewwel nett, nixtiequ nirrikonoxxu lill-koawturi tal-artiklu tagħna Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, u David Luan.

Grazzi lil dawn li ġejjin għall-feedback tagħhom dwar dan ix-xogħol u l-kontribuzzjonijiet għal din ir-rilaxx: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le, u Ashish Vaswani.

Editur: Ashley Pilipiszyn

Disinn: Justin Jay Wang

Arti tal-qoxra: Ben Barry