17 Meitheamh 2020

Image GPT

Léigh an páipéar Féach an cód Páipéar ICML 2020 (V1)

Illustration: Ben Barry

Ag lódáil…

Faighimid amach, díreach mar is féidir le samhail mhór trasfhoirmitheoir atá oilte ar theanga téacs comhleanúnach a ghiniúint, gur féidir leis an tsamhail chéanna sin atá oilte ar sheichimh picteilíní comhlánuithe⁠ íomhá agus samplaí⁠ comhleanúnacha a ghiniúint. Trí chomhghaol a bhunú idir cáilíocht samplaí agus cruinneas rangaithe íomhánna, léirímid go bhfuil gnéithe inár samhail giniúna is fearr atá iomaíoch freisin leis na líonraí comhfhillte barrleibhéil sa suíomh neamhmhaoirsithe.

Réamhrá

Is dúshlán fadbhunaithe don mheaisínfhoghlaim í foghlaim neamhmhaoirsithe agus féinmhaoirsithe,¹ nó foghlaim gan sonraí arna lipéadú ag daoine. Le déanaí, d’éirigh thar barr léi i dteanga, mar tá samhlacha trasfhoirmitheoir² cosúil le BERT,³ GPT‑2,⁴ RoBERTa,⁵ T5,⁶ agus leaganacha eile^{7, 8, 9, 10} tar éis barrfheidhmíocht a bhaint amach ar réimse leathan tascanna teanga. Mar sin féin, níor éirigh leis an aicme leathan chéanna samhlacha gnéithe láidre a tháirgeadh do rangú íomhánna.¹¹ Tá sé mar aidhm ag ár gcuid oibre an bhearna seo a thuiscint agus a líonadh.

Tá samhlacha trasfhoirmitheoir cosúil le BERT agus GPT‑2 fearann-neamhspleách, rud a chiallaíonn gur féidir iad a chur i bhfeidhm go díreach ar sheichimh 1-T d’aon chineál. Nuair a chuirimid oiliúint ar GPT‑2 ar íomhánna atá dí-rollaithe ina seichimh fhada picteilíní, ar a dtugaimid iGPT, faighimid amach gur cosúil go dtuigeann an tsamhail tréithe íomhá 2-T ar nós cuma agus catagóir réada. Léirítear é seo leis an réimse éagsúil de shamplaí íomhá comhleanúnacha a ghineann sí, fiú gan treoir ó lipéid a sholáthraíonn daoine. Mar chruthúnas breise, baineann gnéithe ón tsamhail feidhmíocht úrscothach amach ar roinnt tacar sonraí rangaithe agus cruinneas neamhmhaoirsithe beagnach úrscothach^A ar ImageNet.

Meastóireacht	Tacar sonraí	Ár dToradh	An toradh neamh-iGPT is fearr
Aischéimniú lóistíoch ar ghnéithe foghlamtha (probe líneach)	CIFAR-10	96.3 iGPT‑L 32x32 le 1536 gné	95.3 SimCLR¹²⁠ le 8192 gné
	CIFAR-100	82.8 iGPT‑L 32x32 le 1536 gné	80.2 SimCLR le 8192 gné
	STL-10	95.5 iGPT‑L 32x32 le 1536 gné	94.2 AMDIM¹³⁠ le 8192 gné
	ImageNet	72.0 iGPT‑XL^a⁠ 64x64 le 15360 gné	76.5 SimCLR le 8192 gné
Mionchoigeartú iomlán	CIFAR-10	99.0 iGPT‑L 32x32, oilte ar ImageNet	99.0^b⁠ GPipe,¹⁴⁠ oilte ar ImageNet
	ImageNet 32x32	66.3 iGPT‑L 32x32	70.2 Isometric Nets¹⁵⁠

Ní léirímid ach cruinneas probe líneach ImageNet do iGPT‑XL toisc nár chríochnaigh turgnaimh eile sular ghá dúinn aistriú go saoráidí sár-ríomhaireachta eile.
Bhain Bit-L, a cuireadh faoi oiliúint ar JFT (300M íomhá le 18K rang), toradh 99.3 amach.

Chun acmhainneacht samhaltú seicheamh giniúnach^{17, 18, 19, 20, 21, 22} mar algartam foghlama neamhmhaoirsithe ilchuspóireach a aibhsiú, úsáidimid d’aon ghnó an ailtireacht trasfhoirmitheoir chéanna le GPT‑2 i dteanga. Mar thoradh air sin, teastaíonn i bhfad níos mó ríomhaireachta uainn chun gnéithe a tháirgeadh atá iomaíoch leis na cinn ó líonraí comhfhillte neamhmhaoirsithe is fearr.^{13, 23, 24, 25, 12} Mar sin féin, tugann ár dtorthaí le fios gur féidir le GPT‑2 mór gnéithe den scoth a fhoghlaim gan gá le roghanna dearaidh ailtireachta fearann-shonracha^{26, 27, 28} nuair a thugtar aghaidh ar fhearann nua nach fios cad iad na tosaíochtaí cearta samhla.

Ag lódáil...

Ó GPT teanga go GPT íomhá

I dteanga, d’éirigh thar barr le halgartaim foghlama neamhmhaoirsithe a bhraitheann ar thuar focal (cosúil le GPT‑2 agus BERT), agus bhain siad feidhmíocht den scoth amach ar réimse leathan tascanna teanga. Cúis amháin a d’fhéadfadh a bheith leis an rath seo ná go dtagann samplaí de thascanna teanga iartheachtacha chun cinn go nádúrtha i dtéacs: is minic a leanann freagraí ceisteanna (rud a d’fhéadfadh cabhrú le freagairt ceisteanna) agus is minic a leanann achoimrí sleachta (rud a d’fhéadfadh cabhrú le hachoimriú). I gcodarsnacht leis sin, ní léir go bhfuil lipéid do na híomhánna lena mbaineann siad i seichimh picteilíní.

Fiú gan an mhaoirseacht shoiléir seo, tá cúis ann fós go bhféadfadh GPT‑2 ar íomhánna oibriú: d’fhéadfadh trasfhoirmitheoir sách mór atá oilte ar thuar an chéad phicteilín eile foghlaim sa deireadh samplaí éagsúla^B le réada atá inaitheanta go soiléir a ghiniúint. Nuair a fhoghlaimíonn sé é sin a dhéanamh, tugann smaoineamh ar a dtugtar “Anailís trí Shintéis”^{29, 30, C} le fios go mbeidh eolas ag an tsamhail ar chatagóirí réad freisin. Spreag an smaoineamh seo go leor samhlacha giniúna luatha^{31, 32, 33, 34, 35, 36}, agus níos déanaí ba shampla é BigBiGAN³⁷ a tháirg samplaí agus gnéithe spreagúla. Inár gcuid oibre, léirímid ar dtús go mbaineann samhlacha giniúna níos fearr feidhmíocht rangaithe níos láidre amach. Ansin, trí GPT‑2 a bharrfheabhsú le haghaidh cumas giniúna, bainimid feidhmíocht rangaithe barrleibhéil amach i go leor suíomhanna, ag soláthar tuilleadh fianaise ar anailís trí shintéis.

I dtreo foghlaim neamhmhaoirsithe ghinearálta

Is algartam foghlama neamhmhaoirsithe uilíoch é samhaltú seicheamh giniúnach: ós rud é gur féidir gach cineál sonraí a léiriú mar sheichimh bheart, is féidir trasfhoirmitheoir a chur i bhfeidhm go díreach ar aon chineál sonraí gan innealtóireacht bhreise. Déanann ár gcuid oibre tástáil ar chumhacht na ginearálachta seo trí ailtireacht a úsáideadh chun GPT‑2 a oiliúint ar theanga nádúrtha a chur i bhfeidhm go díreach ar ghiniúint íomhá. Roghnaíomar d’aon ghnó gan aon eolas sainiúil ar íomhánna a chódú de láimh i bhfoirm comhfhilleadh³⁸ nó teicnící amhail aird choibhneasta,³⁹ aird scaipthe,⁴⁰ agus leabuithe suímh 2-T.²⁷

Mar thoradh ar a ghinearálacht, éilíonn ár modh i bhfad níos mó ríomhaireachta chun feidhmíocht iomaíoch a bhaint amach sa suíomh neamhmhaoirsithe. Go deimhin, is iad modhanna codarsnachta^{41, 42, 43, 44, 45, 13, 23, 24, 25, 12} na modhanna is éifeachtúla ó thaobh ríomhaireachta de fós chun gnéithe ardchaighdeáin a tháirgeadh ó íomhánna. Mar sin féin, trí a thaispeáint go bhfuil samhail trasfhoirmitheoir neamhmhaoirsithe iomaíoch leis na líonraí comhfhillte neamhmhaoirsithe is fearr,^{24, 25, 12} cuirimid fianaise ar fáil gur féidir eolas fearainn atá códaithe de láimh a mhalartú ar ríomhaireacht. I bhfearainn nua,^{46, 47} áit nach bhfuil mórán eolais le códú de láimh, is cosúil gur teicníc oiriúnach é ríomhaireacht a mhéadú chun í a thástáil.

Cur chuige

Cuirimid oiliúint ar iGPT‑S, iGPT‑M, agus iGPT‑L, trasfhoirmitheoirí ina bhfuil 76M, 455M, agus 1.4B paraiméadar faoi seach, ar ImageNet. Cuirimid oiliúint freisin ar iGPT‑XL^D, trasfhoirmitheoir le 6.8 billiún paraiméadar, ar mheascán de ImageNet agus íomhánna ón ngréasán. Mar gheall ar an gcostas ríomhaireachta mór a bhaineann le seichimh fhada a mhúnlú le haird dhlúth, cuirimid oiliúint ag na taifigh ísle 32x32, 48x48, agus 64x64.

Cé go bhfuil sé mealltach oibriú ag taifigh níos ísle fós chun costas ríomhaireachta a laghdú tuilleadh, léirigh obair roimhe seo go dtosaíonn feidhmíocht an duine ar rangú íomhánna ag titim go tapa faoi na méideanna seo.⁴⁸ Ina áit sin, spreagtha ag pailéid taispeána datha luatha,⁴⁹ cruthaímid ár bpailéad dathanna 9-giotán féin chun picteilíní a léiriú. Tríd an bpailéad seo a úsáid, bíonn fad an tseichimh ionchuir 3 huaire níos giorra ná an pailéad caighdeánach (R, G, B), agus an dath fós á ionchódú go dílis.

Torthaí turgnamhacha

Tá dhá mhodh againn chun feidhmíocht samhla a mheas, agus baineann tasc rangaithe iartheachtach leis an mbeirt acu. Úsáideann an chéad cheann, ar a dtugaimid probe líneach, an tsamhail oilte chun gnéithe^E a bhaint as na híomhánna sa tacar sonraí iartheachtach, agus ansin oireann sé aischéimniú lóistíoch do na lipéid. Déanann an dara modh an tsamhail iomlán a mhionchoigeartú^F ar an tacar sonraí iartheachtach.

Ós rud é nach léir go mbaineann tuar na chéad phicteilíní eile le rangú íomhánna, seans nach iad gnéithe na sraithe deirí na cinn is tuarthaí do chatagóir an réada. Léiríonn ár gcéad toradh gur feidhm í cáilíocht na ngnéithe a ardaíonn go géar ar dtús agus a laghdaíonn go beag ina dhiaidh sin de réir doimhneachta. Tugann an t-iompar seo le fios go n-oibríonn samhail ghiniúnach trasfhoirmitheoir in dhá chéim: sa chéad chéim, bailíonn gach suíomh eolas óna chomhthéacs máguaird chun gné íomhá comhthéacsaithe a thógáil. Sa dara céim, úsáidtear an ghné chomhthéacsaithe seo chun tasc tuartha coinníollaí an chéad phicteilín eile a réiteach. Cuireann feidhmíocht dhá chéim ár bpróbanna líneacha i gcuimhne líonra néarach neamhmhaoirsithe eile, an t-uath-ionchódóir bottleneck, atá deartha de láimh ionas go n-úsáidtear na gnéithe sa lár.

Ag lódáil...

Bunaíonn ár gcéad toradh eile an nasc idir feidhmíocht ghiniúnach agus cáilíocht gnéithe. Faighimid amach go mbíonn feidhmíocht ghiniúnach níos fearr mar thoradh ar scála ár samhlacha a mhéadú agus oiliúint ar feadh níos mó atriallta, agus aistríonn sé sin go díreach go cáilíocht gnéithe níos fearr.

Ag lódáil...

Nuair a mheasaimid ár ngnéithe ag úsáid probanna líneacha ar CIFAR-10, CIFAR-100, agus STL-10, sáraímid gnéithe ó gach algartam aistrithe maoirsithe agus neamhmhaoirsithe. Tá ár dtorthaí láidir freisin sa suíomh mionchoigeartaithe iomláin.

			Réamh-oilte ar ImageNet
Meastóireacht	Samhail	Cruinneas	gan lipéid	le lipéid
CIFAR-10 Probe líneach	ResNet-152⁵⁰	94.0		✔
	SimCLR¹²	95.3	✔
	iGPT‑L 32x32	96.3	✔	✔
CIFAR-100 Probe líneach	ResNet-152	78.0		✔
	SimCLR	80.2	✔
	iGPT‑L 32x32	82.8	✔
STL-10 Probe líneach	AMDIM-L	94.2	✔
	iGPT‑L 32x32	95.5	✔
CIFAR-10 Mionchoigeartaigh	AutoAugment	98.5
	SimCLR	98.6	✔
	GPipe	99.0		✔
	iGPT‑L	99.0	✔
CIFAR-100 Mionchoigeartaigh	iGPT‑L	88.5	✔
	SimCLR	89.0	✔
	AutoAugment	89.3
	EfficientNet⁵²	91.7		✔

Comparáid idir cruinnis probe líneach agus mionchoigeartaithe idir ár samhlacha agus na samhlacha is fearr a úsáideann aistriú ImageNet neamhmhaoirsithe nó maoirsithe. Cuirimid AutoAugment san áireamh freisin, an tsamhail is fearr a cuireadh faoi oiliúint ceann go ceann ar CIFAR.

I bhfianaise athbheochan an spéise i bhfoghlaim neamhmhaoirsithe agus féinmhaoirsithe ar ImageNet, déanaimid measúnú freisin ar fheidhmíocht ár samhlacha ag úsáid probanna líneacha ar ImageNet. Is suíomh an-deacair é seo, ós rud é nach ndéanaimid oiliúint ag taifeach ionchuir caighdeánach ImageNet. Mar sin féin, tugann probe líneach ar na 1536 gné ó shraith is fearr iGPT‑L atá oilte ar íomhánna 48x48 cruinneas barr-1 de 65.2%, rud a sháraíonn AlexNet.

Tuairiscíonn modhanna codarsnachta a dtorthaí is fearr de ghnáth ar 8192 gné, mar sin go hidéalach dhéanfaimis measúnú ar iGPT le toise leabaithe 8192 chun comparáid a dhéanamh. Mar sin féin, tá oiliúint ar a leithéid de shamhail róchostasach, mar sin ina áit sin ceanglaímid gnéithe ó iliomad sraitheanna mar chomhfhogasú. Ar an drochuair, bíonn comhghaol idir ár ngnéithe thar shraitheanna, mar sin teastaíonn níos mó díobh uainn chun a bheith iomaíoch. Trí 15360 gné a thógáil ó 5 shraith in iGPT‑XL faightear cruinneas barr-1 de 72.0%, rud a sháraíonn AMDIM, MoCo, agus CPC v2, ach atá fós níos laige ná SimCLR de bhearna mheasartha.

Modh	Taifeach ionchuir	Gnéithe	Paraiméadair	Cruinneas
Rotation⁵³	original	8192	86M	55.4
iGPT‑L	32x32	1536	1362M	60.3
BigBiGAN³⁷	original	16384	86M	61.3
iGPT‑L	48x48	1536	1362M	65.2
AMDIM¹³	original	8192	626M	68.1
MoCo²⁴	original	8192	375M	68.6
iGPT‑XL	64x64	3072	6801M	68.7
SimCLR¹²	original	2048	24M	69.3
CPC v2²⁵	original	4096	303M	71.5
iGPT‑XL	64x64	3072 x 5	6801M	72.0
SimCLR	original	8192	375M	76.5

Comparáid idir cruinnis probe líneach idir ár samhlacha agus samhlacha féinmhaoirsithe úrscothacha. Bainimid feidhmíocht iomaíoch amach agus muid ag oiliúint ag taifigh ionchuir i bhfad níos ísle, cé go dteastaíonn níos mó paraiméadar agus ríomhaireachta ónár modh.

Toisc gur sháraigh samhlacha teanga mascaithe cosúil le BERT samhlacha giniúna ar fhormhór na dtascanna teanga, déanaimid measúnú freisin ar fheidhmíocht BERT ar ár samhlacha íomhá. In ionad ár samhail a oiliúint chun an chéad phicteilín eile a thuar i bhfianaise gach picteilín roimhe, cuirimid masc ar 15% de na picteilíní agus cuirimid oiliúint ar ár samhail chun iad a thuar ó na cinn neamhmhascaithe. Faighimid amach, cé go bhfuil feidhmíocht probe líneach ar shamhlacha BERT i bhfad níos measa, go sáraíonn siad le linn mionchoigeartaithe:

Ag lódáil...

Cé go ngeallann foghlaim neamhmhaoirsithe gnéithe den scoth gan gá le sonraí arna lipéadú ag daoine, tá dul chun cinn suntasach déanta le déanaí faoi chreat níos flaithiúla na foghlama leathmhaoirsithe, a cheadaíonn méid teoranta sonraí arna lipéadú ag daoine. Is minic a bhraitheann modhanna leathmhaoirsithe rathúla ar theicnící cliste amhail rialtú comhsheasmhachta, méadú sonraí, nó bréaglipéadú, agus ní raibh cur chuigeanna bunaithe go hiomlán ar ghiniúint^{54, 55} iomaíoch le blianta. Déanaimid measúnú ar iGPT‑L^G ar thagarmharc iomaíoch don fho-réimse seo agus faighimid amach go sáraíonn probe líneach simplí ar ghnéithe ó íomhánna neamh-mhéadaithe Mean Teacher⁵⁶ agus MixMatch,⁵⁷ cé go bhfuil sé níos laige ná FixMatch.⁵⁹

Samhail	40 lipéad	250 lipéad	4000 lipéad
Improved GAN⁵⁵	—	—	81.4 ± 2.3
Mean Teacher⁵⁶	—	67.7 ± 2.3	90.8 ± 0.2
MixMatch⁵⁷	52.5 ± 11.5	89.0 ± 0.9	93.6 ± 0.1
iGPT‑L	73.2 ± 01.5	87.6 ± 0.6	94.3 ± 0.1
UDA⁵⁸	71.0 ± 05.9	91.2 ± 1.1	95.1 ± 0.2
FixMatch⁵⁹ RA	86.2 ± 03.4	94.9 ± 0.7	95.7 ± 0.1
FixMatch CTA	88.6 ± 03.4	94.9 ± 0.3	95.7 ± 0.2

Comparáid ar fheidhmíocht ar CIFAR-10 ísealsonraí. Trí leas a bhaint as go leor íomhánna ImageNet gan lipéad, is féidir le iGPT‑L feidhmiú níos fearr ná modhanna cosúil le Mean Teacher agus MixMatch ach tá sé fós níos laige ná na modhanna barr feabhais. Tá ár gcur chuige i leith foghlaim leathmhaoirsithe an-simplí ós rud é nach n-oireann muid ach aicmitheoir aischéimnithe lóistíoch ar ghnéithe iGPT‑L gan aon mhéadú sonraí ná mionchoigeartú—difríocht shuntasach ó chur chuigeanna leathmhaoirsithe atá deartha go speisialta.

Teorainneacha

Cé gur léirigh muid go bhfuil iGPT in ann gnéithe íomhá cumhachtacha a fhoghlaim, tá teorainneacha suntasacha fós lenár gcur chuige. Toisc go n-úsáidimid an trasfhoirmitheoir seicheamh ginearálta a úsáidtear do GPT‑2 i dteanga, éilíonn ár modh méideanna móra ríomhaireachta: cuireadh oiliúint ar iGPT‑L ar feadh thart ar 2500 V100-lá agus is féidir samhail MoCo24⁠ a bhfuil feidhmíocht chomhchosúil aici a oiliúint i thart ar 70 V100-lá.

Ar an gcaoi chéanna, múnlaímid ionchuir ísealtaifigh ag úsáid trasfhoirmitheora, agus úsáideann formhór na dtorthaí féinmhaoirsithe ionchódóirí bunaithe ar chomhfhilleadh ar féidir leo ionchuir ardtaifigh a ionghabháil go héasca. Seans go mbeidh gá le hailtireacht nua, amhail trasfhoirmitheoir ilscála fearann-neamhspleách, chun scála níos faide. I bhfianaise na dteorainneacha seo, feidhmíonn ár gcuid oibre go príomha mar chruthúnas coincheapa ar chumas samhlacha teanga móra bunaithe ar thrasfhoirmitheoirí léirithe neamhmhaoirsithe den scoth a fhoghlaim i bhfearainn nua, gan gá le heolas fearainn atá crua-chódaithe. Mar sin féin, cuireann an costas suntasach acmhainní chun na samhlacha seo a oiliúint agus cruinneas níos fearr modhanna bunaithe ar líonraí néaracha comhfhillte cosc ar na léirithe seo a bheith praiticiúil in iarratais fhíorshaoil sa réimse radhairc.

Ar deireadh, is féidir le samhlacha giniúna claontachtaí a léiriú mar thoradh ar na sonraí ar cuireadh oiliúint orthu. Tá go leor de na claontachtaí seo úsáideach, mar shampla glacadh leis go seasann meascán de phicteilíní donna agus glasa do bhrainse clúdaithe le duilleoga, agus ansin an claonadh sin a úsáid chun leanúint leis an íomhá. Ach beidh cuid de na claontachtaí seo díobhálach, nuair a bhreathnaítear orthu trí lionsa cothroime agus ionadaíochta. Mar shampla, má fhorbraíonn an tsamhail coincheap amhairc d’eolaí atá claonta i dtreo na bhfear, d’fhéadfadh sí íomhánna d’eolaithe a chomhlánú go comhsheasmhach le daoine a chuireann fireannacht i láthair, seachas meascán inscní. Táimid ag súil go mbeidh ar fhorbróirí níos mó airde a thabhairt ar na sonraí a chuireann siad isteach ina gcórais agus tuiscint níos fearr a fháil ar an ngaol atá acu le claontachtaí i samhlacha oilte.

Conclúid

Léirigh muid gur féidir le trasfhoirmitheoir seicheamh a bheith iomaíoch leis na líonraí comhfhillte is fearr le haghaidh rangú íomhá neamhmhaoirsithe trí eolas 2-T a mhalartú ar scála⁶⁰ agus trí ghnéithe tuarthacha a roghnú ó lár an líonra. Go háirithe, bhain muid ár dtorthaí amach trí mhúnla teanga GPT‑2 a chur i bhfeidhm go díreach ar ghiniúint íomhá. Tugann ár dtorthaí le fios, de bharr a shimplíochta agus a ghinearálta, go bhféadfadh trasfhoirmitheoir seicheamh, má tá dóthain ríomhaireachta ar fáil, a bheith ina bhealach éifeachtach sa deireadh chun gnéithe den scoth a fhoghlaim i go leor fearann.

Má tá fonn ort obair linn ar an réimse taighde seo, táimid ag earcú⁠!

Fonótaí

A
Tomhaiste trí aischéimniú lóistíoch ar ghnéithe foghlamtha (probe líneach).
B
Cuirtear trasfhoirmitheoir faoi oiliúint chun an dóchúlacht a uasmhéadú, agus mar sin clúdaíonn sé módanna, rud a chinntíonn go huathoibríoch éagsúlacht a shamplaí.
C
Tá an bunsmaoineamh anailíse trí shintéis níos cosúla le hargóint ar son samhlacha giniúna le hathróga folaigh, ach toisc go raibh samhlacha giniúna gan athróga folaigh i bhfad níos fearr ag múnlú dáileadh na sonraí, cheapamar gur cheart go mbeadh an tuairim anailíse-trí-shintéis fíor dóibh freisin.
D
Ní léirímid ach cruinneas probe líneach ar ImageNet do iGPT-XL toisc nár chríochnaigh turgnaimh eile sular ghá dúinn aistriú go saoráidí sár-ríomhaireachta eile.
E
Chun gnéithe a bhaint le haghaidh probe líneach, tógann muid ionchuir bhloic aird an iar-normála sraithe ag sraith éigin agus déanaimid meán-linn ar thoise an tseichimh.
F
Le mionchoigeartú a dhéanamh, tógann muid aschur trasfhoirmitheoir an iar-normála sraithe agus déanaimid meán-linn ar thoise an tseichimh mar ionchur don cheann rangaithe.
G
Samhail ghiniúna a fhoghlaimíonn gnéithe ar bhealach atá go hiomlán neamhmhaoirsithe.

Tagairtí

1
LeCun, Y. (2017). “Foghlaim Thuarthach⁠(osclaíonn i bhfuinneog nua).”
2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Is é an Aird gach a theastaíonn uait⁠(osclaíonn i bhfuinneog nua).” In NeurIPS 2017.
3
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). “BERT: Réamh-oiliúint Trasfhoirmitheoirí Domhain Dhéthreocha chun Teanga a Thuiscint⁠(osclaíonn i bhfuinneog nua).” réamhchló arXiv.
4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Is Foghlaimeoirí Ilthascacha Neamhmhaoirsithe iad Samhlacha Teanga⁠(osclaíonn i bhfuinneog nua).” Tuarascáil Theicniúil, OpenAI.
5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: Cur Chuige Láidir Barrfheabhsaithe maidir le Réamh-oiliúint BERT⁠(osclaíonn i bhfuinneog nua).” réamhchló arXiv.
6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “Teorainneacha an Aistrithe Foghlama a Iniúchadh le Trasfhoirmitheoir Aontaithe Téacs-go-Téacs⁠(osclaíonn i bhfuinneog nua).” réamhchló arXiv.
7
Dai, A., Le, Q. V. (2015). “Foghlaim leathmhaoirsithe seicheamh⁠(osclaíonn i bhfuinneog nua).” In NeurIPS 2015.
8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “Léirithe Focal Domhain Chomhthéacsaithe⁠(osclaíonn i bhfuinneog nua).” In NAACL 2018.
9
Howard, J., Ruder, S. (2018). “Mionchoigeartú Uilíoch Samhla Teanga le haghaidh Rangú Téacs⁠(osclaíonn i bhfuinneog nua).” In ACL 2018.
10
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “Feabhas a chur ar thuiscint teanga trí réamh-oiliúint ghiniúnach⁠(osclaíonn i bhfuinneog nua).” Tuarascáil Theicniúil, OpenAI.
11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). “Rianú siar airde scaipthe: sannadh creidiúna ama trí mheabhrú⁠(osclaíonn i bhfuinneog nua).” In NeurIPS 2018.
12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). “Creat Simplí le haghaidh Foghlaim Chodarsnach ar Léirithe Amhairc⁠(osclaíonn i bhfuinneog nua).” réamhchló arXiv.
13
Bachman, P., Hjelm, R., & Buchwalter, W. (2019). “Léirithe a fhoghlaim trí fhaisnéis fhrithpháirteach a uasmhéadú thar dhearcthaí⁠(osclaíonn i bhfuinneog nua).” In NeurIPS 2019.
14
Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): Foghlaim Ghinearálta ar Léirithe Amhairc⁠(osclaíonn i bhfuinneog nua).” réamhchló arXiv.
15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: Oiliúint Éifeachtach ar Líonraí Néaracha Ollmhóra ag Úsáid Comhthreomhaireacht Píblíne⁠(osclaíonn i bhfuinneog nua).” In NeurIPS 2019.
16
Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). “Sonraí neamh-idirdhealaitheacha nó samhail lag? Maidir le tábhacht choibhneasta sonraí agus taifeach samhla⁠(osclaíonn i bhfuinneog nua).” In ICCV 2019.
17
Lasserre, J., Bishop, C., & Minka, T. P. (2006). “Hibridí Prionsabálta de Shamhlacha Giniúna agus Idirdhealaitheacha⁠(osclaíonn i bhfuinneog nua).” In CVPR 2006.
18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). “Cén fáth a gcabhraíonn réamh-oiliúint neamhmhaoirsithe le domhainfhoghlaim?⁠(osclaíonn i bhfuinneog nua).” In JMLR 2010.
19
Elman, J. (1990). “Struchtúr a Aimsiú in Am⁠(osclaíonn i bhfuinneog nua).” In Cognitive Science 1990.
20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Samhail teanga bunaithe ar líonra néarach athfhillteach⁠(osclaíonn i bhfuinneog nua).” In INTERSPEECH-2010.
21
Larochelle, H., Murray, I. (2011). “An meastóir dáileacháin néarach uath-aischéimnitheach⁠(osclaíonn i bhfuinneog nua).” In AISTATS 2011.
22
Graves, A. (2013). “Seichimh a ghiniúint le líonraí néaracha athfhillteacha⁠(osclaíonn i bhfuinneog nua).” réamhchló arXiv.
23
Tian, Y., Krishnan, D., & Isola, P. (2019). “Códú ildearcadh codarsnach⁠(osclaíonn i bhfuinneog nua).” réamhchló arXiv.
24
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). “Codarsnacht Móiminteam le haghaidh Foghlaim Léirithe Amhairc Neamhmhaoirsithe⁠(osclaíonn i bhfuinneog nua).” réamhchló arXiv.
25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Aitheantas Íomhá atá Éifeachtúil ó thaobh Sonraí de le Códú Tuarthach Codarsnach⁠(osclaíonn i bhfuinneog nua).” réamhchló arXiv.
26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Líonraí néaracha athfhillteacha picteilíní⁠(osclaíonn i bhfuinneog nua).” réamhchló arXiv.
27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Trasfhoirmitheoir íomhá⁠(osclaíonn i bhfuinneog nua).” In ICML 2018.
28
Menick, J., Kalchbrenner, N. (2018). “Íomhánna Ard-Dhílseachta a Ghiniúint le Líonraí Picteilíní Fo-scála agus Arduaschálú Iltoiseach⁠(osclaíonn i bhfuinneog nua).” réamhchló arXiv.
29
Mumford, D. (1992). “Ar ailtireacht ríomhaireachtúil an neocortex⁠(osclaíonn i bhfuinneog nua).” In Biol. Cybern.
30
Rao, R., Ballard, D. (1999). “Códú tuarthach sa cortex radhairc: léirmhíniú feidhmiúil ar chuid d’éifeachtaí réimse-glactha seach-chlasaiceacha⁠(osclaíonn i bhfuinneog nua).” In Nature Neuroscience.
31
Smolensky, P. (1986). “Próiseáil faisnéise i gcórais dhinimiciúla: Bunchlocha theoiric na comhchuibhis⁠(osclaíonn i bhfuinneog nua).”
32
Hinton, G. (2002). “Oiliúint ar Products of Experts trí Éagsúlacht Chodarsnach a Íoslaghdú⁠(osclaíonn i bhfuinneog nua).” In MIT Press.
33
Hinton, G., Osindero, S., & Teh, Y. (2006). “Algartam foghlama tapa do líonraí creidimh domhain⁠(osclaíonn i bhfuinneog nua).” In Neural Computation.
34
Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). “Gnéithe láidre a bhaint agus a chomhchóiriú le huath-ionchódóirí díthorannaithe⁠(osclaíonn i bhfuinneog nua).” In ICML 2008.
35
Coates, A., Lee, H., & Ng, A. Y. (2011). “Anailís ar líonraí aon-sraithe i bhfoghlaim gné neamhmhaoirsithe⁠(osclaíonn i bhfuinneog nua).” In AISTATS 2011.
36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “Gnéithe ardleibhéil a thógáil ag úsáid foghlaim neamhmhaoirsithe ar scála mór⁠(osclaíonn i bhfuinneog nua).” In ICML 2012.
37
Donahue, J., Simonyan, K. (2019). “Foghlaim léirithe achrannaí ar scála mór⁠(osclaíonn i bhfuinneog nua).” In NeurIPS 2019.
38
Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). “Sáraíonn Líonraí Néaracha Móra Simplí Domhain i nAithint Lámhscríofa Digití⁠(osclaíonn i bhfuinneog nua).” In CoRR 2010.
39
Shaw, P., Uszkoreit, J., & Vaswani A. (2018). “Féin-aird le léirithe suímh coibhneasta⁠(osclaíonn i bhfuinneog nua).” In NAACL 2018.
40
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “Seichimh fhada a ghiniúint le trasfhoirmitheoirí scaipthe⁠(osclaíonn i bhfuinneog nua).” réamhchló arXiv.
41
Becker, S., Hinton, G. (1991). “Líonra néarach féin-eagraithe a aimsíonn dromchlaí i steiréagramanna randamhdot⁠(osclaíonn i bhfuinneog nua).” In Nature.
42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). “Fíorú sínithe ag úsáid líonra néarach moille ama “siamese”⁠(osclaíonn i bhfuinneog nua).” In NeurIPS 1994.
43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). “Léirithe Dáilte Focal agus Frásaí agus a gComhdhéanamh⁠(osclaíonn i bhfuinneog nua).” In NeurIPS 2013.
44
Oord, A., Li, Y., Vinyals, O. (2018). “Foghlaim Léirithe le Códú Tuarthach Codarsnach⁠(osclaíonn i bhfuinneog nua).” réamhchló arXiv.
45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Léirithe domhain a fhoghlaim trí mheas agus uasmhéadú faisnéise frithpháirtí⁠(osclaíonn i bhfuinneog nua).” In ICLR 2019.
46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). “Innealtóireacht réasúnach próitéine aontaithe le foghlaim dhomhain ar léiriú seicheamh-amháin⁠(osclaíonn i bhfuinneog nua).” In Nature Methods.
47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). “Tagann Struchtúr agus Feidhm Bhitheolaíoch chun Cinn trí Fhoghlaim Neamhmhaoirsithe a Scálú go 250 Milliún Seicheamh Próitéine⁠(osclaíonn i bhfuinneog nua).” réamhchló bioRxiv.
48
Torralba, A., Fergus, R., Freeman, W. (2008). “80 milliún íomhá bheaga: tacar sonraí mór le haghaidh aithint neamhpharaiméadrach réad agus radhairc⁠(osclaíonn i bhfuinneog nua).” In IEEE transactions on pattern analysis and machine intelligence.
49
“Liosta de Ghrafaic Chrua-earraí Ríomhaire 8-Giotán⁠(osclaíonn i bhfuinneog nua).” Wikipedia, 8 Bealtaine 2020
50
Kornblith, S., Shlens, J., & Le, Q. V. (2019). “An aistríonn Samhlacha ImageNet Níos Fearr níos Fearr?⁠(osclaíonn i bhfuinneog nua).” In CVPR 2019.
51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: Straitéisí Méadaithe a Fhoghlaim ó Shonraí⁠(osclaíonn i bhfuinneog nua).” In CVPR 2019.
52
Tan, M., Le, Q. V. (2019). “EfficientNet: Athsmaoineamh ar Scálú Samhlacha do Líonraí Néaracha Comhfhillte⁠(osclaíonn i bhfuinneog nua).” In ICML 2019.
53
Gidaris, S., Singh, P., & Komodakis, N. (2018). “Foghlaim Léirithe Neamhmhaoirsithe trí Rothlú Íomhá a Thuar⁠(osclaíonn i bhfuinneog nua).” In ICLR 2018.
54
Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). “Foghlaim Leathmhaoirsithe le Samhlacha Domhain Giniúna⁠(osclaíonn i bhfuinneog nua).” In NeurIPS 2014.
55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “Teicnící feabhsaithe chun GANanna a oiliúint⁠(osclaíonn i bhfuinneog nua).” In NeurIPS 2016.
56
Tarvainen, A., Valpola, H. (2017). “Is eiseamláirí níos fearr iad múinteoirí meánacha: feabhsaíonn spriocanna comhsheasmhachta meánmheáchain torthaí domhainfhoghlama leathmhaoirsithe⁠(osclaíonn i bhfuinneog nua).” In NeurIPS 2017.
57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: Cur Chuige Iomlánaíoch i leith Foghlaim Leathmhaoirsithe⁠(osclaíonn i bhfuinneog nua).” In NeurIPS 2019.
58
Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). “Méadú Sonraí Neamhmhaoirsithe le haghaidh Oiliúna Comhsheasmhachta⁠(osclaíonn i bhfuinneog nua).” réamhchló arXiv.
59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: foghlaim leathmhaoirsithe a shimpliú le comhsheasmhacht agus muinín⁠(osclaíonn i bhfuinneog nua).” réamhchló arXiv.
60
Sutton, R. (2019). “An Ceacht Seirbh⁠(osclaíonn i bhfuinneog nua).”

Údair

Mark Chen, Alec Radford, Ilya Sutskever

Buíochais

Ar dtús báire, ba mhaith linn ár gcomhúdair páipéir Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, agus David Luan a aithint.

Buíochas leis na daoine seo a leanas as aiseolas ar an obair seo agus as rannchuidithe leis an eisiúint seo: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le, agus Ashish Vaswani.

Eagarthóir: Ashley Pilipiszyn

Dearadh: Justin Jay Wang

Ealaín an chlúdaigh: Ben Barry