2020 ж. 17 маусым

Image GPT

Мақаланы оқу Кодты қарау ICML 2020 мақаласы (V1)

Illustration: Ben Barry

Жүктелуде…

Тілде үйретілген үлкен трансформер модель қалай үйлесімді мәтін жасай алса, дәл сондай пиксель тізбектерінде үйретілген сол модель де үйлесімді сурет толықтыруларын⁠ және үлгілерін⁠ жасай алатынын байқадық. Үлгі сапасы мен суретті жіктеу дәлдігі арасындағы байланысты орнатып, ең жақсы генеративті модельімізде де бақылаусыз жағдайда үздік конволюциялық желілермен бәсекелесе алатын белгілер бар екенін көрсетеміз.

Кіріспе

Бақылаусыз және өзіндік бақылаулы оқыту¹ немесе адам белгілеген деректерсіз оқыту — машиналық оқытудың бұрыннан келе жатқан күрделі міндеті. Жуырда бұл бағыт тілде керемет табысқа жетті, өйткені BERT,³ GPT‑2,⁴ RoBERTa,⁵ T5⁶ және басқа нұсқалар^{7, 8, 9, 10} сияқты трансформер² модельдері тілдік тапсырмалардың кең ауқымында үздік нәтиже көрсетті. Алайда дәл осы модельдер тобы суретті жіктеу үшін мықты белгілер жасауда табысты болмады.¹¹ Біздің жұмыс осы алшақтықты түсінуге және жоюға бағытталған.

BERT және GPT‑2 сияқты трансформер модельдері доменге тәуелсіз, яғни оларды кез келген түрдегі 1-D тізбектерге тікелей қолдануға болады. Ұзын пиксель тізбектеріне жайылған суреттерде GPT‑2‑ні үйреткенде, біз оны iGPT деп атаймыз, модель нысанның сыртқы көрінісі мен санаты сияқты 2-D сурет сипаттарын түсінетіндей көрінеді. Бұған ол адам берген белгілердің нұсқауынсыз-ақ жасайтын үйлесімді сурет үлгілерінің алуан түрлі ауқымы дәлел болады. Қосымша дәлел ретінде, модельден алынған белгілер бірнеше жіктеу деректер жиындарында қазіргі үздік өнімділікке және ImageNet-та қазіргі үздікке жуық бақылаусыз дәлдікке^A жетеді.

Бағалау	Деректер жиыны	Біздің нәтиже	iGPT емес ең жақсы нәтиже
Үйренілген белгілерге логистикалық регрессия (сызықтық зонд)	CIFAR-10	96.3 iGPT‑L 32x32, 1536 белгімен	95.3 SimCLR¹²⁠, 8192 белгімен
	CIFAR-100	82.8 iGPT‑L 32x32, 1536 белгімен	80.2 SimCLR, 8192 белгімен
	STL-10	95.5 iGPT‑L 32x32, 1536 белгімен	94.2 AMDIM¹³⁠, 8192 белгімен
	ImageNet	72.0 iGPT‑XL^a⁠ 64x64, 15360 белгімен	76.5 SimCLR, 8192 белгімен
Толық дәлдеп баптау	CIFAR-10	99.0 iGPT‑L 32x32, ImageNet-те үйретілген	99.0^b⁠ GPipe,¹⁴⁠ ImageNet-те үйретілген
	ImageNet 32x32	66.3 iGPT‑L 32x32	70.2 Isometric Nets¹⁵⁠

Біз ImageNet бойынша сызықтық зонд дәлдігін тек iGPT‑XL үшін ғана көрсетеміз, өйткені басқа тәжірибелер бізге басқа суперкомпьютерлік инфрақұрылымға көшу қажет болғанға дейін аяқталмады.
JFT-та (18K классы бар 300M сурет) үйретілген Bit-L 99.3 нәтиже көрсетті.

Жалпы мақсаттағы бақылаусыз оқыту алгоритмі ретінде генеративті^{17 және 18} тізбекті модельдеудің^{19, 20, 21, 22} әлеуетін айқындау үшін, біз әдейі тілдегі GPT‑2‑мен бірдей трансформер архитектурасын қолданамыз. Соның салдары ретінде, үздік бақылаусыз конволюциялық желілердің белгілерімен бәсекелесе алатын белгілер шығару үшін бізге едәуір көбірек есептеу қажет.^{13, 23, 24, 25, 12} Алайда нәтижелеріміз дұрыс модель априорлары белгісіз жаңа доменде үлкен GPT‑2 доменге тән^{26, 27, 28} архитектуралық жобалау шешімдерінсіз-ақ тамаша белгілерді үйрене алатынын көрсетеді.

Жүктелуде...

Тілдегі GPT-ден сурет GPT-ге

Тілде сөзді болжауға сүйенетін бақылаусыз оқыту алгоритмдері (GPT‑2 және BERT сияқты) өте табысты болды және тілдік тапсырмалардың кең ауқымында үздік нәтиже көрсетті. Мұндай табыстың ықтимал себептерінің бірі — кейінгі тілдік тапсырмалардың мысалдары мәтінде табиғи түрде кездеседі: сұрақтардың артынан жиі жауаптар келеді (бұл сұрақ-жауапқа көмектесуі мүмкін), ал үзінділердің артынан жиі қысқаша мазмұндар беріледі (бұл қысқаша мазмұндауға көмектесуі мүмкін). Керісінше, пиксель тізбектерінде олардың қай суретке тиесілі екенін көрсететін белгілер анық қамтылмайды.

Тіпті мұндай айқын қадағалау болмаса да, суреттердегі GPT‑2 неліктен жұмыс істеуі мүмкін екеніне бір себеп бар: келесі пиксельді болжауға үйретілген жеткілікті үлкен трансформер ақырында анық танылатын нысандары бар алуан түрлі^B үлгілерді жасауды үйренуі мүмкін. Мұны үйренген соң, «Синтез арқылы талдау»^{29, 30, C} деп аталатын идея модель нысан санаттары туралы да білетінін болжайды. Көптеген ерте генеративті модельдер^{31, 32, 33, 34, 35, 36} осы идеямен шабыттанған, ал жуырда BigBiGAN³⁷ үміт күттіретін үлгілер мен белгілер көрсеткен мысал болды. Біздің жұмысымызда алдымен жақсырақ генеративті модельдер күштірек жіктеу өнімділігіне жеткізетінін көрсетеміз. Содан кейін GPT‑2‑ні генеративті қабілеттер үшін оңтайландыру арқылы көптеген жағдайларда жоғары деңгейлі жіктеу өнімділігіне жетеміз, бұл synthesis арқылы талдауға қосымша дәлел береді.

Жалпы бақылаусыз оқытуға қарай

Генеративті тізбекті модельдеу — әмбебап бақылаусыз оқыту алгоритмі: барлық дерек түрлерін байт тізбектері ретінде көрсетуге болатындықтан, трансформерді қосымша инженериясыз кез келген дерек түріне тікелей қолдануға болады. Біздің жұмыс осы жалпылықтың қуатын GPT‑2‑ні табиғи тілде үйретуге қолданылған архитектураны тікелей суретті генерациялауға пайдалану арқылы сынайды. Біз convolutions³⁸ немесе relative attention³⁹, sparse attention⁴⁰ және 2-D position embeddings²⁷ сияқты әдістер түріндегі суретке тән білімді қолмен кодтаудан әдейі бас тарттық.

Осы жалпылықтың салдары ретінде, біздің әдіс бақылаусыз жағдайда бәсекелі өнімділікке жету үшін едәуір көбірек есептеуді талап етеді. Шынында, контрастивті әдістер^{41, 42, 43, 44, 45, 13, 23, 24, 25, 12} әлі де суреттерден жоғары сапалы белгілер алудың есептеу тұрғысынан ең тиімді тәсілдері болып қала береді. Алайда бақылаусыз трансформер моделінің ең жақсы бақылаусыз конволюциялық желілермен^{24, 25, 12} бәсекеге қабілетті екенін көрсету арқылы біз қолмен кодталған домендік білімді есептеумен алмастыруға болатынына дәлел келтіреміз. Қолмен кодтайтын білім аз болатын жаңа домендерде^{46 және 47} есептеуді ауқымдау сынап көруге лайықты тәсіл сияқты көрінеді.

Тәсіл

Біз ImageNet-те тиісінше 76M, 455M және 1.4B параметрлері бар iGPT‑S, iGPT‑M және iGPT‑L трансформерлерін үйретеміз. Сондай-ақ ImageNet пен вебтегі суреттер қоспасында 6.8 миллиард параметрі бар трансформер iGPT‑XL^D моделін де үйретеміз. Тығыз attention көмегімен ұзын тізбектерді модельдеудің жоғары есептеу құнына байланысты біз 32x32, 48x48 және 64x64 сияқты төмен айырымдылықтарда үйретеміз.

Есептеу құнын одан әрі азайту үшін бұдан да төмен айырымдылықтарда жұмыс істеу тартымды көрінгенімен, алдыңғы жұмыстар мұндай өлшемдерден төмендегенде адамдардың суретті жіктеу өнімділігі күрт төмендей бастайтынын көрсетті.⁴⁸ Оның орнына, ертеректегі түсті дисплей палитраларынан шабыттанып,⁴⁹ біз пиксельдерді көрсету үшін өзіміздің 9-биттік түстер палитрасын жасаймыз. Бұл палитра стандартты (R, G, B) палитрасымен салыстырғанда кіріс тізбегінің ұзындығын 3 есе қысқартады, сонымен бірге түсті дәл сақтайды.

Эксперимент нәтижелері

Модель өнімділігін бағалау үшін біз екі әдісті қолданамыз, екеуі де кейінгі жіктеу тапсырмасын қамтиды. Біріншісі, біз оны сызықтық зонд деп атаймыз, үйретілген модельді пайдаланып кейінгі деректер жиынындағы суреттерден белгілерді^E шығарады, содан кейін белгілерге логистикалық регрессияны сәйкестендіреді. Екінші әдіс бүкіл модельді кейінгі деректер жиынында дәлдеп баптайды^F.

Келесі пиксельді болжау суретті жіктеуге тікелей қатысты емес болғандықтан, соңғы қабаттағы белгілер нысан санатын болжауда ең тиімді болмауы мүмкін. Біздің алғашқы нәтижеміз белгі сапасы тереңдік артқан сайын күрт өсіп, кейін сәл төмендейтін функция екенін көрсетеді. Бұл мінез-құлық трансформерге негізделген генеративті модель екі кезеңде жұмыс істейтінін меңзейді: бірінші кезеңде әр позиция контекстке тәуелді сурет белгісін құрастыру үшін айналасындағы контекстен ақпарат жинайды. Екінші кезеңде осы контекстке тәуелді белгі шартты келесі пиксельді болжау тапсырмасын шешу үшін қолданылады. Сызықтық зондтарымыздағы байқалған екі сатылы өнімділік басқа бір бақылаусыз нейрондық желіні, яғни bottleneck autoencoder-ді еске салады, ол арадағы белгілер қолданылатындай етіп қолмен жобаланған.

Жүктелуде...

Келесі нәтижеміз генеративті өнімділік пен белгі сапасы арасындағы байланысты анық көрсетеді. Модельдеріміздің ауқымын ұлғайту да, оларды көбірек итерация бойы үйрету де генеративті өнімділікті жақсартатынын, ал бұл тікелей жақсырақ белгі сапасына әкелетінін байқадық.

Жүктелуде...

CIFAR-10, CIFAR-100 және STL-10 бойынша белгілерімізді сызықтық зондтар арқылы бағалағанда, біз қадағаланатын да, бақылаусыз тасымалдау алгоритмдерінің де барлық белгілерінен жақсы нәтиже көрсетеміз. Нәтижелеріміз толық дәлдеп баптау жағдайында да өте сенімді.

			ImageNet-те алдын ала үйретілген
Бағалау	Модель	Дәлдік	белгісіз	белгімен
CIFAR-10 Сызықтық зонд	ResNet-152⁵⁰	94.0		✔
	SimCLR¹²	95.3	✔
	iGPT‑L 32x32	96.3	✔	✔
CIFAR-100 Сызықтық зонд	ResNet-152	78.0		✔
	SimCLR	80.2	✔
	iGPT‑L 32x32	82.8	✔
STL-10 Сызықтық зонд	AMDIM-L	94.2	✔
	iGPT‑L 32x32	95.5	✔
CIFAR-10 Дәлдеп баптау	AutoAugment	98.5
	SimCLR	98.6	✔
	GPipe	99.0		✔
	iGPT‑L	99.0	✔
CIFAR-100 Дәлдеп баптау	iGPT‑L	88.5	✔
	SimCLR	89.0	✔
	AutoAugment	89.3
	EfficientNet⁵²	91.7		✔

Біздің модельдер мен ImageNet-ті бақылаусыз не қадағаланатын тасымалдауды пайдаланатын үздік модельдер арасындағы сызықтық зонд және дәлдеп баптау дәлдіктерін салыстыру. Сондай-ақ CIFAR-да басынан аяғына дейін үйретілген ең жақсы модель AutoAugment-ті де қостық.

ImageNet бойынша бақылаусыз және өзіндік бақылаулы оқытуға қызығушылықтың қайта жанданғанын ескере отырып, біз модельдеріміздің өнімділігін ImageNet-те сызықтық зондтармен де бағалаймыз. Бұл ерекше қиын жағдай, өйткені біз стандартты ImageNet кіріс айырымдылығында үйретпейміз. Соған қарамастан, 48x48 суреттерде үйретілген iGPT‑L моделінің ең жақсы қабатынан алынған 1536 белгіге жасалған сызықтық зонд 65.2% top-1 дәлдік беріп, AlexNet-тен озады.

Контрастивті әдістер әдетте ең жақсы нәтижелерін 8192 белгі бойынша хабарлайды, сондықтан салыстыру үшін iGPT‑ті ideally 8192 embedding dimension-мен бағалар едік. Алайда мұндай модельді үйрету шамадан тыс қымбат, сондықтан оның орнына жуықтау ретінде бірнеше қабаттағы белгілерді біріктіреміз. Өкінішке қарай, белгілеріміз қабаттар арасында өзара корреляцияланған, сондықтан бәсекеге қабілетті болу үшін олар көбірек керек. iGPT‑XL моделіндегі 5 қабаттан алынған 15360 белгі 72.0% top-1 дәлдік береді, бұл AMDIM, MoCo және CPC v2-ден жоғары, бірақ әлі де SimCLR-ден айтарлықтай қалып қояды.

Әдіс	Кіріс айырымдылығы	Белгілер	Параметрлер	Дәлдік
Rotation⁵³	original	8192	86M	55.4
iGPT‑L	32x32	1536	1362M	60.3
BigBiGAN³⁷	original	16384	86M	61.3
iGPT‑L	48x48	1536	1362M	65.2
AMDIM¹³	original	8192	626M	68.1
MoCo²⁴	original	8192	375M	68.6
iGPT‑XL	64x64	3072	6801M	68.7
SimCLR¹²	original	2048	24M	69.3
CPC v2²⁵	original	4096	303M	71.5
iGPT‑XL	64x64	3072 x 5	6801M	72.0
SimCLR	original	8192	375M	76.5

Біздің модельдер мен өзіндік бақылаулы үздік модельдер арасындағы сызықтық зонд дәлдіктерін салыстыру. Біз әлдеқайда төмен кіріс айырымдылығында үйретсек те, бәсекеге қабілетті нәтижеге жетеміз, бірақ біздің әдіс көбірек параметр мен есептеуді талап етеді.

BERT сияқты маскаланған тілдік модельдер тілдік тапсырмалардың көбінде генеративті модельдерден озып шыққандықтан, біз BERT-тің сурет модельдеріміздегі өнімділігін де бағалаймыз. Модельді барлық алдыңғы пиксельдер берілгенде келесі пиксельді болжауға үйретудің орнына, пиксельдердің 15%-ын маскалап, модельді оларды маскаланбағандардан болжауға үйретеміз. Сызықтық зонд өнімділігі BERT модельдерінде едәуір нашар болғанымен, олар дәлдеп баптау кезінде өте жақсы нәтиже көрсететінін анықтадық:

Жүктелуде...

Бақылаусыз оқыту адам белгілеген деректерді қажет етпей-ақ тамаша белгілерді уәде еткенімен, жуырда адам белгілеген деректің шектеулі көлеміне рұқсат беретін жартылай бақылаулы оқытудың неғұрлым икемді шеңберінде елеулі ілгерілеу болды. Табысты жартылай бақылаулы әдістер көбіне бірізділікті реттеу, деректерді кеңейту немесе жалған белгілеу сияқты ұтымды тәсілдерге сүйенеді, ал таза генеративті тәсілдерге^{54 және 55} негізделген әдістер бірнеше жыл бойы бәсекеге қабілетті болмады. Біз iGPT‑L^G моделін осы қосалқы салаға арналған бәсекелі бенчмаркте бағалап, кеңейтілмеген суреттерден алынған белгілерге арналған қарапайым сызықтық зонд Mean Teacher⁵⁶ және MixMatch-тен озып түсетінін, бірақ FixMatch-тен⁵⁹ қалып қоятынын анықтадық.

Модель	40 белгі	250 белгі	4000 белгі
Improved GAN⁵⁵	—	—	81.4 ± 2.3
Mean Teacher⁵⁶	—	67.7 ± 2.3	90.8 ± 0.2
MixMatch⁵⁷	52.5 ± 11.5	89.0 ± 0.9	93.6 ± 0.1
iGPT‑L	73.2 ± 01.5	87.6 ± 0.6	94.3 ± 0.1
UDA⁵⁸	71.0 ± 05.9	91.2 ± 1.1	95.1 ± 0.2
FixMatch⁵⁹ RA	86.2 ± 03.4	94.9 ± 0.7	95.7 ± 0.1
FixMatch CTA	88.6 ± 03.4	94.9 ± 0.3	95.7 ± 0.2

CIFAR-10 үшін аз деректі жағдайда өнімділікті салыстыру. Көптеген белгіленбеген ImageNet суреттерін пайдалану арқылы iGPT‑L Mean Teacher және MixMatch сияқты әдістерден оза алады, бірақ әлі де қазіргі үздік әдістерден қалып қояды. Біздің жартылай бақылаулы оқыту тәсіліміз өте қарапайым, өйткені біз iGPT‑L белгілеріне деректерді кеңейтусіз де, дәлдеп баптаусыз да тек логистикалық регрессия жіктеуішін сәйкестендіреміз — бұл арнайы жасалған жартылай бақылаулы тәсілдерден елеулі айырмашылық.

Шектеулер

iGPT қуатты сурет белгілерін үйрене алатынын көрсеткенімізбен, біздің тәсілде әлі де елеулі шектеулер бар. Тілдегі GPT‑2 үшін қолданылатын жалпы тізбекті трансформерді пайдаланғандықтан, біздің әдіс көп есептеу ресурсын талап етеді: iGPT‑L шамамен 2500 V100-күн үйретілді, ал ұқсас нәтиже көрсететін MoCo24⁠ моделі шамамен 70 V100-күнде үйретіле алады.

Соған байланысты, біз төмен айырымдылықтағы кірістерді трансформер арқылы модельдейміз, ал өзіндік бақылауға негізделген нәтижелердің көбі жоғары айырымдылықтағы кірістерді оңай қабылдай алатын конволюциялық энкодерлерді қолданады. Одан әрі ауқымдауға доменге тәуелсіз көпмасштабты трансформер сияқты жаңа архитектура қажет болуы мүмкін. Осы шектеулерді ескерсек, біздің жұмысымыз ең алдымен үлкен трансформерге негізделген тілдік модельдердің қатаң кодталған домендік білімді қажет етпей, жаңа домендерде тамаша бақылаусыз ұсынылымдарды үйрене алу қабілетінің proof-of-concept көрсетілімі қызметін атқарады. Алайда бұл модельдерді үйретудің елеулі ресурс құны және конволюциялық нейрондық желілерге негізделген әдістердің жоғарырақ дәлдігі бұл ұсынылымдарды көру саласындағы нақты практикалық қолданбаларда пайдалануға мүмкіндік бермейді.

Соңында, генеративті модельдер үйретілген деректерінің салдары болып табылатын бұрмалануларды көрсетуі мүмкін. Бұл бұрмаланулардың көбі пайдалы, мысалы қоңыр және жасыл пиксельдердің үйлесімі жапырақ жапқан бұтақты білдіреді деп болжап, осы бұрмалауды суретті жалғастыру үшін қолдану. Бірақ әділдік пен ұсынылым тұрғысынан қарағанда, олардың кейбірі зиянды болады. Мысалы, егер модельде ғалымның визуалды түсінігі ер адамдар жағына ауытқыса, онда ол ғалымдардың суреттерін жыныстар аралас құраммен емес, ер адам кейпіндегі адамдармен жүйелі түрде толықтыруы мүмкін. Әзірлеушілер өз жүйелеріне беретін деректерге көбірек назар аударып, оның үйретілген модельдердегі бұрмаланулармен қалай байланысты екенін жақсырақ түсінуі қажет болады деп күтеміз.

Қорытынды

Біз 2-D білімді ауқымға⁶⁰ айырбастау және желінің ортасынан болжамдық белгілерді таңдау арқылы тізбекті трансформер бақылаусыз сурет жіктеуінде үздік конволюциялық желілермен бәсекелесе алатынын көрсеттік. Ең маңыздысы, нәтижелерге GPT‑2 тілдік моделін тікелей суретті генерациялауға қолдану арқылы жеттік. Нәтижелеріміз жеткілікті есептеу берілген жағдайда, қарапайымдылығы мен жалпылығының арқасында тізбекті трансформер ақыр соңында көптеген домендерде тамаша белгілерді үйренудің тиімді жолы болуы мүмкін екенін көрсетеді.

Егер сіз бізбен осы зерттеу бағыты бойынша жұмыс істеуге ынталы болсаңыз, бізге мамандар керек⁠!

Түсіндірме ескертпелер

A
Үйренілген белгілерге логистикалық регрессия арқылы өлшенген (сызықтық зонд).
B
Трансформер ықтималдықты барынша арттыру үшін үйретіледі, сондықтан mode covering қасиетіне ие болады, бұл оның үлгілерінің алуан түрлілігін автоматты түрде қамтамасыз етеді.
C
Синтез арқылы талдаудың бастапқы идеясы жасырын айнымалылары бар генеративті модельдерге көбірек дәлел болатын, бірақ жасырын айнымалылары жоқ генеративті модельдер деректер таралуын әлдеқайда жақсырақ модельдегендіктен, analysis-by-synthesis болжамы оларға да қолданылуы керек деп ойладық.
D
Біз ImageNet бойынша iGPT-XL үшін тек сызықтық зонд дәлдігін ғана көрсетеміз, өйткені басқа тәжірибелер бізге басқа суперкомпьютерлік инфрақұрылымға көшу қажет болғанға дейін аяқталмады.
E
Сызықтық зонд үшін белгілерді шығару мақсатында біз кейбір қабаттағы post layernorm attention block кірістерін алып, тізбек өлшемі бойынша average pool қолданамыз.
F
Дәлдеп баптау үшін post layernorm transformer output мәнін алып, оны жіктеу басына кіріс ретінде тізбек өлшемі бойынша average pool жасаймыз.
G
Белгілерді таза бақылаусыз түрде үйренетін генеративті модель.

Әдебиеттер

1
LeCun, Y. (2017). “Болжамдық оқыту⁠(жаңа терезеде ашылады).”
2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Назардан басқа ештеңе керек емес⁠(жаңа терезеде ашылады).” NeurIPS 2017.
3
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). “BERT: тілді түсінуге арналған терең екібағытты трансформерлерді алдын ала үйрету⁠(жаңа терезеде ашылады).” arXiv preprint.
4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Тілдік модельдер — бақылаусыз көптапсырмалы үйренушілер⁠(жаңа терезеде ашылады).” Technical Report, OpenAI.
5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: BERT-ті алдын ала үйретудің сенімді оңтайландырылған тәсілі⁠(жаңа терезеде ашылады).” arXiv preprint.
6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “Біртұтас мәтіннен мәтінге трансформермен тасымалды оқытудың шектерін зерттеу⁠(жаңа терезеде ашылады).” arXiv preprint.
7
Dai, A., Le, Q. V. (2015). “Жартылай бақылаулы тізбекті оқыту⁠(жаңа терезеде ашылады).” NeurIPS 2015.
8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “Терең контекстке тәуелді сөздік ұсынылымдар⁠(жаңа терезеде ашылады).” NAACL 2018.
9
Howard, J., Ruder, S. (2018). “Мәтінді жіктеуге арналған әмбебап тілдік модельді дәлдеп баптау⁠(жаңа терезеде ашылады).” ACL 2018.
10
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “Генеративті алдын ала үйрету арқылы тілді түсінуді жақсарту⁠(жаңа терезеде ашылады).” Technical Report, OpenAI.
11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). “Сирек attentive backtracking: еске салу арқылы уақыттық credit assignment⁠(жаңа терезеде ашылады).” NeurIPS 2018.
12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). “Көрнекі ұсынылымдарды контрастивті үйренуге арналған қарапайым құрылым⁠(жаңа терезеде ашылады).” arXiv preprint.
13
Bachman, P., Hjelm, R., & Buchwalter, W. (2019). “Көріністер арасында өзара ақпаратты барынша арттыру арқылы ұсынылымдарды үйрену⁠(жаңа терезеде ашылады).” NeurIPS 2019.
14
Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): жалпы көрнекі ұсынылымдарды үйрену⁠(жаңа терезеде ашылады).” arXiv preprint.
15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: pipeline parallelism көмегімен алып нейрондық желілерді тиімді үйрету⁠(жаңа терезеде ашылады).” NeurIPS 2019.
16
Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). “Дискриминативті емес дерек пе, әлсіз модель ме? Дерек пен модель айырымдылығының салыстырмалы маңыздылығы туралы⁠(жаңа терезеде ашылады).” ICCV 2019.
17
Lasserre, J., Bishop, C., & Minka, T. P. (2006). “Генеративті және дискриминативті модельдердің қағидатты гибридтері⁠(жаңа терезеде ашылады).” CVPR 2006.
18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). “Неліктен бақылаусыз алдын ала үйрету терең оқытуға көмектеседі?⁠(жаңа терезеде ашылады).” JMLR 2010.
19
Elman, J. (1990). “Уақыттағы құрылымды табу⁠(жаңа терезеде ашылады).” Cognitive Science 1990.
20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Қайталанатын нейрондық желіге негізделген тілдік модель⁠(жаңа терезеде ашылады).” In INTERSPEECH-2010.
21
Larochelle, H., Murray, I. (2011). “Нейрондық авторегрессиялық үлестірім бағалаушысы⁠(жаңа терезеде ашылады).” AISTATS 2011.
22
Graves, A. (2013). “Қайталанатын нейрондық желілермен тізбектерді генерациялау⁠(жаңа терезеде ашылады).” arXiv preprint.
23
Tian, Y., Krishnan, D., & Isola, P. (2019). “Контрастивті көпкөріністі кодтау⁠(жаңа терезеде ашылады).” arXiv preprint.
24
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). “Бақылаусыз көрнекі ұсынылымдарды үйренуге арналған импульстік контраст⁠(жаңа терезеде ашылады).” arXiv preprint.
25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Контрастивті болжамдық кодтау арқылы дерекке тиімді сурет тану⁠(жаңа терезеде ашылады) .” arXiv preprint.
26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Пиксельдік қайталанатын нейрондық желілер⁠(жаңа терезеде ашылады).” arXiv preprint.
27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer⁠(жаңа терезеде ашылады).” ICML 2018.
28
Menick, J., Kalchbrenner, N. (2018). “Subscale Pixel Networks және көпөлшемді upscaling арқылы жоғары дәлдікті суреттерді генерациялау⁠(жаңа терезеде ашылады).” arXiv preprint.
29
Mumford, D. (1992). “Неокортекстің есептеу архитектурасы туралы⁠(жаңа терезеде ашылады).” Biol. Cybern.
30
Rao, R., Ballard, D. (1999). “Көру қыртысындағы болжамдық кодтау: кейбір extra-classical receptive-field effects құбылыстарының функционалдық түсіндірмесі⁠(жаңа терезеде ашылады).” Nature Neuroscience.
31
Smolensky, P. (1986). “Динамикалық жүйелердегі ақпаратты өңдеу: harmony theory негіздері⁠(жаңа терезеде ашылады).”
32
Hinton, G. (2002). “Контрастивті дивергенцияны азайту арқылы Products of Experts-ті үйрету⁠(жаңа терезеде ашылады).” MIT Press.
33
Hinton, G., Osindero, S., & Teh, Y. (2006). “Терең сенім желілеріне арналған жылдам оқыту алгоритмі⁠(жаңа терезеде ашылады).” Neural Computation.
34
Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). “Шумен жойылатын autoencoder-лер арқылы берік белгілерді шығару және құрастыру⁠(жаңа терезеде ашылады).” ICML 2008.
35
Coates, A., Lee, H., & Ng, A. Y. (2011). “Бақылаусыз белгі үйренудегі бір қабатты желілерді талдау⁠(жаңа терезеде ашылады).” AISTATS 2011.
36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “Кең ауқымды бақылаусыз оқыту арқылы жоғары деңгейлі белгілерді құру⁠(жаңа терезеде ашылады).” ICML 2012.
37
Donahue, J., Simonyan, K. (2019). “Кең ауқымды adversarial representation learning⁠(жаңа терезеде ашылады).” NeurIPS 2019.
38
Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). “Терең үлкен қарапайым нейрондық желілер қолжазба цифрларын тануда үздік нәтиже көрсетеді⁠(жаңа терезеде ашылады).” CoRR 2010.
39
Shaw, P., Uszkoreit, J., & Vaswani A. (2018). “Салыстырмалы позиция ұсынылымдары бар self-attention⁠(жаңа терезеде ашылады).” NAACL 2018.
40
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “Sparse transformer-лермен ұзын тізбектерді генерациялау⁠(жаңа терезеде ашылады).” arXiv preprint.
41
Becker, S., Hinton, G. (1991). “Кездейсоқ нүктелі стереограммаларда беттерді табатын өзін-өзі ұйымдастыратын нейрондық желі⁠(жаңа терезеде ашылады).” Nature.
42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). “Қолтаңбаны тексеруге арналған «сиам» уақыт кідірісті нейрондық желі⁠(жаңа терезеде ашылады).” NeurIPS 1994.
43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). “Сөздер мен сөз тіркестерінің таратылған ұсынылымдары және олардың композициялығы⁠(жаңа терезеде ашылады) .” NeurIPS 2013.
44
Oord, A., Li, Y., Vinyals, O. (2018). “Контрастивті болжамдық кодтау арқылы ұсынылымдарды үйрену⁠(жаңа терезеде ашылады) .” arXiv preprint.
45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Өзара ақпаратты бағалау және барынша арттыру арқылы терең ұсынылымдарды үйрену⁠(жаңа терезеде ашылады).” ICLR 2019.
46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). “Тек тізбекке негізделген терең ұсынылымдарды үйренумен біртұтас рационалды ақуыз инженериясы⁠(жаңа терезеде ашылады).” Nature Methods.
47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). “Биологиялық құрылым мен функция бақылаусыз оқытуды 250 миллион ақуыз тізбегіне дейін ауқымдау арқылы пайда болады⁠(жаңа терезеде ашылады).” bioRxiv preprint.
48
Torralba, A., Fergus, R., Freeman, W. (2008). “80 million tiny images: параметрлік емес нысан мен көрініс тануға арналған үлкен дерек жиыны⁠(жаңа терезеде ашылады).” IEEE transactions on pattern analysis and machine intelligence.
49
“8-Bit Computer Hardware Graphics тізімі⁠(жаңа терезеде ашылады).” Wikipedia, 8 May 2020
50
Kornblith, S., Shlens, J., & Le, Q. V. (2019). “Жақсырақ ImageNet модельдері тасымалдауда да жақсырақ па?⁠(жаңа терезеде ашылады).” CVPR 2019.
51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: деректерден augmentation стратегияларын үйрену⁠(жаңа терезеде ашылады).” CVPR 2019.
52
Tan, M., Le, Q. V. (2019). “EfficientNet: конволюциялық нейрондық желілер үшін модель ауқымдауын қайта ойлау⁠(жаңа терезеде ашылады).” ICML 2019.
53
Gidaris, S., Singh, P., & Komodakis, N. (2018). “Суреттерді бұруды болжау арқылы бақылаусыз ұсынылымдарды үйрену⁠(жаңа терезеде ашылады).” ICLR 2018.
54
Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). “Терең генеративті модельдермен жартылай бақылаулы оқыту⁠(жаңа терезеде ашылады).” NeurIPS 2014.
55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “GAN-дарды үйретудің жетілдірілген тәсілдері⁠(жаңа терезеде ашылады).” NeurIPS 2016.
56
Tarvainen, A., Valpola, H. (2017). “Mean teachers are better role models: салмақпен орташаланған бірізділік мақсаттары жартылай бақылаулы терең оқыту нәтижелерін жақсартады⁠(жаңа терезеде ашылады).” NeurIPS 2017.
57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: жартылай бақылаулы оқытуға тұтас тәсіл⁠(жаңа терезеде ашылады).” NeurIPS 2019.
58
Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). “Бірізділікке үйрету үшін бақылаусыз дерек кеңейту⁠(жаңа терезеде ашылады).” arXiv preprint.
59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: бірізділік пен сенімділік арқылы жартылай бақылаулы оқытуды оңайлату⁠(жаңа терезеде ашылады).” arXiv preprint.
60
Sutton, R. (2019). “Ащы сабақ⁠(жаңа терезеде ашылады).”

Авторлар

Mark Chen, Alec Radford, Ilya Sutskever

Алғыс

Ең алдымен, мақаламыздың бірлескен авторлары Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal және David Luan-ға алғыс білдіреміз.

Осы жұмыс бойынша пікірлері және осы релизге қосқан үлестері үшін келесілерге рақмет: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le және Ashish Vaswani.

Редактор: Ashley Pilipiszyn

Дизайн: Justin Jay Wang

Мұқаба иллюстрациясы: Ben Barry