17 ივნისი, 2020

Image GPT

ნაშრომის წაკითხვა კოდის ნახვა ICML 2020 ნაშრომი (V1)

Illustration: Ben Barry

იტვირთება…

ჩვენ აღმოვაჩინეთ, რომ ისე, როგორც ენაზე გაწვრთნილ დიდ ტრანსფორმერის მოდელს შეუძლია თანმიმდევრული ტექსტის გენერირება, ზუსტად იმავე მოდელს, პიქსელების მიმდევრობებზე გაწვრთნილს, შეუძლია თანმიმდევრული სურათის შევსებების⁠ და ნიმუშების⁠ გენერირება. ნიმუშის ხარისხსა და სურათის კლასიფიკაციის სიზუსტეს შორის კორელაციის დადგენით, ვაჩვენებთ, რომ ჩვენი საუკეთესო გენერაციული მოდელი ასევე შეიცავს მახასიათებლებს, რომლებიც კონკურენტულია საუკეთესო კონვოლუციურ ქსელებთან არაზედამხედველ გარემოში.

შესავალი

არაზედამხედველური და თვითზედამხედველური სწავლება,¹ ანუ სწავლება ადამიანის მიერ მონიშნული მონაცემების გარეშე, მანქანური სწავლების ხანგრძლივი გამოწვევაა. ბოლო დროს მან ენაში საოცარ წარმატებას მიაღწია, რადგან ტრანსფორმერის² მოდელებმა, როგორიცაა BERT,³ GPT‑2,⁴ RoBERTa,⁵ T5,⁶ და სხვა ვარიანტებმა^{7, 8, 9 და 10} საუკეთესო შედეგები აჩვენეს ენობრივი ამოცანების ფართო სპექტრზე. თუმცა, მოდელების იმავე ფართო კლასს სურათების კლასიფიკაციისთვის ძლიერი მახასიათებლების შექმნაში წარმატება არ ჰქონია.¹¹ ჩვენი ნაშრომის მიზანია ამ განსხვავების გააზრება და გადალახვა.

BERT-ისა და GPT‑2‑ის მსგავსი ტრანსფორმერის მოდელები დომენურად აგნოსტიკურია, რაც ნიშნავს, რომ ისინი პირდაპირ შეიძლება მიესადაგოს ნებისმიერი ფორმის 1-D მიმდევრობებს. როდესაც GPT‑2‑ს ვწვრთნით გრძელ პიქსელურ მიმდევრობებად გაშლილ სურათებზე — რასაც iGPT‑ს ვუწოდებთ — ვხედავთ, რომ მოდელს, როგორც ჩანს, ესმის 2-D სურათის მახასიათებლები, როგორიცაა ობიექტის ვიზუალური სახე და კატეგორია. ამას მოწმობს მის მიერ გენერირებული თანმიმდევრული სურათის ნიმუშების მრავალფეროვანი დიაპაზონი, ადამიანის მიერ მიწოდებული ეტიკეტების გარეშეც კი. დამატებითი მტკიცებულების სახით, მოდელიდან მიღებული მახასიათებლები რამდენიმე კლასიფიკაციის მონაცემთა ნაკრებზე თანამედროვე საუკეთესო შედეგებს აღწევს და ImageNet-ზე თითქმის თანამედროვე საუკეთესო არაზედამხედველურ სიზუსტეს^A აჩვენებს.

შეფასება	მონაცემთა ნაკრები	ჩვენი შედეგი	საუკეთესო არა-iGPT შედეგი
ნასწავლ მახასიათებლებზე ლოგისტიკური რეგრესია (ხაზოვანი ზონდი)	CIFAR-10	96.3 iGPT‑L 32x32, 1536 მახასიათებლით	95.3 SimCLR¹²⁠, 8192 მახასიათებლით
	CIFAR-100	82.8 iGPT‑L 32x32, 1536 მახასიათებლით	80.2 SimCLR, 8192 მახასიათებლით
	STL-10	95.5 iGPT‑L 32x32, 1536 მახასიათებლით	94.2 AMDIM¹³⁠, 8192 მახასიათებლით
	ImageNet	72.0 iGPT‑XL^a⁠ 64x64, 15360 მახასიათებლით	76.5 SimCLR, 8192 მახასიათებლით
სრული fine-tuning	CIFAR-10	99.0 iGPT‑L 32x32, გაწვრთნილი ImageNet-ზე	99.0^b⁠ GPipe,¹⁴⁠ გაწვრთნილი ImageNet-ზე
	ImageNet 32x32	66.3 iGPT‑L 32x32	70.2 Isometric Nets¹⁵⁠

ImageNet-ზე iGPT‑XL‑ისთვის მხოლოდ ხაზოვანი ზონდის სიზუსტეს ვაჩვენებთ, რადგან სხვა ექსპერიმენტები არ დასრულებულა მანამდე, სანამ სხვა სუპერკომპიუტერულ ინფრასტრუქტურაზე გადასვლა დაგვჭირდებოდა.
Bit-L-მა, რომელიც JFT-ზე (300M სურათი 18K კლასით) იყო გაწვრთნილი, 99.3 შედეგს მიაღწია.

იმის ხაზგასასმელად, რომ გენერაციული^{17 და 18} მიმდევრობის მოდელირება^{19, 20, 21 და 22} ზოგადი დანიშნულების არაზედამხედველური სწავლების ალგორითმად შეიძლება ჩაითვალოს, შეგნებულად ვიყენებთ იმავე ტრანსფორმერის არქიტექტურას, რასაც GPT‑2 ენაში იყენებს. შედეგად, საუკეთესო არაზედამხედველ კონვოლუციურ ქსელებთან კონკურენტული მახასიათებლების მისაღებად მნიშვნელოვნად მეტი გამოთვლითი რესურსი გვჭირდება.^{13, 23, 24, 25 და 12} თუმცა, ჩვენი შედეგები მიუთითებს, რომ ახალ დომენთან შეხვედრისას, სადაც სწორი მოდელის აპრიორული წარმოდგენები უცნობია, დიდ GPT‑2‑ს შეუძლია შესანიშნავი მახასიათებლების სწავლა დომენისთვის სპეციფიკური^{26, 27 და 28} არქიტექტურული არჩევანების გარეშე.

იტვირთება...

ენობრივი GPT-დან სურათის GPT-მდე

ენაში არაზედამხედველმა სწავლების ალგორითმებმა, რომლებიც სიტყვების პროგნოზირებას ეყრდნობა (როგორებიცაა GPT‑2 და BERT), უკიდურესად დიდ წარმატებას მიაღწია და საუკეთესო შედეგები აჩვენა ენობრივი ამოცანების ფართო სპექტრზე. ამ წარმატების ერთ-ერთი შესაძლო მიზეზი ისაა, რომ ქვემდგომი ენობრივი ამოცანების მაგალითები ბუნებრივად ჩნდება ტექსტში: კითხვებს ხშირად მოსდევს პასუხები (რაც შეიძლება დაეხმაროს კითხვა-პასუხის ამოცანებს), ხოლო მონაკვეთებს ხშირად მოსდევს შეჯამებები (რაც შეიძლება დაეხმაროს შეჯამებას). ამის საპირისპიროდ, პიქსელების მიმდევრობები მკაფიოდ არ შეიცავს იმ სურათების ეტიკეტებს, რომლებსაც ისინი მიეკუთვნება.

ამ აშკარა ზედამხედველობის გარეშეც, მაინც არსებობს მიზეზი, თუ რატომ შეიძლება იმუშაოს GPT‑2‑მ სურათებზე: საკმარისად დიდმა ტრანსფორმერმა, რომელიც შემდეგი პიქსელის პროგნოზირებაზეა გაწვრთნილი, საბოლოოდ შეიძლება ისწავლოს მრავალფეროვანი^B ნიმუშების გენერირება მკაფიოდ ამოსაცნობი ობიექტებით. როგორც კი ამას ისწავლის, იდეა, რომელიც ცნობილია როგორც „Analysis by Synthesis“^{29, 30 და C}, მიანიშნებს, რომ მოდელს ობიექტების კატეგორიების ცოდნაც ექნება. ბევრი ადრეული გენერაციული მოდელი^{31, 32, 33, 34, 35 და 36} ამ იდეით იყო შთაგონებული, ხოლო უფრო ახლახან BigBiGAN³⁷ იყო მაგალითი, რომელმაც იმედისმომცემი ნიმუშები და მახასიათებლები შექმნა. ჩვენს ნაშრომში ჯერ ვაჩვენებთ, რომ უკეთესი გენერაციული მოდელები უფრო ძლიერ კლასიფიკაციის შედეგებს აღწევენ. შემდეგ კი, GPT‑2‑ის გენერაციული შესაძლებლობების ოპტიმიზაციით, ბევრ გარემოში უმაღლესი დონის კლასიფიკაციის შედეგებს ვაღწევთ, რაც analysis by synthesis-ის სასარგებლოდ დამატებით მტკიცებულებას იძლევა.

ზოგადი არაზედამხედველური სწავლებისკენ

გენერაციული მიმდევრობის მოდელირება უნივერსალური არაზედამხედველური სწავლების ალგორითმია: რადგან ყველა ტიპის მონაცემი ბაიტების მიმდევრობებად შეიძლება იყოს წარმოდგენილი, ტრანსფორმერი დამატებითი ინჟინერიის გარეშე პირდაპირ შეიძლება იქნეს გამოყენებული ნებისმიერი ტიპის მონაცემზე. ჩვენი ნაშრომი ამ ზოგადობის ძალას ამოწმებს იმ არქიტექტურის უშუალო გამოყენებით, რომლითაც GPT‑2 ბუნებრივ ენაზე გაიწვრთნა, სურათის გენერირებისთვის. შეგნებულად ავირჩიეთ, არ ჩაგვეშენებინა ხელით კოდირებული სურათისთვის სპეციფიკური ცოდნა კონვოლუციების³⁸ ან ისეთი ტექნიკების სახით, როგორიცაა relative attention,³⁹ sparse attention⁴⁰ და 2-D პოზიციის ემბედინგები.²⁷

მისი ზოგადობის შედეგად, ჩვენს მეთოდს კონკურენტული შედეგების მისაღწევად არაზედამხედველ გარემოში მნიშვნელოვნად მეტი გამოთვლითი რესურსი სჭირდება. მართლაც, კონტრასტული მეთოდები^{41, 42, 43, 44, 45, 13, 23, 24, 25 და 12} კვლავ რჩება ყველაზე გამოთვლითად ეფექტურ გზად სურათებიდან მაღალი ხარისხის მახასიათებლების მისაღებად. თუმცა, იმით, რომ ვაჩვენეთ არაზედამხედველური ტრანსფორმერის მოდელის კონკურენტუნარიანობა საუკეთესო არაზედამხედველ კონვოლუციურ ქსელებთან,^{24, 25 და 12} ჩვენ მტკიცებულებას ვაძლევთ იმ აზრს, რომ ხელით კოდირებული დომენური ცოდნა შეიძლება გამოთვლითი რესურსით ჩანაცვლდეს. ახალ დომენებში,^{46 და 47} სადაც ხელით ჩასაშენებელი ცოდნა ბევრი არ არის, გამოთვლითი მასშტაბირება შესაფერისი მიდგომა ჩანს შესამოწმებლად.

მიდგომა

ჩვენ ImageNet-ზე ვწვრთნით iGPT‑S, iGPT‑M და iGPT‑L მოდელებს — ტრანსფორმერებს, რომლებიც შესაბამისად 76M, 455M და 1.4B პარამეტრს შეიცავს. ასევე ვწვრთნით iGPT‑XL^D-ს, 6.8 მილიარდპარამეტრიან ტრანსფორმერს, ImageNet-ისა და ვებიდან აღებული სურათების ნარევზე. მკვრივი ყურადღებით გრძელი მიმდევრობების მოდელირების მაღალი გამოთვლითი ღირებულების გამო, ვწვრთნით დაბალ გარჩევადობებზე: 32x32, 48x48 და 64x64.

მიუხედავად იმისა, რომ კიდევ უფრო დაბალ გარჩევადობებზე მუშაობა გამოთვლითი ხარჯის კიდევ მეტად შესამცირებლად მაცდურია, წინა ნაშრომებმა აჩვენა, რომ ამ ზომებზე დაბლა სურათის კლასიფიკაციაში ადამიანის შედეგები სწრაფად უარესდება.⁴⁸ ამის ნაცვლად, ადრეული ფერადი ეკრანების პალიტრებით შთაგონებულებმა,⁴⁹ პიქსელების წარმოსადგენად საკუთარი 9-ბიტიანი ფერთა პალიტრა შევქმენით. ამ პალიტრის გამოყენება შეყვანის მიმდევრობის სიგრძეს სტანდარტულ (R, G, B) პალიტრასთან შედარებით 3-ჯერ ამცირებს, თანაც ფერს მაინც ზუსტად კოდირებს.

ექსპერიმენტული შედეგები

მოდელის წარმადობის შესაფასებლად ვიყენებთ ორ მეთოდს, და ორივე მათგანი მოიცავს ქვემდგომ კლასიფიკაციის ამოცანას. პირველი, რომელსაც ჩვენ ხაზოვან ზონდს ვუწოდებთ, გაწვრთნილ მოდელს იყენებს ქვემდგომი მონაცემთა ნაკრების სურათებიდან მახასიათებლების^E გამოსაყოფად და შემდეგ ეტიკეტებზე ლოგისტიკურ რეგრესიას აწყობს. მეორე მეთოდი მთელ მოდელს ქვემდგომ მონაცემთა ნაკრებზე სრულად აწყობს^F.

რადგან შემდეგი პიქსელის პროგნოზირება აშკარად არ არის დაკავშირებული სურათის კლასიფიკაციასთან, საბოლოო ფენის მახასიათებლები შესაძლოა ობიექტის კატეგორიის ყველაზე პროგნოზირებადი არ იყოს. ჩვენი პირველი შედეგი აჩვენებს, რომ მახასიათებლების ხარისხი სიღრმის მიმართ ჯერ მკვეთრად მზარდი, შემდეგ კი ოდნავ კლებადი ფუნქციაა. ეს ქცევა მიანიშნებს, რომ ტრანსფორმერის გენერაციული მოდელი ორ ფაზად მუშაობს: პირველ ფაზაში თითოეული პოზიცია გარშემო არსებული კონტექსტიდან აგროვებს ინფორმაციას, რათა კონტექსტუალიზებული სურათის მახასიათებელი შექმნას. მეორე ფაზაში ეს კონტექსტუალიზებული მახასიათებელი გამოიყენება პირობითი შემდეგი პიქსელის პროგნოზირების ამოცანის გადასაჭრელად. ჩვენი ხაზოვანი ზონდების მიერ ნაჩვენები ეს ორსაფეხურიანი წარმადობა გვაგონებს სხვა არაზედამხედველ ნეირონულ ქსელს, bottleneck autoencoder-ს, რომელიც ხელითაა დაპროექტებული ისე, რომ შუაში არსებული მახასიათებლები გამოიყენებოდეს.

იტვირთება...

ჩვენი შემდეგი შედეგი ადგენს კავშირს გენერაციულ წარმადობასა და მახასიათებლების ხარისხს შორის. ვხედავთ, რომ როგორც ჩვენი მოდელების მასშტაბის გაზრდა, ისე უფრო მეტი იტერაციით სწავლება, უკეთეს გენერაციულ წარმადობას იძლევა, რაც პირდაპირ გადადის მახასიათებლების უკეთეს ხარისხში.

იტვირთება...

როდესაც ჩვენს მახასიათებლებს CIFAR-10, CIFAR-100 და STL-10-ზე ხაზოვანი ზონდებით ვაფასებთ, ყველა ზედამხედველურ და არაზედამხედველურ ტრანსფერულ ალგორითმზე უკეთეს შედეგს ვიღებთ. ჩვენი შედეგები სრულ fine-tuning გარემოშიც დამაჯერებელია.

			ImageNet-ზე წინასწარ გაწვრთნილი
შეფასება	მოდელი	სიზუსტე	ეტიკეტების გარეშე	ეტიკეტებით
CIFAR-10 ხაზოვანი ზონდი	ResNet-152⁵⁰	94.0		✔
	SimCLR¹²	95.3	✔
	iGPT‑L 32x32	96.3	✔	✔
CIFAR-100 ხაზოვანი ზონდი	ResNet-152	78.0		✔
	SimCLR	80.2	✔
	iGPT‑L 32x32	82.8	✔
STL-10 ხაზოვანი ზონდი	AMDIM-L	94.2	✔
	iGPT‑L 32x32	95.5	✔
CIFAR-10 Fine-tune	AutoAugment	98.5
	SimCLR	98.6	✔
	GPipe	99.0		✔
	iGPT‑L	99.0	✔
CIFAR-100 Fine-tune	iGPT‑L	88.5	✔
	SimCLR	89.0	✔
	AutoAugment	89.3
	EfficientNet⁵²	91.7		✔

ხაზოვანი ზონდისა და fine-tuning-ის სიზუსტეების შედარება ჩვენს მოდელებსა და საუკეთესო შედეგების მქონე მოდელებს შორის, რომლებიც იყენებენ არაზედამხედველურ ან ზედამხედველურ ImageNet ტრანსფერს. ასევე ვამატებთ AutoAugment-ს, საუკეთესო შედეგის მქონე მოდელს, რომელიც CIFAR-ზე თავიდან ბოლომდეა გაწვრთნილი.

ImageNet-ზე არაზედამხედველური და თვითზედამხედველური სწავლების მიმართ ინტერესის აღორძინების ფონზე, ჩვენს მოდელებს ImageNet-ზე ხაზოვანი ზონდებითაც ვაფასებთ. ეს განსაკუთრებით რთული გარემოა, რადგან არ ვწვრთნით ImageNet-ის სტანდარტულ შეყვანის გარჩევადობაზე. მიუხედავად ამისა, 48x48 სურათებზე გაწვრთნილი iGPT‑L‑ის საუკეთესო ფენიდან მიღებულ 1536 მახასიათებელზე აგებული ხაზოვანი ზონდი 65.2% top-1 სიზუსტეს იძლევა და AlexNet-ს აჭარბებს.

კონტრასტული მეთოდები ჩვეულებრივ თავიანთ საუკეთესო შედეგებს 8192 მახასიათებელზე აქვეყნებენ, ამიტომ შედარებისთვის იდეალურად iGPT 8192-განზომილებიანი ემბედინგით უნდა შეგვეფასებინა. თუმცა, ასეთი მოდელის გაწვრთნა უკიდურესად ძვირია, ამიტომ მის მიახლოებად რამდენიმე ფენიდან მიღებულ მახასიათებლებს ვაერთებთ. სამწუხაროდ, ჩვენი მახასიათებლები ფენებს შორის კორელირებულია, ამიტომ კონკურენტუნარიანობისთვის მათი მეტი რაოდენობა გვჭირდება. iGPT‑XL‑ის 5 ფენიდან 15360 მახასიათებლის აღება 72.0% top-1 სიზუსტეს იძლევა და აჭარბებს AMDIM-ს, MoCo-ს და CPC v2-ს, თუმცა მაინც შესამჩნევად ჩამორჩება SimCLR-ს.

მეთოდი	შეყვანის გარჩევადობა	მახასიათებლები	პარამეტრები	სიზუსტე
Rotation⁵³	original	8192	86M	55.4
iGPT‑L	32x32	1536	1362M	60.3
BigBiGAN³⁷	original	16384	86M	61.3
iGPT‑L	48x48	1536	1362M	65.2
AMDIM¹³	original	8192	626M	68.1
MoCo²⁴	original	8192	375M	68.6
iGPT‑XL	64x64	3072	6801M	68.7
SimCLR¹²	original	2048	24M	69.3
CPC v2²⁵	original	4096	303M	71.5
iGPT‑XL	64x64	3072 x 5	6801M	72.0
SimCLR	original	8192	375M	76.5

ჩვენს მოდელებსა და თანამედროვე საუკეთესო თვითზედამხედველურ მოდელებს შორის ხაზოვანი ზონდის სიზუსტეების შედარება. ჩვენ კონკურენტულ შედეგებს ვაღწევთ გაცილებით დაბალ შეყვანის გარჩევადობაზე სწავლების მიუხედავად, თუმცა ჩვენს მეთოდს მეტი პარამეტრი და გამოთვლითი რესურსი სჭირდება.

რადგან BERT-ის მსგავსი masked language მოდელები გენერაციულ მოდელებს ენობრივი ამოცანების უმეტესობაზე აჭარბებს, ჩვენს სურათის მოდელებზე BERT-ის წარმადობასაც ვაფასებთ. იმის ნაცვლად, რომ მოდელი წინა ყველა პიქსელზე დაყრდნობით შემდეგი პიქსელის პროგნოზირებაზე გავწვრთნათ, პიქსელების 15%-ს ვფარავთ და მოდელს ვასწავლით, რომ ისინი დაუფარავი პიქსელებიდან იწინასწარმეტყველოს. ვხედავთ, რომ მიუხედავად მნიშვნელოვნად უარესი ხაზოვანი ზონდის შედეგებისა, BERT მოდელები fine-tuning-ის დროს განსაკუთრებულად კარგ შედეგებს აჩვენებს:

იტვირთება...

მიუხედავად იმისა, რომ არაზედამხედველური სწავლება გვპირდება შესანიშნავ მახასიათებლებს ადამიანის მიერ მონიშნული მონაცემების საჭიროების გარეშე, ბოლო პერიოდში მნიშვნელოვანი პროგრესი მიღწეულია ნახევრად ზედამხედველური სწავლების უფრო შემწყნარებელ ჩარჩოში, რომელიც ადამიანის მიერ მონიშნული მონაცემების შეზღუდულ რაოდენობას უშვებს. წარმატებული ნახევრად ზედამხედველური მეთოდები ხშირად ეყრდნობა ჭკვიანურ ტექნიკებს, როგორიცაა თანმიმდევრულობის რეგულარიზაცია, მონაცემთა აუგმენტაცია ან ფსევდო-ეტიკეტირება, ხოლო წმინდად გენერაციაზე დაფუძნებული მიდგომები^{54 და 55} წლებია არაკონკურენტულია. ჩვენ ვაფასებთ iGPT‑L^G-ს ამ ქვეველის კონკურენტულ ბენჩმარკზე და ვხედავთ, რომ არააუგმენტირებული სურათებიდან მიღებულ მახასიათებლებზე აგებული მარტივი ხაზოვანი ზონდი აჭარბებს Mean Teacher⁵⁶-სა და MixMatch-ს⁵⁷, თუმცა ჩამორჩება FixMatch-ს⁵⁹.

მოდელი	40 ეტიკეტი	250 ეტიკეტი	4000 ეტიკეტი
Improved GAN⁵⁵	—	—	81.4 ± 2.3
Mean Teacher⁵⁶	—	67.7 ± 2.3	90.8 ± 0.2
MixMatch⁵⁷	52.5 ± 11.5	89.0 ± 0.9	93.6 ± 0.1
iGPT‑L	73.2 ± 01.5	87.6 ± 0.6	94.3 ± 0.1
UDA⁵⁸	71.0 ± 05.9	91.2 ± 1.1	95.1 ± 0.2
FixMatch⁵⁹ RA	86.2 ± 03.4	94.9 ± 0.7	95.7 ± 0.1
FixMatch CTA	88.6 ± 03.4	94.9 ± 0.3	95.7 ± 0.2

CIFAR-10-ზე მცირე მოცულობის მონაცემების პირობებში წარმადობის შედარება. მრავალი უმონიშნო ImageNet სურათის გამოყენებით, iGPT‑L‑ს შეუძლია აჯობოს ისეთ მეთოდებს, როგორიცაა Mean Teacher და MixMatch, თუმცა მაინც ჩამორჩება თანამედროვე საუკეთესო მეთოდებს. ჩვენი ნახევრად ზედამხედველური სწავლების მიდგომა ძალიან მარტივია, რადგან iGPT‑L‑ის მახასიათებლებზე მხოლოდ ლოგისტიკური რეგრესიის კლასიფიკატორს ვარგებთ, ყოველგვარი მონაცემთა აუგმენტაციისა თუ სრული მორგების გარეშე — ეს მნიშვნელოვანი განსხვავებაა სპეციალურად დაპროექტებული ნახევრად ზედამხედველური მიდგომებისგან.

შეზღუდვები

მიუხედავად იმისა, რომ ვაჩვენეთ, რომ iGPT‑ს ძლიერი სურათის მახასიათებლების სწავლა შეუძლია, ჩვენს მიდგომას მაინც მნიშვნელოვანი შეზღუდვები აქვს. რადგან ვიყენებთ იმავე ზოგად მიმდევრობით ტრანსფორმერს, რომელიც ენაში GPT‑2‑ისთვის გამოიყენება, ჩვენი მეთოდი დიდ გამოთვლით რესურსს მოითხოვს: iGPT‑L დაახლოებით 2500 V100-დღის განმავლობაში იწვრთნებოდა, მაშინ როცა მსგავსი შედეგის მქონე MoCo24⁠ მოდელი დაახლოებით 70 V100-დღეში შეიძლება გაიწვრთნას.

ამასთანავე, ჩვენ დაბალი გარჩევადობის შეყვანებს ტრანსფორმერით ვმოდელირებთ, მაშინ როცა თვითზედამხედველური შედეგების უმეტესობა იყენებს კონვოლუციაზე დაფუძნებულ ენკოდერებს, რომლებსაც მაღალი გარჩევადობის შეყვანების ადვილად მიღება შეუძლიათ. შემდგომი მასშტაბირებისთვის შესაძლოა საჭირო იყოს ახალი არქიტექტურა, მაგალითად, დომენისგან დამოუკიდებელი მრავალმასშტაბიანი ტრანსფორმერი. ამ შეზღუდვების გათვალისწინებით, ჩვენი ნაშრომი ძირითადად proof-of-concept დემონსტრაციას წარმოადგენს იმისა, რომ დიდ ტრანსფორმერზე დაფუძნებულ ენობრივ მოდელებს შეუძლიათ ახალი დომენებში შესანიშნავი არაზედამხედველური წარმოდგენების სწავლა, წინასწარ ჩაშენებული დომენური ცოდნის გარეშე. თუმცა, ამ მოდელების გასაწვრთნელად საჭირო მნიშვნელოვანი რესურსები და კონვოლუციურ ნეირონულ ქსელებზე დაფუძნებული მეთოდების უფრო მაღალი სიზუსტე გამორიცხავს ამ წარმოდგენების პრაქტიკულ გამოყენებას ხედვის სფეროს რეალურ სამყაროს აპლიკაციებში.

დაბოლოს, გენერაციულ მოდელებს შეიძლება ახასიათებდეთ მიკერძოებები, რომლებიც იმ მონაცემების შედეგია, რომლებზეც ისინი გაიწვრთნა. ამ მიკერძოებებიდან ბევრი სასარგებლოა — მაგალითად, ვარაუდი, რომ ყავისფერი და მწვანე პიქსელების კომბინაცია ფოთლებით დაფარულ ტოტს წარმოადგენს, და შემდეგ ამ მიკერძოების გამოყენება სურათის გასაგრძელებლად. მაგრამ ზოგი ასეთი მიკერძოება საზიანო იქნება, თუ მას სამართლიანობისა და წარმომადგენლობის პრიზმით შევხედავთ. მაგალითად, თუ მოდელი მეცნიერის ვიზუალურ წარმოდგენას უფრო მეტად მამაკაცურ სახესთან დააკავშირებს, მაშინ მან შესაძლოა მეცნიერების სურათები სისტემატურად მამაკაცურად წარმოდგენილი ადამიანებით დაასრულოს, და არა სხვადასხვა გენდერის ნაზავით. ველით, რომ დეველოპერებს სულ უფრო მეტად მოუწევთ ყურადღების მიქცევა იმ მონაცემებისთვის, რომლებსაც თავიანთ სისტემებში აწვდიან, და უკეთ გაგება იმისა, თუ როგორ უკავშირდება ეს გაწვრთნილ მოდელებში არსებულ მიკერძოებებს.

დასკვნა

ჩვენ ვაჩვენეთ, რომ 2-D ცოდნის მასშტაბში გაცვლის⁶⁰ და ქსელის შუა ნაწილიდან პროგნოზირებადი მახასიათებლების არჩევის გზით, მიმდევრობითი ტრანსფორმერი შეიძლება კონკურენტული იყოს საუკეთესო კონვოლუციურ ქსელებთან არაზედამხედველური სურათის კლასიფიკაციისთვის. მნიშვნელოვანია, რომ ამ შედეგებს მივაღწიეთ GPT‑2 ენობრივი მოდელის უშუალოდ სურათის გენერირებაზე გამოყენებით. ჩვენი შედეგები მიუთითებს, რომ თავისი სიმარტივისა და ზოგადობის გამო, საკმარისი გამოთვლითი რესურსის პირობებში, მიმდევრობითი ტრანსფორმერი შესაძლოა საბოლოოდ ეფექტური გზა იყოს მრავალ დომენში შესანიშნავი მახასიათებლების სასწავლად.

თუ ამ კვლევით სფეროზე ჩვენთან მუშაობა გაინტერესებთ, ვაცხადებთ ვაკანსიებს⁠!

სქოლიოები

A
გაზომილია ნასწავლ მახასიათებლებზე ლოგისტიკური რეგრესიით (ხაზოვანი ზონდი).
B
ტრანსფორმერი იწვრთნება ალბათობის მაქსიმიზაციაზე და, შესაბამისად, ფარავს რეჟიმებს, რაც ავტომატურად უზრუნველყოფს მისი ნიმუშების მრავალფეროვნებას.
C
analysis by synthesis-ის თავდაპირველი იდეა უფრო მეტად ლატენტური ცვლადების მქონე გენერაციული მოდელების სასარგებლო არგუმენტია, მაგრამ რადგან ლატენტური ცვლადების გარეშე გენერაციული მოდელები მონაცემთა განაწილების მოდელირებაში ბევრად უკეთესი აღმოჩნდა, ვიფიქრეთ, რომ analysis-by-synthesis ჰიპოთეზა მათთვისაც უნდა მოქმედებდეს.
D
ImageNet-ზე iGPT-XL-ისთვის მხოლოდ ხაზოვანი ზონდის სიზუსტეს ვაჩვენებთ, რადგან სხვა ექსპერიმენტები არ დასრულებულა მანამდე, სანამ სხვა სუპერკომპიუტერულ ინფრასტრუქტურაზე გადასვლა დაგვჭირდებოდა.
E
ხაზოვანი ზონდისთვის მახასიათებლების გამოსაყოფად, ვიღებთ post layernorm attention block-ის შეყვანებს რომელიმე ფენაზე და საშუალო pooling-ს ვაკეთებთ მიმდევრობის განზომილებაზე.
F
fine-tuning-ისთვის ვიღებთ post layernorm ტრანსფორმერის გამოსავალს და საშუალო pooling-ს ვაკეთებთ მიმდევრობის განზომილებაზე, როგორც კლასიფიკაციის head-ის შეყვანას.
G
გენერაციული მოდელი, რომელიც მახასიათებლებს სრულიად არაზედამხედველურად სწავლობს.

მითითებები

1
LeCun, Y. (2017). „პროგნოზირებადი სწავლება⁠(იხსნება ახალ ფანჯარაში).“
2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. „Attention is All you Need⁠(იხსნება ახალ ფანჯარაში).“ In NeurIPS 2017.
3
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). „BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding⁠(იხსნება ახალ ფანჯარაში).“ arXiv preprint.
4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). „Language Models are Unsupervised Multitask Learners⁠(იხსნება ახალ ფანჯარაში).“ ტექნიკური ანგარიში, OpenAI.
5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). „RoBERTa: A Robustly Optimized BERT Pretraining Approach⁠(იხსნება ახალ ფანჯარაში).“ arXiv preprint.
6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). „Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer⁠(იხსნება ახალ ფანჯარაში).“ arXiv preprint.
7
Dai, A., Le, Q. V. (2015). „ნახევრად ზედამხედველური მიმდევრობის სწავლება⁠(იხსნება ახალ ფანჯარაში).“ In NeurIPS 2015.
8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). „სიღრმისეულად კონტექსტუალიზებული სიტყვიერი რეპრეზენტაციები⁠(იხსნება ახალ ფანჯარაში).“ In NAACL 2018.
9
Howard, J., Ruder, S. (2018). „ტექსტის კლასიფიკაციისთვის უნივერსალური ენობრივი მოდელის fine-tuning⁠(იხსნება ახალ ფანჯარაში).“ In ACL 2018.
10
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). „ენის გაგების გაუმჯობესება გენერაციული წინასწარი სწავლებით⁠(იხსნება ახალ ფანჯარაში).“ ტექნიკური ანგარიში, OpenAI.
11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). „Sparse attentive backtracking: Temporal credit assignment through reminding⁠(იხსნება ახალ ფანჯარაში).“ In NeurIPS 2018.
12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). „ვიზუალური რეპრეზენტაციების კონტრასტული სწავლებისთვის მარტივი ჩარჩო⁠(იხსნება ახალ ფანჯარაში).“ arXiv preprint.
13
Bachman, P., Hjelm, R., & Buchwalter, W. (2019). „რეპრეზენტაციების სწავლა ხედებს შორის ურთიერთინფორმაციის მაქსიმიზაციით⁠(იხსნება ახალ ფანჯარაში).“ In NeurIPS 2019.
14
Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). „Big Transfer (BiT): ზოგადი ვიზუალური რეპრეზენტაციების სწავლება⁠(იხსნება ახალ ფანჯარაში).“ arXiv preprint.
15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) „GPipe: გიგანტური ნეირონული ქსელების ეფექტური სწავლება pipeline parallelism-ის გამოყენებით⁠(იხსნება ახალ ფანჯარაში).“ In NeurIPS 2019.
16
Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). „არადისკრიმინაციული მონაცემები თუ სუსტი მოდელი? მონაცემებისა და მოდელის გარჩევადობის ფარდობითი მნიშვნელობის შესახებ⁠(იხსნება ახალ ფანჯარაში).“ In ICCV 2019.
17
Lasserre, J., Bishop, C., & Minka, T. P. (2006). „გენერაციული და დისკრიმინაციული მოდელების პრინციპული ჰიბრიდები⁠(იხსნება ახალ ფანჯარაში).“ In CVPR 2006.
18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). „რატომ ეხმარება არაზედამხედველური წინასწარი სწავლება სიღრმისეულ სწავლებას?⁠(იხსნება ახალ ფანჯარაში).“ In JMLR 2010.
19
Elman, J. (1990). „დროის სტრუქტურის აღმოჩენა⁠(იხსნება ახალ ფანჯარაში).“ In Cognitive Science 1990.
20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). „რეკურენტულ ნეირონულ ქსელზე დაფუძნებული ენობრივი მოდელი⁠(იხსნება ახალ ფანჯარაში).“ In INTERSPEECH-2010.
21
Larochelle, H., Murray, I. (2011). „ნეირონული ავტორეგრესიული განაწილების შემფასებელი⁠(იხსნება ახალ ფანჯარაში).“ In AISTATS 2011.
22
Graves, A. (2013). „მიმდევრობების გენერირება რეკურენტული ნეირონული ქსელებით⁠(იხსნება ახალ ფანჯარაში).“ arXiv preprint.
23
Tian, Y., Krishnan, D., & Isola, P. (2019). „კონტრასტული მრავალხედიანი კოდირება⁠(იხსნება ახალ ფანჯარაში).“ arXiv preprint.
24
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). „Momentum Contrast for Unsupervised Visual Representation Learning⁠(იხსნება ახალ ფანჯარაში).“ arXiv preprint.
25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). „მონაცემურად ეფექტური სურათის ამოცნობა Contrastive Predictive Coding-ით⁠(იხსნება ახალ ფანჯარაში).“ arXiv preprint.
26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). „Pixel recurrent neural networks⁠(იხსნება ახალ ფანჯარაში).“ arXiv preprint.
27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). „Image transformer⁠(იხსნება ახალ ფანჯარაში).“ In ICML 2018.
28
Menick, J., Kalchbrenner, N. (2018). „მაღალი სიზუსტის სურათების გენერირება Subscale Pixel Networks-ით და მრავალგანზომილებიანი upscale-ით⁠(იხსნება ახალ ფანჯარაში).“ arXiv preprint.
29
Mumford, D. (1992). „ნეოკორტექსის გამოთვლითი არქიტექტურის შესახებ⁠(იხსნება ახალ ფანჯარაში).“ In Biol. Cybern.
30
Rao, R., Ballard, D. (1999). „Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects⁠(იხსნება ახალ ფანჯარაში).“ In Nature Neuroscience.
31
Smolensky, P. (1986). „Information processing in dynamical systems: Foundations of harmony theory⁠(იხსნება ახალ ფანჯარაში).“
32
Hinton, G. (2002). „Training Products of Experts by Minimizing Contrastive Divergence⁠(იხსნება ახალ ფანჯარაში).“ In MIT Press.
33
Hinton, G., Osindero, S., & Teh, Y. (2006). „სიღრმისეული რწმენის ქსელებისთვის სწრაფი სწავლების ალგორითმი⁠(იხსნება ახალ ფანჯარაში).“ In Neural Computation.
34
Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). „ძლიერი მახასიათებლების გამოყოფა და შედგენა denoising autoencoder-ებით⁠(იხსნება ახალ ფანჯარაში).“ In ICML 2008.
35
Coates, A., Lee, H., & Ng, A. Y. (2011). „ერთფენიანი ქსელების ანალიზი არაზედამხედველურ მახასიათებლების სწავლებაში⁠(იხსნება ახალ ფანჯარაში).“ In AISTATS 2011.
36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). „მაღალი დონის მახასიათებლების აგება მასშტაბური არაზედამხედველური სწავლებით⁠(იხსნება ახალ ფანჯარაში).“ In ICML 2012.
37
Donahue, J., Simonyan, K. (2019). „მასშტაბური ადვერსარიული რეპრეზენტაციის სწავლება⁠(იხსნება ახალ ფანჯარაში).“ In NeurIPS 2019.
38
Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). „Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition⁠(იხსნება ახალ ფანჯარაში).“ In CoRR 2010.
39
Shaw, P., Uszkoreit, J., & Vaswani A. (2018). „Self-attention with relative position representations⁠(იხსნება ახალ ფანჯარაში).“ In NAACL 2018.
40
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). „Generating long sequences with sparse transformers⁠(იხსნება ახალ ფანჯარაში).“ arXiv preprint.
41
Becker, S., Hinton, G. (1991). „Self-organizing neural network that discovers surfaces in random-dot stereograms⁠(იხსნება ახალ ფანჯარაში).“ In Nature.
42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). „ხელმოწერის გადამოწმება „siamese“ time delay neural network-ის გამოყენებით⁠(იხსნება ახალ ფანჯარაში).“ In NeurIPS 1994.
43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). „Distributed Representations of Words and Phrases and their Compositionality⁠(იხსნება ახალ ფანჯარაში).“ In NeurIPS 2013.
44
Oord, A., Li, Y., Vinyals, O. (2018). „Representation Learning with Contrastive Predictive Coding⁠(იხსნება ახალ ფანჯარაში).“ arXiv preprint.
45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). „ღრმა რეპრეზენტაციების სწავლება ურთიერთინფორმაციის შეფასებითა და მაქსიმიზაციით⁠(იხსნება ახალ ფანჯარაში).“ In ICLR 2019.
46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). „Unified rational protein engineering with sequence-only deep representation learning⁠(იხსნება ახალ ფანჯარაში).“ In Nature Methods.
47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). „Biological Structure and Function Emerge from Scaling Unsupervised Learning to 250 Million Protein Sequences⁠(იხსნება ახალ ფანჯარაში).“ bioRxiv preprint.
48
Torralba, A., Fergus, R., Freeman, W. (2008). „80 million tiny images: A large data set for nonparametric object and scene recognition⁠(იხსნება ახალ ფანჯარაში).“ In IEEE transactions on pattern analysis and machine intelligence.
49
„8-ბიტიანი კომპიუტერული გრაფიკის აპარატურის სია⁠(იხსნება ახალ ფანჯარაში).“ Wikipedia, 8 May 2020
50
Kornblith, S., Shlens, J., & Le, Q. V. (2019). „ჯობია თუ არა უკეთესი ImageNet მოდელები ტრანსფერშიც უკეთესი იყოს?⁠(იხსნება ახალ ფანჯარაში).“ In CVPR 2019.
51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). „AutoAugment: მონაცემებიდან აუგმენტაციის სტრატეგიების სწავლა⁠(იხსნება ახალ ფანჯარაში).“ In CVPR 2019.
52
Tan, M., Le, Q. V. (2019). „EfficientNet: კონვოლუციური ნეირონული ქსელებისთვის მოდელის მასშტაბირების ხელახალი გააზრება⁠(იხსნება ახალ ფანჯარაში).“ In ICML 2019.
53
Gidaris, S., Singh, P., & Komodakis, N. (2018). „არაზედამხედველური რეპრეზენტაციების სწავლა სურათის ბრუნვების პროგნოზირებით⁠(იხსნება ახალ ფანჯარაში).“ In ICLR 2018.
54
Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). „ნახევრად ზედამხედველური სწავლება ღრმა გენერაციული მოდელებით⁠(იხსნება ახალ ფანჯარაში).“ In NeurIPS 2014.
55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). „GAN-ების სწავლების გაუმჯობესებული ტექნიკები⁠(იხსნება ახალ ფანჯარაში).“ In NeurIPS 2016.
56
Tarvainen, A., Valpola, H. (2017). „Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results⁠(იხსნება ახალ ფანჯარაში).“ In NeurIPS 2017.
57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). „MixMatch: A Holistic Approach to Semi-Supervised Learning⁠(იხსნება ახალ ფანჯარაში).“ In NeurIPS 2019.
58
Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). „Unsupervised Data Augmentation for Consistency Training⁠(იხსნება ახალ ფანჯარაში).“ arXiv preprint.
59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). „Fixmatch: consistency-ისა და confidence-ის გამოყენებით ნახევრად ზედამხედველური სწავლების გამარტივება⁠(იხსნება ახალ ფანჯარაში).“ arXiv preprint.
60
Sutton, R. (2019). „The Bitter Lesson⁠(იხსნება ახალ ფანჯარაში).“

ავტორები

Mark Chen, Alec Radford და Ilya Sutskever

მადლობა

უპირველეს ყოვლისა, გვინდა მადლობა გადავუხადოთ ჩვენი ნაშრომის თანაავტორებს: Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal და David Luan.

მადლობა შემდეგ პირებს ამ ნაშრომზე უკუკავშირისა და ამ გამოშვებაში შეტანილი წვლილისთვის: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le და Ashish Vaswani.

რედაქტორი: Ashley Pilipiszyn

დიზაინი: Justin Jay Wang

გარეკანის ილუსტრაცია: Ben Barry