გადადით მთავარ შინაარსზე
OpenAI

ჩვენ აღმოვაჩინეთ, რომ ისე, როგორც ენაზე გაწვრთნილ დიდ ტრანსფორმერის მოდელს შეუძლია თანმიმდევრული ტექსტის გენერირება, ზუსტად იმავე მოდელს, პიქსელების მიმდევრობებზე გაწვრთნილს, შეუძლია თანმიმდევრული სურათის შევსებების და ნიმუშების გენერირება. ნიმუშის ხარისხსა და სურათის კლასიფიკაციის სიზუსტეს შორის კორელაციის დადგენით, ვაჩვენებთ, რომ ჩვენი საუკეთესო გენერაციული მოდელი ასევე შეიცავს მახასიათებლებს, რომლებიც კონკურენტულია საუკეთესო კონვოლუციურ ქსელებთან არაზედამხედველ გარემოში.

შესავალი

არაზედამხედველური და თვითზედამხედველური სწავლება,1 ანუ სწავლება ადამიანის მიერ მონიშნული მონაცემების გარეშე, მანქანური სწავლების ხანგრძლივი გამოწვევაა. ბოლო დროს მან ენაში საოცარ წარმატებას მიაღწია, რადგან ტრანსფორმერის2 მოდელებმა, როგორიცაა BERT,3 GPT‑2,4 RoBERTa,5 T5,6 და სხვა ვარიანტებმა7, 8, 9 და 10 საუკეთესო შედეგები აჩვენეს ენობრივი ამოცანების ფართო სპექტრზე. თუმცა, მოდელების იმავე ფართო კლასს სურათების კლასიფიკაციისთვის ძლიერი მახასიათებლების შექმნაში წარმატება არ ჰქონია.11 ჩვენი ნაშრომის მიზანია ამ განსხვავების გააზრება და გადალახვა.

BERT-ისა და GPT‑2‑ის მსგავსი ტრანსფორმერის მოდელები დომენურად აგნოსტიკურია, რაც ნიშნავს, რომ ისინი პირდაპირ შეიძლება მიესადაგოს ნებისმიერი ფორმის 1-D მიმდევრობებს. როდესაც GPT‑2‑ს ვწვრთნით გრძელ პიქსელურ მიმდევრობებად გაშლილ სურათებზე — რასაც iGPT‑ს ვუწოდებთ — ვხედავთ, რომ მოდელს, როგორც ჩანს, ესმის 2-D სურათის მახასიათებლები, როგორიცაა ობიექტის ვიზუალური სახე და კატეგორია. ამას მოწმობს მის მიერ გენერირებული თანმიმდევრული სურათის ნიმუშების მრავალფეროვანი დიაპაზონი, ადამიანის მიერ მიწოდებული ეტიკეტების გარეშეც კი. დამატებითი მტკიცებულების სახით, მოდელიდან მიღებული მახასიათებლები რამდენიმე კლასიფიკაციის მონაცემთა ნაკრებზე თანამედროვე საუკეთესო შედეგებს აღწევს და ImageNet-ზე თითქმის თანამედროვე საუკეთესო არაზედამხედველურ სიზუსტესA აჩვენებს.

შეფასება

მონაცემთა ნაკრები

ჩვენი შედეგი

საუკეთესო არა-iGPT შედეგი

ნასწავლ მახასიათებლებზე ლოგისტიკური რეგრესია (ხაზოვანი ზონდი)

CIFAR-10

96.3 iGPT‑L 32x32, 1536 მახასიათებლით

95.3 SimCLR12, 8192 მახასიათებლით

CIFAR-100

82.8 iGPT‑L 32x32, 1536 მახასიათებლით

80.2 SimCLR, 8192 მახასიათებლით

STL-10

95.5 iGPT‑L 32x32, 1536 მახასიათებლით

94.2 AMDIM13, 8192 მახასიათებლით

ImageNet

72.0 iGPT‑XLa 64x64, 15360 მახასიათებლით

76.5 SimCLR, 8192 მახასიათებლით

სრული fine-tuning

CIFAR-10

99.0 iGPT‑L 32x32, გაწვრთნილი ImageNet-ზე

99.0b GPipe,14 გაწვრთნილი ImageNet-ზე

ImageNet 32x32

66.3 iGPT‑L 32x32

70.2 Isometric Nets15

  1. ImageNet-ზე iGPT‑XL‑ისთვის მხოლოდ ხაზოვანი ზონდის სიზუსტეს ვაჩვენებთ, რადგან სხვა ექსპერიმენტები არ დასრულებულა მანამდე, სანამ სხვა სუპერკომპიუტერულ ინფრასტრუქტურაზე გადასვლა დაგვჭირდებოდა.
  2. Bit-L-მა, რომელიც JFT-ზე (300M სურათი 18K კლასით) იყო გაწვრთნილი, 99.3 შედეგს მიაღწია.

იმის ხაზგასასმელად, რომ გენერაციული17 და 18 მიმდევრობის მოდელირება19, 20, 21 და 22 ზოგადი დანიშნულების არაზედამხედველური სწავლების ალგორითმად შეიძლება ჩაითვალოს, შეგნებულად ვიყენებთ იმავე ტრანსფორმერის არქიტექტურას, რასაც GPT‑2 ენაში იყენებს. შედეგად, საუკეთესო არაზედამხედველ კონვოლუციურ ქსელებთან კონკურენტული მახასიათებლების მისაღებად მნიშვნელოვნად მეტი გამოთვლითი რესურსი გვჭირდება.13, 23, 24, 25 და 12 თუმცა, ჩვენი შედეგები მიუთითებს, რომ ახალ დომენთან შეხვედრისას, სადაც სწორი მოდელის აპრიორული წარმოდგენები უცნობია, დიდ GPT‑2‑ს შეუძლია შესანიშნავი მახასიათებლების სწავლა დომენისთვის სპეციფიკური26, 27 და 28 არქიტექტურული არჩევანების გარეშე.

იტვირთება...

ენობრივი GPT-დან სურათის GPT-მდე

ენაში არაზედამხედველმა სწავლების ალგორითმებმა, რომლებიც სიტყვების პროგნოზირებას ეყრდნობა (როგორებიცაა GPT‑2 და BERT), უკიდურესად დიდ წარმატებას მიაღწია და საუკეთესო შედეგები აჩვენა ენობრივი ამოცანების ფართო სპექტრზე. ამ წარმატების ერთ-ერთი შესაძლო მიზეზი ისაა, რომ ქვემდგომი ენობრივი ამოცანების მაგალითები ბუნებრივად ჩნდება ტექსტში: კითხვებს ხშირად მოსდევს პასუხები (რაც შეიძლება დაეხმაროს კითხვა-პასუხის ამოცანებს), ხოლო მონაკვეთებს ხშირად მოსდევს შეჯამებები (რაც შეიძლება დაეხმაროს შეჯამებას). ამის საპირისპიროდ, პიქსელების მიმდევრობები მკაფიოდ არ შეიცავს იმ სურათების ეტიკეტებს, რომლებსაც ისინი მიეკუთვნება.

ამ აშკარა ზედამხედველობის გარეშეც, მაინც არსებობს მიზეზი, თუ რატომ შეიძლება იმუშაოს GPT‑2‑მ სურათებზე: საკმარისად დიდმა ტრანსფორმერმა, რომელიც შემდეგი პიქსელის პროგნოზირებაზეა გაწვრთნილი, საბოლოოდ შეიძლება ისწავლოს მრავალფეროვანიB ნიმუშების გენერირება მკაფიოდ ამოსაცნობი ობიექტებით. როგორც კი ამას ისწავლის, იდეა, რომელიც ცნობილია როგორც „Analysis by Synthesis“29, 30 და C, მიანიშნებს, რომ მოდელს ობიექტების კატეგორიების ცოდნაც ექნება. ბევრი ადრეული გენერაციული მოდელი31, 32, 33, 34, 35 და 36 ამ იდეით იყო შთაგონებული, ხოლო უფრო ახლახან BigBiGAN37 იყო მაგალითი, რომელმაც იმედისმომცემი ნიმუშები და მახასიათებლები შექმნა. ჩვენს ნაშრომში ჯერ ვაჩვენებთ, რომ უკეთესი გენერაციული მოდელები უფრო ძლიერ კლასიფიკაციის შედეგებს აღწევენ. შემდეგ კი, GPT‑2‑ის გენერაციული შესაძლებლობების ოპტიმიზაციით, ბევრ გარემოში უმაღლესი დონის კლასიფიკაციის შედეგებს ვაღწევთ, რაც analysis by synthesis-ის სასარგებლოდ დამატებით მტკიცებულებას იძლევა.

ზოგადი არაზედამხედველური სწავლებისკენ

გენერაციული მიმდევრობის მოდელირება უნივერსალური არაზედამხედველური სწავლების ალგორითმია: რადგან ყველა ტიპის მონაცემი ბაიტების მიმდევრობებად შეიძლება იყოს წარმოდგენილი, ტრანსფორმერი დამატებითი ინჟინერიის გარეშე პირდაპირ შეიძლება იქნეს გამოყენებული ნებისმიერი ტიპის მონაცემზე. ჩვენი ნაშრომი ამ ზოგადობის ძალას ამოწმებს იმ არქიტექტურის უშუალო გამოყენებით, რომლითაც GPT‑2 ბუნებრივ ენაზე გაიწვრთნა, სურათის გენერირებისთვის. შეგნებულად ავირჩიეთ, არ ჩაგვეშენებინა ხელით კოდირებული სურათისთვის სპეციფიკური ცოდნა კონვოლუციების38 ან ისეთი ტექნიკების სახით, როგორიცაა relative attention,39 sparse attention40 და 2-D პოზიციის ემბედინგები.27

მისი ზოგადობის შედეგად, ჩვენს მეთოდს კონკურენტული შედეგების მისაღწევად არაზედამხედველ გარემოში მნიშვნელოვნად მეტი გამოთვლითი რესურსი სჭირდება. მართლაც, კონტრასტული მეთოდები41, 42, 43, 44, 45, 13, 23, 24, 25 და 12 კვლავ რჩება ყველაზე გამოთვლითად ეფექტურ გზად სურათებიდან მაღალი ხარისხის მახასიათებლების მისაღებად. თუმცა, იმით, რომ ვაჩვენეთ არაზედამხედველური ტრანსფორმერის მოდელის კონკურენტუნარიანობა საუკეთესო არაზედამხედველ კონვოლუციურ ქსელებთან,24, 25 და 12 ჩვენ მტკიცებულებას ვაძლევთ იმ აზრს, რომ ხელით კოდირებული დომენური ცოდნა შეიძლება გამოთვლითი რესურსით ჩანაცვლდეს. ახალ დომენებში,46 და 47 სადაც ხელით ჩასაშენებელი ცოდნა ბევრი არ არის, გამოთვლითი მასშტაბირება შესაფერისი მიდგომა ჩანს შესამოწმებლად.

მიდგომა

ჩვენ ImageNet-ზე ვწვრთნით iGPT‑S, iGPT‑M და iGPT‑L მოდელებს — ტრანსფორმერებს, რომლებიც შესაბამისად 76M, 455M და 1.4B პარამეტრს შეიცავს. ასევე ვწვრთნით iGPT‑XLD-ს, 6.8 მილიარდპარამეტრიან ტრანსფორმერს, ImageNet-ისა და ვებიდან აღებული სურათების ნარევზე. მკვრივი ყურადღებით გრძელი მიმდევრობების მოდელირების მაღალი გამოთვლითი ღირებულების გამო, ვწვრთნით დაბალ გარჩევადობებზე: 32x32, 48x48 და 64x64.

მიუხედავად იმისა, რომ კიდევ უფრო დაბალ გარჩევადობებზე მუშაობა გამოთვლითი ხარჯის კიდევ მეტად შესამცირებლად მაცდურია, წინა ნაშრომებმა აჩვენა, რომ ამ ზომებზე დაბლა სურათის კლასიფიკაციაში ადამიანის შედეგები სწრაფად უარესდება.48 ამის ნაცვლად, ადრეული ფერადი ეკრანების პალიტრებით შთაგონებულებმა,49 პიქსელების წარმოსადგენად საკუთარი 9-ბიტიანი ფერთა პალიტრა შევქმენით. ამ პალიტრის გამოყენება შეყვანის მიმდევრობის სიგრძეს სტანდარტულ (R, G, B) პალიტრასთან შედარებით 3-ჯერ ამცირებს, თანაც ფერს მაინც ზუსტად კოდირებს.

ექსპერიმენტული შედეგები

მოდელის წარმადობის შესაფასებლად ვიყენებთ ორ მეთოდს, და ორივე მათგანი მოიცავს ქვემდგომ კლასიფიკაციის ამოცანას. პირველი, რომელსაც ჩვენ ხაზოვან ზონდს ვუწოდებთ, გაწვრთნილ მოდელს იყენებს ქვემდგომი მონაცემთა ნაკრების სურათებიდან მახასიათებლებისE გამოსაყოფად და შემდეგ ეტიკეტებზე ლოგისტიკურ რეგრესიას აწყობს. მეორე მეთოდი მთელ მოდელს ქვემდგომ მონაცემთა ნაკრებზე სრულად აწყობსF.

რადგან შემდეგი პიქსელის პროგნოზირება აშკარად არ არის დაკავშირებული სურათის კლასიფიკაციასთან, საბოლოო ფენის მახასიათებლები შესაძლოა ობიექტის კატეგორიის ყველაზე პროგნოზირებადი არ იყოს. ჩვენი პირველი შედეგი აჩვენებს, რომ მახასიათებლების ხარისხი სიღრმის მიმართ ჯერ მკვეთრად მზარდი, შემდეგ კი ოდნავ კლებადი ფუნქციაა. ეს ქცევა მიანიშნებს, რომ ტრანსფორმერის გენერაციული მოდელი ორ ფაზად მუშაობს: პირველ ფაზაში თითოეული პოზიცია გარშემო არსებული კონტექსტიდან აგროვებს ინფორმაციას, რათა კონტექსტუალიზებული სურათის მახასიათებელი შექმნას. მეორე ფაზაში ეს კონტექსტუალიზებული მახასიათებელი გამოიყენება პირობითი შემდეგი პიქსელის პროგნოზირების ამოცანის გადასაჭრელად. ჩვენი ხაზოვანი ზონდების მიერ ნაჩვენები ეს ორსაფეხურიანი წარმადობა გვაგონებს სხვა არაზედამხედველ ნეირონულ ქსელს, bottleneck autoencoder-ს, რომელიც ხელითაა დაპროექტებული ისე, რომ შუაში არსებული მახასიათებლები გამოიყენებოდეს.

იტვირთება...

ჩვენი შემდეგი შედეგი ადგენს კავშირს გენერაციულ წარმადობასა და მახასიათებლების ხარისხს შორის. ვხედავთ, რომ როგორც ჩვენი მოდელების მასშტაბის გაზრდა, ისე უფრო მეტი იტერაციით სწავლება, უკეთეს გენერაციულ წარმადობას იძლევა, რაც პირდაპირ გადადის მახასიათებლების უკეთეს ხარისხში.

იტვირთება...

როდესაც ჩვენს მახასიათებლებს CIFAR-10, CIFAR-100 და STL-10-ზე ხაზოვანი ზონდებით ვაფასებთ, ყველა ზედამხედველურ და არაზედამხედველურ ტრანსფერულ ალგორითმზე უკეთეს შედეგს ვიღებთ. ჩვენი შედეგები სრულ fine-tuning გარემოშიც დამაჯერებელია.

ImageNet-ზე წინასწარ გაწვრთნილი

შეფასება

მოდელი

სიზუსტე

ეტიკეტების გარეშე

ეტიკეტებით

CIFAR-10

ხაზოვანი ზონდი

ResNet-15250

94.0

SimCLR12

95.3

iGPT‑L 32x32

96.3

CIFAR-100

ხაზოვანი ზონდი

ResNet-152

78.0

SimCLR

80.2

iGPT‑L 32x32

82.8

STL-10

ხაზოვანი ზონდი

AMDIM-L

94.2

iGPT‑L 32x32

95.5

CIFAR-10

Fine-tune

AutoAugment

98.5

SimCLR

98.6

GPipe

99.0

iGPT‑L

99.0

CIFAR-100

Fine-tune

iGPT‑L

88.5

SimCLR

89.0

AutoAugment

89.3

EfficientNet52

91.7

ხაზოვანი ზონდისა და fine-tuning-ის სიზუსტეების შედარება ჩვენს მოდელებსა და საუკეთესო შედეგების მქონე მოდელებს შორის, რომლებიც იყენებენ არაზედამხედველურ ან ზედამხედველურ ImageNet ტრანსფერს. ასევე ვამატებთ AutoAugment-ს, საუკეთესო შედეგის მქონე მოდელს, რომელიც CIFAR-ზე თავიდან ბოლომდეა გაწვრთნილი.

ImageNet-ზე არაზედამხედველური და თვითზედამხედველური სწავლების მიმართ ინტერესის აღორძინების ფონზე, ჩვენს მოდელებს ImageNet-ზე ხაზოვანი ზონდებითაც ვაფასებთ. ეს განსაკუთრებით რთული გარემოა, რადგან არ ვწვრთნით ImageNet-ის სტანდარტულ შეყვანის გარჩევადობაზე. მიუხედავად ამისა, 48x48 სურათებზე გაწვრთნილი iGPT‑L‑ის საუკეთესო ფენიდან მიღებულ 1536 მახასიათებელზე აგებული ხაზოვანი ზონდი 65.2% top-1 სიზუსტეს იძლევა და AlexNet-ს აჭარბებს.

კონტრასტული მეთოდები ჩვეულებრივ თავიანთ საუკეთესო შედეგებს 8192 მახასიათებელზე აქვეყნებენ, ამიტომ შედარებისთვის იდეალურად iGPT 8192-განზომილებიანი ემბედინგით უნდა შეგვეფასებინა. თუმცა, ასეთი მოდელის გაწვრთნა უკიდურესად ძვირია, ამიტომ მის მიახლოებად რამდენიმე ფენიდან მიღებულ მახასიათებლებს ვაერთებთ. სამწუხაროდ, ჩვენი მახასიათებლები ფენებს შორის კორელირებულია, ამიტომ კონკურენტუნარიანობისთვის მათი მეტი რაოდენობა გვჭირდება. iGPT‑XL‑ის 5 ფენიდან 15360 მახასიათებლის აღება 72.0% top-1 სიზუსტეს იძლევა და აჭარბებს AMDIM-ს, MoCo-ს და CPC v2-ს, თუმცა მაინც შესამჩნევად ჩამორჩება SimCLR-ს.

მეთოდი

შეყვანის გარჩევადობა

მახასიათებლები

პარამეტრები

სიზუსტე

Rotation53

original

8192

86M

55.4

iGPT‑L

32x32

1536

1362M

60.3

BigBiGAN37

original

16384

86M

61.3

iGPT‑L

48x48

1536

1362M

65.2

AMDIM13

original

8192

626M

68.1

MoCo24

original

8192

375M

68.6

iGPT‑XL

64x64

3072

6801M

68.7

SimCLR12

original

2048

24M

69.3

CPC v225

original

4096

303M

71.5

iGPT‑XL

64x64

3072 x 5

6801M

72.0

SimCLR

original

8192

375M

76.5

ჩვენს მოდელებსა და თანამედროვე საუკეთესო თვითზედამხედველურ მოდელებს შორის ხაზოვანი ზონდის სიზუსტეების შედარება. ჩვენ კონკურენტულ შედეგებს ვაღწევთ გაცილებით დაბალ შეყვანის გარჩევადობაზე სწავლების მიუხედავად, თუმცა ჩვენს მეთოდს მეტი პარამეტრი და გამოთვლითი რესურსი სჭირდება.

რადგან BERT-ის მსგავსი masked language მოდელები გენერაციულ მოდელებს ენობრივი ამოცანების უმეტესობაზე აჭარბებს, ჩვენს სურათის მოდელებზე BERT-ის წარმადობასაც ვაფასებთ. იმის ნაცვლად, რომ მოდელი წინა ყველა პიქსელზე დაყრდნობით შემდეგი პიქსელის პროგნოზირებაზე გავწვრთნათ, პიქსელების 15%-ს ვფარავთ და მოდელს ვასწავლით, რომ ისინი დაუფარავი პიქსელებიდან იწინასწარმეტყველოს. ვხედავთ, რომ მიუხედავად მნიშვნელოვნად უარესი ხაზოვანი ზონდის შედეგებისა, BERT მოდელები fine-tuning-ის დროს განსაკუთრებულად კარგ შედეგებს აჩვენებს:

იტვირთება...

მიუხედავად იმისა, რომ არაზედამხედველური სწავლება გვპირდება შესანიშნავ მახასიათებლებს ადამიანის მიერ მონიშნული მონაცემების საჭიროების გარეშე, ბოლო პერიოდში მნიშვნელოვანი პროგრესი მიღწეულია ნახევრად ზედამხედველური სწავლების უფრო შემწყნარებელ ჩარჩოში, რომელიც ადამიანის მიერ მონიშნული მონაცემების შეზღუდულ რაოდენობას უშვებს. წარმატებული ნახევრად ზედამხედველური მეთოდები ხშირად ეყრდნობა ჭკვიანურ ტექნიკებს, როგორიცაა თანმიმდევრულობის რეგულარიზაცია, მონაცემთა აუგმენტაცია ან ფსევდო-ეტიკეტირება, ხოლო წმინდად გენერაციაზე დაფუძნებული მიდგომები54 და 55 წლებია არაკონკურენტულია. ჩვენ ვაფასებთ iGPT‑LG-ს ამ ქვეველის კონკურენტულ ბენჩმარკზე და ვხედავთ, რომ არააუგმენტირებული სურათებიდან მიღებულ მახასიათებლებზე აგებული მარტივი ხაზოვანი ზონდი აჭარბებს Mean Teacher56-სა და MixMatch-ს57, თუმცა ჩამორჩება FixMatch-ს59.

მოდელი

40 ეტიკეტი

250 ეტიკეტი

4000 ეტიკეტი

Improved GAN55

81.4 ± 2.3

Mean Teacher56

67.7 ± 2.3

90.8 ± 0.2

MixMatch57

52.5 ± 11.5

89.0 ± 0.9

93.6 ± 0.1

iGPT‑L

73.2 ± 01.5

87.6 ± 0.6

94.3 ± 0.1

UDA58

71.0 ± 05.9

91.2 ± 1.1

95.1 ± 0.2

FixMatch59 RA

86.2 ± 03.4

94.9 ± 0.7

95.7 ± 0.1

FixMatch CTA

88.6 ± 03.4

94.9 ± 0.3

95.7 ± 0.2

CIFAR-10-ზე მცირე მოცულობის მონაცემების პირობებში წარმადობის შედარება. მრავალი უმონიშნო ImageNet სურათის გამოყენებით, iGPT‑L‑ს შეუძლია აჯობოს ისეთ მეთოდებს, როგორიცაა Mean Teacher და MixMatch, თუმცა მაინც ჩამორჩება თანამედროვე საუკეთესო მეთოდებს. ჩვენი ნახევრად ზედამხედველური სწავლების მიდგომა ძალიან მარტივია, რადგან iGPT‑L‑ის მახასიათებლებზე მხოლოდ ლოგისტიკური რეგრესიის კლასიფიკატორს ვარგებთ, ყოველგვარი მონაცემთა აუგმენტაციისა თუ სრული მორგების გარეშე — ეს მნიშვნელოვანი განსხვავებაა სპეციალურად დაპროექტებული ნახევრად ზედამხედველური მიდგომებისგან.

შეზღუდვები

მიუხედავად იმისა, რომ ვაჩვენეთ, რომ iGPT‑ს ძლიერი სურათის მახასიათებლების სწავლა შეუძლია, ჩვენს მიდგომას მაინც მნიშვნელოვანი შეზღუდვები აქვს. რადგან ვიყენებთ იმავე ზოგად მიმდევრობით ტრანსფორმერს, რომელიც ენაში GPT‑2‑ისთვის გამოიყენება, ჩვენი მეთოდი დიდ გამოთვლით რესურსს მოითხოვს: iGPT‑L დაახლოებით 2500 V100-დღის განმავლობაში იწვრთნებოდა, მაშინ როცა მსგავსი შედეგის მქონე MoCo24 მოდელი დაახლოებით 70 V100-დღეში შეიძლება გაიწვრთნას.

ამასთანავე, ჩვენ დაბალი გარჩევადობის შეყვანებს ტრანსფორმერით ვმოდელირებთ, მაშინ როცა თვითზედამხედველური შედეგების უმეტესობა იყენებს კონვოლუციაზე დაფუძნებულ ენკოდერებს, რომლებსაც მაღალი გარჩევადობის შეყვანების ადვილად მიღება შეუძლიათ. შემდგომი მასშტაბირებისთვის შესაძლოა საჭირო იყოს ახალი არქიტექტურა, მაგალითად, დომენისგან დამოუკიდებელი მრავალმასშტაბიანი ტრანსფორმერი. ამ შეზღუდვების გათვალისწინებით, ჩვენი ნაშრომი ძირითადად proof-of-concept დემონსტრაციას წარმოადგენს იმისა, რომ დიდ ტრანსფორმერზე დაფუძნებულ ენობრივ მოდელებს შეუძლიათ ახალი დომენებში შესანიშნავი არაზედამხედველური წარმოდგენების სწავლა, წინასწარ ჩაშენებული დომენური ცოდნის გარეშე. თუმცა, ამ მოდელების გასაწვრთნელად საჭირო მნიშვნელოვანი რესურსები და კონვოლუციურ ნეირონულ ქსელებზე დაფუძნებული მეთოდების უფრო მაღალი სიზუსტე გამორიცხავს ამ წარმოდგენების პრაქტიკულ გამოყენებას ხედვის სფეროს რეალურ სამყაროს აპლიკაციებში.

დაბოლოს, გენერაციულ მოდელებს შეიძლება ახასიათებდეთ მიკერძოებები, რომლებიც იმ მონაცემების შედეგია, რომლებზეც ისინი გაიწვრთნა. ამ მიკერძოებებიდან ბევრი სასარგებლოა — მაგალითად, ვარაუდი, რომ ყავისფერი და მწვანე პიქსელების კომბინაცია ფოთლებით დაფარულ ტოტს წარმოადგენს, და შემდეგ ამ მიკერძოების გამოყენება სურათის გასაგრძელებლად. მაგრამ ზოგი ასეთი მიკერძოება საზიანო იქნება, თუ მას სამართლიანობისა და წარმომადგენლობის პრიზმით შევხედავთ. მაგალითად, თუ მოდელი მეცნიერის ვიზუალურ წარმოდგენას უფრო მეტად მამაკაცურ სახესთან დააკავშირებს, მაშინ მან შესაძლოა მეცნიერების სურათები სისტემატურად მამაკაცურად წარმოდგენილი ადამიანებით დაასრულოს, და არა სხვადასხვა გენდერის ნაზავით. ველით, რომ დეველოპერებს სულ უფრო მეტად მოუწევთ ყურადღების მიქცევა იმ მონაცემებისთვის, რომლებსაც თავიანთ სისტემებში აწვდიან, და უკეთ გაგება იმისა, თუ როგორ უკავშირდება ეს გაწვრთნილ მოდელებში არსებულ მიკერძოებებს.

დასკვნა

ჩვენ ვაჩვენეთ, რომ 2-D ცოდნის მასშტაბში გაცვლის60 და ქსელის შუა ნაწილიდან პროგნოზირებადი მახასიათებლების არჩევის გზით, მიმდევრობითი ტრანსფორმერი შეიძლება კონკურენტული იყოს საუკეთესო კონვოლუციურ ქსელებთან არაზედამხედველური სურათის კლასიფიკაციისთვის. მნიშვნელოვანია, რომ ამ შედეგებს მივაღწიეთ GPT‑2 ენობრივი მოდელის უშუალოდ სურათის გენერირებაზე გამოყენებით. ჩვენი შედეგები მიუთითებს, რომ თავისი სიმარტივისა და ზოგადობის გამო, საკმარისი გამოთვლითი რესურსის პირობებში, მიმდევრობითი ტრანსფორმერი შესაძლოა საბოლოოდ ეფექტური გზა იყოს მრავალ დომენში შესანიშნავი მახასიათებლების სასწავლად.

თუ ამ კვლევით სფეროზე ჩვენთან მუშაობა გაინტერესებთ, ვაცხადებთ ვაკანსიებს!

სქოლიოები

  1. A

    გაზომილია ნასწავლ მახასიათებლებზე ლოგისტიკური რეგრესიით (ხაზოვანი ზონდი).

  2. B

    ტრანსფორმერი იწვრთნება ალბათობის მაქსიმიზაციაზე და, შესაბამისად, ფარავს რეჟიმებს, რაც ავტომატურად უზრუნველყოფს მისი ნიმუშების მრავალფეროვნებას.

  3. C

    analysis by synthesis-ის თავდაპირველი იდეა უფრო მეტად ლატენტური ცვლადების მქონე გენერაციული მოდელების სასარგებლო არგუმენტია, მაგრამ რადგან ლატენტური ცვლადების გარეშე გენერაციული მოდელები მონაცემთა განაწილების მოდელირებაში ბევრად უკეთესი აღმოჩნდა, ვიფიქრეთ, რომ analysis-by-synthesis ჰიპოთეზა მათთვისაც უნდა მოქმედებდეს.

  4. D

    ImageNet-ზე iGPT-XL-ისთვის მხოლოდ ხაზოვანი ზონდის სიზუსტეს ვაჩვენებთ, რადგან სხვა ექსპერიმენტები არ დასრულებულა მანამდე, სანამ სხვა სუპერკომპიუტერულ ინფრასტრუქტურაზე გადასვლა დაგვჭირდებოდა.

  5. E

    ხაზოვანი ზონდისთვის მახასიათებლების გამოსაყოფად, ვიღებთ post layernorm attention block-ის შეყვანებს რომელიმე ფენაზე და საშუალო pooling-ს ვაკეთებთ მიმდევრობის განზომილებაზე.

  6. F

    fine-tuning-ისთვის ვიღებთ post layernorm ტრანსფორმერის გამოსავალს და საშუალო pooling-ს ვაკეთებთ მიმდევრობის განზომილებაზე, როგორც კლასიფიკაციის head-ის შეყვანას.

  7. G

    გენერაციული მოდელი, რომელიც მახასიათებლებს სრულიად არაზედამხედველურად სწავლობს.

მითითებები

  1. 1
  2. 2

    Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. „Attention is All you Need(იხსნება ახალ ფანჯარაში).“ In NeurIPS 2017.

  3. 3
  4. 4

    Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). „Language Models are Unsupervised Multitask Learners(იხსნება ახალ ფანჯარაში).“ ტექნიკური ანგარიში, OpenAI.

  5. 5

    Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). „RoBERTa: A Robustly Optimized BERT Pretraining Approach(იხსნება ახალ ფანჯარაში).“ arXiv preprint.

  6. 6

    Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). „Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(იხსნება ახალ ფანჯარაში).“ arXiv preprint.

  7. 7
  8. 8
  9. 9
  10. 10
  11. 11

    Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). „Sparse attentive backtracking: Temporal credit assignment through reminding(იხსნება ახალ ფანჯარაში).“ In NeurIPS 2018.

  12. 12
  13. 13
  14. 14
  15. 15
  16. 16
  17. 17
  18. 18
  19. 19
  20. 20
  21. 21
  22. 22
  23. 23
  24. 24
  25. 25
  26. 26

    Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). „Pixel recurrent neural networks(იხსნება ახალ ფანჯარაში).“ arXiv preprint.

  27. 27

    Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). „Image transformer(იხსნება ახალ ფანჯარაში).“ In ICML 2018.

  28. 28
  29. 29
  30. 30
  31. 31
  32. 32
  33. 33
  34. 34
  35. 35
  36. 36
  37. 37
  38. 38
  39. 39
  40. 40

    Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). „Generating long sequences with sparse transformers(იხსნება ახალ ფანჯარაში).“ arXiv preprint.

  41. 41
  42. 42
  43. 43

    Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). „Distributed Representations of Words and Phrases and their Compositionality(იხსნება ახალ ფანჯარაში).“ In NeurIPS 2013.

  44. 44
  45. 45
  46. 46
  47. 47

    Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). „Biological Structure and Function Emerge from Scaling Unsupervised Learning to 250 Million Protein Sequences(იხსნება ახალ ფანჯარაში).“ bioRxiv preprint.

  48. 48

    Torralba, A., Fergus, R., Freeman, W. (2008). „80 million tiny images: A large data set for nonparametric object and scene recognition(იხსნება ახალ ფანჯარაში).“ In IEEE transactions on pattern analysis and machine intelligence.

  49. 49
  50. 50
  51. 51
  52. 52
  53. 53
  54. 54
  55. 55
  56. 56
  57. 57

    Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). „MixMatch: A Holistic Approach to Semi-Supervised Learning(იხსნება ახალ ფანჯარაში).“ In NeurIPS 2019.

  58. 58

    Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). „Unsupervised Data Augmentation for Consistency Training(იხსნება ახალ ფანჯარაში).“ arXiv preprint.

  59. 59
  60. 60

ავტორები

Mark Chen, Alec Radford და Ilya Sutskever

მადლობა

უპირველეს ყოვლისა, გვინდა მადლობა გადავუხადოთ ჩვენი ნაშრომის თანაავტორებს: Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal და David Luan.

მადლობა შემდეგ პირებს ამ ნაშრომზე უკუკავშირისა და ამ გამოშვებაში შეტანილი წვლილისთვის: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le და Ashish Vaswani.

რედაქტორი: Ashley Pilipiszyn

დიზაინი: Justin Jay Wang

გარეკანის ილუსტრაცია: Ben Barry