5 იანვარი, 2021

CLIP: ტექსტისა და სურათების დაკავშირება

ილუსტრაცია: Justin Jay Wang

იტვირთება…

წარმოგიდგენთ ნეირონულ ქსელს სახელად CLIP, რომელიც ბუნებრივი ენის ზედამხედველობიდან ვიზუალურ კონცეფციებს ეფექტიანად სწავლობს. CLIP შეიძლება გამოყენებულ იქნას ვიზუალური კლასიფიკაციის ნებისმიერ ბენჩმარკზე მხოლოდ ამოსაცნობი ვიზუალური კატეგორიების სახელების მითითებით, GPT‑2‑ისა და GPT‑3‑ის „zero-shot“ შესაძლებლობების მსგავსად.

მიუხედავად იმისა, რომ სიღრმისეულმა სწავლებამ კომპიუტერული ხედვა რადიკალურად შეცვალა, მიმდინარე მიდგომებს რამდენიმე ძირითადი პრობლემა აქვს: ტიპური ხედვის მონაცემთა ნაკრების შექმნა შრომატევადი და ძვირია, თან ისინი მხოლოდ ვიზუალური კონცეფციების ვიწრო სპექტრს ასწავლიან; სტანდარტული ხედვის მოდელები კარგია მხოლოდ ერთ ამოცანაზე და ახალ ამოცანასთან მისადაგება მნიშვნელოვან ძალისხმევას მოითხოვს; ხოლო მოდელებს, რომლებიც ბენჩმარკებზე კარგად მუშაობენ, სტრეს-ტესტებზე იმედგამაცრუებლად დაბალი შედეგიანობა აქვთ,^{1, 2, 3 და 4} რაც კომპიუტერულ ხედვაში სიღრმისეული სწავლების მთელ მიდგომას კითხვის ნიშნის ქვეშ აყენებს.

ჩვენ წარმოვადგენთ ნეირონულ ქსელს, რომელიც ამ პრობლემების მოგვარებას ისახავს მიზნად: ის იწვრთნება სურათების ფართო მრავალფეროვნებაზე ბუნებრივი ენის ზედამხედველობის მრავალფეროვან მონაცემებთან ერთად, რომლებიც ინტერნეტში უხვადაა ხელმისაწვდომი. დიზაინის მიხედვით, ქსელს შეიძლება ბუნებრივ ენაზე მიეცეს ინსტრუქცია, რათა შეასრულოს კლასიფიკაციის ბენჩმარკების დიდი მრავალფეროვნება ბენჩმარკის შედეგიანობისთვის პირდაპირი ოპტიმიზაციის გარეშე, GPT‑2‑ის⁵ და GPT‑3‑ის⁶ „zero-shot⁠(იხსნება ახალ ფანჯარაში)“ შესაძლებლობების მსგავსად. ეს მნიშვნელოვანი ცვლილებაა: რადგან ბენჩმარკისთვის პირდაპირ არ ვახდენთ ოპტიმიზაციას, ვაჩვენებთ, რომ ის ბევრად უფრო წარმომადგენლობითი ხდება: ჩვენი სისტემა ამ „მდგრადობის სხვაობას“ 75%-მდე ამცირებს, ამავდროულად კი ორიგინალ ResNet-50-ის⁷ შედეგიანობას უტოლდება ImageNet⁠(იხსნება ახალ ფანჯარაში) zero-shot-ზე, ორიგინალი 1.28M მონიშნული მაგალითებიდან არცერთის გამოყენების გარეშე.

იტვირთება...

ფონი და დაკავშირებული ნაშრომები

CLIP (Contrastive Language–Image Pre-training) ეფუძნება ნულოვანი მცდელობა/სწავლების გადატანის, ბუნებრივი ენის ზედამხედველობისა და მულტიმოდალური სწავლების ფართო კვლევით მემკვიდრეობას. ნულოვანი მონაცემებით სწავლების იდეა ათ წელზე მეტ ხანს ითვლის⁸, მაგრამ ბოლო დრომდე ის უმეტესად კომპიუტერულ ხედვაში განიხილებოდა, როგორც გზაა განზოგადებისთვის მანამდე უნახავ ობიექტთა კატეგორიებზე.^{9 და 10} კრიტიკული მიგნება იყო ბუნებრივი ენის, როგორც მოქნილი პროგნოზირების სივრცის, გამოყენება განზოგადებისა და გადატანის შესაძლებლობისთვის. 2013 წელს რიჩარდ სოჩერმა და სტენფორდის თანაავტორებმა¹¹ შექმნეს კონცეფციის მტკიცებულება CIFAR-10-ზე მოდელის გაწვრთნით, რათა მას პროგნოზები გაეკეთებინა სიტყვათა ვექტორული ემბედინგების სივრცეში, და აჩვენეს, რომ ამ მოდელს ორი მანამდე უხილავი კლასის პროგნოზირებაც შეეძლო. იმავე წელს DeVISE-მა¹² ეს მიდგომა უფრო დიდ მასშტაბზე გადაიტანა და აჩვენა, რომ შესაძლებელი იყო ImageNet მოდელის დახვეწა ისე, რომ მას თავდაპირველი 1000-საგან შემდგარი სასწავლო ნაკრების მიღმა ობიექტების სწორად პროგნოზირებაც შეძლებოდა.

CLIP-ისთვის ყველაზე შთამაგონებელი იყო ანგ ლისა და მისი თანაავტორების ნამუშევარი FAIR-ში¹³, რომლებმაც 2016 წელს აჩვენეს, რომ ბუნებრივი ენის ზედამხედველობის გამოყენება შესაძლებელს ხდიდა ნულოვანი მცდელობა/სწავლების გადატანას კომპიუტერული ხედვის რამდენიმე არსებულ კლასიფიკაციის მონაცემთა ნაკრებზე, მაგალითად, კანონიკურ ImageNet მონაცემთა ნაკრებზე. ამას მათ მიაღწიეს ImageNet CNN-ის დახვეწით ისე, რომ მას 30 მილიონი Flickr ფოტოს სათაურების, აღწერებისა და ტეგების ტექსტიდან ვიზუალური კონცეფციების ბევრად უფრო ფართო ნაკრების (visual n-grams) პროგნოზირება შეძლებოდა, და ImageNet zero-shot-ზე 11.5% სიზუსტეს მიაღწიეს.

დაბოლოს, CLIP იმ ნაშრომების ჯგუფის ნაწილია, რომლებმაც გასულ წელს ბუნებრივი ენის ზედამხედველობიდან ვიზუალური წარმოდგენების სწავლება ხელახლა განიხილეს. ეს მიმართულება იყენებს უფრო თანამედროვე არქიტექტურებს, როგორიცაა ტრანსფორმერი³², და მოიცავს VirTex-ს³³, რომელმაც გამოიკვლია ავტორეგრესიული ენობრივი მოდელი, ICMLM-ს³⁴, რომელმაც masked language modeling შეისწავლა, და ConVIRT-ს³⁵, რომელმაც CLIP-ისთვის გამოყენებული იგივე კონტრასტული მიზანი სამედიცინო გამოსახულების სფეროში განიხილა.

მიდგომა

ვაჩვენებთ, რომ მარტივი წინასწარი სწავლების ამოცანის მასშტაბირება საკმარისია, რათა გამოსახულებების კლასიფიკაციის მრავალ მონაცემთა ნაკრებზე კონკურენტული ნულოვანი მცდელობა/სწავლების შედეგიანობა მივიღოთ. ჩვენი მეთოდი ზედამხედველობის უხვად ხელმისაწვდომ წყაროს იყენებს: ინტერნეტში ნაპოვნ სურათებთან დაწყვილებულ ტექსტს. ეს მონაცემები გამოიყენება CLIP-ისთვის შემდეგი პროქსი სასწავლო ამოცანის შესაქმნელად: მოცემული სურათისთვის უნდა იწინასწარმეტყველოს, 32,768 შემთხვევითად ამორჩეული ტექსტური ფრაგმენტიდან რომელი იყო რეალურად დაწყვილებული მასთან ჩვენს მონაცემთა ნაკრებში.

ამ ამოცანის გადასაჭრელად ჩვენი ინტუიციაა, რომ CLIP მოდელებს დასჭირდებათ ისწავლონ სურათებში ვიზუალური კონცეფციების ფართო სპექტრის ამოცნობა და მათი სახელებთან დაკავშირება. შედეგად, CLIP მოდელები თითქმის ნებისმიერი ვიზუალური კლასიფიკაციის ამოცანაზე შეიძლება იქნას გამოყენებული. მაგალითად, თუ მონაცემთა ნაკრების ამოცანაა ძაღლებისა და კატების ფოტოების კლასიფიკაცია, თითოეული სურათისთვის ვამოწმებთ, CLIP მოდელი ტექსტურ აღწერას „a photo of a dog“ უფრო სავარაუდოდ უკავშირებს თუ „a photo of a cat“.

იტვირთება...

CLIP შეიქმნა იმისთვის, რომ შეემსუბუქებინა სტანდარტული სიღრმისეული სწავლების მიდგომის რამდენიმე მთავარი პრობლემა კომპიუტერულ ხედვაში:

ძვირადღირებული მონაცემთა ნაკრები: სიღრმისეული სწავლებისთვის ბევრი მონაცემია საჭირო, ხოლო ხედვის მოდელები ტრადიციულად ხელით მონიშნულ მონაცემთა ნაკრებზე იწვრთნება, რომელთა შექმნაც ძვირია და ზედამხედველობას მხოლოდ წინასწარ განსაზღვრული ვიზუალური კონცეფციების შეზღუდული რაოდენობისთვის იძლევა. ImageNet მონაცემთა ნაკრებმა, რომელიც ამ სფეროში ერთ-ერთი უდიდესი ძალისხმევა იყო, 22,000 ობიექტის კატეგორიისთვის 14 მილიონი გამოსახულების ანოტაციისთვის 25,000-ზე მეტი მუშაკი მოითხოვა. ამის საპირისპიროდ, CLIP სწავლობს ტექსტი–სურათის წყვილებიდან, რომლებიც უკვე საჯაროდ არის ხელმისაწვდომი ინტერნეტში. ძვირადღირებული დიდი მონიშნული მონაცემთა ნაკრების საჭიროების შემცირება ფართოდ არის შესწავლილი წინა ნამუშევრებში, განსაკუთრებით self-supervised learning-ში,^{14, 15 და 16} კონტრასტულ მეთოდებში,^{17, 18, 19, 20 და 21} self-training მიდგომებსა^{22 და 23} და გენერაციულ მოდელებში.^{24, 25, 26 და 27}

ვიწრო: ImageNet მოდელი კარგად პროგნოზირებს 1000 ImageNet კატეგორიას, მაგრამ „სტანდარტულად“ მხოლოდ ეს შეუძლია. თუ სხვა ამოცანის შესრულება გვინდა, ML სპეციალისტმა უნდა შექმნას ახალი მონაცემთა ნაკრები, დაამატოს გამოსავლის თავი და დახვეწოს მოდელი. ამის საპირისპიროდ, CLIP შეიძლება მოერგოს ვიზუალური კლასიფიკაციის მრავალ ამოცანას დამატებითი სასწავლო მაგალითების გარეშე. CLIP-ის ახალ ამოცანაზე მისასადაგებლად მხოლოდ ის გვჭირდება, რომ CLIP-ის ტექსტურ ენკოდერს ამ ამოცანის ვიზუალური კონცეფციების სახელები „ვუთხრათ“, და ის CLIP-ის ვიზუალური წარმოდგენებისთვის ხაზოვან კლასიფიკატორს დააბრუნებს. ამ კლასიფიკატორის სიზუსტე ხშირად სრულად ზედამხედველობით გაწვრთნილ მოდელებს კონკურენციას უწევს.

ქვემოთ ვაჩვენებთ სხვადასხვა მონაცემთა ნაკრებიდან აღებულ მაგალითებზე ნულოვანი მცდელობა/სწავლების CLIP კლასიფიკატორების შემთხვევით, წინასწარ შეურჩეველ პროგნოზებს.

იტვირთება...

დაბალი რეალური სამყაროს შედეგიანობა: ხშირად ვრცელდება ინფორმაცია, რომ სიღრმისეული სწავლების სისტემები ხედვის ბენჩმარკებზე აღწევენ ადამიანის დონეს ან მასაც კი აჭარბებენ^{28 და A}, თუმცა რეალურ გარემოში დანერგვისას მათი შედეგიანობა შეიძლება ბევრად დაბალი იყოს, ვიდრე ბენჩმარკიდან გამომდინარე მოლოდინი. სხვა სიტყვებით რომ ვთქვათ, არსებობს სხვაობა „ბენჩმარკის შედეგიანობასა“ და „რეალურ შედეგიანობას“ შორის. ჩვენი ვარაუდით, ეს სხვაობა იმიტომ ჩნდება, რომ მოდელები „თაღლითობენ“ და ოპტიმიზაციას მხოლოდ ბენჩმარკზე შედეგიანობისთვის აკეთებენ — დაახლოებით ისე, როგორც სტუდენტი, რომელმაც გამოცდა მხოლოდ წინა წლების საგამოცდო კითხვების დაზეპირებით ჩააბარა. ამის საპირისპიროდ, CLIP მოდელი შეიძლება შეფასდეს ბენჩმარკებზე მათ მონაცემებზე სწავლების გარეშე, ამიტომ ამგვარად „თაღლითობა“ არ შეუძლია. შედეგად, მისი ბენჩმარკის შედეგიანობა გაცილებით მეტად ასახავს მის რეალურ გარემოში მუშაობას. „თაღლითობის ჰიპოთეზის“ შესამოწმებლად, ასევე ვზომავთ, როგორ იცვლება CLIP-ის შედეგიანობა მაშინ, როცა მას ImageNet-ისთვის „სწავლა“ შეუძლია. როდესაც CLIP-ის მახასიათებლების თავზე ხაზოვანი კლასიფიკატორი ეწყობა, ის CLIP-ის სიზუსტეს ImageNet-ის სატესტო ნაკრებზე თითქმის 10%-ით ზრდის. თუმცა ეს კლასიფიკატორი 7 სხვა მონაცემთა ნაკრებისგან შემდგარ შეფასების პაკეტზე, რომელიც „მდგრად“ შედეგიანობას ზომავს, საშუალოდ არანაირად უკეთ არ მუშაობს.³⁰

მთავარი მიგნებები

1. CLIP ძალიან ეფექტიანია

CLIP სწავლობს გაუფილტრავი, ძალიან მრავალფეროვანი და ძალიან ხმაურიანი მონაცემებიდან და განკუთვნილია ნულოვანი მცდელობა/სწავლების რეჟიმში გამოსაყენებლად. GPT‑2‑დან და 3-დან ვიცით, რომ ასეთ მონაცემებზე გაწვრთნილ მოდელებს შეუძლიათ შთამბეჭდავი zero shot შედეგიანობის მიღწევა; თუმცა ასეთ მოდელებს მნიშვნელოვანი გამომთვლელი რესურსი სჭირდებათ. საჭირო რესურსის შესამცირებლად, ჩვენ ყურადღება გავამახვილეთ ალგორითმულ გზებზე, რათა ჩვენი მიდგომის სწავლების ეფექტიანობა გაგვეუმჯობესებინა.

ვახსენებთ ორ ალგორითმულ არჩევანს, რომლებმაც გამოთვლითი რესურსის მნიშვნელოვანი დაზოგვა მოგვცა. პირველი არჩევანი იყო ტექსტისა და გამოსახულებების დასაკავშირებლად კონტრასტული მიზნის მიღება.^{31, 17 და 35} თავდაპირველად ჩვენ გამოვიკვლიეთ გამოსახულებიდან ტექსტამდე მიდგომა, VirTex-ის მსგავსად,³³ მაგრამ ამ მიდგომის მასშტაბირებაში სირთულეებს წავაწყდით, რათა state-of-the-art შედეგიანობისთვის მიგვეღწია. მცირე და საშუალო მასშტაბის ექსპერიმენტებში აღმოვაჩინეთ, რომ CLIP-ის მიერ გამოყენებული კონტრასტული მიზანი ImageNet zero-shot კლასიფიკაციაში 4-დან 10-ჯერ უფრო ეფექტიანია. მეორე არჩევანი იყო Vision Transformer-ის მიღება,³⁶ რომელმაც სტანდარტულ ResNet-თან შედარებით გამოთვლით ეფექტიანობაში კიდევ 3-ჯერ მეტი მოგება მოგვცა. საბოლოოდ, ჩვენი საუკეთესო შედეგების მქონე CLIP მოდელი 256 GPU-ზე 2 კვირა იწვრთნება, რაც არსებული დიდი მასშტაბის გამოსახულების მოდელების მსგავსია.^{37, 23, 38 და 36}

იტვირთება...

2. CLIP მოქნილი და ზოგადია

რადგან ისინი ვიზუალური კონცეფციების ფართო სპექტრს ბუნებრივი ენიდან პირდაპირ სწავლობენ, CLIP მოდელები არსებულ ImageNet მოდელებზე მნიშვნელოვნად უფრო მოქნილი და ზოგადია. აღმოვაჩინეთ, რომ მათ შეუძლიათ ნულოვანი მცდელობა/სწავლებით მრავალი სხვადასხვა ამოცანის შესრულება. ამის დასადასტურებლად გავზომეთ CLIP-ის ნულოვანი მცდელობა/სწავლების შედეგიანობა 30-ზე მეტ სხვადასხვა მონაცემთა ნაკრებზე, მათ შორის ისეთ ამოცანებზე, როგორიცაა წვრილმარცვლოვანი ობიექტების კლასიფიკაცია, გეოლოკალიზაცია, ვიდეოებში მოქმედებების ამოცნობა და OCR.^B განსაკუთრებით, OCR-ის სწავლა საინტერესო ქცევის მაგალითია, რომელიც სტანდარტულ ImageNet მოდელებში არ გვხვდება. ზემოთ ვიზუალიზებულია თითოეული zero-shot კლასიფიკატორის შემთხვევითი, წინასწარ შეურჩეველი პროგნოზი.

ეს მიგნება ასევე აისახება ხაზოვანი პრობების გამოყენებით შესრულებულ სტანდარტულ შეფასებაში, რომელიც წარმოდგენების სწავლებას ზომავს. საუკეთესო CLIP მოდელი ჩვენს მიერ გამოცდილი 26 სხვადასხვა გადატანის მონაცემთა ნაკრებიდან 20-ზე აჭარბებს საუკეთესო საჯაროდ ხელმისაწვდომ ImageNet მოდელს — Noisy Student EfficientNet-L2-ს.²³

იტვირთება...

შეზღუდვები

მიუხედავად იმისა, რომ CLIP ჩვეულებრივ კარგად მუშაობს გავრცელებული ობიექტების ამოცნობაში, მას უჭირს უფრო აბსტრაქტულ ან სისტემურ ამოცანებზე, როგორიცაა სურათში ობიექტების რაოდენობის დათვლა, და უფრო რთულ ამოცანებზე, როგორიცაა ფოტოზე უახლოესი მანქანის სიახლოვის პროგნოზირება. ამ ორ მონაცემთა ნაკრებზე ნულოვანი მცდელობა/სწავლების CLIP მხოლოდ მცირედით ჯობია შემთხვევით მიხვედრას. ნულოვანი მცდელობა/სწავლების CLIP-ს ასევე უჭირს ამოცანაზე სპეციფიკურ მოდელებთან შედარებით ძალიან წვრილმარცვლოვან კლასიფიკაციაში, მაგალითად, მანქანის მოდელებს შორის, თვითმფრინავების ვარიანტებს შორის ან ყვავილების სახეობებს შორის განსხვავების გარჩევაში.

CLIP-ს ასევე კვლავ სუსტი განზოგადება აქვს იმ გამოსახულებებზე, რომლებიც მის წინასწარი სწავლების მონაცემთა ნაკრებში არ ყოფილა. მაგალითად, მიუხედავად იმისა, რომ CLIP სწავლობს ქმედით OCR სისტემას, MNIST მონაცემთა ნაკრების ხელნაწერ ციფრებზე შეფასებისას ნულოვანი მცდელობა/სწავლების CLIP მხოლოდ 88% სიზუსტეს აღწევს, რაც ბევრად ჩამორჩება ამ მონაცემთა ნაკრებზე ადამიანის 99.75%-იან შედეგს. საბოლოოდ, დავაკვირდით, რომ CLIP-ის ნულოვანი მცდელობა/სწავლების კლასიფიკატორები შეიძლება მგრძნობიარე იყოს ფორმულირებისადმი და ზოგჯერ კარგ შედეგამდე მისასვლელად ცდისა და შეცდომის გზით „მოთხოვნების შექმნა“ სჭირდებოდეს.

ფართო გავლენები

CLIP ადამიანებს საშუალებას აძლევს, თავად შექმნან საკუთარი კლასიფიკატორები და ხსნის ამოცანაზე სპეციფიკური სასწავლო მონაცემების საჭიროებას. თუ როგორ არის ეს კლასები დაპროექტებული, შეიძლება ძლიერ გავლენას ახდენდეს როგორც მოდელის შედეგიანობაზე, ისე მოდელის მიკერძოებებზე. მაგალითად, აღმოვაჩინეთ, რომ როცა მიეწოდება ნიშნების ნაკრები, რომელიც მოიცავს Fairface³⁹ რასობრივ ნიშნებს^C და რამდენიმე უხეშ ტერმინს, როგორიცაა „criminal“, „animal“ და ა.შ., მოდელი 0–20 წლის ადამიანების გამოსახულებებს უხეშ კატეგორიაში დაახლოებით ~32.3% სიხშირით ანაწილებს. თუმცა, როდესაც შესაძლო კლასების სიას ვუმატებთ კლასს „child“, ეს ქცევა ~8.7%-მდე მცირდება.

ამასთან, რადგან CLIP-ს არ სჭირდება ამოცანაზე სპეციფიკური სასწავლო მონაცემები, მას შეუძლია ზოგიერთი ნიშური ამოცანის უფრო მარტივად გახსნა. ამ ამოცანების ნაწილმა შეიძლება კონფიდენციალურობასა და ზედამხედველობასთან დაკავშირებული რისკები წარმოშვას, და ამ შეშფოთებას CLIP-ის შედეგიანობის შესწავლით განვიხილავთ ცნობადი ადამიანების იდენტიფიკაციაზე. CLIP-ის top-1 სიზუსტე „რეალურ გარემოში“ ცნობილი ადამიანების გამოსახულებების კლასიფიკაციაში 59.2%-ია, როცა არჩევანი 100 კანდიდატიდან ხდება, და top-1 სიზუსტე 43.3%-ია, როცა არჩევანი 1000 შესაძლო ვარიანტიდან ხდება. მიუხედავად იმისა, რომ ამ შედეგების მიღწევა ამოცანაზე არამიბმული წინასწარი სწავლებით აღსანიშნავია, ეს შედეგიანობა ფართოდ ხელმისაწვდომ საწარმოო დონის მოდელებთან შედარებით კონკურენტული არ არის. CLIP-ის მიერ წარმოქმნილ გამოწვევებს დამატებით განვიხილავთ ჩვენს ნაშრომში⁠(იხსნება ახალ ფანჯარაში), და იმედი გვაქვს, ეს სამუშაო მომავალ კვლევას შეუწყობს ხელს ასეთი მოდელების შესაძლებლობების, ნაკლოვანებებისა და მიკერძოებების დახასიათებაზე. ჩვენ გვახარებს ამგვარ საკითხებზე კვლევით საზოგადოებასთან თანამშრომლობა.

დასკვნა

CLIP-ით ჩვენ შევამოწმეთ, შეიძლება თუ არა ამოცანაზე არამიბმული წინასწარი სწავლება ინტერნეტის მასშტაბის ბუნებრივ ენაზე, რომელმაც ბოლო პერიოდში NLP-ში გარღვევა უზრუნველყო, გამოყენებულ იქნას სხვა სფეროებში სიღრმისეული სწავლების შედეგიანობის გასაუმჯობესებლადაც. ჩვენთვის შთამაგონებელია ის შედეგები, რაც ამ მიდგომის კომპიუტერულ ხედვაში გამოყენებით ჯერჯერობით ვნახეთ. GPT ოჯახის მსგავსად, CLIP წინასწარი სწავლებისას სწავლობს ამოცანების ფართო სპექტრს, რასაც ნულოვანი მცდელობა/სწავლების გადატანით ვაჩვენებთ. ასევე გვამხნევებს ჩვენი მიგნებები ImageNet-ზე, რომლებიც მიანიშნებს, რომ ნულოვანი მცდელობა/სწავლების შეფასება მოდელის შესაძლებლობების უფრო წარმომადგენლობითი საზომია.

სქოლიოები

29
2015 წელს Microsoft-ის მკვლევართა ჯგუფმა პირველად გაწვრთნა მოდელი, რომელმაც ImageNet-ზე top-5 სიზუსტეს მიაღწია და გადააჭარბა ადამიანისთვის დაფიქსირებულ top-5 სიზუსტეს.
B
მიუხედავად იმისა, რომ CLIP-ის ნულოვანი მცდელობა/სწავლება OCR შედეგები შერეულია, მისი სემანტიკური OCR წარმოდგენა საკმაოდ სასარგებლოა. როდესაც შეფასდა როგორც სურათებად დარენდერებულ SST-2 NLP მონაცემთა ნაკრებზე, CLIP-ის წარმოდგენაზე აგებული ხაზოვანი კლასიფიკატორი უტოლდება CBoW მოდელს, რომელსაც ტექსტზე პირდაპირი წვდომა აქვს. CLIP ასევე კონკურენტუნარიანია სიძულვილის შემცველი მემების გამოვლენაში, ისე რომ არ სჭირდება ground truth ტექსტი.
40
FairFace არის სახის გამოსახულებების მონაცემთა ნაკრები, რომელიც შექმნილია ასაკის, სქესისა და რასის დასაბალანსებლად, რათა შემცირდეს წინა სახის მონაცემთა ნაკრებებში გავრცელებული ასიმეტრიები. ის სქესს 2 ჯგუფად ანაწილებს: female და male, ხოლო რასას 7 ჯგუფად: White, Black, Indian, East Asian, Southeast Asian, Middle Eastern და Latino. რასისა და სქესის კლასიფიკაციებთან დაკავშირებულია თანდაყოლილი პრობლემები, როგორც, მაგალითად, აჩვენეს Bowker and Star-მა (2000) და Keyes-მა (2018). მიუხედავად იმისა, რომ FairFace-ის მონაცემთა ნაკრები ამცირებს თეთრკანიანი სახეების წილს, მას მაინც აკლია მთელი დიდი დემოგრაფიული ჯგუფების წარმომადგენლობა, რაც ფაქტობრივად შლის ასეთ კატეგორიებს. ჩვენს რიგ ექსპერიმენტებში ვიყენებთ FairFace-ის მონაცემთა ნაკრებში განსაზღვრულ 2 სქესისა და 7 რასის კატეგორიას არა იმისთვის, რომ გავამყაროთ ან მოვიწონოთ ასეთი რედუქციული კატეგორიების გამოყენება, არამედ იმისთვის, რომ შევძლოთ წინა ნამუშევრებთან შედარება.

წყაროები

1
Dodge, S., & Karam, L. (2017, July). “ადამიანისა და სიღრმისეული სწავლების ამოცნობის შედეგიანობის კვლევა და შედარება ვიზუალური დისტორციების პირობებში.⁠(იხსნება ახალ ფანჯარაში)” In ICCCN 2017.
2
Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, F. A., & Brendel, W. (2018). “ImageNet-ზე გაწვრთნილი CNN-ები მიკერძოებულია ტექსტურისკენ; ფორმაზე მიკერძოების გაზრდა სიზუსტესა და მდგრადობას აუმჯობესებს.⁠(იხსნება ახალ ფანჯარაში)” In ICLR 2019.
3
Alcorn, M. A., Li, Q., Gong, Z., Wang, C., Mai, L., Ku, W. S., & Nguyen, A. (2019). “პოზა მიიღე: ნეირონული ქსელები ადვილად ტყუვდებიან ნაცნობი ობიექტების უცნაური პოზებით.⁠(იხსნება ახალ ფანჯარაში)” In CVPR 2019.
4
Barbu, A., Mayo, D., Alverio, J., Luo, W., Wang, C., Gutfreund, D., ... & Katz, B. (2019). “Objectnet: დიდი მასშტაბის, მიკერძოების კონტროლირებადი მონაცემთა ნაკრები ობიექტების ამოცნობის მოდელების საზღვრების გასაფართოებლად.⁠(იხსნება ახალ ფანჯარაში)” In NeurIPS 2019.
5
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “ენობრივი მოდელები ზედამხედველობის გარეშე მრავალამოცანიანი შემსწავლელები არიან.⁠(იხსნება ახალ ფანჯარაში)” Technical Report, OpenAI.
6
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Agarwal, S. (2020). “ენობრივი მოდელები Few-shot სწავლების შემსწავლელები არიან.⁠(იხსნება ახალ ფანჯარაში)” In NeurIPS 2020.
7
He, K., Zhang, X., Ren, S., & Sun, J. (2016). “ღრმა რეზიდუალური სწავლება გამოსახულებების ამოცნობისთვის.⁠(იხსნება ახალ ფანჯარაში)” In CVPR 2016.
8
Larochelle, H., Erhan, D., & Bengio, Y. (2008, July). “ახალი ამოცანების ნულოვანი მონაცემებით სწავლება.⁠(იხსნება ახალ ფანჯარაში)” In AAAI 2008.
9
Lampert, C. H., Nickisch, H., & Harmeling, S. (2009, June). “უხილავი ობიექტების კლასების გამოვლენის სწავლება კლასებს შორის ატრიბუტების გადატანით.⁠(იხსნება ახალ ფანჯარაში)” In CVPR 2009.
10
Lei Ba, J., Swersky, K., & Fidler, S. (2015). “ტექსტური აღწერების გამოყენებით ღრმა zero-shot კონვოლუციური ნეირონული ქსელების პროგნოზირება.⁠(იხსნება ახალ ფანჯარაში)” In ICCV 2015.
11
Socher, R., Ganjoo, M., Manning, C. D., & Ng, A. (2013). “ნულოვანი მცდელობა/სწავლება ჯვარედინი მოდალური გადატანის გზით.⁠(იხსნება ახალ ფანჯარაში)” In NeurIPS 2013.
12
Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M. A., & Mikolov, T. (2013). “Devise: ღრმა ვიზუალურ-სემანტიკური ემბედინგის მოდელი.⁠(იხსნება ახალ ფანჯარაში)” In NeurIPS 2013.
13
Li, A., Jabri, A., Joulin, A., & van der Maaten, L. (2017). “ვებ-მონაცემებიდან ვიზუალური n-გრამების სწავლა.⁠(იხსნება ახალ ფანჯარაში)” In Proceedings of the IEEE International Conference on Computer Vision 2017.
14
Doersch, C., Gupta, A., & Efros, A. A. (2015). “ზედამხედველობის გარეშე ვიზუალური წარმოდგენების სწავლა კონტექსტის პროგნოზირებით.⁠(იხსნება ახალ ფანჯარაში)” In ICCV 2015.
15
Zhai, X., Oliver, A., Kolesnikov, A., & Beyer, L. (2019). “S4l: თვითზედამხედველობითი ნახევრადზედამხედველობითი სწავლა.⁠(იხსნება ახალ ფანჯარაში)” In ICCV 2019.
16
Grill, J. B., Strub, F., Altché, F., Tallec, C., Richemond, P. H., Buchatskaya, E., ... & Piot, B. (2020). “შექმენი საკუთარი ლატენტური წარმოდგენა: ახალი მიდგომა თვითზედამხედველობითი სწავლებისთვის.⁠(იხსნება ახალ ფანჯარაში)” In NeurIPS 2020.
17
Oord, A. V. D., Li, Y., & Vinyals, O. (2018). “წარმოდგენების სწავლება კონტრასტული პროგნოზირებადი კოდირებით.⁠(იხსნება ახალ ფანჯარაში)” arXiv preprint.
18
Hjelm, R. D., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “ღრმა წარმოდგენების სწავლა ურთიერთინფორმაციის შეფასებითა და მაქსიმიზაციით.⁠(იხსნება ახალ ფანჯარაში)” In ICLR 2019.
19
Bachman, P., Hjelm, R. D., & Buchwalter, W. (2019). “წარმოდგენების სწავლა ხედვებს შორის ურთიერთინფორმაციის მაქსიმიზაციით.⁠(იხსნება ახალ ფანჯარაში)” In NeurIPS 2019.
20
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). “იმპულსური კონტრასტი ზედამხედველობის გარეშე ვიზუალური წარმოდგენების სწავლისთვის.⁠(იხსნება ახალ ფანჯარაში)” In CVPR 2020.
21
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). “ვიზუალური წარმოდგენების კონტრასტული სწავლის მარტივი ჩარჩო.⁠(იხსნება ახალ ფანჯარაში)” arXiv preprint.
22
Lee, D. H. (2013, June). “ფსევდო-ნიშანი: ღრმა ნეირონული ქსელებისთვის მარტივი და ეფექტიანი ნახევრადზედამხედველობითი სწავლების მეთოდი.⁠(იხსნება ახალ ფანჯარაში)” In Workshop on challenges in representation learning, ICML (2013).
23
Xie, Q., Luong, M. T., Hovy, E., & Le, Q. V. (2020). “ხმაურიან სტუდენტთან self-training აუმჯობესებს imagenet კლასიფიკაციას.⁠(იხსნება ახალ ფანჯარაში)” In CVPR 2020.
24
Kingma, D. P., Mohamed, S., Jimenez Rezende, D., & Welling, M. (2014). “ნახევრადზედამხედველობითი სწავლება ღრმა გენერაციული მოდელებით.⁠(იხსნება ახალ ფანჯარაში)” In NeurIPS 2014.
25
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., & Chen, X. (2016). “GAN-ების გაწვრთნის გაუმჯობესებული ტექნიკები.⁠(იხსნება ახალ ფანჯარაში)” In NeurIPS 2016.
26
Donahue, J., & Simonyan, K. (2019). “დიდი მასშტაბის ადვერსარიული წარმოდგენების სწავლა.⁠(იხსნება ახალ ფანჯარაში)” In NeurIPS 2019.
27
Chen, M., Radford, A., Child, R., Wu, J., Jun, H., Luan, D., & Sutskever, I. (2020, November). “გენერაციული წინასწარი სწავლება პიქსელებიდან.⁠(იხსნება ახალ ფანჯარაში)” In ICML 2020.
28
He, K., Zhang, X., Ren, S., & Sun, J. (2015). “Rectifier-ებში ჩაღრმავება: ImageNet კლასიფიკაციაში ადამიანის დონის შედეგიანობის გადაჭარბება.⁠(იხსნება ახალ ფანჯარაში)” In ICCV 2015.
29
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., ... & Berg, A. C. (2015). “Imagenet-ის დიდი მასშტაბის ვიზუალური ამოცნობის გამოწვევა.⁠(იხსნება ახალ ფანჯარაში)” In IJCV 2015.
30
Taori, R., Dave, A., Shankar, V., Carlini, N., Recht, B., & Schmidt, L. (2020). “ბუნებრივ განაწილებით ცვლებზე მდგრადობის გაზომვა გამოსახულების კლასიფიკაციაში.⁠(იხსნება ახალ ფანჯარაში)” In NeurIPS 2020.
31
Sohn, K. (2016). “გაუმჯობესებული ღრმა მეტრული სწავლება მრავალკლასიანი n-pair დანაკარგის მიზნით.⁠(იხსნება ახალ ფანჯარაში)” In NeurIPS 2016.
32
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). “მთელი ყურადღება შენ გჭირდება.⁠(იხსნება ახალ ფანჯარაში)” In NeurIPS 2017.
33
Desai, K., & Johnson, J. (2020). “VirTex: ვიზუალური წარმოდგენების სწავლა ტექსტური ანოტაციებიდან.⁠(იხსნება ახალ ფანჯარაში)” arXiv preprint.
34
Sariyildiz, M. B., Perez, J., & Larlus, D. (2020). “ვიზუალური წარმოდგენების სწავლა წარწერების ანოტაციებით.⁠(იხსნება ახალ ფანჯარაში)” In ECCV 2020.
35
Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., & Langlotz, C. P. (2020). “დაწყვილებული გამოსახულებებიდან და ტექსტიდან სამედიცინო ვიზუალური წარმოდგენების კონტრასტული სწავლა.⁠(იხსნება ახალ ფანჯარაში)” arXiv preprint.
36
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Uszkoreit, J. (2020). “ერთი გამოსახულება 16x16 სიტყვის ფასია: Transformers გამოსახულებების ამოცნობისთვის მასშტაბზე.⁠(იხსნება ახალ ფანჯარაში)” arXiv preprint.
37
Mahajan, D., Girshick, R., Ramanathan, V., He, K., Paluri, M., Li, Y., ... & van der Maaten, L. (2018). “სუსტი ზედამხედველობითი წინასწარი სწავლების საზღვრების კვლევა.⁠(იხსნება ახალ ფანჯარაში)” In ECCV 2018.
38
Kolesnikov, A., Beyer, L., Zhai, X., Puigcerver, J., Yung, J., Gelly, S., & Houlsby, N. (2019). “Big Transfer (BiT): ზოგადი ვიზუალური წარმოდგენების სწავლა.⁠(იხსნება ახალ ფანჯარაში)” arXiv preprint.
39
Kärkkäinen, K., & Joo, J. (2019). “Fairface: სახის ატრიბუტების მონაცემთა ნაკრები დაბალანსებული რასის, სქესისა და ასაკისთვის.⁠(იხსნება ახალ ფანჯარაში)” arXiv preprint.
40
Bowker, G., & Star, S. L. (1999). “ნივთების დალაგება. კლასიფიკაცია და მისი შედეგები⁠(იხსნება ახალ ფანჯარაში)” Book.
41
Keyes, O. (2018). “არასწორი გენდერის მანქანები: Trans/HCI შედეგები ავტომატური გენდერის ამოცნობისთვის.⁠(იხსნება ახალ ფანჯარაში)” In Proceedings of the ACM on Human-Computer Interaction.

ავტორები

Alec Radford, Ilya Sutskever, Jong Wook Kim, Gretchen Krueger და Sandhini Agarwal

მადლიერება

გვინდა მადლობა გადავუხადოთ იმ მილიონობით ადამიანს, ვინც მონაწილეობდა იმ მონაცემების შექმნაში, რომლებზეც CLIP იწვრთნება. ასევე მადლიერები ვართ ყველა ჩვენი თანაავტორის ამ პროექტში შეტანილი წვლილისთვის. ბოლოს კი გვსურს მადლობა გადავუხადოთ Jeff Clune-ს, Miles Brundage-ს, Ryan Lowe-ს, Jakub Pachocki-ს და Vedant Misra-ს ამ ბლოგის მონახაზებზე გამოხმაურებისთვის, ხოლო Matthew Knight-ს — კოდის გამოშვების გადახედვისთვის.