5 იანვარი, 2021

DALL·E: ტექსტიდან გამოსახულებების შექმნა

ჩვენ გავწვრთენით ნეირონული ქსელი სახელად DALL·E, რომელიც ბუნებრივ ენაზე გამოხატვადი ცნებების ფართო სპექტრისთვის ტექსტური წარწერებიდან ქმნის გამოსახულებებს.

ილუსტრაცია: Justin Jay Wang

იტვირთება…

DALL·E არის GPT‑3⁠(იხსნება ახალ ფანჯარაში)-ის 12-მილიარდპარამეტრიანი ვერსია, რომელიც ტექსტური აღწერებიდან გამოსახულებების გენერირებაზეა გაწვრთნილი ტექსტი–გამოსახულების წყვილების მონაცემთა ნაკრების გამოყენებით. აღმოვაჩინეთ, რომ მას შესაძლებლობების მრავალფეროვანი ნაკრები აქვს, მათ შორის ცხოველებისა და ობიექტების ანთროპომორფიზებული ვერსიების შექმნა, არაკავშირული ცნებების დამაჯერებლად გაერთიანება, ტექსტის რენდერინგი და არსებული გამოსახულებების ტრანსფორმაციების გამოყენება.

აგრეთვე იხილეთ: DALL·E 2⁠, რომელიც 4-ჯერ უფრო მაღალი გარჩევადობით უფრო რეალისტურ და ზუსტ გამოსახულებებს ქმნის.

იტვირთება...

GPT‑3‑მა აჩვენა, რომ ენა შეიძლება გამოყენებულ იქნას დიდი ნეირონული ქსელისთვის ტექსტის გენერირების მრავალფეროვანი ამოცანების შესასრულებლად ინსტრუქციის მისაცემად. Image GPT⁠-მა აჩვენა, რომ იგივე ტიპის ნეირონული ქსელი შეიძლება გამოყენებულ იქნას მაღალი სიზუსტის გამოსახულებების გენერირებისთვისაც. ჩვენ ამ მიგნებებს ვაფართოებთ, რათა ვაჩვენოთ, რომ ვიზუალური ცნებებით ენით მანიპულირება უკვე ხელმისაწვდომია.

მიმოხილვა

GPT‑3‑ის მსგავსად, DALL·E არის ტრანსფორმერი ენობრივი მოდელი. იგი იღებს როგორც ტექსტს, ისე გამოსახულებას, როგორც მონაცემთა ერთ ნაკადს, რომელიც შეიცავს მაქსიმუმ 1280 token-ს, და გაწვრთნილია მაქსიმალური ალბათობის მეთოდით, რომ ყველა token-ი ერთმანეთის მიყოლებით დააგენერიროს. ^A

ეს სასწავლო პროცედურა DALL·E-ს საშუალებას აძლევს, არა მხოლოდ ნულიდან შექმნას გამოსახულება, არამედ აღადგინოს არსებული გამოსახულების ნებისმიერი მართკუთხა რეგიონი, რომელიც ქვედა მარჯვენა კუთხემდე ვრცელდება, ისე რომ ტექსტურ მოთხოვნასთან თანმიმდევრული იყოს.

ვაცნობიერებთ, რომ გენერაციული მოდელები-სთან დაკავშირებულ ნაშრომებს მნიშვნელოვანი და ფართო საზოგადოებრივი გავლენის პოტენციალი აქვს. მომავალში ვგეგმავთ გავაანალიზოთ, როგორ უკავშირდება DALL·E-ის მსგავსი მოდელები საზოგადოებრივ საკითხებს, როგორიცაა გარკვეულ სამუშაო პროცესებსა და პროფესიებზე ეკონომიკური გავლენა, მოდელის შედეგებში მიკერძოების პოტენციალი და ამ ტექნოლოგიით ნაგულისხმები გრძელვადიანი ეთიკური გამოწვევები.

შესაძლებლობები

ვხედავთ, რომ DALL·E-ს შეუძლია დამაჯერებელი გამოსახულებების შექმნა წინადადებების ძალიან ფართო მრავალფეროვნებისთვის, რომლებიც ენის კომპოზიციურ სტრუქტურას იკვლევს. ამას შემდეგ ნაწილში ინტერაქტიული ვიზუალების სერიით ვაჩვენებთ. ვიზუალებში თითოეული წარწერისთვის ნაჩვენები ნიმუშები მიღებულია 512-დან საუკეთესო 32-ის არჩევით CLIP⁠-ით გადახარისხების შემდეგ, მაგრამ ხელით შერჩევას არ ვიყენებთ, გარდა თუმბნეილების და ცალკეული გამოსახულებებისა, რომლებიც გარეთ ჩანს.^B

ატრიბუტების კონტროლი

ვამოწმებთ DALL·E-ის უნარს, შეცვალოს ობიექტის რამდენიმე ატრიბუტი, ასევე რამდენჯერაც ის ჩნდება.

იტვირთება...

მრავალი ობიექტის დახატვა

ერთდროულად რამდენიმე ობიექტის, მათი ატრიბუტებისა და სივრცითი ურთიერთმიმართებების კონტროლი ახალ გამოწვევას წარმოადგენს. მაგალითად, განვიხილოთ ფრაზა „a hedgehog wearing a red hat, yellow gloves, blue shirt, and green pants.” ამ წინადადების სწორად ინტერპრეტაციისთვის DALL·E-მ არა მხოლოდ სწორად უნდა დააკომპოზიციოს ტანსაცმლის თითოეული ნაწილი ცხოველთან, არამედ სწორად უნდა ჩამოაყალიბოს ასოციაციებიც (hat, red), (gloves, yellow), (shirt, blue) და (pants, green), მათი აღრევის გარეშე ^C

ჩვენ ვამოწმებთ DALL·E-ის უნარს, ეს გააკეთოს ფარდობითი პოზიციონირების, ობიექტების დაწყობისა და მრავალი ატრიბუტის კონტროლის შემთხვევაში.

იტვირთება...

მიუხედავად იმისა, რომ DALL·E მცირე რაოდენობის ობიექტების ატრიბუტებსა და პოზიციებზე კონტროლის გარკვეულ დონეს მართლაც გვთავაზობს, წარმატების მაჩვენებელი შეიძლება იმაზე იყოს დამოკიდებული, როგორ არის წარწერა ჩამოყალიბებული. რაც უფრო მეტი ობიექტი ემატება, DALL·E მიდრეკილია აერიოს ობიექტებსა და მათ ფერებს შორის ასოციაციები, და წარმატების მაჩვენებელი მკვეთრად ეცემა. ასევე აღვნიშნავთ, რომ ამ სცენარებში DALL·E წარწერის გადაფორმულირების მიმართ მყიფეა: ალტერნატიული, სემანტიკურად ეკვივალენტური წარწერები ხშირად არც ერთ სწორ ინტერპრეტაციას არ იძლევა.

პერსპექტივისა და სამგანზომილებიანობის ვიზუალიზაცია

ვხედავთ, რომ DALL·E ასევე იძლევა სცენის ხედვის წერტილისა და 3D სტილის კონტროლის საშუალებას, რომლითაც სცენა გამოისახება.

იტვირთება...

ამის კიდევ უფრო გასაღრმავებლად, ვამოწმებთ DALL·E-ის უნარს, თანაბრად დაშორებული კუთხეების მიმდევრობიდან თითოეულ კუთხეზე მრავალჯერ დახატოს ცნობილი ფიგურის თავი, და ვხედავთ, რომ შეგვიძლია მივიღოთ მბრუნავი თავის გლუვი ანიმაცია.

იტვირთება...

როგორც ჩანს, DALL·E-ს შეუძლია სცენებზე ოპტიკური დეფორმაციების ზოგი ტიპის გამოყენება, რასაც ვხედავთ ვარიანტებში „fisheye lens view“ და „a spherical panorama.“ ამან გვიბიძგა, შეგვესწავლა მისი უნარი, შეექმნა ანარეკლები.

იტვირთება...

შიდა და გარე სტრუქტურის ვიზუალიზაცია

„ექსტრემალური ახლო ხედისა“ და „რენტგენის“ სტილის ნიმუშებმა გვიბიძგა, კიდევ უფრო შეგვესწავლა DALL·E-ის უნარი, შიდა სტრუქტურა განივკვეთითი ხედებით, ხოლო გარე სტრუქტურა მაკრო ფოტოგრაფიით გამოესახა.

იტვირთება...

კონტექსტური დეტალების გამოტანა

ტექსტის გამოსახულებებად თარგმნის ამოცანა არასაკმარისად არის განსაზღვრული: ერთი წარწერა, როგორც წესი, უსასრულოდ ბევრ დამაჯერებელ გამოსახულებას შეესაბამება, ამიტომ გამოსახულება ერთმნიშვნელოვნად განსაზღვრული არ არის. მაგალითად, განვიხილოთ წარწერა „a painting of a capybara sitting on a field at sunrise.” კაპიბარას ორიენტაციის მიხედვით, შესაძლოა საჭირო გახდეს ჩრდილის დახატვა, თუმცა ეს დეტალი აშკარად არასოდეს არის ნახსენები. ჩვენ ვიკვლევთ DALL·E-ის უნარს, მოაგვაროს ეს არასაკმარისი განსაზღვრულობა სამ შემთხვევაში: სტილის, გარემოსა და დროის შეცვლა; ერთი და იმავე ობიექტის დახატვა მრავალ სხვადასხვა სიტუაციაში; და ობიექტის გამოსახულების გენერირება მასზე დაწერილი კონკრეტული ტექსტით.

იტვირთება...

საიმედოობის სხვადასხვა დონით, DALL·E ბუნებრივი ენის მეშვეობით 3D რენდერინგის ძრავის შესაძლებლობების ნაწილზე წვდომას გვაძლევს. მას შეუძლია დამოუკიდებლად აკონტროლოს ობიექტების მცირე რაოდენობის ატრიბუტები და, შეზღუდულად, მათი რაოდენობა და ერთმანეთთან მიმართებით განლაგებაც. მას ასევე შეუძლია აკონტროლოს ადგილი და კუთხე, საიდანაც სცენა გამოისახება, და შექმნას ცნობილი ობიექტები კუთხისა და განათების პირობების ზუსტი სპეციფიკაციების შესაბამისად.

3D რენდერინგის ძრავისგან განსხვავებით, რომლის შეყვანებიც ერთმნიშვნელოვნად და სრულ დეტალებში უნდა იყოს მითითებული, DALL·E-ს ხშირად შეუძლია „ცარიელი ადგილების შევსება“, როცა წარწერა მიანიშნებს, რომ გამოსახულება გარკვეულ დეტალს უნდა შეიცავდეს, თუმცა ეს დეტალი აშკარად არ არის ნათქვამი.

წინა შესაძლებლობების გამოყენებები

შემდეგ, ამ შესაძლებლობების გამოყენებას ვიკვლევთ მოდისა და ინტერიერის დიზაინში.

იტვირთება...

არაკავშირული ცნებების გაერთიანება

ენის კომპოზიციური ბუნება გვაძლევს საშუალებას, ცნებები ერთმანეთს შევუთავსოთ, რათა აღვწეროთ როგორც რეალური, ისე წარმოსახვითი საგნები. ვხვდებით, რომ DALL·E-საც შეუძლია განსხვავებული იდეების შერწყმა ობიექტების სინთეზისთვის, რომელთაგან ზოგი ალბათ რეალურ სამყაროში არც იარსებებდა. ამ უნარს ორ შემთხვევაში ვიკვლევთ: სხვადასხვა ცნებიდან თვისებების ცხოველებზე გადატანით და პროდუქტების შექმნით, რომლებიც არაკავშირული ცნებებით არის შთაგონებული.

იტვირთება...

ცხოველების ილუსტრაციები

წინა ნაწილში ვიკვლევდით DALL·E-ის უნარს, რეალური სამყაროს ობიექტების გამოსახულებების გენერირებისას არაკავშირული ცნებები გაეერთიანებინა. აქ ამ უნარს ხელოვნების კონტექსტში ვიკვლევთ, ილუსტრაციების სამი ტიპისთვის: ცხოველებისა და ობიექტების ანთროპომორფიზებული ვერსიები, ცხოველთა ქიმერები და ემოჯები.

იტვირთება...

ნულოვანი მცდელობა/სწავლება ვიზუალური მსჯელობა

GPT‑3‑ს შეიძლება მიეცეს ინსტრუქცია, მხოლოდ აღწერისა და მის მოთხოვნაში მოცემული პასუხის გენერირების მინიშნების საფუძველზე შეასრულოს მრავალი ტიპის დავალება, დამატებითი სწავლების გარეშე. მაგალითად, როცა მას მიეწოდება ფრაზა „აქ არის წინადადება ‘a person walking his dog in the park’ ფრანგულად ნათარგმნი:“, GPT‑3 პასუხობს „un homme qui promène son chien dans le parc.“ ამ შესაძლებლობას ეწოდება ნულოვანი მცდელობა/სწავლება მსჯელობა. ჩვენ ვხედავთ, რომ DALL·E ამ შესაძლებლობას ვიზუალურ სფეროზეც ავრცელებს და, თუ მოთხოვნა სწორად არის ჩამოყალიბებული, შეუძლია შეასრულოს სურათიდან სურათზე გადატანის რამდენიმე ტიპის ამოცანა.

იტვირთება...

ჩვენ არ ველოდით, რომ ეს შესაძლებლობა გამოვლინდებოდა, და მის წასახალისებლად არც ნეირონულ ქსელში და არც სწავლების პროცედურაში ცვლილებები არ შეგვიტანია. ამ შედეგებით მოტივირებულებმა, DALL·E-ის უნარი ანალოგიური მსჯელობის ამოცანებში შევაფასეთ Raven-ის პროგრესული მატრიცებით — ვიზუალური IQ ტესტით, რომელიც მე-20 საუკუნეში ფართოდ გამოიყენებოდა.

იტვირთება...

გეოგრაფიული ცოდნა

ვხედავთ, რომ DALL·E-მ შეისწავლა გეოგრაფიული ფაქტები, ღირსშესანიშნაობები და უბნები. მისი ცოდნა ამ ცნებების შესახებ ზოგიერთ მხრივ გასაოცრად ზუსტია, ხოლო სხვაგან — მცდარი.

იტვირთება...

დროითი ცოდნა

DALL·E-ის სივრცეში ცვალებადი ცნებების ცოდნის კვლევის გარდა, ჩვენ ასევე ვიკვლევთ მის ცოდნას დროში ცვალებადი ცნებების შესახებ.

იტვირთება...

მიდგომისა და წინა ნაშრომების შეჯამება

DALL·E არის მარტივი მხოლოდ-დეკოდერის ტრანსფორმერი, რომელიც ტექსტსაც და გამოსახულებასაც იღებს, როგორც 1280 token-ის ერთ ნაკადს — 256 ტექსტისთვის და 1024 გამოსახულებისთვის — და ყველა მათგანს ავტორეგრესიულად მოდელირებს. მისი 64 self-attention შრიდან თითოეულში ყურადღების ნიღაბი საშუალებას აძლევს გამოსახულების თითოეულ token-ს, ყურადღება მიაქციოს ტექსტის ყველა token-ს. DALL·E ტექსტის token-ებისთვის იყენებს სტანდარტულ causal mask-ს, ხოლო გამოსახულების token-ებისთვის — sparse attention-ს მწკრივის, სვეტის ან კონვოლუციური ყურადღების პატერნით, შრის მიხედვით. არქიტექტურისა და სწავლების პროცედურის შესახებ მეტ დეტალს ჩვენს ნაშრომში⁠(იხსნება ახალ ფანჯარაში) გთავაზობთ.

ტექსტიდან გამოსახულების სინთეზი კვლევის აქტიური სფეროა Reed და სხვების პიონერული ნაშრომის შემდეგ,¹ რომლის მიდგომაც ტექსტის ემბედინგებზე პირობადებულ GAN-ს იყენებს. ემბედინგები წარმოიქმნება ენკოდერით, რომელიც კონტრასტული დანაკარგით არის წინასწარ გაწვრთნილი, CLIP-ის მსგავსად. StackGAN³ და StackGAN++⁴ გამოსახულების გარჩევადობის გასაზრდელად და ვიზუალური სიზუსტის გასაუმჯობესებლად იყენებენ მრავალმასშტაბიან GAN-ებს. AttnGAN⁵ აერთიანებს ყურადღების მექანიზმს ტექსტისა და გამოსახულების მახასიათებლებს შორის და დამხმარე მიზნად ტექსტ-გამოსახულების მახასიათებლების კონტრასტულ შეხამების დანაკარგს გვთავაზობს. საინტერესოა ამის შედარება ჩვენს CLIP-ით გადახარისხებასთან, რომელიც ოფლაინ ხორციელდება. სხვა ნაშრომები^{2, 6 და 7} სწავლებისას ზედამხედველობის დამატებით წყაროებს აერთიანებს გამოსახულების ხარისხის გასაუმჯობესებლად. ბოლოს, Nguyen და სხვების⁸ და Cho და სხვების⁹ ნაშრომები იკვლევს ნიმუშებზე დაფუძნებულ სტრატეგიებს გამოსახულების გენერირებისთვის, რომლებიც წინასწარ გაწვრთნილ მულტიმოდალურ დისკრიმინაციულ მოდელებს ეყრდნობა.

VQVAE-2⁠(იხსნება ახალ ფანჯარაში)-ში გამოყენებული rejection sampling-ის მსგავსად, ჩვენ ყველა ინტერაქტიულ ვიზუალში თითოეული წარწერისთვის 512 ნიმუშიდან საუკეთესო 32-ის გადასახარისხებლად CLIP⁠-ს ვიყენებთ. ეს პროცედურა შეიძლება აღქმულ იქნას როგორც ენით მართული ძიების ერთგვარი ფორმაც¹⁶ და შეიძლება ნიმუშების ხარისხზე დრამატული გავლენა ჰქონდეს.

იტვირთება...

სქოლიოები

A
token არის ნებისმიერი სიმბოლო დისკრეტული ლექსიკონიდან; ადამიანებისთვის ინგლისური ანბანის თითოეული ასო 26-ასოიანი ანბანის token-ია. DALL·E-ის ლექსიკონს აქვს token-ები როგორც ტექსტური, ისე გამოსახულების ცნებებისთვის. კერძოდ, თითოეული გამოსახულების წარწერა წარმოდგენილია მაქსიმუმ 256 BPE-კოდირებული token-ით, ლექსიკონის ზომით 16384, ხოლო გამოსახულება წარმოდგენილია 1024 token-ით, ლექსიკონის ზომით 8192.

სწავლებისას გამოსახულებები წინასწარ მუშავდება 256x256 გარჩევადობამდე. VQVAE-ის მსგავსად, თითოეული გამოსახულება კომპრესირდება 32x32 ბადედ დისკრეტული ლატენტური კოდების გამოყენებით discrete VAE-ის მეშვეობით, რომელიც წინასწარ გავწვრთენით უწყვეტი რელაქსაციის გამოყენებით. აღმოვაჩინეთ, რომ რელაქსაციით სწავლება საჭიროებას ხსნის აშკარა codebook-ის, EMA loss-ის ან dead code revival-ის მსგავსი ხრიკების მიმართ და შესაძლებელია მასშტაბირდეს დიდი ზომის ლექსიკონებზე.