DALL·E: ტექსტიდან გამოსახულებების შექმნა
ჩვენ გავწვრთენით ნეირონული ქსელი სახელად DALL·E, რომელიც ბუნებრივ ენაზე გამოხატვადი ცნებების ფართო სპექტრისთვის ტექსტური წარწერებიდან ქმნის გამოსახულებებს.

ილუსტრაცია: Justin Jay Wang
DALL·E არის GPT‑3(იხსნება ახალ ფანჯარაში)-ის 12-მილიარდპარამეტრიანი ვერსია, რომელიც ტექსტური აღწერებიდან გამოსახულებების გენერირებაზეა გაწვრთნილი ტექსტი–გამოსახულების წყვილების მონაცემთა ნაკრების გამოყენებით. აღმოვაჩინეთ, რომ მას შესაძლებლობების მრავალფეროვანი ნაკრები აქვს, მათ შორის ცხოველებისა და ობიექტების ანთროპომორფიზებული ვერსიების შექმნა, არაკავშირული ცნებების დამაჯერებლად გაერთიანება, ტექსტის რენდერინგი და არსებული გამოსახულებების ტრანსფორმაციების გამოყენება.
აგრეთვე იხილეთ: DALL·E 2, რომელიც 4-ჯერ უფრო მაღალი გარჩევადობით უფრო რეალისტურ და ზუსტ გამოსახულებებს ქმნის.
GPT‑3‑მა აჩვენა, რომ ენა შეიძლება გამოყენებულ იქნას დიდი ნეირონული ქსელისთვის ტექსტის გენერირების მრავალფეროვანი ამოცანების შესასრულებლად ინსტრუქციის მისაცემად. Image GPT-მა აჩვენა, რომ იგივე ტიპის ნეირონული ქსელი შეიძლება გამოყენებულ იქნას მაღალი სიზუსტის გამოსახულებების გენერირებისთვისაც. ჩვენ ამ მიგნებებს ვაფართოებთ, რათა ვაჩვენოთ, რომ ვიზუალური ცნებებით ენით მანიპულირება უკვე ხელმისაწვდომია.
GPT‑3‑ის მსგავსად, DALL·E არის ტრანსფორმერი ენობრივი მოდელი. იგი იღებს როგორც ტექსტს, ისე გამოსახულებას, როგორც მონაცემთა ერთ ნაკადს, რომელიც შეიცავს მაქსიმუმ 1280 token-ს, და გაწვრთნილია მაქსიმალური ალბათობის მეთოდით, რომ ყველა token-ი ერთმანეთის მიყოლებით დააგენერიროს. A
ეს სასწავლო პროცედურა DALL·E-ს საშუალებას აძლევს, არა მხოლოდ ნულიდან შექმნას გამოსახულება, არამედ აღადგინოს არსებული გამოსახულების ნებისმიერი მართკუთხა რეგიონი, რომელიც ქვედა მარჯვენა კუთხემდე ვრცელდება, ისე რომ ტექსტურ მოთხოვნასთან თანმიმდევრული იყოს.
ვაცნობიერებთ, რომ გენერაციული მოდელები-სთან დაკავშირებულ ნაშრომებს მნიშვნელოვანი და ფართო საზოგადოებრივი გავლენის პოტენციალი აქვს. მომავალში ვგეგმავთ გავაანალიზოთ, როგორ უკავშირდება DALL·E-ის მსგავსი მოდელები საზოგადოებრივ საკითხებს, როგორიცაა გარკვეულ სამუშაო პროცესებსა და პროფესიებზე ეკონომიკური გავლენა, მოდელის შედეგებში მიკერძოების პოტენციალი და ამ ტექნოლოგიით ნაგულისხმები გრძელვადიანი ეთიკური გამოწვევები.
ვხედავთ, რომ DALL·E-ს შეუძლია დამაჯერებელი გამოსახულებების შექმნა წინადადებების ძალიან ფართო მრავალფეროვნებისთვის, რომლებიც ენის კომპოზიციურ სტრუქტურას იკვლევს. ამას შემდეგ ნაწილში ინტერაქტიული ვიზუალების სერიით ვაჩვენებთ. ვიზუალებში თითოეული წარწერისთვის ნაჩვენები ნიმუშები მიღებულია 512-დან საუკეთესო 32-ის არჩევით CLIP-ით გადახარისხების შემდეგ, მაგრამ ხელით შერჩევას არ ვიყენებთ, გარდა თუმბნეილების და ცალკეული გამოსახულებებისა, რომლებიც გარეთ ჩანს.B
ვამოწმებთ DALL·E-ის უნარს, შეცვალოს ობიექტის რამდენიმე ატრიბუტი, ასევე რამდენჯერაც ის ჩნდება.
ერთდროულად რამდენიმე ობიექტის, მათი ატრიბუტებისა და სივრცითი ურთიერთმიმართებების კონტროლი ახალ გამოწვევას წარმოადგენს. მაგალითად, განვიხილოთ ფრაზა „a hedgehog wearing a red hat, yellow gloves, blue shirt, and green pants.” ამ წინადადების სწორად ინტერპრეტაციისთვის DALL·E-მ არა მხოლოდ სწორად უნდა დააკომპოზიციოს ტანსაცმლის თითოეული ნაწილი ცხოველთან, არამედ სწორად უნდა ჩამოაყალიბოს ასოციაციებიც (hat, red), (gloves, yellow), (shirt, blue) და (pants, green), მათი აღრევის გარეშე C
ჩვენ ვამოწმებთ DALL·E-ის უნარს, ეს გააკეთოს ფარდობითი პოზიციონირების, ობიექტების დაწყობისა და მრავალი ატრიბუტის კონტროლის შემთხვევაში.
მიუხედავად იმისა, რომ DALL·E მცირე რაოდენობის ობიექტების ატრიბუტებსა და პოზიციებზე კონტროლის გარკვეულ დონეს მართლაც გვთავაზობს, წარმატების მაჩვენებელი შეიძლება იმაზე იყოს დამოკიდებული, როგორ არის წარწერა ჩამოყალიბებული. რაც უფრო მეტი ობიექტი ემატება, DALL·E მიდრეკილია აერიოს ობიექტებსა და მათ ფერებს შორის ასოციაციები, და წარმატების მაჩვენებელი მკვეთრად ეცემა. ასევე აღვნიშნავთ, რომ ამ სცენარებში DALL·E წარწერის გადაფორმულირების მიმართ მყიფეა: ალტერნატიული, სემანტიკურად ეკვივალენტური წარწერები ხშირად არც ერთ სწორ ინტერპრეტაციას არ იძლევა.
ვხედავთ, რომ DALL·E ასევე იძლევა სცენის ხედვის წერტილისა და 3D სტილის კონტროლის საშუალებას, რომლითაც სცენა გამოისახება.
ამის კიდევ უფრო გასაღრმავებლად, ვამოწმებთ DALL·E-ის უნარს, თანაბრად დაშორებული კუთხეების მიმდევრობიდან თითოეულ კუთხეზე მრავალჯერ დახატოს ცნობილი ფიგურის თავი, და ვხედავთ, რომ შეგვიძლია მივიღოთ მბრუნავი თავის გლუვი ანიმაცია.
როგორც ჩანს, DALL·E-ს შეუძლია სცენებზე ოპტიკური დეფორმაციების ზოგი ტიპის გამოყენება, რასაც ვხედავთ ვარიანტებში „fisheye lens view“ და „a spherical panorama.“ ამან გვიბიძგა, შეგვესწავლა მისი უნარი, შეექმნა ანარეკლები.
„ექსტრემალური ახლო ხედისა“ და „რენტგენის“ სტილის ნიმუშებმა გვიბიძგა, კიდევ უფრო შეგვესწავლა DALL·E-ის უნარი, შიდა სტრუქტურა განივკვეთითი ხედებით, ხოლო გარე სტრუქტურა მაკრო ფოტოგრაფიით გამოესახა.
ტექსტის გამოსახულებებად თარგმნის ამოცანა არასაკმარისად არის განსაზღვრული: ერთი წარწერა, როგორც წესი, უსასრულოდ ბევრ დამაჯერებელ გამოსახულებას შეესაბამება, ამიტომ გამოსახულება ერთმნიშვნელოვნად განსაზღვრული არ არის. მაგალითად, განვიხილოთ წარწერა „a painting of a capybara sitting on a field at sunrise.” კაპიბარას ორიენტაციის მიხედვით, შესაძლოა საჭირო გახდეს ჩრდილის დახატვა, თუმცა ეს დეტალი აშკარად არასოდეს არის ნახსენები. ჩვენ ვიკვლევთ DALL·E-ის უნარს, მოაგვაროს ეს არასაკმარისი განსაზღვრულობა სამ შემთხვევაში: სტილის, გარემოსა და დროის შეცვლა; ერთი და იმავე ობიექტის დახატვა მრავალ სხვადასხვა სიტუაციაში; და ობიექტის გამოსახულების გენერირება მასზე დაწერილი კონკრეტული ტექსტით.
საიმედოობის სხვადასხვა დონით, DALL·E ბუნებრივი ენის მეშვეობით 3D რენდერინგის ძრავის შესაძლებლობების ნაწილზე წვდომას გვაძლევს. მას შეუძლია დამოუკიდებლად აკონტროლოს ობიექტების მცირე რაოდენობის ატრიბუტები და, შეზღუდულად, მათი რაოდენობა და ერთმანეთთან მიმართებით განლაგებაც. მას ასევე შეუძლია აკონტროლოს ადგილი და კუთხე, საიდანაც სცენა გამოისახება, და შექმნას ცნობილი ობიექტები კუთხისა და განათების პირობების ზუსტი სპეციფიკაციების შესაბამისად.
3D რენდერინგის ძრავისგან განსხვავებით, რომლის შეყვანებიც ერთმნიშვნელოვნად და სრულ დეტალებში უნდა იყოს მითითებული, DALL·E-ს ხშირად შეუძლია „ცარიელი ადგილების შევსება“, როცა წარწერა მიანიშნებს, რომ გამოსახულება გარკვეულ დეტალს უნდა შეიცავდეს, თუმცა ეს დეტალი აშკარად არ არის ნათქვამი.
შემდეგ, ამ შესაძლებლობების გამოყენებას ვიკვლევთ მოდისა და ინტერიერის დიზაინში.
ენის კომპოზიციური ბუნება გვაძლევს საშუალებას, ცნებები ერთმანეთს შევუთავსოთ, რათა აღვწეროთ როგორც რეალური, ისე წარმოსახვითი საგნები. ვხვდებით, რომ DALL·E-საც შეუძლია განსხვავებული იდეების შერწყმა ობიექტების სინთეზისთვის, რომელთაგან ზოგი ალბათ რეალურ სამყაროში არც იარსებებდა. ამ უნარს ორ შემთხვევაში ვიკვლევთ: სხვადასხვა ცნებიდან თვისებების ცხოველებზე გადატანით და პროდუქტების შექმნით, რომლებიც არაკავშირული ცნებებით არის შთაგონებული.
წინა ნაწილში ვიკვლევდით DALL·E-ის უნარს, რეალური სამყაროს ობიექტების გამოსახულებების გენერირებისას არაკავშირული ცნებები გაეერთიანებინა. აქ ამ უნარს ხელოვნების კონტექსტში ვიკვლევთ, ილუსტრაციების სამი ტიპისთვის: ცხოველებისა და ობიექტების ანთროპომორფიზებული ვერსიები, ცხოველთა ქიმერები და ემოჯები.
GPT‑3‑ს შეიძლება მიეცეს ინსტრუქცია, მხოლოდ აღწერისა და მის მოთხოვნაში მოცემული პასუხის გენერირების მინიშნების საფუძველზე შეასრულოს მრავალი ტიპის დავალება, დამატებითი სწავლების გარეშე. მაგალითად, როცა მას მიეწოდება ფრაზა „აქ არის წინადადება ‘a person walking his dog in the park’ ფრანგულად ნათარგმნი:“, GPT‑3 პასუხობს „un homme qui promène son chien dans le parc.“ ამ შესაძლებლობას ეწოდება ნულოვანი მცდელობა/სწავლება მსჯელობა. ჩვენ ვხედავთ, რომ DALL·E ამ შესაძლებლობას ვიზუალურ სფეროზეც ავრცელებს და, თუ მოთხოვნა სწორად არის ჩამოყალიბებული, შეუძლია შეასრულოს სურათიდან სურათზე გადატანის რამდენიმე ტიპის ამოცანა.
ჩვენ არ ველოდით, რომ ეს შესაძლებლობა გამოვლინდებოდა, და მის წასახალისებლად არც ნეირონულ ქსელში და არც სწავლების პროცედურაში ცვლილებები არ შეგვიტანია. ამ შედეგებით მოტივირებულებმა, DALL·E-ის უნარი ანალოგიური მსჯელობის ამოცანებში შევაფასეთ Raven-ის პროგრესული მატრიცებით — ვიზუალური IQ ტესტით, რომელიც მე-20 საუკუნეში ფართოდ გამოიყენებოდა.
ვხედავთ, რომ DALL·E-მ შეისწავლა გეოგრაფიული ფაქტები, ღირსშესანიშნაობები და უბნები. მისი ცოდნა ამ ცნებების შესახებ ზოგიერთ მხრივ გასაოცრად ზუსტია, ხოლო სხვაგან — მცდარი.
DALL·E-ის სივრცეში ცვალებადი ცნებების ცოდნის კვლევის გარდა, ჩვენ ასევე ვიკვლევთ მის ცოდნას დროში ცვალებადი ცნებების შესახებ.
DALL·E არის მარტივი მხოლოდ-დეკოდერის ტრანსფორმერი, რომელიც ტექსტსაც და გამოსახულებასაც იღებს, როგორც 1280 token-ის ერთ ნაკადს — 256 ტექსტისთვის და 1024 გამოსახულებისთვის — და ყველა მათგანს ავტორეგრესიულად მოდელირებს. მისი 64 self-attention შრიდან თითოეულში ყურადღების ნიღაბი საშუალებას აძლევს გამოსახულების თითოეულ token-ს, ყურადღება მიაქციოს ტექსტის ყველა token-ს. DALL·E ტექსტის token-ებისთვის იყენებს სტანდარტულ causal mask-ს, ხოლო გამოსახულების token-ებისთვის — sparse attention-ს მწკრივის, სვეტის ან კონვოლუციური ყურადღების პატერნით, შრის მიხედვით. არქიტექტურისა და სწავლების პროცედურის შესახებ მეტ დეტალს ჩვენს ნაშრომში(იხსნება ახალ ფანჯარაში) გთავაზობთ.
ტექსტიდან გამოსახულების სინთეზი კვლევის აქტიური სფეროა Reed და სხვების პიონერული ნაშრომის შემდეგ,1 რომლის მიდგომაც ტექსტის ემბედინგებზე პირობადებულ GAN-ს იყენებს. ემბედინგები წარმოიქმნება ენკოდერით, რომელიც კონტრასტული დანაკარგით არის წინასწარ გაწვრთნილი, CLIP-ის მსგავსად. StackGAN3 და StackGAN++4 გამოსახულების გარჩევადობის გასაზრდელად და ვიზუალური სიზუსტის გასაუმჯობესებლად იყენებენ მრავალმასშტაბიან GAN-ებს. AttnGAN5 აერთიანებს ყურადღების მექანიზმს ტექსტისა და გამოსახულების მახასიათებლებს შორის და დამხმარე მიზნად ტექსტ-გამოსახულების მახასიათებლების კონტრასტულ შეხამების დანაკარგს გვთავაზობს. საინტერესოა ამის შედარება ჩვენს CLIP-ით გადახარისხებასთან, რომელიც ოფლაინ ხორციელდება. სხვა ნაშრომები2, 6 და 7 სწავლებისას ზედამხედველობის დამატებით წყაროებს აერთიანებს გამოსახულების ხარისხის გასაუმჯობესებლად. ბოლოს, Nguyen და სხვების8 და Cho და სხვების9 ნაშრომები იკვლევს ნიმუშებზე დაფუძნებულ სტრატეგიებს გამოსახულების გენერირებისთვის, რომლებიც წინასწარ გაწვრთნილ მულტიმოდალურ დისკრიმინაციულ მოდელებს ეყრდნობა.
VQVAE-2(იხსნება ახალ ფანჯარაში)-ში გამოყენებული rejection sampling-ის მსგავსად, ჩვენ ყველა ინტერაქტიულ ვიზუალში თითოეული წარწერისთვის 512 ნიმუშიდან საუკეთესო 32-ის გადასახარისხებლად CLIP-ს ვიყენებთ. ეს პროცედურა შეიძლება აღქმულ იქნას როგორც ენით მართული ძიების ერთგვარი ფორმაც16 და შეიძლება ნიმუშების ხარისხზე დრამატული გავლენა ჰქონდეს.
სქოლიოები
- A
token არის ნებისმიერი სიმბოლო დისკრეტული ლექსიკონიდან; ადამიანებისთვის ინგლისური ანბანის თითოეული ასო 26-ასოიანი ანბანის token-ია. DALL·E-ის ლექსიკონს აქვს token-ები როგორც ტექსტური, ისე გამოსახულების ცნებებისთვის. კერძოდ, თითოეული გამოსახულების წარწერა წარმოდგენილია მაქსიმუმ 256 BPE-კოდირებული token-ით, ლექსიკონის ზომით 16384, ხოლო გამოსახულება წარმოდგენილია 1024 token-ით, ლექსიკონის ზომით 8192.
სწავლებისას გამოსახულებები წინასწარ მუშავდება 256x256 გარჩევადობამდე. VQVAE-ის მსგავსად, თითოეული გამოსახულება კომპრესირდება 32x32 ბადედ დისკრეტული ლატენტური კოდების გამოყენებით discrete VAE-ის მეშვეობით, რომელიც წინასწარ გავწვრთენით უწყვეტი რელაქსაციის გამოყენებით. აღმოვაჩინეთ, რომ რელაქსაციით სწავლება საჭიროებას ხსნის აშკარა codebook-ის, EMA loss-ის ან dead code revival-ის მსგავსი ხრიკების მიმართ და შესაძლებელია მასშტაბირდეს დიდი ზომის ლექსიკონებზე.
- B
დამატებითი დეტალები მოცემულია მომდევნო ნაწილში.
- 17
ამ ამოცანას ეწოდება variable binding და ის ლიტერატურაში ფართოდ არის შესწავლილი.
მითითებები
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “გენერაციული მოწინააღმდეგეობრივი ტექსტიდან გამოსახულების სინთეზი(იხსნება ახალ ფანჯარაში)”. In ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “რა და სად უნდა დაიხატოს — ამის სწავლა(იხსნება ახალ ფანჯარაში)”. In NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: ტექსტიდან ფოტორეალისტური გამოსახულების სინთეზი შრეობრივი გენერაციული მოწინააღმდეგეობრივი ქსელებით(იხსნება ახალ ფანჯარაში)”. In ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: რეალისტური გამოსახულების სინთეზი შრეობრივი გენერაციული მოწინააღმდეგეობრივი ქსელებით(იხსნება ახალ ფანჯარაში)”. In IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: დეტალიზებული სურათის გენერირება ტექსტიდან ყურადღების მექანიზმის მქონე გენერაციული მოწინააღმდეგეობრივი ქსელებით(იხსნება ახალ ფანჯარაში).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “ობიექტზე ორიენტირებული ტექსტიდან გამოსახულების სინთეზი მოწინააღმდეგეობრივი სწავლებით(იხსნება ახალ ფანჯარაში)”. In CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “ტექსტიდან სურათის გენერირება, რომელიც დეტალიზებული მომხმარებლის ყურადღებითაა დაფუძნებული(იხსნება ახალ ფანჯარაში)”. In WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). “Plug & play გენერაციული ქსელები: გამოსახულებების პირობითი იტერაციული გენერირება ლატენტურ სივრცეში(იხსნება ახალ ფანჯარაში).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: დახატე, მიაწერე და უპასუხე კითხვებს მულტიმოდალური ტრანსფორმერებით(იხსნება ახალ ფანჯარაში)”. EMNLP 2020.
- 10
Kingma, Diederik P., and Max Welling. “ავტოკოდირებადი ვარიანციული ბაიესი(იხსნება ახალ ფანჯარაში).” arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. “სტოქასტური backpropagation და მიახლოებითი ინფერენცია ღრმა გენერაციულ მოდელებში(იხსნება ახალ ფანჯარაში).” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). “კატეგორიული ხელახალი პარამეტრიზაცია Gumbel-softmax-ით(იხსნება ახალ ფანჯარაში)”.
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “Concrete განაწილება: დისკრეტული შემთხვევითი ცვლადების უწყვეტი რელაქსაცია(იხსნება ახალ ფანჯარაში)”.
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “ნეირონული დისკრეტული რეპრეზენტაციების სწავლა(იხსნება ახალ ფანჯარაში)”.
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “მრავალფეროვანი მაღალი სიზუსტის გამოსახულებების გენერირება VQ-VAE-2-ით(იხსნება ახალ ფანჯარაში)”.
- 16
Andreas, J., Klein, D., Levine, S. (2017). “სწავლა Latent Language-ით(იხსნება ახალ ფანჯარაში)”.
- 17
- 18
- 19
- 20
Kanerva, P. (1997). “სრულად განაწილებული რეპრეზენტაციები(იხსნება ახალ ფანჯარაში)”.


