Enero 5, 2021

DALL·E: Gumagawa ng mga larawan mula sa text

Nagsanay kami ng neural network na tinatawag na DALL·E na gumagawa ng mga larawan mula sa mga text caption para sa malawak na hanay ng mga konseptong maipapahayag sa natural na wika.

Ilustrasyon: Justin Jay Wang

Naglo-load…

Ang DALL·E ay isang bersyon ng GPT‑3⁠(magbubukas sa bagong window) na may 12-bilyong parameter na sinanay para bumuo ng mga larawan mula sa mga deskripsyon ng text, gamit ang dataset ng mga pares ng text at larawan. Natuklasan namin na mayroon itong magkakaibang hanay ng mga kakayahan, kabilang ang paglikha ng mga antropomorpikong bersyon ng mga hayop at bagay, pagsasama-sama ng mga hindi magkakaugnay na konsepto sa mga kapani-paniwalang paraan, pag-render ng text, at paglalapat ng mga transpormasyon sa mga umiiral na larawan.

Tingnan din: DALL·E 2⁠, na bumubuo ng mas makatotohanan at tumpak na mga larawan na may 4x na mas mataas na resolusyon.

Naglo-load...

Ipinakita ng GPT‑3 na maaaring gamitin ang wika para turuan ang malaking neural network na magsagawa ng iba't ibang gawain sa pagbuo ng text. Ang Image GPT⁠ ay nagpakita na maaari ring gamitin ang parehong uri ng neural network para bumuo ng mga larawan na may mataas na katapatan. Pinapalawak namin ang mga natuklasang ito para ipakita na abot-kamay na ang pagmamanipula ng mga visual na konsepto sa pamamagitan ng wika.

Pangkalahatang-ideya

Tulad ng GPT‑3, ang DALL·E ay transformer na modelo ng wika. Tumatanggap ito ng text at larawan bilang iisang stream ng data na may hanggang 1,280 token, at sinasanay gamit ang maximum likelihood para isa-isang i-generate ang lahat ng token. ^A

Sa pamamagitan ng pamamaraang ito ng pagsasanay, hindi lang gumagawa ang DALL E ng larawan mula sa simula, kundi pati na rin muling buuin ang anumang rectangular na bahagi ng umiiral na larawan na umaabot sa ibabang-kanang sulok, sa paraang naaayon sa text prompt.

Kinikilala namin na ang gawaing may kinalaman sa mga generative modelo ay may potensiyal na magdulot ng malaki at malawak na epekto sa lipunan. Sa hinaharap, plano naming suriin kung paano nauugnay ang mga modelo tulad ng DALL·E sa mga isyung panlipunan tulad ng epekto sa ekonomiya sa ilang mga proseso ng trabaho at propesyon, ang potensyal para sa pagkiling sa mga output ng modelo, at ang mas matagalang mga hamon sa etika na ipinahihiwatig ng teknolohiyang ito.

Mga Kakayahan

Natuklasan namin na kayang gumawa ng DALL·E ng mga makatotohanang larawan para sa iba't ibang pangungusap na tumutuklas sa komposisyunal na istruktura ng wika. Ipinapakita namin ito gamit ang isang serye ng mga interaktibong biswal sa susunod na seksyon. Ang mga sample na ipinapakita para sa bawat caption sa mga visual ay nakuha sa pamamagitan ng pagkuha ng nangungunang 32 mula sa 512 pagkatapos ng muling pagraranggo gamit ang CLIP⁠, pero hindi kami gumagamit ng anumang manu-manong pagpili, maliban sa mga thumbnail at mga standalone na larawan na lumilitaw sa labas.^B

Pagkontrol ng mga katangian

Sinusubukan namin ang kakayahan ng DALL·E na baguhin ang ilang katangian ng isang bagay, pati na rin ang dami ng beses na lumilitaw ito.

Naglo-load...

Pagguhit ng maraming bagay

Ang sabay-sabay na pagkontrol sa maraming bagay, ang kanilang mga katangian, at ang kanilang mga spatial na relasyon ay nagdudulot ng bagong hamon. Halimbawa, isaalang-alang ang pariralang "isang hedgehog na may suot na pulang sumbrero, dilaw na guwantes, asul na kamiseta, at berdeng pantalon." Para tamang maunawaan ang pangungusap na ito, hindi lang dapat tama na iugnay ng DALL·E ang bawat piraso ng kasuotan sa hayop, kundi pati na rin ang pagbuo ng mga asosasyon (sumbrero, pula), (guwantes, dilaw), (kamisa, asul), at (pantalon, berde) nang hindi nagkakamali ^C

Sinusuri namin ang kakayahan ng DALL·E na gawin ito para sa relatibong pagpoposisyon, pag-stack ng mga bagay, at pagkontrol sa maraming attribute.

Naglo-load...

Bagaman nagbibigay ang DALL·E ng ilang antas ng kontrol sa mga katangian at posisyon ng ilang bagay, nakadepende pa rin ang tagumpay nito sa kung paano binuo ang kapsyon. Habang mas maraming bagay ang ipinapakilala, mas nalilito ang DALL·E sa pagtutugma ng mga bagay at ng kanilang mga kulay, at biglaang bumababa ang tagumpay nito. Napansin din namin na mahina ang pagganap ng DALL·E kapag binago ang pagkakapahayag ng kapsyon sa ganitong mga sitwasyon: madalas na walang tamang interpretasyon ang mga alternatibo pero semantikong kaparehong kapsyon.

Pagpapakita ng perspektibo at tatlong-dimensional na anyo

Natuklasan namin na ang DALL·E ay nagbibigay-daan din sa pagkontrol sa pananaw ng isang eksena at sa 3D na istilo kung saan ito na-render.

Naglo-load...

Para higit pang tuklasin ito, sinusubukan namin ang kakayahan ng DALL·E na paulit-ulit iguhit ang ulo ng isang kilalang tao sa bawat anggulo mula sa isang sunod-sunod na pantay na pagitan ng mga anggulo, at natuklasan namin na maaari kaming makabuo ng maayos na animation ng umiikot na ulo.

Naglo-load...

Mukhang kayang mag-apply ng DALL·E ng ilang uri ng mga optical distortion sa mga eksena, gaya ng nakikita natin sa mga opsyon na “fisheye lens view” at “spherical panorama.” Ito ang nag-udyok sa amin na tuklasin ang kakayahan nitong bumuo ng mga repleksyon.

Naglo-load...

Pagpapakita ng panloob at panlabas na estruktura

Dahil sa mga sample mula sa ‘extreme close-up view’ at ‘x-ray’ na estilo, pinagpatuloy namin ang pagsusuri sa kakayahan ng DALL·E na ipakita ang internal na estruktura sa mga cross-sectional na view at ang panlabas na estruktura gamit ang macro na mga larawan.

Naglo-load...

Pagpapalagay ng kontekstwal na mga detalye

Ang gawain ng pagsasalin ng text sa mga larawan ay hindi ganap na natutukoy: ang isang solong caption ay karaniwang tumutukoy sa napakaraming posibleng larawan, kaya ang larawan ay hindi natatanging natutukoy. Halimbawa, isaalang-alang ang caption na “isang larawan ng capybara na nakaupo sa parang sa pagsikat ng araw.” Depende sa oryentasyon ng capybara, maaaring kailanganing gumuhit ng anino, kahit na hindi kailanman tahasang binanggit ang detalyeng ito. Sinusuri namin ang kakayahan ng DALL·E na lutasin ang kakulangan sa espesipikasyon sa tatlong kaso: pagbabago ng estilo, setting, at oras; pagguhit ng parehong bagay sa iba't ibang sitwasyon; at pagbuo ng larawan ng isang bagay na may partikular na text na nakasulat dito.

Naglo-load...

Sa iba't ibang antas ng pagiging maaasahan, nagbibigay ang DALL·E ng access sa subset ng mga kakayahan ng 3D rendering engine sa pamamagitan ng natural na wika. Maaari nitong kontrolin nang nakapag-iisa ang mga katangian ng ilang bagay, at sa isang limitado na lawak, kung ilan ang mga ito, at kung paano sila nakaayos kaugnay sa isa't isa. Puwede rin nitong kontrolin ang lokasyon at anggulo kung saan nire-render ang eksena, at maaaring bumuo ng mga kilalang bagay na sumusunod sa tiyak na mga detalye ng anggulo at kundisyon ng pag-iilaw.

Hindi tulad ng 3D rendering engine, na kailangang tukuyin ang mga input nang walang kalabuan at sa kumpletong detalye, madalas na kaya ng DALL·E na “punan ang mga blangko” kapag ang caption ay nagpapahiwatig na dapat maglaman ang larawan ng tiyak na detalye na hindi tahasang binanggit.

Mga aplikasyon ng mga naunang kakayahan

Susunod, gagalugarin namin ang paggamit ng mga naunang kakayahan para sa fashion at disenyo ng interior.

Naglo-load...

Pagsasama ng mga konseptong hindi magkakaugnay

Ang komposisyunal na kalikasan ng wika ay nagbibigay-daan sa amin na pagsama-samahin ang mga konsepto para ilarawan ang mga totoo at imaginary na bagay. Natuklasan namin na may kakayahan din ang DALL·E na pagsamahin ang magkakaibang ideya para makabuo ng mga bagay, ang ilan sa mga ito ay malamang na hindi umiiral sa totoong mundo. Ginagalugad namin ang kakayahang ito sa dalawang pagkakataon: paglilipat ng mga katangian mula sa iba't ibang konsepto patungo sa mga hayop, at nagdidisenyo ng mga produkto sa pamamagitan ng pagkuha ng inspirasyon mula sa mga hindi magkakaugnay na konsepto.

Naglo-load...

Mga ilustrasyon ng hayop

Sa nakaraang seksyon, ginalugad namin ang kakayahan ng DALL·E na bumuo ng mga hindi magkakaugnay na konsepto kapag bumubuo ng mga larawan ng mga totoong bagay. Dito, gagalugarin namin ang kakayahang ito sa konteksto ng sining, para sa tatlong uri ng mga ilustrasyon: mga bersyong anthropomorphized ng mga hayop at bagay, mga chimera ng hayop, at mga emoji.

Naglo-load...

Zero-shot visual na pangangatwiran

Maaaring utusan ang GPT‑3 na magsagawa ng maraming uri ng gawain mula lang sa paglalarawan at pahiwatig para bumuo ng sagot na ibinigay sa prompt nito, nang walang karagdagang pagsasanay. Halimbawa, kapag binigyan ng prompt na nagsasabing “narito ang pangungusap na ‘isang tao na naglalakad kasama ang kanyang aso sa parke’ na isinalin sa Pranses:”, sumasagot ang GPT‑3 ng “un homme qui promène son chien dans le parc.” Ang kakayahang ito ay tinatawag na zero-shot na pangangatuwiran. Natuklasan namin na pinalalawak ng DALL·E ang kakayahang ito sa visual na domain, at kaya nitong magsagawa ng iba't ibang uri ng gawain sa pagsasalin ng larawan-sa-larawan kapag na-prompt sa tamang paraan.

Naglo-load...

Hindi namin inasahan na lilitaw ang kakayahang ito, at wala kaming ginawang pagbabago sa neural network o sa proseso ng pagsasanay para hikayatin ito. Dahil sa mga resultang ito, sinusukat namin ang kakayahan ng DALL·E para sa mga problemang may kinalaman sa analogical reasoning sa pamamagitan ng pagsubok nito sa progressive matrices ng Raven, isang visual na IQ test na malawakang ginamit noong ika-20 siglo.

Naglo-load...

Kaalamang heograpikal

Natuklasan namin na natutunan ng DALL·E ang tungkol sa mga heograpikong katotohanan, palatandaan, at kapitbahayan. Nakakagulat na napakatumpak ng kaalaman nito sa ilang konsepto, pero may mga pagkakamali rin sa iba.

Naglo-load...

Pansamantalang kaalaman

Bukod sa paggalugad sa kaalaman ng DALL·E tungkol sa mga konseptong nag-iiba sa espasyo, sinisiyasat din namin ang kaalaman nito sa mga konseptong nagbabago sa paglipas ng panahon.

Naglo-load...

Buod ng pamamaraan at mga naunang gawain

Ang DALL·E ay isang simpleng decoder-only na transformer na tumatanggap ng text at larawan bilang stream ng 1280 token—256 para sa text at 1024 para sa larawan—at minomodelo ang lahat ng ito nang autoregressive. Ang attention mask sa bawat isa sa 64 na self-attention layers nito ay nagpapahintulot sa bawat token ng larawan na magbigay-pansin sa lahat ng mga token ng teksto. Gumagamit ang DALL·E ng karaniwang causal mask para sa mga text token, at sparse na atensyon para sa mga token ng larawan na may alinman sa row, column, o convolutional na pattern ng atensyon, depende sa layer. Nagbibigay kami ng higit pang mga detalye tungkol sa arkitektura at pamamaraan ng pagsasanay sa aming pagnanaliksik⁠(magbubukas sa bagong window).

Ang text-to-image synthesis ay naging aktibong larangan ng pananaliksik mula pa sa pasimulang gawain ng Reed et. al,¹ na ang pamamaraan ay gumagamit ng GAN na nakondisyon sa mga pag-embed ng text. Ang mga pag-embed ay ginawa ng isang encoder na paunang sinanay gamit ang contrastive loss, na katulad ng CLIP. Gumagamit ang StackGAN³ at StackGAN++⁴ ng multi-scale GANs para pataasin ang resolusyon ng larawan at pagandahin ang visual na katapatan. Isinasama ng AttnGAN⁵ ang atensyon sa pagitan ng mga katangian ng text at larawan, at nagmumungkahi ng kontrastibong pagkawala ng pagtutugma ng katangian ng text at larawan bilang isang pantulong na layunin. Nakakawiling ihambing ito sa aming muling pagraranggo gamit ang CLIP, na ginagawa offline. Ang ibang mga gawain^{2, 6, 7} ay nagsasama ng karagdagang mga pinagmumulan ng superbisyon sa panahon ng pagsasanay para mapabuti ang kalidad ng larawan. Panghuli, ang mga gawa ni Nguyen et. al⁸ at Cho et. Ginalugad ng al⁹ ang mga estratehiya batay sa pagsa-sampleg para sa pagbuo ng larawan na gumagamit ng mga paunang sinanay na multimodal na diskriminatibong modelo.

Kagaya ng rejection sampling na ginamit sa VQVAE-2⁠(magbubukas sa bagong window), ginagamit namin ang CLIP⁠ para muling i-ranggo ang nangungunang 32 mula sa 512 na sample para sa bawat caption sa lahat ng interactive na visual. Maaari ring makita ang pamamaraang ito bilang isang uri ng paghahanap na ginagabayan ng wika¹⁶, at maaaring magkaroon ng dramatikong epekto sa kalidad ng mga sample.

Naglo-load...

Mga Footnote

A
Ang token ay anumang simbolo mula sa discrete na bokabularyo; para sa tao, bawat letra sa English ay token mula sa 26-letrang alpabeto. May mga token ang bokabularyo ng DALL·E para sa konsepto ng text at larawan. Partikular, bawat caption ng larawan ay kinakatawan gamit ang hanggang 256 BPE-encoded na token na may sukat ng bokabularyo na 16,384, at ang larawan ay kinakatawan gamit ang 1,024 token na may sukat ng bokabularyo na 8,192.

Pinoproseso ang mga larawan sa 256x256 na resolusyon habang nagsasanay. Katulad ng VQVAE, kinokompres ang bawat larawan sa 32x32 grid ng mga discrete latent code gamit ang discrete VAE na sinanay namin gamit ang isang tuloy-tuloy na relaxation. Natuklasan namin na nag-aalis ang pagsasanay gamit ang relaxation ng pangangailangan para sa tahasang codebook, EMA loss, o mga trick tulad ng dead code revival, at maaaring palakihin hanggang sa malalaking sukat ng bokabularyo.

B
Ibibigay ang karagdagang mga detalye sa susunod na seksyon⁠.
17
Ang gawain na ito ay tinatawag na variable binding, at malawak itong pinag-aralan sa literatura.