DALL·E: Nggawe gambar saka teks
Kita wis nglatih jaringan saraf sing diarani DALL·E sing nggawe gambar saka caption teks kanggo macem-macem konsep sing bisa diandharake ing basa alami.

Ilustrasi: Justin Jay Wang
DALL·E yaiku versi 12 milyar parameter saka GPT‑3(mbukak ing jendhela anyar) sing dilatih kanggo ngasilake gambar saka deskripsi teks, nganggo dataset pasangan teks-gambar. Kita nemokake yen model iki nduweni sakumpulan kapabilitas sing maneka warna, kalebu nggawe versi antropomorfis saka kewan lan obyek, nggabungake konsep sing ora ana gandhengane kanthi cara sing masuk akal, ngerender teks, lan nerapake transformasi marang gambar sing wis ana.
Deleng uga: DALL·E 2, sing ngasilake gambar luwih realistis lan luwih akurat kanthi resolusi 4x luwih gedhe.
GPT‑3 nuduhake yen basa bisa digunakake kanggo mrentah jaringan saraf gedhe supaya nindakake macem-macem tugas generasi teks. Image GPT nuduhake yen jinis jaringan saraf sing padha uga bisa digunakake kanggo ngasilake gambar kanthi kesetiaan dhuwur. Kita ngembangake temuan iki kanggo nuduhake yen manipulasi konsep visual liwat basa saiki wis bisa digayuh.
Kaya GPT‑3, DALL·E iku model basa transformer. Model iki nampa teks lan gambar minangka siji aliran data sing ngemot nganti 1280 token, lan dilatih nganggo likelihood maksimum kanggo ngasilake kabeh token, siji-sijine. A
Prosedur pelatihan iki ndadekake DALL·E ora mung bisa ngasilake gambar saka nol, nanging uga ngasilake maneh wilayah persegi panjang apa wae saka gambar sing wis ana sing ngluwihi nganti pojok tengen ngisor, kanthi cara sing selaras karo teks prompt.
Kita ngerti yen karya sing nglibatake model generatif nduweni potensi dampak sosial sing gedhe lan amba. Ing mangsa ngarep, kita ngrancang nganalisis kepiye model kaya DALL·E gegayutan karo persoalan sosial kayata dampak ekonomi marang proses kerja lan profesi tartamtu, potensi bias ing output model, lan tantangan etika jangka panjang sing dikandhut teknologi iki.
Kita nemokake yen DALL·E bisa nggawe gambar sing masuk akal kanggo maneka warna ukara sing njelajah struktur komposisional basa. Kita nggambarake iki nganggo rangkaian visual interaktif ing bagean sabanjure. Sampel sing ditampilake kanggo saben caption ing visual kasebut dipikolehi kanthi njupuk 32 paling dhuwur saka 512 sawisé diranking ulang nganggo CLIP, nanging kita ora nggunakake pilihan manual, kajaba thumbnail lan gambar mandiri sing katon ing njaba.B
Kita nguji kemampuan DALL·E kanggo ngowahi sawetara atribut sawijining obyek, uga cacah kaping obyek kasebut katon.
Ngontrol bebarengan pirang-pirang obyek, atribute, lan hubungan spasiale menehi tantangan anyar. Contone, gatekna frasa “landhak nganggo topi abang, sarung tangan kuning, klambi biru, lan celana ijo.” Kanggo napsirake ukara iki kanthi bener, DALL·E ora mung kudu nyusun saben sandhangan kanthi bener karo kewan kasebut, nanging uga mbentuk asosiasi (topi, abang), (sarung tangan, kuning), (klambi, biru), lan (celana, ijo) tanpa ketuker C
Kita nguji kemampuan DALL·E kanggo nindakake iki tumrap posisi relatif, numpuk obyek, lan ngontrol pirang-pirang atribut.
Sanadyan DALL·E pancen menehi tingkat kontrol tartamtu marang atribut lan posisi saka sawetara obyek, tingkat kasil bisa gumantung marang cara caption dirumusake. Nalika saya akeh obyek sing ditambahake, DALL·E cenderung bingung karo asosiasi antarane obyek lan werna-wernae, lan tingkat kasile mudhun kanthi tajem. Kita uga nyathet yen DALL·E rapuh marang parafrasa caption ing skenario iki: caption alternatif sing setara sacara semantik kerep ora ngasilake interpretasi sing bener.
Kita nemokake yen DALL·E uga ngidini kontrol marang sudut pandang sawijining adegan lan gaya 3D sing digunakake kanggo ngerender adegan kasebut.
Kanggo nyurung iki luwih adoh, kita nguji kemampuan DALL·E kanggo bola-bali nggambar sirah tokoh misuwur ing saben sudut saka runtutan sudut sing jarake padha, lan nemokake yen kita bisa mbalekake animasi alus saka sirah sing muter.
DALL·E katon bisa nerapake sawetara jinis distorsi optik marang adegan, kaya sing katon ing opsi “tampilan lensa fisheye” lan “panorama bunder.” Iki ndorong kita njelajah kemampuané kanggo ngasilake pantulan.
Sampel saka gaya “tampilan close-up ekstrem” lan “x-ray” ndadekake kita luwih njelajah kemampuan DALL·E kanggo ngerender struktur internal kanthi tampilan penampang, lan struktur eksternal nganggo foto makro.
Tugas nerjemahake teks dadi gambar iku underspecified: siji caption umume cocog karo jumlah gambar masuk akal sing tanpa wates, mula gambar kasebut ora ditemtokake kanthi unik. Tuladhane, gatekna caption “lukisan capybara sing lungguh ing lapangan nalika srengenge munggah.” Gumantung orientasi capybara, bisa uga perlu nggambar bayangan, sanadyan rincian iki ora tau kasebut kanthi eksplisit. Kita njelajah kemampuan DALL·E kanggo ngrampungake underspecification ing telung kasus: ngganti gaya, latar, lan wektu; nggambar obyek sing padha ing maneka kahanan beda; lan ngasilake gambar sawijining obyek kanthi teks tartamtu sing ditulis ing ndhuwure.
Kanthi tingkat linuwih sing beda-beda, DALL·E menehi akses menyang sakbagéan saka kapabilitas mesin rendering 3D liwat basa alami. DALL·E bisa ngontrol kanthi mandiri atribut saka sawetara obyek, lan nganti wates tartamtu, pira cacahe, lan kepiye susunane siji karo sijine. DALL·E uga bisa ngontrol lokasi lan sudut sawijining adegan dirender, lan bisa ngasilake obyek sing dikenal miturut spesifikasi sudut lan kondisi cahya sing presisi.
Beda karo mesin rendering 3D, sing inpute kudu ditemtokake kanthi ora ambigu lan kanthi rinci lengkap, DALL·E kerep bisa “ngisi sing kosong” nalika caption nuduhake yen gambar kasebut kudu ngemot rincian tartamtu sing ora kasebut kanthi eksplisit.
Sabanjure, kita njelajah panggunaan kapabilitas sadurunge iki kanggo desain busana lan interior.
Sifat komposisional basa ngidini kita nggabungake konsep kanggo njlentrehake bab nyata lan khayalan. Kita nemokake yen DALL·E uga nduweni kemampuan nggabungake gagasan sing beda-beda kanggo nyintesis obyek, sawetara ing antarane meh ora mungkin ana ing donya nyata. Kita njelajah kemampuan iki ing rong kasus: mindhah sipat saka macem-macem konsep menyang kewan, lan ngrancang produk kanthi njupuk inspirasi saka konsep sing ora ana gandhengane.
Ing bagean sadurunge, kita njelajah kemampuan DALL·E kanggo nggabungake konsep sing ora ana gandhengane nalika ngasilake gambar obyek ing donya nyata. Ing kene, kita njelajah kemampuan iki ing konteks seni, kanggo telung jinis ilustrasi: versi antropomorfis saka kewan lan obyek, kimera kewan, lan emoji.
GPT‑3 bisa diparingi instruksi kanggo nindakake akeh jinis tugas mung saka deskripsi lan pitunjuk kanggo ngasilake jawaban sing diwenehake ing prompt, tanpa pelatihan tambahan. Contone, nalika diwenehi frasa “iki ukara ‘a person walking his dog in the park’ sing diterjemahake menyang basa Prancis:”, GPT‑3 mangsuli “un homme qui promène son chien dans le parc.” Kapabilitas iki diarani conto tanpa latihan nalar. Kita nemokake yen DALL·E ngluwihi kapabilitas iki menyang domain visual, lan bisa nindakake sawetara jinis tugas terjemahan gambar-menyang-gambar yen diprompt kanthi cara sing pas.
Kita ora nyana manawa kapabilitas iki bakal muncul, lan ora nggawe modifikasi apa wae marang jaringan saraf utawa prosedur pelatihan kanggo nyengkuyung iki. Adhedhasar asil iki, kita ngukur kaprigelan DALL·E kanggo masalah nalar analogi kanthi nguji ing matriks progresif Raven, tes IQ visual sing akeh digunakake ing abad kaping 20.
Kita nemokake yen DALL·E wis sinau babagan fakta geografis, tengara, lan lingkungan. Kawruhe babagan konsep-konsep iki nggumunake presisine ing sawetara bab lan cacat ing bab liyane.
Saliyane njelajah kawruh DALL·E babagan konsep sing owah miturut ruang, kita uga njelajah kawruhe babagan konsep sing owah miturut wektu.
DALL·E iku transformer decoder-only sing prasaja, sing nampa teks lan gambar minangka siji aliran 1280 token—256 kanggo teks lan 1024 kanggo gambar—lan memodelake kabeh kanthi autoregresif. Masker perhatian ing saben 64 lapisan self-attention ngidini saben token gambar merhatekake kabeh token teks. DALL·E nggunakake masker kausal standar kanggo token teks, lan perhatian sparse kanggo token gambar kanthi pola perhatian larik, kolom, utawa konvolusional, gumantung lapisane. Kita menehi rincian luwih lengkap babagan arsitektur lan prosedur pelatihan ing makalah(mbukak ing jendhela anyar) kita.
Sintesis teks-menyang-gambar wis dadi bidang riset sing aktif wiwit karya perintis Reed et. al,1 sing pendekatane nggunakake GAN sing dikondisikan nganggo embedding teks. Embedding kasebut diprodhuksi dening encoder sing wis dilatih sadurunge nganggo contrastive loss, ora beda adoh karo CLIP. StackGAN3 lan StackGAN++4 nggunakake GAN multi-skala kanggo nambah resolusi gambar lan ningkatake kesetiaan visual. AttnGAN5 nggabungake perhatian antarane fitur teks lan gambar, lan ngusulake contrastive text-image feature matching loss minangka objektif tambahan. Iki menarik yen dibandhingake karo ranking ulang kita nganggo CLIP, sing ditindakake sacara offline. Karya liyane2, 6, 7 nggabungake sumber supervisi tambahan sajrone pelatihan kanggo ningkatake kualitas gambar. Pungkasan, karya Nguyen et. al8 lan Cho et. al9 njelajah strategi berbasis sampling kanggo generasi gambar sing nggunakke model diskriminatif multimodal sing wis dilatih sadurunge.
Mirip karo rejection sampling sing digunakake ing VQVAE-2(mbukak ing jendhela anyar), kita nggunakake CLIP kanggo ngranking ulang 32 paling dhuwur saka 512 sampel kanggo saben caption ing kabeh visual interaktif. Prosedur iki uga bisa dideleng minangka salah siji jinis telusur sing dipandu basa16, lan bisa nduweni dampak dramatis marang kualitas sampel.
Cathetan sikil
- A
Token yaiku sembarang simbol saka kosakata diskret; kanggo manungsa, saben aksara Inggris iku token saka alfabet 26 aksara. Kosakata DALL·E nduweni token kanggo konsep teks lan gambar. Mligine, saben caption gambar diwakili nggunakake maksimal 256 token enkode BPE kanthi ukuran kosakata 16384, lan gambar diwakili nganggo 1024 token kanthi ukuran kosakata 8192.
Gambar dipraproses dadi resolusi 256x256 sajrone pelatihan. Mirip VQVAE, saben gambar dikompres dadi kisi 32x32 saka kode laten diskret nganggo VAE diskret sing wis kita latih sadurunge nganggo relaksasi kontinu. Kita nemokake yen pelatihan nganggo relaksasi iki ngilangi kabutuhan codebook eksplisit, EMA loss, utawa trik kaya dead code revival, lan bisa diskalakake nganti ukuran kosakata gedhe.
- B
Rincian luwih lanjut diwenehake ing bagean sabanjure.
- 17
Tugas iki diarani variable binding, lan wis akeh ditliti ing literatur.
Referensi
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “Sintesis gambar dari teks adversarial generatif(mbukak ing jendhela anyar)”. In ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “Sinau apa lan ing endi kudu nggambar(mbukak ing jendhela anyar)”. In NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: Sintesis gambar fotorealistis saka teks nganggo jaringan adversarial generatif bertumpuk(mbukak ing jendhela anyar)”. In ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: sintesis gambar realistis nganggo jaringan adversarial generatif bertumpuk(mbukak ing jendhela anyar)”. In IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: generasi gambar rinci saka teks nganggo jaringan adversarial generatif atensional(mbukak ing jendhela anyar).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “Sintesis teks-menyang-gambar berbasis obyek liwat pelatihan adversarial(mbukak ing jendhela anyar)”. In CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “Generasi teks-menyang-gambar sing digandhengake karo perhatian pangguna rinci(mbukak ing jendhela anyar)”. In WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). “Jaringan generatif plug & play: generasi gambar iteratif bersyarat ing ruang laten(mbukak ing jendhela anyar).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: Nglukis, menehi caption, lan njawab pitakon nganggo transformer multimodal(mbukak ing jendhela anyar)”. EMNLP 2020.
- 10
Kingma, Diederik P., and Max Welling. “Bayes variational auto-encoding(mbukak ing jendhela anyar).” arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. “Backpropagation stokastik lan inferensi aproksimasi ing model generatif jero(mbukak ing jendhela anyar).” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). “Reparametrisasi kategoris nganggo Gumbel-softmax(mbukak ing jendhela anyar)”.
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “Distribusi Concrete: relaksasi kontinu saka variabel acak diskret(mbukak ing jendhela anyar)”.
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Pembelajaran representasi diskret neural(mbukak ing jendhela anyar)”.
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “Ngasilake gambar maneka warna kualitas dhuwur nganggo VQ-VAE-2(mbukak ing jendhela anyar)”.
- 16
Andreas, J., Klein, D., Levine, S. (2017). “Sinau nganggo Basa Laten(mbukak ing jendhela anyar)”.
- 17
- 18
- 19
Gayler, R. (1998). “Pengikatan multiplikatif, operator representasi & analogi(mbukak ing jendhela anyar)”.
- 20
Kanerva, P. (1997). “Representasi terdistribusi penuh(mbukak ing jendhela anyar)”.


