5 Januari 2021

DALL·E: Membuat gambar dari teks

Kami telah melatih jaringan saraf yang disebut DALL·E yang menciptakan gambar dari keterangan teks untuk berbagai konsep yang dapat diungkapkan dalam bahasa alami.

Ilustrasi: Justin Jay Wang

Memuat…

DALL·E adalah versi GPT‑3⁠(terbuka di jendela baru) dengan 12 miliar parameter yang dilatih untuk membuat gambar dari deskripsi teks, menggunakan kumpulan data pasangan teks–gambar. Kami telah menemukan bahwa DALL·E memiliki rangkaian kemampuan yang beragam, termasuk menciptakan versi antropomorfis dari hewan dan objek, menggabungkan konsep yang tidak terkait dengan cara yang masuk akal, menyajikan teks, serta menerapkan transformasi pada gambar yang ada.

Lihat semua: DALL·E 2⁠, yang membuat gambar lebih realistis dan akurat dengan resolusi 4x lebih besar.

Memuat...

GPT‑3 menunjukkan bahwa bahasa dapat digunakan untuk menginstruksikan jaringan saraf besar untuk melakukan berbagai tugas pembuatan teks. Image GPT⁠ menunjukkan bahwa jenis jaringan saraf yang sama juga dapat digunakan untuk membuat gambar dengan fidelitas tinggi. Kami memperluas temuan-temuan ini untuk menunjukkan bahwa memanipulasi konsep visual melalui bahasa sekarang dapat dicapai.

Ringkasan

Seperti GPT‑3, DALL·E adalah model bahasa transformer. DALL·E menerima teks dan gambar sebagai aliran data tunggal yang memuat hingga 1280 token, dan dilatih menggunakan kemungkinan maksimum untuk membuat semua token, satu demi satu. ^A

Prosedur pelatihan ini mengizinkan DALL·E tidak hanya membuat gambar dari awal, tetapi juga membuat ulang setiap wilayah persegi panjang dari gambar yang ada yang meluas ke sudut kanan bawah, dengan cara yang konsisten dengan prompt teks.

Kami menyadari bahwa pekerjaan yang melibatkan model generatif berpotensi memberikan dampak sosial yang signifikan dan luas. Di masa mendatang, kami berencana untuk menganalisis cara model seperti DALL·E berkaitan dengan masalah sosial seperti dampak ekonomi pada proses kerja dan profesi tertentu, potensi bias dalam keluaran model, serta tantangan etika jangka panjang yang tersirat oleh teknologi ini.

Kemampuan

Kami menemukan bahwa DALL·E mampu membuat gambar yang masuk akal untuk berbagai macam kalimat yang menjelajahi struktur komposisi bahasa. Kami mengilustrasikan ini menggunakan rangkaian visual interaktif di bagian berikutnya. Sampel yang ditampilkan untuk setiap keterangan dalam visual diperoleh dengan mengambil 32 teratas dari 512 setelah diberi peringkat ulang dengan CLIP⁠, tetapi kami tidak menggunakan pemilihan manual, selain dari gambar mini dan gambar mandiri yang muncul di luar.^B

Mengendalikan atribut

Kami menguji kemampuan DALL·E untuk mengubah beberapa atribut objek, serta seberapa sering objek muncul.

Memuat...

Menggambar beberapa objek

Mengendalikan beberapa objek, atributnya, dan hubungan spasialnya secara bersamaan menghadirkan tantangan baru. Misalnya, perhatikan frasa “landak yang memakai topi merah, sarung tangan kuning, kemeja biru, dan celana hijau”. Untuk menafsirkan kalimat ini dengan benar, DALL·E tidak hanya harus menyusun setiap potong pakaian dengan hewan secara benar, tetapi juga membentuk asosiasi (topi, merah), (sarung tangan, kuning), (kemeja, biru), dan (celana, hijau) tanpa mencampurnya ^C

Kami menguji kemampuan DALL·E untuk melakukan ini dalam menentukan posisi relatif, menumpuk objek, dan mengendalikan beberapa atribut.

Memuat...

Meskipun DALL·E menawarkan beberapa tingkat pengendalian atas atribut dan posisi sejumlah kecil objek, tingkat keberhasilan dapat bergantung pada cara keterangan diungkapkan. Karena makin banyak objek yang diperkenalkan, DALL·E cenderung membingungkan asosiasi antara objek dan warnanya, serta tingkat keberhasilannya menurun tajam. Kami juga mencatat bahwa DALL·E rapuh sehubungan dengan penyusunan ulang keterangan dalam skenario ini: keterangan alternatif, yang setara secara semantik sering kali tidak menghasilkan penafsiran yang benar.

Memvisualisasikan perspektif dan tiga dimensi

Kami menemukan bahwa DALL·E juga mengizinkan kontrol atas sudut pandang pemandangan dan gaya 3D tempat pemandangan ditampilkan.

Memuat...

Untuk mendorong ini lebih jauh, kami menguji kemampuan DALL·E untuk menggambar kepala tokoh terkenal secara berulang di setiap sudut dari serangkaian sudut yang diberi jarak sama, dan menemukan bahwa kami dapat memulihkan animasi halus dari kepala yang berputar.

Memuat...

DALL·E tampaknya mampu menerapkan beberapa jenis distorsi optik pada pemandangan, seperti kita lihat pada opsi “tampilan lensa mata ikan” dan “panorama bulat”. Ini memotivasi kami untuk menjelajahi kemampuannya dalam membuat refleksi.

Memuat...

Memvisualisasikan struktur internal dan eksternal

Sampel dari gaya “tampilan jarak dekat ekstrem” dan “sinar-X” mengarahkan kami untuk lebih jauh menjelajahi kemampuan DALL·E dalam menyajikan struktur internal dengan tampilan penampang melintang, dan struktur eksternal dengan fotografi makro.

Memuat...

Menyimpulkan detail kontekstual

Tugas untuk menerjemahkan teks ke gambar kurang spesifik: satu keterangan pada umumnya berhubungan dengan jumlah gambar yang masuk akal dan tidak terbatas, sehingga gambar tersebut tidak ditentukan secara unik. Misalnya, perhatikan keterangan “lukisan kapibara yang sedang duduk di ladang saat matahari terbit”. Bergantung pada orientasi kapibara, mungkin perlu menggambar bayangan, meskipun detail ini tidak pernah disebutkan secara eksplisit. Kami menjelajahi kemampuan DALL·E untuk mengatasi kekurangan spesifikasi dalam tiga kasus: mengubah gaya, latar, dan waktu; menggambar objek yang sama dalam berbagai situasi yang berbeda; dan membuat gambar objek dengan teks tertentu yang tertulis di atasnya.

Memuat...

Dengan berbagai tingkat keandalan, DALL·E menyediakan akses ke sub-bagian dari kemampuan mesin rendering 3D melalui bahasa alami. DALL·E dapat mengendalikan secara mandiri atribut sejumlah kecil objek, dan hingga batas tertentu, jumlah objek yang ada, dan cara objek tersebut disusun sehubungan dengan satu sama lain. DALL·E juga dapat mengendalikan lokasi dan sudut pemandangan ditampilkan, serta dapat membuat objek yang diketahui sesuai dengan spesifikasi sudut dan kondisi pencahayaan yang tepat.

Berbeda dengan mesin rendering 3D, yang masukannya harus ditentukan secara jelas dan terperinci, DALL·E sering kali mampu “mengisi kekosongan” saat keterangan menyiratkan bahwa gambar harus memuat detail tertentu yang tidak dinyatakan secara eksplisit.

Aplikasi kemampuan sebelumnya

Selanjutnya, kami menjelajahi penggunaan kemampuan sebelumnya untuk mode dan desain interior.

Memuat...

Menggabungkan konsep yang tidak berkaitan

Sifat komposisi bahasa memungkinkan untuk menyatukan konsep untuk menggambarkan hal nyata dan imajiner. Kami menemukan bahwa DALL·E juga memiliki kemampuan untuk menggabungkan ide yang berbeda untuk mempersatukan objek, beberapa di antaranya tidak mungkin ada di dunia nyata. Kami menjelajahi kemampuan ini dalam dua contoh: melakukan transfer kualitas dari berbagai konsep ke hewan, dan merancang produk dengan mengambil inspirasi dari konsep yang tidak berkaitan.

Memuat...

Ilustrasi hewan

Pada bagian sebelumnya, kami telah menjelajahi kemampuan DALL·E untuk menggabungkan konsep yang tidak berkaitan saat membuat gambar objek dunia nyata. Di sini, kami menjelajahi kemampuan ini dalam konteks seni, untuk tiga jenis ilustrasi: versi antropomorfis hewan dan objek, chimera hewan, dan emoji.

Memuat...

Penalaran visual zero-shot

GPT‑3 dapat diinstruksikan untuk melakukan berbagai jenis tugas hanya berdasarkan deskripsi dan isyarat untuk membuat jawaban yang diberikan dalam prompt, tanpa pelatihan tambahan. Misalnya, saat prompt dengan frasa “ini kalimatnya ‘seseorang sedang mengajak anjingnya jalan di taman’ yang diterjemahkan ke bahasa Prancis:”, GPT‑3 menjawab “un homme qui promène son chien dans le parc”. Kemampuan ini disebut dengan penalaran zero-shot. Kami menemukan bahwa DALL·E memperluas kemampuan ini ke domain visual, dan mampu melakukan beberapa jenis tugas terjemahan gambar ke gambar saat diberi prompt dengan cara yang benar.

Memuat...

Kami tidak mengantisipasi bahwa kemampuan ini akan muncul, dan tidak melakukan modifikasi pada jaringan saraf atau prosedur pelatihan untuk mendorongnya. Termotivasi hasil ini, kami mengukur kemampuan DALL·E untuk masalah penalaran analogis dengan mengujinya pada matriks progresif Raven, tes IQ visual yang digunakan secara luas pada abad ke-20.

Memuat...

Pengetahuan geografis

Kami menemukan bahwa DALL·E telah mempelajari tentang fakta geografis, tempat terkenal, dan lingkungan sekitar. Pengetahuannya mengenai konsep ini secara mengejutkan tepat dalam beberapa hal dan cacat dalam hal lain.

Memuat...

Pengetahuan sementara

Selain menjelajahi pengetahuan DALL·E tentang konsep yang bervariasi di berbagai ruang, kami juga menjelajahi pengetahuannya tentang konsep yang bervariasi seiring waktu.

Memuat...

Ringkasan pendekatan dan pekerjaan sebelumnya

DALL·E adalah transformer khusus dekoder sederhana yang menerima teks dan gambar sebagai aliran tunggal sebanyak 1280 token—256 token untuk teks dan 1024 token untuk gambar—dan membuat model semuanya secara autoregresi. Lapisan perhatian pada masing-masing dari 64 lapisan perhatian diri memungkinkan setiap token gambar memperhatikan semua token teks. DALL·E menggunakan lapisan kausal standar untuk token teks, dan perhatian yang jarang untuk token gambar dengan pola perhatian baris, kolom, atau konvolusional, bergantung pada lapisannya. Kami menyediakan detail selengkapnya tentang arsitektur dan prosedur pelatihan dalam makalah⁠(terbuka di jendela baru) kami.

Sintesis teks ke gambar telah menjadi bidang riset aktif sejak pekerjaan perintis Reed dkk.,¹ yang pendekatannya menggunakan GAN yang dikondisikan pada penyematan teks. Penyematan dihasilkan oleh enkoder yang telah dilatih menggunakan kehilangan kontras, tidak seperti CLIP. StackGAN³ dan StackGAN++⁴ menggunakan GAN multi-skala untuk meningkatkan skala resolusi gambar dan meningkatkan fidelitas visual. AttnGAN⁵ menggabungkan perhatian antara fitur teks dan gambar, serta mengusulkan kehilangan pencocokan fitur teks-gambar kontrastif sebagai tujuan tambahan. Ini menarik untuk dibandingkan dengan pemberian peringkat ulang kami dengan CLIP, yang dilakukan secara offline. Penelitian lain^{2, 6, 7} menggabungkan sumber pengawasan tambahan selama pelatihan untuk meningkatkan kualitas gambar. Terakhir, penelitian oleh Nguyen dkk.⁸ dan Cho dkk.⁹ menjelajahi strategi berbasis pengambilan sampel untuk pembuatan gambar yang memanfaatkan model diskriminatif multimodal yang telah dilatih sebelumnya.

Mirip dengan pengambilan sampel penolakan yang digunakan dalam VQVAE-2⁠(terbuka di jendela baru), kami menggunakan CLIP⁠ untuk memberikan peringkat ulang 32 dari 512 sampel teratas untuk setiap keterangan di semua visual interaktif. Prosedur ini juga dapat dilihat sebagai semacam pencarian yang dipandu bahasa¹⁶, dan dapat berdampak dramatis terhadap kualitas sampel.

Memuat...

Catatan kaki

A
Token adalah simbol dari kosakata terpisah; bagi manusia, setiap huruf bahasa Inggris merupakan token dari alfabet 26 huruf. Kosakata DALL·E memiliki token untuk konsep teks dan gambar. Secara khusus, setiap keterangan gambar dinyatakan menggunakan maksimal 256 token berkode BPE dengan ukuran kosakata 16384, dan gambar dinyatakan menggunakan 1024 token dengan ukuran kosakata 8192.

Gambar diproses terlebih dahulu hingga resolusi 256x256 selama pelatihan. Mirip dengan VQVAE, setiap gambar dikompresi menjadi kisi 32x32 kode laten diskret menggunakan VAE diskret yang kami latih terlebih dahulu menggunakan relaksasi berkelanjutan. Kami menemukan bahwa pelatihan menggunakan relaksasi menghilangkan kebutuhan buku kode eksplisit, kehilangan EMA, atau trik seperti menghidupkan kembali kode yang mati, dan dapat ditingkatkan skalanya ke ukuran kosakata yang besar.

B
Detail lebih lanjut disediakan di bagian selanjutnya⁠.
17
Tugas ini disebut pengikatan variabel, dan telah dipelajari secara luas dalam literatur.

Referensi

1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “Generative adversarial text to image synthesis⁠(terbuka di jendela baru)”. Dalam ICML 2016.
2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “Learning what and where to draw⁠(terbuka di jendela baru)”. Dalam NIPS 2016.
3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks⁠(terbuka di jendela baru)”. Dalam ICCY 2017.
4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: realistic image synthesis with stacked generative adversarial networks⁠(terbuka di jendela baru)”. Dalam IEEE TPAMI 2018.
5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: Fine-grained text to image generation with attentional generative adversarial networks⁠(terbuka di jendela baru).
6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “Object-driven text-to-image synthesis via adversarial training⁠(terbuka di jendela baru)”. Dalam CVPR 2019.
7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “Text-to-image generation grounded by fine-grained user attention⁠(terbuka di jendela baru)”. Dalam WACV 2021.
8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). “Plug & play generative networks: conditional iterative generation of images in latent space⁠(terbuka di jendela baru).
9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: Paint, caption, and answer questions with multi-modal transformers⁠(terbuka di jendela baru)”. EMNLP 2020.
10
Kingma, Diederik P., and Max Welling. “Auto-encoding variational bayes⁠(terbuka di jendela baru).” arXiv preprint (2013).
11
Rezende, Danilo Jimenez, Shakir Mohamed, dan Daan Wierstra. “Stochastic backpropagation and approximate inference in deep generative models⁠(terbuka di jendela baru).” arXiv preprint (2014).
12
Jang, E., Gu, S., Poole, B. (2016). “Categorical reparametrization with Gumbel-softmax⁠(terbuka di jendela baru)”.
13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “The Concrete distribution: a continuous relaxation of discrete random variables⁠(terbuka di jendela baru)”.
14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Neural discrete representation learning⁠(terbuka di jendela baru)”.
15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “Generating diverse high-fidelity images with VQ-VAE-2⁠(terbuka di jendela baru)”.
16
Andreas, J., Klein, D., Levine, S. (2017). “Learning with Latent Language⁠(terbuka di jendela baru)”.
17
Smolensky, P. (1990). “Tensor product variable binding and the representation of symbolic structures in connectionist systems⁠(terbuka di jendela baru)”.
18
Plate, T. (1995). “Holographic reduced representations: convolution algebra for compositional distributed representations⁠(terbuka di jendela baru)”.
19
Gayler, R. (1998). “Multiplicative binding, representation operators & analogy⁠(terbuka di jendela baru)”.
20
Kanerva, P. (1997). “Fully distributed representations⁠(terbuka di jendela baru)”.

Penulis Utama

Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray

Penulis Pendukung

Mark Chen, Rewon Child, Vedant Misra, Pamela Mishkin, Gretchen Krueger, Sandhini Agarwal, Ilya Sutskever

DALL·E: Membuat gambar dari teks

Ringkasan

Kemampuan

Mengendalikan atribut

Menggambar beberapa objek

Memvisualisasikan perspektif dan tiga dimensi

Memvisualisasikan struktur internal dan eksternal

Menyimpulkan detail kontekstual

Aplikasi kemampuan sebelumnya

Menggabungkan konsep yang tidak berkaitan

Ilustrasi hewan

Penalaran visual zero-shot

Pengetahuan geografis

Pengetahuan sementara

Ringkasan pendekatan dan pekerjaan sebelumnya

Catatan kaki

Referensi

Penulis Utama

Penulis Pendukung

Artikel terkait