DALL·E: Metinden görsel oluşturma
Doğal dilde ifade edilebilen çok çeşitli kavramlar için metin açıklamaları kullanarak görseller oluşturmak üzere eğitilen DALL·E sinir ağını geliştirdik.

İllüstrasyon: Justin Jay Wang
GPT‑3(yeni bir pencerede açılır)’ün 12 milyar parametreli bir versiyonu olan DALL·E, metin-görsel çiftlerinden oluşan bir veri setini kullanarak metin açıklamalarından görseller oluşturmak üzere eğitildi. DALL·E’nin hayvanların ve nesnelerin insan formu kazandırılmış versiyonlarını oluşturma, ilgisiz kavramları makul biçimlerde birleştirme, farklı yazı tipleri kullanarak metin oluşturma ve mevcut görüntüleri dönüştürme gibi çok çeşitli yeteneklere sahip olduğunu keşfettik.
Ayrıca bkz. DALL·E 2 daha gerçekçi ve doğru görselleri 4 kat daha yüksek çözünürlükte oluşturuyor.
GPT‑3 büyük bir sinir ağına çeşitli metin tabanlı oluşturma görevlerini yerine getirmesi talimatını vermek için dilin kullanılabileceğini gösterdi. Image GPT de aynı türdeki bir sinir ağının yüksek sadakatli görseller oluşturmak için kullanılabileceğini gösterdi. Bu bulguları daha da genişleterek artık görsel kavramların dil aracılığıyla manipüle edilebileceğini gösteriyoruz.
GPT‑3 gibi DALL·E de bir transformer dil modelidir. Hem metin hem de görüntü girdisini 1280 adede kadar token içeren tek bir veri akışı olarak alan bu dil modeli, tüm tokenleri birbiri ardına üretmek için maksimum olabilirlik kullanılarak eğitildi. A
Bu eğitim prosedürü, DALL·E’nin sadece sıfırdan görsel üretmesini değil, aynı zamanda mevcut bir görselin herhangi bir noktasından sağ alt köşesine kadar uzanan herhangi bir dikdörtgen bölgesini metin istemiyle tutarlı bir şekilde yeniden üretmesine de olanak tanıyor.
Üretken modeller ile ilgili çalışmaların kayda değer, geniş çaplı toplumsal etkiler doğurma potansiyeli taşıdığının farkındayız. İleride, DALL·E gibi modeller ile bu modellerin belirli bazı iş süreçleri ve meslekler üzerindeki ekonomik etkileri, model çıktılarının ön yargılı olma potansiyeli ve bu teknolojinin beraberinde getirdiği daha uzun vadeli etik zorluklar gibi toplumsal sorunlar arasındaki ilişkiyi analiz etmeyi planlıyoruz.
DALL·E’nin dilde kullanılabilen çok çeşitli cümle yapıları için akla yatkın görseller oluşturabildiğini görüyoruz. Bunu bir sonraki bölümde bir dizi etkileşimli görsel kullanarak göstereceğiz. Görsellerde her bir metin açıklaması için gösterilen örnekler, oluşturulan 512 görsel CLIP ile yeniden sıralandıktan sonra ilk 32’si alınarak elde edilmiştir, ancak dışarıda görünen küçük resimler ve bağımsız görseller dışında herhangi bir elle teker teker seçme işlemi yapmıyoruz.B
DALL·E’nin bir nesnenin çeşitli niteliklerini ve nesnenin kaç kez gösterildiğini değiştirme yeteneğini test ediyoruz.
Birden fazla nesneyi, bunların niteliklerini ve mekansal ilişkilerini eş zamanlı olarak kontrol etmek, yeni bir zorluğu da beraberinde getiriyor. Örneğin, “kırmızı şapka, sarı eldiven, mavi gömlek ve yeşil pantolon giyen bir kirpi” ifadesini ele alalım. DALL·E, bu cümleyi doğru yorumlamak için sadece her bir giysiyi hayvanla doğru bir şekilde bir araya getirmekle kalmamalı, aynı zamanda (şapka, kırmızı), (eldiven, sarı), (gömlek, mavi) ve (pantolon, yeşil) ilişkilerini de karıştırmadan kurmalıdır C
DALL·E’nin göreli konumlandırma, nesneleri üst üste yerleştirme ve birden fazla niteliği kontrol etme gibi açılardan bunu yapma yeteneğini test ediyoruz.
DALL·E az sayıda nesnenin nitelikleri ve konumları üzerinde bir miktar kontrol edilebilirlik sağlasa da, açıklamanın nasıl ifade edildiğine bağlı olarak başarı oranı değişebilir. Nesne sayısı arttıkça, DALL·E nesneler ve renkleri arasındaki ilişkileri karıştırma eğilimi gösterir ve başarı oranı keskin bir şekilde düşer. Ayrıca DALL·E’nin bu senaryolarda açıklamanın başka şekilde yeniden ifade edilmesi konusunda kırılgan olduğunu da belirtmemiz gerek. Anlamsal olarak eşdeğer alternatif açıklamalar çoğu zaman doğru yorumlar üretmiyor.
DALL·E’nin ayrıca bir sahneye bakış açısı ve sahnenin görselleştirildiği 3 boyutlu stil üzerinde kontrole de olanak tanıdığını gördük.
Bunu daha da ileri götürmek için, DALL·E’nin tanınmış bir figürün başını eşit aralıklarla bir dizi açıdan tekrar tekrar çizme yeteneğini test ettiğimizde, düzgün bir dönen baş animasyonu elde edebildiğimizi gördük.
DALL·E’nin sahnelere “balık gözü” ve “küresel panorama” gibi bazı optik bozulma türlerini uygulayabildiği görülüyor. Bu durum, bizi DALL·E’nin yansımalar üretme yeteneğini incelemeye teşvik etti.
“Aşırı yakın plan çekim” ve “röntgen filmi” stilindeki örnekler, DALL·E’nin kesit görünümleriyle iç yapıyı ve makro fotoğraflarla dış yapıyı oluşturma yeteneğini daha da fazla incelememizi sağladı.
Metni görsele çevirme görevinde tüm ayrıntılar belirtilmez. Tek bir açıklama genellikle sonsuz sayıda olası görsele karşılık gelir, dolayısıyla benzersiz tek bir görsel söz konusu değildir. Örneğin, “gün doğumunda tarlada oturan kapibara tablosu” açıklamasını ele alalım. Kapibaranın resimdeki yönelimine bağlı olarak gölge çizmek gerekebilir, ancak bu ayrıntı hiçbir zaman açıkça belirtilmez. DALL·E’nin eksik betimlemeleri çözme yeteneğini üç bakımdan araştırdık. Bunların ilki stili, sahneyi ve zamanı değiştirme; ikincisi aynı nesneyi çeşitli farklı durumlarda çizme; üçüncüsü de üzerinde belirli bir metin yazılı bir nesnenin görselini oluşturma yeteneğiydi.
Güvenilirlik dereceleri değişmekle birlikte, DALL·E doğal dil aracılığıyla bir 3 boyutlu görsel oluşturma motorunun yeteneklerinin bir alt kümesine erişmenizi sağlıyor. Az sayıda nesnenin niteliklerini, sınırlı ölçüde de olsa kaç adet olduklarını ve birbirlerine göre nasıl sıralandıklarını bağımsız olarak kontrol edebiliyor. Bunun yanı sıra, bir sahnenin hangi konumdan ve açıdan görselleştirileceğini kontrol edebiliyor ve açı ve aydınlatma koşullarının açıkça belirtilen özelliklerine uygun olarak bilinen nesneleri üretebiliyor.
Girdilerin belirsizliğe yer bırakmayacak şekilde ve tüm ayrıntılarıyla belirtilmesi gereken bir 3 boyutlu görsel oluşturma motorunun aksine, verilen açıklama metni açıkça ifade edilmeyen bazı ayrıntıların görselde bulunmasını gerektirdiğinde DALL·E genellikle “boşlukları doldurabilir”.
Şimdi de, yukarıda belirtilen yeteneklerin moda ve iç mekan tasarımlarında kullanımına bakalım.
Dilin bileşimsel doğası hem gerçek hem de hayali şeyleri tarif etmek için kavramları bir araya getirmemize olanak tanır. DALL·E’nin bazılarının gerçek dünyada var olma olasılığı pek olmayan nesneleri sentezlemek için alakasız fikirleri bir araya getirme yeteneğine de sahip olduğunu görüyoruz. Bu yeteneği şu iki örnekte inceliyoruz: çeşitli kavramlardan alınan nitelikleri hayvanlara aktarma ve ilgisiz kavramlardan ilham alarak ürünler tasarlama.
Önceki bölümde, DALL·E’nin gerçek dünyadaki nesnelerin görsellerini oluştururken ilgisiz kavramları birleştirme yeteneğini inceledik. Şimdi de bu yeteneği sanat bağlamında, şu üç illüstrasyon türü için araştırıyoruz: hayvanların ve nesnelerin insan formu kazandırılmış versiyonları, hayvan kimeraları ve emojiler.
GPT‑3’e, herhangi bir ek eğitime gerek kalmadan, yalnızca bir açıklamadan veya yanıtı üretmesi için istemde sağlanan bir ipucundan yola çıkarak çok çeşitli farklı görevleri yapma talimatı verilebilir. Örneğin “ ‘Parkta köpeğini gezdiren bir kişi’ cümlesinin Fransızca çevirisi şöyledir:” ifadesiyle istem verildiğinde GPT‑3 “un homme qui promène son chien dans le parc” şeklinde yanıt verir. Bu yeteneğe sıfır örnekli akıl yürütme denir. DALL·E’nin bu yeteneği görsel alana da taşıdığını ve doğru bir şekilde istem verildiğinde, pek çok farklı “görselden görsele” çevirme görevini yapabildiğini görüyoruz.
Böyle bir yeteneğin ortaya çıkacağını öngörmediğimiz gibi, bunu teşvik etmek için sinir ağında veya eğitim prosedüründe herhangi bir değişiklik de yapmadık. Bu sonuçlardan yola çıkarak, DALL·E’nin analojik akıl yürütme problemlerindeki yeteneğini 20. yüzyılda yaygın olarak kullanılan görsel bir IQ testi olan Raven’ın ilerleyen matrisleri üzerinde test ederek ölçtük.
DALL·E’nin coğrafi olgular, önemli yerler ve bölgeler hakkında bilgi kazandığını gördük. Bu kavramlara ilişkin bilgileri bazı açılardan şaşırtıcı derecede doğru, bazı açılardan ise kusurlu.
DALL·E’nin bir mekandan diğerine değişkenlik gösteren kavramlar hakkındaki bilgisinin yanı sıra, zaman içinde değişen kavramlar hakkındaki bilgisini de araştırıyoruz.
DALL·E, hem metni hem de görüntüyü 1280 tokenlik (metin için 256 görsel için 1024 tokenlik) tek bir veri akışı olarak alan ve bunların hepsini otoregresif olarak modelleyen ve sadece kod çözücü olan basit bir transformerdir. 64 öz-dikkat katmanının her birindeki dikkat maskesi, her bir görsel tokeninin tüm metin tokenlerine dikkat etmesini sağlar. DALL·E, metin tokenleri için standart nedensel maskeyi, görsel tokenleri için ise katmana bağlı olarak satır, sütun veya evrişimli dikkat örüntüsüne sahip seyrek dikkati kullanır. Mimari ve eğitim prosedürü hakkında daha ayrıntılı bilgiler makalemizdedir(yeni bir pencerede açılır).
Metni görsele dönüştürme sentezi, Reed ve diğerlerinin1 metin yerleştirmeleri üzerinde koşullandırılmış bir GAN kullandıkları öncü çalışmalarından bu yana aktif bir araştırma alanı oldu. Yerleştirmeler, CLIP’ten hiç de farklı olmayan bir şekilde, karşıtsal kayıp kullanılarak önceden eğitilmiş bir kodlayıcı tarafından üretilir. StackGAN3 ve StackGAN++4 görsel çözünürlüğünü artırmak ve görsel sadakati iyileştirmek için çok ölçekli GAN’lar kullanır. AttnGAN5 metin ve görsel özelliklerinin arasına dikkati dahil eder ve bir yan amaç olarak da karşıtsal bir metin-görsel özelliği eşleştirme kaybını önerir. Bunu, çevrimdışı olarak yaptığımız CLIP’le yeniden sıralama ile karşılaştırmak ilginç olabilir. Diğer çalışmalar2, 6, 7 görsel kalitesini iyileştirmek için eğitim sırasında kullanılan ek denetim kaynaklarına da yer verir. Son olarak, Nguyen ve diğerleri8 ile Cho ve diğerleri9 tarafından yapılan çalışmalarda, görsel üretimi için önceden eğitilmiş çok modlu ayırt edici modellerden yararlanan örnekleme tabanlı stratejiler araştırılmaktadır.
VQVAE-2(yeni bir pencerede açılır) içinde kullanılan reddetme örneklemesine benzer bir şekilde, tüm etkileşimli görsellerdeki her bir metin açıklaması için 512 örneğin ilk 32’sini yeniden sıralamak amacıyla CLIP kullanıyoruz. Bu prosedür bir tür dil rehberliğinde arama16 olarak görülebilir ve örnek kalitesi üzerinde önemli bir etki yapabilir.
Dipnotlar
- A
Token, ayrık bir kelime dağarcığındaki herhangi bir sembol anlamına gelir. İnsanlar için İngilizcedeki her bir harf, 26 harfli alfabedeki bir tokendir. DALL·E’nin kelime dağarcığında hem metin hem de görsel kavramlarına ait tokenler bulunur. Daha açıkça belirtmek gerekirse, her bir görsel açıklaması 16384 boyutundaki bir kelime dağarcığına sahip en fazla 256 BPE şifreli token kullanılarak temsil edilirken, görsel ise 8192 boyutunda bir kelime dağarcığına sahip 1024 token kullanılarak temsil edilir.
Görseller, eğitim sırasında 256x256 çözünürlüğe sahip olacak şekilde önceden işlenir. VQVAE ile benzer bir şekilde, her görsel sürekli gevşetme kullanarak önceden eğittiğimiz ayrık bir VAE kullanılarak ayrık gizli kodların 32x32 boyutlu bir ızgarasına sıkıştırılır. Gevşeme kullanılarak yapılan eğitimin, açık bir kod çizelgesine, EMA kaybına veya ölü kod canlandırma gibi hilelere duyulan ihtiyacı ortadan kaldırdığını ve büyük kelime dağarcığı boyutlarına göre ölçeklenebileceğini gördük.
- B
Daha ayrıntılı bilgiler bir sonraki bölümdedir.
- 17
Değişken bağlama olarak adlandırılan bu görev, literatürde kapsamlı bir şekilde incelenmiştir.
Referanslar
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “Generative adversarial text to image synthesis(yeni bir pencerede açılır)”. In ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “Learning what and where to draw(yeni bir pencerede açılır)”. In NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks(yeni bir pencerede açılır)”. In ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: realistic image synthesis with stacked generative adversarial networks(yeni bir pencerede açılır)”. In IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: Fine-grained text to image generation with attentional generative adversarial networks(yeni bir pencerede açılır).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “Object-driven text-to-image synthesis via adversarial training(yeni bir pencerede açılır)”. In CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “Text-to-image generation grounded by fine-grained user attention(yeni bir pencerede açılır)”. In WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). “Plug & play generative networks: conditional iterative generation of images in latent space(yeni bir pencerede açılır).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: Paint, caption, and answer questions with multi-modal transformers(yeni bir pencerede açılır)”. EMNLP 2020.
- 10
Kingma, Diederik P., and Max Welling. “Auto-encoding variational bayes(yeni bir pencerede açılır).” arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. “Stochastic backpropagation and approximate inference in deep generative models(yeni bir pencerede açılır).” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). “Categorical reparametrization with Gumbel-softmax(yeni bir pencerede açılır)”.
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “The Concrete distribution: a continuous relaxation of discrete random variables(yeni bir pencerede açılır)”.
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Neural discrete representation learning(yeni bir pencerede açılır)”.
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “Generating diverse high-fidelity images with VQ-VAE-2(yeni bir pencerede açılır)”.
- 16
Andreas, J., Klein, D., Levine, S. (2017). “Learning with Latent Language(yeni bir pencerede açılır)”.
- 17
- 18
- 19
Gayler, R. (1998). “Multiplicative binding, representation operators & analogy(yeni bir pencerede açılır)”.
- 20
Kanerva, P. (1997). “Fully distributed representations(yeni bir pencerede açılır)”.


