5 Ocak 2021

DALL·E: Metinden görsel oluşturma

Doğal dilde ifade edilebilen çok çeşitli kavramlar için metin açıklamaları kullanarak görseller oluşturmak üzere eğitilen DALL·E sinir ağını geliştirdik.

İllüstrasyon: Justin Jay Wang

Yükleniyor...

GPT‑3⁠(yeni bir pencerede açılır)’ün 12 milyar parametreli bir versiyonu olan DALL·E, metin-görsel çiftlerinden oluşan bir veri setini kullanarak metin açıklamalarından görseller oluşturmak üzere eğitildi. DALL·E’nin hayvanların ve nesnelerin insan formu kazandırılmış versiyonlarını oluşturma, ilgisiz kavramları makul biçimlerde birleştirme, farklı yazı tipleri kullanarak metin oluşturma ve mevcut görüntüleri dönüştürme gibi çok çeşitli yeteneklere sahip olduğunu keşfettik.

Ayrıca bkz. DALL·E 2⁠ daha gerçekçi ve doğru görselleri 4 kat daha yüksek çözünürlükte oluşturuyor.

Yükleniyor...

GPT‑3 büyük bir sinir ağına çeşitli metin tabanlı oluşturma görevlerini yerine getirmesi talimatını vermek için dilin kullanılabileceğini gösterdi. Image GPT⁠ de aynı türdeki bir sinir ağının yüksek sadakatli görseller oluşturmak için kullanılabileceğini gösterdi. Bu bulguları daha da genişleterek artık görsel kavramların dil aracılığıyla manipüle edilebileceğini gösteriyoruz.

Genel bakış

GPT‑3 gibi DALL·E de bir transformer dil modelidir. Hem metin hem de görüntü girdisini 1280 adede kadar token içeren tek bir veri akışı olarak alan bu dil modeli, tüm tokenleri birbiri ardına üretmek için maksimum olabilirlik kullanılarak eğitildi. ^A

Bu eğitim prosedürü, DALL·E’nin sadece sıfırdan görsel üretmesini değil, aynı zamanda mevcut bir görselin herhangi bir noktasından sağ alt köşesine kadar uzanan herhangi bir dikdörtgen bölgesini metin istemiyle tutarlı bir şekilde yeniden üretmesine de olanak tanıyor.

Üretken modeller ile ilgili çalışmaların kayda değer, geniş çaplı toplumsal etkiler doğurma potansiyeli taşıdığının farkındayız. İleride, DALL·E gibi modeller ile bu modellerin belirli bazı iş süreçleri ve meslekler üzerindeki ekonomik etkileri, model çıktılarının ön yargılı olma potansiyeli ve bu teknolojinin beraberinde getirdiği daha uzun vadeli etik zorluklar gibi toplumsal sorunlar arasındaki ilişkiyi analiz etmeyi planlıyoruz.

Yetenekler

DALL·E’nin dilde kullanılabilen çok çeşitli cümle yapıları için akla yatkın görseller oluşturabildiğini görüyoruz. Bunu bir sonraki bölümde bir dizi etkileşimli görsel kullanarak göstereceğiz. Görsellerde her bir metin açıklaması için gösterilen örnekler, oluşturulan 512 görsel CLIP⁠ ile yeniden sıralandıktan sonra ilk 32’si alınarak elde edilmiştir, ancak dışarıda görünen küçük resimler ve bağımsız görseller dışında herhangi bir elle teker teker seçme işlemi yapmıyoruz.^B

Nitelikleri kontrol etme

DALL·E’nin bir nesnenin çeşitli niteliklerini ve nesnenin kaç kez gösterildiğini değiştirme yeteneğini test ediyoruz.

Yükleniyor...

Birden fazla nesne çizme

Birden fazla nesneyi, bunların niteliklerini ve mekansal ilişkilerini eş zamanlı olarak kontrol etmek, yeni bir zorluğu da beraberinde getiriyor. Örneğin, “kırmızı şapka, sarı eldiven, mavi gömlek ve yeşil pantolon giyen bir kirpi” ifadesini ele alalım. DALL·E, bu cümleyi doğru yorumlamak için sadece her bir giysiyi hayvanla doğru bir şekilde bir araya getirmekle kalmamalı, aynı zamanda (şapka, kırmızı), (eldiven, sarı), (gömlek, mavi) ve (pantolon, yeşil) ilişkilerini de karıştırmadan kurmalıdır ^C

DALL·E’nin göreli konumlandırma, nesneleri üst üste yerleştirme ve birden fazla niteliği kontrol etme gibi açılardan bunu yapma yeteneğini test ediyoruz.

Yükleniyor...

DALL·E az sayıda nesnenin nitelikleri ve konumları üzerinde bir miktar kontrol edilebilirlik sağlasa da, açıklamanın nasıl ifade edildiğine bağlı olarak başarı oranı değişebilir. Nesne sayısı arttıkça, DALL·E nesneler ve renkleri arasındaki ilişkileri karıştırma eğilimi gösterir ve başarı oranı keskin bir şekilde düşer. Ayrıca DALL·E’nin bu senaryolarda açıklamanın başka şekilde yeniden ifade edilmesi konusunda kırılgan olduğunu da belirtmemiz gerek. Anlamsal olarak eşdeğer alternatif açıklamalar çoğu zaman doğru yorumlar üretmiyor.

Perspektif ve üç boyutluluğu görselleştirme

DALL·E’nin ayrıca bir sahneye bakış açısı ve sahnenin görselleştirildiği 3 boyutlu stil üzerinde kontrole de olanak tanıdığını gördük.

Yükleniyor...

Bunu daha da ileri götürmek için, DALL·E’nin tanınmış bir figürün başını eşit aralıklarla bir dizi açıdan tekrar tekrar çizme yeteneğini test ettiğimizde, düzgün bir dönen baş animasyonu elde edebildiğimizi gördük.

Yükleniyor...

DALL·E’nin sahnelere “balık gözü” ve “küresel panorama” gibi bazı optik bozulma türlerini uygulayabildiği görülüyor. Bu durum, bizi DALL·E’nin yansımalar üretme yeteneğini incelemeye teşvik etti.

Yükleniyor...

İç ve dış yapıyı görselleştirme

“Aşırı yakın plan çekim” ve “röntgen filmi” stilindeki örnekler, DALL·E’nin kesit görünümleriyle iç yapıyı ve makro fotoğraflarla dış yapıyı oluşturma yeteneğini daha da fazla incelememizi sağladı.

Yükleniyor...

Bağlamsal ayrıntılara dair çıkarım yapma

Metni görsele çevirme görevinde tüm ayrıntılar belirtilmez. Tek bir açıklama genellikle sonsuz sayıda olası görsele karşılık gelir, dolayısıyla benzersiz tek bir görsel söz konusu değildir. Örneğin, “gün doğumunda tarlada oturan kapibara tablosu” açıklamasını ele alalım. Kapibaranın resimdeki yönelimine bağlı olarak gölge çizmek gerekebilir, ancak bu ayrıntı hiçbir zaman açıkça belirtilmez. DALL·E’nin eksik betimlemeleri çözme yeteneğini üç bakımdan araştırdık. Bunların ilki stili, sahneyi ve zamanı değiştirme; ikincisi aynı nesneyi çeşitli farklı durumlarda çizme; üçüncüsü de üzerinde belirli bir metin yazılı bir nesnenin görselini oluşturma yeteneğiydi.

Yükleniyor...

Güvenilirlik dereceleri değişmekle birlikte, DALL·E doğal dil aracılığıyla bir 3 boyutlu görsel oluşturma motorunun yeteneklerinin bir alt kümesine erişmenizi sağlıyor. Az sayıda nesnenin niteliklerini, sınırlı ölçüde de olsa kaç adet olduklarını ve birbirlerine göre nasıl sıralandıklarını bağımsız olarak kontrol edebiliyor. Bunun yanı sıra, bir sahnenin hangi konumdan ve açıdan görselleştirileceğini kontrol edebiliyor ve açı ve aydınlatma koşullarının açıkça belirtilen özelliklerine uygun olarak bilinen nesneleri üretebiliyor.

Girdilerin belirsizliğe yer bırakmayacak şekilde ve tüm ayrıntılarıyla belirtilmesi gereken bir 3 boyutlu görsel oluşturma motorunun aksine, verilen açıklama metni açıkça ifade edilmeyen bazı ayrıntıların görselde bulunmasını gerektirdiğinde DALL·E genellikle “boşlukları doldurabilir”.

Yukarıda belirtilen yeteneklerin uygulandığı örnekler

Şimdi de, yukarıda belirtilen yeteneklerin moda ve iç mekan tasarımlarında kullanımına bakalım.

Yükleniyor...

İlgisiz kavramları birleştirme

Dilin bileşimsel doğası hem gerçek hem de hayali şeyleri tarif etmek için kavramları bir araya getirmemize olanak tanır. DALL·E’nin bazılarının gerçek dünyada var olma olasılığı pek olmayan nesneleri sentezlemek için alakasız fikirleri bir araya getirme yeteneğine de sahip olduğunu görüyoruz. Bu yeteneği şu iki örnekte inceliyoruz: çeşitli kavramlardan alınan nitelikleri hayvanlara aktarma ve ilgisiz kavramlardan ilham alarak ürünler tasarlama.

Yükleniyor...

Hayvan illüstrasyonları

Önceki bölümde, DALL·E’nin gerçek dünyadaki nesnelerin görsellerini oluştururken ilgisiz kavramları birleştirme yeteneğini inceledik. Şimdi de bu yeteneği sanat bağlamında, şu üç illüstrasyon türü için araştırıyoruz: hayvanların ve nesnelerin insan formu kazandırılmış versiyonları, hayvan kimeraları ve emojiler.

Yükleniyor...

Sıfır örnekli görsel akıl yürütme

GPT‑3’e, herhangi bir ek eğitime gerek kalmadan, yalnızca bir açıklamadan veya yanıtı üretmesi için istemde sağlanan bir ipucundan yola çıkarak çok çeşitli farklı görevleri yapma talimatı verilebilir. Örneğin “ ‘Parkta köpeğini gezdiren bir kişi’ cümlesinin Fransızca çevirisi şöyledir:” ifadesiyle istem verildiğinde GPT‑3 “un homme qui promène son chien dans le parc” şeklinde yanıt verir. Bu yeteneğe sıfır örnekli akıl yürütme denir. DALL·E’nin bu yeteneği görsel alana da taşıdığını ve doğru bir şekilde istem verildiğinde, pek çok farklı “görselden görsele” çevirme görevini yapabildiğini görüyoruz.

Yükleniyor...

Böyle bir yeteneğin ortaya çıkacağını öngörmediğimiz gibi, bunu teşvik etmek için sinir ağında veya eğitim prosedüründe herhangi bir değişiklik de yapmadık. Bu sonuçlardan yola çıkarak, DALL·E’nin analojik akıl yürütme problemlerindeki yeteneğini 20. yüzyılda yaygın olarak kullanılan görsel bir IQ testi olan Raven’ın ilerleyen matrisleri üzerinde test ederek ölçtük.

Yükleniyor...

Coğrafi bilgi

DALL·E’nin coğrafi olgular, önemli yerler ve bölgeler hakkında bilgi kazandığını gördük. Bu kavramlara ilişkin bilgileri bazı açılardan şaşırtıcı derecede doğru, bazı açılardan ise kusurlu.

Yükleniyor...

Zamansal bilgi

DALL·E’nin bir mekandan diğerine değişkenlik gösteren kavramlar hakkındaki bilgisinin yanı sıra, zaman içinde değişen kavramlar hakkındaki bilgisini de araştırıyoruz.

Yükleniyor...

Yaklaşımın ve önceki çalışmaların özeti

DALL·E, hem metni hem de görüntüyü 1280 tokenlik (metin için 256 görsel için 1024 tokenlik) tek bir veri akışı olarak alan ve bunların hepsini otoregresif olarak modelleyen ve sadece kod çözücü olan basit bir transformerdir. 64 öz-dikkat katmanının her birindeki dikkat maskesi, her bir görsel tokeninin tüm metin tokenlerine dikkat etmesini sağlar. DALL·E, metin tokenleri için standart nedensel maskeyi, görsel tokenleri için ise katmana bağlı olarak satır, sütun veya evrişimli dikkat örüntüsüne sahip seyrek dikkati kullanır. Mimari ve eğitim prosedürü hakkında daha ayrıntılı bilgiler makalemizdedir⁠(yeni bir pencerede açılır).

Metni görsele dönüştürme sentezi, Reed ve diğerlerinin¹ metin yerleştirmeleri üzerinde koşullandırılmış bir GAN kullandıkları öncü çalışmalarından bu yana aktif bir araştırma alanı oldu. Yerleştirmeler, CLIP’ten hiç de farklı olmayan bir şekilde, karşıtsal kayıp kullanılarak önceden eğitilmiş bir kodlayıcı tarafından üretilir. StackGAN³ ve StackGAN++⁴ görsel çözünürlüğünü artırmak ve görsel sadakati iyileştirmek için çok ölçekli GAN’lar kullanır. AttnGAN⁵ metin ve görsel özelliklerinin arasına dikkati dahil eder ve bir yan amaç olarak da karşıtsal bir metin-görsel özelliği eşleştirme kaybını önerir. Bunu, çevrimdışı olarak yaptığımız CLIP’le yeniden sıralama ile karşılaştırmak ilginç olabilir. Diğer çalışmalar^{2, 6, 7} görsel kalitesini iyileştirmek için eğitim sırasında kullanılan ek denetim kaynaklarına da yer verir. Son olarak, Nguyen ve diğerleri⁸ ile Cho ve diğerleri⁹ tarafından yapılan çalışmalarda, görsel üretimi için önceden eğitilmiş çok modlu ayırt edici modellerden yararlanan örnekleme tabanlı stratejiler araştırılmaktadır.

VQVAE-2⁠(yeni bir pencerede açılır) içinde kullanılan reddetme örneklemesine benzer bir şekilde, tüm etkileşimli görsellerdeki her bir metin açıklaması için 512 örneğin ilk 32’sini yeniden sıralamak amacıyla CLIP⁠ kullanıyoruz. Bu prosedür bir tür dil rehberliğinde arama¹⁶ olarak görülebilir ve örnek kalitesi üzerinde önemli bir etki yapabilir.

Yükleniyor...

Dipnotlar

A
Token, ayrık bir kelime dağarcığındaki herhangi bir sembol anlamına gelir. İnsanlar için İngilizcedeki her bir harf, 26 harfli alfabedeki bir tokendir. DALL·E’nin kelime dağarcığında hem metin hem de görsel kavramlarına ait tokenler bulunur. Daha açıkça belirtmek gerekirse, her bir görsel açıklaması 16384 boyutundaki bir kelime dağarcığına sahip en fazla 256 BPE şifreli token kullanılarak temsil edilirken, görsel ise 8192 boyutunda bir kelime dağarcığına sahip 1024 token kullanılarak temsil edilir.

Görseller, eğitim sırasında 256x256 çözünürlüğe sahip olacak şekilde önceden işlenir. VQVAE ile benzer bir şekilde, her görsel sürekli gevşetme kullanarak önceden eğittiğimiz ayrık bir VAE kullanılarak ayrık gizli kodların 32x32 boyutlu bir ızgarasına sıkıştırılır. Gevşeme kullanılarak yapılan eğitimin, açık bir kod çizelgesine, EMA kaybına veya ölü kod canlandırma gibi hilelere duyulan ihtiyacı ortadan kaldırdığını ve büyük kelime dağarcığı boyutlarına göre ölçeklenebileceğini gördük.