DALL·E: Creating images from text
We’ve trained a neural network called DALL·E that creates images from text captions for a wide range of concepts expressible in natural language.

Illusztráció: Justin Jay Wang
DALL·E is a 12-billion parameter version of GPT‑3(új ablakban nyílik meg) trained to generate images from text descriptions, using a dataset of text–image pairs. We’ve found that it has a diverse set of capabilities, including creating anthropomorphized versions of animals and objects, combining unrelated concepts in plausible ways, rendering text, and applying transformations to existing images.
See also: DALL·E 2, which generates more realistic and accurate images with 4x greater resolution.
GPT‑3 showed that language can be used to instruct a large neural network to perform a variety of text generation tasks. Image GPT showed that the same type of neural network can also be used to generate images with high fidelity. We extend these findings to show that manipulating visual concepts through language is now within reach.
A GPT‑3‑hoz hasonlóan a DALL·E is egy transzformációs nyelvi modell. A szöveget és a képet egyetlen adatfolyamként fogadja, amely legfeljebb 1280 tokent tartalmaz, és maximális valószínűségi módszerrel képezték ki az összes token egymás utáni generálására. A
Ez a betanítási eljárás lehetővé teszi a DALL·E számára, hogy ne csak a semmiből generáljon képet, hanem egy meglévő kép bármely téglalap alakú részét is újragenerálja, amely a jobb alsó sarokig terjed, úgy, hogy összhangban legyen a szöveges utasítással.
Elismerjük, hogy a generatív modellekkel végzett munka jelentős és széles körű társadalmi hatásokkal járhat. A jövőben azt tervezzük, hogy elemezzük, hogyan kapcsolódnak a DALL·E-hez hasonló modellek társadalmi kérdésekhez, mint például a gazdasági hatás bizonyos munkafolyamatokra és szakmákra, a modell kimeneteiben rejlő elfogultság lehetősége, valamint a technológia által felvetett hosszú távú etikai kihívások.
Megállapítottuk, hogy a DALL·E a nyelv kompozicionális szerkezetét vizsgáló mondatok széles skálájára is képes valószerű képeket létrehozni. A következő részben egy sor interaktív vizuális elemmel szemléltetjük ezt. Az egyes képaláírásoknál látható mintákat úgy kaptuk meg, hogy a CLIP-pel történő újrarangsorolás után 512-ből a 32 legjobbat vettük, de nem használunk semmilyen kézi cseresznyeválogatást, eltekintve a kint megjelenő miniatűröktől és önálló képektől.B
Teszteljük, hogy a DALL-E képes-e módosítani egy objektum számos tulajdonságát, valamint azt, hogy hányszor jelenik meg.
Simultaneously controlling multiple objects, their attributes, and their spatial relationships presents a new challenge. For example, consider the phrase “a hedgehog wearing a red hat, yellow gloves, blue shirt, and green pants.” To correctly interpret this sentence, DALL·E must not only correctly compose each piece of apparel with the animal, but also form the associations (hat, red), (gloves, yellow), (shirt, blue), and (pants, green) without mixing them up C
We test DALL·E’s ability to do this for relative positioning, stacking objects, and controlling multiple attributes.
Bár a DALL-E bizonyos fokú irányíthatóságot biztosít néhány tárgy tulajdonságai és pozíciója felett, a siker aránya függhet a felirat megfogalmazásától. Ahogy egyre több tárgy kerül bevezetésre, a DALL-E hajlamos összekeverni a tárgyak és színeik közötti asszociációkat, és a sikerességi arány meredeken csökken. Azt is megjegyezzük, hogy a DALL·E érzékeny a feliratok újrafogalmazására ezekben a helyzetekben: az alternatív, szemantikailag egyenértékű feliratokból gyakran nem adnak helyes értelmezést.
We find that DALL·E also allows for control over the viewpoint of a scene and the 3D style in which a scene is rendered.
Hogy ezt tovább vizsgáljuk, leteszteltük a DALL·E azon képességét, hogy egy közismert személy fejét egyenlő szögközökkel vett nézetsorozat minden egyes szögéből újra és újra lerajzolja, és azt találtuk, hogy így egy sima, forgófej-animáció állítható elő.
Úgy tűnik, hogy a DALL·E képes bizonyos típusú optikai torzításokat alkalmazni a jelenetekre, ahogy azt a „halszemoptika” és a „gömbpanoráma” opcióknál látjuk. Ez arra ösztönzött minket, hogy megvizsgáljuk a a tükröződések előállítására való képességét.
The samples from the “extreme close-up view” and “x-ray” style led us to further explore DALL·E’s ability to render internal structure with cross-sectional views, and external structure with macro photographs.
A szöveg képekké való fordításának feladata aluldefiniált: egyetlen képaláírás általában végtelen számú lehetséges képnek felel meg, így a kép meghatározása nem egyértelmű. Például, vegyük a feliratot: „egy festmény egy kapibaráról, amely egy mezőn ül napfelkeltekor.” A kapibara tájolásától függően szükség lehet árnyékot rajzolni, bár ezt a részletet soha nem említik kifejezetten. Három esetben vizsgáljuk a DALL-E képességét az alul-specifikáció feloldására: a stílus, a beállítás és az idő megváltoztatása; ugyanazon tárgy megrajzolása különböző helyzetekben; és egy tárgy képének generálása egy tárgyról, amelyre egy meghatározott szöveget írtak.
A DALL·E különböző megbízhatósági fokozatokkal képességeinek egy részhalmazán keresztül természetes nyelven keresztül nyújt hozzáférést egy 3D renderelőmotor bizonyos funkcióihoz. Képes önállóan irányítani néhány objektum tulajdonságait, és korlátozott mértékben azt is, hogy hány van belőlük, valamint hogyan vannak elrendezve egymáshoz képest. Szabályozhatja a jelenet megjelenítésének helyét és szögét, valamint generálhat ismert objektumokat a szög és a megvilágítás pontos előírásainak megfelelően.
Ellentétben egy 3D renderelőmotorral, amelynek bemeneti adatait egyértelműen és teljes részletességgel kell megadni, a DALL-E gyakran képes "kitölteni az üres helyeket", amikor a felirat arra utal, hogy a képnek tartalmaznia kell egy bizonyos részletet, amely nincs kifejezetten megadva.
Ezután megvizsgáljuk az előbbi képességek használatát a divat és a belsőépítészet területén.
A nyelv kompozíciós jellege lehetővé teszi, hogy fogalmakat állítsunk össze a valós és képzeletbeli dolgok leírására. Megállapítottuk, hogy a DALL·E képes különböző ötleteket kombinálni, hogy olyan tárgyakat szintetizáljon, amelyek közül néhány valószínűleg nem létezik a valós világban. Ezt a képességet két esetben konstatáltuk: különböző fogalmak tulajdonságainak áthelyezése állatokra, és termékek tervezése, amely során független koncepciókból merítünk inspirációt.
In the previous section, we explored DALL·E’s ability to combine unrelated concepts when generating images of real-world objects. Here, we explore this ability in the context of art, for three kinds of illustrations: anthropomorphized versions of animals and objects, animal chimeras, and emojis.
GPT‑3 can be instructed to perform many kinds of tasks solely from a description and a cue to generate the answer supplied in its prompt, without any additional training. For example, when prompted with the phrase “here is the sentence ‘a person walking his dog in the park’ translated into French:”, GPT‑3 answers “un homme qui promène son chien dans le parc.” This capability is called zero-shot reasoning. We find that DALL·E extends this capability to the visual domain, and is able to perform several kinds of image-to-image translation tasks when prompted in the right way.
We did not anticipate that this capability would emerge, and made no modifications to the neural network or training procedure to encourage it. Motivated by these results, we measure DALL·E’s aptitude for analogical reasoning problems by testing it on Raven’s progressive matrices, a visual IQ test that saw widespread use in the 20th century.
Megállapíthatjuk, hogy DALL-E megismerkedett a földrajzi tényekkel, nevezetességekkel és környékekkel. Ezekről a fogalmakról szerzett tudása meglepően pontos bizonyos szempontból, más szempontokból viszont hibás.
A DALL·E térbeli változó fogalmakra vonatkozó tudásának felfedezése mellett az időbeli változó fogalmakra vonatkozó tudását is vizsgáljuk.
DALL·E is a simple decoder-only transformer that receives both the text and the image as a single stream of 1280 tokens—256 for the text and 1024 for the image—and models all of them autoregressively. The attention mask at each of its 64 self-attention layers allows each image token to attend to all text tokens. DALL·E uses the standard causal mask for the text tokens, and sparse attention for the image tokens with either a row, column, or convolutional attention pattern, depending on the layer. We provide more details about the architecture and training procedure in our paper(új ablakban nyílik meg).
Text-to-image synthesis has been an active area of research since the pioneering work of Reed et. al,1 whose approach uses a GAN conditioned on text embeddings. The embeddings are produced by an encoder pretrained using a contrastive loss, not unlike CLIP. StackGAN3 and StackGAN++4 use multi-scale GANs to scale up the image resolution and improve visual fidelity. AttnGAN5 incorporates attention between the text and image features, and proposes a contrastive text-image feature matching loss as an auxiliary objective. This is interesting to compare to our reranking with CLIP, which is done offline. Other work2, 6 és 7 incorporates additional sources of supervision during training to improve image quality. Finally, work by Nguyen et. al8 and Cho et. al9 explores sampling-based strategies for image generation that leverage pretrained multimodal discriminative models.
Similar to the rejection sampling used in VQVAE-2(új ablakban nyílik meg), we use CLIP to rerank the top 32 of 512 samples for each caption in all of the interactive visuals. This procedure can also be seen as a kind of language-guided search16, and can have a dramatic impact on sample quality.
Lábjegyzetek
- A
A token egy diszkrét szókincs bármely szimbóluma; az emberek esetében minden egyes angol betű egy token a 26 betűs ábécéből. A DALL-E szókincse szöveges és képi fogalmakra egyaránt tartalmaz tokeneket. Konkrétan, minden képfeliratot legfeljebb 256 BPE-kódolt token segítségével ábrázolunk, 16384-es szókincsmérettel, a képet pedig 1024 token segítségével, 8192-es szókincsmérettel.
A képeket a képzés során 256x256-os felbontásra előfeldolgozzuk. A VQVAE-hez hasonlóan minden képet diszkrét látens kódok 32x32-es rácsára tömörítünk egy diszkrét VAE segítségével, amelyet folyamatos relaxációval előzetesen betanítottunk. Megállapítottuk, hogy a relaxációval történő képzéssel elkerülhető az explicit kódkönyv, az EMA-veszteség vagy az olyan trükkök, mint a holt kód újjáélesztése, és nagy szókincsméretig skálázható.
- B
További részletek a későbbi szakaszban találhatók.
- 17
Ezt a feladatot változókötésnek hívják, és a szakirodalomban széles körben tanulmányozták.
Hivatkozások
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “Generative adversarial text to image synthesis(új ablakban nyílik meg)”. In ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “Learning what and where to draw(új ablakban nyílik meg)”. In NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks(új ablakban nyílik meg)”. In ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: realistic image synthesis with stacked generative adversarial networks(új ablakban nyílik meg)”. In IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: Fine-grained text to image generation with attentional generative adversarial networks(új ablakban nyílik meg).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “Object-driven text-to-image synthesis via adversarial training(új ablakban nyílik meg)”. In CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “Text-to-image generation grounded by fine-grained user attention(új ablakban nyílik meg)”. In WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). “Plug & play generative networks: conditional iterative generation of images in latent space(új ablakban nyílik meg).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: Paint, caption, and answer questions with multi-modal transformers(új ablakban nyílik meg)”. EMNLP 2020.
- 10
Kingma, Diederik P., és Max Welling. “Auto-encoding variational bayes(új ablakban nyílik meg).” arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. “Stochastic backpropagation and approximate inference in deep generative models(új ablakban nyílik meg).” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). “Categorical reparametrization with Gumbel-softmax(új ablakban nyílik meg)”.
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “The Concrete distribution: a continuous relaxation of discrete random variables(új ablakban nyílik meg)”.
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Neural discrete representation learning(új ablakban nyílik meg)”.
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “Generating diverse high-fidelity images with VQ-VAE-2(új ablakban nyílik meg)”.
- 16
Andreas, J., Klein, D., és Levine, S. (2017). “Learning with Latent Language(új ablakban nyílik meg)”.
- 17
- 18
- 19
Gayler, R. (1998). “Multiplicative binding, representation operators & analogy(új ablakban nyílik meg)”.
- 20
Kanerva, P. (1997). “Fully distributed representations(új ablakban nyílik meg)”.


