DALL·E: Creació d'imatges a partir de text
Hem entrenat una xarxa neuronal anomenada DALL·E que crea imatges a partir de subtítols de text per a una àmplia gamma de conceptes expressables en llenguatge natural.

Il·lustració: Justin Jay Wang
DALL·E és una versió de 12.000 milions de paràmetres de GPT‑3(s'obre en una finestra nova) entrenada per generar imatges a partir de descripcions de text, utilitzant un conjunt de dades de parelles text–imatge. Hem vist que té un conjunt divers de capacitats, com ara crear versions antropomorfitzades d'animals i objectes, combinar conceptes no relacionats de maneres plausibles, representar text i aplicar transformacions a imatges existents.
Vegeu també: DALL·E 2, que genera imatges més realistes i precises amb una resolució 4 vegades superior.
GPT‑3 va demostrar que el llenguatge es pot utilitzar per indicar a una gran xarxa neuronal que faci una varietat de tasques de generació de text. Image GPT va mostrar que el mateix tipus de xarxa neuronal també es pot utilitzar per generar imatges d'alta fidelitat. Ampliem aquestes troballes per mostrar que manipular conceptes visuals mitjançant el llenguatge ara és a l'abast.
Igual que GPT‑3, DALL·E és un model de llenguatge transformador. Rep tant el text com la imatge com un únic flux de dades que conté fins a 1280 segments, i s'entrena amb màxima versemblança per generar tots els segments, un darrere l'altre. A
Aquest procediment d'entrenament permet a DALL·E no només generar una imatge des de zero, sinó també regenerar qualsevol regió rectangular d'una imatge existent que s'estengui fins a la cantonada inferior dreta, d'una manera coherent amb la indicació de text.
Reconeixem que el treball amb models generatius té el potencial de tenir impactes socials importants i amplis. En el futur, tenim previst analitzar com models com DALL·E es relacionen amb qüestions socials com l'impacte econòmic en determinats processos de treball i professions, el potencial de biaix en les sortides del model i els reptes ètics a més llarg termini que implica aquesta tecnologia.
Hem observat que DALL·E és capaç de crear imatges plausibles per a una gran varietat de frases que exploren l'estructura composicional del llenguatge. Ho il·lustrem amb una sèrie de visuals interactius a la secció següent. Les mostres mostrades per a cada peu de foto als visuals s'obtenen prenent les 32 millors de 512 després de reordenar-les amb CLIP, però no fem cap selecció manual, a part de les miniatures i les imatges independents que apareixen a fora.B
Provem la capacitat de DALL·E de modificar diversos atributs d'un objecte, així com el nombre de vegades que apareix.
Controlar simultàniament diversos objectes, els seus atributs i les seves relacions espacials planteja un nou repte. Per exemple, considerem la frase «un eriçó amb un barret vermell, guants grocs, camisa blava i pantalons verds». Per interpretar correctament aquesta frase, DALL·E no només ha de compondre correctament cada peça de roba amb l'animal, sinó també formar les associacions (barret, vermell), (guants, groc), (camisa, blau) i (pantalons, verd) sense barrejar-les C
Provem la capacitat de DALL·E de fer-ho per al posicionament relatiu, l'apilament d'objectes i el control de múltiples atributs.
Tot i que DALL·E ofereix un cert nivell de control sobre els atributs i les posicions d'un nombre reduït d'objectes, la taxa d'èxit pot dependre de com estigui formulat el peu de foto. A mesura que s'introdueixen més objectes, DALL·E tendeix a confondre les associacions entre els objectes i els seus colors, i la taxa d'èxit disminueix bruscament. També observem que DALL·E és fràgil pel que fa a la reformulació del peu de foto en aquests escenaris: peus de foto alternatius i semànticament equivalents sovint no produeixen cap interpretació correcta.
Hem observat que DALL·E també permet controlar el punt de vista d'una escena i l'estil 3D amb què es representa.
Per anar més enllà, provem la capacitat de DALL·E de dibuixar repetidament el cap d'una figura coneguda en cada angle d'una seqüència d'angles espaiats uniformement, i observem que podem recuperar una animació suau del cap en rotació.
DALL·E sembla ser capaç d'aplicar alguns tipus de distorsions òptiques a les escenes, com veiem amb les opcions «vista amb lent d'ull de peix» i «un panorama esfèric». Això ens va motivar a explorar la seva capacitat de generar reflexos.
Les mostres de l'estil «primeríssim primer pla» i «raigs X» ens van portar a explorar més a fons la capacitat de DALL·E per representar l'estructura interna amb vistes en secció transversal i l'estructura externa amb fotografies macro.
La tasca de traduir text a imatges està insuficientment especificada: una sola descripció generalment correspon a una infinitat d'imatges plausibles, de manera que la imatge no queda determinada de manera única. Per exemple, considerem la descripció «una pintura d'un capibara assegut en un camp a la sortida del sol». Segons l'orientació del capibara, pot ser necessari dibuixar una ombra, tot i que aquest detall no s'esmenta mai explícitament. Explorem la capacitat de DALL·E de resoldre aquesta manca d'especificació en tres casos: canviar l'estil, l'entorn i el temps; dibuixar el mateix objecte en una varietat de situacions diferents; i generar una imatge d'un objecte amb un text concret escrit a sobre.
Amb graus de fiabilitat variables, DALL·E proporciona accés a un subconjunt de les capacitats d'un motor de renderització 3D mitjançant llenguatge natural. Pot controlar de manera independent els atributs d'un nombre reduït d'objectes i, fins a un cert punt, quants n'hi ha i com estan disposats els uns respecte dels altres. També pot controlar la ubicació i l'angle des dels quals es representa una escena, i pot generar objectes coneguts d'acord amb especificacions precises d'angle i condicions d'il·luminació.
A diferència d'un motor de renderització 3D, les entrades del qual s'han d'especificar sense ambigüitat i amb tot detall, DALL·E sovint és capaç d'«omplir els buits» quan el peu de foto implica que la imatge ha de contenir un determinat detall que no s'indica explícitament.
A continuació, explorem l'ús de les capacitats anteriors per a la moda i el disseny d'interiors.
La naturalesa composicional del llenguatge ens permet combinar conceptes per descriure coses tant reals com imaginàries. Hem observat que DALL·E també té la capacitat de combinar idees dispars per sintetitzar objectes, alguns dels quals és poc probable que existeixin al món real. Explorem aquesta capacitat en dos casos: transferir qualitats de diversos conceptes als animals i dissenyar productes inspirant-se en conceptes no relacionats.
A la secció anterior, vam explorar la capacitat de DALL·E de combinar conceptes no relacionats quan genera imatges d'objectes del món real. Aquí explorem aquesta capacitat en el context de l'art, per a tres tipus d'il·lustracions: versions antropomorfitzades d'animals i objectes, quimeres animals i emojis.
Es pot indicar a GPT‑3 que faci molts tipus de tasques només a partir d'una descripció i d'una pista per generar la resposta proporcionada a la seva indicació, sense cap entrenament addicional. Per exemple, quan se li dona la frase «aquí hi ha la frase “una persona passejant el seu gos pel parc” traduïda al francès:», GPT‑3 respon «un homme qui promène son chien dans le parc.» Aquesta capacitat s'anomena raonament sense exemples. Hem observat que DALL·E amplia aquesta capacitat al domini visual i és capaç de dur a terme diversos tipus de tasques de traducció d'imatge a imatge quan se li dona la indicació adequada.
No havíem previst que aquesta capacitat emergís, i no vam fer cap modificació a la xarxa neuronal ni al procediment d'entrenament per afavorir-la. Motivats per aquests resultats, mesurem l'aptitud de DALL·E per a problemes de raonament analògic provant-lo amb les matrius progressives de Raven, un test visual de CI molt utilitzat al segle XX.
Hem observat que DALL·E ha après fets geogràfics, monuments i barris. El seu coneixement d'aquests conceptes és sorprenentment precís en alguns aspectes i erroni en d'altres.
A més d'explorar el coneixement de DALL·E sobre conceptes que varien en l'espai, també explorem el seu coneixement de conceptes que varien en el temps.
DALL·E és un transformador senzill només amb descodificador que rep tant el text com la imatge com un únic flux de 1280 segments —256 per al text i 1024 per a la imatge— i els modela tots de manera autoregressiva. La màscara d'atenció de cadascuna de les seves 64 capes d'autoatenció permet que cada segment d'imatge atengui tots els segments de text. DALL·E fa servir la màscara causal estàndard per als segments de text i atenció escassa per als segments d'imatge amb un patró d'atenció per files, columnes o convolucional, segons la capa. Oferim més detalls sobre l'arquitectura i el procediment d'entrenament al nostre article(s'obre en una finestra nova).
La síntesi de text a imatge és una àrea de recerca activa des del treball pioner de Reed et. al,1 l'enfocament del qual utilitza una GAN condicionada amb incrustacions de text. Les incrustacions les produeix un codificador preentrenat amb una pèrdua contrastiva, no gaire diferent de CLIP. StackGAN3 i StackGAN++4 utilitzen GAN multiescala per augmentar la resolució de la imatge i millorar la fidelitat visual. AttnGAN5 incorpora atenció entre les característiques de text i d'imatge, i proposa una pèrdua contrastiva de correspondència entre característiques de text i imatge com a objectiu auxiliar. És interessant comparar-ho amb la nostra reordenació amb CLIP, que es fa fora de línia. Altres treballs2, 6 i 7 incorporen fonts addicionals de supervisió durant l'entrenament per millorar la qualitat de la imatge. Finalment, el treball de Nguyen et. al8 i Cho et. al9 explora estratègies de mostreig per a la generació d'imatges que aprofiten models discriminatius multimodals preentrenats.
De manera semblant al mostreig per rebuig utilitzat a VQVAE-2(s'obre en una finestra nova), fem servir CLIP per reordenar les 32 millors de 512 mostres per a cada peu de foto en tots els visuals interactius. Aquest procediment també es pot veure com una mena de cerca guiada pel llenguatge16 i pot tenir un impacte espectacular en la qualitat de les mostres.
Notes a peu de pàgina
- A
Un segment és qualsevol símbol d'un vocabulari discret; per als humans, cada lletra anglesa és un segment d'un alfabet de 26 lletres. El vocabulari de DALL·E té segments tant per a conceptes de text com d'imatge. Concretament, cada peu de foto d'imatge es representa amb un màxim de 256 segments codificats amb BPE amb una mida de vocabulari de 16384, i la imatge es representa amb 1024 segments amb una mida de vocabulari de 8192.
Les imatges es preprocessen a una resolució de 256x256 durant l'entrenament. De manera semblant a VQVAE, cada imatge es comprimeix en una quadrícula de 32x32 de codis latents discrets mitjançant un VAE discret que vam preentrenar fent servir una relaxació contínua. Hem observat que entrenar amb la relaxació elimina la necessitat d'un llibre de codis explícit, pèrdua EMA o trucs com la reactivació de codis morts, i permet escalar a mides de vocabulari grans.
- B
Més detalls a una secció posterior.
- 17
Aquesta tasca s'anomena vinculació de variables i s'ha estudiat àmpliament a la literatura.
Referències
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). «Síntesi generativa adversària de text a imatge(s'obre en una finestra nova)». A ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). «Aprenent què i on dibuixar(s'obre en una finestra nova)». A NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). «StackGAN: síntesi d'imatges fotorealistes a partir de text amb xarxes generatives adversàries apilades(s'obre en una finestra nova)». A ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). «StackGAN++: síntesi d'imatges realistes amb xarxes generatives adversàries apilades(s'obre en una finestra nova)». A IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). «AttnGAN: generació d'imatges a partir de text amb detall fi mitjançant xarxes generatives adversàries amb atenció(s'obre en una finestra nova).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). «Síntesi de text a imatge impulsada per objectes mitjançant entrenament adversari(s'obre en una finestra nova)». A CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). «Generació de text a imatge basada en l'atenció fina de l'usuari(s'obre en una finestra nova)». A WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). «Xarxes generatives plug & play: generació iterativa condicionada d'imatges en l'espai latent(s'obre en una finestra nova).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). «X-LXMERT: pintar, posar peus de foto i respondre preguntes amb transformadors multimodals(s'obre en una finestra nova)». EMNLP 2020.
- 10
Kingma, Diederik P., and Max Welling. «Bayes variacional amb autoencodatge(s'obre en una finestra nova)». prepublicació d'arXiv (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. «Retropropagació estocàstica i inferència aproximada en models generatius profunds(s'obre en una finestra nova)». prepublicació d'arXiv (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). «Reparametrització categòrica amb Gumbel-softmax(s'obre en una finestra nova)».
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). «La distribució Concrete: una relaxació contínua de variables aleatòries discretes(s'obre en una finestra nova)».
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). «Aprenentatge de representacions discretes neuronals(s'obre en una finestra nova)».
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). «Generació d'imatges diverses d'alta fidelitat amb VQ-VAE-2(s'obre en una finestra nova)».
- 16
Andreas, J., Klein, D., Levine, S. (2017). «Aprenentatge amb llenguatge latent(s'obre en una finestra nova)».
- 17
- 18
- 19
- 20
Kanerva, P. (1997). «Representacions totalment distribuïdes(s'obre en una finestra nova)».


