DALL·E: Kuvien luominen tekstistä.
Olemme kouluttaneet DALL·E-nimisen neuroverkon, joka luo kuvia tekstikuvauksista monenlaisille luonnollisella kielellä ilmaistaville käsitteille.

Kuvituskuva: Justin Jay Wang
DALL·E on 12 miljardin parametrin versio GPT‑3(avautuu uudessa ikkunassa):sta, joka on koulutettu luomaan kuvia tekstikuvauksista käyttämällä teksti-kuva-parien tietojoukkoa. Olemme havainneet, että sillä on monipuolinen valikoima ominaisuuksia, kuten eläinten ja esineiden antropomorfisoitujen versioiden luominen, toisiinsa liittymättömien käsitteiden yhdistäminen uskottavilla tavoilla, tekstin renderöinti ja muunnosten tekeminen olemassa oleviin kuviin.
Katso myös: DALL·E 2, joka tuottaa realistisempia ja tarkempia kuvia neljä kertaa suuremmalla resoluutiolla.
GPT‑3 osoitti, että kieltä voidaan käyttää ohjaamaan suurta neuroverkkoa suorittamaan erilaisia tekstinluontitehtäviä. Image GPT osoitti, että samanlaista neuroverkkoa voidaan käyttää myös kuvien luomiseen erittäin tarkasti. Laajennamme näitä havaintoja osoittaaksemme, että visuaalisten käsitteiden manipulointi kielen avulla on nyt saavutettavissa.
Kuten GPT‑3, DALL·E on muuntajakielimalli. Se vastaanottaa sekä tekstin että kuvan yhtenä datavirtana, joka sisältää jopa 1 280 tunnistetta, ja se koulutetaan luomaan kaikki tunnisteet yksi kerrallaan suurimman todennäköisyyden avulla. A
Tämän koulutusmenetelmän avulla DALL·E voi paitsi luoda kuvan tyhjästä, myös luoda uudelleen minkä tahansa olemassa olevan kuvan suorakaiteen muotoisen alueen, joka ulottuu oikeaan alakulmaan tekstikehotteen kanssa yhdenmukaisella tavalla.
Tiedostamme, että generatiivisia malleja hyödyntävällä työllä voi olla merkittäviä ja laajoja yhteiskunnallisia vaikutuksia. Tulevaisuudessa aiomme analysoida, miten DALL·E:n kaltaiset mallit liittyvät yhteiskunnallisiin kysymyksiin, kuten tiettyjen työprosessien ja ammattien taloudellisiin vaikutuksiin, mallien tuotosten mahdolliseen puolueellisuuteen ja tämän teknologian mukanaan tuomiin pitkän aikavälin eettisiin haasteisiin.
Olemme havainneet, että DALL·E pystyy luomaan uskottavia kuvia monenlaisille lauseille, jotka tutkivat kielen sommitelmallista rakennetta. Havainnollistamme tätä seuraavassa osiossa interaktiivisten visualisointien avulla. Visuaalisissa malleissa näytetyt kuvatekstinäytteet on saatu ottamalla 32 parasta 512 kuvasta CLIP-uudelleenjärjestyksen jälkeen. Emme kuitenkaan käytä manuaalista valikointia lukuun ottamatta pikkukuvia ja ulkopuolella näkyviä itsenäisiä kuvia.B
Testaamme DALL·E:n kykyä muokata useita objektin ominaisuuksia sekä sitä, kuinka monta kertaa se esiintyy.
Useiden objektien, niiden ominaisuuksien ja niiden avaruudellisten suhteiden samanaikainen hallinta tuo mukanaan uuden haasteen. Harkitse esimerkiksi ilmausta ”siili, jolla on punainen hattu, keltaiset hanskat, sininen paita ja vihreät housut”. Tulkitakseen tämän lauseen oikein, DALL·E:n on paitsi yhdistettävä jokainen vaatekappale oikein eläimeen, myös muodostettava assosiaatiot (hattu, punainen), (käsineet, keltainen), (paita, sininen) ja (housut, vihreä) sekoittamatta niitä keskenään. C
Testaamme DALL·E:n kykyä tehdä tämä suhteellisen sijoittelun, objektien pinoamisen ja useiden ominaisuuksien hallinnan osalta.
Vaikka DALL·E tarjoaa jonkin verran hallintamahdollisuuksia joihinkin objektien ominaisuuksiin ja sijainteihin, onnistumisprosentti voi riippua siitä, miten kuvateksti on muotoiltu. Kun esitellään enemmän objekteja, DALL·E sekoittaa helposti objektien ja niiden värien väliset yhteydet, ja onnistumisprosentti laskee jyrkästi. Huomaamme myös, että DALL·E on näissä tilanteissa hauras kuvatekstin uudelleenmuotoilun suhteen: vaihtoehtoiset, semanttisesti vastaavat kuvatekstit eivät usein anna oikeita tulkintoja.
Olemme havainneet, että DALL·E mahdollistaa myös kohtauksen näkökulman ja 3D-tyylin hallinnan, jossa kohtaus renderöidään.
Viedäksemme tätä eteenpäin testaamme DALL·E:n kykyä piirtää toistuvasti tunnetun hahmon pää kustakin kulmasta tasavälein olevien kulmien sarjasta ja havaitsemme, että voimme saada aikaan sujuvan animaation pyörivästä päästä.
DALL·E näyttää pystyvän soveltamaan kohtauksiin tietyntyyppisiä optisia vääristymiä, kuten näemme vaihtoehdoista ”kalansilmänäkymä” ja ”pallomainen panoraama”. Tämä motivoi meitä tutkimaan sen kykyä luoda heijastuksia.
”Äärimmäisen lähikuvan” ja ”röntgenkuvan” tyyliset näytteet johtivat meidät tutkimaan tarkemmin DALL·E:n kykyä esittää sisäistä rakennetta poikkileikkauskuvina ja ulkoista rakennetta makrokuvina.
Tekstin kääntäminen kuviksi on alimääritelty: yksi kuvateksti vastaa yleensä ääretöntä määrää uskottavia kuvia, joten kuva ei ole yksikäsitteisesti määritelty. Pohdi esimerkiksi kuvatekstiä ”maalaus kabybarasta istumassa pellolla auringonnousussa”. Kapybaran suunnasta riippuen varjon piirtäminen voi olla tarpeen, vaikka tätä yksityiskohtaa ei koskaan mainita nimenomaisesti. Tutkimme DALL·E:n kykyä ratkaista alimitoitettuja piirteitä kolmessa tapauksessa: tyylin, ympäristön ja ajan muuttaminen; saman kohteen piirtäminen useissa eri tilanteissa; ja kuvan luominen kohteesta, johon on kirjoitettu tietty teksti.
Vaihtelevalla luotettavuusasteella DALL·E tarjoaa pääsyn osaan 3D-renderöintimoottorin ominaisuuksista luonnollisen kielen kautta. Se voi itsenäisesti hallita pienen määrän objektien ominaisuuksia ja rajoitetusti myös niiden lukumäärää ja järjestystä toisiinsa nähden. Se voi myös hallita sijaintia ja kulmaa, josta kohtaus renderöidään, ja se voi luoda tunnettuja objekteja kulman ja valaistusolosuhteiden tarkkojen määritysten mukaisesti.
Toisin kuin 3D-renderöintimoottori, jonka syötteet on määriteltävä yksiselitteisesti ja yksityiskohtaisesti, DALL·E pystyy usein tavallaan täyttämään tyhjät kohdat, kun kuvateksti antaa ymmärtää, että kuvan on sisällettävä tietty yksityiskohta, jota ei ole nimenomaisesti mainittu.
Seuraavaksi tutkimme edellä mainittujen ominaisuuksien käyttöä muodin ja sisustussuunnittelun alalla.
Kielen sommitelmainen luonne antaa meille mahdollisuuden koota käsitteitä kuvaamaan sekä todellisia että kuvitteellisia asioita. Havaitsemme, että DALL·E pystyy myös yhdistämään erilaisia ideoita syntetisoidakseen objekteja, joista osa ei todennäköisesti ole olemassa todellisessa maailmassa. Tutkimme tätä kykyä kahdessa tapauksessa: siirtämällä ominaisuuksia eri käsitteistä eläimiin ja suunnittelemalla tuotteita ottamalla inspiraatiota toisiinsa liittymättömistä käsitteistä.
Edellisessä osiossa tutkimme DALL·E:n kykyä yhdistää toisiinsa liittymättömiä käsitteitä luodessaan kuvia reaalimaailman esineistä. Tässä tutkimme kykyä taiteen kontekstissa kolmenlaisten kuvitusten avulla: eläinten ja esineiden antropomorfisoitujen versioiden, eläinkimeerien ja emojeiden avulla.
GPT‑3:lle voidaan antaa ohjeita monenlaisten tehtävien suorittamiseen pelkästään kuvauksen ja vihjeen perusteella vastauksen luomiseksi kehotteessa ilman lisäkoulutusta. Esimerkiksi kun GPT‑3:lle antaa kehotteen ”tässä on lause ’henkilö ulkoiluttaa koiraansa puistossa’ käännettynä ranskaksi:”, se vastaa ”un homme qui promène son chien dans le parc”. Tätä kykyä kutsutaan zero-shot-päättelyksi. Havaitsimme, että DALL·E laajentaa tätä ominaisuutta visuaaliselle alueelle ja pystyy suorittamaan useita erilaisia kuvasta kuvaan -käännöstehtäviä, kun sitä kehotetaan oikein.
Emme odottaneet tämän ominaisuuden ilmaantuvan, emmekä tehneet muutoksia neuroverkkoon tai koulutusmenettelyyn sen edistämiseksi. Näiden tulosten innoittamana mittaamme DALL·E:n kykyä analogisen päättelyn tehtäviin testaamalla sitä Ravenin progressiivisilla matriiseilla, visuaalisella älykkyystestillä, jota käytettiin laajalti 1900-luvulla.
Olemme havainneet, että DALL·E on oppinut maantieteellisistä tiedoista, maamerkeistä ja naapurustoista. Sen tietämys näistä käsitteistä on joiltakin osin yllättävän tarkkaa ja toisilta osin puutteellista.
Sen lisäksi, että tutkimme DALL·E:n tietämystä käsitteistä, jotka vaihtelevat avaruuden mukaan, tutkimme myös sen tietämystä käsitteistä, jotka vaihtelevat ajan kuluessa.
DALL·E on yksinkertainen, pelkästään dekooderilla toimiva muuntaja, joka vastaanottaa sekä tekstin että kuvan yhtenä 1 280 merkin virtana – 256 tekstille ja 1 024 kuvalle – ja mallintaa ne kaikki autoregressiivisesti. Kunkin 64 itsetarkkailukerroksen huomiomaski mahdollistaa sen, että jokainen kuvatunnus voi huomioida kaikki tekstitunnukset. DALL·E käyttää tekstitunnisteille vakiomuotoista kausaalimaskia ja kuvatunnisteille harvaa huomiota joko rivi-, sarake- tai konvoluutiohuomiokuviolla tasosta riippuen. Annamme lisätietoja arkkitehtuurista ja koulutusmenettelystä tässä artikkelissamme(avautuu uudessa ikkunassa).
Tekstistä kuvaksi -synteesi on ollut aktiivinen tutkimusalue uraauurtavan Reed et. al. työn jälkeen.1 Heidän lähestymistapansa käyttää tekstin upottamiseen ehdollista GAN-verkkoa. Upotukset tuotetaan enkooderilla, joka on esikoulutettu käyttämällä kontrastiivista häviötä, joka muistuttaa CLIP'ä. StackGAN3 ja StackGAN++4 käyttävät monialaisia GAN-verkkoja kuvan resoluution skaalaamiseen ja visuaalisen uskollisuuden parantamiseen. AttnGAN5 kiinnittää huomion teksti- ja kuvaominaisuuksien välillä ja ehdottaa lisätavoitteeksi kontrastiivista teksti-kuvaominaisuuksien yhteensopivuuden menetystä. Tätä on mielenkiintoista verrata CLIP-uudelleensijoitukseen, joka tehdään offline-tilassa. Muu työ2, 6 ja 7 sisältää lisäohjausta koulutuksen aikana kuvanlaadun parantamiseksi. Lopuksi Nguyen et. al8 ja Cho et. al9 tutkivat otantaan perustuvia kuvanmuodostusstrategioita, jotka hyödyntävät esikoulutettuja multimodaalisia erottelumalleja.
Samoin kuin VQVAE-2(avautuu uudessa ikkunassa):ssa käytetyssä hylkäysotantamenetelmässä käytämme CLIP-ominaisuutta järjestääksemme uudelleen 32 parasta 512 otoksesta jokaista kuvatekstiä varten kaikissa interaktiivisissa visualisoinneissa. Tätä menettelyä voidaan pitää myös eräänlaisena kieliohjautuneena hakuna16, ja sillä voi olla dramaattinen vaikutus otoksen laatuun.
Alaviitteet
- A
Tunnus on mikä tahansa symboli erillisestä sanastosta, kuten ihmisille jokainen englannin kielen kirjain on tunnus 26-kirjaimisesta aakkosesta. DALL·E:n sanastossa on sekä teksti- että kuvakäsitteille tunnuksia. Tarkemmin sanottuna kutakin kuvatekstiä edustaa enintään 256 BPE-koodattua tunnistetta, joiden sanaston koko on 16 384, ja kuvaa edustaa 1 024 tokenia, joiden sanaston koko on 8 192.
Kuvat esikäsitellään 256x256 resoluutioon harjoittelun aikana. Samoin kuin VQVAE:ssä jokainen kuva pakataan 32x32-ruudukoksi, joka koostuu huomaamattomista latenttikoodeista, käyttämällä huomaamatonta VAE:tä, jonka esikoulutimme jatkuvalla relaksaatiolla. Havaitsimme, että relaksaatiolla kouluttaminen poistaa tarpeen täsmälliselle koodikirjalle, EMA-häviölle tai tempuille, kuten kuolleen koodin elvyttämiselle, ja sitä voidaan skaalata suuriin sanastokokoihin.
- B
Lisätietoja on myöhemmässä osiossa.
- 17
Tätä tehtävää kutsutaan muuttujasidonnaksi, ja sitä on tutkittu laajasti kirjallisuudessa.
Viitteet
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “Generative adversarial text to image synthesis(avautuu uudessa ikkunassa)”. In ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “Learning what and where to draw(avautuu uudessa ikkunassa)”. In NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks(avautuu uudessa ikkunassa)”. In ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: realistic image synthesis with stacked generative adversarial networks(avautuu uudessa ikkunassa)”. In IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: Fine-grained text to image generation with attentional generative adversarial networks(avautuu uudessa ikkunassa).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “Object-driven text-to-image synthesis via adversarial training(avautuu uudessa ikkunassa)”. In CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “Text-to-image generation grounded by fine-grained user attention(avautuu uudessa ikkunassa)”. In WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). “Plug & play generative networks: conditional iterative generation of images in latent space(avautuu uudessa ikkunassa).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: Paint, caption, and answer questions with multi-modal transformers(avautuu uudessa ikkunassa)”. EMNLP 2020.
- 10
Kingma, Diederik P. ja Max Welling. “Auto-encoding variational bayes(avautuu uudessa ikkunassa).” arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed ja Daan Wierstra. “Stochastic backpropagation and approximate inference in deep generative models(avautuu uudessa ikkunassa).” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). “Categorical reparametrization with Gumbel-softmax(avautuu uudessa ikkunassa)”.
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “The Concrete distribution: a continuous relaxation of discrete random variables(avautuu uudessa ikkunassa)”.
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Neural discrete representation learning(avautuu uudessa ikkunassa)”.
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “Generating diverse high-fidelity images with VQ-VAE-2(avautuu uudessa ikkunassa)”.
- 16
Andreas, J., Klein, D., Levine, S. (2017). “Learning with Latent Language(avautuu uudessa ikkunassa)”.
- 17
- 18
- 19
Gayler, R. (1998). “Multiplicative binding, representation operators & analogy(avautuu uudessa ikkunassa)”.
- 20
Kanerva, P. (1997). “Fully distributed representations(avautuu uudessa ikkunassa)”.


