5. tammikuuta 2021

DALL·E: Kuvien luominen tekstistä.

Olemme kouluttaneet DALL·E-nimisen neuroverkon, joka luo kuvia tekstikuvauksista monenlaisille luonnollisella kielellä ilmaistaville käsitteille.

Kuvituskuva: Justin Jay Wang

Ladataan...

DALL·E on 12 miljardin parametrin versio GPT‑3⁠(avautuu uudessa ikkunassa):sta, joka on koulutettu luomaan kuvia tekstikuvauksista käyttämällä teksti-kuva-parien tietojoukkoa. Olemme havainneet, että sillä on monipuolinen valikoima ominaisuuksia, kuten eläinten ja esineiden antropomorfisoitujen versioiden luominen, toisiinsa liittymättömien käsitteiden yhdistäminen uskottavilla tavoilla, tekstin renderöinti ja muunnosten tekeminen olemassa oleviin kuviin.

Katso myös: DALL·E 2⁠, joka tuottaa realistisempia ja tarkempia kuvia neljä kertaa suuremmalla resoluutiolla.

Ladataan...

GPT‑3 osoitti, että kieltä voidaan käyttää ohjaamaan suurta neuroverkkoa suorittamaan erilaisia tekstinluontitehtäviä. Image GPT⁠ osoitti, että samanlaista neuroverkkoa voidaan käyttää myös kuvien luomiseen erittäin tarkasti. Laajennamme näitä havaintoja osoittaaksemme, että visuaalisten käsitteiden manipulointi kielen avulla on nyt saavutettavissa.

Yleiskatsaus

Kuten GPT‑3, DALL·E on muuntajakielimalli. Se vastaanottaa sekä tekstin että kuvan yhtenä datavirtana, joka sisältää jopa 1 280 tunnistetta, ja se koulutetaan luomaan kaikki tunnisteet yksi kerrallaan suurimman todennäköisyyden avulla. ^A

Tämän koulutusmenetelmän avulla DALL·E voi paitsi luoda kuvan tyhjästä, myös luoda uudelleen minkä tahansa olemassa olevan kuvan suorakaiteen muotoisen alueen, joka ulottuu oikeaan alakulmaan tekstikehotteen kanssa yhdenmukaisella tavalla.

Tiedostamme, että generatiivisia malleja hyödyntävällä työllä voi olla merkittäviä ja laajoja yhteiskunnallisia vaikutuksia. Tulevaisuudessa aiomme analysoida, miten DALL·E:n kaltaiset mallit liittyvät yhteiskunnallisiin kysymyksiin, kuten tiettyjen työprosessien ja ammattien taloudellisiin vaikutuksiin, mallien tuotosten mahdolliseen puolueellisuuteen ja tämän teknologian mukanaan tuomiin pitkän aikavälin eettisiin haasteisiin.

Ominaisuudet

Olemme havainneet, että DALL·E pystyy luomaan uskottavia kuvia monenlaisille lauseille, jotka tutkivat kielen sommitelmallista rakennetta. Havainnollistamme tätä seuraavassa osiossa interaktiivisten visualisointien avulla. Visuaalisissa malleissa näytetyt kuvatekstinäytteet on saatu ottamalla 32 parasta 512 kuvasta CLIP⁠-uudelleenjärjestyksen jälkeen. Emme kuitenkaan käytä manuaalista valikointia lukuun ottamatta pikkukuvia ja ulkopuolella näkyviä itsenäisiä kuvia.^B

Määritteiden hallinta

Testaamme DALL·E:n kykyä muokata useita objektin ominaisuuksia sekä sitä, kuinka monta kertaa se esiintyy.

Ladataan...

Useiden objektien piirtäminen

Useiden objektien, niiden ominaisuuksien ja niiden avaruudellisten suhteiden samanaikainen hallinta tuo mukanaan uuden haasteen. Harkitse esimerkiksi ilmausta ”siili, jolla on punainen hattu, keltaiset hanskat, sininen paita ja vihreät housut”. Tulkitakseen tämän lauseen oikein, DALL·E:n on paitsi yhdistettävä jokainen vaatekappale oikein eläimeen, myös muodostettava assosiaatiot (hattu, punainen), (käsineet, keltainen), (paita, sininen) ja (housut, vihreä) sekoittamatta niitä keskenään. ^C

Testaamme DALL·E:n kykyä tehdä tämä suhteellisen sijoittelun, objektien pinoamisen ja useiden ominaisuuksien hallinnan osalta.

Ladataan...

Vaikka DALL·E tarjoaa jonkin verran hallintamahdollisuuksia joihinkin objektien ominaisuuksiin ja sijainteihin, onnistumisprosentti voi riippua siitä, miten kuvateksti on muotoiltu. Kun esitellään enemmän objekteja, DALL·E sekoittaa helposti objektien ja niiden värien väliset yhteydet, ja onnistumisprosentti laskee jyrkästi. Huomaamme myös, että DALL·E on näissä tilanteissa hauras kuvatekstin uudelleenmuotoilun suhteen: vaihtoehtoiset, semanttisesti vastaavat kuvatekstit eivät usein anna oikeita tulkintoja.

Perspektiivin ja kolmiulotteisuuden visualisointi

Olemme havainneet, että DALL·E mahdollistaa myös kohtauksen näkökulman ja 3D-tyylin hallinnan, jossa kohtaus renderöidään.

Ladataan...

Viedäksemme tätä eteenpäin testaamme DALL·E:n kykyä piirtää toistuvasti tunnetun hahmon pää kustakin kulmasta tasavälein olevien kulmien sarjasta ja havaitsemme, että voimme saada aikaan sujuvan animaation pyörivästä päästä.

Ladataan...

DALL·E näyttää pystyvän soveltamaan kohtauksiin tietyntyyppisiä optisia vääristymiä, kuten näemme vaihtoehdoista ”kalansilmänäkymä” ja ”pallomainen panoraama”. Tämä motivoi meitä tutkimaan sen kykyä luoda heijastuksia.

Ladataan...

Sisäisen ja ulkoisen rakenteen visualisointi

”Äärimmäisen lähikuvan” ja ”röntgenkuvan” tyyliset näytteet johtivat meidät tutkimaan tarkemmin DALL·E:n kykyä esittää sisäistä rakennetta poikkileikkauskuvina ja ulkoista rakennetta makrokuvina.

Ladataan...

Kontekstuaalisten yksityiskohtien päättely

Tekstin kääntäminen kuviksi on alimääritelty: yksi kuvateksti vastaa yleensä ääretöntä määrää uskottavia kuvia, joten kuva ei ole yksikäsitteisesti määritelty. Pohdi esimerkiksi kuvatekstiä ”maalaus kabybarasta istumassa pellolla auringonnousussa”. Kapybaran suunnasta riippuen varjon piirtäminen voi olla tarpeen, vaikka tätä yksityiskohtaa ei koskaan mainita nimenomaisesti. Tutkimme DALL·E:n kykyä ratkaista alimitoitettuja piirteitä kolmessa tapauksessa: tyylin, ympäristön ja ajan muuttaminen; saman kohteen piirtäminen useissa eri tilanteissa; ja kuvan luominen kohteesta, johon on kirjoitettu tietty teksti.

Ladataan...

Vaihtelevalla luotettavuusasteella DALL·E tarjoaa pääsyn osaan 3D-renderöintimoottorin ominaisuuksista luonnollisen kielen kautta. Se voi itsenäisesti hallita pienen määrän objektien ominaisuuksia ja rajoitetusti myös niiden lukumäärää ja järjestystä toisiinsa nähden. Se voi myös hallita sijaintia ja kulmaa, josta kohtaus renderöidään, ja se voi luoda tunnettuja objekteja kulman ja valaistusolosuhteiden tarkkojen määritysten mukaisesti.

Toisin kuin 3D-renderöintimoottori, jonka syötteet on määriteltävä yksiselitteisesti ja yksityiskohtaisesti, DALL·E pystyy usein tavallaan täyttämään tyhjät kohdat, kun kuvateksti antaa ymmärtää, että kuvan on sisällettävä tietty yksityiskohta, jota ei ole nimenomaisesti mainittu.

Edellisten ominaisuuksien sovellukset

Seuraavaksi tutkimme edellä mainittujen ominaisuuksien käyttöä muodin ja sisustussuunnittelun alalla.

Ladataan...

Yhdistelemättömien käsitteiden yhdistäminen

Kielen sommitelmainen luonne antaa meille mahdollisuuden koota käsitteitä kuvaamaan sekä todellisia että kuvitteellisia asioita. Havaitsemme, että DALL·E pystyy myös yhdistämään erilaisia ideoita syntetisoidakseen objekteja, joista osa ei todennäköisesti ole olemassa todellisessa maailmassa. Tutkimme tätä kykyä kahdessa tapauksessa: siirtämällä ominaisuuksia eri käsitteistä eläimiin ja suunnittelemalla tuotteita ottamalla inspiraatiota toisiinsa liittymättömistä käsitteistä.

Ladataan...

Eläinkuvitukset

Edellisessä osiossa tutkimme DALL·E:n kykyä yhdistää toisiinsa liittymättömiä käsitteitä luodessaan kuvia reaalimaailman esineistä. Tässä tutkimme kykyä taiteen kontekstissa kolmenlaisten kuvitusten avulla: eläinten ja esineiden antropomorfisoitujen versioiden, eläinkimeerien ja emojeiden avulla.

Ladataan...

Visuaalinen zero-shot-päättely

GPT‑3:lle voidaan antaa ohjeita monenlaisten tehtävien suorittamiseen pelkästään kuvauksen ja vihjeen perusteella vastauksen luomiseksi kehotteessa ilman lisäkoulutusta. Esimerkiksi kun GPT‑3:lle antaa kehotteen ”tässä on lause ’henkilö ulkoiluttaa koiraansa puistossa’ käännettynä ranskaksi:”, se vastaa ”un homme qui promène son chien dans le parc”. Tätä kykyä kutsutaan zero-shot-päättelyksi. Havaitsimme, että DALL·E laajentaa tätä ominaisuutta visuaaliselle alueelle ja pystyy suorittamaan useita erilaisia kuvasta kuvaan -käännöstehtäviä, kun sitä kehotetaan oikein.

Ladataan...

Emme odottaneet tämän ominaisuuden ilmaantuvan, emmekä tehneet muutoksia neuroverkkoon tai koulutusmenettelyyn sen edistämiseksi. Näiden tulosten innoittamana mittaamme DALL·E:n kykyä analogisen päättelyn tehtäviin testaamalla sitä Ravenin progressiivisilla matriiseilla, visuaalisella älykkyystestillä, jota käytettiin laajalti 1900-luvulla.

Ladataan...

Maantieteellinen tieto

Olemme havainneet, että DALL·E on oppinut maantieteellisistä tiedoista, maamerkeistä ja naapurustoista. Sen tietämys näistä käsitteistä on joiltakin osin yllättävän tarkkaa ja toisilta osin puutteellista.

Ladataan...

Ajallinen tieto

Sen lisäksi, että tutkimme DALL·E:n tietämystä käsitteistä, jotka vaihtelevat avaruuden mukaan, tutkimme myös sen tietämystä käsitteistä, jotka vaihtelevat ajan kuluessa.

Ladataan...

Lähestymistavan ja aiemman työn yhteenveto

DALL·E on yksinkertainen, pelkästään dekooderilla toimiva muuntaja, joka vastaanottaa sekä tekstin että kuvan yhtenä 1 280 merkin virtana – 256 tekstille ja 1 024 kuvalle – ja mallintaa ne kaikki autoregressiivisesti. Kunkin 64 itsetarkkailukerroksen huomiomaski mahdollistaa sen, että jokainen kuvatunnus voi huomioida kaikki tekstitunnukset. DALL·E käyttää tekstitunnisteille vakiomuotoista kausaalimaskia ja kuvatunnisteille harvaa huomiota joko rivi-, sarake- tai konvoluutiohuomiokuviolla tasosta riippuen. Annamme lisätietoja arkkitehtuurista ja koulutusmenettelystä tässä artikkelissamme⁠(avautuu uudessa ikkunassa).

Tekstistä kuvaksi -synteesi on ollut aktiivinen tutkimusalue uraauurtavan Reed et. al. työn jälkeen.¹ Heidän lähestymistapansa käyttää tekstin upottamiseen ehdollista GAN-verkkoa. Upotukset tuotetaan enkooderilla, joka on esikoulutettu käyttämällä kontrastiivista häviötä, joka muistuttaa CLIP'ä. StackGAN³ ja StackGAN++⁴ käyttävät monialaisia GAN-verkkoja kuvan resoluution skaalaamiseen ja visuaalisen uskollisuuden parantamiseen. AttnGAN⁵ kiinnittää huomion teksti- ja kuvaominaisuuksien välillä ja ehdottaa lisätavoitteeksi kontrastiivista teksti-kuvaominaisuuksien yhteensopivuuden menetystä. Tätä on mielenkiintoista verrata CLIP-uudelleensijoitukseen, joka tehdään offline-tilassa. Muu työ^{2, 6 ja 7} sisältää lisäohjausta koulutuksen aikana kuvanlaadun parantamiseksi. Lopuksi Nguyen et. al⁸ ja Cho et. al⁹ tutkivat otantaan perustuvia kuvanmuodostusstrategioita, jotka hyödyntävät esikoulutettuja multimodaalisia erottelumalleja.

Samoin kuin VQVAE-2⁠(avautuu uudessa ikkunassa):ssa käytetyssä hylkäysotantamenetelmässä käytämme CLIP⁠-ominaisuutta järjestääksemme uudelleen 32 parasta 512 otoksesta jokaista kuvatekstiä varten kaikissa interaktiivisissa visualisoinneissa. Tätä menettelyä voidaan pitää myös eräänlaisena kieliohjautuneena hakuna¹⁶, ja sillä voi olla dramaattinen vaikutus otoksen laatuun.

Ladataan...

Alaviitteet

A
Tunnus on mikä tahansa symboli erillisestä sanastosta, kuten ihmisille jokainen englannin kielen kirjain on tunnus 26-kirjaimisesta aakkosesta. DALL·E:n sanastossa on sekä teksti- että kuvakäsitteille tunnuksia. Tarkemmin sanottuna kutakin kuvatekstiä edustaa enintään 256 BPE-koodattua tunnistetta, joiden sanaston koko on 16 384, ja kuvaa edustaa 1 024 tokenia, joiden sanaston koko on 8 192.

Kuvat esikäsitellään 256x256 resoluutioon harjoittelun aikana. Samoin kuin VQVAE:ssä jokainen kuva pakataan 32x32-ruudukoksi, joka koostuu huomaamattomista latenttikoodeista, käyttämällä huomaamatonta VAE:tä, jonka esikoulutimme jatkuvalla relaksaatiolla. Havaitsimme, että relaksaatiolla kouluttaminen poistaa tarpeen täsmälliselle koodikirjalle, EMA-häviölle tai tempuille, kuten kuolleen koodin elvyttämiselle, ja sitä voidaan skaalata suuriin sanastokokoihin.