5. jaanuar 2021

DALL·E: piltide loomine tekstist

Oleme treeninud neurovõrgustiku nimega DALL·E, mis loob pilte tekstikirjeldustest, hõlmates laia valikut loomulikus keeles väljendatavaid kontseptsioone.

Illustratsioon: Justin Jay Wang

Laadimine…

DALL·E on GPT‑3⁠(avaneb uues aknas) 12 miljardi parameetriga versioon, mis on koolitatud tekstikirjeldustest piltide genereerimiseks, kasutades teksti-pildi paaride andmestikku. Avastasime, et sellel on mitmekesine võimete komplekt, sealhulgas loomade ja objektide antropomorfiseeritud versioonide loo, mitteseotud kontseptsioonide usutav kombineerimine, teksti renderdamine ja olemasolevate piltide muutmine.

Vaata ka: DALL·E 2⁠, mis koostab realistlikumaid ja täpsemaid pilte neli korda suurema eraldusvõimega.

Laadimine...

GPT‑3 näitas, et keelt saab kasutada suure neurovõrgustiku juhendamiseks, et täita mitmesuguseid teksti genereerimise ülesandeid. Image GPT⁠ näitas, et sama tüüpi neurovõrgustikku saab kasutada ka kõrge täpsusega piltide koostmiseks. Laiendame neid tulemusi, et näidata, et visuaalsete kontseptsioonide manipuleerimine keele kaudu on nüüd käeulatuses.

Ülevaade

Nagu GPT‑3, on ka DALL·E muundav keelemudel. See võtab nii teksti kui ka pildi vastu ühe andmevoona, mis sisaldab kuni 1280 tokenit, ja on treenitud maksimaalse tõenäosuse meetodil, et koostada kõik tokenid üksteise järel. ^A

See koolitusprotseduur võimaldab DALL·E-l mitte ainult koosta pilti nullist, vaid ka uuesti luua olemasoleva pildi mis tahes ristkülikukujulist ala, mis ulatub paremasse alumisse nurka, viisil, mis on viibaga kooskõlas.

Me mõistame, et generatiivsete mudelitega seotud töödel on potentsiaal märkimisväärseks ja laiaulatuslikuks ühiskondlikuks mõjuks. Tulevikus plaanime analüüsida, kuidas mudelid nagu DALL·E seonduvad ühiskondlike probleemidega, nagu majanduslik mõju teatud tööprotsessidele ja ametitele, mudeli väljundite võimalikud eelarvamused ning selle tehnoloogia pikaajalised eetilised väljakutsed.

Funktsioonid

Me leiame, et DALL·E suudab luua usutavaid pilte paljudele lausetüüpidele, mis tutvuvad keele kompositsioonilise struktuuriga. Me näitame seda järgmises osas interaktiivsete visuaalide seeria abil. Visuaalide iga pealkirja jaoks näidatud näidised saadakse, valides pärast CLIP⁠-iga ümberjärjestamist 512-st parimad 32, kuid me ei kasuta käsitsi valimist, välja arvatud pisipiltide ja eraldiseisvate piltide puhul, mis ilmuvad väljaspool.^B

Atribuutide juhtimine

Testime DALL·E võimet muuta objekti mitmeid omadusi, samuti seda, mitu korda see esineb.

Laadimine...

Mitme objekti joonistamine

Mitme objekti, nende omaduste ja ruumiliste suhete samaaegne juhtimine esitab uue väljakutse. Näiteks mõtle fraasile „siil, kes kannab punast mütsi, kollaseid kindaid, sinist särki ja rohelisi pükse.” Selle lause õigeks tõlgendamiseks peab DALL·E mitte ainult õigesti ühendama iga rõivaeseme loomaga, vaid ka looma seosed (müts, punane), (kindad, kollane), (särk, sinine) ja (püksid, roheline) neid segamini ajamata ^C

Testime DALL·E võimet seda teha suhtelise positsioneerimise, objektide virnastamise ja mitme atribuudi kontrollimise jaoks.

Laadimine...

Kuigi DALL·E pakub teatud määral kontrolli väikese arvu objektide omaduste ja positsioonide üle, võib edu määr sõltuda sellest, kuidas pealkiri on sõnastatud. Kui lisatakse rohkem objekte, kipub DALL·E segi ajama objektide ja nende värvide seoseid ning edukuse määr langeb järsult. Samuti märgime, et DALL·E on nende stsenaariumide puhul pealkirja ümber sõnastamise suhtes habras: alternatiivsed, semantiliselt samaväärsed pealkirjad ei anna sageli õigeid tõlgendusi.

Perspektiivi ja kolmemõõtmelisuse visualiseerimine

Meie arvates võimaldab DALL·E samuti kontrollida stseeni vaatenurka ja 3D-stiili, milles stseen renderdatakse.

Laadimine...

Selle edasi arendamiseks testime DALL·E võimet korduvalt joonistada tuntud isiku pead igast järjestikustest võrdsetest nurkadest ja leiame, et suudame taastada sujuva pöörleva pea animatsiooni.

Laadimine...

DALL·E näib suutvat rakendada teatud tüüpi optilisi moonutusi stseenidele, nagu näeme valikutega „kalasilma objektiivi vaade“ ja „sfääriline panoraam“. See motiveeris meid uurima selle võimet mõtisklusi genereerida.

Laadimine...

Sisemise ja välise struktuuri visualiseerimine

Näidised „väga detailse lähivaate“ ja „röntgeni“ stiilis viisid meid edasi tutvuma DALL·E võimega kujutada sisemist struktuuri ristlõikevaadetega ja välist struktuuri makrofotodega.

Laadimine...

Kontekstuaalsete üksikasjade tuletamine

Teksti piltideks tõlkimise ülesanne on alaspetsifitseeritud: üksik pealkiri vastab tavaliselt lõpmatule hulgale tõenäolistele piltidele, seega ei ole pilt ainulaadselt määratud. Näiteks kaaluge pealkirja “maal kapibaarast, kes istub põllul päikesetõusu ajal.” Sõltuvalt kapibara asendist võib olla vajalik varju joonistamine, kuigi seda detaili ei mainita kunagi otseselt. Tutvume DALL·E võimega lahendada alaspetsifikatsiooni kolmel juhul: stiili, seadistuse ja aja muutmine; sama objekti joonistamine erinevates olukordades; ja objekti pildi koostamine, millel on konkreetne tekst kirjutatud.

Laadimine...

Erineva usaldusväärsusega pakub DALL·E juurdepääsu 3D-renderdusmootori võimaluste alamhulgale loomuliku keele kaudu. See suudab iseseisvalt kontrollida väikese arvu objektide omadusi ning piiratud ulatuses ka seda, kui palju neid on ja kuidas need üksteise suhtes paigutatud on. See võib samuti kontrollida stseeni renderdamise asukohta ja nurka ning koosta tuntud objekte vastavalt täpsetele nurga ja valgustingimuste spetsifikatsioonidele.

Erinevalt 3D-renderdusmootorist, mille sisendid peavad olema ühemõtteliselt ja täielikult määratletud, suudab DALL·E sageli „lünki täita“, kui pealkiri vihjab, et pilt peab sisaldama teatud detaili, mis pole selgesõnaliselt välja toodud.

Eelnevate võimekuste rakendused

Järgmiseks uurime me eelnevate võimete kasutamist moe- ja sisekujunduses.

Laadimine...

Mitteseotud mõistete kombineerimine

Keele kompositsiooniline olemus võimaldab meil kokku panna mõisteid, et kirjeldada nii reaalseid kui ka kujuteldavaid asju. Leidsime, et DALL·E suudab ühendada erinevaid ideid, et sünteesida objekte, millest mõned on ebatõenäolised reaalses maailmas eksisteerima. Me uurime seda võimet kahel juhul: omaduste ülekandmine erinevatest kontseptsioonidest loomadele ja toodete kujundamine, ammutades inspiratsiooni omavahel mitteseotud kontseptsioonidest.

Laadimine...

Loomade illustratsioonid

Eelmises osas uurisime DALL·E võimet kombineerida mitteseotud kontseptsioone, kui genereerisime pilte reaalmaailma objektidest. Siin uurime seda võimet kunsti kontekstis, kasutades kolme tüüpi illustratsioone: loomade ja esemete antropomorfiseeritud versioonid, loomade kimäärid ja emotikonid.

Laadimine...

Zero-shot visuaalne arutlus

GPT‑3‑le saab anda juhiseid mitmesuguste ülesannete täitmiseks ainult kirjelduse ja viiba abil, et koosta vastus, mis on esitatud selle viibil, ilma täiendava koolituseta. Näiteks, kui esitatakse viip fraasiga „siin on lause ‘a person walking his dog in the park’ tõlgitud prantsuse keelde:“, vastab GPT‑3 „un homme qui promène son chien dans le parc.“ Seda võimekust nimetatakse näideteta arutlemiseks. Me leiame, et DALL·E laiendab seda võimekust visuaalsesse domeeni ja suudab sooritada mitmesuguseid pilt-pildi tõlke ülesandeid, kui seda õigesti suunata.

Laadimine...

Me ei oodanud, et see võimekus ilmneb, ja me ei teinud neurovõrgustiku ega koolitusprotseduuri muutmiseks mingeid muudatusi, et seda soodustada. Nende tulemuste ajendil mõõdame DALL·E võimet analoogilise mõtlemise probleemide lahendamisel, testides seda Raven'i progressiivsete maatriksitega, visuaalse IQ testiga, mida kasutati laialdaselt 20. sajandil.

Laadimine...

Geograafiaalane teadmine

Me leiame, et DALL·E on õppinud geograafilisi fakte, maamärke ja naabruskondi. Nende kontseptsioonide teadmine on mõnes mõttes üllatavalt täpne ja teistes vigane.

Laadimine...

Ajutine teadmine

Lisaks DALL·E teadmistega tutvumisele ruumiliselt varieeruvate kontseptsioonide kohta uurime ka tema teadmisi ajas varieeruvate kontseptsioonide kohta.

Laadimine...

Kokkuvõte käsitlusest ja varasemast tööst

DALL·E on lihtne dekooderiga muundur, mis võtab vastu nii teksti kui ka pildi ühe 1280 tokeni voona – 256 tokenit teksti jaoks ja 1024 tokenit pildi jaoks – ja modelleerib neid kõiki autoregressiivselt. Tähelepanumask igas 64 enesetähelepanu kihis võimaldab igal pilt tokenil pöörata tähelepanu kõigile tekst tokenitele. DALL·E kasutab tekstitokenite jaoks standardset põhjuslikku maski ning pilttokenite jaoks hõredat tähelepanu, mille muster võib olla kas rea-, veeru- või konvolutsiooniline, sõltuvalt kihist. Anname rohkem üksikasju arhitektuuri ja koolitusprotseduuri kohta meie artiklis⁠(avaneb uues aknas).

Tekstist pildi süntees on olnud aktiivne uurimisvaldkond alates Reed et teedrajavast tööst. al,¹, kelle lähenemisviis kasutab tekstisisestustel põhinevat GAN-i. Manused luuakse kodeerija abil, mis on eelkoolitatud kontrastse kaoga, sarnaselt CLIP-iga. StackGAN³ ja StackGAN++⁴ kasutavad mitmeastmelisi GAN-e, et suurendada pildi resolutsiooni ja parandada visuaalset täpsust. AttnGAN⁵ kaasab tähelepanu teksti ja pildi omaduste vahel ning pakub välja kontrastse teksti-pildi omaduste sobitamise kaotuse kui abistava eesmärgi. See on huvitav võrrelda meie CLIP-iga tehtud ümberjärjestamisega, mis toimub ühenduseta. Muud tööd^{2, 6, 7} hõlmavad täiendavaid järelevalveallikaid koolituse käigus, et parandada pildikvaliteeti. Lõpuks, Nguyen jt. töö. al⁸ ja Cho et al. al⁹ tutvub proovivõtupõhiste strateegiatega piltide genereerimiseks, mis kasutavad eelnevalt treenitud multimodaalseid diskrimineerivaid mudeleid.

Sarnaselt tagasilükkamise valimile, mida kasutatakse VQVAE-2⁠(avaneb uues aknas)-s, kasutame CLIP⁠ -i, et järjestada ümber iga pealkirja jaoks 512 näidisest 32 parimat kõigis interaktiivsetes visuaalides. Seda protseduuri võib samuti pidada omamoodi keelejuhitud otsinguks¹⁶, ja see võib oluliselt mõjutada valimi kvaliteeti.

Laadimine...

Joonealused märkused

A
Token on mis tahes token diskreetsest sõnavarast; inimeste jaoks on iga inglise keele täht token 26-tähelisest tähestikust. DALL·E sõnavaras on tokenid nii teksti kui ka pildi mõistete jaoks. Täpselt öeldes on iga pildi pealkiri esitatud maksimaalselt 256 BPE-kodeeritud tokeniga, mille sõnavara suurus on 16384, ja pilt on esitatud 1024 tokeniga, mille sõnavara suurus on 8192.

Pildid eeltöödeldakse koolituse ajal 256x256 resolutsioonile. Sarnaselt VQVAE-le, tihendatakse iga pilt 32x32 ruudustikuks diskreetsete latentsete koodidega, kasutades diskreetset VAE-d, mille me eelnevalt treenisime pideva lõdvenduse abil. Leidsime, et lõdvestuse kasutamine koolituses välistab vajaduse selgesõnalise koodiraamatu, EMA kaotuse või trikkide, nagu surnud koodi taaselustamine, järele ning võimaldab suurendada sõnavara suurust.