5. januar 2021

DALL·E: Opprette bilder fra tekst

Vi har lært opp et nevralt nettverk kalt DALL·E, som lager bilder ut fra tekstbeskrivelser for et bredt spekter av konsepter som kan uttrykkes på et naturlig språk.

Illustrasjon: Justin Jay Wang

Laster inn …

DALL·E er en versjon av GPT‑3⁠(åpnes i et nytt vindu) med 12 milliarder parametere, som er opplært til å generere bilder fra tekstbeskrivelser ved hjelp av et datasett med tekst-bilde-par. Vi har funnet ut at den har et allsidig sett med evner, inkludert å lage antropomorfe versjoner av dyr og gjenstander, kombinere urelaterte konsepter på plausible måter, gjengi tekst og bruke transformasjoner på eksisterende bilder.

Se også: DALL·E 2⁠, som genererer mer realistiske og nøyaktige bilder med 4x større oppløsning.

Laster inn …

GPT‑3 viste at språk kan brukes til å instruere et stort nevralt nettverk til å utføre en rekke tekstgenereringsoppgaver. Image GPT⁠ viste at den samme typen nevralt nettverk også kan brukes til å generere bilder med høy gjengivelse. Vi utvider disse funnene for å vise at det nå er mulig å manipulere visuelle konsepter gjennom språk.

Oversikt

I likhet med GPT‑3, er DALL·E en transformer-språkmodell. Den mottar både tekst og bilde som en enkelt datastrøm som inneholder opptil 1280 tokener, og er opplært med maksimal sannsynlighet for å generere alle tokener, én etter én. ^A

Denne opplæringsprosedyren gjør det ikke bare mulig for DALL·E å generere et bilde fra bunnen av, men også å regenerere ethvert rektangulært område av et eksisterende bilde som strekker seg til nederste høyre hjørne, på en måte som er i samsvar med meldingen.

Vi erkjenner at arbeid som involverer generative modeller har potensial for betydelige, brede samfunnsmessige påvirkninger. I fremtiden planlegger vi å analysere hvordan modeller som DALL·E forholder seg til samfunnsmessige problemstillinger, som økonomisk innvirkning på visse arbeidsprosesser og yrker, potensialet for skjevheter i modellresultatene, og de langsiktige etiske utfordringene som denne teknologien medfører.

Funksjoner

Vi har funnet ut at DALL·E er i stand til å lage troverdige bilder for et stort utvalg av setninger som utforsker den komposisjonelle strukturen i språket. Vi illustrerer dette ved hjelp av en serie interaktive visuelle elementer i neste avsnitt. Eksemplene som vises for hver bildetekst, er hentet ved å ta de 32 beste av 512 etter omrangering med CLIP⁠, men vi gjør ingen manuell utvelgelse, bortsett fra miniatyrbildene og enkeltbilder som vises utenfor. ^B

Kontrollere attributter

Vi tester DALL·E sin evne til å endre flere av attributtene til et objekt, samt hvor mange ganger det vises.

Laster inn …

Tegne flere objekter

Å kontrollere flere objekter samt attributtene og de romlige forholdene deres samtidig, utgjør en ny utfordring. Ta for eksempel frasen «et pinnsvin med rød hatt, gule hansker, blå skjorte og grønne bukser». For å tolke denne setningen riktig må DALL·E ikke bare sette sammen hvert klesplagg og dyret på riktig måte, men også koble assosiasjonene (hatt, rød), (hansker, gul), (skjorte, blå) og (bukse, grønn) uten å blande dem sammen ^C

Vi tester DALL·E sin evne til å gjøre dette for relativ posisjonering, stabling av objekter og kontroll av flere attributter.

Laster inn …

Selv om DALL·E tilbyr en viss grad av kontroll over attributtene og posisjonene til et lite antall objekter, kan suksessraten avhenge av hvordan bildeteksten ble formulert. Etter hvert som flere objekter introduseres, er DALL·E tilbøyelig til å forveksle assosiasjonene mellom objektene og fargene deres, noe som reduserer suksessraten kraftig. Vi bemerker også at DALL·E er sårbar for omformulering av bildeteksten i disse scenariene: alternative, semantisk likeverdige bildetekster gir ofte ingen korrekte tolkninger.

Visualisering av perspektiv og tredimensjonalitet

Vi har funnet ut at DALL·E også gir kontroll over synspunktet til en scene og 3D-stilen en scene gjengis i.

Laster inn …

For å ta dette enda et skritt videre tester vi DALL·E sin evne til gjentatte ganger å tegne hodet til en kjent person i hver vinkel fra en sekvens av vinkler med lik avstand, og finner ut at vi kan gjenopprette en smidig animasjon av det roterende hodet.

Laster inn …

DALL·E ser ut til å kunne bruke noen typer optiske forvrengninger på scener, slik vi ser med alternativene «fiskeøyeobjektiv» og «sfærisk panorama». Dette motiverte oss til å utforske evnen til å generere refleksjoner.

Laster inn …

Visualisering av indre og ytre struktur

Eksemplene fra stilene «ekstremt nærbilde» og «røntgen» førte til at vi videre utforsket DALL·E sin evne til å gjengi indre struktur med tverrsnittvisninger, og ytre struktur med makrofotografier.

Laster inn …

Utlede kontekstuelle detaljer

Oppgaven med å oversette tekst til bilder er underspesifisert: en enkelt bildetekst tilsvarer vanligvis et uendelig antall troverdige bilder, så bildet er ikke entydig bestemt. Tenk for eksempel på bildeteksten «et maleri av et flodsvin som sitter på et jorde ved soloppgang». Avhengig av flodsvinets posisjon kan det være nødvendig å tegne en skygge, selv om denne detaljen aldri nevnes i klartekst. Vi utforsker DALL·E sin evne til å håndtere underspesifisering i tre tilfeller: endring av stil, miljø og tidspunkt, tegning av samme objekt i ulike situasjoner, samt å generere et bilde av et objekt med spesifikk tekst skrevet på det.

Laster inn …

Med varierende grad av pålitelighet gir DALL·E tilgang til et delsett av funksjonene til en 3D-gjengivelsesmotor via et naturlig språk. Den kan uavhengig kontrollere attributtene til et lite antall objekter, og i begrenset grad hvor mange det er og hvordan de står i forhold til hverandre. Den kan også kontrollere plasseringen og vinkelen scenen gjengis fra, samt generere kjente objekter i samsvar med presise spesifikasjoner for vinkel og lysforhold.

I motsetning til en 3D-gjengivelsesmotor, hvis inndata må spesifiseres entydig og i fullstendig detalj, er DALL·E ofte i stand til å «fylle ut tomrommene» når bildeteksten antyder at bildet må inneholde en bestemt detalj som ikke er angitt i klartekst.

Bruk av foregående funksjoner

Videre utforsker vi bruken av de foregående funksjonene innen mote og interiørdesign.

Laster inn …

Kombinere ikke-relaterte konsepter

Språkets komposisjonelle natur gjør det mulig for oss å sette sammen konsepter for å beskrive både virkelige og forestilte ting. Vi har funnet ut at DALL·E også har evnen til å kombinere ulike idéer for å syntetisere objekter, hvorav noen sannsynligvis ikke eksisterer i den virkelige verden. Vi utforsker denne evnen i to tilfeller: overføring av kvaliteter fra ulike konsepter til dyr, og ved å designe produkter ved å hente inspirasjon fra urelaterte konsepter.

Laster inn …

Dyreillustrasjoner

I forrige avsnitt utforsket vi DALL·E sin evne til å kombinere urelaterte konsepter ved generering av bilder av objekter i den virkelige verden. Her utforsker vi denne evnen i kontekst av kunst, gjennom tre typer illustrasjoner: antropomorfiserte versjoner av dyr og objekter, dyrekimærer og emojier.

Laster inn …

Visuell zero-shot-resonnering

GPT‑3 kan instrueres til å utføre mange typer oppgaver utelukkende fra en beskrivelse og et signal for å generere svaret som gis i meldingen, uten ytterligere opplæring. Når GPT‑3 for eksempel blir gitt frasen «here is the sentence “a person walking his dog in the park” translated into French:», svarer den «un homme qui promène son chien dans le parc». Denne evnen kalles zero-shot-resonnering. Vi har funnet ut at DALL·E utvider denne muligheten til det visuelle domenet, og er i stand til å utføre flere typer bilde-til-bilde-oversettelsesoppgaver når den blir spurt på riktig måte.

Laster inn …

Vi forventet ikke at denne evnen skulle oppstå, og gjorde ingen endringer i det nevrale nettverket eller opplæringsprosedyren for å fremme den. Motivert av disse resultatene måler vi DALL·E sin evne til analoge resonneringsproblemer ved å teste den på Ravens progressive matriser, en visuell IQ-test som ble brukt i stor skala på 1900-tallet.

Laster inn …

Geografisk kunnskap

Vi har funnet ut at DALL·E har lært om geografiske fakta, landemerker og nabolag. Kunnskapen om disse konseptene er overraskende bra på noen måter, og mangelfull på andre.

Laster inn …

Temporal kunnskap

I tillegg til å utforske DALL·E sin evne til kunnskap om konsepter som varierer over rom, utforsker vi også dens kunnskap om konsepter som varierer over tid.

Laster inn …

Sammendrag av tilnærming og tidligere arbeid

DALL·E er en enkel dekoderbasert transformer som mottar både tekst og bilde som en enkelt strøm av 1280 tokener – 256 for teksten og 1024 for bildet – og modellerer alle autoregressivt. Oppmerksomhetsmasken i hvert av de 64 selvoppmerksomhetslagene tillater hver bildetoken å rette oppmerksomhet mot alle teksttokenene. DALL·E bruker den standard kausale masken for teksttokenene, og sparsom oppmerksomhet for bildetokenene med enten rad-, kolonne- eller konvolusjonelt mønster for oppmerksomhet, avhengig av laget. Vi gir mer informasjon om denne arkitekturen og opplæringsprosedyren i artikkelen⁠(åpnes i et nytt vindu) vår.

Tekst-til-bilde-syntese har vært et aktivt forskningsområde siden det banebrytende arbeidet til Reed m.fl.,¹ hvis tilnærming bruker en GAN betinget på innbygging av tekst. Innbyggingene produseres av en enkoder som er forhåndsopplært ved hjelp av et kontrasttap, ikke ulikt CLIP. StackGAN³ og StackGAN++⁴ bruker flerskala GAN-er for å oppskalere bildeoppløsningen og forbedre visuell gjengivelse. AttnGAN⁵ inkluderer oppmerksomhet mellom tekst- og bildefunksjoner, og foreslår et kontrasterende tekst-bilde-funksjonsmatchingstap som et hjelpemål. Dette er interessant å sammenligne med vår omrangering med CLIP, som gjøres offline. Annet arbeid^{2, 6 og 7} inkluderer ytterligere veiledningskilder under opplæring for å forbedre bildekvaliteten. Til slutt utforsker arbeidet til Nguyen m.fl.⁸ og Cho m.fl.⁹ prøvebaserte strategier for bildegenerering som utnytter forhåndsopplærte multimodale diskriminerende modeller.

På samme måte som avvisningsprøvetakingen brukt i VQVAE-2⁠(åpnes i et nytt vindu), bruker vi CLIP⁠ til å rangere på nytt de 32 beste av 512 eksempler for hver bildetekst i alle de interaktive visuelle elementene. Denne prosedyren kan også ses på som en form for språkstyrt søk¹⁶, og kan ha en dramatisk innvirkning på eksempelkvaliteten.

Laster inn …

Fotnoter

A
En token er et hvilket som helst symbol fra et distinkt vokabular. For mennesker er hver engelsk bokstav en token fra et alfabet med 26 bokstaver. DALL·E sitt vokabular har tokener for både tekst- og bildekonsepter. Spesifikt representeres hver bildetekst ved hjelp av maksimalt 256 BPE-kodede tokener med en vokabularstørrelse på 16384, og bildet er representert ved hjelp av 1024 tokener med en vokabularstørrelse på 8192.

Bildene forhåndsbehandles til en oppløsning på 256x256 under opplæring. I likhet med VQVAE, komprimeres hvert bilde til et 32×32-rutenett av distinkte latente koder ved hjelp av en distinkt VAE som vi lærte opp på forhånd ved bruk av en kontinuerlig relaksasjon. Vi fant at opplæring med relaksasjon gjør det unødvendig med en eksplisitt kodebok, EMA-tap eller triks som gjenoppliving av døde koder, og at metoden kan skalere til store vokabularstørrelser.