5. januar 2021

DALL·E: At skabe billeder ud fra tekst

Vi har trænet et neuralt netværk kaldet DALL·E, der skaber billeder ud fra tekstbeskrivelser for et bredt udvalg af koncepter, som kan udtrykkes på et naturligt sprog.

Illustration: Justin Jay Wang

Indlæser ...

DALL·E er en version af GPT‑3⁠(åbner i et nyt vindue) med 12 milliarder parametre, der er trænet til at generere billeder ud fra tekstbeskrivelser ved brug af et datasæt af tekst-billede-par. Vi har fundet, at den har et alsidigt sæt af funktioner, herunder at lave antropomorfe versioner af dyr og genstande, kombinere urelaterede koncepter på sandsynlige måder, gengive tekst og bruge transformationer på eksisterende billeder.

Se også: DALL·E 2⁠, som genererer mere realistiske og præcise billeder med 4x højere opløsning.

Indlæser ...

GPT‑3 viste, at sprog kan bruges til at instruere et stort neuralt netværk til at foretage en række forskellige opgaver i forbindelse med tekstgenerering. Image GPT⁠ viste, at den samme type neuralt netværk også kan bruges til at generere billeder, der er meget naturtro. Vi har udvidet disse resultater til at vise, at manipulering af visuelle koncepter gennem sprog nu er inden for rækkevidde.

Oversigt

Ligesom GPT‑3 er DALL·E en transformersprogmodel. Den modtager både teksten og billedet som en enkelt datastrøm, der indholder op til 1.280 tokens, og den er trænet ved brug af maksimal sandsynlighed til at generere alle tokensene, ét efter det andet. ^A

Denne træningsprocedure giver ikke kun DALL·E mulighed for at generere billeder fra bunden af, men også at regenerere eventuel rektangulær region af et eksisterende billede, der går ud over det nederste højre hjørne, på en måde, der er overensstemmende med tekstprompten.

Vi erkender, at arbejde, der involverer generative modeller, har potentialet for væsentlige, omfattende samfundsmæssige indvirkninger. I fremtiden planlægger vi at analysere, hvordan modeller som DALL·E forholder sig til samfundsmæssige problemstillinger som f.eks. økonomisk indvirkning på visse arbejdsprocesser og professioner, potentialet for skævheder i modeloutputs og de langsigtede etiske udfordringer, som denne teknologi medfører.

Evner

Vi finder, at DALL·E kan skabe sandsynlige billeder for et stort udvalg af sætninger, der udforsker den kompositionelle struktur af sproget. Vi illustrerer dette ved brug af en række interaktive visuelle elementer i det næste afsnit. Prøverne vist for hver billedtekst i de visuelle elementer, er opnået ved at tage de 32 bedste af 512 efter omarrangering med CLIP⁠, men vi foretager ingen manuel udvælgelse, bortsæt fra miniaturebillederne og enkeltbilleder, der vises udenfor.^B

Kontrollerende attributter

Vi tester DALL·E’s mulighed for at ændre adskillige af et objekts attributter, samt antallet af gange, det vises.

Indlæser ...

Tegning af forskellige objekter

Samtidig kontrol af flere objekter, deres attributter og deres rumlige forhold udgør en ny udfordring. Tænk f.eks. på sætningen "et pindsvin med rød hat, gule handsker, blå skjorte og grønne bukser". For at tolke denne sætning korrekt skal DALL·E ikke kun sammensætte hvert enkelt stykke beklædning med dyret korrekt, men også danne associationer (hat, rød), (handsker, gule), (skjorte, blå) og (bukser, grønne), uden at blande dem sammen ^C

Vi tester DALL·E’s evne til at gøre dette for relativ positionering, stabling af objekter og kontrol af forskellige attributter.

Indlæser ...

Selv om DALL·E tilbyder en vis grad af kontrol over attributterne og positionerne for et lille antal objekter, så kan succesraten afhænge af, hvordan billedteksten blev formuleret. Efterhånden som der introduceres flere objekter, er DALL·E tilbøjelig til at sammenblande associationerne mellem objekterne og deres farver, og succesraten reduceres drastisk. Vi bemærker også, at DALL·E er skrøbelig, hvad angår omformulering af billedteksten i disse scenarier: alternative, semantisk ækvivalente billedtekster giver ofte ingen korrekte fortolkninger.

Visualisering af perspektiv og tredimensionalitet

Vi finder, at DALL·E også muliggør kontrol over synspunktet af en scene og 3D-stilen, i hvilken scenen gengives.

Indlæser ...

For at tage dette endnu et skridt videre, tester vi DALL·E’s evne til gentagne gange at tegne hovedet af en velkendt figur i hver vinkel fra en sekvens af vinkler med ens afstand, og vi finder, at vi kan gendanne en jævn animation af det roterende hoved.

Indlæser ...

DALL·E lader til at kunne anvende visse typer optiske forvrængninger på scener, som vi ser med mulighederne "fiskeøjeobjektiv" og "sfærisk panorama". Dette motiverede os til at udforske dens evne til at generere refleksioner.

Indlæser ...

Visualisering af intern og ekstern struktur

Prøverne fra stilen "ekstremt nærbillede" og "røntgen" førte til, at vi udforskede videre på DALL·E’s evne til at gengive intern struktur med tværsnitsvisninger og ekstern struktur med makrofotografier.

Indlæser ...

Udlede kontekstuelle detaljer

Opgaven med at oversætte tekst til billeder er underspecificeret: en enkelt billedtekst svarer generelt til et uendeligt antal sandsynlige billeder, så billedet er ikke unikt fastslået. Overvej for eksempel teksten "et maleri af en kapivar, der sidder på en mark ved solopgang". Alt efter kapivarens retning kan det være nødvendigt at tegne en skygge, selvom denne detalje ikke nævnes udtrykkeligt. Vi udforsker DALL·E’s evne til at løse underspecifikation i tre tilfælde: ved at ændre stil, omgivelser og tidspunkt, ved at tegne det samme objekt i en række forskellige situationer og ved at generere et billede af et objekt med specifik tekst skrevet på det.

Indlæser ...

Med forskellige grader af pålidelighed giver DALL·E adgang til et undersæt af funktionerne til en 3D-gengivelsesmaskine via naturligt sprog. Den kan uafhængigt kontrollere attributterne af et lille antal objekter, og, i begrænset omfang, hvor mange der er, og hvordan de er arrangeret i forhold til hinanden. Den kan også kontrollere placeringen og vinklen, hvorfra en scene er gengivet, og kan generere kendte objekter i overensstemmelse med præcise specifikationer for vinkel- og lysforhold.

I modsætning til en 3D-gengivelsesmaskine, hvis inputs skal være specificeret entydigt og fuldstændigt detaljeret, kan DALL·E ofte "udfylde hullerne", hvis billedteksten antyder, at billedet bør indeholde en bestemt detalje, der ikke er udtrykkeligt angivet.

Brug af forudgående funktioner

I det næste vil vi udforske brugen af forudgående funktioner inden for mode og interiørdesign.

Indlæser ...

Kombinere urelaterede koncepter

Sprogets kompositionelle natur gør det muligt for os at sammensætte koncepter for at beskrive både virkelige og forestillede ting. Vi finder, at DALL·E også har mulighed for at kombinere helt forskellige ideer for at syntetisere objekter, hvoraf nogen sandsynligvis ikke eksisterer i den virkelige verden. Vi udforsker denne mulighed i to tilfælde: ved overførsel af kvaliteter fra forskellige koncepter til dyr og ved at designe produkter ved at indhente inspiration fra urelaterede koncepter.

Indlæser ...

Dyreillustrationer

I det foregående afsnit udforskede vi DALL·E’s evne til at kombinere urelaterede koncepter ved generering af billeder af objekter i den virkelige verden. Her udforsker vi denne evne i konteksten af kunst for tre typer illustrationer: antropomorfe versioner af dyr og objekter, dyrefantasivæsener og emojier.

Indlæser ...

Visuel avanceret zero-shot-tænkning

GPT‑3 kan blive instrueret til at udføre mange slags opgaver udelukkende fra en beskrivelse og et signal til at generere svaret som gives i forespørgslen, uden yderligere læring. Hvis GPT‑3 f.eks. får sætningen "her er sætningen: 'en person, der lufter sin hund i parken' oversat til fransk", svarer den "un homme qui promène son chien dans le parc". Denne funktion kaldes avanceret zero-shot-tænkning. Vi finder, at DALL·E udvider denne evne til det visuelle domæne og kan foretage adskillige typer billede til billede-oversættelsesopgaver, hvis den forespørges på den rette måde.

Indlæser ...

Vi forventede ikke, at denne evne ville opstå, og vi foretog ingen ændringer i det neurale netværk eller i træningsproceduren for at fremme den. Motiveret af disse resultater måler vi DALL·E’s evne til analogisk ræsonnering af problemer ved at teste den på Ravens progressive matricer, en visuel IQ-test, der blev brugt i stort omfang i det 20. århundrede.

Indlæser ...

Geografisk viden

Vi finder, at DALL·E har lært om geografiske fakta, landemærker og nabolag. Dens viden inden for disse koncepter er overraskende præcis på nogle måder og mangelfuld på andre.

Indlæser ...

Tidsmæssig viden

Udover at udforske DALL·E’s viden om koncepter, der varierer over rum, udforsker vi også dens viden om koncepter, der varierer over tid.

Indlæser ...

Resumé af tilgang og tidligere arbejde

DALL·E er en enkel dekoderbaseret transformer, som modtager både tekst og billede som en enkelt strøm af 1.280 tokens – 256 for teksten og 1.024 for billedet – og modeller alle autoregressivt. Opmærksomhedsmasken i hvert af de 64 selvopmærksomhedslag gør det muligt for hvert billedtoken at rette opmærksomheden mod alle teksttokens. DALL·E bruger den kausale maske, der er standard, til teksttokens og sparsom opmærksomhed for billedtokens med enten række, kolonne eller konvolutionelt mønster for opmærksomhed, afhængigt af laget. Du kan finde yderligere oplysninger om arkitekturen og træningsproceduren i vores artikel⁠(åbner i et nyt vindue).

Tekst-til-billede-syntese har været et aktivt forskningsområde siden det banebrydende arbejde af Reed et. al,¹, hvis tilgang bruger en GAN betinget på tekstindlejringer. Indlejringerne er produceret af en indkoder, der er forhåndstrænet ved brug af et kontrastivt tab, ikke uligt CLIP. StackGAN³ og StackGAN++⁴ bruger flerskala-GAN'er til at opskalere billedopløsningen og forbedre den visuelle gengivelse. AttnGAN⁵ inkluderer opmærksomhed mellem tekst- og billedfunktioner og foreslår en kontrastivt tekst-billede-funktion, der matcher tab som et hjælpemål. Dette er interessant at sammenligne med vores omarrangering med CLIP, som gøres offline. Andet arbejde^{2, 6 og 7} inkluderer yderligere supervisionskilder under træning for at forbedre billedkvaliteten. Endelig udforsker arbejdet af Nguyen et. al⁸ og Cho et. al⁹ prøvebaserede strategier for billedgenerering, som udnytter forhåndstrænede multimodale diskriminerende modeller.

På samme måde som afvisningsprøvetagningen, der blev brugt i VQVAE-2⁠(åbner i et nyt vindue), bruger vi CLIP⁠ til at omarrangere de 32 bedste af de 512 prøver for hver billedtekst i alle de interaktive visuelle elementer. Denne procedure kan også ses som en slags sprogvejledt søgning¹⁶, og den kan have en dramatisk indvirkning på prøvekvaliteten.

Indlæser ...

Fodnoter

A
Et token er et hvilket som helst symbol fra et diskret vokabular. For mennesker er hvert engelsk bogstav et token fra et alfabet med 26 bogstaver. DALL·E’s vokabular har tokens for både tekst- og billedkoncepter. Mere specifikt er hver enkelt billedtekst repræsenteret ved brug af maksimalt 256 BPE-kodede tokens med en vokabularstørrelse på 16.384, og billedet er repræsenteret ved brug af 1.024 tokens med en vokabularstørrelse på 8.192.

Billederne er forudbehandlet til en opløsning på 256x256 under træning. I lighed med VQVAE er hvert billede komprimeret til et 32x32-gitter af diskrete latente koder ved brug af en diskret VAE, som vi har førtrænet ved brug af kontinuerlig afslapning. Vi fandt, at træning ved brug af afslapning overflødiggør behovet for en udtrykkelig kodebog, tab af EMA eller brugen af teknikker som f.eks. gendannelse af død kode, og den kan udvides til vokabularer af omfattende størrelse.