5 januari 2021

DALL·E: Skapar bilder från text

Vi har tränat ett neuralt nätverk som kallas DALL·E som skapar bilder från textbeskrivningar för ett brett konceptspektrum på naturligt språk.

Illustration: Justin Jay Wang

Laddar …

DALL·E är en version av GPT‑3⁠(öppnas i ett nytt fönster) med 12 miljarder parametrar som tränats till att generera bilder från textbeskrivningar genom att använda en datamängd med text-bildpar. Vi har märkt att den har en mångfald av funktioner, inklusive att skapa antropomorfiserade versioner av djur och föremål genom att kombinera orelaterade koncept på troliga sätt, återge text och tillämpa omvandlingar till befintliga bilder.

Se även: DALL·E 2⁠, som genererar mer realistiska och exakta bilder med 4x högre upplösning.

Laddar …

GPT‑3 visade att språk kan användas till att instruera ett större neuralt nätverk att utföra många olika textgenereringsuppgifter. Image GPT⁠ visade att samma typ av neuralt nätverk också kan användas till att generera bilder med hög noggrannhet. Vi utvidgar dessa resultat för att visa att manipulation av visuella koncept genom språk nu är inom räckhåll.

Översikt

Precis som GPT‑3 är DALL·E en omvandlande språkmodell. Den tar emot både text och bild som en enda dataström på upp till 1280 token och har tränats till att använda maximal sannolikhet för att generera alla token, en efter en.^A

Den här träningsrutinen gör att DALL·E inte bara kan generera en bild från scratch utan även återskapa vilket rektangulärt område av en bild som helst som sträcker sig längst ner till höger hörn på ett sätt som är konsekvent med textprompten.

Vi inser att arbete som involverar generativa modeller kan medföra bred inverkan på samhället. Framöver planerar vi att analysera hur modeller som DALL·E relaterar till samhällsfrågor, såsom ekonomisk inverkan på vissa arbetsprocesser och yrken, potentialen för fördomar i modellens utdata och långsiktiga utmaningar som tekniken medför.

Funktioner

Vi märker att DALL·E kan skapa trovärdiga bilder från många olika meningar som utforskar sammansättningen och strukturen i olika språk. Vi illustrerar detta i en serie interaktiva bilder i nästa avsnitt. Exemplen som visas för vardera beskrivningen i bild har hämtats från de 32 högst rankade utav 512 efter omrankning med CLIP⁠, men vi har inte handplockat dem, förutom miniatyrbilderna och enskilda bilder som visas vid sidan av.^B

Kontrollera attribut

Vi testade DALL·E:s förmåga att modifiera flera attribut i ett objekt. samt antalet gånger det visas.

Laddar …

Rita flera olika objekt

Att kontrollera flera olika objekt samtidigt, deras attribut och spatiala förhållanden skapar en ny utmaning. Beakta t.ex. frasen “en igelkott med en röd hatt, gula handskar, blå skjorta och gröna byxor.” För att tolka meningen på rätt sätt behöver DALL·E inte bara sammansätta varje klädesplagg och djuret utan även skapa associationer (hatt, röd), (handskar, gul), (skjorta, blå) och (byxor, grön) utan att blanda ihop dem ^C

Vi testade DALL·E:s förmåga att göra det vid relativ placering, stapla objekt och kontrollera flera olika attribut.

Laddar …

Medan DALL·E har en viss kontrollförmåga över attributen och placeringarna för ett mindre antal objekt kan slutresultatets framgång bero helt på hur beskrivningen fraseras. Ju fler objekt som introduceras blandar DALL·E allt mer ihop associationerna mellan objekten och färgerna och slutresultatet blir drastiskt sämre. Vi märker också att DALL·E är bristfällig gällande omformulering av bildtexter i dessa scenarier: alternativa, semantiskt motsvarande bildtexter ger sällan korrekta tolkningar.

Visualisera perspektiv och tredimensionalitet

Vi märker att DALL·E också tillåter kontroll över scenens synvinkel och 3D-stilen i vilken scenen återges.

Laddar …

För att driva detta vidare testade vi DALL·E:s förmåga att rita huvudet av en känd person upprepade gånger från alla synvinklar från en sekvens med jämna synvinklar, där vi märkte att vi kan återge en smidig animering av det roterande huvudet.

Laddar …

DALL·E verkar kunna tillämpa vissa typer av optiska förvrängningar i scener, som vi ser i alternativen “fiskögonslinsvy” och “ett sfäriskt panorama.” Det motiverade oss till att utforska dess förmåga att generera reflektioner.

Laddar …

Visualisera intern och extern struktur

Exemplen från “extrem närbildsvy” och “röntgen” -stilen fick oss att fortsätta utforska DALL·E:s förmåga att avbilda en intern struktur med tvärsnittsvyer och externa strukturer med makrofotografier.

Laddar …

Dra slutsatser från kontextuell information

Uppgiften att översätta text till bild saknar information: en enskild bildtext motsvarar vanligtvis oändliga bildmöjligheter så bilden är inte unikt fastställd. Beakta t.ex. bildtexten ”en målning av ett vattensvin som sitter på ett fält i soluppgången.” Beroende på vattensvinets placering kan det behövas en skugga, men denna detalj nämns aldrig uttryckligen. Vi utforskar DALL·E:s förmåga att lösa problem vid saknad information i tre fall: ändra stil, miljö och tid; rita samma objekt i olika situationer; och generera en bild av ett objekt med en specifik text skriven på den.

Laddar …

Med varierande pålitlighetsnivåer ger DALL·E åtkomst till en vissa funktioner i en 3D-ritning av en motor genom naturligt språk. Den kan oberoende kontrollera attributen i ett mindre antal objekt, och till en viss del, hur många det finns och hur de arrangeras i relation till varandra. Den kan också kontrollera plats och synvinkel från vilken en scen avbildas, och kan generera kända objekt enligt exakta specifikationer i vinkel- och ljusförhållanden.

Till skillnad från en 3D-ritning av en motor som måste ha exakt, tydlig och fullständig information kan DALL·E ofta “fylla i luckorna” när bildtexten indikerar att bilden måste ha vissa detaljer som inte har specificerats.

Tillämpningar av tidigare funktioner

Härnäst utforskar vi användningen av tidigare funktioner för mode och inredning.

Laddar …

Kombinera orelaterade koncept

Sammansättningen av språk låter oss slå samman koncept för att beskriva både verkliga och påhittade saker. Vi märker att DALL·E också har förmågan att kombinera olika idéer för att syntetisera objekt. Vissa av dem existerar sannolikt inte i den verkliga världen. Vi utforskar denna förmåga i två instanser: överföra egenskaper från olika koncept till djur och utforma produkter genom att ta inspiration från orelaterade koncept.

Laddar …

Djurillustrationer

I föregående avsnitt utforskade vi DALL·E:s förmåga att kombinera orelaterade koncept när den genererar bilder av verkliga objekt. Här utforskar vi denna förmåga i konstsammanhang för tre sorters illustrationer: antropomorfiserade versioner av djur och objekt, chimärdjur och emojis.

Laddar …

Resonemang med nollskottsresonemang

GPT‑3 kan instrueras att utföra många olika uppgifter endast från en beskrivning och en uppmaning att generera svaret i sin prompt utan någon ytterligare träning. Med t.ex. en prompt som består av frasen “här är meningen ‘en person som är ute och går med sin hund i parken’ översatt till franska:” svarar GPT‑3 “un homme qui promène son chien dans le parc.” Den här funktionen kallas nollskottsresonemang. Vi märker att DALL·E utökar funktionen till den visuella domänen och kan utföra flera olika översättningsuppgifter från bild-till-bild när den tillfrågas på rätt sätt.

Laddar …

Vi räknade inte med att den här funktionen skulle uppstå och gjorde inga modifieringar i det neurala nätverket eller träningsrutinen för att främja det. motiverade av resultaten mäter vi DALL·E:s anlag för analogiska resonemangsproblem genom att testa den på Raven:s progressiva matriser, ett visuellt IQ-test som användes mycket under 1900-talet.

Laddar …

Geografisk kunskap

Vi märker att DALL·E har lärt sig geografiska fakta, landmärken och bostadsområden. Dess kunskap inom dessa koncept är förvånansvärt exakt på vissa sätt och bristfällig på andra.

Laddar …

Tidsmässig kunskap

Utöver att utforska DALL·E:s konceptkunskaper som varierar efter område utforskar vi även dess konceptkunskaper som varierar över tid.

Laddar …

Sammanfattning av tillvägagångssätt och tidigare arbete

DALL·E är en enkel transformator med endast avkodare som tar emot både texten och bilden som en enda ström med 1280 token; 256 för texten och 1024 för bilden, och modellerar dem alla autoregressivt. Uppmärksamhetsmasken för vardera av sina 64 självuppmärksamhetslager låter vardera bildtoken fokusera på alla texttoken. DALL·E använder standard maskering för framtida texttoken och sparsam uppmärksamhet för bildtoken med antingen ett rad-, kolumnuppmärksamhetsmönster eller konvolutionellt uppmärksamhetsmönster, beroende på lagret. Vi tillhandahåller mer information om arkitekturen och träningsrutinen i vår rapport⁠(öppnas i ett nytt fönster).

Text-till-bild-syntesen har varit ett aktivt forskningsområde sedan Reeds, med fleras, banbrytande arbete,¹ vars tillvägagångssätt använder ett GAN betingat av textinbäddningar. Inbäddningarna produceras av en kodare som är förtränad med en kontrastiv förlust, inte olikt CLIP. StackGAN³ och StackGAN++⁴ använder flerskaliga GAN:er för att skala upp bildupplösningen och förbättra den visuella tillförlitligheten. AttnGAN⁵ integrerar uppmärksamhet mellan text- och bildfunktionerna och föreslår en kontrasterande text-bildfunktion som matchar förlust som ett hjälpmål. Det här är intressant att jämföra med vår omrankning med CLIP, som görs offline. Annat arbete^{2, 6, 7} använder ytterligare övervakningsresurser under träning för att förbättra bildkvaliteten. Slutligen, arbetet som Nguyen m.fl.⁸ och Cho m.fl.⁹ utfört, utforskar urvalsbaserade strategier för bildgenerering som utnyttjar förtränade multimodala diskriminerande modeller.

Likt urvalet med avvisningar som används i VQVAE-2⁠(öppnas i ett nytt fönster) använder vi CLIP⁠ för att ranka om de 32 bästa av 512 exempel för varje bildtext i alla interaktiva bilder. Denna procedur kan också ses som en slags språkstyrd sökning¹⁶ och kan ha en dramatisk inverkan på testkvaliteten.

Laddar …

Fotnoter

A
En token är alla symboler från ett diskret vokabulär; för människor är varje engelsk bokstav en token från ett alfabet med 26 bokstäver. DALL·E:s ordförråd använder token för både text- och bildkoncept. Mer specifikt motsvarar varje bildtext maximalt 256 BPE-kodade token med en ordförrådsstorlek på 16 384, och bilden motsvarar 1024 tokens med en ordförrådsstorlek på 8192.

Bilderna förbehandlas till 256x256 upplösning under träningen. I likhet med VQVAE, komprimeras varje bild till ett 32x32 rutnät med diskreta latenta koder och en diskret VAE som vi förtränade med en kontinuerlig avslappning. Vi märkte att träning med avslappning avlägsnar behovet av en explicit kodbok, EMA-förlust eller knep som återupplivning av död kod, och kan skalas upp till stora ordförrådsstorlekar.