Gå direkt till huvudinnehåll
OpenAI

5 januari 2021

Milstolpe

DALL·E: Skapar bilder från text

Vi har tränat ett neuralt nätverk som kallas DALL·E som skapar bilder från textbeskrivningar för ett brett konceptspektrum på naturligt språk.

DALL·E

Illustration: Justin Jay Wang

Laddar …

DALL·E är en version av GPT‑3(öppnas i ett nytt fönster) med 12 miljarder parametrar som tränats till att generera bilder från textbeskrivningar genom att använda en datamängd med text-bildpar. Vi har märkt att den har en mångfald av funktioner, inklusive att skapa antropomorfiserade versioner av djur och föremål genom att kombinera orelaterade koncept på troliga sätt, återge text och tillämpa omvandlingar till befintliga bilder.

Se även: DALL·E 2, som genererar mer realistiska och exakta bilder med 4x högre upplösning.

Laddar …

GPT‑3 visade att språk kan användas till att instruera ett större neuralt nätverk att utföra många olika textgenereringsuppgifter. Image GPT visade att samma typ av neuralt nätverk också kan användas till att generera bilder med hög noggrannhet. Vi utvidgar dessa resultat för att visa att manipulation av visuella koncept genom språk nu är inom räckhåll.

Översikt

Precis som GPT‑3 är DALL·E en omvandlande språkmodell. Den tar emot både text och bild som en enda dataström på upp till 1280 token och har tränats till att använda maximal sannolikhet för att generera alla token, en efter en.A

Den här träningsrutinen gör att DALL·E inte bara kan generera en bild från scratch utan även återskapa vilket rektangulärt område av en bild som helst som sträcker sig längst ner till höger hörn på ett sätt som är konsekvent med textprompten.

Vi inser att arbete som involverar generativa modeller kan medföra bred inverkan på samhället. Framöver planerar vi att analysera hur modeller som DALL·E relaterar till samhällsfrågor, såsom ekonomisk inverkan på vissa arbetsprocesser och yrken, potentialen för fördomar i modellens utdata och långsiktiga utmaningar som tekniken medför.

Funktioner

Vi märker att DALL·E kan skapa trovärdiga bilder från många olika meningar som utforskar sammansättningen och strukturen i olika språk. Vi illustrerar detta i en serie interaktiva bilder i nästa avsnitt. Exemplen som visas för vardera beskrivningen i bild har hämtats från de 32 högst rankade utav 512 efter omrankning med CLIP, men vi har inte handplockat dem, förutom miniatyrbilderna och enskilda bilder som visas vid sidan av.B

Kontrollera attribut

Vi testade DALL·E:s förmåga att modifiera flera attribut i ett objekt. samt antalet gånger det visas.

Laddar …

Rita flera olika objekt

Att kontrollera flera olika objekt samtidigt, deras attribut och spatiala förhållanden skapar en ny utmaning. Beakta t.ex. frasen “en igelkott med en röd hatt, gula handskar, blå skjorta och gröna byxor.” För att tolka meningen på rätt sätt behöver DALL·E inte bara sammansätta varje klädesplagg och djuret utan även skapa associationer (hatt, röd), (handskar, gul), (skjorta, blå) och (byxor, grön) utan att blanda ihop dem C

 Vi testade DALL·E:s förmåga att göra det vid relativ placering, stapla objekt och kontrollera flera olika attribut.

Laddar …

Medan DALL·E har en viss kontrollförmåga över attributen och placeringarna för ett mindre antal objekt kan slutresultatets framgång bero helt på hur beskrivningen fraseras. Ju fler objekt som introduceras blandar DALL·E allt mer ihop associationerna mellan objekten och färgerna och slutresultatet blir drastiskt sämre. Vi märker också att DALL·E är bristfällig gällande omformulering av bildtexter i dessa scenarier: alternativa, semantiskt motsvarande bildtexter ger sällan korrekta tolkningar.

Visualisera perspektiv och tredimensionalitet

Vi märker att DALL·E också tillåter kontroll över scenens synvinkel och 3D-stilen i vilken scenen återges.

Laddar …

För att driva detta vidare testade vi DALL·E:s förmåga att rita huvudet av en känd person upprepade gånger från alla synvinklar från en sekvens med jämna synvinklar, där vi märkte att vi kan återge en smidig animering av det roterande huvudet.

Laddar …

DALL·E verkar kunna tillämpa vissa typer av optiska förvrängningar i scener, som vi ser i alternativen “fiskögonslinsvy” och “ett sfäriskt panorama.” Det motiverade oss till att utforska dess förmåga att generera reflektioner.

Laddar …

Visualisera intern och extern struktur

Exemplen från “extrem närbildsvy” och “röntgen” -stilen fick oss att fortsätta utforska DALL·E:s förmåga att avbilda en intern struktur med tvärsnittsvyer och externa strukturer med makrofotografier.

Laddar …

Dra slutsatser från kontextuell information

Uppgiften att översätta text till bild saknar information: en enskild bildtext motsvarar vanligtvis oändliga bildmöjligheter så bilden är inte unikt fastställd. Beakta t.ex. bildtexten ”en målning av ett vattensvin som sitter på ett fält i soluppgången.” Beroende på vattensvinets placering kan det behövas en skugga, men denna detalj nämns aldrig uttryckligen. Vi utforskar DALL·E:s förmåga att lösa problem vid saknad information i tre fall: ändra stil, miljö och tid; rita samma objekt i olika situationer; och generera en bild av ett objekt med en specifik text skriven på den.

Laddar …

Med varierande pålitlighetsnivåer ger DALL·E åtkomst till en vissa funktioner i en 3D-ritning av en motor genom naturligt språk. Den kan oberoende kontrollera attributen i ett mindre antal objekt, och till en viss del, hur många det finns och hur de arrangeras i relation till varandra. Den kan också kontrollera plats och synvinkel från vilken en scen avbildas, och kan generera kända objekt enligt exakta specifikationer i vinkel- och ljusförhållanden.

Till skillnad från en 3D-ritning av en motor som måste ha exakt, tydlig och fullständig information kan DALL·E ofta “fylla i luckorna” när bildtexten indikerar att bilden måste ha vissa detaljer som inte har specificerats.

Tillämpningar av tidigare funktioner

Härnäst utforskar vi användningen av tidigare funktioner för mode och inredning.

Laddar …

Kombinera orelaterade koncept

Sammansättningen av språk låter oss slå samman koncept för att beskriva både verkliga och påhittade saker. Vi märker att DALL·E också har förmågan att kombinera olika idéer för att syntetisera objekt. Vissa av dem existerar sannolikt inte i den verkliga världen. Vi utforskar denna förmåga i två instanser: överföra egenskaper från olika koncept till djur och utforma produkter genom att ta inspiration från orelaterade koncept.

Laddar …

Djurillustrationer

I föregående avsnitt utforskade vi DALL·E:s förmåga att kombinera orelaterade koncept när den genererar bilder av verkliga objekt. Här utforskar vi denna förmåga i konstsammanhang för tre sorters illustrationer: antropomorfiserade versioner av djur och objekt, chimärdjur och emojis.

Laddar …

Resonemang med nollskottsresonemang

GPT‑3 kan instrueras att utföra många olika uppgifter endast från en beskrivning och en uppmaning att generera svaret i sin prompt utan någon ytterligare träning. Med t.ex. en prompt som består av frasen “här är meningen ‘en person som är ute och går med sin hund i parken’ översatt till franska:” svarar GPT‑3 “un homme qui promène son chien dans le parc.” Den här funktionen kallas nollskottsresonemang. Vi märker att DALL·E utökar funktionen till den visuella domänen och kan utföra flera olika översättningsuppgifter från bild-till-bild när den tillfrågas på rätt sätt.

Laddar …

Vi räknade inte med att den här funktionen skulle uppstå och gjorde inga modifieringar i det neurala nätverket eller träningsrutinen för att främja det. motiverade av resultaten mäter vi DALL·E:s anlag för analogiska resonemangsproblem genom att testa den på Raven:s progressiva matriser, ett visuellt IQ-test som användes mycket under 1900-talet.

Laddar …

Geografisk kunskap

Vi märker att DALL·E har lärt sig geografiska fakta, landmärken och bostadsområden. Dess kunskap inom dessa koncept är förvånansvärt exakt på vissa sätt och bristfällig på andra.

Laddar …

Tidsmässig kunskap

Utöver att utforska DALL·E:s konceptkunskaper som varierar efter område utforskar vi även dess konceptkunskaper som varierar över tid.

Laddar …

Sammanfattning av tillvägagångssätt och tidigare arbete

DALL·E är en enkel transformator med endast avkodare som tar emot både texten och bilden som en enda ström med 1280 token; 256 för texten och 1024 för bilden, och modellerar dem alla autoregressivt. Uppmärksamhetsmasken för vardera av sina 64 självuppmärksamhetslager låter vardera bildtoken fokusera på alla texttoken. DALL·E använder standard maskering för framtida texttoken och sparsam uppmärksamhet för bildtoken med antingen ett rad-, kolumnuppmärksamhetsmönster eller konvolutionellt uppmärksamhetsmönster, beroende på lagret. Vi tillhandahåller mer information om arkitekturen och träningsrutinen i vår rapport(öppnas i ett nytt fönster).

Text-till-bild-syntesen har varit ett aktivt forskningsområde sedan Reeds, med fleras, banbrytande arbete,1 vars tillvägagångssätt använder ett GAN betingat av textinbäddningar. Inbäddningarna produceras av en kodare som är förtränad med en kontrastiv förlust, inte olikt CLIP. StackGAN3 och StackGAN++4 använder flerskaliga GAN:er för att skala upp bildupplösningen och förbättra den visuella tillförlitligheten. AttnGAN5 integrerar uppmärksamhet mellan text- och bildfunktionerna och föreslår en kontrasterande text-bildfunktion som matchar förlust som ett hjälpmål. Det här är intressant att jämföra med vår omrankning med CLIP, som görs offline. Annat arbete2, 6, 7 använder ytterligare övervakningsresurser under träning för att förbättra bildkvaliteten. Slutligen, arbetet som Nguyen m.fl.8 och Cho m.fl.9 utfört, utforskar urvalsbaserade strategier för bildgenerering som utnyttjar förtränade multimodala diskriminerande modeller.

Likt urvalet med avvisningar som används i VQVAE-2(öppnas i ett nytt fönster) använder vi CLIP för att ranka om de 32 bästa av 512 exempel för varje bildtext i alla interaktiva bilder. Denna procedur kan också ses som en slags språkstyrd sökning16 och kan ha en dramatisk inverkan på testkvaliteten.

Laddar …

Fotnoter

  1. A

    En token är alla symboler från ett diskret vokabulär; för människor är varje engelsk bokstav en token från ett alfabet med 26 bokstäver. DALL·E:s ordförråd använder token för både text- och bildkoncept. Mer specifikt motsvarar varje bildtext maximalt 256 BPE-kodade token med en ordförrådsstorlek på 16 384, och bilden motsvarar 1024 tokens med en ordförrådsstorlek på 8192.

Bilderna förbehandlas till 256x256 upplösning under träningen. I likhet med VQVAE, komprimeras varje bild till ett 32x32 rutnät med diskreta latenta koder och en diskret VAE som vi förtränade med en kontinuerlig avslappning. Vi märkte att träning med avslappning avlägsnar behovet av en explicit kodbok, EMA-förlust eller knep som återupplivning av död kod, och kan skalas upp till stora ordförrådsstorlekar.

  1. B

    Ytterligare information ges i ett senare avsnitt.

  2. 17

    Denna uppgift kallas variabelbindning och har studerats mycket i litteraturen.

Referenser

  1. 1

    Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). ”Generativ kontradiktorisk text till bildsyntes(öppnas i ett nytt fönster)”. In ICML 2016.

  2. 2

    Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). ”Lära sig vad och var man ska rita(öppnas i ett nytt fönster)”. I NIPS 2016.

  3. 3

    Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: Text till fotorealistisk bildsyntes med staplade generativa kontradiktoriska nätverk(öppnas i ett nytt fönster)”. I ICCY 2017.

  4. 4

    Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). ”StackGAN++: realistisk bildsyntes med staplade generativa kontradiktoriska nätverk(öppnas i ett nytt fönster)”. I IEEE TPAMI 2018.

  5. 5
  6. 6

    Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). ”Objektdriven text-till-bildsyntes genom kontradiktorisk träning(öppnas i ett nytt fönster)”. I CVPR 2019.

  7. 7

    Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). ”Generering av text-till-bild baserad på finkornig användaruppmärksamhet(öppnas i ett nytt fönster)”. I WACV 2021.

  8. 8
  9. 9

    Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). ”X-LXMERT: Måla, skriv texter och svara på frågor med multimodala transformatorer(öppnas i ett nytt fönster)”. EMNLP 2020.

  10. 10

    Kingma, Diederik P. och Max Welling. ”Automatisk kodning av variationsinferens(öppnas i ett nytt fönster).” arXiv förutgåva (2013).

  11. 11

    Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. ”Stokastisk bakåtpropagering och approximativ inferens i djupa generativa modeller(öppnas i ett nytt fönster).” arXiv förutgåva (2014).

  12. 12
  13. 13
  14. 14

    van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). ”Neural diskret representationsinlärning(öppnas i ett nytt fönster)”.

  15. 15

    Razavi, A., van der Oord, A., Vinyals, O. (2019). ”Generera olika högkvalitativa bilder med VQ-VAE-2(öppnas i ett nytt fönster)”.

  16. 16

    Andreas, J., Klein, D., Levine, S. (2017). ”Inlärning med latent språk(öppnas i ett nytt fönster)”.

  17. 17
  18. 18
  19. 19
  20. 20

Huvudförfattare

Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray

Bidragande författare

Mark Chen, Rewon Child, Vedant Misra, Pamela Mishkin, Gretchen Krueger, Sandhini Agarwal, Ilya Sutskever