5 januari 2021

DALL·E: Afbeeldingen maken van tekst

We hebben een neuraal netwerk met de naam DALL-E getraind dat afbeeldingen maakt van tekstbijschriften voor een groot aantal concepten die in natuurlijke taal kunnen worden uitgedrukt.

Illustratie: Justin Jay Wang

Bezig met laden...

DALL-E is een versie van GPT‑3⁠(opent in een nieuw venster) met 12 miljard parameters getraind om afbeeldingen te genereren op basis van tekstbeschrijvingen, met behulp van een gegevensset van tekst-afbeeldingsparen. We hebben ontdekt dat het verschillende mogelijkheden heeft, waaronder het maken van antropomorfische versies van dieren en objecten, het combineren van ongerelateerde concepten op plausibele manieren, het renderen van tekst en het toepassen van transformaties op bestaande afbeeldingen.

Bekijk ook: DALL·E 2⁠, die meer realistische en nauwkeurige beelden genereert met een 4x hogere resolutie.

Bezig met laden...

GPT‑3 toonde aan dat taal kan worden gebruikt om een groot neuraal netwerk te instrueren om verschillende tekstgeneratietaken uit te voeren. Image GPT⁠ toonde aan dat hetzelfde type neuraal netwerk ook kan worden gebruikt om afbeeldingen met een hoge getrouwheid te genereren. We breiden deze bevindingen uit om aan te tonen dat het manipuleren van visuele concepten via taal nu binnen handbereik ligt.

Overzicht

Net als GPT‑3 is DALL-E een transformatortaalmodel. Het ontvangt zowel de tekst als de afbeelding als een enkele gegevensstroom met maximaal 1280 tokens en wordt getraind met maximale waarschijnlijkheid om alle tokens na elkaar te genereren. ^A

Met deze trainingsprocedure kan DALL-E niet alleen een afbeelding vanaf nul genereren, maar ook elk rechthoekig gebied van een bestaande afbeelding dat zich uitstrekt tot de rechterbenedenhoek regenereren, op een manier die consistent is met de tekstmelding.

We erkennen dat werk met generatieve modellen in potentie een grote, brede maatschappelijke impact kan hebben. In de toekomst willen we analyseren hoe modellen zoals DALL-E zich verhouden tot maatschappelijke kwesties zoals de economische impact op bepaalde werkprocessen en beroepen, de mogelijke vertekening van de modeluitvoer en de ethische uitdagingen op de langere termijn die deze technologie met zich meebrengt.

Mogelijkheden

We vinden dat DALL-E in staat is om plausibele beelden te creëren voor een grote verscheidenheid aan zinnen die de compositiestructuur van taal verkennen. We illustreren dit met een reeks interactieve beelden in de volgende sectie. De voorbeelden die voor elk onderschrift in de afbeeldingen worden getoond, zijn verkregen door de top 32 van 512 te nemen na het opnieuw rangschikken met CLIP⁠, maar we gebruiken geen handmatige cherry-picking, afgezien van de miniaturen en op zichzelf staande afbeeldingen die erbuiten staan.^B

Kenmerken beheren

We testen het vermogen van DALL-E om verschillende attributen van een object te wijzigen, evenals het aantal keren dat het verschijnt.

Bezig met laden...

Meerdere objecten tekenen

Het tegelijkertijd besturen van meerdere objecten, hun attributen en hun ruimtelijke relaties vormt een nieuwe uitdaging. Denk bijvoorbeeld aan de zin 'een egel met een rode muts, gele handschoenen, een blauw shirt en een groene broek'. Om deze zin correct te interpreteren, moet DALL-E niet alleen elk kledingstuk correct samenstellen met het dier, maar ook de associaties (hoed, rood), (handschoenen, geel), (shirt, blauw) en (broek, groen) vormen zonder ze door elkaar te halen ^C.

We testen of DALL-E dit kan voor relatieve positionering, het stapelen van objecten en het besturen van meerdere attributen.

Bezig met laden...

Hoewel DALL-E tot op zekere hoogte controle biedt over de eigenschappen en posities van een klein aantal objecten, kan het succespercentage afhangen van hoe het bijschrift is geformuleerd. Naarmate er meer objecten worden geïntroduceerd, is DALL-E geneigd om de associaties tussen de objecten en hun kleuren te verwarren en neemt het succespercentage sterk af. We merken ook op dat DALL-E broos is met betrekking tot het herformuleren van het bijschrift in deze scenario's: alternatieve, semantisch equivalente bijschriften leveren vaak geen correcte interpretaties op.

Perspectief en driedimensionaliteit visualiseren

We merken dat DALL-E ook controle biedt over het gezichtspunt van een scène en de 3D-stijl waarin een scène wordt weergegeven.

Bezig met laden...

Om dit verder uit te breiden, testen we het vermogen van DALL-E om het hoofd van een bekend figuur herhaaldelijk onder elke hoek te tekenen vanuit een reeks gelijkmatig verspreide hoeken, en we ontdekken dat we een vloeiende animatie van het draaiende hoofd kunnen herstellen.

Bezig met laden...

DALL-E lijkt sommige soorten optische vervormingen te kunnen toepassen op scènes, zoals we zien bij de opties 'fish-eye lensweergave' en 'een sferisch panorama'. Dit motiveerde ons om het vermogen om reflecties te genereren te onderzoeken.

Bezig met laden...

Interne en externe structuur visualiseren

De voorbeelden van de 'extreme close-up view'- en 'x-ray'-stijl brachten ons ertoe om DALL-E's vermogen om interne structuur weer te geven met doorsnedeweergaven en externe structuur met macrofoto's verder te onderzoeken.

Bezig met laden...

Contextuele details afleiden

De taak van het vertalen van tekst naar afbeeldingen is ondergespecificeerd: een enkel onderschrift komt over het algemeen overeen met een oneindig aantal plausibele afbeeldingen, dus de afbeelding is niet uniek bepaald. Denk bijvoorbeeld aan het onderschrift 'een schilderij van een cavia zittend op een veld bij zonsopgang'. Afhankelijk van de oriëntatie van de cavia kan het nodig zijn om een schaduw te tekenen, hoewel dit detail nooit expliciet wordt genoemd. We onderzoeken het vermogen van DALL-E om onderspecificatie op te lossen in drie gevallen: het veranderen van stijl, omgeving en tijd; het tekenen van hetzelfde object in verschillende situaties; en het genereren van een afbeelding van een object met specifieke tekst erop geschreven.

Bezig met laden...

Met wisselende betrouwbaarheid biedt DALL-E via natuurlijke taal toegang tot een deelverzameling van de mogelijkheden van een 3D-rendering-engine. Het kan onafhankelijk de eigenschappen van een klein aantal objecten bepalen en in beperkte mate hoeveel het er zijn en hoe ze ten opzichte van elkaar zijn gerangschikt. Het kan ook de locatie en hoek bepalen van waaruit een scène wordt gerenderd en kan bekende objecten genereren in overeenstemming met precieze specificaties van hoek en lichtomstandigheden.

In tegenstelling tot een 3D-rendering-engine, waarvan de invoer ondubbelzinnig en volledig gedetailleerd moet worden gespecificeerd, kan DALL-E vaak 'de lege plekken invullen' als het bijschrift impliceert dat de afbeelding een bepaald detail moet bevatten dat niet expliciet wordt vermeld.

Toepassingen van voorgaande mogelijkheden

Vervolgens onderzoeken we het gebruik van de voorgaande mogelijkheden voor mode- en interieurontwerp.

Bezig met laden...

Ongerelateerde concepten combineren

Door de compositorische aard van taal kunnen we concepten samenstellen om zowel echte als denkbeeldige dingen te beschrijven. We ontdekken dat DALL-E ook het vermogen heeft om ongelijksoortige ideeën te combineren om objecten te synthetiseren, waarvan het onwaarschijnlijk is dat ze in de echte wereld bestaan. We onderzoeken dit vermogen in twee gevallen: het overbrengen van kwaliteiten van verschillende concepten naar dieren en het ontwerpen van producten door inspiratie te halen uit niet-gerelateerde concepten.

Bezig met laden...

Dierenillustraties

In het vorige hoofdstuk onderzochten we het vermogen van DALL-E om ongerelateerde concepten te combineren bij het genereren van afbeeldingen van objecten in de echte wereld. Hier onderzoeken we dit vermogen in de context van kunst, voor drie soorten illustraties: antropomorfische versies van dieren en objecten, dierlijke wezens en emoji's.

Bezig met laden...

Visuele redenering zonder voorafgaande voorbeelden

GPT‑3 kan worden geïnstrueerd om vele soorten taken uit te voeren op basis van alleen een beschrijving en een aanwijzing om het antwoord te genereren dat in de prompt wordt gegeven, zonder enige extra training. Wanneer bijvoorbeeld de zin 'hier is de zin 'een persoon die zijn hond uitlaat in het park' wordt vertaald naar het Frans', antwoordt GPT‑3 'un homme qui promène son chien dans le parc'. Deze mogelijkheid heet redeneren zonder voorafgaande voorbeelden. We hebben ontdekt dat DALL-E deze mogelijkheid uitbreidt naar het visuele domein en in staat is om verschillende soorten beeld-naar-beeld vertaaltaken uit te voeren wanneer daar op de juiste manier om wordt gevraagd.

Bezig met laden...

We hadden niet verwacht dat deze mogelijkheid zich zou voordoen en hebben het neurale netwerk of de trainingsprocedure niet aangepast om dit te stimuleren. Gemotiveerd door deze resultaten meten we de aanleg van DALL-E voor problemen met analoog redeneren door het te testen met de progressieve matrices van Raven, een visuele IQ-test die in de 20e eeuw veel werd gebruikt.

Bezig met laden...

Geografische kennis

We zien dat DALL-E geografische feiten, herkenningspunten en buurten heeft geleerd. Zijn kennis van deze concepten is in sommige opzichten verrassend nauwkeurig en in andere opzichten gebrekkig.

Bezig met laden...

Algemene kennis

Naast het onderzoeken van DALL-E's kennis van concepten die variëren in ruimte, onderzoeken we ook zijn kennis van concepten die variëren in tijd.

Bezig met laden...

Samenvatting van aanpak en eerder werk

DALL-E is een eenvoudige transformator die alleen decodeert en die zowel de tekst als de afbeelding ontvangt als een enkele stroom van 1280 tokens - 256 voor de tekst en 1024 voor de afbeelding - en deze allemaal autoregressief modelleert. Het attentiemasker op zijn 64 zelf-attentielagen staat elk beeldtoken toe om alle teksttokens te volgen. DALL-E gebruikt het standaard causale masker voor de teksttokens en spaarzame attentie voor de beeldtokens met een rij-, kolom- of convolutie-attentiepatroon, afhankelijk van de laag. We geven meer details over de architectuur en de trainingsprocedure in ons artikel⁠(opent in een nieuw venster).

Tekst-naar-beeldsynthese is een actief onderzoeksgebied sinds het baanbrekende werk van Reed et. al,¹ wiens benadering een GAN conditioneert op tekstinbeddingen. De inbeddingen worden geproduceerd door een encoder die vooraf is getraind met behulp van een contrastief verlies, net als bij CLIP. StackGAN³ en StackGAN++⁴ gebruiken multi-scale GAN's om de beeldresolutie op te schalen en de visuele getrouwheid te verbeteren. AttnGAN⁵ houdt rekening met de attentie tussen de tekst- en afbeeldingskenmerken en stelt als bijkomende doelstelling een contrastief verlies bij het matchen van tekst- en afbeeldingskenmerken voor. Dit is interessant om te vergelijken met onze herrangschikking met CLIP, die offline wordt uitgevoerd. In ander werk^{2, 6, 7} worden extra bronnen van toezicht tijdens de training gebruikt om de beeldkwaliteit te verbeteren. Tot slot worden in het werk van Nguyen et. al⁸ en Cho et. al⁹ steekproefsgewijze strategieën onderzocht voor het genereren van afbeeldingen die gebruik maken van vooraf getrainde multimodale discriminatieve modellen.

Net als bij de steekproef die wordt gebruikt in VQVAE-2⁠(opent in een nieuw venster), gebruiken we CLIP⁠ om de top 32 van 512 voorbeelden voor elk bijschrift in alle interactieve visuals te ranken. Deze procedure kan ook gezien worden als een soort taalgestuurd zoeken¹⁶ en kan een aanzienlijke invloed hebben op de kwaliteit van de gegenereerde voorbeelden.

Bezig met laden...

Voetnoten

A
Een token is elk symbool uit een discrete woordenschat; voor mensen is elke Engelse letter een token uit een alfabet van 26 letters. De woordenschat van DALL-E heeft tokens voor zowel tekst- als afbeeldingsconcepten. Specifiek wordt elk afbeeldingsonderschrift weergegeven met maximaal 256 BPE-gecodeerde tokens met een woordenschat van 16384 en wordt de afbeelding weergegeven met 1024 tokens met een woordenschat van 8192.

De afbeeldingen worden tijdens de training voorbewerkt tot een resolutie van 256x256. Net als bij VQVAE, wordt elke afbeelding gecomprimeerd tot een raster van 32x32 discrete latente codes met behulp van een discrete VAE die we vooraf hebben getraind met behulp van een continue relaxatie. We hebben ontdekt dat training met behulp van relaxatie de behoefte aan een expliciet codeboek, EMA-verlies of trucs zoals het herstellen van dode code overbodig maakt en kan worden opgeschaald naar grote woordenschatgroottes.