5. Januar 2021

DALL·E: Bilder anhand von Text erstellen

Wir haben ein neuronales Netzwerk mit dem Namen DALL·E trainiert, das aus Textunterschriften Bilder für eine große Bandbreite an Konzepten erstellt, die in natürlicher Sprache ausgedrückt werden können.

Illustration: Justin Jay Wang

Laden …

DALL·E ist eine 12-Milliarden-Parameter-Version von GPT‑3⁠(wird in einem neuen Fenster geöffnet), trainiert, um mithilfe eines Datensatzes aus Text-Bild-Paaren Bilder anhand von Textbeschreibungen zu generieren. Wir haben erkannt, dass es über vielfältige Fähigkeiten verfügt, darunter das Erstellen vermenschlichter Versionen von Tieren und Objekten, die plausible Kombination nicht zusammenhängender Konzepte, die Darstellung von Text und die Transformation bestehender Bilder.

Siehe auch: DALL·E 2⁠ generiert noch realistischere und genauere Bilder mit einer viermal höheren Auflösung.

Wird geladen …

GPT‑3 hat gezeigt, dass ein großes neuronales Netzwerk durch Sprache angewiesen werden kann, verschiedene Aufgaben zur Textgenerierung auszuführen. Image GPT⁠ hat gezeigt, dass derselbe Typ eines neuronalen Netzwerks auch zum Generieren von Bildern mit hoher Wiedergabetreue verwendet werden kann. Wir erweitern diese Erkenntnisse, um zu zeigen, dass die Manipulation visueller Konzepte durch Sprache mittlerweile in greifbarer Nähe ist.

Überblick

DALL·E ist, genau wie GPT‑3, ein Transformer-Sprachmodell. Es empfängt sowohl den Text als auch das Bild als einen einzigen Datenstrom mit bis zu 1280 Tokens und wird mit Maximum-Likelihood trainiert, um alle Tokens nacheinander zu generieren. ^A

Dank dieses Trainingsverfahrens kann DALL·E nicht nur ein Bild von Grund auf neu generieren, sondern auch alle rechteckigen Bereiche eines bestehenden Bildes, die sich bis zur unteren rechten Ecke erstrecken, auf eine Weise regenerieren, die der Textaufforderung entspricht.

Wir wissen, dass die Arbeit mit generativen Modellen potenziell erhebliche und weitreichende Auswirkungen auf die Gesellschaft haben kann. Künftig möchten wir analysieren, wie Modelle wie DALL·E mit gesellschaftlichen Anliegen wie den wirtschaftlichen Auswirkungen auf bestimmte Arbeitsabläufe und Berufe, der Möglichkeit einer Verzerrung der Modellergebnisse und den längerfristigen ethischen Herausforderungen, die diese Technologie mit sich bringt, verknüpft sind.

Funktionen

Es zeigt sich, dass DALL·E in der Lage ist, plausible Bilder für eine große Vielfalt von Sätzen zu erstellen, die die Kompositionsstruktur von Sprache erkunden. Wir veranschaulichen dies im nächsten Abschnitt anhand einer Reihe interaktiver Grafiken. Die für jede Bildunterschrift in den Bildern gezeigten Beispiele werden durch die Auswahl der Top 32 von 512 nach einer Neubewertung mit CLIP⁠ ermittelt. Abgesehen von den Miniaturansichten und eigenständigen Bildern, die außerhalb erscheinen, verwenden wir jedoch keine selektive Auswahl.^B

Steuereigenschaften

Wir testen die Fähigkeit von DALL·E, mehrere Attribute eines Objekts zu ändern, sowie die Häufigkeit, in der es erscheint.

Wird geladen …

Mehrere Objekte zeichnen

Die gleichzeitige Steuerung von mehreren Objekten, ihren Eigenschaften und ihren räumlichen Beziehungen stellt uns vor eine neue Herausforderung. Nehmen wir z. B. den Satz „Ein Igel mit einer roten Mütze, gelben Handschuhen, einem blauen Hemd und einer grünen Hose.“ Um diesen Satz korrekt zu interpretieren, muss DALL·E nicht nur jedes Kleidungsstück dem Tier richtig zuordnen, sondern auch die Assoziationen (Hut, rot), (Handschuhe, gelb), (Hemd, blau) und (Hose, grün) bilden, ohne sie zu verwechseln ^C

Wir testen die Fähigkeit von DALL·E, dies für die relative Positionierung, das Stapeln von Objekten und die Steuerung mehrerer Eigenschaften umzusetzen.

Wird geladen …

Während DALL·E zwar ein gewisses Maß an Kontrolle über die Eigenschaften und Positionen einer kleinen Anzahl von Objekten bietet, kann die Erfolgsrate von der Formulierung der Bildunterschrift abhängen. Wenn mehr Objekte eingeführt werden, neigt DALL·E dazu, die Assoziationen zwischen den Objekten und ihren Farben zu verwechseln, und die Erfolgsrate nimmt stark ab. Wir stellen zudem fest, dass DALL·E in diesen Szenarien hinsichtlich der Umformulierung der Bildunterschrift schwankend ist: Alternative, semantisch gleichwertige Bildunterschriften führen häufig zu keinen richtigen Interpretationen.

Visualisierung von Perspektive und Dreidimensionalität

Wir sehen, dass DALL·E auch die Kontrolle über den Blickwinkel einer Szene und den 3D-Stil ermöglicht, in dem eine Szene gerendert wird.

Wird geladen …

Um dies weiterzuentwickeln, testen wir die Fähigkeit von DALL·E, den Kopf einer bekannten Figur aus einer Reihe gleichmäßig verteilter Winkel wiederholt in jedem Winkel zu zeichnen. Dabei gelingt es uns, eine flüssige Animation des rotierenden Kopfes wiederherzustellen.

Wird geladen …

DALL·E scheint in der Lage zu sein, bestimmte Arten optischer Verzerrungen auf Szenen anzuwenden, wie wir an den Optionen „Fischaugenobjektiv-Ansicht“ und „Kugelpanorama“ erkennen können. Dies hat uns motiviert, seine Fähigkeit zum Generieren von Reflexionen zu erkunden.

Wird geladen …

Visualisierung von interner und externer Struktur

Die Beispiele aus den Stilen „extreme Nahaufnahme“ und „X-Ray“ haben uns dazu veranlasst, die Fähigkeit von DALL·E, innere Strukturen mit Querschnittsansichten und äußere Strukturen mit Makrofotografien darzustellen, weiter zu untersuchen.

Wird geladen …

Ableiten kontextbezogener Details

Die Aufgabe, Text in Bilder zu übersetzen, ist nicht genau genug bestimmt: Eine einzelne Bildunterschrift entspricht im Allgemeinen einer Unendlichkeit plausibler Bilder, sodass das Bild nicht eindeutig festgelegt ist. Betrachten wir beispielsweise die Bildunterschrift „Ein Gemälde eines Wasserschweins, das bei Sonnenaufgang auf einem Feld sitzt.“ Je nach Ausrichtung des Wasserschweins kann es notwendig sein, einen Schatten zu zeichnen, wenngleich dieses Detail nicht explizit erwähnt wird. Wir erkunden die Fähigkeit von DALL·E, Unterspezifizierungen in drei Fällen zu beheben: Ändern von Stil, Einstellung und Zeit; Zeichnen desselben Objekts in einer Vielzahl unterschiedlicher Szenarien; und Generieren eines Bilds eines Objekts mit darauf geschriebenem spezifischem Text.

Wird geladen …

Mit unterschiedlichem Verlässlichkeitsgrad bietet DALL·E über natürliche Sprache Zugriff auf eine Teilmenge der Funktionen einer 3D-Wiedergabe-Engine. Es kann die Eigenschaften einer kleinen Anzahl von Objekten und in begrenztem Umfang auch deren Anzahl sowie deren Anordnung zueinander selbstständig steuern. Es kann außerdem den Ort und Winkel kontrollieren, aus dem eine Szene gerendert wird, und bekannte Objekte unter Einhaltung präziser Vorgaben zu Winkel und Lichtverhältnissen generieren.

Anders als bei einer 3D-Wiedergabe-Engine, deren Eingaben eindeutig und detailliert angegeben werden müssen, kann DALL·E häufig „die Lücken füllen“, wenn aus der Bildunterschrift hervorgeht, dass das Bild ein bestimmtes Detail enthalten muss, das nicht explizit angegeben ist.

Anwendung vorangehender Fähigkeiten

Als Nächstes erkunden wir den Einsatz der vorhergehenden Funktionen im Bereich Mode und Innenarchitektur.

Wird geladen …

Kombinieren nicht verwandter Konzepte

Die kompositorische Natur von Sprache ermöglicht es uns, Konzepte zusammenzustellen, um sowohl reale als auch imaginäre Dinge zu beschreiben. Wir stellen fest, dass DALL·E auch die Fähigkeit besitzt, unterschiedliche Ideen zu kombinieren, um Objekte zu synthetisieren, von denen einige vermutlich in der Wirklichkeit nicht existieren. Wir untersuchen diese Fähigkeit in zwei Fällen: durch die Übertragung von Eigenschaften verschiedener Konzepte auf Tiere und durch die Entwicklung von Produkten, indem wir uns von nicht verwandten Konzepten inspirieren lassen.

Wird geladen …

Tierillustrationen

Im vorherigen Abschnitt haben wir die Fähigkeit von DALL·E untersucht, bei der Generierung von Bildern von realen Objekten nicht zusammenhängende Konzepte miteinander zu kombinieren. Nun erkunden wir diese Fähigkeit im Kontext der Kunst anhand von drei Arten von Illustrationen: vermenschlichte Versionen von Tieren und Objekten, Tierchimären und Emojis.

Wird geladen …

Visuelles Zero-Shot-Reasoning

GPT‑3 kann angewiesen werden, viele Arten von Aufgaben ausschließlich anhand einer Beschreibung und eines Hinweises auszuführen, um die in seinem Prompt angegebene Antwort zu generieren, ohne dass zusätzliches Training erforderlich ist. Wenn GPT‑3 beispielsweise den Prompt erhält „Hier ist der Satz ‚Eine Person geht mit ihrem Hund im Park spazieren‘ ins Französische übersetzt“, antwortet es: „un homme qui promène son chien dans le parc.“ Diese Funktion wird als Zero-Shot-Reasoning bezeichnet. DALL·E kann diese Fähigkeit auf den visuellen Bereich ausweiten und ist in der Lage, mehrere Arten von Bild-zu-Bild-Übersetzungsaufgaben auszuführen, wenn es entsprechend dazu aufgefordert wird.

Wird geladen …

Wir haben nicht mit der Entstehung dieser Fähigkeit gerechnet und haben keine Änderungen am neuronalen Netzwerk oder am Trainingsverfahren vorgenommen, um sie zu fördern. Durch diese Ergebnisse motiviert messen wir die Eignung von DALL·E für Probleme des analogen Denkens, indem wir es anhand der progressiven Matrizen von Raven testen, einem visuellen IQ-Test, der im 20. Jahrhundert geläufig war.

Wird geladen …

Geografisches Wissen

Wir sehen, dass DALL·E etwas über geografische Fakten, Sehenswürdigkeiten und Wohngegenden gelernt hat. Das Wissen über diese Konzepte ist in mancherlei Hinsicht überraschend präzise und in anderer Hinsicht fehlerhaft.

Wird geladen …

Zeitliches Wissen

Wir erkunden DALL·Es Wissen über Konzepte, die sich über Zeit und Raum verändern.

Wird geladen …

Zusammenfassung unseres Ansatzes und der bisherigen Arbeit

DALL·E ist ein einfacher, reiner Decoder-Transformator, der sowohl den Text als auch das Bild als einen einzigen Datenstrom von 1280 Tokens empfängt – 256 für den Text und 1024 für das Bild – und diese autoregressiv modelliert. Die Aufmerksamkeitsmaske in jeder ihrer 64 Selbstaufmerksamkeitsebenen ermöglicht es jedem Bild-Token, alle Text-Tokens zu berücksichtigen. DALL·E nutzt die standardmäßige Kausalmaske für die Text-Tokens und spärliche Aufmerksamkeit für die Bild-Tokens, je nach Ebene entweder mit einem Zeilen-, Spalten- oder Faltungsaufmerksamkeitsmuster. Weitere Einzelheiten zur Architektur und zum Trainingsverfahren findest du in unserer Abhandlung⁠(wird in einem neuen Fenster geöffnet).

Die Text-zu-Bild-Synthese ist seit der Pionierarbeit von Reed et al.¹ ein aktives Forschungsgebiet. Der Ansatz verwendet ein GAN, das auf Texteinbettungen basiert. Die Einbettungen werden von einem Encoder erzeugt, der mit einem Kontrastverlust vorab trainiert wurde, ähnlich wie CLIP. StackGAN³ und StackGAN++⁴ verwenden Multi-Skalierungs-GANs, um die Bildauflösung zu erhöhen und die Wiedergabetreue zu optimieren. AttnGAN⁵ integriert die Aufmerksamkeit zwischen den Text- und Bildmerkmalen und schlägt als zusätzliches Ziel einen kontrastiven Verlust der Text-Bild-Merkmalsübereinstimmung vor. Der Vergleich mit unserer Neubewertung mit CLIP, die offline durchgeführt wird, ist hierbei interessant. Andere Arbeiten^{2, 6 und 7} integrieren zusätzliche Überwachungsquellen während des Trainings, um die Bildqualität zu verbessern. Nguyen et al. ⁸ und Cho et al. ⁹ untersuchen in ihrer Arbeit schließlich stichprobenbasierte Strategien zur Bildgenerierung, die vorab trainierte multimodale Unterscheidungsmodelle nutzen.

Ähnlich wie bei der in VQVAE-2⁠(wird in einem neuen Fenster geöffnet) verwendeten Ablehnungsstichprobe verwenden wir CLIP⁠, um die Top 32 von 512 Stichproben für jede Bildunterschrift in allen interaktiven visuellen Elementen neu zu bewerten. Dieses Verfahren kann auch als eine Art sprachgesteuerte Suche betrachtet werden¹⁶ und kann sich erheblich auf die Probenqualität auswirken.

Wird geladen …

Fußnoten

A
Ein Token ist ein beliebiges Symbol aus einem diskreten Vokabular; für Menschen ist jeder englische Buchstabe aus einem Alphabet mit 26 Buchstaben ein Token. Das Vokabular von DALL·E verfügt über Tokens sowohl für Text- als auch für Bildkonzepte. Jede Bildunterschrift wurde mit maximal 256 BPE-codierten Tokens mit einer Vokabulargröße von 16384 dargestellt, und das Bild wird mit 1024 Tokens mit einer Vokabulargröße von 8192 dargestellt.

Die Bilder werden während des Trainings auf eine Auflösung von 256 x 256 vorverarbeitet. Ähnlich wie bei VQVAE wird jedes Bild mithilfe eines diskreten VAE auf ein 32x32-Raster diskreter latenter Codes komprimiert. Das VAE wurde von uns mithilfe einer kontinuierlichen Relaxation vortrainiert. Wir haben festgestellt, dass das Training mithilfe der Relaxation ein explizites Codebuch, EMA-Verlust oder Tricks wie die Wiederbelebung von toten Codes überflüssig macht und auf große Vokabelgrößen skaliert werden kann.

B
Ein späterer Abschnitt⁠ behandelt weitere Details.
17
Diese Aufgabe wird als Variablenbindung bezeichnet und wurde in der Literatur ausführlich untersucht.

Referenzen

1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). „Generative adversarial text to image synthesis⁠(wird in einem neuen Fenster geöffnet)”. In ICML 2016.
2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). „Learning what and where to draw⁠(wird in einem neuen Fenster geöffnet)”. In NIPS 2016.
3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). „StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks⁠(wird in einem neuen Fenster geöffnet)”. In ICCY 2017.
4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). „StackGAN++: realistic image synthesis with stacked generative adversarial networks⁠(wird in einem neuen Fenster geöffnet)”. In IEEE TPAMI 2018.
5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). „AttnGAN: Fine-grained text to image generation with attentional generative adversarial networks⁠(wird in einem neuen Fenster geöffnet).
6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). „Object-driven text-to-image synthesis via adversarial training⁠(wird in einem neuen Fenster geöffnet)”. In CVPR 2019.
7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). „Text-to-image generation grounded by fine-grained user attention⁠(wird in einem neuen Fenster geöffnet)”. In WACV 2021.
8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). „Plug & play generative networks: conditional iterative generation of images in latent space⁠(wird in einem neuen Fenster geöffnet).
9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). „X-LXMERT: Paint, caption, and answer questions with multi-modal transformers⁠(wird in einem neuen Fenster geöffnet)”. EMNLP 2020.
10
Kingma, Diederik P und Max Welling. „Auto-encoding variational bayes⁠(wird in einem neuen Fenster geöffnet).” arXiv preprint (2013).
11
Rezende, Danilo Jimenez, Shakir Mohamed und Daan Wierstra. „Stochastic backpropagation and approximate inference in deep generative models⁠(wird in einem neuen Fenster geöffnet).” arXiv preprint (2014).
12
Jang, E., Gu, S., Poole, B. (2016). „Categorical reparametrization with Gumbel-softmax⁠(wird in einem neuen Fenster geöffnet)”.
13
Maddison, C., Mnih, A., Teh, Y. W. (2016). „The Concrete distribution: a continuous relaxation of discrete random variables⁠(wird in einem neuen Fenster geöffnet)”.
14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). „Neural discrete representation learning⁠(wird in einem neuen Fenster geöffnet)”.
15
Razavi, A., van der Oord, A., Vinyals, O. (2019). „Generating diverse high-fidelity images with VQ-VAE-2⁠(wird in einem neuen Fenster geöffnet)”.
16
Andreas, J., Klein, D., Levine, S. (2017). „Learning with Latent Language⁠(wird in einem neuen Fenster geöffnet)”.
17
Smolensky, P. (1990). „Tensor product variable binding and the representation of symbolic structures in connectionist systems⁠(wird in einem neuen Fenster geöffnet)”.
18
Plate, T. (1995). „Holographic reduced representations: convolution algebra for compositional distributed representations⁠(wird in einem neuen Fenster geöffnet)”.
19
Gayler, R. (1998). „Multiplicative binding, representation operators & analogy⁠(wird in einem neuen Fenster geöffnet)”.
20
Kanerva, P. (1997). „Fully distributed representations⁠(wird in einem neuen Fenster geöffnet)”.

Hauptautoren

Aditya Ramesh, Mikhail Pavlov, Gabriel Goh und Scott Gray

Unterstützende Autoren

Mark Chen, Rewon Child, Vedant Misra, Pamela Mishkin, Gretchen Krueger, Sandhini Agarwal und Ilya Sutskever

DALL·E: Bilder anhand von Text erstellen

Überblick

Funktionen

Steuereigenschaften

Mehrere Objekte zeichnen

Visualisierung von Perspektive und Dreidimensionalität

Visualisierung von interner und externer Struktur

Ableiten kontextbezogener Details

Anwendung vorangehender Fähigkeiten

Kombinieren nicht verwandter Konzepte

Tierillustrationen

Visuelles Zero-Shot-Reasoning

Geografisches Wissen

Zeitliches Wissen

Zusammenfassung unseres Ansatzes und der bisherigen Arbeit

Fußnoten

Referenzen

Hauptautoren

Unterstützende Autoren

Ähnliche Artikel