2021年1月5日

DALL·E：從文字創作圖像

我們訓練了一個名為 DALL·E 的神經網絡，能夠以文本標題為基礎創作圖像，呈現出可以用自然語言表達各種概念。

插圖： Justin Jay Wang

正在載入...

DALL·E 是 GPT‑3⁠（在新視窗中開啟）的一個 120 億參數版本，透過使用文字圖像配對資料集，訓練從文字描述中產生圖像。我們發現其擁有各種各樣的能力，包括能夠創作動物及物品的擬人化版本、以可信方式結合不相關的概念、渲染文字，以及對改造現有的圖像。

另請參閱： DALL·E 2⁠ 能產生更真實、準確且解像度高出 4 倍的圖像。

正在載入...

GPT‑3 證明了語言可用於指示大型神經網絡，執行各種文本產生任務。 Image GPT⁠ 足以證明，同類神經網絡亦可用於產生極為逼真的圖像。由此可以進一步證實，透過語言操縱視覺概念，如今已可實現。

概述

DALL·E 就如同 GPT‑3，同樣是 Transformer 語言模型。該模型會將文字與圖像視為單一資料流，當中包含多達 1280 個 Token，並透過最大似然估計訓練模型，逐個產生所有 Token。^A

這種訓練過程不但使 DALL·E 能由零開始產生圖像，還能以符合文字提示的方式，重新產生現有圖像中延伸至右下角的任何矩形區域。

我們意識到，涉及生成式模型的項目有可能對社構成重大深遠影響。未來，我們計劃分析 DALL·E 這類模型會如何牽涉社會議題，例如對某些工作流程和專業的經濟影響、模型輸出內容時可能浮現的偏見，以及這項技術長遠帶來的倫理挑戰。

能力

我們發現，DALL·E 能夠根據採用各種語言結構的句子，創作出貌似合理的圖像。我們將在下一節中，透過一系列互動式視覺內容展示這一點。在各個視覺內容中，各標題顯示的樣本均是採用 CLIP⁠重新排名後，從 512 個選擇中選取前 32 個所得出的，而除了縮圖和外部出現的和獨立圖像外，我們並無人手進行任何篩選。^B

控制屬性

我們測試了 DALL·E 修改物件多個屬性以及出現次數的能力。

正在載入...

繪製多個物件

同時控制多個物件、其屬性及其空間關係是一項新的挑戰。舉例來說，考慮一下「一隻穿紅帽、黃手套、藍恤衫和綠褲的刺蝟」這句話。為了正確解釋這個句子，DALL·E 不僅必須正確地將每件服飾與動物組合在一起，還必須形成（帽，紅色）、(手套，黃色)、(恤衫，藍色) 和（褲，綠色）的關聯，並且避免混淆。^C

我們了測試 DALL·E 在相對擺位、堆疊物體和控制多個屬性方面的能力。

正在載入...

雖然 DALL·E 在一定程度上可控制少量物體的屬性和位置，但成功率取決於標題的措辭方式。隨著引入更多物體，DALL·E 容易混淆物體及其顏色之間的關聯，成功率急劇下降。我們也注意到，在這些情境中，DALL·E 重新表述標題的能力相當脆弱，其他語意同等的標題往往無法產生出正確詮釋。

透視與立體感可視化

我們發現，DALL·E 還可以控制場景的視角，以及場景渲染的 3D 風格。

正在載入...

為了進一步探討這一點，我們測試了 DALL·E 是否能夠按照一連串相等間距的角度，重複繪製某名人的頭部，並發現我們能夠還原出流暢的頭部旋轉動畫。

正在載入...

由「魚眼鏡頭視角」和「球形全景圖」這兩個選項中可以見到，DALL·E 似乎能夠對場景套用某些類型的光學變形。這促使我們探索該模型產生反射效果的能力。

正在載入...

內部和外部結構可視化

透過「特寫視角」和「X 光」風格的樣本，我們可進一步探索 DALL·E 透過橫截面視圖渲染內部結構，以及透過微距照片渲染外部結構的能力。

正在載入...

推斷情境細節

將文字轉成圖像的任務缺乏明確定義，單一標題往往對應無數合理的圖像，因此單一圖像並不是唯一的答案。舉例來說，想像一下這段標題：「一幅畫描繪了水豚在日出時坐在田野上」。根據水豚面對的方向，可能需要繪製陰影，儘管此細節從未明確地被提及。我們探討了 DALL·E 在以下三種情況中，當描述並不明確時的應對能力：改變風格、場景和時間，在各種不同情境中繪製相同物體，以及產生寫有特定文字的物體圖像。

正在載入...

雖然可靠程度不一，但透過自然語言，DALL·E 能夠讓用戶取用 3D 渲染引擎的部分功能。該模型能獨立控制少量物件的屬性，並在有限的程度下，控制物件數量以及彼此之間的排列方式。此外，該模型還能控制場景渲染的位置和角度，並能依據精確的角度和照明條件產生已知物件。

與 3D 渲染引擎不同的是，對 3D 渲染引擎輸入內容時必須明確而詳盡，而 DALL·E 通常能夠在標題暗示圖像應包含某些未有明確指出的細節時「填補空白」。

上述功能的應用

接著，我們將探討上述功能在時裝和室內設計方面的運用。

正在載入...

結合不相關的概念

語言能夠隨心組合。透過運用這一性質，我們可以將概念連結起來，描述真實和虛構的事物。我們發現，DALL·E 也能夠結合迥異的想法來合成物體，其中一些物體在現實世界中不太可能存在。我們循以下兩個例子探討了這種能力：將各種概念的特質轉移到動物身上，以及從不相關的概念中汲取靈感來設計產品。

正在載入...

動物插畫

在上一節中，我們探討了 DALL·E 在產生真實世界物體圖像時，結合不相關概念的能力。在這一節，我們會以藝術為背景探索這種能力，並以動物及物體擬人化、動物混合體和表情符號這三種插畫為例。

正在載入...

零訓練視覺推理

GPT‑3 可以在未經任何額外訓練的情況下，單憑提示中提供的描述和產生答案的提示，收取指示執行多種任務。例如，假設提示為「here is the sentence ‘a person walking his dog in the park’ translated into French:」（這句句子『某人到公園放狗』翻譯成法文：），GPT‑3 會回答「un homme qui promène son chien dans le parc」。這種能力稱為零訓練推理。我們發現，DALL·E 將這種能力擴展到視覺領域，而只要指示輸入得當，便能夠執行多種圖像轉圖像的轉換任務。

正在載入...

這種能力的出現超乎我們預料，而且我們並沒有對神經網絡或訓練程序作出任何修改來促成這種功能。受到這些結果驅使，我們用雷文氏漸進式矩陣 (Raven's Progressive Matrices)測試了 DALL·E 類比推理問題上的能力，這是一種於 20 世紀獲廣泛採用的視覺智力測試。

正在載入...

地理知識

我們發現，DALL·E 已經學會了關於地理事實、地標以及鄰里區域的知識。該模型對這些概念的知識在某些方面出奇地精確，而在舊些方面則有所缺陷。

正在載入...

時間知識

除了探索 DALL·E 對空間概念的知識外，我們也探討了其對時間概念的知識。

正在載入...

方法摘要與早前工作

DALL·E 是個只具備解碼功能的簡易轉換器，將夠文字與圖片作為單一資料流輸入，共 1,280 個 Token，其中 256 個為文字，1,024 個為圖片，並對所有 Token 進行自迴歸建模。透過 64 層自我注意力層中的注意力遮罩，各個圖像 Token 可以將注意力轉移至所有文字 Token。DALL·E 使用標準的因果遮罩來處理文字 Token，並對圖像 Token 採用稀疏注意力，根據不同層次使用行、列或卷積的注意力模式。我們在論文⁠（在新視窗中開啟）中詳述了相關的架構和訓練過程。

自從 Reed 等人¹的開創性研究面世以來，文字轉圖像合成一直是廣受注目的研究方向，其方法為採用以文本嵌入為條件的 GAN。這些內嵌內容由使用對比損失事前訓練的編碼器所產生，情況與 CLIP 類似。StackGAN ³ 和 StackGAN++ ⁴ 使用多尺度 GAN 提升圖像解像度，從而更忠實地呈現視覺效果。AttnGAN⁵ 在文本與圖像特徵之間加入注意力，並以對比方式指出文本與圖像特徵配對損失，以作為輔助目標。這點與我們使用 CLIP 離線進行的重新排序形成有趣對比。其他研究^2、6及7則在訓練中加入更多監督來源，以改善圖像品質。最後，由 Nguyen 等人⁸及 Cho 等人⁹進行研究，探討採樣式圖像產生策略，這些策略採用經過事前訓練的多模態判別模型。

與 VQVAE-2⁠（在新視窗中開啟）中使用的剔除採樣類似，我們使用 CLIP⁠，對所有互動式視覺內容中，各標題的 512 個樣本中的前 32 個樣本進行重新排序。這個程序也可以看作是一種語言引導式搜尋¹⁶，並且可以對樣本品質產生重大影響。

正在載入...

註腳

A
Token 是指離散詞彙中的任何符號，對人類而言，每個英文字母都是來自 26 個字母表中的一個 Token。DALL·E 的詞彙中，有代表文字與圖像概念的 Token。具體來說，每個圖像標題最多使用 256 個 BPE 編碼的 Token 表示，詞彙表大小為16,384，而圖像則使用 1,024 個 Token 表示，詞彙表大小為 8,192。

在訓練階段，圖像被調整至 256x256 的解像度進行預先處理。與 VQVAE 類似的是，每幅圖像均經由離散 VAE 壓縮為 32x32 格的離散潛碼，而該離散 VAE 採用連續鬆弛法進行事期訓練。結果發現，透過用鬆弛法訓練，可避免需要明確的編碼簿、EMA 損失或還原死碼之類的技巧，並可擴展至大型詞彙規模。