
插圖: Justin Jay Wang
DALL·E 是 GPT‑3(在新視窗中開啟) 的一個 120 億參數版本,透過使用文字圖像配對資料集,訓練從文字描述中產生圖像。我們發現其擁有各種各樣的能力,包括能夠創作動物及物品的擬人化版本、以可信方式結合不相關的概念、渲染文字,以及對改造現有的圖像。
另請參閱: DALL·E 2 能產生更真實、準確且解像度高出 4 倍的圖像。
GPT‑3 證明了語言可用於指示大型神經網絡,執行各種文本產生任務。 Image GPT 足以證明,同類神經網絡亦可用於產生極為逼真的圖像。由此可以進一步證實,透過語言操縱視覺概念,如今已可實現。
DALL·E 就如同 GPT‑3,同樣是 Transformer 語言模型。該模型會將文字與圖像視為單一資料流,當中包含多達 1280 個 Token,並透過最大似然估計訓練模型,逐個產生所有 Token。A
這種訓練過程不但使 DALL·E 能由零開始產生圖像,還能以符合文字提示的方式,重新產生現有圖像中延伸至右下角的任何矩形區域。
我們意識到,涉及生成式模型的項目有可能對社構成重大深遠影響。未來,我們計劃分析 DALL·E 這類模型會如何牽涉社會議題,例如對某些工作流程和專業的經濟影響、模型輸出內容時可能浮現的偏見,以及這項技術長遠帶來的倫理挑戰。
我們測試了 DALL·E 修改物件多個屬性以及出現次數的能力。
同時控制多個物件、其屬性及其空間關係是一項新的挑戰。舉例來說,考慮一下「一隻穿紅帽、黃手套、藍恤衫和綠褲的刺蝟」這句話。為了正確解釋這個句子,DALL·E 不僅必須正確地將每件服飾與動物組合在一起,還必須形成(帽,紅色)、(手套,黃色)、(恤衫,藍色) 和(褲,綠色)的關聯,並且避免混淆。C
我們了測試 DALL·E 在相對擺位、堆疊物體和控制多個屬性方面的能力。
雖然 DALL·E 在一定程度上可控制少量物體的屬性和位置,但成功率取決於標題的措辭方式。隨著引入更多物體,DALL·E 容易混淆物體及其顏色之間的關聯,成功率急劇下降。我們也注意到,在這些情境中,DALL·E 重新表述標題的能力相當脆弱,其他語意同等的標題往往無法產生出正確詮釋。
我們發現,DALL·E 還可以控制場景的視角,以及場景渲染的 3D 風格。
為了進一步探討這一點,我們測試了 DALL·E 是否能夠按照一連串相等間距的角度,重複繪製某名人的頭部,並發現我們能夠還原出流暢的頭部旋轉動畫。
由「魚眼鏡頭視角」和「球形全景圖」這兩個選項中可以見到,DALL·E 似乎能夠對場景套用某些類型的光學變形。這促使我們探索該模型產生反射效果的能力。
透過「特寫視角」和「X 光」風格的樣本,我們可進一步探索 DALL·E 透過橫截面視圖渲染內部結構,以及透過微距照片渲染外部結構的能力。
將文字轉成圖像的任務缺乏明確定義,單一標題往往對應無數合理的圖像,因此單一圖像並不是唯一的答案。舉例來說,想像一下這段標題:「一幅畫描繪了水豚在日出時坐在田野上」。根據水豚面對的方向,可能需要繪製陰影,儘管此細節從未明確地被提及。我們探討了 DALL·E 在以下三種情況中,當描述並不明確時的應對能力:改變風格、場景和時間,在各種不同情境中繪製相同物體,以及產生寫有特定文字的物體圖像。
雖然可靠程度不一,但透過自然語言,DALL·E 能夠讓用戶取用 3D 渲染引擎的部分功能。該模型能獨立控制少量物件的屬性,並在有限的程度下,控制物件數量以及彼此之間的排列方式。此外,該模型還能控制場景渲染的位置和角度,並能依據精確的角度和照明條件產生已知物件。
與 3D 渲染引擎不同的是,對 3D 渲染引擎輸入內容時必須明確而詳盡,而 DALL·E 通常能夠在標題暗示圖像應包含某些未有明確指出的細節時「填補空白」。
接著,我們將探討上述功能在時裝和室內設計方面的運用。
語言能夠隨心組合。透過運用這一性質,我們可以將概念連結起來,描述真實和虛構的事物。我們發現,DALL·E 也能夠結合迥異的想法來合成物體,其中一些物體在現實世界中不太可能存在。我們循以下兩個例子探討了這種能力:將各種概念的特質轉移到動物身上,以及從不相關的概念中汲取靈感來設計產品。
在上一節中,我們探討了 DALL·E 在產生真實世界物體圖像時,結合不相關概念的能力。在這一節,我們會以藝術為背景探索這種能力,並以動物及物體擬人化、動物混合體和表情符號這三種插畫為例。
GPT‑3 可以在未經任何額外訓練的情況下,單憑提示中提供的描述和產生答案的提示,收取指示執行多種任務。例如,假設提示為「here is the sentence ‘a person walking his dog in the park’ translated into French:」(這句句子『某人到公園放狗』翻譯成法文:),GPT‑3 會回答「un homme qui promène son chien dans le parc」。這種能力稱為零訓練推理。 我們發現,DALL·E 將這種能力擴展到視覺領域,而只要指示輸入得當,便能夠執行多種圖像轉圖像的轉換任務。
這種能力的出現超乎我們預料,而且我們並沒有對神經網絡或訓練程序作出任何修改來促成這種功能。受到這些結果驅使,我們用雷文氏漸進式矩陣 (Raven's Progressive Matrices)測試了 DALL·E 類比推理問題上的能力,這是一種於 20 世紀獲廣泛採用的視覺智力測試。
我們發現,DALL·E 已經學會了關於地理事實、地標以及鄰里區域的知識。該模型對這些概念的知識在某些方面出奇地精確,而在舊些方面則有所缺陷。
除了探索 DALL·E 對空間概念的知識外,我們也探討了其對時間概念的知識。
DALL·E 是個只具備解碼功能的簡易轉換器,將夠文字與圖片作為單一資料流輸入,共 1,280 個 Token,其中 256 個為文字,1,024 個為圖片,並對所有 Token 進行自迴歸建模。透過 64 層自我注意力層中的注意力遮罩,各個圖像 Token 可以將注意力轉移至所有文字 Token。DALL·E 使用標準的因果遮罩來處理文字 Token,並對圖像 Token 採用稀疏注意力,根據不同層次使用行、列或卷積的注意力模式。我們在論文(在新視窗中開啟)中詳述了相關的架構和訓練過程。
自從 Reed 等人1的開創性研究面世以來,文字轉圖像合成一直是廣受注目的研究方向,其方法為採用以文本嵌入為條件的 GAN。這些內嵌內容由使用對比損失事前訓練的編碼器所產生,情況與 CLIP 類似。StackGAN 3 和 StackGAN++ 4 使用多尺度 GAN 提升圖像解像度,從而更忠實地呈現視覺效果。AttnGAN5 在文本與圖像特徵之間加入注意力,並以對比方式指出文本與圖像特徵配對損失,以作為輔助目標。這點與我們使用 CLIP 離線進行的重新排序形成有趣對比。其他研究2、6及7則在訓練中加入更多監督來源,以改善圖像品質。最後,由 Nguyen 等人8及 Cho 等人9進行研究,探討採樣式圖像產生策略,這些策略採用經過事前訓練的多模態判別模型。
與 VQVAE-2(在新視窗中開啟) 中使用的剔除採樣類似,我們使用 CLIP,對所有互動式視覺內容中,各標題的 512 個樣本中的前 32 個樣本進行重新排序。這個程序也可以看作是一種語言引導式搜尋16,並且可以對樣本品質產生重大影響。
註腳
- A
Token 是指離散詞彙中的任何符號,對人類而言,每個英文字母都是來自 26 個字母表中的一個 Token。DALL·E 的詞彙中,有代表文字與圖像概念的 Token。具體來說,每個圖像標題最多使用 256 個 BPE 編碼的 Token 表示,詞彙表大小為16,384,而圖像則使用 1,024 個 Token 表示,詞彙表大小為 8,192。
在訓練階段,圖像被調整至 256x256 的解像度進行預先處理。與 VQVAE 類似的是,每幅圖像均經由離散 VAE 壓縮為 32x32 格的離散潛碼,而該離散 VAE 採用連續鬆弛法 進行事期訓練。結果發現,透過用鬆弛法訓練,可避免需要明確的編碼簿、EMA 損失或還原死碼之類的技巧,並可擴展至大型詞彙規模。
- B
更多細節將在後續章節中提及。
- 17
這項任務稱為變數綁定,目前已有大量研究文獻。
參考文獻
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H.(2016).“Generative adversarial text to image synthesis(在新視窗中開啟)”.In ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H.(2016).“Learning what and where to draw(在新視窗中開啟)”.In NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D.(2016).“StackGAN:Text to photo-realistic image synthesis with stacked generative adversarial networks(在新視窗中開啟)”.In ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D.(2017).“StackGAN++: realistic image synthesis with stacked generative adversarial networks(在新視窗中開啟)”.In IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X.(2017).“AttnGAN:Fine-grained text to image generation with attentional generative adversarial networks(在新視窗中開啟).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J.(2019).“Object-driven text-to-image synthesis via adversarial training(在新視窗中開啟)”.In CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y.(2020).“Text-to-image generation grounded by fine-grained user attention(在新視窗中開啟)”.In WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J.(2016).“Plug & play generative networks: conditional iterative generation of images in latent space(在新視窗中開啟).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A.(2020).“X-LXMERT:Paint, caption, and answer questions with multi-modal transformers(在新視窗中開啟)”.EMNLP 2020.
- 10
Kingma, Diederik P., and Max Welling.“Auto-encoding variational bayes(在新視窗中開啟).” arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra.“Stochastic backpropagation and approximate inference in deep generative models(在新視窗中開啟).” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B.(2016).“Categorical reparametrization with Gumbel-softmax(在新視窗中開啟)”.
- 13
Maddison, C., Mnih, A., Teh, Y. W.(2016).“The Concrete distribution: a continuous relaxation of discrete random variables(在新視窗中開啟)”.
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K.(2017).“Neural discrete representation learning(在新視窗中開啟)”.
- 15
Razavi, A., van der Oord, A., Vinyals, O.(2019).“Generating diverse high-fidelity images with VQ-VAE-2(在新視窗中開啟)”.
- 16
Andreas, J., Klein, D., Levine, S.(2017).“Learning with Latent Language(在新視窗中開啟)”.
- 17
- 18
- 19
Gayler, R.(1998).“Multiplicative binding, representation operators & analogy(在新視窗中開啟)”.
- 20
Kanerva, P.(1997).“Fully distributed representations(在新視窗中開啟)”.


