2021年1月5日

DALL·E：从文本创建图片

我们训练了一个名为 DALL·E 的神经网络，它能根据文本标题创建图片，并能用自然语言表达各种概念。

插图：贾斯汀·杰·王

正在加载…

DALL·E 是一个 120 亿参数版本的 GPT‑3⁠（在新窗口中打开），经过训练后可以使用文本图片对数据集，根据文本描述生成图片。我们发现它具有多种功能，包括创建拟人化版本的动物和物体、以合理的方式组合不相关的概念、渲染文本以及对现有图片进行转换。

另请参见： DALL·E 2⁠ 能生成更逼真、更精确的图片，分辨率是原来的 4 倍。

正在加载...

GPT‑3 表明，语言可用于指导大型神经网络执行各种文本生成任务。 Image GPT⁠ 显示，同样类型的神经网络也可用于生成高保真图片。我们对这些发现进行了扩展，表明通过语言操纵视觉概念已指日可待。

概述

与 GPT‑3 一样，DALL·E 也是一种转换语言模型。它以包含多达 1,280 个令牌的单一数据流的形式接收文本和图片，并使用最大似然法进行训练，以逐个生成所有令牌。^A

通过这种训练程序，DALL·E 不仅能从头开始生成图片，还能以与文本提示一致的方式，重新生成现有图片中延伸至右下角的任何矩形区域。

我们认识到，涉及生成模型的工作有可能产生重大而广泛的社会影响。未来，我们计划分析像 DALL·E 这样的模型与社会问题的关系，如对某些工作流程和职业的经济影响、模型输出中可能出现的偏差，以及这项技术带来的长期伦理挑战。

功能

我们发现，DALL·E 能够为各种句子创建可信的图片，从而探索语言的组成结构。我们将在下一节中使用一系列交互式视觉效果来说明这一点。视觉效果中显示的每个标题的样本都是通过 CLIP⁠ 重新排序后，从 512 个样本中选取前 32 个样本得到的，但我们并没有使用任何人工筛选的方法，除了外部出现的缩略图和独立图片。^B

控制属性

我们测试了 DALL·E 修改对象属性以及出现次数的能力。

正在加载...

绘制多个对象

同时控制多个对象及其属性和空间关系是一项新的挑战。例如，思考一下“一只戴着红色帽子、黄色手套、蓝色衬衫和绿色裤子的刺猬”这句话。要正确理解这句话，DALL·E 不仅要将每件衣服与动物正确地组合在一起，还要形成（帽子，红色)、（手套，黄色)、（衬衫，蓝色)和（裤子，绿色)的联想，而不能将它们混淆。^C

我们测试 DALL·E 在相对定位、堆叠物体和控制多个属性方面的能力。

正在加载...

虽然 DALL·E 在一定程度上可以控制少量物体的属性和位置，但成功率取决于标题的措辞。当引入的物体越多，DALL·E 就越容易混淆物体与其颜色之间的关联，成功率也会急剧下降。我们还注意到，在这些情况下，DALL·E 对标题的重新表述很不灵活：其他语义等同的标题往往不会产生正确的解释。

透视和三维可视化

我们发现，DALL·E 还可以控制场景的视角和场景渲染的三维样式。

正在加载...

为了进一步验证这一点，我们测试了 DALL·E 从一连串间隔相等的角度重复绘制一个知名人物的头部的能力，结果发现我们可以恢复出流畅的头部旋转动画。

正在加载...

正如我们在“鱼眼镜头视图”和“球形全景”选项中看到的那样，DALL·E 似乎能够对场景进行某些类型的光学变形。这促使我们探索它产生反射的能力。

正在加载...

内部和外部结构可视化

从“极特写视图”和“X 射线”风格的样本中，我们进一步探索了 DALL·E 通过横截面视图呈现内部结构和通过微距照片呈现外部结构的能力。

正在加载...

推断背景细节

将文本翻译成图片的任务不够明确：一个标题通常对应无数个似是而非的图片，因此图片并不是唯一确定的。例如，考虑标题“一幅日出时坐在田野上的水豚画”。根据水豚的朝向，可能需要画出一个影子，尽管这个细节从未被明确提及。我们探讨了 DALL·E 在以下三种情况下解决规格不足问题的能力：改变风格、背景和时间；在各种不同的情况下绘制同一个对象；生成一个写有特定文字的对象图片。

正在加载...

凭借不同程度的可靠性，DALL·E 可以通过自然语言访问三维渲染引擎的部分功能。它可以独立控制少量物体的属性，并在一定程度上控制物体的数量和相互排列方式。它还能控制渲染场景的位置和角度，并能根据角度和照明条件的精确规格生成已知对象。

与三维渲染引擎不同的是，三维渲染引擎的输入必须明确且详细，而 DALL·E 通常能够“填补空白”，当字幕暗示图片必须包含某些未明确说明的细节时，DALL·E 就能“填补空白”。

前述能力的应用

接下来，我们将探讨如何在时装和室内设计中使用上述能力。

正在加载...

组合不相关的概念

语言的构成特性允许我们将概念组合在一起，以描述真实和想象的事物。我们发现，DALL·E 也有能力将不同的概念组合在一起，合成出现实世界中不可能存在的物体。我们通过两个实例来探讨这种能力：将各种概念的特质转移到动物身上，以及从毫不相关的概念中汲取灵感设计产品。

正在加载...

动物插图

在上一节中，我们探讨了 DALL·E 在生成现实世界物体图片时结合不相关概念的能力。下面，我们将针对三种插图：动物和物体的拟人化版本、动物嵌合体和表情符号，在艺术的背景下探讨这种能力。

正在加载...

零样本视觉推理

GPT‑3 可以在不进行任何额外训练的情况下，仅根据描述和提示完成多种任务，并生成提示中提供的答案。例如，当提示“下面是‘一个人在公园里遛狗’这句话的法语翻译：”时，GPT‑3 会回答“un homme qui promène son chien dans le parc”。这种能力被称为零样本推理。 我们发现，DALL·E 将这种能力扩展到了视觉领域，并能在正确的提示下完成多种图片到图片的翻译任务。

正在加载...

我们没有预料到这种能力会出现，也没有为鼓励这种能力而对神经网络或训练程序进行任何修改。受这些结果的启发，我们用瑞文渐进矩阵 (Raven's progressive matrices) 测试了 DALL·E 在类比推理问题上的能力，这是一种在 20 世纪被广泛使用的视觉智商测试。

正在加载...

地理知识

我们发现，DALL·E 已经了解了地理事实、地标和街区。它对这些概念的认识在某些方面出奇地精确，而在另一些方面却有缺陷.

正在加载...

时间知识

除了探究 DALL·E 对空间概念的认识，我们还探究了它对时间概念的认识。

正在加载...

方法和前期工作总结

DALL·E 是一种简单的解码器转换器，它以 1,280 个令牌（文本为 256 个，图片为 1,024 个)的单一流接收文本和图片，并对所有令牌进行自回归建模。64 个自我注意层中每个层的注意掩码允许每个图片令牌注意所有文本令牌。DALL·E 对文本令牌使用标准因果掩码，对图片令牌使用稀疏注意，并根据层的不同采用行、列或卷积注意模式。我们将在论文⁠（在新窗口中打开）中提供有关架构和训练过程的更多细节。

自瑞德 (Reed) 等人的开创性工作以来，文本到图片的合成一直是一个活跃的研究领域。¹该方法使用的是以文本嵌入为条件的 GAN。嵌入是由使用对比损失 (Contrastive Loss) 预训练的编码器生成的，这与 CLIP 并无不同。StackGAN³ 和 StackGAN++⁴ 使用多尺度 GAN 来扩大图片分辨率，提高视觉保真度。AttnGAN⁵ 在文本和图片特征之间加入了注意力，并提出了一个对比性文本图片特征匹配损失作为辅助目标。这与我们使用 CLIP 进行的重新排序（离线完成)进行了有趣的比较。其他工作^2、6、7在训练过程中加入了额外的监督来源，以提高图片质量。最后，阮 (Nguyen) 等人⁸ 和赵 (Cho) 等人⁹ 利用预先训练的多模态判别模型，探索了基于采样的图像生成策略。

与 VQVAE-2⁠（在新窗口中打开）中使用的剔除抽样类似，我们使用 CLIP⁠ 对所有交互式视觉效果中每个标题的 512 个样本中的前 32 个样本进行重新排序。这一过程也可被视为一种语言引导搜索¹⁶，可对样本质量产生巨大影响。

正在加载...

脚注

A
令牌是指离散词汇中的任何符号；对于人类来说，每个英文字母都是 26 个字母表中的一个令牌。DALL·E 的词汇中包含文本和图片概念的令牌。具体来说，每个图片标题最多使用 256 个 BPE 编码的令牌来表示，词汇量为 16,384 个；图片使用 1,024 个令牌来表示，词汇量为 8,192 个。

在训练过程中，图片被预处理为 256x256 分辨率。与 VQVAE 类似，我们使用离散 VAE 将每幅图片压缩为 32x32 格的离散潜码，并使用连续松弛对其进行预训练。我们发现，使用松弛训练无需明确的编码本、EMA 损失或死码恢复等技巧，而且可以扩展到大词汇量。