DALL·E: Создание изображений из текста
Мы обучили нейронную сеть под названием DALL·E, которая создает изображения из текстовых описаний для широкого спектра концепций, выражаемых на естественном языке.

Иллюстрация: Justin Jay Wang
DALL·E — это версия GPT‑3(открывается в новом окне) с 12 миллиардами параметров, обученная генерировать изображения по текстовым описаниям, используя набор данных пар текст–изображение. Мы обнаружили, что он обладает разнообразными возможностями, включая создание антропоморфных версий животных и объектов, сочетание несвязанных концепции правдоподобными способами, рендер текста и применение трансформаций к существующим изображениям.
См. также: DALL·E 2, который генерирует более реалистичные и точные изображения с увеличением разрешения в 4 раза.
GPT‑3 продемонстрировал, что язык можно использовать для управления большой нейронной сетью, чтобы выполнять разнообразные задачи по генерированию текста. Image GPT показал, что тот же тип нейронной сети также может использоваться для генерирования изображений с высокой точностью. Мы расширяем эти выводы, чтобы показать, что манипулирование визуальными концепциями с помощью языка теперь возможно.
Как и GPT‑3, DALL·E — это трансформерная языковая модель. Он получает как текст, так и изображение в виде единого потока данных, содержащего до 1280 токенов, и обучается с использованием метода максимального правдоподобия для генерирования всех токенов один за другим. A
Эта процедура обучения позволяет DALL·E не только генерировать изображения с нуля, но и восстанавливать любую прямоугольную область существующего изображения, которая простирается до нижнего правого угла, так чтобы это соответствовало текстовой подсказке.
Мы признаем, что работа с генеративными моделями может иметь значительные и широкие общественные последствия. В будущем мы планируем анализировать, как модели, такие как DALL·E, соотносятся с социальными проблемами, такими как экономическое воздействие на определенные рабочие процессы и профессии, потенциальная предвзятость в результатах работы моделей и долгосрочные этические вызовы, связанные с этой технологией.
Мы обнаружили, что DALL·E способен создать правдоподобные изображения для множества предложений, изучающих композиционную структуру языка. Мы иллюстрируем это с помощью серии интерактивных визуализаций в разделе далее. Образцы, показанные для каждой подписи на визуализациях, получены путем выбора 32 лучших из 512 после повторной ранжировки с помощью CLIP, но мы не используем ручной отбор, за исключением миниатюр и отдельных изображений, которые появляются отдельно.B
Мы тестируем способность DALL·E изменять несколько атрибутов объекта, а также количество раз, когда он появляется.
Одновременное управление несколькими объектами, их атрибутами и их пространственными отношениями представляет новую задачу. Например, рассмотрим фразу «ёжик в красной шляпе, жёлтых перчатках, синей рубашке и зелёных штанах». Чтобы правильно интерпретировать это предложение, DALL·E должен не только правильно сопоставить каждый предмет одежды с животным, но и сформировать ассоциации (шляпа, красный), (перчатки, жёлтый), (рубашка, синий) и (штаны, зелёный), не перепутав их. C
Мы проверяем способность DALL·E выполнять задачи по относительному позиционированию, укладке объектов и управлению несколькими атрибутами.
Хотя DALL·E действительно предлагает некоторую степень управляемости атрибутами и положениями небольшого количества объектов, уровень успеха может зависеть от того, как сформулирована подпись. По мере добавления большего количества объектов DALL·E склонен путать ассоциации между объектами и их цветами, и уровень успеха резко снижается. Мы также отмечаем, что DALL·E чувствителен к перефразированию подписей в этих сценариях: альтернативные, семантически эквивалентные подписи часто не приводят к правильным интерпретациям.
Мы обнаружили, что DALL·E также позволяет управлять точкой зрения сцены и 3D-стилем, в котором сцена отображается.
В рамках дальнейшего продвижения мы проверяем способность DALL·E многократно рисовать голову известной фигуры под каждым углом из последовательности равномерно распределённых углов и обнаруживаем, что можем восстановить плавную анимацию вращающейся головы.
DALL·E, по всей видимости, способен применять некоторые виды оптических искажений к сценам, как мы видим на примерах с опциями «вид через объектив типа „рыбий глаз“» и «сферическая панорама». Это побудило нас изучить его способность генерировать отражения.
Образцы стилей «экстремальный крупный план» и «рентгеновский снимок» побудили нас глубже изучать способность DALL·E отображать внутреннюю структуру через поперечные сечения и внешнюю структуру с помощью макрофотографий.
Задача по переводу текста в изображения недостаточно определена: одна подпись обычно соответствует бесконечному множеству возможных изображений, поэтому изображение не определяется однозначно. Например, рассмотрим надпись «рисунок капибары, сидящей на поле на рассвете». В зависимости от местоположения и позы капибары, возможно, потребуется нарисовать тень, хотя этот момент никогда не упоминается явно. Мы изучаем способность DALL·E разрешать неопределенность в трех случаях: изменение стиля, обстановки и времени; изображение одного и того же объекта в различных ситуациях; и генерирование изображения объекта с определенным текстом на нем.
С различной степенью надежности DALL·E предоставляет доступ к части возможностей 3D-рендеринга через естественный язык. Он может самостоятельно управлять атрибутами небольшого количества объектов и в ограниченной степени тем, сколько их и как они расположены относительно друг друга. Он также может контролировать местоположение и угол, под которым рендерится сцена, и может генерировать известные объекты в соответствии с точными параметрами угла и условий освещения.
В отличие от 3D-рендеринга, где запросы должны быть заданы однозначно и в полном объеме, DALL·E часто способен «заполнить пробелы», когда в подписи подразумевается, что изображение должно содержать определенную деталь, которая не указана явно.
Далее мы исследуем использование предыдущих возможностей для сфер моды и дизайна интерьера.
Композиционная природа языка позволяет нам объединять концепции для описания как реальных, так и воображаемых объектов. Мы обнаружили, что DALL·E также обладает способностью объединять разрозненные идеи для синтеза объектов, некоторые из которых вряд ли существуют в реальном мире. Мы изучаем эту способность в двух случаях: передача качеств от различных концепций к животным и создание продуктов с вдохновением от несвязанных концепций.
В предыдущем разделе мы изучали способность DALL·E сочетать несвязанные концепции при генерировании изображений реальных объектов. Здесь мы изучаем эту способность в контексте искусства для трех видов иллюстраций: антропоморфные версии животных и объектов, животные-химеры и эмодзи.
GPT‑3 можно настроить на выполнение множества задач, используя только описание и указание для формирования ответа, предоставленного в его подсказке, без дополнительного обучения. Например, когда GPT‑3 получает подсказку с фразой «вот предложение „человек, гуляющий со своей собакой в парке“, переведенное на французский:», он отвечает: «un homme qui promène son chien dans le parc». Эта возможность называется zero-shot reasoning. Мы обнаружили, что DALL·E расширяет эту возможность на сферу визуализации: он способен выполнять несколько видов задач по преобразованию изображений, если ему дать правильную подсказку.
Мы не предвидели, что эта возможность возникнет, и не вносили никаких изменений в нейронную сеть или процедуру обучения, чтобы её стимулировать. Вдохновлённые этими результатами, мы оцениваем способность DALL·E к аналогическому мышлению, тестируя его на прогрессивных матрицах Равена, визуальном тесте IQ, который получил широкое распространение в XX веке.
Мы обнаружили, что DALL·E изучил географические факты, достопримечательности и районы. Его знание этих концепций на удивление точное в одних отношениях и ошибочное в других.
Помимо того, что мы изучаем знания DALL·E о концепциях, которые варьируются в пространстве, мы также изучаем его знания о концепциях, которые изменяются со временем.
DALL·E — это простой трансформер, работающий только на декодере, который получает как текст, так и изображение в виде единого потока из 1280 токенов — 256 для текста и 1024 для изображения — и моделирует их авторегрессионно. Маска внимания на каждом из 64 слоев самовнимания позволяет каждому токену изображения учитывать все текстовые токены. DALL·E использует стандартную причинно-следственную маску для текстовых токенов и разреженное внимание для токенов изображения с использованием строкового, столбцового или сверточного паттерна внимания, в зависимости от слоя. Более подробную информацию об архитектуре и процедуре обучения см. в нашей статье(открывается в новом окне).
Синтез текста в изображение является активной областью исследований с момента новаторской работы Рида и соавт., 1 чей подход использует GAN, основанный на встраивании текста. Встраивания создаются энкодером, предварительно обученным с использованием контрастивной потери, аналогично CLIP. StackGAN3 и StackGAN++4 используют многомасштабные GAN для повышения разрешения изображений и улучшения визуальной достоверности. AttnGAN5 включает механизм внимания между элементами текста и изображения и предлагает контрастную функцию потерь для сопоставления элементов текста и изображения в качестве вспомогательной задачи. Это интересно сравнить с нашим повторным ранжированием с использованием CLIP, которое выполняется офлайн. Другая работа2, 6, 7 включает дополнительные источники контроля во время обучения для улучшения качества изображения. Наконец, работа Нгуена и соавт. 8, а также Чо и соавт. 9 изучает стратегии на основе выборки для генерирования изображений, использующие предварительно обученные мультимодальные дискриминативные модели.
Подобно выборочному отбору, применяемому в VQVAE-2(открывается в новом окне), мы используем CLIP для повторной ранжировки 32 лучших из 512 образцов для каждой подписи во всех интерактивных визуализациях. Эту процедуру также можно рассматривать как своего рода поиск, управляемый языком16, и она может значительно повлиять на качество образца.
Сноски
- A
Токен — это любой символ из дискретного словаря; для людей каждая английская буква является токеном из 26-буквенного алфавита. Словарь DALL·E содержит токены как для текстовых, так и для концепций изображений. В частности, каждая подпись к изображению представлена с использованием максимум 256 токенов, закодированных методом BPE, с размером словаря 16384, а изображение представлено с использованием 1024 токенов с размером словаря 8192.
Изображения предварительно обрабатываются до разрешения 256x256 во время обучения. Подобно VQVAE, каждое изображение сжимается до сетки 32x32 дискретных латентных кодов с использованием дискретного VAE, который мы предварительно обучили с помощью непрерывной релаксации. Мы обнаружили, что обучение с использованием релаксации устраняет необходимость в явном кодовом справочнике, потере EMA или таких приемах, как восстановление «мертвого» кода, и может масштабироваться до больших размеров словаря.
- B
Дополнительные сведения будут предоставлены в последующих разделах.
- 17
Эта задача называется связыванием переменных и была широко изучена в литературе.
Примечания
- 1
Рид, С., Аката, З., Ян, Кс., Логесваран, Л., Шиле, Б., Ли, Х. (2016). «Генеративно-состязательный синтез текста в изображение(открывается в новом окне)» ICML 2016.
- 2
Рид, С., Аката, З., Мохан, С., Тенка, С., Шиле, Б., Ли, Х. (2016). «Изучение того, что и где рисовать(открывается в новом окне)» NIPS 2016.
- 3
Чжан Х., Сюй Т., Ли Х., Чжан С., Ван С., Хуан С., Метаксас Д. (2016). «StackGAN: Создание фотореалистичных изображений из текста с использованием многослойных генеративных состязательных сетей(открывается в новом окне)» ICCY 2017.
- 4
Чжан Х., Сюй Т., Ли Х., Чжан С., Ван С., Хуан С., Метаксас Д. (2017). «StackGAN++: реалистичный синтез изображений с многослойными генеративными состязательными сетями(открывается в новом окне)» IEEE TPAMI 2018.
- 5
Сюй Т., Чжан П., Хуан Ц., Чжан Х., Ган З., Хуан С., Хэ С. (2017). «AttnGAN: Генерирование изображений из текста с высокой детализацией с использованием генеративных состязательных сетей с вниманием(открывается в новом окне)».
- 6
Ли В., Чжан П., Чжан Л., Хуан Ц., Хэ С., Лю С., Гао Дж. (2019). «Синтез изображений на основе объектов с использованием состязательного обучения(открывается в новом окне)». CVPR 2019.
- 7
Кох Дж. Ю., Балдридж Дж., Ли Х., Ян Ю. (2020). «Генерирование изображений на основе детального внимания пользователя(открывается в новом окне)». WACV 2021.
- 8
Нгуен А., Клун Дж., Бенджио И., Досовицкий А., Йосински Дж. (2016). «Plug & play генеративные сети: условная итеративная генерация изображений в латентном пространстве(открывается в новом окне)».
- 9
Чо Дж., Лу Дж., Швен Д., Хаджиширзи Х., Кембхави А. (2020). «X-LXMERT: Рисование, подписи и ответы на вопросы с помощью мультимодальных трансформеров(открывается в новом окне)». EMNLP 2020.
- 10
Кингма, Дидерик П. и Макс Веллинг. «Автоэнкодирование вариационного алгоритма(открывается в новом окне)». Препринт arXiv (2013).
- 11
Резенде, Данило Хименес, Шакир Мохамед и Даан Вирстра. «Стохастическое обратное распространение и приближённый вывод в глубоких генеративных моделях(открывается в новом окне)». Препринт arXiv (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). «Категориальная репараметризация с Gumbel-softmax(открывается в новом окне)»
- 13
Мэддисон К., Мних А., Тех Ю.В. (2016). «Распределение Concrete: непрерывная релаксация дискретных случайных переменных(открывается в новом окне)»
- 14
ван ден Оорд, А., Виньялс, О., Кавукчуоглу, К. (2017). «Обучение дискретному представлению нейронных сетей(открывается в новом окне)».
- 15
Разави, А., ван дер Оорд, А., Виньяльс, О. (2019). «Генерирование разнообразных высококачественных изображений с VQ-VAE-2(открывается в новом окне)».
- 16
Андреас, Дж., Кляйн, Д., Левин, С. (2017). «Обучение с латентным языком(открывается в новом окне)».
- 17
- 18
- 19
- 20
Канерва, П. (1997). «Полностью распределённые .представления(открывается в новом окне)»


