5 января 2021 г.

DALL·E: Создание изображений из текста

Мы обучили нейронную сеть под названием DALL·E, которая создает изображения из текстовых описаний для широкого спектра концепций, выражаемых на естественном языке.

Иллюстрация: Justin Jay Wang

Загрузка…

DALL·E — это версия GPT‑3⁠(открывается в новом окне) с 12 миллиардами параметров, обученная генерировать изображения по текстовым описаниям, используя набор данных пар текст–изображение. Мы обнаружили, что он обладает разнообразными возможностями, включая создание антропоморфных версий животных и объектов, сочетание несвязанных концепции правдоподобными способами, рендер текста и применение трансформаций к существующим изображениям.

См. также: DALL·E 2⁠, который генерирует более реалистичные и точные изображения с увеличением разрешения в 4 раза.

Загрузка...

GPT‑3 продемонстрировал, что язык можно использовать для управления большой нейронной сетью, чтобы выполнять разнообразные задачи по генерированию текста. Image GPT⁠ показал, что тот же тип нейронной сети также может использоваться для генерирования изображений с высокой точностью. Мы расширяем эти выводы, чтобы показать, что манипулирование визуальными концепциями с помощью языка теперь возможно.

Обзор

Как и GPT‑3, DALL·E — это трансформерная языковая модель. Он получает как текст, так и изображение в виде единого потока данных, содержащего до 1280 токенов, и обучается с использованием метода максимального правдоподобия для генерирования всех токенов один за другим. ^A

Эта процедура обучения позволяет DALL·E не только генерировать изображения с нуля, но и восстанавливать любую прямоугольную область существующего изображения, которая простирается до нижнего правого угла, так чтобы это соответствовало текстовой подсказке.

Мы признаем, что работа с генеративными моделями может иметь значительные и широкие общественные последствия. В будущем мы планируем анализировать, как модели, такие как DALL·E, соотносятся с социальными проблемами, такими как экономическое воздействие на определенные рабочие процессы и профессии, потенциальная предвзятость в результатах работы моделей и долгосрочные этические вызовы, связанные с этой технологией.

Возможности

Мы обнаружили, что DALL·E способен создать правдоподобные изображения для множества предложений, изучающих композиционную структуру языка. Мы иллюстрируем это с помощью серии интерактивных визуализаций в разделе далее. Образцы, показанные для каждой подписи на визуализациях, получены путем выбора 32 лучших из 512 после повторной ранжировки с помощью CLIP⁠, но мы не используем ручной отбор, за исключением миниатюр и отдельных изображений, которые появляются отдельно.^B

Управление атрибутами

Мы тестируем способность DALL·E изменять несколько атрибутов объекта, а также количество раз, когда он появляется.

Загрузка...

Рисование нескольких объектов

Одновременное управление несколькими объектами, их атрибутами и их пространственными отношениями представляет новую задачу. Например, рассмотрим фразу «ёжик в красной шляпе, жёлтых перчатках, синей рубашке и зелёных штанах». Чтобы правильно интерпретировать это предложение, DALL·E должен не только правильно сопоставить каждый предмет одежды с животным, но и сформировать ассоциации (шляпа, красный), (перчатки, жёлтый), (рубашка, синий) и (штаны, зелёный), не перепутав их. ^C

Мы проверяем способность DALL·E выполнять задачи по относительному позиционированию, укладке объектов и управлению несколькими атрибутами.

Загрузка...

Хотя DALL·E действительно предлагает некоторую степень управляемости атрибутами и положениями небольшого количества объектов, уровень успеха может зависеть от того, как сформулирована подпись. По мере добавления большего количества объектов DALL·E склонен путать ассоциации между объектами и их цветами, и уровень успеха резко снижается. Мы также отмечаем, что DALL·E чувствителен к перефразированию подписей в этих сценариях: альтернативные, семантически эквивалентные подписи часто не приводят к правильным интерпретациям.

Визуализация перспективы и трёхмерности

Мы обнаружили, что DALL·E также позволяет управлять точкой зрения сцены и 3D-стилем, в котором сцена отображается.

Загрузка...

В рамках дальнейшего продвижения мы проверяем способность DALL·E многократно рисовать голову известной фигуры под каждым углом из последовательности равномерно распределённых углов и обнаруживаем, что можем восстановить плавную анимацию вращающейся головы.

Загрузка...

DALL·E, по всей видимости, способен применять некоторые виды оптических искажений к сценам, как мы видим на примерах с опциями «вид через объектив типа „рыбий глаз“» и «сферическая панорама». Это побудило нас изучить его способность генерировать отражения.

Загрузка...

Визуализация внутренней и внешней структуры

Образцы стилей «экстремальный крупный план» и «рентгеновский снимок» побудили нас глубже изучать способность DALL·E отображать внутреннюю структуру через поперечные сечения и внешнюю структуру с помощью макрофотографий.

Загрузка...

Интерпретация контекстуальных деталей

Задача по переводу текста в изображения недостаточно определена: одна подпись обычно соответствует бесконечному множеству возможных изображений, поэтому изображение не определяется однозначно. Например, рассмотрим надпись «рисунок капибары, сидящей на поле на рассвете». В зависимости от местоположения и позы капибары, возможно, потребуется нарисовать тень, хотя этот момент никогда не упоминается явно. Мы изучаем способность DALL·E разрешать неопределенность в трех случаях: изменение стиля, обстановки и времени; изображение одного и того же объекта в различных ситуациях; и генерирование изображения объекта с определенным текстом на нем.

Загрузка...

С различной степенью надежности DALL·E предоставляет доступ к части возможностей 3D-рендеринга через естественный язык. Он может самостоятельно управлять атрибутами небольшого количества объектов и в ограниченной степени тем, сколько их и как они расположены относительно друг друга. Он также может контролировать местоположение и угол, под которым рендерится сцена, и может генерировать известные объекты в соответствии с точными параметрами угла и условий освещения.

В отличие от 3D-рендеринга, где запросы должны быть заданы однозначно и в полном объеме, DALL·E часто способен «заполнить пробелы», когда в подписи подразумевается, что изображение должно содержать определенную деталь, которая не указана явно.

Применение предыдущих возможностей

Далее мы исследуем использование предыдущих возможностей для сфер моды и дизайна интерьера.

Загрузка...

Объединение несвязанных концепций

Композиционная природа языка позволяет нам объединять концепции для описания как реальных, так и воображаемых объектов. Мы обнаружили, что DALL·E также обладает способностью объединять разрозненные идеи для синтеза объектов, некоторые из которых вряд ли существуют в реальном мире. Мы изучаем эту способность в двух случаях: передача качеств от различных концепций к животным и создание продуктов с вдохновением от несвязанных концепций.

Загрузка...

Иллюстрации животных

В предыдущем разделе мы изучали способность DALL·E сочетать несвязанные концепции при генерировании изображений реальных объектов. Здесь мы изучаем эту способность в контексте искусства для трех видов иллюстраций: антропоморфные версии животных и объектов, животные-химеры и эмодзи.

Загрузка...

Визуальное рассуждение (zero-shot)

GPT‑3 можно настроить на выполнение множества задач, используя только описание и указание для формирования ответа, предоставленного в его подсказке, без дополнительного обучения. Например, когда GPT‑3 получает подсказку с фразой «вот предложение „человек, гуляющий со своей собакой в парке“, переведенное на французский:», он отвечает: «un homme qui promène son chien dans le parc». Эта возможность называется zero-shot reasoning. Мы обнаружили, что DALL·E расширяет эту возможность на сферу визуализации: он способен выполнять несколько видов задач по преобразованию изображений, если ему дать правильную подсказку.

Загрузка...

Мы не предвидели, что эта возможность возникнет, и не вносили никаких изменений в нейронную сеть или процедуру обучения, чтобы её стимулировать. Вдохновлённые этими результатами, мы оцениваем способность DALL·E к аналогическому мышлению, тестируя его на прогрессивных матрицах Равена, визуальном тесте IQ, который получил широкое распространение в XX веке.

Загрузка...

Географические знания

Мы обнаружили, что DALL·E изучил географические факты, достопримечательности и районы. Его знание этих концепций на удивление точное в одних отношениях и ошибочное в других.

Загрузка...

Знания о времени

Помимо того, что мы изучаем знания DALL·E о концепциях, которые варьируются в пространстве, мы также изучаем его знания о концепциях, которые изменяются со временем.

Загрузка...

Краткое содержание подхода и предыдущих работ

DALL·E — это простой трансформер, работающий только на декодере, который получает как текст, так и изображение в виде единого потока из 1280 токенов — 256 для текста и 1024 для изображения — и моделирует их авторегрессионно. Маска внимания на каждом из 64 слоев самовнимания позволяет каждому токену изображения учитывать все текстовые токены. DALL·E использует стандартную причинно-следственную маску для текстовых токенов и разреженное внимание для токенов изображения с использованием строкового, столбцового или сверточного паттерна внимания, в зависимости от слоя. Более подробную информацию об архитектуре и процедуре обучения см. в нашей статье⁠(открывается в новом окне).

Синтез текста в изображение является активной областью исследований с момента новаторской работы Рида и соавт., ¹ чей подход использует GAN, основанный на встраивании текста. Встраивания создаются энкодером, предварительно обученным с использованием контрастивной потери, аналогично CLIP. StackGAN³ и StackGAN++⁴ используют многомасштабные GAN для повышения разрешения изображений и улучшения визуальной достоверности. AttnGAN⁵ включает механизм внимания между элементами текста и изображения и предлагает контрастную функцию потерь для сопоставления элементов текста и изображения в качестве вспомогательной задачи. Это интересно сравнить с нашим повторным ранжированием с использованием CLIP, которое выполняется офлайн. Другая работа^{2, 6, 7} включает дополнительные источники контроля во время обучения для улучшения качества изображения. Наконец, работа Нгуена и соавт. ⁸, а также Чо и соавт. ⁹ изучает стратегии на основе выборки для генерирования изображений, использующие предварительно обученные мультимодальные дискриминативные модели.

Подобно выборочному отбору, применяемому в VQVAE-2⁠(открывается в новом окне), мы используем CLIP⁠ для повторной ранжировки 32 лучших из 512 образцов для каждой подписи во всех интерактивных визуализациях. Эту процедуру также можно рассматривать как своего рода поиск, управляемый языком¹⁶, и она может значительно повлиять на качество образца.

Загрузка...

Сноски

A
Токен — это любой символ из дискретного словаря; для людей каждая английская буква является токеном из 26-буквенного алфавита. Словарь DALL·E содержит токены как для текстовых, так и для концепций изображений. В частности, каждая подпись к изображению представлена с использованием максимум 256 токенов, закодированных методом BPE, с размером словаря 16384, а изображение представлено с использованием 1024 токенов с размером словаря 8192.

Изображения предварительно обрабатываются до разрешения 256x256 во время обучения. Подобно VQVAE, каждое изображение сжимается до сетки 32x32 дискретных латентных кодов с использованием дискретного VAE, который мы предварительно обучили с помощью непрерывной релаксации. Мы обнаружили, что обучение с использованием релаксации устраняет необходимость в явном кодовом справочнике, потере EMA или таких приемах, как восстановление «мертвого» кода, и может масштабироваться до больших размеров словаря.

B
Дополнительные сведения будут предоставлены в последующих разделах⁠.
17
Эта задача называется связыванием переменных и была широко изучена в литературе.