Переход к основному контенту
OpenAI

5 января 2021 г.

Веха

DALL·E: Создание изображений из текста

Мы обучили нейронную сеть под названием DALL·E, которая создает изображения из текстовых описаний для широкого спектра концепций, выражаемых на естественном языке.

DALL·E

Иллюстрация: Justin Jay Wang

Загрузка…

DALL·E — это версия GPT‑3(открывается в новом окне) с 12 миллиардами параметров, обученная генерировать изображения по текстовым описаниям, используя набор данных пар текст–изображение. Мы обнаружили, что он обладает разнообразными возможностями, включая создание антропоморфных версий животных и объектов, сочетание несвязанных концепции правдоподобными способами, рендер текста и применение трансформаций к существующим изображениям.

См. также: DALL·E 2, который генерирует более реалистичные и точные изображения с увеличением разрешения в 4 раза.

Загрузка...

GPT‑3 продемонстрировал, что язык можно использовать для управления большой нейронной сетью, чтобы выполнять разнообразные задачи по генерированию текста. Image GPT показал, что тот же тип нейронной сети также может использоваться для генерирования изображений с высокой точностью. Мы расширяем эти выводы, чтобы показать, что манипулирование визуальными концепциями с помощью языка теперь возможно.

Обзор

Как и GPT‑3, DALL·E — это трансформерная языковая модель. Он получает как текст, так и изображение в виде единого потока данных, содержащего до 1280 токенов, и обучается с использованием метода максимального правдоподобия для генерирования всех токенов один за другим. A

Эта процедура обучения позволяет DALL·E не только генерировать изображения с нуля, но и восстанавливать любую прямоугольную область существующего изображения, которая простирается до нижнего правого угла, так чтобы это соответствовало текстовой подсказке.

Мы признаем, что работа с генеративными моделями может иметь значительные и широкие общественные последствия. В будущем мы планируем анализировать, как модели, такие как DALL·E, соотносятся с социальными проблемами, такими как экономическое воздействие на определенные рабочие процессы и профессии, потенциальная предвзятость в результатах работы моделей и долгосрочные этические вызовы, связанные с этой технологией.

Возможности

Мы обнаружили, что DALL·E способен создать правдоподобные изображения для множества предложений, изучающих композиционную структуру языка. Мы иллюстрируем это с помощью серии интерактивных визуализаций в разделе далее. Образцы, показанные для каждой подписи на визуализациях, получены путем выбора 32 лучших из 512 после повторной ранжировки с помощью CLIP, но мы не используем ручной отбор, за исключением миниатюр и отдельных изображений, которые появляются отдельно.B

Управление атрибутами

Мы тестируем способность DALL·E изменять несколько атрибутов объекта, а также количество раз, когда он появляется.

Загрузка...

Рисование нескольких объектов

Одновременное управление несколькими объектами, их атрибутами и их пространственными отношениями представляет новую задачу. Например, рассмотрим фразу «ёжик в красной шляпе, жёлтых перчатках, синей рубашке и зелёных штанах». Чтобы правильно интерпретировать это предложение, DALL·E должен не только правильно сопоставить каждый предмет одежды с животным, но и сформировать ассоциации (шляпа, красный), (перчатки, жёлтый), (рубашка, синий) и (штаны, зелёный), не перепутав их. C

 Мы проверяем способность DALL·E выполнять задачи по относительному позиционированию, укладке объектов и управлению несколькими атрибутами.

Загрузка...

Хотя DALL·E действительно предлагает некоторую степень управляемости атрибутами и положениями небольшого количества объектов, уровень успеха может зависеть от того, как сформулирована подпись. По мере добавления большего количества объектов DALL·E склонен путать ассоциации между объектами и их цветами, и уровень успеха резко снижается. Мы также отмечаем, что DALL·E чувствителен к перефразированию подписей в этих сценариях: альтернативные, семантически эквивалентные подписи часто не приводят к правильным интерпретациям.

Визуализация перспективы и трёхмерности

Мы обнаружили, что DALL·E также позволяет управлять точкой зрения сцены и 3D-стилем, в котором сцена отображается.

Загрузка...

В рамках дальнейшего продвижения мы проверяем способность DALL·E многократно рисовать голову известной фигуры под каждым углом из последовательности равномерно распределённых углов и обнаруживаем, что можем восстановить плавную анимацию вращающейся головы.

Загрузка...

DALL·E, по всей видимости, способен применять некоторые виды оптических искажений к сценам, как мы видим на примерах с опциями «вид через объектив типа „рыбий глаз“» и «сферическая панорама». Это побудило нас изучить его способность генерировать отражения.

Загрузка...

Визуализация внутренней и внешней структуры

Образцы стилей «экстремальный крупный план» и «рентгеновский снимок» побудили нас глубже изучать способность DALL·E отображать внутреннюю структуру через поперечные сечения и внешнюю структуру с помощью макрофотографий.

Загрузка...

Интерпретация контекстуальных деталей

Задача по переводу текста в изображения недостаточно определена: одна подпись обычно соответствует бесконечному множеству возможных изображений, поэтому изображение не определяется однозначно. Например, рассмотрим надпись «рисунок капибары, сидящей на поле на рассвете». В зависимости от местоположения и позы капибары, возможно, потребуется нарисовать тень, хотя этот момент никогда не упоминается явно. Мы изучаем способность DALL·E разрешать неопределенность в трех случаях: изменение стиля, обстановки и времени; изображение одного и того же объекта в различных ситуациях; и генерирование изображения объекта с определенным текстом на нем.

Загрузка...

С различной степенью надежности DALL·E предоставляет доступ к части возможностей 3D-рендеринга через естественный язык. Он может самостоятельно управлять атрибутами небольшого количества объектов и в ограниченной степени тем, сколько их и как они расположены относительно друг друга. Он также может контролировать местоположение и угол, под которым рендерится сцена, и может генерировать известные объекты в соответствии с точными параметрами угла и условий освещения.

В отличие от 3D-рендеринга, где запросы должны быть заданы однозначно и в полном объеме, DALL·E часто способен «заполнить пробелы», когда в подписи подразумевается, что изображение должно содержать определенную деталь, которая не указана явно.

Применение предыдущих возможностей

Далее мы исследуем использование предыдущих возможностей для сфер моды и дизайна интерьера.

Загрузка...

Объединение несвязанных концепций

Композиционная природа языка позволяет нам объединять концепции для описания как реальных, так и воображаемых объектов. Мы обнаружили, что DALL·E также обладает способностью объединять разрозненные идеи для синтеза объектов, некоторые из которых вряд ли существуют в реальном мире. Мы изучаем эту способность в двух случаях: передача качеств от различных концепций к животным и создание продуктов с вдохновением от несвязанных концепций.

Загрузка...

Иллюстрации животных

В предыдущем разделе мы изучали способность DALL·E сочетать несвязанные концепции при генерировании изображений реальных объектов. Здесь мы изучаем эту способность в контексте искусства для трех видов иллюстраций: антропоморфные версии животных и объектов, животные-химеры и эмодзи.

Загрузка...

Визуальное рассуждение (zero-shot)

GPT‑3 можно настроить на выполнение множества задач, используя только описание и указание для формирования ответа, предоставленного в его подсказке, без дополнительного обучения. Например, когда GPT‑3 получает подсказку с фразой «вот предложение „человек, гуляющий со своей собакой в парке“, переведенное на французский:», он отвечает: «un homme qui promène son chien dans le parc». Эта возможность называется zero-shot reasoning. Мы обнаружили, что DALL·E расширяет эту возможность на сферу визуализации: он способен выполнять несколько видов задач по преобразованию изображений, если ему дать правильную подсказку.

Загрузка...

Мы не предвидели, что эта возможность возникнет, и не вносили никаких изменений в нейронную сеть или процедуру обучения, чтобы её стимулировать. Вдохновлённые этими результатами, мы оцениваем способность DALL·E к аналогическому мышлению, тестируя его на прогрессивных матрицах Равена, визуальном тесте IQ, который получил широкое распространение в XX веке.

Загрузка...

Географические знания

Мы обнаружили, что DALL·E изучил географические факты, достопримечательности и районы. Его знание этих концепций на удивление точное в одних отношениях и ошибочное в других.

Загрузка...

Знания о времени

Помимо того, что мы изучаем знания DALL·E о концепциях, которые варьируются в пространстве, мы также изучаем его знания о концепциях, которые изменяются со временем.

Загрузка...

Краткое содержание подхода и предыдущих работ

DALL·E — это простой трансформер, работающий только на декодере, который получает как текст, так и изображение в виде единого потока из 1280 токенов — 256 для текста и 1024 для изображения — и моделирует их авторегрессионно. Маска внимания на каждом из 64 слоев самовнимания позволяет каждому токену изображения учитывать все текстовые токены. DALL·E использует стандартную причинно-следственную маску для текстовых токенов и разреженное внимание для токенов изображения с использованием строкового, столбцового или сверточного паттерна внимания, в зависимости от слоя. Более подробную информацию об архитектуре и процедуре обучения см. в нашей статье(открывается в новом окне).

Синтез текста в изображение является активной областью исследований с момента новаторской работы Рида и соавт., 1 чей подход использует GAN, основанный на встраивании текста. Встраивания создаются энкодером, предварительно обученным с использованием контрастивной потери, аналогично CLIP. StackGAN3 и StackGAN++4 используют многомасштабные GAN для повышения разрешения изображений и улучшения визуальной достоверности. AttnGAN5 включает механизм внимания между элементами текста и изображения и предлагает контрастную функцию потерь для сопоставления элементов текста и изображения в качестве вспомогательной задачи. Это интересно сравнить с нашим повторным ранжированием с использованием CLIP, которое выполняется офлайн. Другая работа2, 6, 7 включает дополнительные источники контроля во время обучения для улучшения качества изображения. Наконец, работа Нгуена и соавт. 8, а также Чо и соавт. 9 изучает стратегии на основе выборки для генерирования изображений, использующие предварительно обученные мультимодальные дискриминативные модели.

Подобно выборочному отбору, применяемому в VQVAE-2(открывается в новом окне), мы используем CLIP для повторной ранжировки 32 лучших из 512 образцов для каждой подписи во всех интерактивных визуализациях. Эту процедуру также можно рассматривать как своего рода поиск, управляемый языком16, и она может значительно повлиять на качество образца.

Загрузка...

Сноски

  1. A

    Токен — это любой символ из дискретного словаря; для людей каждая английская буква является токеном из 26-буквенного алфавита. Словарь DALL·E содержит токены как для текстовых, так и для концепций изображений. В частности, каждая подпись к изображению представлена с использованием максимум 256 токенов, закодированных методом BPE, с размером словаря 16384, а изображение представлено с использованием 1024 токенов с размером словаря 8192.

Изображения предварительно обрабатываются до разрешения 256x256 во время обучения. Подобно VQVAE, каждое изображение сжимается до сетки 32x32 дискретных латентных кодов с использованием дискретного VAE, который мы предварительно обучили с помощью непрерывной релаксации. Мы обнаружили, что обучение с использованием релаксации устраняет необходимость в явном кодовом справочнике, потере EMA или таких приемах, как восстановление «мертвого» кода, и может масштабироваться до больших размеров словаря.

  1. B

    Дополнительные сведения будут предоставлены в последующих разделах.

  2. 17

    Эта задача называется связыванием переменных и была широко изучена в литературе.

Примечания

  1. 1

    Рид, С., Аката, З., Ян, Кс., Логесваран, Л., Шиле, Б., Ли, Х. (2016). «Генеративно-состязательный синтез текста в изображение(открывается в новом окне)» ICML 2016.

  2. 2

    Рид, С., Аката, З., Мохан, С., Тенка, С., Шиле, Б., Ли, Х. (2016). «Изучение того, что и где рисовать(открывается в новом окне)» NIPS 2016.

  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10

    Кингма, Дидерик П. и Макс Веллинг. «Автоэнкодирование вариационного алгоритма(открывается в новом окне)». Препринт arXiv (2013).

  11. 11
  12. 12
  13. 13
  14. 14
  15. 15
  16. 16

    Андреас, Дж., Кляйн, Д., Левин, С. (2017). «Обучение с латентным языком(открывается в новом окне)».

  17. 17
  18. 18
  19. 19
  20. 20

Главные авторы

Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray

Соавторы

Mark Chen, Rewon Child, Vedant Misra, Pamela Mishkin, Gretchen Krueger, Sandhini Agarwal, Ilya Sutskever