DALL·E: створення зображень із тексту
Ми навчили нейронну мережу під назвою DALL·E створювати зображення за текстовими підписами для широкого спектра концепцій, які можна передати природною мовою.

Ілюстрація: Justin Jay Wang
DALL·E — це варіант GPT‑3(відкривається у новому вікні) із 12 мільярдами параметрів, навчений генерувати зображення за текстовими описами, використовуючи набір даних пар «текст–зображення». Ми виявили, що модель має широкий спектр можливостей, включно зі створенням антропоморфізованих версій тварин і предметів, поєднанням непов’язаних концепцій у правдоподібний спосіб, рендерингом тексту та застосуванням трансформацій до наявних зображень.
Див. також: DALL·E 2, яка створює значно реалістичніші й точніші зображення з роздільною здатністю, збільшеною в 4 рази.
GPT‑3 показала, що мову можна використовувати, щоб інструктувати велику нейронну мережу виконувати різноманітні завдання з генерування тексту.Image GPT показала, що той самий тип нейронної мережі здатен генерувати зображення з високою точністю. Ми розширюємо ці висновки, демонструючи, що маніпулювання візуальними концепціями за допомогою мови тепер є цілком досяжним.
Як і GPT‑3, DALL·E є трансформерною мовною моделлю. Вона отримує і текст, і зображення як єдиний потік даних обсягом до 1280 токенів і навчається за принципом максимальної правдоподібності генерувати всі токени один за одним. A
Ця процедура навчання дає змогу DALL·E не лише генерувати зображення з нуля, а й відтворювати будь-яку прямокутну ділянку наявного зображення, що простягається до правого нижнього кута, у спосіб, узгоджений із текстовим запитом.
Ми визнаємо, що робота з генеративними моделями може мати суттєві та широкі суспільні наслідки. У майбутньому ми плануємо дослідити, як моделі на кшталт DALL·E пов’язані з такими суспільними питаннями, як економічний вплив на окремі робочі процеси й професії, потенційна упередженість у результатах моделі та довгострокові етичні виклики, що випливають із цієї технології.
Ми виявляємо, що DALL·E здатна створювати правдоподібні зображення для широкого спектра речень, які досліджують композиційну структуру мови. Ми демонструємо це за допомогою серії інтерактивних візуалізацій у наступному розділі. Приклади, наведені для кожного підпису у візуалізаціях, отримано шляхом вибору топ-32 із 512 після повторного ранжування з CLIP, але ми не застосовуємо жодного ручного добору, окрім мініатюр і окремих зображень поза ними.B
Ми перевіряємо здатність DALL·E змінювати кілька атрибутів об'єкта, а також кількість разів, коли він з'являється.
Одночасне керування кількома об’єктами, їхніми атрибутами та просторовими зв’язками становить новий виклик. Наприклад, у фразі «їжак у червоному капелюсі, жовтих рукавичках, синій сорочці й зелених штанах» DALL·E має не лише правильно поєднати кожен елемент одягу з твариною, а й утворити пари (капелюх — червоний), (рукавички — жовті), (сорочка — синя), (штани — зелені), не переплутавши їх C
Ми перевіряємо здатність DALL·E робити це під час відносного позиціонування, складання об’єктів і керування кількома атрибутами.
Хоча DALL·E і пропонує певний рівень керованості атрибутами та позиціями невеликої кількості об’єктів, успішність може залежати від формулювання підпису. Коли кількість об’єктів збільшується, у DALL·E з’являється тенденція плутати відповідності між об’єктами та їхніми кольорами, і рівень успішності різко падає. Ми також зазначаємо, що DALL·E у цих сценаріях крихка щодо перефразування: альтернативні, семантично еквівалентні підписи часто не дають жодної правильної інтерпретації.
Ми виявили, що DALL·E також дозволяє контролювати точку зору сцени та 3D-стиль, у якому сцена відтворюється.
Щоб просунутися далі, ми тестуємо здатність DALL·E багаторазово малювати голову відомої особи під кожним кутом із послідовності рівновіддалених ракурсів і виявляємо, що можемо отримати плавну анімацію обертання голови.
Схоже, що DALL·E здатна застосовувати певні типи оптичних викривлень до сцен, що видно у варіантах «вид через риб’яче око» та «сферична панорама». Це спонукало нас дослідити її здатність генерувати відображення.
Приклади у стилях «екстремальний крупний план» і «рентгенівський стиль» підштовхнули нас до подальшого дослідження здатності DALL·E відтворювати внутрішню структуру за допомогою перерізів і зовнішню — за допомогою макрофотографії.
Завдання перетворення тексту на зображення за своєю природою є неповним: один підпис зазвичай відповідає нескінченній кількості можливих зображень, тому результат не є унікальним. Наприклад, розгляньмо підпис «картина із капібара, що сидить у полі на світанку». Залежно від орієнтації капібари може знадобитися намалювати тінь, хоча цей нюанс ніколи не згадано явно. Ми досліджуємо здатність DALL·E усувати невизначеність у трьох випадках: змінюючи стиль, оточення й час; зображаючи той самий об’єкт у різних ситуаціях; і створюючи зображення об’єкта з певним текстом на ньому.
З різним ступенем надійності DALL·E надає через природну мову доступ до підмножини можливостей 3D-рушія рендерингу. Вона може незалежно керувати атрибутами невеликої кількості об’єктів і частково — їхньою кількістю та способом розташування один відносно одного. Вона також може контролювати місце й кут, під яким рендериться сцена, і генерувати відомі об’єкти відповідно до точних вимог щодо кута та умов освітлення.
На відміну від 3D-рушія, у якому всі входи необхідно задавати однозначно й повністю, DALL·E часто здатна «домислити» деталі, якщо підпис натякає, що певний елемент має бути на зображенні, хоч його й не зазначено явно.
Далі ми досліджуємо застосування попередніх можливостей у сфері моди та дизайну інтер’єрів.
Композиційна природа мови дає змогу поєднувати концепції, щоб описувати як реальні, так і вигадані речі. Ми виявляємо, що DALL·E також здатна поєднувати різнорідні ідеї для синтезу об’єктів, деякі з яких навряд чи можуть існувати в реальному світі. Ми досліджуємо цю здатність у двох випадках: перенесення властивостей різних концепцій на тварин і створення продуктів, натхненних непов’язаними концепціями.
У попередньому розділі ми досліджували здатність DALL·E поєднувати непов’язані концепції під час створення зображень реальних об’єктів. Тут ми досліджуємо цю здатність у контексті мистецтва — у трьох видах ілюстрацій: антропоморфізовані версії тварин і предметів, химерні тварини та емодзі.
GPT‑3 можна інструктувати виконувати багато видів завдань лише на основі опису та вказівки згенерувати відповідь у запиті, без будь-якого додаткового навчання. Наприклад, на фразу «ось речення «людина, яка вигулює свого собаку в парку», перекладене французькою:» GPT‑3 відповідає: «un homme qui promène son chien dans le parc». Цю здатність називають міркування без додаткового навчання. Ми виявляємо, що DALL·E поширює цю здатність на візуальну сферу й може виконувати кілька видів завдань «зображення-у-зображення», якщо запит сформульовано належним чином.
Ми не очікували, що ця можливість з'явиться, і не вносили жодних змін у нейронну мережу або процедуру навчання, щоб заохотити це. Вмотивовані цими результатами, ми оцінюємо здатність DALL·E до аналогічного міркування, тестуючи її на прогресивних матрицях Равена — візуальному IQ-тесті, активно застосовуваному у XX столітті.
Ми виявляємо, що DALL·E засвоїла відомості про географічні факти, пам’ятки та райони. Її знання цих концепцій у певних аспектах вражаюче точні, а в інших — помилкові.
Окрім ознайомлення зі знаннями DALL·E про концепції, які варіюються в просторі, ми також ознайомлюємося з його знаннями про концепції, які змінюються з часом.
DALL·E — це простий трансформер із декодуванням, який отримує і текст, і зображення як єдиний потік із 1280 токенів — 256 для тексту та 1024 для зображення — і моделює їх усі авторегресивно. Маска уваги на кожному з його 64 шарів самоуваги дає змогу кожному токену зображення звертатися до всіх текстових токенів. DALL·E використовує стандартну каузальну маску для текстових токенів і розріджену увагу для токенів зображення з рядковим, стовпчиковим або згортковим шаблоном залежно від шару. Докладніше про архітектуру та процедуру навчання ми подаємо в нашій статті(відкривається у новому вікні).
Синтез «текст–зображення» є активною сферою досліджень від часу піонерської роботи Ріда та ін.1 підхід яких використовує GAN, що працює на основі текстових вбудовувань. Вбудовування створюється енкодером, попередньо навченим із використанням контрастивної функції втрат, подібної до CLIP. StackGAN3 і StackGAN++4 застосовують багатомасштабні GAN, щоб збільшувати роздільну здатність зображень і підвищувати візуальну якість. AttnGAN5 поєднує увагу між текстовими й зображувальними ознаками та пропонує контрастивну функцію зіставлення текстових і зображувальних ознак як допоміжну мету. Це цікаво порівняти з нашим повторним ранжуванням за допомогою CLIP, яке виконується офлайн. Інші роботи2, 6, 7 інтегрують додаткові джерела нагляду під час навчання, щоб покращити якість зображень. Нарешті роботи Нгуєна та ін.8 і Чо та ін.9 досліджують стратегії створення зображень на основі семплювання, що використовують попередньо навчені мультимодальні дискримінативні моделі.
Подібно до відбору зразків із відхиленням, що використовується у VQVAE-2(відкривається у новому вікні), ми використовуємо CLIP для повторного ранжування 32 найкращих з 512 зразків для кожного підпису у всіх інтерактивних візуалізаціях. Цю процедуру також можна розглядати як своєрідний пошук, керований мовою16, і вона може мати значний вплив на якість зразка.
Виноски
- A
Токен — це будь-який символ із дискретного словника; для людини кожна англійська літера є токеном із 26-літерного алфавіту. Словник DALL·E містить токени як для текстових, так і для візуальних концепцій. Зокрема, кожен текстовий підпис подано максимум 256 токенами у BPE-кодуванні зі словником розміру 16384, а саме зображення подано 1024 токенами зі словником розміру 8192.
Під час навчання зображення попередньо обробляють до роздільної здатності 256×256. Подібно до VQVAE, кожне зображення стискається до сітки 32x32 дискретних латентних кодів за допомогою дискретного VAE, який ми попередньо навчали з використанням неперервної релаксації. Ми виявили, що навчання з використанням такої релаксації усуває потребу в явному кодбуці, EMA-втраті або таких прийомах, як оживлення «мертвих» кодів, і може масштабуватися до великих розмірів словника.
- B
Додаткові подробиці наведено в одному з наступних розділів.
- 17
Це завдання називається прив’язуванням змінних і широко досліджене в літературі.
Джерела
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “Generative adversarial text to image synthesis(відкривається у новому вікні)”. In ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “Learning what and where to draw(відкривається у новому вікні)”. In NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks(відкривається у новому вікні)”. In ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: realistic image synthesis with stacked generative adversarial networks(відкривається у новому вікні)”. In IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: Fine-grained text to image generation with attentional generative adversarial networks(відкривається у новому вікні).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “Object-driven text-to-image synthesis via adversarial training(відкривається у новому вікні)”. In CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “Text-to-image generation grounded by fine-grained user attention(відкривається у новому вікні)”. In WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). “Plug & play generative networks: conditional iterative generation of images in latent space(відкривається у новому вікні).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: Paint, caption, and answer questions with multi-modal transformers(відкривається у новому вікні)”. EMNLP 2020.
- 10
Kingma, Diederik P., and Max Welling. “Auto-encoding variational bayes(відкривається у новому вікні).” arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. “Stochastic backpropagation and approximate inference in deep generative models(відкривається у новому вікні).” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). “Categorical reparametrization with Gumbel-softmax(відкривається у новому вікні)”.
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “The Concrete distribution: a continuous relaxation of discrete random variables(відкривається у новому вікні)”.
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Neural discrete representation learning(відкривається у новому вікні)”.
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “Generating diverse high-fidelity images with VQ-VAE-2(відкривається у новому вікні)”.
- 16
Andreas, J., Klein, D., Levine, S. (2017). “Learning with Latent Language(відкривається у новому вікні)”.
- 17
- 18
- 19
- 20
Kanerva, P. (1997). “Fully distributed representations(відкривається у новому вікні)”.


