5 січня 2021 р.

DALL·E: створення зображень із тексту

Ми навчили нейронну мережу під назвою DALL·E створювати зображення за текстовими підписами для широкого спектра концепцій, які можна передати природною мовою.

Ілюстрація: Justin Jay Wang

Завантаження…

DALL·E — це варіант GPT‑3⁠(відкривається у новому вікні) із 12 мільярдами параметрів, навчений генерувати зображення за текстовими описами, використовуючи набір даних пар «текст–зображення». Ми виявили, що модель має широкий спектр можливостей, включно зі створенням антропоморфізованих версій тварин і предметів, поєднанням непов’язаних концепцій у правдоподібний спосіб, рендерингом тексту та застосуванням трансформацій до наявних зображень.

Див. також: DALL·E 2⁠, яка створює значно реалістичніші й точніші зображення з роздільною здатністю, збільшеною в 4 рази.

Завантаження...

GPT‑3 показала, що мову можна використовувати, щоб інструктувати велику нейронну мережу виконувати різноманітні завдання з генерування тексту.Image GPT⁠ показала, що той самий тип нейронної мережі здатен генерувати зображення з високою точністю. Ми розширюємо ці висновки, демонструючи, що маніпулювання візуальними концепціями за допомогою мови тепер є цілком досяжним.

Огляд

Як і GPT‑3, DALL·E є трансформерною мовною моделлю. Вона отримує і текст, і зображення як єдиний потік даних обсягом до 1280 токенів і навчається за принципом максимальної правдоподібності генерувати всі токени один за одним. ^A

Ця процедура навчання дає змогу DALL·E не лише генерувати зображення з нуля, а й відтворювати будь-яку прямокутну ділянку наявного зображення, що простягається до правого нижнього кута, у спосіб, узгоджений із текстовим запитом.

Ми визнаємо, що робота з генеративними моделями може мати суттєві та широкі суспільні наслідки. У майбутньому ми плануємо дослідити, як моделі на кшталт DALL·E пов’язані з такими суспільними питаннями, як економічний вплив на окремі робочі процеси й професії, потенційна упередженість у результатах моделі та довгострокові етичні виклики, що випливають із цієї технології.

Можливості

Ми виявляємо, що DALL·E здатна створювати правдоподібні зображення для широкого спектра речень, які досліджують композиційну структуру мови. Ми демонструємо це за допомогою серії інтерактивних візуалізацій у наступному розділі. Приклади, наведені для кожного підпису у візуалізаціях, отримано шляхом вибору топ-32 із 512 після повторного ранжування з CLIP⁠, але ми не застосовуємо жодного ручного добору, окрім мініатюр і окремих зображень поза ними.^B

Керування атрибутами

Ми перевіряємо здатність DALL·E змінювати кілька атрибутів об'єкта, а також кількість разів, коли він з'являється.

Завантаження...

Малювання кількох об’єктів

Одночасне керування кількома об’єктами, їхніми атрибутами та просторовими зв’язками становить новий виклик. Наприклад, у фразі «їжак у червоному капелюсі, жовтих рукавичках, синій сорочці й зелених штанах» DALL·E має не лише правильно поєднати кожен елемент одягу з твариною, а й утворити пари (капелюх — червоний), (рукавички — жовті), (сорочка — синя), (штани — зелені), не переплутавши їх ^C

Ми перевіряємо здатність DALL·E робити це під час відносного позиціонування, складання об’єктів і керування кількома атрибутами.

Завантаження...

Хоча DALL·E і пропонує певний рівень керованості атрибутами та позиціями невеликої кількості об’єктів, успішність може залежати від формулювання підпису. Коли кількість об’єктів збільшується, у DALL·E з’являється тенденція плутати відповідності між об’єктами та їхніми кольорами, і рівень успішності різко падає. Ми також зазначаємо, що DALL·E у цих сценаріях крихка щодо перефразування: альтернативні, семантично еквівалентні підписи часто не дають жодної правильної інтерпретації.

Візуалізація перспективи та тривимірності

Ми виявили, що DALL·E також дозволяє контролювати точку зору сцени та 3D-стиль, у якому сцена відтворюється.

Завантаження...

Щоб просунутися далі, ми тестуємо здатність DALL·E багаторазово малювати голову відомої особи під кожним кутом із послідовності рівновіддалених ракурсів і виявляємо, що можемо отримати плавну анімацію обертання голови.

Завантаження...

Схоже, що DALL·E здатна застосовувати певні типи оптичних викривлень до сцен, що видно у варіантах «вид через риб’яче око» та «сферична панорама». Це спонукало нас дослідити її здатність генерувати відображення.

Завантаження...

Візуалізація внутрішньої та зовнішньої структури

Приклади у стилях «екстремальний крупний план» і «рентгенівський стиль» підштовхнули нас до подальшого дослідження здатності DALL·E відтворювати внутрішню структуру за допомогою перерізів і зовнішню — за допомогою макрофотографії.

Завантаження...

Виведення контекстуальних деталей

Завдання перетворення тексту на зображення за своєю природою є неповним: один підпис зазвичай відповідає нескінченній кількості можливих зображень, тому результат не є унікальним. Наприклад, розгляньмо підпис «картина із капібара, що сидить у полі на світанку». Залежно від орієнтації капібари може знадобитися намалювати тінь, хоча цей нюанс ніколи не згадано явно. Ми досліджуємо здатність DALL·E усувати невизначеність у трьох випадках: змінюючи стиль, оточення й час; зображаючи той самий об’єкт у різних ситуаціях; і створюючи зображення об’єкта з певним текстом на ньому.

Завантаження...

З різним ступенем надійності DALL·E надає через природну мову доступ до підмножини можливостей 3D-рушія рендерингу. Вона може незалежно керувати атрибутами невеликої кількості об’єктів і частково — їхньою кількістю та способом розташування один відносно одного. Вона також може контролювати місце й кут, під яким рендериться сцена, і генерувати відомі об’єкти відповідно до точних вимог щодо кута та умов освітлення.

На відміну від 3D-рушія, у якому всі входи необхідно задавати однозначно й повністю, DALL·E часто здатна «домислити» деталі, якщо підпис натякає, що певний елемент має бути на зображенні, хоч його й не зазначено явно.

Застосування попередніх можливостей

Далі ми досліджуємо застосування попередніх можливостей у сфері моди та дизайну інтер’єрів.

Завантаження...

Поєднання непов’язаних концепцій

Композиційна природа мови дає змогу поєднувати концепції, щоб описувати як реальні, так і вигадані речі. Ми виявляємо, що DALL·E також здатна поєднувати різнорідні ідеї для синтезу об’єктів, деякі з яких навряд чи можуть існувати в реальному світі. Ми досліджуємо цю здатність у двох випадках: перенесення властивостей різних концепцій на тварин і створення продуктів, натхненних непов’язаними концепціями.

Завантаження...

Ілюстрації тварин

У попередньому розділі ми досліджували здатність DALL·E поєднувати непов’язані концепції під час створення зображень реальних об’єктів. Тут ми досліджуємо цю здатність у контексті мистецтва — у трьох видах ілюстрацій: антропоморфізовані версії тварин і предметів, химерні тварини та емодзі.

Завантаження...

Візуальне міркування без додаткового навчання

GPT‑3 можна інструктувати виконувати багато видів завдань лише на основі опису та вказівки згенерувати відповідь у запиті, без будь-якого додаткового навчання. Наприклад, на фразу «ось речення «людина, яка вигулює свого собаку в парку», перекладене французькою:» GPT‑3 відповідає: «un homme qui promène son chien dans le parc». Цю здатність називають міркування без додаткового навчання. Ми виявляємо, що DALL·E поширює цю здатність на візуальну сферу й може виконувати кілька видів завдань «зображення-у-зображення», якщо запит сформульовано належним чином.

Завантаження...

Ми не очікували, що ця можливість з'явиться, і не вносили жодних змін у нейронну мережу або процедуру навчання, щоб заохотити це. Вмотивовані цими результатами, ми оцінюємо здатність DALL·E до аналогічного міркування, тестуючи її на прогресивних матрицях Равена — візуальному IQ-тесті, активно застосовуваному у XX столітті.

Завантаження...

Географічні знання

Ми виявляємо, що DALL·E засвоїла відомості про географічні факти, пам’ятки та райони. Її знання цих концепцій у певних аспектах вражаюче точні, а в інших — помилкові.

Завантаження...

Знання про час

Окрім ознайомлення зі знаннями DALL·E про концепції, які варіюються в просторі, ми також ознайомлюємося з його знаннями про концепції, які змінюються з часом.

Завантаження...

Підсумок підходу та попередніх досліджень

DALL·E — це простий трансформер із декодуванням, який отримує і текст, і зображення як єдиний потік із 1280 токенів — 256 для тексту та 1024 для зображення — і моделює їх усі авторегресивно. Маска уваги на кожному з його 64 шарів самоуваги дає змогу кожному токену зображення звертатися до всіх текстових токенів. DALL·E використовує стандартну каузальну маску для текстових токенів і розріджену увагу для токенів зображення з рядковим, стовпчиковим або згортковим шаблоном залежно від шару. Докладніше про архітектуру та процедуру навчання ми подаємо в нашій статті⁠(відкривається у новому вікні).

Синтез «текст–зображення» є активною сферою досліджень від часу піонерської роботи Ріда та ін.¹ підхід яких використовує GAN, що працює на основі текстових вбудовувань. Вбудовування створюється енкодером, попередньо навченим із використанням контрастивної функції втрат, подібної до CLIP. StackGAN³ і StackGAN++⁴ застосовують багатомасштабні GAN, щоб збільшувати роздільну здатність зображень і підвищувати візуальну якість. AttnGAN⁵ поєднує увагу між текстовими й зображувальними ознаками та пропонує контрастивну функцію зіставлення текстових і зображувальних ознак як допоміжну мету. Це цікаво порівняти з нашим повторним ранжуванням за допомогою CLIP, яке виконується офлайн. Інші роботи^{2, 6, 7} інтегрують додаткові джерела нагляду під час навчання, щоб покращити якість зображень. Нарешті роботи Нгуєна та ін.⁸ і Чо та ін.⁹ досліджують стратегії створення зображень на основі семплювання, що використовують попередньо навчені мультимодальні дискримінативні моделі.

Подібно до відбору зразків із відхиленням, що використовується у VQVAE-2⁠(відкривається у новому вікні), ми використовуємо CLIP⁠ для повторного ранжування 32 найкращих з 512 зразків для кожного підпису у всіх інтерактивних візуалізаціях. Цю процедуру також можна розглядати як своєрідний пошук, керований мовою¹⁶, і вона може мати значний вплив на якість зразка.

Завантаження...

Виноски

A
Токен — це будь-який символ із дискретного словника; для людини кожна англійська літера є токеном із 26-літерного алфавіту. Словник DALL·E містить токени як для текстових, так і для візуальних концепцій. Зокрема, кожен текстовий підпис подано максимум 256 токенами у BPE-кодуванні зі словником розміру 16384, а саме зображення подано 1024 токенами зі словником розміру 8192.

Під час навчання зображення попередньо обробляють до роздільної здатності 256×256. Подібно до VQVAE, кожне зображення стискається до сітки 32x32 дискретних латентних кодів за допомогою дискретного VAE, який ми попередньо навчали з використанням неперервної релаксації. Ми виявили, що навчання з використанням такої релаксації усуває потребу в явному кодбуці, EMA-втраті або таких прийомах, як оживлення «мертвих» кодів, і може масштабуватися до великих розмірів словника.