5. јануар 2021.

DALL·E: Креирање слика из текста

Обучили смо неуронску мрежу под називом DALL·E која креира слике из текстуалних описа за широк опсег појмова који се могу изразити природним језиком.

Илустрација: Justin Jay Wang

Учитавање…

DALL·E је верзија GPT‑3⁠(отвара се у новом прозору)-а са 12 милијарди параметара, обучена да генерише слике из текстуалних описа, користећи скуп података парова текста и слике. Утврдили смо да има разноврстан скуп могућности, укључујући креирање антропоморфизованих верзија животиња и објеката, комбиновање неповезаних појмова на уверљиве начине, приказивање текста и примену трансформација на постојеће слике.

Погледајте и: DALL·E 2⁠, који генерише реалистичније и прецизније слике са 4x већом резолуцијом.

Учитавање...

GPT‑3 је показао да се језик може користити да се великој неуронској мрежи задају различити задаци генерисања текста. Image GPT⁠ је показао да се исти тип неуронске мреже такође може користити за генерисање слика високе верности. Проширујемо ове налазе како бисмо показали да је манипулисање визуелним појмовима путем језика сада надохват руке.

Преглед

Као и GPT‑3, DALL·E је трансформаторски језички модел. Он прима и текст и слику као јединствени ток података који садржи до 1280 токена и обучава се употребом максималне вероватноће да генерише све токене, један за другим. ^A

Овај поступак обучавања омогућава DALL·E-у не само да генерише слику од нуле, већ и да поново генерише било који правоугаони део постојеће слике који се протеже до доњег десног угла, на начин који је у складу са текстуалном инструкцијом.

Препознајемо да рад који укључује генеративне моделе има потенцијал за значајне, широке друштвене утицаје. У будућности планирамо да анализирамо како су модели попут DALL·E-а повезани са друштвеним питањима као што су економски утицај на одређене радне процесе и професије, потенцијал за пристрасност у излазима модела и дугорочни етички изазови које ова технологија подразумева.

Могућности

Утврдили смо да DALL·E може да креира уверљиве слике за веома велики број реченица које истражују композициону структуру језика. То илуструјемо низом интерактивних визуелних приказа у следећем одељку. Приказани примери за сваки натпис у визуелним приказима добијају се узимањем најбољих 32 од 512 након поновног рангирања помоћу CLIP⁠-а, али не користимо никакво ручно пробирање, осим за сличице и самосталне слике које се појављују ван тога.^B

Контрола атрибута

Тестирамо способност DALL·E-а да измени неколико атрибута објекта, као и број пута када се појављује.

Учитавање...

Цртање више објеката

Истовремена контрола више објеката, њихових атрибута и просторних односа између њих представља нов изазов. На пример, размотрите фразу „јеж који носи црвени шешир, жуте рукавице, плаву кошуљу и зелене панталоне“. Да би исправно протумачио ову реченицу, DALL·E не сме само правилно да комбинује сваки комад одеће са животињом, већ и да формира асоцијације (шешир, црвени), (рукавице, жуте), (кошуља, плава) и (панталоне, зелене) без њиховог мешања ^C

Тестирамо способност DALL·E-а да то уради за релативно позиционирање, слагање објеката и контролу више атрибута.

Учитавање...

Иако DALL·E нуди одређени ниво контроле над атрибутима и позицијама малог броја објеката, стопа успешности може зависити од тога како је натпис формулисан. Како се уводи више објеката, DALL·E је склон мешању веза између објеката и њихових боја, а стопа успешности нагло опада. Такође напомињемо да је DALL·E осетљив на преформулисање натписа у овим сценаријима: алтернативни, семантички еквивалентни натписи често не дају ниједно исправно тумачење.

Приказ перспективе и тродимензионалности

Утврдили смо да DALL·E такође омогућава контролу над тачком гледишта сцене и 3D стилом у којем је сцена приказана.

Учитавање...

Да бисмо ово додатно испитали, тестирамо способност DALL·E-а да више пута нацрта главу добро познате личности под сваким углом из низа равномерно распоређених углова и утврђујемо да можемо да добијемо глатку анимацију ротирајуће главе.

Учитавање...

Изгледа да DALL·E може да примени неке врсте оптичких изобличења на сцене, као што видимо код опција „поглед кроз рибље око“ и „сферна панорама“. То нас је подстакло да истражимо његову способност да генерише одразе.

Учитавање...

Приказ унутрашње и спољашње структуре

Примери из стила „екстремни крупни план“ и стила „рендгенски снимак“ навели су нас да даље истражимо способност DALL·E-а да приказује унутрашњу структуру кроз пресеке, а спољашњу структуру макро фотографијама.

Учитавање...

Извођење контекстуалних детаља

Задатак превођења текста у слике је недовољно одређен: један натпис генерално одговара бесконачном броју уверљивих слика, па слика није јединствено одређена. На пример, размотрите натпис „слика капибаре која седи на пољу у зору“. У зависности од оријентације капибаре, можда ће бити потребно нацртати сенку, иако се овај детаљ никада изричито не помиње. Истражујемо способност DALL·E-а да разреши недовољну одређеност у три случаја: промена стила, окружења и времена; цртање истог објекта у различитим ситуацијама; и генерисање слике објекта са одређеним текстом написаним на њему.

Учитавање...

Са различитим степенима поузданости, DALL·E омогућава приступ подскупу могућности 3D механизма за рендеровање путем природног језика. Може самостално да контролише атрибуте малог броја објеката и, у ограниченој мери, колико их има и како су распоређени један у односу на други. Такође може да контролише локацију и угао из којег се сцена приказује и може да генерише познате објекте у складу са прецизним спецификацијама угла и услова осветљења.

За разлику од 3D механизма за рендеровање, чији улази морају бити задати недвосмислено и потпуно детаљно, DALL·E је често у стању да „попуни празнине“ када натпис имплицира да слика мора да садржи одређени детаљ који није изричито наведен.

Примене претходних могућности

Затим истражујемо употребу претходних могућности за моду и дизајн ентеријера.

Учитавање...

Комбиновање неповезаних појмова

Композициона природа језика нам омогућава да спајамо појмове како бисмо описали и стварне и измишљене ствари. Утврдили смо да DALL·E такође има способност да комбинује различите идеје како би синтетисао објекте, од којих неки вероватно не постоје у стварном свету. Ову способност испитујемо у два случаја: преношењем својстава са различитих појмова на животиње и осмишљавањем производа инспирисаних неповезаним појмовима.

Учитавање...

Илустрације животиња

У претходном одељку истраживали смо способност DALL·E-а да комбинује неповезане појмове при генерисању слика објеката из стварног света. Овде истражујемо ту способност у контексту уметности, за три врсте илустрација: антропоморфизоване верзије животиња и објеката, животињске химере и емоџије.

Учитавање...

Визуелно резоновање без покушаја

GPT‑3 се може инструисати да обавља многе врсте задатака само на основу описа и сигнала за генерисање одговора датог у његовој инструкцији, без икаквог додатног обучавања. На пример, када добије фразу „ево реченице ‘a person walking his dog in the park’ преведене на француски:“, GPT‑3 одговара „un homme qui promène son chien dans le parc.” Ова способност се назива резоновање без покушаја. Утврдили смо да DALL·E проширује ову способност на визуелни домен и да је у стању да обавља неколико врста задатака превођења слике у слику када добије инструкцију на прави начин.

Учитавање...

Нисмо предвидели да ће се ова способност појавити и нисмо правили никакве измене неуронске мреже нити поступка обучавања да бисмо је подстакли. Подстакнути овим резултатима, меримо склоност DALL·E-а ка проблемима аналогијског резоновања тако што га тестирамо на Равеновим прогресивним матрицама, визуелном IQ тесту који је био широко коришћен у 20. веку.

Учитавање...

Географско знање

Утврдили смо да је DALL·E научио географске чињенице, знаменитости и градске четврти. Његово знање о овим појмовима је на неке начине изненађујуће прецизно, а на друге погрешно.

Учитавање...

Временско знање

Поред истраживања знања DALL·E-а о појмовима који се мењају у простору, истражујемо и његово знање о појмовима који се мењају током времена.

Учитавање...

Сажетак приступа и претходног рада

DALL·E је једноставан трансформатор само са декодером који прима и текст и слику као јединствени ток од 1280 токена — 256 за текст и 1024 за слику — и моделује их све ауторегресивно. Маска пажње на сваком од његових 64 слоја самопажње омогућава сваком токену слике да обрати пажњу на све токене текста. DALL·E користи стандардну каузалну маску за текстуалне токене и ретку пажњу за токене слике са обрасцем пажње по реду, колони или конволуцијом, у зависности од слоја. Више детаља о архитектури и поступку обучавања дајемо у нашем раду⁠(отвара се у новом прозору).

Синтеза слике из текста је активно подручје истраживања још од пионирског рада Reed et. al,¹ чији приступ користи GAN условљен угнежђивањима текста. Угнежђивања производи енкодер претходно обучен помоћу контрастивног губитка, не за разлику од CLIP-а. StackGAN³ и StackGAN++⁴ користе вишеразмерне GAN-ове да повећају резолуцију слике и побољшају визуелну верност. AttnGAN⁵ укључује пажњу између текстуалних и сликовних обележја и предлаже контрастивни губитак упаривања обележја текста и слике као помоћни циљ. Ово је занимљиво упоредити са нашим поновним рангирањем помоћу CLIP-а, које се ради ван мреже. Други радови^{2, 6 и 7} укључују додатне изворе надзора током обучавања ради побољшања квалитета слике. На крају, радови Nguyen et. al⁸ и Cho et. al⁹ истражују стратегије генерисања слика засноване на узорковању које користе претходно обучене мултимодалне дискриминативне моделе.

Слично одбацивајућем узорковању коришћеном у VQVAE-2⁠(отвара се у новом прозору), користимо CLIP⁠ да поново рангирамо најбољих 32 од 512 примера за сваки натпис у свим интерактивним визуелним приказима. Овај поступак се такође може посматрати као врста претраге вођене језиком¹⁶ и може имати драматичан утицај на квалитет примера.

Учитавање...

Фусноте

A
Токен је било који симбол из дискретног речника; за људе, свако слово енглеског је токен из азбуке од 26 слова. Речник DALL·E-а има токене и за текстуалне и за визуелне појмове. Конкретно, сваки натпис слике представљен је са највише 256 BPE-кодираних токена уз величину речника од 16384, а слика је представљена са 1024 токена уз величину речника од 8192.

Слике се током обучавања претходно обрађују на резолуцију 256x256. Слично као код VQVAE, свака слика се компресује у мрежу 32x32 дискретних латентних кодова помоћу дискретног VAE који смо претходно обучили користећи континуалну релаксацију. Утврдили смо да обучавање помоћу релаксације уклања потребу за експлицитним кодним књигама, EMA губитком или триковима као што је оживљавање мртвих кодова и да може да се скалира на велике величине речника.