DALL·E: Креирање слика из текста
Обучили смо неуронску мрежу под називом DALL·E која креира слике из текстуалних описа за широк опсег појмова који се могу изразити природним језиком.

Илустрација: Justin Jay Wang
DALL·E је верзија GPT‑3(отвара се у новом прозору)-а са 12 милијарди параметара, обучена да генерише слике из текстуалних описа, користећи скуп података парова текста и слике. Утврдили смо да има разноврстан скуп могућности, укључујући креирање антропоморфизованих верзија животиња и објеката, комбиновање неповезаних појмова на уверљиве начине, приказивање текста и примену трансформација на постојеће слике.
Погледајте и: DALL·E 2, који генерише реалистичније и прецизније слике са 4x већом резолуцијом.
GPT‑3 је показао да се језик може користити да се великој неуронској мрежи задају различити задаци генерисања текста. Image GPT је показао да се исти тип неуронске мреже такође може користити за генерисање слика високе верности. Проширујемо ове налазе како бисмо показали да је манипулисање визуелним појмовима путем језика сада надохват руке.
Као и GPT‑3, DALL·E је трансформаторски језички модел. Он прима и текст и слику као јединствени ток података који садржи до 1280 токена и обучава се употребом максималне вероватноће да генерише све токене, један за другим. A
Овај поступак обучавања омогућава DALL·E-у не само да генерише слику од нуле, већ и да поново генерише било који правоугаони део постојеће слике који се протеже до доњег десног угла, на начин који је у складу са текстуалном инструкцијом.
Препознајемо да рад који укључује генеративне моделе има потенцијал за значајне, широке друштвене утицаје. У будућности планирамо да анализирамо како су модели попут DALL·E-а повезани са друштвеним питањима као што су економски утицај на одређене радне процесе и професије, потенцијал за пристрасност у излазима модела и дугорочни етички изазови које ова технологија подразумева.
Утврдили смо да DALL·E може да креира уверљиве слике за веома велики број реченица које истражују композициону структуру језика. То илуструјемо низом интерактивних визуелних приказа у следећем одељку. Приказани примери за сваки натпис у визуелним приказима добијају се узимањем најбољих 32 од 512 након поновног рангирања помоћу CLIP-а, али не користимо никакво ручно пробирање, осим за сличице и самосталне слике које се појављују ван тога.B
Тестирамо способност DALL·E-а да измени неколико атрибута објекта, као и број пута када се појављује.
Истовремена контрола више објеката, њихових атрибута и просторних односа између њих представља нов изазов. На пример, размотрите фразу „јеж који носи црвени шешир, жуте рукавице, плаву кошуљу и зелене панталоне“. Да би исправно протумачио ову реченицу, DALL·E не сме само правилно да комбинује сваки комад одеће са животињом, већ и да формира асоцијације (шешир, црвени), (рукавице, жуте), (кошуља, плава) и (панталоне, зелене) без њиховог мешања C
Тестирамо способност DALL·E-а да то уради за релативно позиционирање, слагање објеката и контролу више атрибута.
Иако DALL·E нуди одређени ниво контроле над атрибутима и позицијама малог броја објеката, стопа успешности може зависити од тога како је натпис формулисан. Како се уводи више објеката, DALL·E је склон мешању веза између објеката и њихових боја, а стопа успешности нагло опада. Такође напомињемо да је DALL·E осетљив на преформулисање натписа у овим сценаријима: алтернативни, семантички еквивалентни натписи често не дају ниједно исправно тумачење.
Утврдили смо да DALL·E такође омогућава контролу над тачком гледишта сцене и 3D стилом у којем је сцена приказана.
Да бисмо ово додатно испитали, тестирамо способност DALL·E-а да више пута нацрта главу добро познате личности под сваким углом из низа равномерно распоређених углова и утврђујемо да можемо да добијемо глатку анимацију ротирајуће главе.
Изгледа да DALL·E може да примени неке врсте оптичких изобличења на сцене, као што видимо код опција „поглед кроз рибље око“ и „сферна панорама“. То нас је подстакло да истражимо његову способност да генерише одразе.
Примери из стила „екстремни крупни план“ и стила „рендгенски снимак“ навели су нас да даље истражимо способност DALL·E-а да приказује унутрашњу структуру кроз пресеке, а спољашњу структуру макро фотографијама.
Задатак превођења текста у слике је недовољно одређен: један натпис генерално одговара бесконачном броју уверљивих слика, па слика није јединствено одређена. На пример, размотрите натпис „слика капибаре која седи на пољу у зору“. У зависности од оријентације капибаре, можда ће бити потребно нацртати сенку, иако се овај детаљ никада изричито не помиње. Истражујемо способност DALL·E-а да разреши недовољну одређеност у три случаја: промена стила, окружења и времена; цртање истог објекта у различитим ситуацијама; и генерисање слике објекта са одређеним текстом написаним на њему.
Са различитим степенима поузданости, DALL·E омогућава приступ подскупу могућности 3D механизма за рендеровање путем природног језика. Може самостално да контролише атрибуте малог броја објеката и, у ограниченој мери, колико их има и како су распоређени један у односу на други. Такође може да контролише локацију и угао из којег се сцена приказује и може да генерише познате објекте у складу са прецизним спецификацијама угла и услова осветљења.
За разлику од 3D механизма за рендеровање, чији улази морају бити задати недвосмислено и потпуно детаљно, DALL·E је често у стању да „попуни празнине“ када натпис имплицира да слика мора да садржи одређени детаљ који није изричито наведен.
Затим истражујемо употребу претходних могућности за моду и дизајн ентеријера.
Композициона природа језика нам омогућава да спајамо појмове како бисмо описали и стварне и измишљене ствари. Утврдили смо да DALL·E такође има способност да комбинује различите идеје како би синтетисао објекте, од којих неки вероватно не постоје у стварном свету. Ову способност испитујемо у два случаја: преношењем својстава са различитих појмова на животиње и осмишљавањем производа инспирисаних неповезаним појмовима.
У претходном одељку истраживали смо способност DALL·E-а да комбинује неповезане појмове при генерисању слика објеката из стварног света. Овде истражујемо ту способност у контексту уметности, за три врсте илустрација: антропоморфизоване верзије животиња и објеката, животињске химере и емоџије.
GPT‑3 се може инструисати да обавља многе врсте задатака само на основу описа и сигнала за генерисање одговора датог у његовој инструкцији, без икаквог додатног обучавања. На пример, када добије фразу „ево реченице ‘a person walking his dog in the park’ преведене на француски:“, GPT‑3 одговара „un homme qui promène son chien dans le parc.” Ова способност се назива резоновање без покушаја. Утврдили смо да DALL·E проширује ову способност на визуелни домен и да је у стању да обавља неколико врста задатака превођења слике у слику када добије инструкцију на прави начин.
Нисмо предвидели да ће се ова способност појавити и нисмо правили никакве измене неуронске мреже нити поступка обучавања да бисмо је подстакли. Подстакнути овим резултатима, меримо склоност DALL·E-а ка проблемима аналогијског резоновања тако што га тестирамо на Равеновим прогресивним матрицама, визуелном IQ тесту који је био широко коришћен у 20. веку.
Утврдили смо да је DALL·E научио географске чињенице, знаменитости и градске четврти. Његово знање о овим појмовима је на неке начине изненађујуће прецизно, а на друге погрешно.
Поред истраживања знања DALL·E-а о појмовима који се мењају у простору, истражујемо и његово знање о појмовима који се мењају током времена.
DALL·E је једноставан трансформатор само са декодером који прима и текст и слику као јединствени ток од 1280 токена — 256 за текст и 1024 за слику — и моделује их све ауторегресивно. Маска пажње на сваком од његових 64 слоја самопажње омогућава сваком токену слике да обрати пажњу на све токене текста. DALL·E користи стандардну каузалну маску за текстуалне токене и ретку пажњу за токене слике са обрасцем пажње по реду, колони или конволуцијом, у зависности од слоја. Више детаља о архитектури и поступку обучавања дајемо у нашем раду(отвара се у новом прозору).
Синтеза слике из текста је активно подручје истраживања још од пионирског рада Reed et. al,1 чији приступ користи GAN условљен угнежђивањима текста. Угнежђивања производи енкодер претходно обучен помоћу контрастивног губитка, не за разлику од CLIP-а. StackGAN3 и StackGAN++4 користе вишеразмерне GAN-ове да повећају резолуцију слике и побољшају визуелну верност. AttnGAN5 укључује пажњу између текстуалних и сликовних обележја и предлаже контрастивни губитак упаривања обележја текста и слике као помоћни циљ. Ово је занимљиво упоредити са нашим поновним рангирањем помоћу CLIP-а, које се ради ван мреже. Други радови2, 6 и 7 укључују додатне изворе надзора током обучавања ради побољшања квалитета слике. На крају, радови Nguyen et. al8 и Cho et. al9 истражују стратегије генерисања слика засноване на узорковању које користе претходно обучене мултимодалне дискриминативне моделе.
Слично одбацивајућем узорковању коришћеном у VQVAE-2(отвара се у новом прозору), користимо CLIP да поново рангирамо најбољих 32 од 512 примера за сваки натпис у свим интерактивним визуелним приказима. Овај поступак се такође може посматрати као врста претраге вођене језиком16 и може имати драматичан утицај на квалитет примера.
Фусноте
- A
Токен је било који симбол из дискретног речника; за људе, свако слово енглеског је токен из азбуке од 26 слова. Речник DALL·E-а има токене и за текстуалне и за визуелне појмове. Конкретно, сваки натпис слике представљен је са највише 256 BPE-кодираних токена уз величину речника од 16384, а слика је представљена са 1024 токена уз величину речника од 8192.
Слике се током обучавања претходно обрађују на резолуцију 256x256. Слично као код VQVAE, свака слика се компресује у мрежу 32x32 дискретних латентних кодова помоћу дискретног VAE који смо претходно обучили користећи континуалну релаксацију. Утврдили смо да обучавање помоћу релаксације уклања потребу за експлицитним кодним књигама, EMA губитком или триковима као што је оживљавање мртвих кодова и да може да се скалира на велике величине речника.
- B
Додатни детаљи дати су у каснијем одељку.
- 17
Овај задатак се назива везивање променљивих и опсежно је проучаван у литератури.
Референце
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). „Генеративна адверзаријална синтеза слика из текста(отвара се у новом прозору)“. In ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). „Учење шта и где да се црта(отвара се у новом прозору)“. In NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). „StackGAN: синтеза фотореалистичних слика из текста помоћу наслаганих генеративних адверзаријалних мрежа(отвара се у новом прозору)“. In ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). „StackGAN++: реалистична синтеза слика са наслаганим генеративним адверзаријалним мрежама(отвара се у новом прозору)“. In IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). „AttnGAN: фино зрнасто генерисање слика из текста помоћу генеративних адверзаријалних мрежа са пажњом(отвара се у новом прозору).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). „Синтеза слике из текста вођена објектима путем адверзаријалног обучавања(отвара се у новом прозору)“. In CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). „Генерисање слике из текста засновано на фино зрнастој пажњи корисника(отвара се у новом прозору)“. In WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). „Plug & play генеративне мреже: условно итеративно генерисање слика у латентном простору(отвара се у новом прозору).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). „X-LXMERT: сликај, додај опис и одговарај на питања помоћу мултимодалних трансформатора(отвара се у новом прозору)“. EMNLP 2020.
- 10
Kingma, Diederik P., and Max Welling. „Аутоенкодирајући варијациони Bayes(отвара се у новом прозору).” arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. „Стохастичко пропагавање уназад и апроксимативно закључивање у дубоким генеративним моделима(отвара се у новом прозору).” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). „Категоријална репараметризација са Gumbel-softmax(отвара се у новом прозору)“.
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). „Concrete дистрибуција: континуална релаксација дискретних случајних променљивих(отвара се у новом прозору)“.
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). „Учење неуронских дискретних репрезентација(отвара се у новом прозору)“.
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). „Генерисање разноврсних високоверних слика помоћу VQ-VAE-2(отвара се у новом прозору)“.
- 16
Andreas, J., Klein, D., Levine, S. (2017). „Учење са латентним језиком(отвара се у новом прозору)“.
- 17
- 18
- 19
- 20
Kanerva, P. (1997). „Потпуно дистрибуиране репрезентације(отвара се у новом прозору)“.


