DALL·E: Креирање слики од текст
Обучивме невронска мрежа наречена DALL·E која креира слики од текстуални натписи за широк спектар на концепти кои можат да се изразат на природен јазик.

Илустрација: Justin Jay Wang
DALL·E е верзија со 12 милијарди параметри на GPT‑3(се отвора во нов прозорец) , обучена да генерира слики од текстуални описи, користејќи збирка на податоци со парови текст–слика. Откривме дека има разновиден збир на способности, вклучувајќи креирање антропоморфизирани верзии на животни и предмети, комбинирање неповрзани концепти на веродостоен начин, рендерирање текст и примена на трансформации на постоечки слики.
Види исто така: DALL·E 2, кој генерира пореалистични и попрецизни слики со 4 пати поголема резолуција.
GPT‑3 покажа дека јазикот може да се користи за давање инструкции на голема невронска мрежа за извршување различни задачи за генерирање текст. Image GPT покажа дека истиот тип на невронска мрежа може да се користи и за генерирање слики со висока верност. Ги прошируваме овие наоди за да покажеме дека манипулирањето со визуелни концепти преку јазик сега е возможно.
Како GPT‑3, DALL·E е трансформерски јазичен модел. Прима и текст и слика како единствен тек на податоци што содржи до 1280 token, и е обучен користејќи максимална веројатност за да ги генерира сите tokens, еден по еден. A
Оваа процедура за обука му овозможува на DALL·E не само да генерира слика од нула, туку и да регенерира било каков правоаголен регион на постоечка слика што се протега до долниот десен агол, на начин што е во согласност со текстуалниот промпт.
Свесни сме дека работата со генеративни модели има потенцијал за значајни и широки општествени влијанија. Во иднина, планираме да анализираме како модели како DALL·E се поврзуваат со општествени прашања, како што се економското влијание врз одредени работни процеси и професии, потенцијалот за пристрасност во резултатите на моделот и долгорочните етички предизвици што ги наметнува оваа технологија.
Откривме дека DALL·E може да креира уверливи слики за многу различни реченици кои ја истражуваат композиционата структура на јазикот. Ова го илустрираме користејќи серија интерактивни визуелизации во следнито дел. Примероците прикажани за секој натпис во визуелните елементи се добиени со земање на првите 32 од 512 по повторно рангирање со CLIP, но не користиме никакво рачно избирање, освен за минијатурите и самостојните слики кои се појавуваат надвор.B
Ја тестираме способноста на DALL·E да модифицира неколку атрибути на објектот, како и бројот на пати кога тој се појавува.
Истовременото контролирање повеќе објекти, нивните атрибути и нивните просторни односи претставува нов предизвик. На пример, разгледај ја фразата „еж со црвена капа, жолти ракавици, сина кошула и зелени панталони.“ За правилно да ја протолкува оваа реченица, DALL·E не само што мора правилно да го состави секое парче облека со животното, туку и да ги формира асоцијациите (шапка, црвена), (ракавици, жолти), (маица, сина) и (панталони, зелени) без да ги измеша C
Тестираме колку DALL·E може да го направи ова за релативно позиционирање, редење објекти и контрола на повеќе атрибути.
Иако DALL·E нуди одредено ниво на контрола врз атрибутите и позициите на мал број објекти, стапката на успех може да зависи од тоа како е формулиран натписот. Како што се воведуваат повеќе објекти, DALL·E е склон да ги меша асоцијациите помеѓу објектите и нивните бои, а стапката на успех нагло опаѓа. Исто така забележуваме дека DALL·E е чувствителен на преформулирање на натписот во овие сценарија: алтернативни, семантички еквивалентни натписи често не даваат точни толкувања.
Откриваме дека DALL·E исто така овозможува контрола врз гледната точка на сцената и 3D стилот во кој сцената е рендерирана.
За дополнително да го поттикнеме ова, ја тестираме способноста на DALL·E повторно да ја нацрта главата на позната личност од секвенца на еднакво одвоени агли и откриваме дека можеме да добиеме непречена анимација на ротирачката глава.
DALL·E изгледа дека може да примени некои видови оптички изобличувања на сцените, како што гледаме со опциите „поглед со рибино око“ и „сферична панорама“. Ова нè мотивираше да ја истражиме неговата способност да генерира размислувања.
Примероците од „екстремен крупен план“ и „рендгенски“ стил нè натераа да продолжиме со истражување на способноста на DALL·E да прикаже внатрешна структура со прикази на пресеци и надворешна структура со макро фотографии.
Задачата за преведување текст во слики е недоволно специфицирана: еден натпис обично одговара на бесконечен број на можни слики, така што сликата не е единствено определена. На пример, разгледај го натписот „слика на капибара што седи на поле при изгрејсонце.“ Во зависност од ориентацијата на капибарата, може да биде потребно да се нацрта сенка, иако овој детал никогаш не се споменува експлицитно. Истражи како DALL·E може да разреши недоволна спецификација во три случаи: промена на стил, поставка и време; цртање ист објект во различни ситуации; и генерирање слика на објект со специфичен текст напишан на него.
Со различни степени на доверливост, DALL·E обезбедува пристап до подмножество од способностите на 3D-рендеринг мотор преку природен јазик. Може самостојно да ги контролира атрибутите на мал број објекти, и до ограничен степен, колку ги има и како се распоредени во однос еден на друг. Исто така, може да ја контролира локацијата и аголот од кој се рендерира сцената, и може да генерира познати објекти во согласност со прецизни спецификации за агол и услови на осветлување.
За разлика од 3D-рендеринг мотор, чии внесувања мора да бидат специфицирани недвосмислено и во целосни детали, DALL·E често може да „пополнува празнини“ кога натписот имплицира дека сликата треба да содржи одреден детал кој не е експлицитно наведен.
Следно, ќе ја истражиме употребата на претходните способности за мода и внатрешен дизајн.
Композиционата природа на јазикот ни овозможува да составуваме концепти за да опишеме и реални и имагинарни нешта. Откривме дека DALL·E исто така има способност да комбинира различни идеи за да синтетизира објекти, од кои некои малку веројатно дека постојат во реалниот свет. Ја истражуваме оваа способност во два случаи: квалитети на трансфер од различни концепти на животни и дизајнирање производи инспирирани од неповрзани концепти.
Во претходниот дел, ја истраживме способноста на DALL·E да комбинира неповрзани концепти при генерирање слики од реални објекти. Тука, ја истражуваме оваа способност во контекст на уметноста, за три вида илустрации: антропоморфизирани верзии на животни и предмети, животински химери и емотикони.
GPT‑3 може да извршува многу видови задачи само од опис и сигнал за генерирање на одговорот даден во неговиот промпт, без дополнителна обука. На пример, кога ќе биде даден промпт со фразата „еве ја реченицата ‘a person walking his dog in the park’ преведена на француски:“, GPT‑3 одговара „un homme qui promène son chien dans le parc.“ Оваа способност се нарекува zero-shot расудување. Откриваме дека DALL·E ја проширува оваа способност на визуелниот домен и може да извршува неколку видови задачи за превод од слика во слика кога е даден со вистинскиот промпт.
Не очекувавме дека ќе се појави оваа способност и не направивме никакви измени на невронската мрежа или на процедурата за обука за да ја поттикнеме. Мотивирани од овие резултати, ја мериме способноста на DALL·E за аналогично размислување преку тестирање на прогресивните матрици на Равен, визуелен тест за интелигенција кој нашироко се користеше во 20-тиот век.
Откривме дека DALL·E научил за географски факти, знаменитости и населби. Неговото знаење за овие концепти е изненадувачки прецизно на некои начини и погрешно во други.
Покрај истражувањето на знаењето на DALL·E за концепти кои варираат во просторот, исто така го истражуваме неговото знаење за концепти кои варираат со текот на времето.
DALL·E е едноставен декодерски трансформер кој прима и текст и слика како единствен поток од 1280 токени—256 за текстот и 1024 за сликата—и ги моделира сите автогресивно. Маската на вниманието на секој од нејзините 64 слоеви на самовнимание му овозможува на секој token на слика да обрне внимание на сите token на текст. DALL·E користи стандардна каузална маска за текстуалните токените, и ретко внимание за токените на сликите со ред, колона или конволуциона шема на внимание, во зависност од слојот. Ние даваме повеќе детали за архитектурата и процедурата за обука во нашиот труд(се отвора во нов прозорец).
Синтеза на текст во слика е активна област на истражување уште од пионерската работа на Reed et. al, 1чиј пристап користи GAN условен на текстуални вградби. Вградувањата се произведуваат од енкодер претходно обучен со контрастна загуба, слично на CLIP. StackGAN3 и StackGAN++4 користат мулти-скала GANs за да ја зголемат резолуцијата на сликата и да ја подобрат визуелната веродостојност. AttnGAN5 вклучува внимание помеѓу текстуалните и сликовните карактеристики и предлага контрастивен губиток на совпаѓање на текстуално-сликовни карактеристики како помошна цел. Ова е интересно да се спореди со нашето повторно рангирање со CLIP, кое се извршува офлајн. Друга работа2, 6 и 7 вклучува дополнителни извори на надзор за време на обуката за подобрување на квалитетот на сликата. Конечно, работата на Nguyen et. al8 и Cho et. al9 истражува стратегии базирани на примероци за генерирање слики кои користат претходно обучени мултимодални дискриминативни модели.
Слично на одбивачкото земање примероци користено во VQVAE-2(се отвора во нов прозорец), користиме CLIP за да ги прераспоредиме најдобрите 32 од 512 примероци за секој натпис во сите интерактивни визуелизации. Оваа постапка може исто така да се гледа како вид пребарување водено од јазик16, и може да има драматично влијание врз квалитетот на примерокот.
Фусноти
- A
Token е секој симбол од дискретен вокабулар; за луѓето, секоја буква од англиската азбука е токен од азбука со 26 букви. Вокабуларот на DALL·E содржи tokens за концепти на текст и слика. Поточно, секој натпис на слика е претставен со максимум 256 BPE-кодирани tokenѕ со големина на вокабулар од 16384, а сликата е претставена со 1024 tokenс со големина на вокабулар од 8192.
Сликите се претходно обработени на резолуција од 256x256 за време на обуката. Слично на VQVAE, секоја слика е компресирана во мрежа од 32x32 дискретни латентни кодови користејќи дискретен VAE што го предобучивме користејќи континуирана релаксација. Откривме дека обуката користејќи релаксација ја елиминира потребата за експлицитен кодекс, EMA загуба или трикови како оживување на мртвиот код, и може да се скалира до големи вокабуларни големини.
- B
Понатамошни детали се дадени во подоцнежен дел.
- 17
Оваа задача се нарекува врзување на променливи и е обемно проучувана во литературата.
Референци
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). „<ahref=\" \">Генеративна адверзаријална синтеза на текст во(се отвора во нов прозорец) слика”. Во ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). „Учење што и каде да се црта(се отвора во нов прозорец)“. Во NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). „StackGAN: Текст до фотореалистична синтеза на слики со наредени генеративни адверсаријални мрежи(се отвора во нов прозорец)”. Во ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). „StackGAN++: реалистична синтеза на слики со наредени генеративни адверсаријални мрежи(се отвора во нов прозорец)” Во IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). „<ahref=\" \">AttnGAN: Генерирање слики од текст со внимателни генеративни адверсаријални(се отвора во нов прозорец) мрежи.
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). „<ahref=\" \">Синтеза на текст-во-слика водена од објекти преку адверсаријална обука”.(се отвора во нов прозорец) Во CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). „Генерирање текст-во-слика засновано на прецизно внимание на корисникот(се отвора во нов прозорец)“. На WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). „Plug & play генеративни мрежи: условно итеративно генерирање слики во латентен простор(се отвора во нов прозорец).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). „X-LXMERT: Сликај, напиши натписи и одговарај на прашања со мултимодални трансформери(се отвора во нов прозорец)” EMNLP 2020.
- 10
Kingma, Diederik P., and Max Welling. „<ahref=\" \">Авто-кодирачки варијационен(се отвора во нов прозорец) бајес.” arXiv претходно печатење (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. „<ahref=\" \">Стохастичко назадно распространување и приближно изведување во длабоки генеративни(се отвора во нов прозорец) модели.” arXiv претходно печатење (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). „Категориска репараметризација со Gumbel-softmax(се отвора во нов прозорец)“
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). „Конкретната дистрибуција: континуирана релаксација на дискретни случајни променливи(се отвора во нов прозорец)”
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). „Невронско дискретно учење на претстави(се отвора во нов прозорец)”
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). „Генерирање разновидни висококвалитетни слики со VQ-VAE-2(се отвора во нов прозорец)”
- 16
Andreas, J., Klein, D., Levine, S. (2017). „Учење со латентен јазик(се отвора во нов прозорец)”.
- 17
- 18
- 19
- 20
Kanerva, P. (1997). „<ahref=\" \">Целосно дистрибуирани претстави”.(се отвора во нов прозорец)


