5 јануари 2021 г.

DALL·E: Креирање слики од текст

Обучивме невронска мрежа наречена DALL·E која креира слики од текстуални натписи за широк спектар на концепти кои можат да се изразат на природен јазик.

Илустрација: Justin Jay Wang

Се вчитува...

DALL·E е верзија со 12 милијарди параметри на GPT‑3⁠(се отвора во нов прозорец) , обучена да генерира слики од текстуални описи, користејќи збирка на податоци со парови текст–слика. Откривме дека има разновиден збир на способности, вклучувајќи креирање антропоморфизирани верзии на животни и предмети, комбинирање неповрзани концепти на веродостоен начин, рендерирање текст и примена на трансформации на постоечки слики.

Види исто така: DALL·E 2⁠, кој генерира пореалистични и попрецизни слики со 4 пати поголема резолуција.

Се вчитува...

GPT‑3 покажа дека јазикот може да се користи за давање инструкции на голема невронска мрежа за извршување различни задачи за генерирање текст. Image GPT⁠ покажа дека истиот тип на невронска мрежа може да се користи и за генерирање слики со висока верност. Ги прошируваме овие наоди за да покажеме дека манипулирањето со визуелни концепти преку јазик сега е возможно.

Преглед

Како GPT‑3, DALL·E е трансформерски јазичен модел. Прима и текст и слика како единствен тек на податоци што содржи до 1280 token, и е обучен користејќи максимална веројатност за да ги генерира сите tokens, еден по еден. ^A

Оваа процедура за обука му овозможува на DALL·E не само да генерира слика од нула, туку и да регенерира било каков правоаголен регион на постоечка слика што се протега до долниот десен агол, на начин што е во согласност со текстуалниот промпт.

Свесни сме дека работата со генеративни модели има потенцијал за значајни и широки општествени влијанија. Во иднина, планираме да анализираме како модели како DALL·E се поврзуваат со општествени прашања, како што се економското влијание врз одредени работни процеси и професии, потенцијалот за пристрасност во резултатите на моделот и долгорочните етички предизвици што ги наметнува оваа технологија.

Способности

Откривме дека DALL·E може да креира уверливи слики за многу различни реченици кои ја истражуваат композиционата структура на јазикот. Ова го илустрираме користејќи серија интерактивни визуелизации во следнито дел. Примероците прикажани за секој натпис во визуелните елементи се добиени со земање на првите 32 од 512 по повторно рангирање со CLIP⁠, но не користиме никакво рачно избирање, освен за минијатурите и самостојните слики кои се појавуваат надвор.^B

Контролирање атрибути

Ја тестираме способноста на DALL·E да модифицира неколку атрибути на објектот, како и бројот на пати кога тој се појавува.

Се вчитува...

Цртање повеќе објекти

Истовременото контролирање повеќе објекти, нивните атрибути и нивните просторни односи претставува нов предизвик. На пример, разгледај ја фразата „еж со црвена капа, жолти ракавици, сина кошула и зелени панталони.“ За правилно да ја протолкува оваа реченица, DALL·E не само што мора правилно да го состави секое парче облека со животното, туку и да ги формира асоцијациите (шапка, црвена), (ракавици, жолти), (маица, сина) и (панталони, зелени) без да ги измеша ^C

Тестираме колку DALL·E може да го направи ова за релативно позиционирање, редење објекти и контрола на повеќе атрибути.

Се вчитува...

Иако DALL·E нуди одредено ниво на контрола врз атрибутите и позициите на мал број објекти, стапката на успех може да зависи од тоа како е формулиран натписот. Како што се воведуваат повеќе објекти, DALL·E е склон да ги меша асоцијациите помеѓу објектите и нивните бои, а стапката на успех нагло опаѓа. Исто така забележуваме дека DALL·E е чувствителен на преформулирање на натписот во овие сценарија: алтернативни, семантички еквивалентни натписи често не даваат точни толкувања.

Визуелизирање на перспектива и тридимензионалност

Откриваме дека DALL·E исто така овозможува контрола врз гледната точка на сцената и 3D стилот во кој сцената е рендерирана.

Се вчитува...

За дополнително да го поттикнеме ова, ја тестираме способноста на DALL·E повторно да ја нацрта главата на позната личност од секвенца на еднакво одвоени агли и откриваме дека можеме да добиеме непречена анимација на ротирачката глава.

Се вчитува...

DALL·E изгледа дека може да примени некои видови оптички изобличувања на сцените, како што гледаме со опциите „поглед со рибино око“ и „сферична панорама“. Ова нè мотивираше да ја истражиме неговата способност да генерира размислувања.

Се вчитува...

Визуелизација на внатрешната и надворешната структура

Примероците од „екстремен крупен план“ и „рендгенски“ стил нè натераа да продолжиме со истражување на способноста на DALL·E да прикаже внатрешна структура со прикази на пресеци и надворешна структура со макро фотографии.

Се вчитува...

Инферирање контекстуални детали

Задачата за преведување текст во слики е недоволно специфицирана: еден натпис обично одговара на бесконечен број на можни слики, така што сликата не е единствено определена. На пример, разгледај го натписот „слика на капибара што седи на поле при изгрејсонце.“ Во зависност од ориентацијата на капибарата, може да биде потребно да се нацрта сенка, иако овој детал никогаш не се споменува експлицитно. Истражи како DALL·E може да разреши недоволна спецификација во три случаи: промена на стил, поставка и време; цртање ист објект во различни ситуации; и генерирање слика на објект со специфичен текст напишан на него.

Се вчитува...

Со различни степени на доверливост, DALL·E обезбедува пристап до подмножество од способностите на 3D-рендеринг мотор преку природен јазик. Може самостојно да ги контролира атрибутите на мал број објекти, и до ограничен степен, колку ги има и како се распоредени во однос еден на друг. Исто така, може да ја контролира локацијата и аголот од кој се рендерира сцената, и може да генерира познати објекти во согласност со прецизни спецификации за агол и услови на осветлување.

За разлика од 3D-рендеринг мотор, чии внесувања мора да бидат специфицирани недвосмислено и во целосни детали, DALL·E често може да „пополнува празнини“ кога натписот имплицира дека сликата треба да содржи одреден детал кој не е експлицитно наведен.

Апликации на претходните способности

Следно, ќе ја истражиме употребата на претходните способности за мода и внатрешен дизајн.

Се вчитува...

Комбинирање неповрзани концепти

Композиционата природа на јазикот ни овозможува да составуваме концепти за да опишеме и реални и имагинарни нешта. Откривме дека DALL·E исто така има способност да комбинира различни идеи за да синтетизира објекти, од кои некои малку веројатно дека постојат во реалниот свет. Ја истражуваме оваа способност во два случаи: квалитети на трансфер од различни концепти на животни и дизајнирање производи инспирирани од неповрзани концепти.

Се вчитува...

Илустрации на животни

Во претходниот дел, ја истраживме способноста на DALL·E да комбинира неповрзани концепти при генерирање слики од реални објекти. Тука, ја истражуваме оваа способност во контекст на уметноста, за три вида илустрации: антропоморфизирани верзии на животни и предмети, животински химери и емотикони.

Се вчитува...

Zero-shot визуелно резонирање

GPT‑3 може да извршува многу видови задачи само од опис и сигнал за генерирање на одговорот даден во неговиот промпт, без дополнителна обука. На пример, кога ќе биде даден промпт со фразата „еве ја реченицата ‘a person walking his dog in the park’ преведена на француски:“, GPT‑3 одговара „un homme qui promène son chien dans le parc.“ Оваа способност се нарекува zero-shot расудување. Откриваме дека DALL·E ја проширува оваа способност на визуелниот домен и може да извршува неколку видови задачи за превод од слика во слика кога е даден со вистинскиот промпт.

Се вчитува...

Не очекувавме дека ќе се појави оваа способност и не направивме никакви измени на невронската мрежа или на процедурата за обука за да ја поттикнеме. Мотивирани од овие резултати, ја мериме способноста на DALL·E за аналогично размислување преку тестирање на прогресивните матрици на Равен, визуелен тест за интелигенција кој нашироко се користеше во 20-тиот век.

Се вчитува...

Географско знаење

Откривме дека DALL·E научил за географски факти, знаменитости и населби. Неговото знаење за овие концепти е изненадувачки прецизно на некои начини и погрешно во други.

Се вчитува...

Знаење за времето

Покрај истражувањето на знаењето на DALL·E за концепти кои варираат во просторот, исто така го истражуваме неговото знаење за концепти кои варираат со текот на времето.

Се вчитува...

Резиме на пристапот и претходната работа

DALL·E е едноставен декодерски трансформер кој прима и текст и слика како единствен поток од 1280 токени—256 за текстот и 1024 за сликата—и ги моделира сите автогресивно. Маската на вниманието на секој од нејзините 64 слоеви на самовнимание му овозможува на секој token на слика да обрне внимание на сите token на текст. DALL·E користи стандардна каузална маска за текстуалните токените, и ретко внимание за токените на сликите со ред, колона или конволуциона шема на внимание, во зависност од слојот. Ние даваме повеќе детали за архитектурата и процедурата за обука во нашиот труд⁠(се отвора во нов прозорец).

Синтеза на текст во слика е активна област на истражување уште од пионерската работа на Reed et. al, ¹чиј пристап користи GAN условен на текстуални вградби. Вградувањата се произведуваат од енкодер претходно обучен со контрастна загуба, слично на CLIP. StackGAN³ и StackGAN++⁴ користат мулти-скала GANs за да ја зголемат резолуцијата на сликата и да ја подобрат визуелната веродостојност. AttnGAN⁵ вклучува внимание помеѓу текстуалните и сликовните карактеристики и предлага контрастивен губиток на совпаѓање на текстуално-сликовни карактеристики како помошна цел. Ова е интересно да се спореди со нашето повторно рангирање со CLIP, кое се извршува офлајн. Друга работа^{2, 6 и 7} вклучува дополнителни извори на надзор за време на обуката за подобрување на квалитетот на сликата. Конечно, работата на Nguyen et. al⁸ и Cho et. al⁹ истражува стратегии базирани на примероци за генерирање слики кои користат претходно обучени мултимодални дискриминативни модели.

Слично на одбивачкото земање примероци користено во VQVAE-2⁠(се отвора во нов прозорец), користиме CLIP⁠ за да ги прераспоредиме најдобрите 32 од 512 примероци за секој натпис во сите интерактивни визуелизации. Оваа постапка може исто така да се гледа како вид пребарување водено од јазик¹⁶, и може да има драматично влијание врз квалитетот на примерокот.

Се вчитува...

Фусноти

A
Token е секој симбол од дискретен вокабулар; за луѓето, секоја буква од англиската азбука е токен од азбука со 26 букви. Вокабуларот на DALL·E содржи tokens за концепти на текст и слика. Поточно, секој натпис на слика е претставен со максимум 256 BPE-кодирани tokenѕ со големина на вокабулар од 16384, а сликата е претставена со 1024 tokenс со големина на вокабулар од 8192.

Сликите се претходно обработени на резолуција од 256x256 за време на обуката. Слично на VQVAE, секоја слика е компресирана во мрежа од 32x32 дискретни латентни кодови користејќи дискретен VAE што го предобучивме користејќи континуирана релаксација. Откривме дека обуката користејќи релаксација ја елиминира потребата за експлицитен кодекс, EMA загуба или трикови како оживување на мртвиот код, и може да се скалира до големи вокабуларни големини.