2021 ж. 5 қаңтар

DALL·E: Мәтіннен суреттер жасау

Біз табиғи тілде берілетін кең ауқымды ұғымдар үшін мәтіндік сипаттамалардан суреттер жасайтын DALL·E деп аталатын нейрондық желіні оқыттық.

Иллюстрация: Justin Jay Wang

Жүктелуде…

DALL·E — мәтіндік сипаттамалардан суреттерді генерациялауға оқытылған, мәтін–сурет жұптары деректер жинағын пайдаланатын GPT‑3⁠(жаңа терезеде ашылады)-тің 12 миллиард параметрлі нұсқасы. Біз онда жануарлар мен заттардың антропоморфталған нұсқаларын жасау, байланысы жоқ ұғымдарды нанымды түрде біріктіру, мәтінді рендерлеу және бар суреттерге түрлендірулер қолдану сияқты әртүрлі мүмкіндіктер жиыны бар екенін анықтадық.

Сондай-ақ қараңыз: DALL·E 2⁠, ол 4 есе жоғары ажыратымдылықпен неғұрлым шынайы әрі дәл суреттерді генерациялайды.

Жүктелуде...

GPT‑3 тілдің үлкен нейрондық желіге мәтін генерациялаудың алуан түрлі міндеттерін орындауға нұсқау беру үшін қолданылатынын көрсетті. Image GPT⁠ дәл сондай нейрондық желі түрін жоғары нақтылықпен суреттер генерациялау үшін де пайдалануға болатынын көрсетті. Біз осы нәтижелерді кеңейтіп, енді визуалды ұғымдарды тіл арқылы басқару қолжетімді шекке жеткенін көрсетеміз.

Шолу

GPT‑3 сияқты, DALL·E де трансформер тілдік модель. Ол мәтін мен суретті 1280 токенге дейінгі деректердің бір ағыны ретінде қабылдайды және барлық токендерді бірінен кейін бірін генерациялау үшін максималды ықтималдық әдісімен оқытылады. ^A

Бұл оқыту рәсімі DALL·E-ге суретті нөлден генерациялаумен қатар, бар суреттің төменгі оң жақ бұрышына дейін созылатын кез келген тікбұрышты аймағын мәтіндік көмексөзге сай етіп қайта генерациялауға да мүмкіндік береді.

Біз генеративті модельдермен байланысты жұмыстардың қоғамға елеулі әрі ауқымды әсер ету әлеуеті бар екенін мойындаймыз. Болашақта DALL·E сияқты модельдердің белгілі бір жұмыс үдерістері мен мамандықтарға экономикалық әсері, модель нәтижелеріндегі ықтимал бұрмалану және осы технология меңзейтін ұзақ мерзімді этикалық сын-қатерлер сияқты қоғамдық мәселелермен қалай байланысты екенін талдауды жоспарлап отырмыз.

Мүмкіндіктер

Біз DALL·E тілдің композициялық құрылымын зерттейтін сан алуан сөйлемдер үшін нанымды суреттер жасай алатынын анықтадық. Мұны келесі бөлімдегі интерактивті визуалдардың сериясы арқылы көрсетеміз. Визуалдардағы әр сипаттама үшін көрсетілген үлгілер CLIP⁠ арқылы қайта ранжирлегеннен кейін 512-нің ішінен үздік 32-сін алу арқылы жасалған, бірақ одан тыс көрсетілген нобайлар мен жеке суреттерден басқа ешқандай қолмен іріктеу қолданбаймыз.^B

Атрибуттарды басқару

Біз DALL·E-нің нысанның бірнеше атрибутын, сондай-ақ оның неше рет көрінетінін өзгерте алу қабілетін тексереміз.

Жүктелуде...

Бірнеше нысанды салу

Бір уақытта бірнеше нысанды, олардың атрибуттарын және кеңістіктегі өзара қатынастарын басқару жаңа қиындық тудырады. Мысалы, “қызыл қалпақ, сары қолғап, көк жейде және жасыл шалбар киген кірпі” деген тіркесті алайық. Бұл сөйлемді дұрыс түсіндіру үшін DALL·E жануар мен киімнің әр бөлігін дұрыс біріктіріп қана қоймай, оларды шатастырмай (қалпақ, қызыл), (қолғап, сары), (жейде, көк) және (шалбар, жасыл) сәйкестіктерін де құруы керек ^C

Біз DALL·E-нің мұны салыстырмалы орналастыру, нысандарды қабаттап қою және бірнеше атрибутты басқару үшін жасай алу қабілетін тексереміз.

Жүктелуде...

DALL·E аздаған нысандардың атрибуттары мен орындарына белгілі бір деңгейде басқару ұсынғанымен, табыстылық деңгейі сипаттаманың қалай тұжырымдалғанына байланысты болуы мүмкін. Нысандар саны артқан сайын, DALL·E нысандар мен олардың түстері арасындағы сәйкестіктерді шатастыруға бейім болады, ал табыстылық күрт төмендейді. Сонымен қатар, мұндай сценарийлерде DALL·E сипаттаманы қайта тұжырымдауға қатысты орнықсыз екенін де байқаймыз: мағыналық тұрғыдан баламалы басқа сипаттамалар жиі дұрыс түсіндірме бермейді.

Перспектива мен үшөлшемділікті визуалдау

Біз DALL·E көріністің көзқарас нүктесін және көрініс рендерленетін 3D стилін де басқаруға мүмкіндік беретінін анықтадық.

Жүктелуде...

Мұны одан әрі дамыту үшін біз DALL·E-нің танымал тұлғаның басын бірдей аралықпен берілген бұрыштар тізбегіндегі әр бұрыштан қайта-қайта сала алу қабілетін тексердік және айналып тұрған бастың бірқалыпты анимациясын қалпына келтіре алатынымызды анықтадық.

Жүктелуде...

DALL·E көріністерге кейбір оптикалық бұрмалау түрлерін қолдана алатын сияқты, мұны «балық көзі объективінің көрінісі» және «сфералық панорама» нұсқаларынан көреміз. Бұл бізді оның шағылыстарды генерациялау қабілетін зерттеуге ынталандырды.

Жүктелуде...

Ішкі және сыртқы құрылымды визуалдау

«Өте жақыннан түсірілген көрініс» және «рентген» стиліндегі үлгілер бізді DALL·E-нің қималық көріністер арқылы ішкі құрылымды, ал макро фотосуреттер арқылы сыртқы құрылымды бере алу қабілетін әрі қарай зерттеуге жетеледі.

Жүктелуде...

Контекстік детальдарды шығару

Мәтінді суретке аудару міндеті толық нақтыланбаған: әдетте бір сипаттама шексіз көп нанымды суретке сәйкес келеді, сондықтан сурет бірмәнді анықталмайды. Мысалы, “күн шыққанда далада отырған капибараның картинасы” деген сипаттаманы алайық. Капибараның бағытына қарай көлеңке салу қажет болуы мүмкін, бірақ бұл деталь ешқашан ашық айтылмайды. Біз DALL·E-нің толық берілмегендікті шешу қабілетін үш жағдайда зерттейміз: стильді, ортаны және уақытты өзгерту; бір нысанды түрлі жағдайларда салу; және үстіне нақты мәтін жазылған нысанның суретін генерациялау.

Жүктелуде...

Әртүрлі сенімділік деңгейімен DALL·E табиғи тіл арқылы 3D рендеринг қозғалтқышының мүмкіндіктерінің бір бөлігіне қол жеткізуге мүмкіндік береді. Ол аздаған нысандардың атрибуттарын, шектеулі деңгейде олардың санын және бір-біріне қатысты қалай орналасқанын дербес басқара алады. Сондай-ақ ол көрініс қай жерден және қандай бұрыштан рендерленетінін басқара алады әрі белгілі нысандарды бұрыш пен жарық жағдайларының нақты сипаттамаларына сай генерациялай алады.

Кірістері бірмәнді және толық егжей-тегжейімен берілуі тиіс 3D рендеринг қозғалтқышынан айырмашылығы, DALL·E сипаттамада суретте болуы тиіс, бірақ ашық айтылмаған белгілі бір деталь меңзелсе, көбіне «бос орындарды толтыра» алады.

Алдыңғы мүмкіндіктерді қолдану

Келесіде біз алдыңғы мүмкіндіктерді сән және интерьер дизайнында қолдануды қарастырамыз.

Жүктелуде...

Байланысы жоқ ұғымдарды біріктіру

Тілдің композициялық табиғаты шынайы да, қиялдағы да нысандарды сипаттау үшін ұғымдарды біріктіруге мүмкіндік береді. Біз DALL·E-нің де әртекті идеяларды біріктіріп, нысандарды синтездей алатынын байқадық, олардың кейбірі шынайы әлемде болуы екіталай. Біз бұл қабілетті екі жағдайда зерттейміз: әртүрлі ұғымдардың қасиеттерін жануарларға беру және қатысы жоқ ұғымдардан шабыт алып өнімдер жобалау.

Жүктелуде...

Жануарлар иллюстрациялары

Алдыңғы бөлімде біз DALL·E-нің шынайы әлем нысандарының суреттерін генерациялау кезінде байланысы жоқ ұғымдарды біріктіру қабілетін зерттедік. Мұнда біз бұл қабілетті өнер контексінде, иллюстрацияның үш түрі үшін қарастырамыз: жануарлар мен заттардың антропоморфталған нұсқалары, жануар химералары және эмодзилер.

Жүктелуде...

Мысалсыз визуалды ой қорыту

GPT‑3‑ке қосымша оқытусыз-ақ, тек сипаттама мен оның көмексөзінде берілген жауапты генерациялауға арналған ишара арқылы көптеген түрлі тапсырмаларды орындау нұсқауын беруге болады. Мысалы, оған “міне, ‘a person walking his dog in the park’ сөйлемі француз тіліне аударылған:” деген тіркес берілсе, GPT‑3 “un homme qui promène son chien dans le parc” деп жауап береді. Бұл қабілет мысалсыз ой қорыту деп аталады. Біз DALL·E бұл қабілетті визуалды салаға да кеңейтетінін және дұрыс түрде көмексөз берілгенде суреттен суретке аударудың бірнеше түрін орындай алатынын анықтадық.

Жүктелуде...

Бұл қабілет осылайша пайда болады деп күтпедік және оны ынталандыру үшін нейрондық желіге не оқыту рәсіміне ешқандай өзгеріс енгізбедік. Осы нәтижелерге сүйеніп, DALL·E-нің ұқсастық бойынша ой қорыту есептеріне бейімділігін Raven’s progressive matrices арқылы тексереміз, бұл 20-ғасырда кең қолданылған визуалды IQ тесті.

Жүктелуде...

Географиялық білім

Біз DALL·E географиялық деректер, көрікті жерлер және аудандар туралы үйренгенін анықтадық. Оның бұл ұғымдар туралы білімі кей жағынан таңғаларлықтай дәл, ал кей жағынан қате.

Жүктелуде...

Уақыттық білім

DALL·E-нің кеңістікке қарай өзгеретін ұғымдар туралы білімін зерттеумен қатар, біз оның уақытқа қарай өзгеретін ұғымдар туралы білімін де зерттейміз.

Жүктелуде...

Тәсіл мен алдыңғы жұмыстардың қысқаша мазмұны

DALL·E — тек декодерден тұратын қарапайым трансформер; ол мәтін мен суретті 1280 токеннен тұратын бір ағын ретінде қабылдайды — мәтін үшін 256 және сурет үшін 1024 — және олардың бәрін авторегрессиялық түрде модельдейді. Оның 64 self-attention қабатының әрқайсысындағы attention mask әр сурет токеніне барлық мәтін токендеріне назар аударуға мүмкіндік береді. DALL·E мәтін токендері үшін стандартты causal mask, ал сурет токендері үшін қабатқа қарай жолдық, бағандық немесе convolutional назар үлгісі бар sparse attention қолданады. Архитектура мен оқыту рәсімі туралы толығырақ мәліметті біздің мақаламыздан⁠(жаңа терезеде ашылады) таба аласыз.

Мәтіннен сурет синтезі — Reed және т.б. бастамашы болған еңбектерден бері белсенді зерттеу саласы,¹ олардың тәсілі мәтін эмбеддингтерімен шартталған GAN қолданады. Эмбеддингтер CLIP-ке ұқсас контрастивті шығынмен алдын ала оқытылған кодтаушы арқылы алынады. StackGAN³ және StackGAN++⁴ сурет ажыратымдылығын арттырып, визуалдық нақтылықты жақсарту үшін көпмасштабты GAN-дарды қолданады. AttnGAN⁵ мәтін мен сурет белгілері арасындағы назарды енгізіп, көмекші мақсат ретінде контрастивті мәтін–сурет белгісін сәйкестендіру шығынын ұсынады. Мұны офлайн жасалатын CLIP арқылы қайта ранжирлеуімізбен салыстыру қызық. Басқа жұмыстар^{2, 6, 7} оқыту кезінде сурет сапасын жақсарту үшін қосымша бақылау көздерін енгізеді. Соңында, Nguyen және т.б.⁸ мен Cho және т.б.⁹ алдын ала оқытылған multimodal дискриминативті модельдерді пайдаланатын сурет генерациясының іріктеуге негізделген стратегияларын зерттейді.

VQVAE-2⁠(жаңа терезеде ашылады)-де қолданылатын rejection sampling сияқты, біз барлық интерактивті визуалдардағы әр сипаттама үшін 512 үлгінің ішінен үздік 32-сін қайта ранжирлеу үшін CLIP⁠ қолданамыз. Бұл рәсімді тіл арқылы бағытталатын іздеудің бір түрі ретінде де қарастыруға болады¹⁶, әрі ол үлгі сапасына айтарлықтай әсер ете алады.

Жүктелуде...

Ескертпелер

A
Токен — дискретті сөздіктегі кез келген таңба; адамдар үшін ағылшын тіліндегі әр әріп 26 әріптен тұратын әліпбидің бір токені. DALL·E сөздігінде мәтіндік те, суреттік те ұғымдарға арналған токендер бар. Нақтырақ айтқанда, әр сурет сипаттамасы сөздік көлемі 16384 болатын BPE-кодталған ең көбі 256 токенмен беріледі, ал сурет сөздік көлемі 8192 болатын 1024 токенмен ұсынылады.

Оқыту кезінде суреттер 256x256 ажыратымдылыққа дейін алдын ала өңделеді. VQVAE-ге ұқсас, әр сурет үздіксіз босаңсу арқылы алдын ала оқытқан дискретті VAE көмегімен 32x32 өлшемді дискретті жасырын кодтар торына сығылады. Біз босаңсуды пайдаланып оқыту айқын код кітабының, EMA loss-тың немесе қолданылмай қалған кодтарды жандандыру сияқты айлалардың қажеттілігін жоятынын және үлкен сөздік көлемдеріне дейін ауқымдалатынын анықтадық.