DALL·E: Мәтіннен суреттер жасау
Біз табиғи тілде берілетін кең ауқымды ұғымдар үшін мәтіндік сипаттамалардан суреттер жасайтын DALL·E деп аталатын нейрондық желіні оқыттық.

Иллюстрация: Justin Jay Wang
DALL·E — мәтіндік сипаттамалардан суреттерді генерациялауға оқытылған, мәтін–сурет жұптары деректер жинағын пайдаланатын GPT‑3(жаңа терезеде ашылады)-тің 12 миллиард параметрлі нұсқасы. Біз онда жануарлар мен заттардың антропоморфталған нұсқаларын жасау, байланысы жоқ ұғымдарды нанымды түрде біріктіру, мәтінді рендерлеу және бар суреттерге түрлендірулер қолдану сияқты әртүрлі мүмкіндіктер жиыны бар екенін анықтадық.
Сондай-ақ қараңыз: DALL·E 2, ол 4 есе жоғары ажыратымдылықпен неғұрлым шынайы әрі дәл суреттерді генерациялайды.
GPT‑3 тілдің үлкен нейрондық желіге мәтін генерациялаудың алуан түрлі міндеттерін орындауға нұсқау беру үшін қолданылатынын көрсетті. Image GPT дәл сондай нейрондық желі түрін жоғары нақтылықпен суреттер генерациялау үшін де пайдалануға болатынын көрсетті. Біз осы нәтижелерді кеңейтіп, енді визуалды ұғымдарды тіл арқылы басқару қолжетімді шекке жеткенін көрсетеміз.
GPT‑3 сияқты, DALL·E де трансформер тілдік модель. Ол мәтін мен суретті 1280 токенге дейінгі деректердің бір ағыны ретінде қабылдайды және барлық токендерді бірінен кейін бірін генерациялау үшін максималды ықтималдық әдісімен оқытылады. A
Бұл оқыту рәсімі DALL·E-ге суретті нөлден генерациялаумен қатар, бар суреттің төменгі оң жақ бұрышына дейін созылатын кез келген тікбұрышты аймағын мәтіндік көмексөзге сай етіп қайта генерациялауға да мүмкіндік береді.
Біз генеративті модельдермен байланысты жұмыстардың қоғамға елеулі әрі ауқымды әсер ету әлеуеті бар екенін мойындаймыз. Болашақта DALL·E сияқты модельдердің белгілі бір жұмыс үдерістері мен мамандықтарға экономикалық әсері, модель нәтижелеріндегі ықтимал бұрмалану және осы технология меңзейтін ұзақ мерзімді этикалық сын-қатерлер сияқты қоғамдық мәселелермен қалай байланысты екенін талдауды жоспарлап отырмыз.
Біз DALL·E тілдің композициялық құрылымын зерттейтін сан алуан сөйлемдер үшін нанымды суреттер жасай алатынын анықтадық. Мұны келесі бөлімдегі интерактивті визуалдардың сериясы арқылы көрсетеміз. Визуалдардағы әр сипаттама үшін көрсетілген үлгілер CLIP арқылы қайта ранжирлегеннен кейін 512-нің ішінен үздік 32-сін алу арқылы жасалған, бірақ одан тыс көрсетілген нобайлар мен жеке суреттерден басқа ешқандай қолмен іріктеу қолданбаймыз.B
Біз DALL·E-нің нысанның бірнеше атрибутын, сондай-ақ оның неше рет көрінетінін өзгерте алу қабілетін тексереміз.
Бір уақытта бірнеше нысанды, олардың атрибуттарын және кеңістіктегі өзара қатынастарын басқару жаңа қиындық тудырады. Мысалы, “қызыл қалпақ, сары қолғап, көк жейде және жасыл шалбар киген кірпі” деген тіркесті алайық. Бұл сөйлемді дұрыс түсіндіру үшін DALL·E жануар мен киімнің әр бөлігін дұрыс біріктіріп қана қоймай, оларды шатастырмай (қалпақ, қызыл), (қолғап, сары), (жейде, көк) және (шалбар, жасыл) сәйкестіктерін де құруы керек C
Біз DALL·E-нің мұны салыстырмалы орналастыру, нысандарды қабаттап қою және бірнеше атрибутты басқару үшін жасай алу қабілетін тексереміз.
DALL·E аздаған нысандардың атрибуттары мен орындарына белгілі бір деңгейде басқару ұсынғанымен, табыстылық деңгейі сипаттаманың қалай тұжырымдалғанына байланысты болуы мүмкін. Нысандар саны артқан сайын, DALL·E нысандар мен олардың түстері арасындағы сәйкестіктерді шатастыруға бейім болады, ал табыстылық күрт төмендейді. Сонымен қатар, мұндай сценарийлерде DALL·E сипаттаманы қайта тұжырымдауға қатысты орнықсыз екенін де байқаймыз: мағыналық тұрғыдан баламалы басқа сипаттамалар жиі дұрыс түсіндірме бермейді.
Біз DALL·E көріністің көзқарас нүктесін және көрініс рендерленетін 3D стилін де басқаруға мүмкіндік беретінін анықтадық.
Мұны одан әрі дамыту үшін біз DALL·E-нің танымал тұлғаның басын бірдей аралықпен берілген бұрыштар тізбегіндегі әр бұрыштан қайта-қайта сала алу қабілетін тексердік және айналып тұрған бастың бірқалыпты анимациясын қалпына келтіре алатынымызды анықтадық.
DALL·E көріністерге кейбір оптикалық бұрмалау түрлерін қолдана алатын сияқты, мұны «балық көзі объективінің көрінісі» және «сфералық панорама» нұсқаларынан көреміз. Бұл бізді оның шағылыстарды генерациялау қабілетін зерттеуге ынталандырды.
«Өте жақыннан түсірілген көрініс» және «рентген» стиліндегі үлгілер бізді DALL·E-нің қималық көріністер арқылы ішкі құрылымды, ал макро фотосуреттер арқылы сыртқы құрылымды бере алу қабілетін әрі қарай зерттеуге жетеледі.
Мәтінді суретке аудару міндеті толық нақтыланбаған: әдетте бір сипаттама шексіз көп нанымды суретке сәйкес келеді, сондықтан сурет бірмәнді анықталмайды. Мысалы, “күн шыққанда далада отырған капибараның картинасы” деген сипаттаманы алайық. Капибараның бағытына қарай көлеңке салу қажет болуы мүмкін, бірақ бұл деталь ешқашан ашық айтылмайды. Біз DALL·E-нің толық берілмегендікті шешу қабілетін үш жағдайда зерттейміз: стильді, ортаны және уақытты өзгерту; бір нысанды түрлі жағдайларда салу; және үстіне нақты мәтін жазылған нысанның суретін генерациялау.
Әртүрлі сенімділік деңгейімен DALL·E табиғи тіл арқылы 3D рендеринг қозғалтқышының мүмкіндіктерінің бір бөлігіне қол жеткізуге мүмкіндік береді. Ол аздаған нысандардың атрибуттарын, шектеулі деңгейде олардың санын және бір-біріне қатысты қалай орналасқанын дербес басқара алады. Сондай-ақ ол көрініс қай жерден және қандай бұрыштан рендерленетінін басқара алады әрі белгілі нысандарды бұрыш пен жарық жағдайларының нақты сипаттамаларына сай генерациялай алады.
Кірістері бірмәнді және толық егжей-тегжейімен берілуі тиіс 3D рендеринг қозғалтқышынан айырмашылығы, DALL·E сипаттамада суретте болуы тиіс, бірақ ашық айтылмаған белгілі бір деталь меңзелсе, көбіне «бос орындарды толтыра» алады.
Келесіде біз алдыңғы мүмкіндіктерді сән және интерьер дизайнында қолдануды қарастырамыз.
Тілдің композициялық табиғаты шынайы да, қиялдағы да нысандарды сипаттау үшін ұғымдарды біріктіруге мүмкіндік береді. Біз DALL·E-нің де әртекті идеяларды біріктіріп, нысандарды синтездей алатынын байқадық, олардың кейбірі шынайы әлемде болуы екіталай. Біз бұл қабілетті екі жағдайда зерттейміз: әртүрлі ұғымдардың қасиеттерін жануарларға беру және қатысы жоқ ұғымдардан шабыт алып өнімдер жобалау.
Алдыңғы бөлімде біз DALL·E-нің шынайы әлем нысандарының суреттерін генерациялау кезінде байланысы жоқ ұғымдарды біріктіру қабілетін зерттедік. Мұнда біз бұл қабілетті өнер контексінде, иллюстрацияның үш түрі үшін қарастырамыз: жануарлар мен заттардың антропоморфталған нұсқалары, жануар химералары және эмодзилер.
GPT‑3‑ке қосымша оқытусыз-ақ, тек сипаттама мен оның көмексөзінде берілген жауапты генерациялауға арналған ишара арқылы көптеген түрлі тапсырмаларды орындау нұсқауын беруге болады. Мысалы, оған “міне, ‘a person walking his dog in the park’ сөйлемі француз тіліне аударылған:” деген тіркес берілсе, GPT‑3 “un homme qui promène son chien dans le parc” деп жауап береді. Бұл қабілет мысалсыз ой қорыту деп аталады. Біз DALL·E бұл қабілетті визуалды салаға да кеңейтетінін және дұрыс түрде көмексөз берілгенде суреттен суретке аударудың бірнеше түрін орындай алатынын анықтадық.
Бұл қабілет осылайша пайда болады деп күтпедік және оны ынталандыру үшін нейрондық желіге не оқыту рәсіміне ешқандай өзгеріс енгізбедік. Осы нәтижелерге сүйеніп, DALL·E-нің ұқсастық бойынша ой қорыту есептеріне бейімділігін Raven’s progressive matrices арқылы тексереміз, бұл 20-ғасырда кең қолданылған визуалды IQ тесті.
Біз DALL·E географиялық деректер, көрікті жерлер және аудандар туралы үйренгенін анықтадық. Оның бұл ұғымдар туралы білімі кей жағынан таңғаларлықтай дәл, ал кей жағынан қате.
DALL·E-нің кеңістікке қарай өзгеретін ұғымдар туралы білімін зерттеумен қатар, біз оның уақытқа қарай өзгеретін ұғымдар туралы білімін де зерттейміз.
DALL·E — тек декодерден тұратын қарапайым трансформер; ол мәтін мен суретті 1280 токеннен тұратын бір ағын ретінде қабылдайды — мәтін үшін 256 және сурет үшін 1024 — және олардың бәрін авторегрессиялық түрде модельдейді. Оның 64 self-attention қабатының әрқайсысындағы attention mask әр сурет токеніне барлық мәтін токендеріне назар аударуға мүмкіндік береді. DALL·E мәтін токендері үшін стандартты causal mask, ал сурет токендері үшін қабатқа қарай жолдық, бағандық немесе convolutional назар үлгісі бар sparse attention қолданады. Архитектура мен оқыту рәсімі туралы толығырақ мәліметті біздің мақаламыздан(жаңа терезеде ашылады) таба аласыз.
Мәтіннен сурет синтезі — Reed және т.б. бастамашы болған еңбектерден бері белсенді зерттеу саласы,1 олардың тәсілі мәтін эмбеддингтерімен шартталған GAN қолданады. Эмбеддингтер CLIP-ке ұқсас контрастивті шығынмен алдын ала оқытылған кодтаушы арқылы алынады. StackGAN3 және StackGAN++4 сурет ажыратымдылығын арттырып, визуалдық нақтылықты жақсарту үшін көпмасштабты GAN-дарды қолданады. AttnGAN5 мәтін мен сурет белгілері арасындағы назарды енгізіп, көмекші мақсат ретінде контрастивті мәтін–сурет белгісін сәйкестендіру шығынын ұсынады. Мұны офлайн жасалатын CLIP арқылы қайта ранжирлеуімізбен салыстыру қызық. Басқа жұмыстар2, 6, 7 оқыту кезінде сурет сапасын жақсарту үшін қосымша бақылау көздерін енгізеді. Соңында, Nguyen және т.б.8 мен Cho және т.б.9 алдын ала оқытылған multimodal дискриминативті модельдерді пайдаланатын сурет генерациясының іріктеуге негізделген стратегияларын зерттейді.
VQVAE-2(жаңа терезеде ашылады)-де қолданылатын rejection sampling сияқты, біз барлық интерактивті визуалдардағы әр сипаттама үшін 512 үлгінің ішінен үздік 32-сін қайта ранжирлеу үшін CLIP қолданамыз. Бұл рәсімді тіл арқылы бағытталатын іздеудің бір түрі ретінде де қарастыруға болады16, әрі ол үлгі сапасына айтарлықтай әсер ете алады.
Ескертпелер
- A
Токен — дискретті сөздіктегі кез келген таңба; адамдар үшін ағылшын тіліндегі әр әріп 26 әріптен тұратын әліпбидің бір токені. DALL·E сөздігінде мәтіндік те, суреттік те ұғымдарға арналған токендер бар. Нақтырақ айтқанда, әр сурет сипаттамасы сөздік көлемі 16384 болатын BPE-кодталған ең көбі 256 токенмен беріледі, ал сурет сөздік көлемі 8192 болатын 1024 токенмен ұсынылады.
Оқыту кезінде суреттер 256x256 ажыратымдылыққа дейін алдын ала өңделеді. VQVAE-ге ұқсас, әр сурет үздіксіз босаңсу арқылы алдын ала оқытқан дискретті VAE көмегімен 32x32 өлшемді дискретті жасырын кодтар торына сығылады. Біз босаңсуды пайдаланып оқыту айқын код кітабының, EMA loss-тың немесе қолданылмай қалған кодтарды жандандыру сияқты айлалардың қажеттілігін жоятынын және үлкен сөздік көлемдеріне дейін ауқымдалатынын анықтадық.
- B
Қосымша мәліметтер кейінгі бөлімде берілген.
- 17
Бұл міндет айнымалыларды байланыстыру деп аталады және әдебиетте кеңінен зерттелген.
Дереккөздер
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “Генеративті қарсылас мәтіннен сурет синтезі(жаңа терезеде ашылады)”. ICML 2016 жинағында.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “Нені және қайда салу керегін үйрену(жаңа терезеде ашылады)”. NIPS 2016 жинағында.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: қабатталған генеративті қарсылас желілер арқылы мәтіннен фотореалистік сурет синтезі(жаңа терезеде ашылады)”. ICCY 2017 жинағында.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: қабатталған генеративті қарсылас желілермен шынайы сурет синтезі(жаңа терезеде ашылады)”. IEEE TPAMI 2018 жинағында.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: зейінге негізделген генеративті қарсылас желілермен дәл бөлшектелген мәтіннен суретті генерациялау(жаңа терезеде ашылады).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “Қарсылас оқыту арқылы нысанға негізделген мәтіннен сурет синтезі(жаңа терезеде ашылады)”. CVPR 2019 жинағында.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “Пайдаланушының дәл бөлшектелген зейініне негізделген мәтіннен сурет генерациялау(жаңа терезеде ашылады)”. WACV 2021 жинағында.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). “Plug & play generative networks: жасырын кеңістікте суреттерді шартты итеративті генерациялау(жаңа терезеде ашылады).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: көпмодальды трансформерлермен сурет салу, сипаттама беру және сұрақтарға жауап беру(жаңа терезеде ашылады)”. EMNLP 2020.
- 10
Kingma, Diederik P., and Max Welling. “Автокодтаушы вариациялық Байес(жаңа терезеде ашылады).” arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. “Терең генеративті модельдердегі стохастикалық кері тарату және жуық инференс(жаңа терезеде ашылады).” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). “Gumbel-softmax көмегімен категориялық қайта параметрлеу(жаңа терезеде ашылады)”.
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “Concrete үлестірімі: дискретті кездейсоқ айнымалылардың үздіксіз босаңсуы(жаңа терезеде ашылады)”.
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Нейрондық дискретті ұсынуларды үйрену(жаңа терезеде ашылады)”.
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “VQ-VAE-2 көмегімен әртүрлі әрі жоғары дәлдіктегі суреттер генерациялау(жаңа терезеде ашылады)”.
- 16
Andreas, J., Klein, D., Levine, S. (2017). “Жасырын тілмен үйрену(жаңа терезеде ашылады)”.
- 17
- 18
- 19
Gayler, R. (1998). “Көбейткіш байланыстыру, ұсыну операторлары және ұқсастық(жаңа терезеде ашылады)”.
- 20
Kanerva, P. (1997). “Толық таратылған ұсынулар(жаңа терезеде ашылады)”.


