5 հունվարի, 2021 թ.

DALL·E. Պատկերների ստեղծում տեքստից

Մենք վարժեցրել ենք նեյրոնային ցանց, որը կոչվում է DALL·E, որը ստեղծում է պատկերներ տեքստային նկարագրություններից՝ լայն շրջանակի հասկացություններ արտահայտելու համար, որոնք հնարավոր է արտահայտել բնական լեզվով։

Նկարազարդում՝ Ջասթին Ջեյ Վանգ

Բեռնվում է…

DALL·E-ն 12 միլիարդ պարամետր ունեցող տարբերակն է GPT‑3⁠(բացվում է նոր պատուհանում) -ի, որը պատրաստված է տեքստային նկարագրություններից պատկերներ գեներացնելու համար՝ օգտագործելով տեքստ-պատկեր զույգերի տվյալների հավաքածու։ Մենք հայտնաբերել ենք, որ այն ունի բազմազան հնարավորություններ, ներառյալ կենդանիների և առարկաների մարդակերպ տարբերակների ստեղծումը, անհամապատասխան հասկացությունների համատեղումը հավանական ձևերով, տեքստի արտապատկերումը և առկա պատկերների վերափոխումները։

Տես նաև՝ DALL·E 2⁠, որը գեներացնում է ավելի իրատեսական և ճշգրիտ պատկերներ՝ 4 անգամ ավելի մեծ լուծաչափով։

Բեռնվում է...

GPT‑3‑ը ցույց տվեց, որ լեզուն կարող է օգտագործվել մեծ նեյրոնային ցանցին հրահանգելու համար՝ տարբեր տեքստային գեներացման առաջադրանքներ կատարելու համար: Image GPT⁠ -ը ցույց տվեց, որ նույն տեսակի նեյրոնային ցանցը կարող է օգտագործվել նաև բարձր ճշգրտությամբ պատկերներ գեներացնել։ Մենք ընդլայնում ենք այս բացահայտումները՝ ցույց տալու համար, որ տեսողական հասկացությունների լեզվով կառավարումը այժմ հնարավոր է։

Ակնարկ

Ինչպես GPT‑3‑ը, DALL·E-ն տրանսֆորմեր լեզվի մոդել է։ Այն ընդունում է թե՛ տեքստը, թե՛ պատկերը որպես տվյալների միասնական հոսք, որը պարունակում է մինչև 1280 թոքեններ, և վերապատրաստվում է առավելագույն հավանականությամբ գեներացնել բոլոր թոքենները՝ մեկը մյուսի հետևից։ ^A

Այս ուսուցման ընթացակարգը թույլ է տալիս DALL·E-ին ոչ միայն գեներացնել պատկեր զրոյից, այլև վերականգնել գոյություն ունեցող պատկերի ցանկացած ուղղանկյուն հատված, որը ձգվում է մինչև ներքևի աջ անկյունը՝ այնպես, որ համահունչ լինի տեքստային հարցմանը։

Մենք ճանաչում ենք, որ գեներատիվ մոդելների հետ կապված աշխատանքը կարող է ունենալ նշանակալի, լայն հասարակական ազդեցություն։ Ապագայում մենք պլանավորում ենք վերլուծել, թե ինչպես են DALL·E-ի նման մոդելները առնչվում հասարակական խնդիրներին, ինչպիսիք են որոշ աշխատանքային գործընթացների և մասնագիտությունների վրա տնտեսական ազդեցությունը, մոդելի արդյունքներում հնարավոր կողմնակալությունը և այս տեխնոլոգիայի ենթադրվող երկարաժամկետ էթիկական մարտահրավերները:

Հնարավորություններ

Մենք գտնում ենք, որ DALL·E-ն ի վիճակի է ստեղծել հավանական պատկերներ նախադասությունների մեծ բազմազանության համար, որոնք ուսումնասիրում են լեզվի կոմպոզիցիոն կառուցվածքը։ Մենք սա ցուցադրում ենք օգտագործելով ինտերակտիվ պատկերների շարք հաջորդ բաժնում։ Յուրաքանչյուր վերնագրի համար ցուցադրված նմուշները վիզուալներում ստացվում են՝ վերցնելով վերադասավորված 512-ից 32 լավագույնները՝ օգտագործելով CLIP⁠, բայց մենք ձեռքով ընտրված նմուշներ չենք օգտագործում, բացառությամբ մանրանկարների և առանձին պատկերների, որոնք հայտնվում են դրսում։^B

Վերահսկող հատկանիշներ

Մենք փորձարկում ենք DALL·E-ի ունակությունը փոփոխելու օբյեկտի մի քանի հատկանիշները, ինչպես նաև դրա հայտնվելու քանակը։

Բեռնվում է...

Բազմաթիվ օբյեկտներ նկարել

Միաժամանակ մի քանի օբյեկտների, նրանց հատկանիշների և տարածական հարաբերությունների վերահսկումը նոր մարտահրավեր է ներկայացնում։ Օրինակ, դիտարկեք «կարմիր գլխարկ, դեղին ձեռնոցներ, կապույտ շապիկ և կանաչ տաբատ հագած ոզնի» արտահայտությունը։ Այս նախադասությունը ճիշտ մեկնաբանելու համար DALL·E-ն պետք է ոչ միայն ճիշտ համադրի յուրաքանչյուր հագուստի կտոր կենդանու հետ, այլև ձևավորի ասոցիացիաները (գլխարկ, կարմիր), (ձեռնոցներ, դեղին), (շապիկ, կապույտ) և (տաբատ, կանաչ)՝ առանց դրանք խառնելու ^C

Մենք ստուգում ենք DALL·E-ի ունակությունը՝ հարաբերական դիրքավորման, օբյեկտների դասավորման և բազմաթիվ հատկանիշների կառավարման համար։

Բեռնվում է...

Չնայած DALL·E-ն առաջարկում է որոշակի մակարդակի վերահսկողություն մի քանի օբյեկտների հատկանիշների և դիրքերի վրա, հաջողության մակարդակը կարող է կախված լինել նրանից, թե ինչպես է ձևակերպված վերնագիրը։ Երբ ավելի շատ օբյեկտներ են ներմուծվում, DALL·E-ն հակված է շփոթել օբյեկտների և նրանց գույների միջև կապերը, և հաջողության մակարդակը կտրուկ նվազում է։ Մենք նաև նշում ենք, որ DALL·E-ն խոցելի է այս սցենարներում վերաշարադրման նկատմամբ. այլընտրանքային, սեմանտիկորեն համարժեք վերնագրերը հաճախ չեն տալիս ճիշտ մեկնաբանություններ։

Տեսանկյունի և եռաչափության պատկերացում

Մենք գտնում ենք, որ DALL·E-ն նույնպես թույլ է տալիս վերահսկել տեսարանի դիտանկյունը և այն եռաչափ ոճը, որով տեսարանը արտապատկերված է։

Բեռնվում է...

Այս ուղղությամբ առաջ գնալու համար մենք փորձարկում ենք DALL·E-ի ունակությունը՝ բազմիցս նկարելու հայտնի անձի գլուխը՝ յուրաքանչյուր անկյան տակ, որը հաջորդում է հավասարաչափ բաշխված անկյունների հաջորդականությանը, և պարզում ենք, որ կարող ենք վերականգնել պտտվող գլխի սահուն անիմացիա։

Բեռնվում է...

DALL·E-ն կարծես թե կարող է կիրառել որոշ տեսակի օպտիկական աղավաղումներ տեսարանների վրա, ինչպես տեսնում ենք «ձկնային աչքի ոսպնյակի տեսք» և «գնդաձև պանորամա» տարբերակներով: Սա մեզ դրդեց ուսումնասիրել դրա ունակությունը՝ անդրադարձներ գեներացնելու։

Բեռնվում է...

Տեսանելի դարձնել ներքին և արտաքին կառուցվածքը

«Չափազանց մոտիկ տեսարան» և «ռենտգեն» ոճի նմուշները մեզ դրդեցին ավելի խորը ուսումնասիրել DALL·E-ի ունակությունը՝ ներքին կառուցվածքը պատկերել խաչաձև կտրվածքներով և արտաքին կառուցվածքը՝ մակրո լուսանկարներով։

Բեռնվում է...

Համատեքստային մանրամասների եզրակացություն

Տեքստը պատկերների վերածելու առաջադրանքը անորոշ է. մեկ վերնագիրն ընդհանուր առմամբ համապատասխանում է հավանական պատկերների անսահմանությանը, ուստի պատկերը եզակիորեն որոշված չէ։ Օրինակ, դիտարկեք «դաշտում նստած կապիբարայի նկարը՝ արևածագի ժամանակ» ենթագիրը։ Կախված կապիբարայի դիրքից, հնարավոր է անհրաժեշտ լինի նկարել ստվեր, թեև այս մանրամասնությունը երբեք հստակ չի նշվում։ Մենք ուսումնասիրում ենք DALL·E-ի ունակությունը լուծելու թերասահմանումը երեք դեպքերում՝ ոճի, միջավայրի և ժամանակի փոփոխություն; նույն օբյեկտը տարբեր իրավիճակներում նկարելը; և օբյեկտի պատկեր գեներացնելը՝ հատուկ տեքստով գրված դրա վրա։

Բեռնվում է...

DALL·E-ն տարբեր հուսալիությամբ տրամադրում է 3D պատկերների ստեղծման շարժիչի հնարավորությունների մի մասի հասանելիություն՝ բնական լեզվի միջոցով։ Այն կարող է ինքնուրույն վերահսկել մի փոքր քանակությամբ օբյեկտների հատկանիշները և սահմանափակորեն, թե որքան են դրանք, և ինչպես են դրանք դասավորված միմյանց նկատմամբ։ Այն կարող է նաև վերահսկել տեսարանի ցուցադրման վայրը և անկյունը, ինչպես նաև գեներացնել հայտնի օբյեկտներ՝ համապատասխան անկյան և լուսավորության պայմանների ճշգրիտ բնութագրերին։

Ի տարբերություն եռաչափ պատկերների ստեղծման շարժիչի, որի մուտքագրումները պետք է հստակ և ամբողջական մանրամասնությամբ նշված լինեն, DALL·E-ն հաճախ կարող է «լրացնել բացերը», երբ վերնագիրը ենթադրում է, որ պատկերը պետք է պարունակի որոշակի մանրամասնություն, որը հստակ նշված չէ։

Նախորդ հնարավորությունների կիրառումներ

Հաջորդը, մենք ուսումնասիրել ենք նախորդ հնարավորությունների օգտագործումը նորաձևության և ինտերիերի դիզայնի համար։

Բեռնվում է...

Անհամատեղելի հասկացությունների համակցում

Լեզվի կոմպոզիցիոն բնույթը թույլ է տալիս մեզ համադրել հասկացություններ՝ նկարագրելու թե՛ իրական, թե՛ երևակայական բաներ։ Մենք գտնում ենք, որ DALL·E-ն ունի տարբեր գաղափարներ համադրելու և սինթեզելու ունակություն՝ ստեղծելու օբյեկտներ, որոնցից որոշները հավանաբար իրական աշխարհում գոյություն չունեն: Մենք ուսումնասիրում ենք այս կարողությունը երկու դեպքերում՝ հատկություններ փոխանցելով տարբեր հասկացություններից կենդանիներին և արտադրանքներ նախագծելով՝ ոգեշնչվելով կապ չունեցող հասկացություններից։

Բեռնվում է...

Կենդանիների նկարազարդումներ

Նախորդ բաժնում մենք ուսումնասիրեցինք DALL·E-ի ունակությունը՝ համատեղելու անհամատեղելի հասկացությունները՝ գեներացնելով իրական աշխարհի օբյեկտների պատկերներ։ Այստեղ մենք ուսումնասիրում ենք այս կարողությունը արվեստի համատեքստում՝ երեք տեսակի նկարազարդումների համար՝ կենդանիների և առարկաների մարդակերպ տարբերակներ, կենդանիների քիմերաներ և էմոջիներ։

Բեռնվում է...

Զրոյական կրակոցով տեսողական դատողություն

GPT‑3‑ը կարող է հրահանգվել կատարել բազմաթիվ առաջադրանքներ միայն նկարագրությունից և հարցումից՝ գեներացնելով պատասխանը, որը տրամադրված է իր հարցման մեջ, առանց որևէ լրացուցիչ ուսուցման։ Օրինակ, երբ հարցնում են «այսպես է արտահայտությունը՝ «մարդը զբոսնում է իր շան հետ այգում» թարգմանված ֆրանսերենով», GPT‑3‑ը պատասխանում է՝ «un homme qui promène son chien dans le parc»։ Այս հնարավորությունը կոչվում է զրոյական հիմնավորում: Մենք գտնում ենք, որ DALL·E-ն ընդլայնում է այս հնարավորությունը տեսողական տիրույթում և կարող է կատարել պատկերից պատկեր մի քանի տեսակի թարգմանության առաջադրանքներ, երբ ճիշտ ձևով է հարցվում։

Բեռնվում է...

Մենք չէինք կանխատեսել, որ այս հնարավորությունը կծագի, և նեյրոնային ցանցի կամ ուսուցման ընթացակարգի մեջ փոփոխություններ չենք կատարել՝ այն խրախուսելու համար։ Այս արդյունքներից ոգեշնչված՝ մենք չափում ենք DALL·E-ի ունակությունը անալոգիական մտածողության խնդիրների համար՝ փորձարկելով այն Ռավենի պրոգրեսիվ մատրիցաներով, որը 20-րդ դարում լայնորեն օգտագործվող տեսողական IQ թեստ էր:

Բեռնվում է...

Աշխարհագրական տեղեկություններ

Մենք գտնում ենք, որ DALL·E-ն սովորել է աշխարհագրական փաստերի, տեսարժան վայրերի և թաղամասերի մասին։ Այս հասկացությունների վերաբերյալ նրա տեղեկությունները զարմանալիորեն ճշգրիտ են որոշ առումներով և թերի՝ մյուսներում։

Բեռնվում է...

Ժամանակային տեղեկություններ

Բացի տարածության մեջ փոփոխվող հասկացությունների վերաբերյալ DALL·E-ի տեղեկությունները ուսումնասիրելուց, մենք նաև ուսումնասիրում ենք ժամանակի ընթացքում փոփոխվող հասկացությունների վերաբերյալ նրա տեղեկությունները։

Բեռնվում է...

Մոտեցման և նախորդ աշխատանքի ամփոփագիր

DALL·E-ն պարզ միայն դեկոդերային տրանսֆորմեր է, որը ստանում է թե՛ տեքստը, թե՛ պատկերը որպես 1280 թոքենների միակ հոսք՝ 256-ը տեքստի համար և 1024-ը՝ պատկերի համար, և մոդելավորում է դրանք բոլորը ավտոռեգրեսիվ կերպով։ Ուշադրության դիմակը իր 64 ինքնաուշադրության շերտերում թույլ է տալիս յուրաքանչյուր պատկեր թոքենին ուշադրություն դարձնել բոլոր տեքստային թոքեններին։ DALL·E-ն օգտագործում է ստանդարտ պատճառական դիմակ տեքստային թոքենների համար և նոսր ուշադրություն պատկերային թոքենների համար՝ կախված շերտից՝ կամ տողի, սյունակի կամ կոնվոլյուցիոն ուշադրության օրինաչափությամբ: Մենք տրամադրում ենք ճարտարապետության և ուսուցման ընթացակարգի մասին ավելի մանրամասն տեղեկություններ մեր հոդվածում⁠(բացվում է նոր պատուհանում)։

Տեքստից-պատկեր սինթեզը եղել է ակտիվ հետազոտական ոլորտ Ռիդի և այլոց ռահվիրայական աշխատանքից ի վեր։ ալ, ¹ որի մոտեցումը օգտագործում է տեքստային ներդրումների վրա պայմանավորված GAN-ը: Էմբեդինգները ստեղծվում են կոդավորիչի կողմից, որը նախապես ուսուցանվել է հակադրական կորստի միջոցով, ինչպես CLIP-ը: StackGAN³ և StackGAN++⁴ օգտագործում են բազմաստիճան GAN-ներ՝ պատկերների լուծաչափը մեծացնելու և տեսողական հավաստիությունը բարելավելու համար։ AttnGAN-ը⁵ ներառում է ուշադրություն տեքստի և պատկեր հատկությունների միջև և առաջարկում է հակադրական տեքստ-պատկեր հատկությունների համընկնման կորուստ որպես օժանդակ նպատակ։ Դա հետաքրքիր է համեմատել մեր CLIP-ով վերակարգավորման հետ, որը կատարվում է օֆլայն։ Այլ աշխատանքներ^{2, 6, 7} ուսուցման ընթացքում ներառում են լրացուցիչ վերահսկողության աղբյուրներ՝ պատկերների որակը բարելավելու նպատակով։ Վերջապես, Նգուենի և այլոց աշխատանքը։ ալ⁸ և Չոյի և այլոց⁹ աշխատանքը ուսումնասիրում է նմուշառման վրա հիմնված ռազմավարությունները պատկերների գեներացման համար, որոնք օգտագործում են նախապես վարժեցված բազմամոդալ դիսկրիմինատիվ մոդելներ։

Նմանապես, ինչպես մերժման նմուշառումը, որը կիրառվում է VQVAE-2⁠(բացվում է նոր պատուհանում)-ում, մենք օգտագործում ենք CLIP⁠ ՝ վերադասավորելու համար 512 նմուշներից յուրաքանչյուր վերնագրի համար լավագույն 32-ը բոլոր ինտերակտիվ պատկերներում: Այս ընթացակարգը կարելի է դիտարկել նաև որպես լեզվով ուղղորդվող որոնում¹⁶, և այն կարող է զգալի ազդեցություն ունենալ նմուշի որակի վրա։

Բեռնվում է...

Ծանոթագրություններ

A
Թոքենը ցանկացած նշան է անջատ բառապաշարից. մարդկանց համար յուրաքանչյուր անգլերեն տառ թոքեն է 26 տառանոց այբուբենից: DALL·E-ի բառապաշարը պարունակում է թոքեններ ինչպես տեքստային, այնպես էլ պատկերային հասկացությունների համար։ Մասնավորապես, յուրաքանչյուր պատկերի վերնագիր ներկայացվում է առավելագույնը 256 BPE-կոդավորված թոքեններով՝ 16384 բառապաշարով, իսկ պատկերը ներկայացվում է 1024 թոքեններով՝ 8192 բառապաշարով։

Պատկերները նախապես մշակվում են 256x256 լուծաչափով ուսուցման ժամանակ։ Նման VQVAE-ին, յուրաքանչյուր պատկեր սեղմվում է 32x32 ցանցի դիսկրետ լատենտ կոդերի միջոցով՝ օգտագործելով դիսկրետ VAE, որը մենք նախաուսուցել ենք շարունակական թուլացման միջոցով։ Մենք հայտնաբերեցինք, որ թուլացման միջոցով ուսուցումը վերացնում է բացահայտ կոդագրքի, EMA կորստի կամ մեռած կոդի վերականգնման նման հնարքների անհրաժեշտությունը և կարող է մասշտաբավորվել մինչև մեծ բառապաշարների չափսեր։

B
Լրացուցիչ մանրամասները ներկայացված են հետագա բաժնում⁠։
17
Այս առաջադրանքը կոչվում է փոփոխականների կապում և լայնորեն ուսումնասիրվել է գրականության մեջ։