DALL·E. Պատկերների ստեղծում տեքստից
Մենք վարժեցրել ենք նեյրոնային ցանց, որը կոչվում է DALL·E, որը ստեղծում է պատկերներ տեքստային նկարագրություններից՝ լայն շրջանակի հասկացություններ արտահայտելու համար, որոնք հնարավոր է արտահայտել բնական լեզվով։

Նկարազարդում՝ Ջասթին Ջեյ Վանգ
DALL·E-ն 12 միլիարդ պարամետր ունեցող տարբերակն է GPT‑3(բացվում է նոր պատուհանում) -ի, որը պատրաստված է տեքստային նկարագրություններից պատկերներ գեներացնելու համար՝ օգտագործելով տեքստ-պատկեր զույգերի տվյալների հավաքածու։ Մենք հայտնաբերել ենք, որ այն ունի բազմազան հնարավորություններ, ներառյալ կենդանիների և առարկաների մարդակերպ տարբերակների ստեղծումը, անհամապատասխան հասկացությունների համատեղումը հավանական ձևերով, տեքստի արտապատկերումը և առկա պատկերների վերափոխումները։
Տես նաև՝ DALL·E 2, որը գեներացնում է ավելի իրատեսական և ճշգրիտ պատկերներ՝ 4 անգամ ավելի մեծ լուծաչափով։
GPT‑3‑ը ցույց տվեց, որ լեզուն կարող է օգտագործվել մեծ նեյրոնային ցանցին հրահանգելու համար՝ տարբեր տեքստային գեներացման առաջադրանքներ կատարելու համար: Image GPT -ը ցույց տվեց, որ նույն տեսակի նեյրոնային ցանցը կարող է օգտագործվել նաև բարձր ճշգրտությամբ պատկերներ գեներացնել։ Մենք ընդլայնում ենք այս բացահայտումները՝ ցույց տալու համար, որ տեսողական հասկացությունների լեզվով կառավարումը այժմ հնարավոր է։
Ինչպես GPT‑3‑ը, DALL·E-ն տրանսֆորմեր լեզվի մոդել է։ Այն ընդունում է թե՛ տեքստը, թե՛ պատկերը որպես տվյալների միասնական հոսք, որը պարունակում է մինչև 1280 թոքեններ, և վերապատրաստվում է առավելագույն հավանականությամբ գեներացնել բոլոր թոքենները՝ մեկը մյուսի հետևից։ A
Այս ուսուցման ընթացակարգը թույլ է տալիս DALL·E-ին ոչ միայն գեներացնել պատկեր զրոյից, այլև վերականգնել գոյություն ունեցող պատկերի ցանկացած ուղղանկյուն հատված, որը ձգվում է մինչև ներքևի աջ անկյունը՝ այնպես, որ համահունչ լինի տեքստային հարցմանը։
Մենք ճանաչում ենք, որ գեներատիվ մոդելների հետ կապված աշխատանքը կարող է ունենալ նշանակալի, լայն հասարակական ազդեցություն։ Ապագայում մենք պլանավորում ենք վերլուծել, թե ինչպես են DALL·E-ի նման մոդելները առնչվում հասարակական խնդիրներին, ինչպիսիք են որոշ աշխատանքային գործընթացների և մասնագիտությունների վրա տնտեսական ազդեցությունը, մոդելի արդյունքներում հնարավոր կողմնակալությունը և այս տեխնոլոգիայի ենթադրվող երկարաժամկետ էթիկական մարտահրավերները:
Մենք գտնում ենք, որ DALL·E-ն ի վիճակի է ստեղծել հավանական պատկերներ նախադասությունների մեծ բազմազանության համար, որոնք ուսումնասիրում են լեզվի կոմպոզիցիոն կառուցվածքը։ Մենք սա ցուցադրում ենք օգտագործելով ինտերակտիվ պատկերների շարք հաջորդ բաժնում։ Յուրաքանչյուր վերնագրի համար ցուցադրված նմուշները վիզուալներում ստացվում են՝ վերցնելով վերադասավորված 512-ից 32 լավագույնները՝ օգտագործելով CLIP, բայց մենք ձեռքով ընտրված նմուշներ չենք օգտագործում, բացառությամբ մանրանկարների և առանձին պատկերների, որոնք հայտնվում են դրսում։B
Մենք փորձարկում ենք DALL·E-ի ունակությունը փոփոխելու օբյեկտի մի քանի հատկանիշները, ինչպես նաև դրա հայտնվելու քանակը։
Միաժամանակ մի քանի օբյեկտների, նրանց հատկանիշների և տարածական հարաբերությունների վերահսկումը նոր մարտահրավեր է ներկայացնում։ Օրինակ, դիտարկեք «կարմիր գլխարկ, դեղին ձեռնոցներ, կապույտ շապիկ և կանաչ տաբատ հագած ոզնի» արտահայտությունը։ Այս նախադասությունը ճիշտ մեկնաբանելու համար DALL·E-ն պետք է ոչ միայն ճիշտ համադրի յուրաքանչյուր հագուստի կտոր կենդանու հետ, այլև ձևավորի ասոցիացիաները (գլխարկ, կարմիր), (ձեռնոցներ, դեղին), (շապիկ, կապույտ) և (տաբատ, կանաչ)՝ առանց դրանք խառնելու C
Մենք ստուգում ենք DALL·E-ի ունակությունը՝ հարաբերական դիրքավորման, օբյեկտների դասավորման և բազմաթիվ հատկանիշների կառավարման համար։
Չնայած DALL·E-ն առաջարկում է որոշակի մակարդակի վերահսկողություն մի քանի օբյեկտների հատկանիշների և դիրքերի վրա, հաջողության մակարդակը կարող է կախված լինել նրանից, թե ինչպես է ձևակերպված վերնագիրը։ Երբ ավելի շատ օբյեկտներ են ներմուծվում, DALL·E-ն հակված է շփոթել օբյեկտների և նրանց գույների միջև կապերը, և հաջողության մակարդակը կտրուկ նվազում է։ Մենք նաև նշում ենք, որ DALL·E-ն խոցելի է այս սցենարներում վերաշարադրման նկատմամբ. այլընտրանքային, սեմանտիկորեն համարժեք վերնագրերը հաճախ չեն տալիս ճիշտ մեկնաբանություններ։
Մենք գտնում ենք, որ DALL·E-ն նույնպես թույլ է տալիս վերահսկել տեսարանի դիտանկյունը և այն եռաչափ ոճը, որով տեսարանը արտապատկերված է։
Այս ուղղությամբ առաջ գնալու համար մենք փորձարկում ենք DALL·E-ի ունակությունը՝ բազմիցս նկարելու հայտնի անձի գլուխը՝ յուրաքանչյուր անկյան տակ, որը հաջորդում է հավասարաչափ բաշխված անկյունների հաջորդականությանը, և պարզում ենք, որ կարող ենք վերականգնել պտտվող գլխի սահուն անիմացիա։
DALL·E-ն կարծես թե կարող է կիրառել որոշ տեսակի օպտիկական աղավաղումներ տեսարանների վրա, ինչպես տեսնում ենք «ձկնային աչքի ոսպնյակի տեսք» և «գնդաձև պանորամա» տարբերակներով: Սա մեզ դրդեց ուսումնասիրել դրա ունակությունը՝ անդրադարձներ գեներացնելու։
«Չափազանց մոտիկ տեսարան» և «ռենտգեն» ոճի նմուշները մեզ դրդեցին ավելի խորը ուսումնասիրել DALL·E-ի ունակությունը՝ ներքին կառուցվածքը պատկերել խաչաձև կտրվածքներով և արտաքին կառուցվածքը՝ մակրո լուսանկարներով։
Տեքստը պատկերների վերածելու առաջադրանքը անորոշ է. մեկ վերնագիրն ընդհանուր առմամբ համապատասխանում է հավանական պատկերների անսահմանությանը, ուստի պատկերը եզակիորեն որոշված չէ։ Օրինակ, դիտարկեք «դաշտում նստած կապիբարայի նկարը՝ արևածագի ժամանակ» ենթագիրը։ Կախված կապիբարայի դիրքից, հնարավոր է անհրաժեշտ լինի նկարել ստվեր, թեև այս մանրամասնությունը երբեք հստակ չի նշվում։ Մենք ուսումնասիրում ենք DALL·E-ի ունակությունը լուծելու թերասահմանումը երեք դեպքերում՝ ոճի, միջավայրի և ժամանակի փոփոխություն; նույն օբյեկտը տարբեր իրավիճակներում նկարելը; և օբյեկտի պատկեր գեներացնելը՝ հատուկ տեքստով գրված դրա վրա։
DALL·E-ն տարբեր հուսալիությամբ տրամադրում է 3D պատկերների ստեղծման շարժիչի հնարավորությունների մի մասի հասանելիություն՝ բնական լեզվի միջոցով։ Այն կարող է ինքնուրույն վերահսկել մի փոքր քանակությամբ օբյեկտների հատկանիշները և սահմանափակորեն, թե որքան են դրանք, և ինչպես են դրանք դասավորված միմյանց նկատմամբ։ Այն կարող է նաև վերահսկել տեսարանի ցուցադրման վայրը և անկյունը, ինչպես նաև գեներացնել հայտնի օբյեկտներ՝ համապատասխան անկյան և լուսավորության պայմանների ճշգրիտ բնութագրերին։
Ի տարբերություն եռաչափ պատկերների ստեղծման շարժիչի, որի մուտքագրումները պետք է հստակ և ամբողջական մանրամասնությամբ նշված լինեն, DALL·E-ն հաճախ կարող է «լրացնել բացերը», երբ վերնագիրը ենթադրում է, որ պատկերը պետք է պարունակի որոշակի մանրամասնություն, որը հստակ նշված չէ։
Հաջորդը, մենք ուսումնասիրել ենք նախորդ հնարավորությունների օգտագործումը նորաձևության և ինտերիերի դիզայնի համար։
Լեզվի կոմպոզիցիոն բնույթը թույլ է տալիս մեզ համադրել հասկացություններ՝ նկարագրելու թե՛ իրական, թե՛ երևակայական բաներ։ Մենք գտնում ենք, որ DALL·E-ն ունի տարբեր գաղափարներ համադրելու և սինթեզելու ունակություն՝ ստեղծելու օբյեկտներ, որոնցից որոշները հավանաբար իրական աշխարհում գոյություն չունեն: Մենք ուսումնասիրում ենք այս կարողությունը երկու դեպքերում՝ հատկություններ փոխանցելով տարբեր հասկացություններից կենդանիներին և արտադրանքներ նախագծելով՝ ոգեշնչվելով կապ չունեցող հասկացություններից։
Նախորդ բաժնում մենք ուսումնասիրեցինք DALL·E-ի ունակությունը՝ համատեղելու անհամատեղելի հասկացությունները՝ գեներացնելով իրական աշխարհի օբյեկտների պատկերներ։ Այստեղ մենք ուսումնասիրում ենք այս կարողությունը արվեստի համատեքստում՝ երեք տեսակի նկարազարդումների համար՝ կենդանիների և առարկաների մարդակերպ տարբերակներ, կենդանիների քիմերաներ և էմոջիներ։
GPT‑3‑ը կարող է հրահանգվել կատարել բազմաթիվ առաջադրանքներ միայն նկարագրությունից և հարցումից՝ գեներացնելով պատասխանը, որը տրամադրված է իր հարցման մեջ, առանց որևէ լրացուցիչ ուսուցման։ Օրինակ, երբ հարցնում են «այսպես է արտահայտությունը՝ «մարդը զբոսնում է իր շան հետ այգում» թարգմանված ֆրանսերենով», GPT‑3‑ը պատասխանում է՝ «un homme qui promène son chien dans le parc»։ Այս հնարավորությունը կոչվում է զրոյական հիմնավորում: Մենք գտնում ենք, որ DALL·E-ն ընդլայնում է այս հնարավորությունը տեսողական տիրույթում և կարող է կատարել պատկերից պատկեր մի քանի տեսակի թարգմանության առաջադրանքներ, երբ ճիշտ ձևով է հարցվում։
Մենք չէինք կանխատեսել, որ այս հնարավորությունը կծագի, և նեյրոնային ցանցի կամ ուսուցման ընթացակարգի մեջ փոփոխություններ չենք կատարել՝ այն խրախուսելու համար։ Այս արդյունքներից ոգեշնչված՝ մենք չափում ենք DALL·E-ի ունակությունը անալոգիական մտածողության խնդիրների համար՝ փորձարկելով այն Ռավենի պրոգրեսիվ մատրիցաներով, որը 20-րդ դարում լայնորեն օգտագործվող տեսողական IQ թեստ էր:
Մենք գտնում ենք, որ DALL·E-ն սովորել է աշխարհագրական փաստերի, տեսարժան վայրերի և թաղամասերի մասին։ Այս հասկացությունների վերաբերյալ նրա տեղեկությունները զարմանալիորեն ճշգրիտ են որոշ առումներով և թերի՝ մյուսներում։
Բացի տարածության մեջ փոփոխվող հասկացությունների վերաբերյալ DALL·E-ի տեղեկությունները ուսումնասիրելուց, մենք նաև ուսումնասիրում ենք ժամանակի ընթացքում փոփոխվող հասկացությունների վերաբերյալ նրա տեղեկությունները։
DALL·E-ն պարզ միայն դեկոդերային տրանսֆորմեր է, որը ստանում է թե՛ տեքստը, թե՛ պատկերը որպես 1280 թոքենների միակ հոսք՝ 256-ը տեքստի համար և 1024-ը՝ պատկերի համար, և մոդելավորում է դրանք բոլորը ավտոռեգրեսիվ կերպով։ Ուշադրության դիմակը իր 64 ինքնաուշադրության շերտերում թույլ է տալիս յուրաքանչյուր պատկեր թոքենին ուշադրություն դարձնել բոլոր տեքստային թոքեններին։ DALL·E-ն օգտագործում է ստանդարտ պատճառական դիմակ տեքստային թոքենների համար և նոսր ուշադրություն պատկերային թոքենների համար՝ կախված շերտից՝ կամ տողի, սյունակի կամ կոնվոլյուցիոն ուշադրության օրինաչափությամբ: Մենք տրամադրում ենք ճարտարապետության և ուսուցման ընթացակարգի մասին ավելի մանրամասն տեղեկություններ մեր հոդվածում(բացվում է նոր պատուհանում)։
Տեքստից-պատկեր սինթեզը եղել է ակտիվ հետազոտական ոլորտ Ռիդի և այլոց ռահվիրայական աշխատանքից ի վեր։ ալ, 1 որի մոտեցումը օգտագործում է տեքստային ներդրումների վրա պայմանավորված GAN-ը: Էմբեդինգները ստեղծվում են կոդավորիչի կողմից, որը նախապես ուսուցանվել է հակադրական կորստի միջոցով, ինչպես CLIP-ը: StackGAN3 և StackGAN++4 օգտագործում են բազմաստիճան GAN-ներ՝ պատկերների լուծաչափը մեծացնելու և տեսողական հավաստիությունը բարելավելու համար։ AttnGAN-ը5 ներառում է ուշադրություն տեքստի և պատկեր հատկությունների միջև և առաջարկում է հակադրական տեքստ-պատկեր հատկությունների համընկնման կորուստ որպես օժանդակ նպատակ։ Դա հետաքրքիր է համեմատել մեր CLIP-ով վերակարգավորման հետ, որը կատարվում է օֆլայն։ Այլ աշխատանքներ2, 6, 7 ուսուցման ընթացքում ներառում են լրացուցիչ վերահսկողության աղբյուրներ՝ պատկերների որակը բարելավելու նպատակով։ Վերջապես, Նգուենի և այլոց աշխատանքը։ ալ8 և Չոյի և այլոց9 աշխատանքը ուսումնասիրում է նմուշառման վրա հիմնված ռազմավարությունները պատկերների գեներացման համար, որոնք օգտագործում են նախապես վարժեցված բազմամոդալ դիսկրիմինատիվ մոդելներ։
Նմանապես, ինչպես մերժման նմուշառումը, որը կիրառվում է VQVAE-2(բացվում է նոր պատուհանում)-ում, մենք օգտագործում ենք CLIP ՝ վերադասավորելու համար 512 նմուշներից յուրաքանչյուր վերնագրի համար լավագույն 32-ը բոլոր ինտերակտիվ պատկերներում: Այս ընթացակարգը կարելի է դիտարկել նաև որպես լեզվով ուղղորդվող որոնում16, և այն կարող է զգալի ազդեցություն ունենալ նմուշի որակի վրա։
Ծանոթագրություններ
- A
Թոքենը ցանկացած նշան է անջատ բառապաշարից. մարդկանց համար յուրաքանչյուր անգլերեն տառ թոքեն է 26 տառանոց այբուբենից: DALL·E-ի բառապաշարը պարունակում է թոքեններ ինչպես տեքստային, այնպես էլ պատկերային հասկացությունների համար։ Մասնավորապես, յուրաքանչյուր պատկերի վերնագիր ներկայացվում է առավելագույնը 256 BPE-կոդավորված թոքեններով՝ 16384 բառապաշարով, իսկ պատկերը ներկայացվում է 1024 թոքեններով՝ 8192 բառապաշարով։
Պատկերները նախապես մշակվում են 256x256 լուծաչափով ուսուցման ժամանակ։ Նման VQVAE-ին, յուրաքանչյուր պատկեր սեղմվում է 32x32 ցանցի դիսկրետ լատենտ կոդերի միջոցով՝ օգտագործելով դիսկրետ VAE, որը մենք նախաուսուցել ենք շարունակական թուլացման միջոցով։ Մենք հայտնաբերեցինք, որ թուլացման միջոցով ուսուցումը վերացնում է բացահայտ կոդագրքի, EMA կորստի կամ մեռած կոդի վերականգնման նման հնարքների անհրաժեշտությունը և կարող է մասշտաբավորվել մինչև մեծ բառապաշարների չափսեր։
- B
Լրացուցիչ մանրամասները ներկայացված են հետագա բաժնում։
- 17
Այս առաջադրանքը կոչվում է փոփոխականների կապում և լայնորեն ուսումնասիրվել է գրականության մեջ։
Հղումներ
- 1
Ռիդ, Ս., Ակատա, Զ., Յան, Խ., Լոգեսվարան, Լ., Շիլե, Բ., Լի, Հ. (2016): «Գեներատիվ հակառակորդային տեքստից պատկերի սինթեզ(բացվում է նոր պատուհանում)։» ICML 2016-ում։
- 2
Ռիդ, Ս., Ակատա, Զ., Մոհան, Ս., Տենկա, Ս., Շիլե, Բ., Լի, Հ. (2016). «Իմանալ, թե ինչ և որտեղ նկարել(բացվում է նոր պատուհանում)։» NIPS 2016-ում։
- 3
Չժան, Հ., Շյու, Տ., Լի, Հ., Չժան, Ս., Վանգ, Խ., Հուանգ, Խ., Մետաքսաս, Դ. (2016)։ «StackGAN: Տեքստից դեպի լուսանկարչական-իրական պատկերների սինթեզ՝ կուտակված գեներատիվ հակառակորդային ցանցերով(բացվում է նոր պատուհանում):» ICCY 2017-ին։
- 4
Չժան, Հ., Շու, Տ., Լի, Հ., Չժան, Ս., Վանգ, Խ., Հուանգ, Խ., Մետաքսաս, Դ. (2017)։ «StackGAN++: իրական պատկերների սինթեզ՝ կուտակված գեներատիվ հակառակորդային ցանցերով(բացվում է նոր պատուհանում):» IEEE TPAMI 2018-ում։
- 5
Սյու, Տ., Չժանգ, Փ., Հուանգ, Ք., Չժանգ, Հ., Գան, Զ., Հուանգ, X., Հե, X. (2017): «AttnGAN: Նուրբ տեքստից պատկերների գեներացիա ուշադրության գեներատիվ հակառակորդային ցանցերով(բացվում է նոր պատուհանում)։»
- 6
Լի, Վ., Չժանգ, Փ., Չժանգ, Լ., Հուանգ, Ք., Հե, X., Լյու, Տ., Գաօ, Ջ. (2019)։ «Օբյեկտով ղեկավարվող տեքստից պատկերների սինթեզ՝ հակառակորդային ուսուցման միջոցով(բացվում է նոր պատուհանում)։» CVPR 2019-ին։
- 7
Կոհ, Ջ. Յ., Բալդրիջ, Ջ., Լի, Հ., Յանգ, Յ. (2020): «Տեքստից պատկերների գեներացիա՝ հիմնված մանրամասն օգտատերերի ուշադրության վրա(բացվում է նոր պատուհանում)։» WACV 2021-ում։
- 8
Նգույեն, Ա., Քլուն, Ջ., Բենջիո, Յ., Դոսովիցկի, Ա., Յոսինսկի, Ջ. (2016): «Միացրեք և գործարկեք գեներատիվ ցանցեր՝ պայմանական կրկնվող պատկերների ստեղծում լատենտային տարածքում(բացվում է նոր պատուհանում)։
- 9
Չո, Ջ., Լու, Ջ., Շվեն, Դ., Հաջիշիրզի, Հ., Կեմբհավի, Ա. (2020): «X-LXMERT: Նկարել, ենթագրել և պատասխանել հարցերին բազմամոդալ(բացվում է նոր պատուհանում) տրանսֆորմերներով։» EMNLP 2020
- 10
Քինգմա, Դիդերիկ Պ., և Մաքս Վելինգ: «Ավտո-կոդավորող վարիացիոն(բացվում է նոր պատուհանում) բայես:» arXiv preprint (2013)։
- 11
Ռեզենդե, Դանիլո Խիմենեզ, Շաքիր Մոհամեդ և Դան Վիերստրա։ «Ստոխաստիկ հետադարձ տարածում և մոտավոր եզրակացություն խորը գեներատիվ մոդելներում(բացվում է նոր պատուհանում)։» arXiv preprint (2014)։
- 12
Jang, E., Gu, S., Poole, B. (2016): «Կատեգորիկ վերապարամետրացում Gumbel-softmax-ով(բացվում է նոր պատուհանում)։»
- 13
Մեդիսոն, Կ., Մնիհ, Ա., Թեհ, Յ. Վ. (2016)։ «Կոնկրետ բաշխում. դիսկրետ պատահական փոփոխականների շարունակական թուլացում(բացվում է նոր պատուհանում)։»
- 14
Վան դեն Օորդ, Ա., Վինյալս, Օ., Քավուքջուօղլու, Կ. (2017): «Նեյրոնային դիսկրետ ներկայացման ուսուցում(բացվում է նոր պատուհանում):»
- 15
Ռազավի, Ա., Վան դեն Օորդ, Ա., Վինյալս, Օ. (2019): «Բազմազան բարձր ճշգրտությամբ պատկերներ գեներացնել VQ-VAE-2-ով(բացվում է նոր պատուհանում)։»
- 16
Անդրեաս, Ջ., Քլայն, Դ., Լևին, Ս. (2017): «Սովորել թաքնված լեզվով(բացվում է նոր պատուհանում)։»
- 17
- 18
- 19
Գեյլեր, Ռ. (1998): «Բազմապատկիչ կապ, ներկայացուցչական Operator և անալոգիա(բացվում է նոր պատուհանում)։»
- 20
Կաներվա, Պ. (1997)։ «Լիովին բաշխված ներկայացումներ(բացվում է նոր պատուհանում)։»


