5 જાન્યુઆરી, 2021

DALL·E: લખાણમાંથી છબીઓ બનાવવી

અમે DALL·E નામનું ન્યુરલ નેટવર્ક તાલીમ આપ્યું છે, જે કુદરતી ભાષામાં વ્યક્ત કરી શકાય તેવી વિસ્તૃત શ્રેણીના વિચારો માટે લખાણ કૅપ્શનમાંથી છબીઓ બનાવે છે.

ચિત્રાંકન: Justin Jay Wang

લોડિંગ…

DALL·E એ GPT‑3⁠(નવી વિન્ડોમાં ખૂલે છે)નું 12-બિલિયન પરિમાણો ધરાવતું સંસ્કરણ છે, જેને text–image pairsના ડેટાસેટનો ઉપયોગ કરીને લખાણ વર્ણનોમાંથી છબીઓ જનરેટ કરવા માટે તાલીમ અપાઈ છે. અમને જાણવા મળ્યું છે કે તેમાં વિવિધ ક્ષમતાઓ છે, જેમાં પ્રાણીઓ અને વસ્તુઓના માનવીય સ્વરૂપવાળા સંસ્કરણો બનાવવું, અસંબંધિત વિચારોને વિશ્વસનીય રીતે જોડવું, લખાણ રેન્ડર કરવું, અને અસ્તિત્વમાં રહેલી છબીઓ પર પરિવર્તનો લાગુ કરવું સામેલ છે.

આ પણ જુઓ: DALL·E 2⁠, જે 4x વધુ રિઝોલ્યુશન સાથે વધુ વાસ્તવિક અને ચોક્કસ છબીઓ જનરેટ કરે છે.

લોડ થઈ રહ્યું છે...

GPT‑3એ દર્શાવ્યું કે ભાષાનો ઉપયોગ કરીને મોટા ન્યુરલ નેટવર્કને વિવિધ પ્રકારનાં લખાણ જનરેશન કાર્યો કરવા સૂચવી શકાય છે. Image GPT⁠એ દર્શાવ્યું કે એ જ પ્રકારના ન્યુરલ નેટવર્કનો ઉપયોગ ઉચ્ચ ગુણવત્તા સાથે છબીઓ જનરેટ કરવા માટે પણ થઈ શકે છે. અમે આ શોધોને વિસ્તારીને બતાવીએ છીએ કે હવે ભાષા મારફતે દૃશ્ય સંકલ્પનાઓને બદલવી શક્યતાની અંદર છે.

અવલોકન

GPT‑3ની જેમ, DALL·E એક ટ્રાન્સફોર્મર ભાષા મોડલ છે. તે લખાણ અને છબી બંનેને 1280 ટોકન્સ સુધી ધરાવતા એકમાત્ર ડેટા પ્રવાહ તરીકે સ્વીકારે છે, અને બધા ટોકન્સને એક પછી એક જનરેટ કરવા માટે maximum likelihood નો ઉપયોગ કરીને તાલીમ અપાય છે. ^A

આ તાલીમ પ્રક્રિયા DALL·Eને માત્ર શરૂઆતથી છબી બનાવવાની જ નહીં, પરંતુ અસ્તિત્વમાં રહેલી છબીના નીચે-જમણા ખૂણાં સુધી વિસ્તરતા કોઈપણ આયાતાકાર ક્ષેત્રને લખાણ પ્રોમ્પ્ટ સાથે સુસંગત રીતે ફરીથી જનરેટ કરવાની પણ મંજૂરી આપે છે.

અમે સ્વીકારીએ છીએ કે જનરેટિવ મોડેલ્સને સામેલ કરતું કાર્ય નોંધપાત્ર અને વ્યાપક સામાજિક પ્રભાવ પેદા કરવાની સંભાવના ધરાવે છે. ભવિષ્યમાં, અમે DALL·E જેવા મોડલ્સનો કેટલાક કાર્યપ્રવાહો અને વ્યવસાયો પર પડતા આર્થિક પ્રભાવ, મોડલ આઉટપુટ્સમાં પૂર્વગ્રહની સંભાવના, અને આ ટેકનોલોજીથી ઉદ્ભવતા લાંબા ગાળાના નૈતિક પડકારો જેવા સામાજિક મુદ્દાઓ સાથે કેવી રીતે સંબંધ છે તેનું વિશ્લેષણ કરવાની યોજના બનાવીએ છીએ.

ક્ષમતાઓ

અમને લાગે છે કે DALL·E ભાષાની સંયોજક રચનાની તપાસ કરતા ખૂબ વિવિધ પ્રકારના વાક્યો માટે વિશ્વસનીય છબીઓ બનાવી શકે છે. અમે આને આગામી વિભાગમાં ઇન્ટરેક્ટિવ visualsની શ્રેણી દ્વારા દર્શાવીએ છીએ. visualsમાં દરેક કૅપ્શન માટે દર્શાવાયેલા નમૂનાઓ CLIP⁠ સાથે reranking કર્યા પછી 512માંથી ટોચના 32 લઈને મેળવવામાં આવે છે, પરંતુ thumbnails અને બહાર દેખાતી standalone images સિવાય અમે કોઈ manual cherry-picking કરતા નથી.^B

ગુણધર્મો નિયંત્રિત કરવું

અમે DALL·Eની કોઈ ઑબ્જેક્ટના અનેક ગુણધર્મો, તેમજ તે કેટલાં વખત દેખાય છે તેની સંખ્યા બદલવાની ક્ષમતા ચકાસીએ છીએ.

લોડ થઈ રહ્યું છે...

અનેક ઑબ્જેક્ટ્સ દોરવા

એક સાથે ઘણા ઑબ્જેક્ટ્સ, તેમના ગુણધર્મો અને તેમના સ્થાનીક સંબંધોને નિયંત્રિત કરવું એક નવો પડકાર રજૂ કરે છે. ઉદાહરણ તરીકે, “a hedgehog wearing a red hat, yellow gloves, blue shirt, and green pants.” શબ્દસમૂહ પર વિચાર કરો. આ વાક્યને યોગ્ય રીતે સમજવા માટે, DALL·Eએ માત્ર કપડાંના દરેક ભાગને પ્રાણી સાથે યોગ્ય રીતે સંયોજિત કરવું જ નહીં, પરંતુ (hat, red), (gloves, yellow), (shirt, blue), અને (pants, green) જેવી જોડાણો પણ ગડબડ કર્યા વિના બનાવવી પડે છે ^C

અમે DALL·Eની આ કાર્યને સંબંધિત સ્થાન, ઑબ્જેક્ટ્સને ગોઠવવા અને બહુવિધ ગુણધર્મો નિયંત્રિત કરવા માટેની ક્ષમતા ચકાસીએ છીએ.

લોડ થઈ રહ્યું છે...

જ્યાં સુધી DALL·E થોડા પ્રમાણમાં ઓછી સંખ્યામાં ઑબ્જેક્ટ્સના ગુણધર્મો અને સ્થાનો પર નિયંત્રણ આપે છે, ત્યાં સુધી સફળતાનો દર કૅપ્શન કેવી રીતે લખાયેલું છે તેના પર નિર્ભર રહી શકે છે. વધુ ઑબ્જેક્ટ્સ રજૂ થતા, DALL·E ઑબ્જેક્ટ્સ અને તેમના રંગો વચ્ચેના સંબંધોમાં ગૂંચવાઈ જવાની વૃત્તિ દર્શાવે છે, અને સફળતાનો દર ઝડપથી ઘટે છે. અમે એ પણ નોંધીએ છીએ કે આવા પરિસ્થિતિઓમાં કૅપ્શનને ફરીથી શબ્દબદ્ધ કરવા બાબતે DALL·E અસ્થિર છે: અર્થમાં સમકક્ષ વૈકલ્પિક કૅપ્શન્સ ઘણી વાર કોઈ યોગ્ય અર્થઘટન આપતા નથી.

દ્રષ્ટિકોણ અને ત્રિ-આયામિતાનું દૃશ્યીકરણ

અમને લાગે છે કે DALL·E દૃશ્યના દ્રષ્ટિકોણ અને દૃશ્યને રેન્ડર કરવામાં આવેલી 3D શૈલી પર નિયંત્રણ પણ આપે છે.

લોડ થઈ રહ્યું છે...

આને વધુ આગળ ધપાવવા માટે, અમે DALL·Eની જાણીતી વ્યક્તિના માથાને સમાન અંતરવાળા કોણોની શ્રેણીમાં દરેક કોણે વારંવાર દોરવાની ક્ષમતા ચકાસીએ છીએ, અને અમને ફરી રહેલા માથાનું સ્મૂથ એનિમેશન પુનઃપ્રાપ્ત કરી શકીએ છીએ.

લોડ થઈ રહ્યું છે...

DALL·E દૃશ્યો પર કેટલીક પ્રકારની optical distortions લાગુ કરી શકે એવું લાગે છે, જેમ કે અમે “fisheye lens view” અને “a spherical panorama” વિકલ્પોમાં જોઈએ છીએ. આથી અમને તેની reflections જનરેટ કરવાની ક્ષમતાની તપાસ કરવા પ્રેરણા મળી.

લોડ થઈ રહ્યું છે...

આંતરિક અને બાહ્ય રચનાનું દૃશ્યીકરણ

“extreme close-up view” અને “x-ray” શૈલીના નમૂનાઓએ અમને DALL·Eની ક્રોસ-સેક્શનલ દૃશ્યો દ્વારા આંતરિક રચના અને macro photographs દ્વારા બાહ્ય રચના રેન્ડર કરવાની ક્ષમતાની વધુ તપાસ કરવા પ્રેર્યા.

લોડ થઈ રહ્યું છે...

સંદર્ભાત્મક વિગતોનો અંદાજ લગાવવો

લખાણને છબીઓમાં અનુવાદિત કરવાનો કાર્ય અધૂરો નિર્દિષ્ટ છે: એક જ કૅપ્શન સામાન્ય રીતે અનંત સંખ્યામાં વિશ્વસનીય છબીઓ સાથે સંબંધિત હોય છે, તેથી છબી અનન્ય રીતે નક્કી થતી નથી. ઉદાહરણ તરીકે, “a painting of a capybara sitting on a field at sunrise.” કૅપ્શન પર વિચાર કરો. capybaraની દિશા પર આધાર રાખીને, છાયો દોરવો જરૂરી બની શકે, છતાં આ વિગતો ક્યારેય સ્પષ્ટ રીતે ઉલ્લેખાતી નથી. અમે DALL·Eની અધૂરી નિર્દિષ્ટતાનું સમાધાન કરવાની ક્ષમતાની ત્રણ કિસ્સાઓમાં તપાસ કરીએ છીએ: શૈલી, પરિસ્થિતિ અને સમય બદલવો; એ જ ઑબ્જેક્ટને વિવિધ પરિસ્થિતિઓમાં દોરવો; અને કોઈ ઑબ્જેક્ટ પર ચોક્કસ લખાણ લખાયેલું હોય તેવી છબી જનરેટ કરવી.

લોડ થઈ રહ્યું છે...

વિશ્વસનીયતાના વિવિધ સ્તરો સાથે, DALL·E કુદરતી ભાષા મારફતે 3D rendering engineની કેટલીક ક્ષમતાઓના ઉપસેટ સુધી પહોંચ આપે છે. તે ઓછી સંખ્યામાં ઑબ્જેક્ટ્સના ગુણધર્મોને સ્વતંત્ર રીતે નિયંત્રિત કરી શકે છે, અને મર્યાદિત અંશે તેમની સંખ્યા અને તેઓ એકબીજા સામે કેવી રીતે ગોઠવાયેલા છે તે પણ નિયંત્રિત કરી શકે છે. તે દૃશ્ય કયા સ્થાનથી અને કયા કોણથી રેન્ડર થાય છે તે પણ નિયંત્રિત કરી શકે છે, અને કોણ અને પ્રકાશની પરિસ્થિતિઓના ચોક્કસ નિર્દેશોનું પાલન કરતાં જાણીતા ઑબ્જેક્ટ્સ જનરેટ કરી શકે છે.

3D rendering engineથી વિપરીત, જેમાં ઇનપુટ્સ નિર્વિવાદ અને સંપૂર્ણ વિગત સાથે નિર્દેશિત કરવાના હોય છે, DALL·E ઘણી વાર ત્યારે “ખાલી જગ્યાઓ ભરી” શકે છે જ્યારે કૅપ્શન સૂચવે છે કે છબીમાં એવો કોઈ વિગત હોવો જોઈએ જે સ્પષ્ટ રીતે જણાવાયો નથી.

પૂર્વવર્તી ક્ષમતાઓના ઉપયોગો

આગળ, અમે ફેશન અને આંતરિક ડિઝાઇન માટે પૂર્વવર્તી ક્ષમતાઓના ઉપયોગની તપાસ કરીએ છીએ.

લોડ થઈ રહ્યું છે...

અસંબંધિત વિચારોને જોડવું

ભાષાની સંયોજક પ્રકૃતિ આપણને વાસ્તવિક અને કલ્પિત બંને પ્રકારની વસ્તુઓ વર્ણવવા માટે વિચારોને એકસાથે ગોઠવવાની મંજૂરી આપે છે. અમને લાગે છે કે DALL·E પાસે અલગ-અલગ વિચારોને જોડીને વસ્તુઓનું સંશ્લેષણ કરવાની ક્ષમતા પણ છે, જેમાંથી કેટલીક વાસ્તવિક દુનિયામાં અસ્તિત્વ ધરાવતી હોવાની શક્યતા ઓછી છે. અમે આ ક્ષમતાને બે ઉદાહરણોમાં તપાસીએ છીએ: વિવિધ વિચારોના ગુણધર્મો પ્રાણીઓમાં સ્થાનાંતરિત કરવું, અને અસંબંધિત વિચારોમાંથી પ્રેરણા લઈને ઉત્પાદનો ડિઝાઇન કરવું.

લોડ થઈ રહ્યું છે...

પ્રાણી ચિત્રો

પાછલા વિભાગમાં, અમે વાસ્તવિક દુનિયાની વસ્તુઓની છબીઓ જનરેટ કરતી વખતે DALL·Eની અસંબંધિત વિચારોને જોડવાની ક્ષમતાની તપાસ કરી હતી. અહીં, અમે કળાના પરિપ્રેક્ષ્યમાં આ ક્ષમતાની તપાસ કરીએ છીએ, ત્રણ પ્રકારના ચિત્રો માટે: પ્રાણીઓ અને વસ્તુઓના માનવીય સ્વરૂપવાળા સંસ્કરણો, animal chimeras, અને emojis.

લોડ થઈ રહ્યું છે...

ઝીરો-શોટ દૃશ્ય રિઝનિંગ

GPT‑3ને કોઈ વધારાની તાલીમ વગર, માત્ર વર્ણન અને તેના પ્રોમ્પ્ટમાં આપેલા જવાબ માટેના સંકેતના આધારે અનેક પ્રકારના કાર્યો કરવા સૂચવી શકાય છે. ઉદાહરણ તરીકે, “here is the sentence ‘a person walking his dog in the park’ translated into French:” શબ્દસમૂહ આપતાં, GPT‑3 જવાબ આપે છે “un homme qui promène son chien dans le parc.” આ ક્ષમતાને ઝીરો-શોટ રિઝનિંગ. કહેવામાં આવે છે. અમને લાગે છે કે DALL·E આ ક્ષમતાને દૃશ્ય ક્ષેત્ર સુધી વિસ્તારે છે, અને યોગ્ય રીતે પ્રોમ્પ્ટ આપવામાં આવે ત્યારે image-to-image translationના અનેક પ્રકારના કાર્યો કરી શકે છે.

લોડ થઈ રહ્યું છે...

અમને આ ક્ષમતા ઊભી થશે તેવી અપેક્ષા નહોતી, અને તેને પ્રોત્સાહિત કરવા માટે અમે ન્યુરલ નેટવર્ક અથવા તાલીમ પ્રક્રિયામાં કોઈ ફેરફાર કર્યા નહોતાં. આ પરિણામોથી પ્રેરાઈને, અમે 20મી સદીમાં વ્યાપક રીતે ઉપયોગમાં લેવાયેલા દૃશ્ય IQ ટેસ્ટ Raven’s progressive matrices પર DALL·Eને ચકાસીને, સમાનતામૂલક রিজনિંગ સમસ્યાઓ માટે તેની યોગ્યતા માપીએ છીએ.

લોડ થઈ રહ્યું છે...

ભૌગોલિક જ્ઞાન

અમને લાગે છે કે DALL·Eએ ભૌગોલિક તથ્યો, landmarks અને neighborhoods વિશે શીખ્યું છે. આ વિચારો અંગે તેનું જ્ઞાન કેટલીક રીતે આશ્ચર્યજનક રીતે ચોક્કસ છે અને બીજી રીતે ખામીયુક્ત છે.

લોડ થઈ રહ્યું છે...

કાલસંબંધિત જ્ઞાન

DALL·Eના અવકાશ પ્રમાણે બદલાતા વિચારો વિષેના જ્ઞાનની તપાસ કરવા ઉપરાંત, અમે સમય પ્રમાણે બદલાતા વિચારો વિષેના તેના જ્ઞાનની પણ તપાસ કરીએ છીએ.

લોડ થઈ રહ્યું છે...

અભિગમ અને પૂર્વ કાર્યનો સારાંશ

DALL·E એક સરળ decoder-only ટ્રાન્સફોર્મર છે, જે લખાણ અને છબી બંનેને 1280 ટોકન્સના એક જ પ્રવાહ તરીકે સ્વીકારે છે—લખાણ માટે 256 અને છબી માટે 1024—અને તે બધાનું autoregressively મોડેલિંગ કરે છે. તેની 64 self-attention layersમાંની દરેક પર attention mask દરેક image tokenને બધા text tokens પર ધ્યાન આપવા દે છે. DALL·E text tokens માટે standard causal mask નો ઉપયોગ કરે છે, અને image tokens માટે layer અનુસાર row, column, અથવા convolutional attention pattern સાથે sparse attention વાપરે છે. અમે અમારી paper⁠(નવી વિન્ડોમાં ખૂલે છે)માં architecture અને training procedure વિશે વધુ વિગતો આપીએ છીએ.

ટેક્સ્ટ-ટુ-ઇમેજ synthesis Reed et. al.ના પાયાના કાર્યથી સંશોધનનું સક્રિય ક્ષેત્ર રહ્યું છે,¹ જેમનો અભિગમ text embeddings પર conditioned GAN નો ઉપયોગ કરે છે. embeddings contrastive loss નો ઉપયોગ કરીને pretrained encoder દ્વારા બને છે, જે CLIP જેવી જ છે. StackGAN³ અને StackGAN++⁴ ઇમેજ રિઝોલ્યુશન વધારવા અને દૃશ્ય ગુણવત્તા સુધારવા multi-scale GANs નો ઉપયોગ કરે છે. AttnGAN⁵ લખાણ અને છબી લક્ષણો વચ્ચે attention સમાવે છે, અને auxiliary objective તરીકે contrastive text-image feature matching loss સૂચવે છે. અમારી CLIP સાથેની offline reranking સાથે તેની તુલના કરવી રસપ્રદ છે. અન્ય કાર્ય^{2, 6, 7} તાલીમ દરમિયાન image quality સુધારવા supervisionના વધારાના સ્ત્રોતો સામેલ કરે છે. અંતમાં, Nguyen et. al⁸ અને Cho et. al⁹નું કાર્ય pretrained multimodal discriminative modelsનો ઉપયોગ કરતી image generation માટે sampling-based વ્યૂહરચનાઓનું અનુસંધાન કરે છે.

VQVAE-2⁠(નવી વિન્ડોમાં ખૂલે છે)માં વપરાતા rejection sampling જેવી જ રીતે, અમે તમામ ઇન્ટરેક્ટિવ visualsમાં દરેક કૅપ્શન માટે 512 નમૂનાઓમાંથી ટોચના 32ને rerank કરવા માટે CLIP⁠ નો ઉપયોગ કરીએ છીએ. આ પ્રક્રિયાને language-guided search¹⁶ ના એક પ્રકાર તરીકે પણ જોઈ શકાય છે, અને તે sample quality પર નાટકીય અસર કરી શકે છે.

લોડ થઈ રહ્યું છે...

ફૂટનોટ્સ

A
ટોકન એ discrete vocabularyમાંથી કોઈપણ ચિહ્ન છે; માણસો માટે, અંગ્રેજીના દરેક અક્ષર 26-અક્ષરના alphabetમાંથી એક ટોકન છે. DALL·Eની vocabularyમાં લખાણ અને છબી બંને વિચારો માટે ટોકન્સ છે. ખાસ કરીને, દરેક image captionને 16384ની vocabulary size સાથે મહત્તમ 256 BPE-encoded ટોકન્સ વડે દર્શાવવામાં આવે છે, અને છબીને 8192ની vocabulary size સાથે 1024 ટોકન્સ વડે દર્શાવવામાં આવે છે.

તાલીમ દરમિયાન છબીઓ 256x256 resolution માટે preprocess કરવામાં આવે છે. VQVAE જેવી જ રીતે, દરેક છબીને discrete VAE નો ઉપયોગ કરીને discrete લેટન્ટ કોડ્સની 32x32 gridમાં સંકુચિત કરવામાં આવે છે, જેને અમે continuous relaxation નો ઉપયોગ કરીને pretrained કર્યું હતું. અમને જાણવા મળ્યું કે relaxationનો ઉપયોગ કરીને તાલીમ આપવાથી explicit codebook, EMA loss, અથવા dead code revival જેવી યુક્તિઓની જરૂર રહેતી નથી, અને તે મોટી vocabulary sizes સુધી scale કરી શકે છે.