DALL·E: લખાણમાંથી છબીઓ બનાવવી
અમે DALL·E નામનું ન્યુરલ નેટવર્ક તાલીમ આપ્યું છે, જે કુદરતી ભાષામાં વ્યક્ત કરી શકાય તેવી વિસ્તૃત શ્રેણીના વિચારો માટે લખાણ કૅપ્શનમાંથી છબીઓ બનાવે છે.

ચિત્રાંકન: Justin Jay Wang
DALL·E એ GPT‑3(નવી વિન્ડોમાં ખૂલે છે)નું 12-બિલિયન પરિમાણો ધરાવતું સંસ્કરણ છે, જેને text–image pairsના ડેટાસેટનો ઉપયોગ કરીને લખાણ વર્ણનોમાંથી છબીઓ જનરેટ કરવા માટે તાલીમ અપાઈ છે. અમને જાણવા મળ્યું છે કે તેમાં વિવિધ ક્ષમતાઓ છે, જેમાં પ્રાણીઓ અને વસ્તુઓના માનવીય સ્વરૂપવાળા સંસ્કરણો બનાવવું, અસંબંધિત વિચારોને વિશ્વસનીય રીતે જોડવું, લખાણ રેન્ડર કરવું, અને અસ્તિત્વમાં રહેલી છબીઓ પર પરિવર્તનો લાગુ કરવું સામેલ છે.
આ પણ જુઓ: DALL·E 2, જે 4x વધુ રિઝોલ્યુશન સાથે વધુ વાસ્તવિક અને ચોક્કસ છબીઓ જનરેટ કરે છે.
GPT‑3એ દર્શાવ્યું કે ભાષાનો ઉપયોગ કરીને મોટા ન્યુરલ નેટવર્કને વિવિધ પ્રકારનાં લખાણ જનરેશન કાર્યો કરવા સૂચવી શકાય છે. Image GPTએ દર્શાવ્યું કે એ જ પ્રકારના ન્યુરલ નેટવર્કનો ઉપયોગ ઉચ્ચ ગુણવત્તા સાથે છબીઓ જનરેટ કરવા માટે પણ થઈ શકે છે. અમે આ શોધોને વિસ્તારીને બતાવીએ છીએ કે હવે ભાષા મારફતે દૃશ્ય સંકલ્પનાઓને બદલવી શક્યતાની અંદર છે.
GPT‑3ની જેમ, DALL·E એક ટ્રાન્સફોર્મર ભાષા મોડલ છે. તે લખાણ અને છબી બંનેને 1280 ટોકન્સ સુધી ધરાવતા એકમાત્ર ડેટા પ્રવાહ તરીકે સ્વીકારે છે, અને બધા ટોકન્સને એક પછી એક જનરેટ કરવા માટે maximum likelihood નો ઉપયોગ કરીને તાલીમ અપાય છે. A
આ તાલીમ પ્રક્રિયા DALL·Eને માત્ર શરૂઆતથી છબી બનાવવાની જ નહીં, પરંતુ અસ્તિત્વમાં રહેલી છબીના નીચે-જમણા ખૂણાં સુધી વિસ્તરતા કોઈપણ આયાતાકાર ક્ષેત્રને લખાણ પ્રોમ્પ્ટ સાથે સુસંગત રીતે ફરીથી જનરેટ કરવાની પણ મંજૂરી આપે છે.
અમે સ્વીકારીએ છીએ કે જનરેટિવ મોડેલ્સને સામેલ કરતું કાર્ય નોંધપાત્ર અને વ્યાપક સામાજિક પ્રભાવ પેદા કરવાની સંભાવના ધરાવે છે. ભવિષ્યમાં, અમે DALL·E જેવા મોડલ્સનો કેટલાક કાર્યપ્રવાહો અને વ્યવસાયો પર પડતા આર્થિક પ્રભાવ, મોડલ આઉટપુટ્સમાં પૂર્વગ્રહની સંભાવના, અને આ ટેકનોલોજીથી ઉદ્ભવતા લાંબા ગાળાના નૈતિક પડકારો જેવા સામાજિક મુદ્દાઓ સાથે કેવી રીતે સંબંધ છે તેનું વિશ્લેષણ કરવાની યોજના બનાવીએ છીએ.
અમને લાગે છે કે DALL·E ભાષાની સંયોજક રચનાની તપાસ કરતા ખૂબ વિવિધ પ્રકારના વાક્યો માટે વિશ્વસનીય છબીઓ બનાવી શકે છે. અમે આને આગામી વિભાગમાં ઇન્ટરેક્ટિવ visualsની શ્રેણી દ્વારા દર્શાવીએ છીએ. visualsમાં દરેક કૅપ્શન માટે દર્શાવાયેલા નમૂનાઓ CLIP સાથે reranking કર્યા પછી 512માંથી ટોચના 32 લઈને મેળવવામાં આવે છે, પરંતુ thumbnails અને બહાર દેખાતી standalone images સિવાય અમે કોઈ manual cherry-picking કરતા નથી.B
અમે DALL·Eની કોઈ ઑબ્જેક્ટના અનેક ગુણધર્મો, તેમજ તે કેટલાં વખત દેખાય છે તેની સંખ્યા બદલવાની ક્ષમતા ચકાસીએ છીએ.
એક સાથે ઘણા ઑબ્જેક્ટ્સ, તેમના ગુણધર્મો અને તેમના સ્થાનીક સંબંધોને નિયંત્રિત કરવું એક નવો પડકાર રજૂ કરે છે. ઉદાહરણ તરીકે, “a hedgehog wearing a red hat, yellow gloves, blue shirt, and green pants.” શબ્દસમૂહ પર વિચાર કરો. આ વાક્યને યોગ્ય રીતે સમજવા માટે, DALL·Eએ માત્ર કપડાંના દરેક ભાગને પ્રાણી સાથે યોગ્ય રીતે સંયોજિત કરવું જ નહીં, પરંતુ (hat, red), (gloves, yellow), (shirt, blue), અને (pants, green) જેવી જોડાણો પણ ગડબડ કર્યા વિના બનાવવી પડે છે C
અમે DALL·Eની આ કાર્યને સંબંધિત સ્થાન, ઑબ્જેક્ટ્સને ગોઠવવા અને બહુવિધ ગુણધર્મો નિયંત્રિત કરવા માટેની ક્ષમતા ચકાસીએ છીએ.
જ્યાં સુધી DALL·E થોડા પ્રમાણમાં ઓછી સંખ્યામાં ઑબ્જેક્ટ્સના ગુણધર્મો અને સ્થાનો પર નિયંત્રણ આપે છે, ત્યાં સુધી સફળતાનો દર કૅપ્શન કેવી રીતે લખાયેલું છે તેના પર નિર્ભર રહી શકે છે. વધુ ઑબ્જેક્ટ્સ રજૂ થતા, DALL·E ઑબ્જેક્ટ્સ અને તેમના રંગો વચ્ચેના સંબંધોમાં ગૂંચવાઈ જવાની વૃત્તિ દર્શાવે છે, અને સફળતાનો દર ઝડપથી ઘટે છે. અમે એ પણ નોંધીએ છીએ કે આવા પરિસ્થિતિઓમાં કૅપ્શનને ફરીથી શબ્દબદ્ધ કરવા બાબતે DALL·E અસ્થિર છે: અર્થમાં સમકક્ષ વૈકલ્પિક કૅપ્શન્સ ઘણી વાર કોઈ યોગ્ય અર્થઘટન આપતા નથી.
અમને લાગે છે કે DALL·E દૃશ્યના દ્રષ્ટિકોણ અને દૃશ્યને રેન્ડર કરવામાં આવેલી 3D શૈલી પર નિયંત્રણ પણ આપે છે.
આને વધુ આગળ ધપાવવા માટે, અમે DALL·Eની જાણીતી વ્યક્તિના માથાને સમાન અંતરવાળા કોણોની શ્રેણીમાં દરેક કોણે વારંવાર દોરવાની ક્ષમતા ચકાસીએ છીએ, અને અમને ફરી રહેલા માથાનું સ્મૂથ એનિમેશન પુનઃપ્રાપ્ત કરી શકીએ છીએ.
DALL·E દૃશ્યો પર કેટલીક પ્રકારની optical distortions લાગુ કરી શકે એવું લાગે છે, જેમ કે અમે “fisheye lens view” અને “a spherical panorama” વિકલ્પોમાં જોઈએ છીએ. આથી અમને તેની reflections જનરેટ કરવાની ક્ષમતાની તપાસ કરવા પ્રેરણા મળી.
“extreme close-up view” અને “x-ray” શૈલીના નમૂનાઓએ અમને DALL·Eની ક્રોસ-સેક્શનલ દૃશ્યો દ્વારા આંતરિક રચના અને macro photographs દ્વારા બાહ્ય રચના રેન્ડર કરવાની ક્ષમતાની વધુ તપાસ કરવા પ્રેર્યા.
લખાણને છબીઓમાં અનુવાદિત કરવાનો કાર્ય અધૂરો નિર્દિષ્ટ છે: એક જ કૅપ્શન સામાન્ય રીતે અનંત સંખ્યામાં વિશ્વસનીય છબીઓ સાથે સંબંધિત હોય છે, તેથી છબી અનન્ય રીતે નક્કી થતી નથી. ઉદાહરણ તરીકે, “a painting of a capybara sitting on a field at sunrise.” કૅપ્શન પર વિચાર કરો. capybaraની દિશા પર આધાર રાખીને, છાયો દોરવો જરૂરી બની શકે, છતાં આ વિગતો ક્યારેય સ્પષ્ટ રીતે ઉલ્લેખાતી નથી. અમે DALL·Eની અધૂરી નિર્દિષ્ટતાનું સમાધાન કરવાની ક્ષમતાની ત્રણ કિસ્સાઓમાં તપાસ કરીએ છીએ: શૈલી, પરિસ્થિતિ અને સમય બદલવો; એ જ ઑબ્જેક્ટને વિવિધ પરિસ્થિતિઓમાં દોરવો; અને કોઈ ઑબ્જેક્ટ પર ચોક્કસ લખાણ લખાયેલું હોય તેવી છબી જનરેટ કરવી.
વિશ્વસનીયતાના વિવિધ સ્તરો સાથે, DALL·E કુદરતી ભાષા મારફતે 3D rendering engineની કેટલીક ક્ષમતાઓના ઉપસેટ સુધી પહોંચ આપે છે. તે ઓછી સંખ્યામાં ઑબ્જેક્ટ્સના ગુણધર્મોને સ્વતંત્ર રીતે નિયંત્રિત કરી શકે છે, અને મર્યાદિત અંશે તેમની સંખ્યા અને તેઓ એકબીજા સામે કેવી રીતે ગોઠવાયેલા છે તે પણ નિયંત્રિત કરી શકે છે. તે દૃશ્ય કયા સ્થાનથી અને કયા કોણથી રેન્ડર થાય છે તે પણ નિયંત્રિત કરી શકે છે, અને કોણ અને પ્રકાશની પરિસ્થિતિઓના ચોક્કસ નિર્દેશોનું પાલન કરતાં જાણીતા ઑબ્જેક્ટ્સ જનરેટ કરી શકે છે.
3D rendering engineથી વિપરીત, જેમાં ઇનપુટ્સ નિર્વિવાદ અને સંપૂર્ણ વિગત સાથે નિર્દેશિત કરવાના હોય છે, DALL·E ઘણી વાર ત્યારે “ખાલી જગ્યાઓ ભરી” શકે છે જ્યારે કૅપ્શન સૂચવે છે કે છબીમાં એવો કોઈ વિગત હોવો જોઈએ જે સ્પષ્ટ રીતે જણાવાયો નથી.
આગળ, અમે ફેશન અને આંતરિક ડિઝાઇન માટે પૂર્વવર્તી ક્ષમતાઓના ઉપયોગની તપાસ કરીએ છીએ.
ભાષાની સંયોજક પ્રકૃતિ આપણને વાસ્તવિક અને કલ્પિત બંને પ્રકારની વસ્તુઓ વર્ણવવા માટે વિચારોને એકસાથે ગોઠવવાની મંજૂરી આપે છે. અમને લાગે છે કે DALL·E પાસે અલગ-અલગ વિચારોને જોડીને વસ્તુઓનું સંશ્લેષણ કરવાની ક્ષમતા પણ છે, જેમાંથી કેટલીક વાસ્તવિક દુનિયામાં અસ્તિત્વ ધરાવતી હોવાની શક્યતા ઓછી છે. અમે આ ક્ષમતાને બે ઉદાહરણોમાં તપાસીએ છીએ: વિવિધ વિચારોના ગુણધર્મો પ્રાણીઓમાં સ્થાનાંતરિત કરવું, અને અસંબંધિત વિચારોમાંથી પ્રેરણા લઈને ઉત્પાદનો ડિઝાઇન કરવું.
પાછલા વિભાગમાં, અમે વાસ્તવિક દુનિયાની વસ્તુઓની છબીઓ જનરેટ કરતી વખતે DALL·Eની અસંબંધિત વિચારોને જોડવાની ક્ષમતાની તપાસ કરી હતી. અહીં, અમે કળાના પરિપ્રેક્ષ્યમાં આ ક્ષમતાની તપાસ કરીએ છીએ, ત્રણ પ્રકારના ચિત્રો માટે: પ્રાણીઓ અને વસ્તુઓના માનવીય સ્વરૂપવાળા સંસ્કરણો, animal chimeras, અને emojis.
GPT‑3ને કોઈ વધારાની તાલીમ વગર, માત્ર વર્ણન અને તેના પ્રોમ્પ્ટમાં આપેલા જવાબ માટેના સંકેતના આધારે અનેક પ્રકારના કાર્યો કરવા સૂચવી શકાય છે. ઉદાહરણ તરીકે, “here is the sentence ‘a person walking his dog in the park’ translated into French:” શબ્દસમૂહ આપતાં, GPT‑3 જવાબ આપે છે “un homme qui promène son chien dans le parc.” આ ક્ષમતાને ઝીરો-શોટ રિઝનિંગ. કહેવામાં આવે છે. અમને લાગે છે કે DALL·E આ ક્ષમતાને દૃશ્ય ક્ષેત્ર સુધી વિસ્તારે છે, અને યોગ્ય રીતે પ્રોમ્પ્ટ આપવામાં આવે ત્યારે image-to-image translationના અનેક પ્રકારના કાર્યો કરી શકે છે.
અમને આ ક્ષમતા ઊભી થશે તેવી અપેક્ષા નહોતી, અને તેને પ્રોત્સાહિત કરવા માટે અમે ન્યુરલ નેટવર્ક અથવા તાલીમ પ્રક્રિયામાં કોઈ ફેરફાર કર્યા નહોતાં. આ પરિણામોથી પ્રેરાઈને, અમે 20મી સદીમાં વ્યાપક રીતે ઉપયોગમાં લેવાયેલા દૃશ્ય IQ ટેસ્ટ Raven’s progressive matrices પર DALL·Eને ચકાસીને, સમાનતામૂલક রিজনિંગ સમસ્યાઓ માટે તેની યોગ્યતા માપીએ છીએ.
અમને લાગે છે કે DALL·Eએ ભૌગોલિક તથ્યો, landmarks અને neighborhoods વિશે શીખ્યું છે. આ વિચારો અંગે તેનું જ્ઞાન કેટલીક રીતે આશ્ચર્યજનક રીતે ચોક્કસ છે અને બીજી રીતે ખામીયુક્ત છે.
DALL·Eના અવકાશ પ્રમાણે બદલાતા વિચારો વિષેના જ્ઞાનની તપાસ કરવા ઉપરાંત, અમે સમય પ્રમાણે બદલાતા વિચારો વિષેના તેના જ્ઞાનની પણ તપાસ કરીએ છીએ.
DALL·E એક સરળ decoder-only ટ્રાન્સફોર્મર છે, જે લખાણ અને છબી બંનેને 1280 ટોકન્સના એક જ પ્રવાહ તરીકે સ્વીકારે છે—લખાણ માટે 256 અને છબી માટે 1024—અને તે બધાનું autoregressively મોડેલિંગ કરે છે. તેની 64 self-attention layersમાંની દરેક પર attention mask દરેક image tokenને બધા text tokens પર ધ્યાન આપવા દે છે. DALL·E text tokens માટે standard causal mask નો ઉપયોગ કરે છે, અને image tokens માટે layer અનુસાર row, column, અથવા convolutional attention pattern સાથે sparse attention વાપરે છે. અમે અમારી paper(નવી વિન્ડોમાં ખૂલે છે)માં architecture અને training procedure વિશે વધુ વિગતો આપીએ છીએ.
ટેક્સ્ટ-ટુ-ઇમેજ synthesis Reed et. al.ના પાયાના કાર્યથી સંશોધનનું સક્રિય ક્ષેત્ર રહ્યું છે,1 જેમનો અભિગમ text embeddings પર conditioned GAN નો ઉપયોગ કરે છે. embeddings contrastive loss નો ઉપયોગ કરીને pretrained encoder દ્વારા બને છે, જે CLIP જેવી જ છે. StackGAN3 અને StackGAN++4 ઇમેજ રિઝોલ્યુશન વધારવા અને દૃશ્ય ગુણવત્તા સુધારવા multi-scale GANs નો ઉપયોગ કરે છે. AttnGAN5 લખાણ અને છબી લક્ષણો વચ્ચે attention સમાવે છે, અને auxiliary objective તરીકે contrastive text-image feature matching loss સૂચવે છે. અમારી CLIP સાથેની offline reranking સાથે તેની તુલના કરવી રસપ્રદ છે. અન્ય કાર્ય2, 6, 7 તાલીમ દરમિયાન image quality સુધારવા supervisionના વધારાના સ્ત્રોતો સામેલ કરે છે. અંતમાં, Nguyen et. al8 અને Cho et. al9નું કાર્ય pretrained multimodal discriminative modelsનો ઉપયોગ કરતી image generation માટે sampling-based વ્યૂહરચનાઓનું અનુસંધાન કરે છે.
VQVAE-2(નવી વિન્ડોમાં ખૂલે છે)માં વપરાતા rejection sampling જેવી જ રીતે, અમે તમામ ઇન્ટરેક્ટિવ visualsમાં દરેક કૅપ્શન માટે 512 નમૂનાઓમાંથી ટોચના 32ને rerank કરવા માટે CLIP નો ઉપયોગ કરીએ છીએ. આ પ્રક્રિયાને language-guided search16 ના એક પ્રકાર તરીકે પણ જોઈ શકાય છે, અને તે sample quality પર નાટકીય અસર કરી શકે છે.
ફૂટનોટ્સ
- A
ટોકન એ discrete vocabularyમાંથી કોઈપણ ચિહ્ન છે; માણસો માટે, અંગ્રેજીના દરેક અક્ષર 26-અક્ષરના alphabetમાંથી એક ટોકન છે. DALL·Eની vocabularyમાં લખાણ અને છબી બંને વિચારો માટે ટોકન્સ છે. ખાસ કરીને, દરેક image captionને 16384ની vocabulary size સાથે મહત્તમ 256 BPE-encoded ટોકન્સ વડે દર્શાવવામાં આવે છે, અને છબીને 8192ની vocabulary size સાથે 1024 ટોકન્સ વડે દર્શાવવામાં આવે છે.
તાલીમ દરમિયાન છબીઓ 256x256 resolution માટે preprocess કરવામાં આવે છે. VQVAE જેવી જ રીતે, દરેક છબીને discrete VAE નો ઉપયોગ કરીને discrete લેટન્ટ કોડ્સની 32x32 gridમાં સંકુચિત કરવામાં આવે છે, જેને અમે continuous relaxation નો ઉપયોગ કરીને pretrained કર્યું હતું. અમને જાણવા મળ્યું કે relaxationનો ઉપયોગ કરીને તાલીમ આપવાથી explicit codebook, EMA loss, અથવા dead code revival જેવી યુક્તિઓની જરૂર રહેતી નથી, અને તે મોટી vocabulary sizes સુધી scale કરી શકે છે.
- B
વધુ વિગતો આગળના વિભાગમાં આપવામાં આવી છે.
- 17
આ કાર્યને variable binding કહેવામાં આવે છે, અને સાહિત્યમાં તેનો વ્યાપક અભ્યાસ થયો છે.
સંદર્ભો
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “જનરેટિવ adversarial ટેક્સ્ટ ટુ ઇમેજ synthesis(નવી વિન્ડોમાં ખૂલે છે)”. In ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “શું અને ક્યાં દોરવું તે શીખવું(નવી વિન્ડોમાં ખૂલે છે)”. In NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: stacked જનરેટિવ adversarial networks સાથે ટેક્સ્ટથી ફોટો-રીઅલિસ્ટિક ઇમેજ synthesis(નવી વિન્ડોમાં ખૂલે છે)”. In ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: stacked જનરેટિવ adversarial networks સાથે વાસ્તવિક ઇમેજ synthesis(નવી વિન્ડોમાં ખૂલે છે)”. In IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: attentional જનરેટિવ adversarial networks સાથે સૂક્ષ્મ-સ્તરનું ટેક્સ્ટ ટુ ઇમેજ જનરેશન(નવી વિન્ડોમાં ખૂલે છે).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “adversarial training દ્વારા object-driven text-to-image synthesis(નવી વિન્ડોમાં ખૂલે છે)”. In CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “સૂક્ષ્મ-સ્તરનાં user attention દ્વારા આધારિત Text-to-image generation(નવી વિન્ડોમાં ખૂલે છે)”. In WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). “Plug & play જનરેટિવ networks: latent spaceમાં imagesનું conditional iterative generation(નવી વિન્ડોમાં ખૂલે છે).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: મલ્ટી-મોડલ transformers સાથે paint, caption, અને પ્રશ્નોના જવાબ આપો(નવી વિન્ડોમાં ખૂલે છે)”. EMNLP 2020.
- 10
Kingma, Diederik P., and Max Welling. “Auto-encoding variational bayes(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. “ડીપ જનરેટિવ મોડેલ્સમાં stochastic backpropagation અને approximate inference(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). “Gumbel-softmax સાથે categorical reparametrization(નવી વિન્ડોમાં ખૂલે છે)”.
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “The Concrete distribution: discrete random variablesનું continuous relaxation(નવી વિન્ડોમાં ખૂલે છે)”.
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “ન્યુરલ discrete representation learning(નવી વિન્ડોમાં ખૂલે છે)”.
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “VQ-VAE-2 સાથે વિવિધ high-fidelity images જનરેટ કરવી(નવી વિન્ડોમાં ખૂલે છે)”.
- 16
Andreas, J., Klein, D., Levine, S. (2017). “લેટન્ટ ભાષા સાથે શીખવું(નવી વિન્ડોમાં ખૂલે છે)”.
- 17
- 18
- 19
Gayler, R. (1998). “Multiplicative binding, representation operators & analogy(નવી વિન્ડોમાં ખૂલે છે)”.
- 20
Kanerva, P. (1997). “Fully distributed representations(નવી વિન્ડોમાં ખૂલે છે)”.


