મુખ્ય વિષય-સામગ્રી પર જાવો
OpenAI

5 જાન્યુઆરી, 2021

માઇલસ્ટોન

DALL·E: લખાણમાંથી છબીઓ બનાવવી

અમે DALL·E નામનું ન્યુરલ નેટવર્ક તાલીમ આપ્યું છે, જે કુદરતી ભાષામાં વ્યક્ત કરી શકાય તેવી વિસ્તૃત શ્રેણીના વિચારો માટે લખાણ કૅપ્શનમાંથી છબીઓ બનાવે છે.

DALL·E

ચિત્રાંકન: Justin Jay Wang

લોડિંગ…

DALL·E એ GPT‑3(નવી વિન્ડોમાં ખૂલે છે)નું 12-બિલિયન પરિમાણો ધરાવતું સંસ્કરણ છે, જેને text–image pairsના ડેટાસેટનો ઉપયોગ કરીને લખાણ વર્ણનોમાંથી છબીઓ જનરેટ કરવા માટે તાલીમ અપાઈ છે. અમને જાણવા મળ્યું છે કે તેમાં વિવિધ ક્ષમતાઓ છે, જેમાં પ્રાણીઓ અને વસ્તુઓના માનવીય સ્વરૂપવાળા સંસ્કરણો બનાવવું, અસંબંધિત વિચારોને વિશ્વસનીય રીતે જોડવું, લખાણ રેન્ડર કરવું, અને અસ્તિત્વમાં રહેલી છબીઓ પર પરિવર્તનો લાગુ કરવું સામેલ છે.

આ પણ જુઓ: DALL·E 2, જે 4x વધુ રિઝોલ્યુશન સાથે વધુ વાસ્તવિક અને ચોક્કસ છબીઓ જનરેટ કરે છે.

લોડ થઈ રહ્યું છે...

GPT‑3એ દર્શાવ્યું કે ભાષાનો ઉપયોગ કરીને મોટા ન્યુરલ નેટવર્કને વિવિધ પ્રકારનાં લખાણ જનરેશન કાર્યો કરવા સૂચવી શકાય છે. Image GPTએ દર્શાવ્યું કે એ જ પ્રકારના ન્યુરલ નેટવર્કનો ઉપયોગ ઉચ્ચ ગુણવત્તા સાથે છબીઓ જનરેટ કરવા માટે પણ થઈ શકે છે. અમે આ શોધોને વિસ્તારીને બતાવીએ છીએ કે હવે ભાષા મારફતે દૃશ્ય સંકલ્પનાઓને બદલવી શક્યતાની અંદર છે.

અવલોકન

GPT‑3ની જેમ, DALL·E એક ટ્રાન્સફોર્મર ભાષા મોડલ છે. તે લખાણ અને છબી બંનેને 1280 ટોકન્સ સુધી ધરાવતા એકમાત્ર ડેટા પ્રવાહ તરીકે સ્વીકારે છે, અને બધા ટોકન્સને એક પછી એક જનરેટ કરવા માટે maximum likelihood નો ઉપયોગ કરીને તાલીમ અપાય છે. A

આ તાલીમ પ્રક્રિયા DALL·Eને માત્ર શરૂઆતથી છબી બનાવવાની જ નહીં, પરંતુ અસ્તિત્વમાં રહેલી છબીના નીચે-જમણા ખૂણાં સુધી વિસ્તરતા કોઈપણ આયાતાકાર ક્ષેત્રને લખાણ પ્રોમ્પ્ટ સાથે સુસંગત રીતે ફરીથી જનરેટ કરવાની પણ મંજૂરી આપે છે.

અમે સ્વીકારીએ છીએ કે જનરેટિવ મોડેલ્સને સામેલ કરતું કાર્ય નોંધપાત્ર અને વ્યાપક સામાજિક પ્રભાવ પેદા કરવાની સંભાવના ધરાવે છે. ભવિષ્યમાં, અમે DALL·E જેવા મોડલ્સનો કેટલાક કાર્યપ્રવાહો અને વ્યવસાયો પર પડતા આર્થિક પ્રભાવ, મોડલ આઉટપુટ્સમાં પૂર્વગ્રહની સંભાવના, અને આ ટેકનોલોજીથી ઉદ્ભવતા લાંબા ગાળાના નૈતિક પડકારો જેવા સામાજિક મુદ્દાઓ સાથે કેવી રીતે સંબંધ છે તેનું વિશ્લેષણ કરવાની યોજના બનાવીએ છીએ.

ક્ષમતાઓ

અમને લાગે છે કે DALL·E ભાષાની સંયોજક રચનાની તપાસ કરતા ખૂબ વિવિધ પ્રકારના વાક્યો માટે વિશ્વસનીય છબીઓ બનાવી શકે છે. અમે આને આગામી વિભાગમાં ઇન્ટરેક્ટિવ visualsની શ્રેણી દ્વારા દર્શાવીએ છીએ. visualsમાં દરેક કૅપ્શન માટે દર્શાવાયેલા નમૂનાઓ CLIP સાથે reranking કર્યા પછી 512માંથી ટોચના 32 લઈને મેળવવામાં આવે છે, પરંતુ thumbnails અને બહાર દેખાતી standalone images સિવાય અમે કોઈ manual cherry-picking કરતા નથી.B

ગુણધર્મો નિયંત્રિત કરવું

અમે DALL·Eની કોઈ ઑબ્જેક્ટના અનેક ગુણધર્મો, તેમજ તે કેટલાં વખત દેખાય છે તેની સંખ્યા બદલવાની ક્ષમતા ચકાસીએ છીએ.

લોડ થઈ રહ્યું છે...

અનેક ઑબ્જેક્ટ્સ દોરવા

એક સાથે ઘણા ઑબ્જેક્ટ્સ, તેમના ગુણધર્મો અને તેમના સ્થાનીક સંબંધોને નિયંત્રિત કરવું એક નવો પડકાર રજૂ કરે છે. ઉદાહરણ તરીકે, “a hedgehog wearing a red hat, yellow gloves, blue shirt, and green pants.” શબ્દસમૂહ પર વિચાર કરો. આ વાક્યને યોગ્ય રીતે સમજવા માટે, DALL·Eએ માત્ર કપડાંના દરેક ભાગને પ્રાણી સાથે યોગ્ય રીતે સંયોજિત કરવું જ નહીં, પરંતુ (hat, red), (gloves, yellow), (shirt, blue), અને (pants, green) જેવી જોડાણો પણ ગડબડ કર્યા વિના બનાવવી પડે છે C

અમે DALL·Eની આ કાર્યને સંબંધિત સ્થાન, ઑબ્જેક્ટ્સને ગોઠવવા અને બહુવિધ ગુણધર્મો નિયંત્રિત કરવા માટેની ક્ષમતા ચકાસીએ છીએ.

લોડ થઈ રહ્યું છે...

જ્યાં સુધી DALL·E થોડા પ્રમાણમાં ઓછી સંખ્યામાં ઑબ્જેક્ટ્સના ગુણધર્મો અને સ્થાનો પર નિયંત્રણ આપે છે, ત્યાં સુધી સફળતાનો દર કૅપ્શન કેવી રીતે લખાયેલું છે તેના પર નિર્ભર રહી શકે છે. વધુ ઑબ્જેક્ટ્સ રજૂ થતા, DALL·E ઑબ્જેક્ટ્સ અને તેમના રંગો વચ્ચેના સંબંધોમાં ગૂંચવાઈ જવાની વૃત્તિ દર્શાવે છે, અને સફળતાનો દર ઝડપથી ઘટે છે. અમે એ પણ નોંધીએ છીએ કે આવા પરિસ્થિતિઓમાં કૅપ્શનને ફરીથી શબ્દબદ્ધ કરવા બાબતે DALL·E અસ્થિર છે: અર્થમાં સમકક્ષ વૈકલ્પિક કૅપ્શન્સ ઘણી વાર કોઈ યોગ્ય અર્થઘટન આપતા નથી.

દ્રષ્ટિકોણ અને ત્રિ-આયામિતાનું દૃશ્યીકરણ

અમને લાગે છે કે DALL·E દૃશ્યના દ્રષ્ટિકોણ અને દૃશ્યને રેન્ડર કરવામાં આવેલી 3D શૈલી પર નિયંત્રણ પણ આપે છે.

લોડ થઈ રહ્યું છે...

આને વધુ આગળ ધપાવવા માટે, અમે DALL·Eની જાણીતી વ્યક્તિના માથાને સમાન અંતરવાળા કોણોની શ્રેણીમાં દરેક કોણે વારંવાર દોરવાની ક્ષમતા ચકાસીએ છીએ, અને અમને ફરી રહેલા માથાનું સ્મૂથ એનિમેશન પુનઃપ્રાપ્ત કરી શકીએ છીએ.

લોડ થઈ રહ્યું છે...

DALL·E દૃશ્યો પર કેટલીક પ્રકારની optical distortions લાગુ કરી શકે એવું લાગે છે, જેમ કે અમે “fisheye lens view” અને “a spherical panorama” વિકલ્પોમાં જોઈએ છીએ. આથી અમને તેની reflections જનરેટ કરવાની ક્ષમતાની તપાસ કરવા પ્રેરણા મળી.

લોડ થઈ રહ્યું છે...

આંતરિક અને બાહ્ય રચનાનું દૃશ્યીકરણ

“extreme close-up view” અને “x-ray” શૈલીના નમૂનાઓએ અમને DALL·Eની ક્રોસ-સેક્શનલ દૃશ્યો દ્વારા આંતરિક રચના અને macro photographs દ્વારા બાહ્ય રચના રેન્ડર કરવાની ક્ષમતાની વધુ તપાસ કરવા પ્રેર્યા.

લોડ થઈ રહ્યું છે...

સંદર્ભાત્મક વિગતોનો અંદાજ લગાવવો

લખાણને છબીઓમાં અનુવાદિત કરવાનો કાર્ય અધૂરો નિર્દિષ્ટ છે: એક જ કૅપ્શન સામાન્ય રીતે અનંત સંખ્યામાં વિશ્વસનીય છબીઓ સાથે સંબંધિત હોય છે, તેથી છબી અનન્ય રીતે નક્કી થતી નથી. ઉદાહરણ તરીકે, “a painting of a capybara sitting on a field at sunrise.” કૅપ્શન પર વિચાર કરો. capybaraની દિશા પર આધાર રાખીને, છાયો દોરવો જરૂરી બની શકે, છતાં આ વિગતો ક્યારેય સ્પષ્ટ રીતે ઉલ્લેખાતી નથી. અમે DALL·Eની અધૂરી નિર્દિષ્ટતાનું સમાધાન કરવાની ક્ષમતાની ત્રણ કિસ્સાઓમાં તપાસ કરીએ છીએ: શૈલી, પરિસ્થિતિ અને સમય બદલવો; એ જ ઑબ્જેક્ટને વિવિધ પરિસ્થિતિઓમાં દોરવો; અને કોઈ ઑબ્જેક્ટ પર ચોક્કસ લખાણ લખાયેલું હોય તેવી છબી જનરેટ કરવી.

લોડ થઈ રહ્યું છે...

વિશ્વસનીયતાના વિવિધ સ્તરો સાથે, DALL·E કુદરતી ભાષા મારફતે 3D rendering engineની કેટલીક ક્ષમતાઓના ઉપસેટ સુધી પહોંચ આપે છે. તે ઓછી સંખ્યામાં ઑબ્જેક્ટ્સના ગુણધર્મોને સ્વતંત્ર રીતે નિયંત્રિત કરી શકે છે, અને મર્યાદિત અંશે તેમની સંખ્યા અને તેઓ એકબીજા સામે કેવી રીતે ગોઠવાયેલા છે તે પણ નિયંત્રિત કરી શકે છે. તે દૃશ્ય કયા સ્થાનથી અને કયા કોણથી રેન્ડર થાય છે તે પણ નિયંત્રિત કરી શકે છે, અને કોણ અને પ્રકાશની પરિસ્થિતિઓના ચોક્કસ નિર્દેશોનું પાલન કરતાં જાણીતા ઑબ્જેક્ટ્સ જનરેટ કરી શકે છે.

3D rendering engineથી વિપરીત, જેમાં ઇનપુટ્સ નિર્વિવાદ અને સંપૂર્ણ વિગત સાથે નિર્દેશિત કરવાના હોય છે, DALL·E ઘણી વાર ત્યારે “ખાલી જગ્યાઓ ભરી” શકે છે જ્યારે કૅપ્શન સૂચવે છે કે છબીમાં એવો કોઈ વિગત હોવો જોઈએ જે સ્પષ્ટ રીતે જણાવાયો નથી.

પૂર્વવર્તી ક્ષમતાઓના ઉપયોગો

આગળ, અમે ફેશન અને આંતરિક ડિઝાઇન માટે પૂર્વવર્તી ક્ષમતાઓના ઉપયોગની તપાસ કરીએ છીએ.

લોડ થઈ રહ્યું છે...

અસંબંધિત વિચારોને જોડવું

ભાષાની સંયોજક પ્રકૃતિ આપણને વાસ્તવિક અને કલ્પિત બંને પ્રકારની વસ્તુઓ વર્ણવવા માટે વિચારોને એકસાથે ગોઠવવાની મંજૂરી આપે છે. અમને લાગે છે કે DALL·E પાસે અલગ-અલગ વિચારોને જોડીને વસ્તુઓનું સંશ્લેષણ કરવાની ક્ષમતા પણ છે, જેમાંથી કેટલીક વાસ્તવિક દુનિયામાં અસ્તિત્વ ધરાવતી હોવાની શક્યતા ઓછી છે. અમે આ ક્ષમતાને બે ઉદાહરણોમાં તપાસીએ છીએ: વિવિધ વિચારોના ગુણધર્મો પ્રાણીઓમાં સ્થાનાંતરિત કરવું, અને અસંબંધિત વિચારોમાંથી પ્રેરણા લઈને ઉત્પાદનો ડિઝાઇન કરવું.

લોડ થઈ રહ્યું છે...

પ્રાણી ચિત્રો

પાછલા વિભાગમાં, અમે વાસ્તવિક દુનિયાની વસ્તુઓની છબીઓ જનરેટ કરતી વખતે DALL·Eની અસંબંધિત વિચારોને જોડવાની ક્ષમતાની તપાસ કરી હતી. અહીં, અમે કળાના પરિપ્રેક્ષ્યમાં આ ક્ષમતાની તપાસ કરીએ છીએ, ત્રણ પ્રકારના ચિત્રો માટે: પ્રાણીઓ અને વસ્તુઓના માનવીય સ્વરૂપવાળા સંસ્કરણો, animal chimeras, અને emojis.

લોડ થઈ રહ્યું છે...

ઝીરો-શોટ દૃશ્ય રિઝનિંગ

GPT‑3ને કોઈ વધારાની તાલીમ વગર, માત્ર વર્ણન અને તેના પ્રોમ્પ્ટમાં આપેલા જવાબ માટેના સંકેતના આધારે અનેક પ્રકારના કાર્યો કરવા સૂચવી શકાય છે. ઉદાહરણ તરીકે, “here is the sentence ‘a person walking his dog in the park’ translated into French:” શબ્દસમૂહ આપતાં, GPT‑3 જવાબ આપે છે “un homme qui promène son chien dans le parc.” આ ક્ષમતાને ઝીરો-શોટ રિઝનિંગ. કહેવામાં આવે છે. અમને લાગે છે કે DALL·E આ ક્ષમતાને દૃશ્ય ક્ષેત્ર સુધી વિસ્તારે છે, અને યોગ્ય રીતે પ્રોમ્પ્ટ આપવામાં આવે ત્યારે image-to-image translationના અનેક પ્રકારના કાર્યો કરી શકે છે.

લોડ થઈ રહ્યું છે...

અમને આ ક્ષમતા ઊભી થશે તેવી અપેક્ષા નહોતી, અને તેને પ્રોત્સાહિત કરવા માટે અમે ન્યુરલ નેટવર્ક અથવા તાલીમ પ્રક્રિયામાં કોઈ ફેરફાર કર્યા નહોતાં. આ પરિણામોથી પ્રેરાઈને, અમે 20મી સદીમાં વ્યાપક રીતે ઉપયોગમાં લેવાયેલા દૃશ્ય IQ ટેસ્ટ Raven’s progressive matrices પર DALL·Eને ચકાસીને, સમાનતામૂલક রিজনિંગ સમસ્યાઓ માટે તેની યોગ્યતા માપીએ છીએ.

લોડ થઈ રહ્યું છે...

ભૌગોલિક જ્ઞાન

અમને લાગે છે કે DALL·Eએ ભૌગોલિક તથ્યો, landmarks અને neighborhoods વિશે શીખ્યું છે. આ વિચારો અંગે તેનું જ્ઞાન કેટલીક રીતે આશ્ચર્યજનક રીતે ચોક્કસ છે અને બીજી રીતે ખામીયુક્ત છે.

લોડ થઈ રહ્યું છે...

કાલસંબંધિત જ્ઞાન

DALL·Eના અવકાશ પ્રમાણે બદલાતા વિચારો વિષેના જ્ઞાનની તપાસ કરવા ઉપરાંત, અમે સમય પ્રમાણે બદલાતા વિચારો વિષેના તેના જ્ઞાનની પણ તપાસ કરીએ છીએ.

લોડ થઈ રહ્યું છે...

અભિગમ અને પૂર્વ કાર્યનો સારાંશ

DALL·E એક સરળ decoder-only ટ્રાન્સફોર્મર છે, જે લખાણ અને છબી બંનેને 1280 ટોકન્સના એક જ પ્રવાહ તરીકે સ્વીકારે છે—લખાણ માટે 256 અને છબી માટે 1024—અને તે બધાનું autoregressively મોડેલિંગ કરે છે. તેની 64 self-attention layersમાંની દરેક પર attention mask દરેક image tokenને બધા text tokens પર ધ્યાન આપવા દે છે. DALL·E text tokens માટે standard causal mask નો ઉપયોગ કરે છે, અને image tokens માટે layer અનુસાર row, column, અથવા convolutional attention pattern સાથે sparse attention વાપરે છે. અમે અમારી paper(નવી વિન્ડોમાં ખૂલે છે)માં architecture અને training procedure વિશે વધુ વિગતો આપીએ છીએ.

ટેક્સ્ટ-ટુ-ઇમેજ synthesis Reed et. al.ના પાયાના કાર્યથી સંશોધનનું સક્રિય ક્ષેત્ર રહ્યું છે,1 જેમનો અભિગમ text embeddings પર conditioned GAN નો ઉપયોગ કરે છે. embeddings contrastive loss નો ઉપયોગ કરીને pretrained encoder દ્વારા બને છે, જે CLIP જેવી જ છે. StackGAN3 અને StackGAN++4 ઇમેજ રિઝોલ્યુશન વધારવા અને દૃશ્ય ગુણવત્તા સુધારવા multi-scale GANs નો ઉપયોગ કરે છે. AttnGAN5 લખાણ અને છબી લક્ષણો વચ્ચે attention સમાવે છે, અને auxiliary objective તરીકે contrastive text-image feature matching loss સૂચવે છે. અમારી CLIP સાથેની offline reranking સાથે તેની તુલના કરવી રસપ્રદ છે. અન્ય કાર્ય2, 6, 7 તાલીમ દરમિયાન image quality સુધારવા supervisionના વધારાના સ્ત્રોતો સામેલ કરે છે. અંતમાં, Nguyen et. al8 અને Cho et. al9નું કાર્ય pretrained multimodal discriminative modelsનો ઉપયોગ કરતી image generation માટે sampling-based વ્યૂહરચનાઓનું અનુસંધાન કરે છે.

VQVAE-2(નવી વિન્ડોમાં ખૂલે છે)માં વપરાતા rejection sampling જેવી જ રીતે, અમે તમામ ઇન્ટરેક્ટિવ visualsમાં દરેક કૅપ્શન માટે 512 નમૂનાઓમાંથી ટોચના 32ને rerank કરવા માટે CLIP નો ઉપયોગ કરીએ છીએ. આ પ્રક્રિયાને language-guided search16 ના એક પ્રકાર તરીકે પણ જોઈ શકાય છે, અને તે sample quality પર નાટકીય અસર કરી શકે છે.

લોડ થઈ રહ્યું છે...

ફૂટનોટ્સ

  1. A

    ટોકન એ discrete vocabularyમાંથી કોઈપણ ચિહ્ન છે; માણસો માટે, અંગ્રેજીના દરેક અક્ષર 26-અક્ષરના alphabetમાંથી એક ટોકન છે. DALL·Eની vocabularyમાં લખાણ અને છબી બંને વિચારો માટે ટોકન્સ છે. ખાસ કરીને, દરેક image captionને 16384ની vocabulary size સાથે મહત્તમ 256 BPE-encoded ટોકન્સ વડે દર્શાવવામાં આવે છે, અને છબીને 8192ની vocabulary size સાથે 1024 ટોકન્સ વડે દર્શાવવામાં આવે છે.

તાલીમ દરમિયાન છબીઓ 256x256 resolution માટે preprocess કરવામાં આવે છે. VQVAE જેવી જ રીતે, દરેક છબીને discrete VAE નો ઉપયોગ કરીને discrete લેટન્ટ કોડ્સની 32x32 gridમાં સંકુચિત કરવામાં આવે છે, જેને અમે continuous relaxation નો ઉપયોગ કરીને pretrained કર્યું હતું. અમને જાણવા મળ્યું કે relaxationનો ઉપયોગ કરીને તાલીમ આપવાથી explicit codebook, EMA loss, અથવા dead code revival જેવી યુક્તિઓની જરૂર રહેતી નથી, અને તે મોટી vocabulary sizes સુધી scale કરી શકે છે.

  1. B

    વધુ વિગતો આગળના વિભાગમાં આપવામાં આવી છે.

  2. 17

    આ કાર્યને variable binding કહેવામાં આવે છે, અને સાહિત્યમાં તેનો વ્યાપક અભ્યાસ થયો છે.

સંદર્ભો

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6

    Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “adversarial training દ્વારા object-driven text-to-image synthesis(નવી વિન્ડોમાં ખૂલે છે)”. In CVPR 2019.

  7. 7
  8. 8
  9. 9
  10. 10

    Kingma, Diederik P., and Max Welling. “Auto-encoding variational bayes(નવી વિન્ડોમાં ખૂલે છે).” arXiv preprint (2013).

  11. 11
  12. 12
  13. 13
  14. 14
  15. 15
  16. 16
  17. 17
  18. 18
  19. 19
  20. 20

મુખ્ય લેખકો

Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray

સહાયક લેખકો

Mark Chen, Rewon Child, Vedant Misra, Pamela Mishkin, Gretchen Krueger, Sandhini Agarwal, Ilya Sutskever