DALL·E टेक्स्ट से इमेज बनाना
हमने DALL·E नाम के एक न्यूरल नेटवर्क को ट्रेन किया है जो प्राकृतिक भाषा में व्यक्त किए जा सकने वाले बहुत सारे कॉन्सेप्ट के लिए टेक्स्ट कैप्शन से इमेज बनाता है.

इलस्ट्रेशन: जस्टिन जे वांग
DALL·E, GPT‑3(एक नई विंडो में खुलेगा) का 12 बिलियन पैरामीटर वर्ज़न है, जिसे टेक्स्ट-इमेज पेअर्स के डेटासेट का इस्तेमाल करके टेक्स्ट की जानकारियों से इमेज जनरेट करने के लिए ट्रेन किया गया है. हमने पाया है कि इसमें विविध प्रकार की कैपेबिलिटीएं हैं, जिनमें जानवरों और ऑब्जेक्ट के मानवरूपी वर्ज़न बनाना, असंबंधित कॉन्सेप्ट को प्रशंसनीय तरीकों से जोड़ना, टेक्स्ट प्रस्तुत करना और मौजूदा इमेज में परिवर्तन लागू करना शामिल है.
ये भी देखें: DALL·E 2, जो 4x ज़्यादा रिज़ॉल्यूशन के साथ ज़्यादा रीयलिस्टिक और सटीक इमेज जनरेट करता है.
GPT‑3 ने दिखाया कि भाषा का इस्तेमाल एक बड़े न्यूरल नेटवर्क को अलग-अलग तरह के टेक्स्ट जनरेशन टास्क को करने के निर्देश देने के लिए किया जा सकता है. इमेज GPT ने दिखाया कि उसी प्रकार के न्यूरल नेटवर्क का इस्तेमाल हाई फ़िडिलिटी वाली इमेज जनरेट करने के लिए भी किया जा सकता है. हम इन निष्कर्षों को आगे बढ़ाते हुए ये दिखाते हैं कि भाषा के ज़रिये विजुअल कॉन्सेप्ट में बदलाव करना अब पहुंच के अंदर है.
GPT‑3 की तरह, DALL·E एक ट्रांसफॉर्मर लैंग्वेज मॉडल है. ये टेक्स्ट और इमेज दोनों को 1280 टोकन तक वाले डेटा की सिंगल स्ट्रीम के तौर पर रिसीव करता है, और एक के बाद एक सभी टोकन जनरेट करने के लिए अधिकतम संभावना का इस्तेमाल करके ट्रेन किया जाता है. A
ये ट्रेनिंग प्रक्रिया DALL·E को न केवल स्क्रैच से एक इमेज जनरेट करने में मदद करती है, बल्कि किसी मौजूदा इमेज के किसी भी रेक्टैंगल रूप के हिस्से को रीजनरेट करने की भी अनुमति देती है जो नीचे-दाएं कोने तक फ़ैली हुई है, एक तरह से जो टेक्स्ट प्रॉम्प्ट के अनुरूप है.
हम मानते हैं कि जेनरेटिव मॉडल्स से जुड़े काम में महत्वपूर्ण, व्यापक सामाजिक प्रभाव जनरेट करने की कैपेबिलिटी होती है. भविष्य में, हम ये एनालाइज़ करने का प्लान कर रहे हैं कि DALL·E जैसे मॉडल सामाजिक मुद्दों से कैसे संबंधित हैं, जैसे कि कुछ कार्य प्रक्रियाओं और व्यवसायों पर आर्थिक प्रभाव, मॉडल आउटपुट में पूर्वाग्रह की संभावना और इस तकनीक द्वारा निहित लंबे समय की नैतिक चुनौतियां.
हम पाते हैं कि DALL·E अनेक प्रकार के वाक्यों के लिए भरोसेमंद इमेज बना सकता है, जो भाषा की रचनात्मक संरचना को एक्सप्लोर करते हैं. हम अगले सेक्शन में इंटरैक्टिव विज़ुअल्स की एक सीरीज़ का इस्तेमाल करके इसे स्पष्ट करेंगे. विज़ुअल्स में प्रत्येक कैप्शन के लिए दिखाए गए सैंपल CLIP के साथ फिर से रैंकिंग के बाद 512 में से टॉप 32 को लेकर प्राप्त किए गए हैं, लेकिन हम बाहर दिखाई देने वाले थंबनेल और स्टैंडअलोन इमेज के अलावा किसी भी मैनुअल चेरी-पिकिंग का इस्तेमाल नहीं करते हैं.B
हम किसी ऑब्जेक्ट की कई विशेषताओं को बदलने की DALL·E की कैपेबिलिटी को टेस्ट करते हैं, साथ ही ये भी देखते हैं कि वो कितनी बार आती हैं.
एक साथ अनेक ऑब्जेक्ट, उनकी विशेषताओं और उनके स्थानिक संबंधों को कंट्रोल करना एक नई चुनौती प्रस्तुत करता है. जैसे कि, वाक्यांश "लाल टोपी, पीले दस्ताने, नीली शर्ट और हरी पैंट पहने हुए एक हाथी" पर विचार करें. इस वाक्य की सही व्याख्या करने के लिए, DALL·E को न केवल पशु के साथ परिधान के प्रत्येक टुकड़े को सही ढंग से बनाना होगा, बल्कि उन्हें मिलाए बिना (टोपी, लाल), (दस्ताने, पीले), (शर्ट, नीला), और (पैंट, हरा) संबंध भी बनाना होगा C
हम रिलेटिव पोज़िशनिंग, ऑब्जेक्ट को स्टैक करने और कई विशेषताओं को कंट्रोल करने के लिए DALL·E की कैपेबिलिटी का टेस्ट करते हैं.
हालांकि DALL·E कुछ ऑब्जेक्ट की विशेषताओं और पोज़िशन पर कुछ हद तक कंट्रोल देता है, लेकिन सफ़लता की दर इस बात पर निर्भर करती है कि कैप्शन को किस प्रकार लिखा गया है. जैसे-जैसे ज़्यादा ऑब्जेक्ट सामने आते हैं, DALL·E में ऑब्जेक्ट और उनके रंगों के बीच संबंधों को लेकर भ्रम की स्थिति पैदा होने लगती है, और सफ़लता की दर तेज़ी से कम हो जाती है. हम ये भी ध्यान देते हैं कि इन सिनारियो में कैप्शन के रीफ़्रेज़ के संबंध में DALL·E भंगुर है: वैकल्पिक, शब्दार्थिक रूप से समतुल्य कैप्शन अक्सर कोई सही व्याख्या नहीं देते हैं.
हम पाते हैं कि DALL·E किसी दृश्य के दृष्टिकोण और उस 3D स्टाइल पर कंट्रोल करने में भी मदद करता है जिसमें दृश्य को प्रस्तुत किया जाता है.
इसे और आगे बढ़ाने के लिए, हमने DALL·E की समान दूरी वाले एंगल के अनुक्रम से प्रत्येक एंगल पर एक प्रसिद्ध आकृति के सिर को बार-बार खींचने की कैपेबिलिटी का टेस्ट किया, और पाया कि हम घूमते हुए सिर का एक स्मूथ एनीमेशन दोबारा प्राप्त कर सकते हैं.
ऐसा लगता है कि DALL·E दृश्यों पर कुछ प्रकार के ऑप्टिकल विरूपण लागू करने में सक्षम है, जैसा कि हम "फ़िशआई लेंस व्यू" और "स्फेरिकल पैनोरमा" विकल्पों के साथ देखते हैं. इसने हमें प्रतिबिंब जनरेट करने की इसकी कैपेबिलिटी एक्स्प्लोर करने के लिए प्रेरित किया.
"बेहद क्लोज़-अप व्यू" और "एक्स-रे" स्टाइल के सैंपल्स ने हमें क्रॉस-सेक्शनल दृश्यों के साथ इंटर्नल स्ट्रक्चर और मैक्रो फ़ोटो के साथ बाहरी स्ट्रक्चर को प्रस्तुत करने की DALL·E की कैपेबिलिटी का पता लगाने के लिए प्रेरित किया.
टेक्स्ट को इमेज में ट्रांसलेट करने का टास्क स्पष्ट नहीं है: एक सिंगल कैप्शन आम तौर पर असंख्य संभावित इमेज से मैच करता है, इसलिए इमेज यूनिक तरीके से निर्धारित नहीं होता है. जैसे कि, शीर्षक पर विचार करें “सूर्योदय के समय एक मैदान में बैठे कैपीबारा की पेंटिंग.” कैपीबारा के ओरिएंटेशन के आधार पर, छाया बनाना ज़रूरी हो सकता है, हालांकि इस डिटेल का कभी भी स्पष्ट तौर पर उल्लेख नहीं किया गया है. हम तीन मामलों में अंडरस्पेसिफ़िकेशन को हल करने के लिए DALL·E की कैपेबिलिटी का पता लगाते हैं: स्टाइल, सेटिंग और समय को बदलना; अलग-अलग स्थितियों में एक ही ऑब्जेक्ट की ड्रॉइंग बनाना; और उस पर लिखे विशिष्ट टेक्स्ट के साथ किसी ऑब्जेक्ट की इमेज जनरेट करना.
भरोसे की विभिन्न डिग्री के साथ, DALL·E प्राकृतिक भाषा के ज़रिये 3D रेंडरिंग इंजन की कैपेबिलिटीओं के एक सबसेट के लिए एक्सेस देता है. ये स्वतंत्र तौर से कुछ ऑब्जेक्ट की विशेषताओं को कंट्रोल कर सकता है, और एक लिमिटेड हद तक ये भी कंट्रोल कर सकता है कि उनकी संख्या कितनी है, और वे एक दूसरे के सापेक्ष किस प्रकार व्यवस्थित हैं. ये उस लोकेशन और एंगल को भी कंट्रोल कर सकता है जहां से एक दृश्य प्रस्तुत किया जाता है, व एंगल और प्रकाश की स्थिति के सटीक विनिर्देशों के अनुपालन में ज्ञात ऑब्जेक्ट को जनरेट कर सकता है.
3D रेंडरिंग इंजन के विपरीत, जिसके इनपुट को स्पष्ट रूप से और पूरी डिटेल में निर्दिष्ट किया जाना चाहिए, DALL·E अक्सर "रिक्त स्थान भरने" में सक्षम होता है जब कैप्शन का तात्पर्य ये होता है कि इमेज में एक निश्चित डिटेल होना चाहिए जो स्पष्ट रूप से नहीं बताई गई है.
इसके बाद, हम फ़ैशन और इंटीरियर डिज़ाइन के लिए पहले की कैपेबिलिटीओं के इस्तेमाल को एक्स्प्लोर करते हैं.
भाषा की रचनात्मक प्रकृति हमें वास्तविक और काल्पनिक दोनों चीज़ों के बारे में बताने के लिए कॉन्सेप्ट को एक साथ रखने की अनुमति देती है. हम पाते हैं कि DALL·E में असमान विचारों को संयोजित कर ऑब्जेक्ट को सिंथेसाइज़ करने की कैपेबिलिटी भी है, जिनमें से कुछ का असली दुनिया में अस्तित्व में होना नामुमकिन है. हम इस कैपेबिलिटी का दो उदाहरणों में पता लगाते हैं: विभिन्न कॉन्सेप्ट से गुणों को जानवरों में स्थानांतरित करना, और असंबंधित कॉन्सेप्ट से प्रेरणा लेकर उत्पादों को डिजाइन करना.
पिछले सेक्शन में, हमने असली दुनिया के ऑब्जेक्ट की इमेजेज़ बनाते समय असंबंधित कॉन्सेप्ट को संयोजित करने की DALL·E की कैपेबिलिटी का पता लगाया. ये, हम कला के संदर्भ में तीन प्रकार के इलस्ट्रेशन के लिए इस कैपेबिलिटी का पता लगाते हैं: जानवरों और ऑब्जेक्ट के मानवरूपी वर्ज़न, पशु चिमेरा, और इमोजी.
GPT‑3 को बिना किसी अतिरिक्त ट्रेनिंग के, केवल जानकारी और संकेत के आधार पर, उसके प्रॉम्प्ट में दिए गए जवाब को जनरेट करने के संकेत से, कई तरह के टास्क करने के लिए निर्देशित किया जा सकता है. जैसे कि, जब वाक्यांश “ये वाक्य है ‘एक व्यक्ति पार्क में अपने कुत्ते को टहलाता हुआ’ का फ़्रेंच में अनुवाद करो:” के साथ प्रॉम्प्ट दिया गया, GPT‑3 जवाब देता है “un homme qui promène son chien dans le parc.” इस कैपेबिलिटी को ज़ीरो-शॉट रीज़निंग कहा जाता है. हम पाते हैं कि DALL·E इस कैपेबिलिटी को विज़ुअल डोमेन तक एक्सटेंड करता है, और सही तरीके से संकेत दिए जाने पर कई तरह के इमेज-टू-इमेज अनुवाद टास्क कर सकता है.
हमने ये अनुमान नहीं लगाया था कि ये कैपेबिलिटी उभर कर सामने आएगी, और इसे प्रोत्साहित करने के लिए न्यूरल नेटवर्क या ट्रेनिंग के तरीके में कोई बदलाव नहीं किए. इन परिणामों से प्रेरित होकर, हम Raven के प्रगतिशील मैट्रिसेस पर टेस्ट करके एनालॉजिकल रीज़निंग प्रॉब्लम्स के लिए DALL·E की योग्यता को मापते हैं, जो एक विज़ुअल IQ टेस्ट है जिसका 20वीं शताब्दी में व्यापक इस्तेमाल हुआ था.
हमने पाया कि DALL·E ने भौगोलिक तथ्यों, स्थलों और आस-पड़ोस के बारे में सीखा है. इन कॉन्सेप्ट के बारे में इसकी जानकारी आश्चर्यजनक रूप से कुछ मायनों में सटीक और अन्य में गलत है.
स्थान के साथ बदलती कॉन्सेप्ट के बारे में DALL·E की जानकारी का पता लगाने के अलावा, हम समय के साथ बदलते कॉन्सेप्ट के बारे में उसकी जानकारी को भी एक्सप्लोर करते हैं.
DALL·E एक सरल डिकोडर-ओनली ट्रांसफ़ॉर्मर है, जो टेक्स्ट और इमेज दोनों को 1280 टोकन की सिंगल स्ट्रीम के रूप में प्राप्त करता है - टेक्स्ट के लिए 256 और इमेज के लिए 1024—और उन सभी को ऑटोरिग्रैसिवली मॉडल करता है. इसकी 64 सेल्फ़-अटेंशन लेयर्स में से हरेक पर स्थित अटेंशन मास्क, हरेक इमेज टोकन को सभी टेक्स्ट टोकन पर ध्यान देने में मदद करता है. DALL·E, टेक्स्ट टोकन के लिए स्टैंडर्ड कॉज़ल मास्क का इस्तेमाल करता है, और लेयर के आधार पर, रो, कॉलम या कॉन्वोल्यूशनल अटेंशन पैटर्न के साथ इमेज टोकन के लिए स्पार्स अटेंशन का इस्तेमाल करता है. हम अपने पेपर(एक नई विंडो में खुलेगा) में आर्किटेक्चर और ट्रेनिंग के तरीके के बारे में और ज़्यादा जानकारी देते हैं.
Reed व अन्य के अग्रणी कार्य के बाद से टेक्स्ट-टू-इमेज सिंथेसिस रिसर्च का एक एक्टिव एरिया रहा है, 1 जिनका दृष्टिकोण टेक्स्ट एम्बेडिंग पर आधारित GAN का इस्तेमाल करता है. एम्बेडिंग का निर्माण एक एनकोडर द्वारा किया जाता है, जिसे कंट्रास्टिव लॉस का इस्तेमाल करके पूर्व ट्रेन किया जाता है, जो CLIP से अलग नहीं है. StackGAN3 और StackGAN++4 इमेज रिज़ॉल्यूशन को बढ़ाने और विज़ुअल फ़िडिलिटी में सुधार करने के लिए मल्टी-स्केल GAN का इस्तेमाल करते हैं. AttnGAN5 टेक्स्ट और इमेज सुविधाओं के बीच अटेंशन को शामिल करता है, और सहायक उद्देश्य के तौर पर एक विपरीत टेक्स्ट-इमेज फ़ीचर मैचिंग हानि का प्रस्ताव करता है. ये CLIP के साथ हमारी रीरैंकिंग से तुलना करने के लिए दिलचस्प है, जो ऑफ़लाइन किया जाता है. अन्य कार्य2, 6 और 7 इमेज क्वालिटी में सुधार के लिए ट्रेनिंग के दौरान सुपरविज़न के अतिरिक्त स्रोतों को शामिल करता है. आखिर में, Nguyen व अन्य8 और को व अन्य9 द्वारा किया गया कार्य इमेज जेनरेशन के लिए सैंपलिंग-बेस्ड स्ट्रेटेजियों को एक्स्प्लोर करता है जो पूर्व ट्रेन बहुविध विभेदक मॉडल का फ़ायदा उठाते हैं.
VQVAE-2(एक नई विंडो में खुलेगा) में इस्तेमाल किए गए रिजेक्शन सम्प्लिंग के समान, हम सभी इंटरैक्टिव विज़ुअल्स में हरेक कैप्शन के लिए 512 सैंपल्स में से टॉप 32 को रीरैंक करने के लिए CLIP का इस्तेमाल करते हैं. इस प्रक्रिया को एक तरह की भाषा-निर्देशित सर्च16 के रूप में भी देखा जा सकता है, और इसका सैंपल क्वालिटी पर नाटकीय प्रभाव हो सकता है.
फ़ुटनोट
- A
टोकन किसी डिस्क्रीट शब्दावली का कोई भी प्रतीक हो सकता है; मनुष्यों के लिए, प्रत्येक अंग्रेज़ी अक्षर 26-अक्षरों की वर्णमाला का एक टोकन होता है. DALL·E की शब्दावली में टेक्स्ट और इमेज दोनों कॉन्सेप्ट के लिए टोकन हैं. ख़ास तौर से, प्रत्येक इमेज कैप्शन को 16384 के शब्दावली आकार के साथ अधिकतम 256 BPE-एन्कोडेड टोकन का इस्तेमाल करके दर्शाया जाता है, और इमेज को 8192 के शब्दावली आकार के साथ 1024 टोकन का इस्तेमाल करके दर्शाया जाता है.
ट्रेनिंग के दौरान इमेज को 256x256 रिज़ॉल्यूशन पर प्री-प्रोसेस किया जाता है. VQVAE के समान, प्रत्येक इमेज को एक डिस्क्रीट VAE का इस्तेमाल करके डिस्क्रीट लेटेंट कोड्स के 32x32 ग्रिड में कंप्रेस किया जाता है जिसे हमने कंटिन्युअस रिलैक्सेशन का इस्तेमाल करके प्री-ट्रेन किया है. हमने पाया कि रिलैक्सेशन का इस्तेमाल करके ट्रेनिंग एक स्पष्ट कोडबुक, EMA हानि, या डेड कोड रिवाइवल जैसी ट्रिक्स की ज़रुरत को ख़त्म करता है, और बड़े शब्दावली आकारों तक स्केल कर सकता है.
- B
आगे की डिटेल्स बाद के सेक्शन में दी गई हैं.
- 17
इस टास्क को वेरिएबल बाइंडिंग कहा जाता है, और साहित्य में इसका बड़े पैमाने पर स्टडी की गई है.
संदर्भ
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “जनरेटिव एडवर्सरियल टेक्स्ट से इमेज सिंथेसिस(एक नई विंडो में खुलेगा)”. ICML 2016 में.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “क्या और कहां ड्रॉइंग करना है ये सीखना(एक नई विंडो में खुलेगा)”. NIPS 2016 में.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: स्टैक्ड जनरेटिव एडवर्सरियल नेटवर्क के साथ टेक्स्ट से फ़ोटो-रीयलिस्टिक इमेज सिंथेसिस(एक नई विंडो में खुलेगा)”. In ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: स्टैक्ड जनरेटिव एडवर्सरियल नेटवर्क के साथ रीयलिस्टिक इमेज सिंथेसिस(एक नई विंडो में खुलेगा)”. In IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: ध्यानात्मक जनरेटिव एडवर्सरियल नेटवर्क के साथ सूक्ष्म टेक्स्ट से इमेज जेनरेशन(एक नई विंडो में खुलेगा).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). "एडवर्सरियल ट्रेनिंग के ज़रिये ऑब्जेक्ट-संचालित टेक्स्ट-से-इमेज सिंथेसिस(एक नई विंडो में खुलेगा)". CVPR 2019 में.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). "यूज़र के सूक्ष्म ध्यान पर आधारित टेक्स्ट-टू-इमेज जनरेशन(एक नई विंडो में खुलेगा)" WACV 2021 में.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). “प्लग एंड प्ले जनरेटिव नेटवर्क: अव्यक्त स्थान में इमेज का कंडीशनल इटरेटिव जनरेशन(एक नई विंडो में खुलेगा).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: मल्टी-मोडल ट्रांसफ़ॉर्मर के साथ पेंट करें, कैप्शन बनाएं और सवालों के जवाब दें(एक नई विंडो में खुलेगा)”. EMNLP 2020.
- 10
Kingma, Diederik P., and Max Welling. “ऑटो-एन्कोडिंग वेरिएशनल बेयस(एक नई विंडो में खुलेगा).” arXiv प्रीप्रिंट (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. "डीप जेनरेटिव मॉडल्स में स्टोकेस्टिक बैकप्रोपेगेशन और अनुमानित अनुमान(एक नई विंडो में खुलेगा)." arXiv प्रीप्रिंट (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). “गम्बेल-सॉफ़्टमैक्स के साथ श्रेणीबद्ध पुनर्मूल्यांकन(एक नई विंडो में खुलेगा)”.
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “कंक्रीट डिस्ट्रीब्यूशन: डिस्क्रीट रैंडम वेरिएबल्स की कंटिन्युअस रिलैक्सेशन(एक नई विंडो में खुलेगा)”.
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “न्यूरल डिस्क्रीट रिप्रेज़ेंटेशन लर्निंग(एक नई विंडो में खुलेगा)”.
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “VQ-VAE-2 के साथ विविध हाई-फ़िडिलिटी इमेज जनरेट करना(एक नई विंडो में खुलेगा)”.
- 16
Andreas, J., Klein, D., Levine, S. (2017). “लेटेंट लैंग्वेज के साथ लर्निंग(एक नई विंडो में खुलेगा)”.
- 17
- 18
- 19
Gayler, R. (1998). “गुणक बंधन, रिप्रेज़ेंटेशन ऑपरेटर्स और अनलॉजी(एक नई विंडो में खुलेगा)”.
- 20
Kanerva, P. (1997). “पूरी तरह से वितरित रिप्रेज़ेंटेशन(एक नई विंडो में खुलेगा)”.


