۵ جنوری، ۲۰۲۱

DALL·E: متن سے تصاویر بنانا

ہم نے ایک نیورل نیٹ ورک کو تربیت دی ہے جس کا نام DALL·E ہے، جو قدرتی زبان میں بیان کیے جانے والے مختلف تصورات کے لیے متن کیپشنز سے تصاویر بناتا ہے۔

Illustration: جسٹن جے وانگ

لوڈ ہو رہا ہے…

DALL·E ایک 12-ارب پیرامیٹر ورژن ہے جو GPT‑3⁠(نئی ونڈو میں کھلتا ہے) پر مبنی ہے، جو متن کی وضاحتوں سے تصاویر پیدا کرنا کے لیے تربیت یافتہ ہے، اور یہ متن–تصویر جوڑوں کے ڈیٹا سیٹ کا استعمال کرتا ہے۔ ہم نے پایا ہے کہ اس میں مختلف صلاحیتوں کا مجموعہ ہے، جن میں جانوروں اور اشیاء کی انسان نما شکلیں بنانا، غیر متعلقہ تصورات کو ممکنہ طریقوں سے یکجا کرنا، متن کو پیش کرنا، اور موجودہ تصاویر پر تبدیلیاں لاگو کرنا شامل ہیں۔

مزید دیکھیں: DALL·E 2⁠، جو 4 گنا زیادہ ریزولیوشن کے ساتھ زیادہ حقیقت پسندانہ اور درست تصاویر پیدا کرتا ہے۔

لوڈنگ ہو رہی ہے...

GPT‑3 نے یہ ظاہر کیا کہ زبان کو استعمال کرتے ہوئے ایک بڑے نیورل نیٹ ورک کو مختلف ٹاسکس انجام دینے کی ہدایت دی جا سکتی ہے۔ Image GPT⁠ نے دکھایا کہ اسی قسم کا نیورل نیٹ ورک تصاویر کو اعلیٰ معیار کے ساتھ جنریٹ کرنے کے لیے بھی استعمال کیا جا سکتا ہے۔ ہم ان نتائج کو وسعت دیتے ہیں تاکہ یہ دکھایا جا سکے کہ زبان کے ذریعے بصری تصورات میں تبدیلی اب ممکن ہے۔

جائزہ

GPT‑3 کی طرح، DALL·E بھی ایک ٹرانسفارمر لینگویج ماڈل ہے۔ یہ متن اور تصویر دونوں کو ایک واحد ڈیٹا سلسلے کے طور پر وصول کرتا ہے جس میں 1280 تک ٹوکنز شامل ہوتے ہیں، اور زیادہ سے زیادہ امکان کے تحت تربیت یافتہ ہوتا ہے تاکہ تمام ٹوکنز کو ایک کے بعد ایک پیدا کیا جا سکے۔ ^A

یہ تربیتی طریقہ کار DALL·E کو نہ صرف ایک تصویر کو شروع سے جنریٹ کرنے کی اجازت دیتا ہے، بلکہ کسی موجودہ تصویر کے کسی بھی مستطیل علاقے کو دوبارہ پیدا کرنے کی بھی اجازت دیتا ہے جو نیچے دائیں کونے تک پھیلا ہوا ہو، اس طرح کہ یہ متن کے پرامپٹس کے ساتھ مطابقت رکھتا ہو۔

ہم تسلیم کرتے ہیں کہ جنریٹو ماڈلز پر مبنی کام میں نمایاں اور وسیع سماجی اثرات کی صلاحیت موجود ہے۔ مستقبل میں، ہم یہ تجزیہ کرنے کا پلان بناتے ہیں کہ DALL·E جیسے ماڈلز معاشرتی مسائل جیسے کہ کچھ کام کے عملوں اور پیشوں پر معاشی اثرات، ماڈل کے نتائج میں ممکنہ تعصب، اور اس ٹیکنالوجی کے طویل مدتی اخلاقی چیلنجز سے کیسے متعلق ہیں۔

صلاحیتیں

ہمیں معلوم ہوا ہے کہ DALL·E جملے کی ایک بڑی قسم کے لیے قابل فہم تصاویر بنانے کے قابل ہے جو زبان کی ساختی ساخت کو دریافت کرتی ہے۔ ہم اگلے سیکشن میں انٹرایکٹو ویژول کی ایک سیریز کو استعمال کرتے ہوئے اس کی وضاحت کرتے ہیں۔ بصریات میں ہر کیپشن کے لیے دکھائے گئے ماڈلز CLIP⁠ کے ساتھ دوبارہ درجہ بندی کے بعد 512 میں سے اوپر کے 32 لے کر حاصل کیے جاتے ہیں، لیکن ہم تھمب نیلز اور آزادانہ طور پر ظاہر ہونے والی تصاویر کے علاوہ کسی بھی دستی انتخاب کا استعمال نہیں کرتے ہیں۔^B

کنٹرول کرنے کی خصوصیات

ہم DALL·E کی کسی شے کی متعدد خصوصیات میں ترمیم کرنے کی صلاحیت کے ساتھ ساتھ اس کے ظاہر ہونے کی تعداد کی جانچ کرتے ہیں۔

لوڈنگ ہو رہی ہے...

کئی اشیاء کی تصویر بنانا

بیک وقت متعدد اشیاء، ان کی خصوصیات، اور ان کے مکانی تعلقات کو کنٹرول کرنا ایک نیا چیلنج پیش کرتا ہے۔ مثال کے طور پر، اس جملے پر غور کریں "ایک ہیج ہاگ جو سرخ ٹوپی، پیلے دستانے، نیلی قمیض، اور سبز پتلون پہنے ہوئے ہے۔" اس جملے کی صحیح تشریح کرنے کے لیے، DALL·E کو نہ صرف ہر لباس کے ٹکڑے کو جانور کے ساتھ صحیح طور پر جوڑنا ہوگا، بلکہ ان کے ساتھ وابستگی بھی بنانی ہوگی (ٹوپی، سرخ)، (دستانے، پیلا)، (قمیض، نیلا)، اور (پتلون، سبز) بغیر انہیں ملائے ^C

ہم DALL·E کی متعلقہ پوزیشننگ، اشیاء کو اسٹیک کرنے، اور متعدد خصوصیات کو کنٹرول کرنے کے لیے ایسا کرنے کی صلاحیت کی جانچ کرتے ہیں۔

لوڈنگ ہو رہی ہے...

اگرچہ DALL·E اشیاء کی ایک چھوٹی سی تعداد کے صفات اور پوزیشنوں پر قابو پانے کی کچھ سطح پیش کرتا ہے، کامیابی کی شرح اس بات پر منحصر ہو سکتی ہے کہ کیپشن کو کس طرح بیان کیا جاتا ہے۔ جیسے جیسے مزید اشیاء متعارف کرائی جاتی ہیں، DALL·E اشیاء اور ان کے رنگوں کے درمیان تعلق کو الجھانے کا شکار ہوتا ہے، اور کامیابی کی شرح تیزی سے کم ہوتی جاتی ہے۔ ہم یہ بھی نوٹ کرتے ہیں کہ DALL·E کیپشن کے دوبارہ بیان کے حوالے سے نازک ہے: متبادل، معنوی طور پر مساوی کیپشن اکثر درست تشریحات فراہم نہیں کرتے ہیں۔

نقطہ نظر اور سہ جہتی تصور کو بصری بنانا

ہمیں معلوم ہوا کہ DALL·E کسی منظر کے نقطہ نظر اور 3D انداز پر کنٹرول کرنے کی بھی اجازت دیتا ہے جس میں ایک منظر پیش کیا جاتا ہے۔

لوڈنگ ہو رہی ہے...

اس کو مزید آگے بڑھانے کے لیے، ہم DALL·E کی ہر زاویے پر مساوی فاصلہ والے زاویوں کی ترتیب سے ایک معروف شخصیت کے سر کو بار بار کھینچنے کی صلاحیت کی جانچ کرتے ہیں، اور یہ معلوم ہوتا ہے کہ ہم گھومنے والے سر کی ہموار حرکت پذیری کو بازیافت کر سکتے ہیں۔

لوڈنگ ہو رہی ہے...

ایسا لگتا ہے کہ DALL·E مناظر پر کچھ قسم کی نظری تحریفات کو لاگو کرنے کے قابل ہوتا ہے، جیسا کہ ہم آپشنز "فشائی لینس ویو" اور "ایک کروی پینوراما" کے ساتھ دیکھتے ہیں۔ یہ ہمیں اس کی عکاسی پیدا کرنے کی صلاحیت کو دریافت کرنے کی ترغیب دیتا ہے۔

لوڈنگ ہو رہی ہے...

اندرونی اور بیرونی ساخت کا تصور کرنا

"انتہائی قریب سے دیکھنے" اور "ایکسرے" طرز کے نمونوں نے ہمیں DALL·E کی اندرونی ڈھانچے کو کراس سیکشنل نظاروں کے ساتھ اور بیرونی ڈھانچے کو میکرو فوٹوگرافی کے ساتھ پیش کرنے کی صلاحیت کو مزید دریافت کرنے کی ترغیب دی۔

لوڈنگ ہو رہی ہے...

سیاق و سباق کے مطابق تفصیلات کا استخراج

متن کو تصاویر میں تبدیل کرنے کا ٹاسک غیر معین ہے: ایک واحد کیپشن عام طور پر قابل فہم تصاویر کی لامحدودیت سے مطابقت رکھتا ہے، اس لیے تصویر کا انفرادی طور پر تعین نہیں کیا جاتا ہے۔ مثال کے طور پر، "طلوع آفتاب کے وقت میدان میں بیٹھے ہوئے کیپیبارا کی ایک پینٹنگ" کے عنوان پر غور کریں۔ا کاپیبارا کی سمت کے مطابق، سایہ بنانے کی ضرورت ہو سکتی ہے، حالانکہ یہ تفصیل کبھی واضح طور پر بیان نہیں کی جاتی۔ ہم DALL·E کی غیر واضحیت کو تین صورتوں میں حل کرنے کی صلاحیت کو دریافت کرتے ہیں: انداز، ترتیب اور وقت کو تبدیل کرنا؛ مختلف حالات میں ایک ہی چیز کو ڈرائنگ کرنا؛ اور کسی چیز کی تصویر بنانا جس پر مخصوص متن لکھا ہوا ہے۔

لوڈنگ ہو رہی ہے...

مختلف درجوں کی قابل اعتمادیت کے ساتھ، DALL·E قدرتی زبان کے ذریعے 3D رینڈرنگ انجن کی کچھ خصوصیات تک رسائی فراہم کرتا ہے۔ یہ آزادانہ طور پر اشیاء کی ایک چھوٹی سی تعداد کے اوصاف کو کنٹرول کر سکتا ہے، اور ایک محدود حد تک، ان کی تعداد کتنی ہے، اور انہیں ایک دوسرے کے حوالے سے کس طرح ترتیب دیا گیا ہے۔ یہ اس مقام اور زاویے کو بھی کنٹرول کر سکتا ہے جہاں سے کوئی منظر پیش کیا جاتا ہے، اور زاویہ اور روشنی کے حالات کے عین مطابق وضاحتوں کے مطابق معلوم اشیاء تیار کر سکتا ہے۔

3D رینڈرنگ انجن کے برعکس، جس کے ان پٹس کو غیر واضح طور پر اور مکمل تفصیل کے ساتھ بیان کیا جانا چاہیے، DALL·E اکثر "خالی جگہوں کو پُر کرنے" کے قابل ہوتا ہے، جب کیپشن یہ ظاہر کرتا ہے کہ تصویر میں ایک خاص تفصیل ہونی چاہیے جو واضح طور پر بیان نہیں کی جاتی ہے۔

پہلے کی صلاحیتوں کے استعمالات

آگے، ہم فیشن اور اندرونی ڈیزائن کے لیے پہلے کی صلاحیتوں کے استعمال کو دریافت کریں گے۔

لوڈنگ ہو رہی ہے...

غیر متعلقہ تصورات کو یکجا کرنا

زبان کی ترکیبی نوعیت ہمیں حقیقی اور خیالی چیزوں کو بیان کرنے کے لیے تصورات کو اکٹھا کرنے کی اجازت دیتی ہے۔ ہم یہ پاتے ہیں کہ DALL·E میں مختلف خیالات کو یکجا کر کے اشیاء تخلیق کرنے کی صلاحیت بھی موجود ہے، جن میں سے کچھ حقیقی دنیا میں موجود ہونے کا امکان نہیں رکھتی ہیں۔ ہم اس صلاحیت کو دو مواقع پر دریافت کرتے ہیں: مختلف تصورات سے خصوصیات کو منتقل کرنا جانوروں میں، اور غیر متعلقہ تصورات سے متاثر ہو کر مصنوعات کو ڈیزائن کرنا۔

لوڈنگ ہو رہی ہے...

جانوروں کی عکاسیات

پچھلے سیکشن میں، ہم نے DALL·E کی اس صلاحیت کو دریافت کیا کہ وہ غیر متعلقہ تصورات کو یکجا کرتے ہوئے حقیقی دنیا کی تصاویر پیدا کر سکتا ہے۔ یہاں، ہم آرٹ کے سیاق و سباق میں اس صلاحیت کو دریافت کرتے ہیں، تین قسم کی تصاویر کے لیے: جانوروں اور اشیاء کے انسان نما ورژن، جانوروں کی عفریتیں، اور ایموجیز۔

لوڈنگ ہو رہی ہے...

زیرو شاٹ بصری استدلال

GPT‑3 کو صرف ایک وضاحت اور اشارے کے ذریعے مختلف قسم کے ٹاسکس انجام دینے کی ہدایت دی جا سکتی ہے، اور یہ بغیر کسی اضافی تربیت کے، اپنی پرامپٹس میں فراہم کردہ جواب کو پیدا کرنے کے قابل ہوتا ہے۔ مثال کے طور پر، جب جملہ "یہاں جملہ ہے کہ 'ایک شخص جو اپنے کتے کو پارک میں چہل قدمی کر رہا ہے' فرانسیسی میں ترجمہ کیا گیا ہے:" کے ساتھ پرامپٹ کیا جاتا ہے، تو GPT‑3 جواب دیتا ہے "un homme qui promène son chien dans le parc۔" اس صلاحیت کو زیرو شاٹ استدلال کہا جاتا ہے۔ ہم یہ پاتے ہیں کہ DALL·E اس صلاحیت کو بصری شعبہ تک بڑھاتا ہے، اور جب صحیح طریقے سے پرامپٹس کیا جائے تو یہ کئی قسم کے تصویر سے تصویر میں ٹاسک انجام دینے کے قابل ہوتا ہے۔

لوڈنگ ہو رہی ہے...

ہم نے اس صلاحیت کے ابھرنے کی توقع نہیں کی تھی، اور نہ ہی نیورل نیٹ ورک یا تربیتی طریقہ کار میں کوئی تبدیلی کی تھی تاکہ اس کی حوصلہ افزائی کی جا سکے۔ ان نتائج سے متاثر ہو کر، ہم DALL·E کی تجزیاتی استدلال کی صلاحیت کو جانچنے کے لیے Raven کے ترقی پسند میٹرکس پر اس کا تجربہ کرتے ہیں، جو 20 ویں صدی میں وسیع پیمانے پر استعمال ہونے والا بصری IQ ٹیسٹ تھا۔

لوڈنگ ہو رہی ہے...

جغرافیائی علم

ہمیں معلوم ہوا کہ DALL·E نے جغرافیائی حقائق، مقامات اور محلوں کے بارے میں سیکھا ہے۔ ان تصورات کا علم بعض پہلوؤں میں حیرت انگیز طور پر درست ہے اور دیگر میں خامیوں کا شکار ہے۔

لوڈنگ ہو رہی ہے...

وقتی علم

DALL·E کے تصورات کے علم کو دریافت کرنے کے علاوہ جو خلا کے لحاظ سے مختلف ہوتے ہیں، ہم اس کے تصورات کے علم کو بھی دریافت کرتے ہیں جو وقت کے ساتھ مختلف ہوتے ہیں۔

لوڈنگ ہو رہی ہے...

طریقہ کار اور سابقہ کام کا خلاصہ

DALL·E ایک سادہ ڈیکوڈر-صرف ٹرانسفارمر ہے جو متن اور تصویر دونوں کو 1280 ٹوکن کے ایک واحد سلسلے کے طور پر وصول کرتا ہے—256 متن کے لئے اور 1024 تصویر کے لئے—اور ان سب کو خودکار رجعت پسندانہ انداز میں ماڈل کرتا ہے۔ اس کی 64 خود-توجہ پرتوں میں سے ہر ایک پر توجہ ماسک، ہر تصویر ٹوکن کو تمام ٹیکسٹ ٹوکنز پر توجہ دینے کی اجازت دیتا ہے۔ DALL·E ٹیکسٹ ٹوکنز کے لیے معیاری کیژول ماسک استعمال کرتا ہے، اور تصویر ٹوکنز کے لیے اسپارس توجہ استعمال کرتا ہے، جو کہ پرت کے لحاظ سے یا تو قطار، ستون، یا مرغولہ دار توجہ پیٹرن ہوتا ہے۔ ہم اپنے فن تعمیر اور تربیت کے طریقہ کار کے بارے میں مزید تفصیلات اپنے مقالے⁠(نئی ونڈو میں کھلتا ہے) میں فراہم کرتے ہیں۔

متن سے تصویر کی ترکیب Reed وغیرہ کے علمبردار کام کے بعد سے تحقیق کا ایک فعال شعبہ رہا ہے۔ al,¹ جس کا نقطہ نظر ٹیکسٹ ایمبیڈنگ پر مشروط GAN استعمال کرتا ہے۔ ایمبیڈنگز ایک انکوڈر کے ذریعہ تیار کی جاتی ہیں جو ایک متضاد نقصان کا استعمال کرتے ہوئے پہلے سے تربیت یافتہ ہیں، CLIP کے برعکس نہیں۔ StackGAN³ اور StackGAN++⁴ تصویر کی ریزولوشن کو بڑھانے اور بصری دقتِ کار کو بہتر بنانے کے لیے ملٹی اسکیل GANs کا استعمال کرتا ہے۔ AttnGAN⁵ متن اور تصویری خصوصیات کے درمیان توجہ کو شامل کرتا ہے، اور ایک معاون مقصد کے طور پر متضاد ٹیکسٹ امیج فیچر سے مماثل نقصان کی تجویز پیش کرتا ہے۔ ہمارے CLIP کے ساتھ دوبارہ درجہ بندی کے مقابلے میں یہ دلچسپ ہے، جو آف لائن کیا جاتا ہے۔ دیگر کام^{2، 6، 7} تربیت کے دوران اضافی نگرانی کے ذرائع کو شامل کرتے ہیں تاکہ تصویر کے معیار کو بہتر بنایا جا سکے۔ آخر کار، Nguyen وغیرہ کا کام۔ al⁸ اور چو وغیرہ۔ al⁹ تصویر کی تخلیق کے لیے سیمپلنگ پر مبنی حکمت عملیوں کو دریافت کرتا ہے جو پہلے سے تربیت یافتہ ملٹی موڈل امتیازی ماڈلز استعمال کرتے ہیں۔

VQVAE-2⁠(نئی ونڈو میں کھلتا ہے) میں استعمال ہونے والے ردّی ماڈلز کی طرح، ہم CLIP⁠ کا استعمال کرتے ہیں تاکہ تمام انٹرایکٹو بصریات میں ہر کیپشن کے لیے 512 نمونوں میں سے بہترین 32 کو دوبارہ ترتیب دیں۔ اس طریقہ کار کو زبان کی رہنمائی میں تلاش¹⁶ کی ایک قسم کے طور پر بھی دیکھا جا سکتا ہے، اور یہ ماڈلز کے معیار پر ڈرامائی اثر ڈال سکتا ہے۔

لوڈنگ ہو رہی ہے...

حاشیہ

A
ایک ٹوکن سے مراد کوئی بھی علامت ہے جو ایک مخصوص لغت سے ہو؛ انسانوں کے لیے، ہر انگریزی حرف 26 حروفی حروف تہجی سے ایک ٹوکن ہے۔ DALL·E کے لغت میں متن اور تصویر کے تصورات کے لیے ٹوکن موجود ہیں۔ خاص طور پر، ہر تصویر کی کیپشن کو زیادہ سے زیادہ 256 BPE-انکوڈڈ ٹوکن کے ساتھ پیش کیا جاتا ہے جس کا لغت سائز 16384 ہے، اور تصویر کو 1024 ٹوکنز کے ساتھ پیش کیا جاتا ہے جس کا لغت سائز 8192 ہے۔

تربیت کے دوران تصاویر کو 256x256 ریزولیوشن میں پہلے سے پروسیس کیا جاتا ہے۔ VQVAE کی طرح، ہر تصویر کو 32x32 گرڈ میں ڈسکریٹ لیٹنٹ کوڈز میں کمپریس کیا جاتا ہے، جو کہ ایک ڈسکریٹ VAE کے ذریعے ہوتا ہے جسے ہم نے مسلسل ریلیکسیشن کے ذریعے پہلے سے تربیت دی تھی۔ ہم نے پایا کہ تربیت میں نرمی کا استعمال واضح کوڈ بک، EMA نقصان، یا مردہ کوڈ کی بحالی جیسی چالوں کی ضرورت کو ختم کر دیتا ہے، اور یہ بڑے ذخیرہ الفاظ کے سائز تک بڑھ سکتی ہے۔

B
مزید تفصیلات ایک بعد کے سیکشن⁠ میں فراہم کی جائیں گی۔
17
اس ٹاسک کو ویریبل بائنڈنگ کہا جاتا ہے، اور اس پر ادب میں وسیع پیمانے پر تحقیق کی گئی ہے۔

حوالہ جات

1
ریڈ (Reed)، ایس، اکاٹا (Akata)، زیڈ، یان (Yan)، ایکس، لوگیشورن (Logeswaran)، ایل، شیلی (Schiele)، بی، لی (Lee)، ایچ (2016)۔ "جنریٹو مخالفتانہ متن سے تصویر کی تخلیق⁠(نئی ونڈو میں کھلتا ہے)"۔ ICML 2016 میں۔
2
ریڈ (Reed)، ایس، اکاٹا (Akata)، زیڈ، موہن(Mohan) ایس، ٹینکا (Tenka)، ایس، شیلی (Schiele)، بی، لی (Lee)، ایچ (2016)۔ "سیکھنا کب اور کہاں ڈرا کرنا ہے⁠(نئی ونڈو میں کھلتا ہے)" NIPS 2016 میں۔
3
ژانگ (Zhang)، ایچ.، ژو (Xu)، ٹی.، لی (Li)، ایچ.، ژانگ (Zhang)، ایس.، وانگ (Wang)، ایکس.، ہوانگ (Huang) ایکس، میٹاکساس (Metaxas)، ڈی. (2016)۔ "StackGAN: تصویری حقیقت پسندانہ امیج سنتھیسز کے لیے متن اسٹیکڈ جنریٹو ایڈورسریل نیٹ ورکس کے ساتھ⁠(نئی ونڈو میں کھلتا ہے)"۔ ICCY 2017 میں۔
4
ژانگ (Zhang)، ایچ.، ژو (Xu)، ٹی.، لی (Li)، ایچ.، ژانگ (Zhang)، ایس.، وانگ (Wang)، ایکس.، ہوانگ (Huang)، ایکس.، میٹاکساس (Metaxas)، ڈی. (2017). "StackGAN++: اسٹیکڈ جنریٹو ایڈورسریل نیٹ ورکس کے ساتھ حقیقت پسندانہ تصویر کی تخلیق⁠(نئی ونڈو میں کھلتا ہے)"۔ IEEE TPAMI 2018 میں۔
5
ژو (Xu)، ٹی.، ژانگ (Zhang)، پی.، ہوانگ (Huang)، کیو.، ژانگ (Zhang)، ایچ.، گان (Gan)، زیڈ.، ہوانگ (Huang)، ایکس.، ہی (He)، ایکس. (2017). "AttnGAN: توجہ مرکوز جنریٹو ایڈورسریئل نیٹ ورکس کے ساتھ باریک بینی سے متن کو تصویر میں جنریٹ کرنا⁠(نئی ونڈو میں کھلتا ہے)۔
6
لی (Li)، ڈبلیو.، ژانگ (Zhang)، پی.، ژانگ (Zhang)، ایل.، ہوانگ (Huang)، کیو.، ہی (He)، ایکس.، لیو (Lyu)، ایس.، گاؤ (Gao)، جے. (2019)۔ "مخالفانہ تربیت کے ذریعے شے پر مبنی متن سے تصویر کی ترکیب⁠(نئی ونڈو میں کھلتا ہے)"۔ CVPR 2019 میں۔
7
کوہ (Koh)، جے. وائی.، بالڈریج (Baldridge)، جے.، لی (Lee)، ایچ.، یانگ (Yang)، وائی. (2020). "باریک بینی سے صارف کی توجہ کے ساتھ متن سے تصویر کی تخلیق⁠(نئی ونڈو میں کھلتا ہے)"۔ WACV 2021 میں۔
8
نگوین (Nguyen)، اے.، کلون (Clune)، جے.، بنجیو (Bengio)، وائی.، دوسوٹسکی (Dosovitskiy)، اے.، یوسنسکی (Yosinski)، جے. (2016). "پلگ اینڈ پلے جنریٹو نیٹ ورکس: لیٹنٹ اسپیس میں مشروط تکراری تصاویر کی تخلیق⁠(نئی ونڈو میں کھلتا ہے)۔
9
چو جے (Cho, J.)، لو (Lu)، جے.، شون (Schwen)، ڈی.، حاجی شیرزی (Hajishirzi)، ایچ.، کیمبھاوی (Kembhavi)، اے. (2020)۔ "X-LXMERT: پینٹ کریں، کیپشن بنائیں، اور ملٹی موڈل ٹرانسفارمرز کے ساتھ سوالات کے جوابات دیں⁠(نئی ونڈو میں کھلتا ہے)"۔ EMNLP 2020۔
10
کنگما (Kingma)، ڈیڈریک پی (Diederik P.)، اور میکس ویلنگ (Max Welling)۔ "آٹو-اینکوڈنگ وریئشنل بیز⁠(نئی ونڈو میں کھلتا ہے)۔" arXiv preprint (2013).
11
ریزینڈے (Rezende)، دانیلو جمنیز (Danilo Jimenez)، شاکر محمد (Shakir Mohamed)، اور دان ویرسٹر (Daan Wierstra)۔ "گہرے جنریٹو ماڈلز میں اسٹاکاسٹک بیک پروپیگیشن اور تخمینی استنباط⁠(نئی ونڈو میں کھلتا ہے)۔" arXiv preprint (2014).
12
جنگ (Jang)، ای، گو (Gu)، ایس، پول (Poole)، بی۔ (2016)۔ "گمبل-سوفٹ میکس کے ساتھ زمرہ بندی کی دوبارہ پیرامیٹرائزیشن⁠(نئی ونڈو میں کھلتا ہے)"۔
13
میڈیسن (Maddison)، سی.، منیہ (Mnih)، اے.، تہ (Teh)، وائی. ڈبلیو. (Y. W.) (2016)۔ "کنکریٹ ڈسٹری بیوشن: مجرد بے ترتیب متغیرات میں مسلسل نرمی⁠(نئی ونڈو میں کھلتا ہے)"
14
وین ڈین اورڈ (van den Oord)، اے، وینیلز (Vinyals)، او، کاوکوکوگلو (Kavukcuoglu)، کے۔(2017)۔ "نیورل ڈسکریٹ نمائندگی سیکھنا⁠(نئی ونڈو میں کھلتا ہے)"
15
رضوی (Razavi)، اے، وین ڈیر اورڈ (van der Oord)، اے، وینیلز (Vinyals)، او (2019)۔ "VQ-VAE-2 کے ساتھ متنوع ہائی فیڈیلیٹی امیجز بنانا⁠(نئی ونڈو میں کھلتا ہے)".
16
آندریاس (Andreas)، جے.، کلین (Klein)، ڈی.، لیوین (Levine)، ایس. (2017)۔ "پوشیدہ زبان کے ساتھ سیکھنا⁠(نئی ونڈو میں کھلتا ہے)"۔
17
سمولنسکی پی۔ (Smolensky, P.)، (1990)۔ "ٹینسر پروڈکٹ متغیر بائنڈنگ اور کنکشنسٹ سسٹم میں علامتی ڈھانچے کی نمائندگی⁠(نئی ونڈو میں کھلتا ہے)"
18
پلیٹ (Plate)، ٹی. (1995)۔ "ہولوگرافک کم نمائیندگی: ساختی تقسیم شدہ نمائندگی کے لیے کنولوشن الجبرا⁠(نئی ونڈو میں کھلتا ہے)"
19
گیلر آر (Gayler, R.) (1998)۔ "ضربی بائنڈنگ، نمائندگی آپریٹرز اور قیاس⁠(نئی ونڈو میں کھلتا ہے)"
20
کینویرا (Kanerva)، P. (1997). "مکمل طور پر تقسیم شدہ نمائندگیاں⁠(نئی ونڈو میں کھلتا ہے)"

مرکزی مصنفین

Aditya Ramesh، Mikhail Pavlov، Gabriel Goh، Scott Gray

معاون مصنفین

Mark Chen، Rewon Child، Vedant Misra، Pamela Mishkin، Gretchen Krueger، Sandhini Agarwal، Ilya Sutskever

DALL·E: متن سے تصاویر بنانا

جائزہ

صلاحیتیں

کنٹرول کرنے کی خصوصیات

کئی اشیاء کی تصویر بنانا

نقطہ نظر اور سہ جہتی تصور کو بصری بنانا

اندرونی اور بیرونی ساخت کا تصور کرنا

سیاق و سباق کے مطابق تفصیلات کا استخراج

پہلے کی صلاحیتوں کے استعمالات

غیر متعلقہ تصورات کو یکجا کرنا

جانوروں کی عکاسیات

زیرو شاٹ بصری استدلال

جغرافیائی علم

وقتی علم

طریقہ کار اور سابقہ کام کا خلاصہ

حاشیہ

حوالہ جات

مرکزی مصنفین

معاون مصنفین

متعلقہ مضامین