DALL·E: ایجاد تصاویر از متن
ما یک شبکه عصبی به نام DALL·E را آموزش دادهایم که تصاویر را از توضیحات متنی برای طیف وسیعی از مفاهیم قابل بیان در زبان طبیعی ایجاد میکند.

تصویر: جاستین جی وانگ
DALL·E نسخهای با ۱۲ میلیارد پارامتر از GPT‑3(در یک پنجره جدید باز میشود) است که برای تولید تصاویر از توضیحات متنی آموزش دیده و از یک مجموعه داده از جفتهای متن-تصویر بهره میبرد. ما متوجه شدهایم که این مدل دارای مجموعهای متنوع از قابلیتها است، از جمله ایجاد نسخههای انسانگونه از حیوانات و اشیاء، ترکیب مفاهیم نامرتبط به روشهای منطقی، نمایش متن و اعمال تغییرات بر روی تصاویر موجود.
همچنین ببینید: DALL·E 2، که تصاویر واقعیتر و دقیقتری با وضوح ۴ برابر بیشتر ایجاد میکند.
GPT‑3 نشان داد که زبان میتواند برای هدایت یک شبکه عصبی بزرگ به منظور انجام انواع وظایف تولید متن به کار رود. Image GPT نشان داد که همان نوع شبکه عصبی میتواند برای تولید تصاویر با کیفیت بالا نیز استفاده شود. ما این یافتهها را بسط میدهیم تا نشان دهیم که دستکاری مفاهیم بصری از طریق زبان اکنون امکانپذیر است.
مانند GPT‑3، DALL·E یک مدل زبانی ترنسفورمر است. این سیستم هم متن و هم تصویر را به عنوان یک جریان داده واحد که حاوی حداکثر 1280 token است دریافت میکند و با استفاده از حداکثر احتمال برای تولید تمام tokenها، یکی پس از دیگری، آموزش داده میشود. A
این روش آموزشی به DALL·E اجازه میدهد نه تنها یک تصویر را از ابتدا تولید کند، بلکه هر ناحیه مستطیلی از یک تصویر موجود را که به گوشه پایین سمت راست گسترش مییابد، به گونهای بازتولید کند که با متن درخواست سازگار باشد.
ما متوجه هستیم که کار با مدلهای مولد میتواند تأثیرات گسترده و مهمی بر جامعه داشته باشد. در آینده، قصد داریم بررسی کنیم که چگونه مدلهایی مانند DALL·E با مسائل اجتماعی مانند تأثیر اقتصادی بر فرآیندها و حرفههای خاص، احتمال سوگیری در خروجیهای مدل، و چالشهای اخلاقی بلند مدت مرتبط با این فناوری ، ارتباط دارند.
ما دریافتیم که DALL·E میتواند تصاویر قابل قبولی برای انواع مختلف جملاتی که ساختار ترکیبی زبان را بررسی میکنند، بسازد. ما این را با استفاده از مجموعهای از تصاویر تعاملی در بخش بعدی نشان میدهیم. نمونههایی که برای هر زیرنویس در تصاویر نشان داده میشوند، با انتخاب ۳۲ مورد برتر از ۵۱۲ پس از رتبهبندی مجدد با CLIP به دست میآیند، اما به جز تصاویر کوچک و تصاویر مستقل که در خارج ظاهر میشوند، هیچ انتخاب دستی انجام نمیدهیم.B
ما توانایی DALL·E را در تغییر چندین ویژگی یک شیء و همچنین تعداد دفعاتی که ظاهر میشود، میسنجیم.
کنترل همزمان چندین شیء، ویژگیهای آنها و روابط فضاییشان، چالشی جدید ایجاد میکند. برای مثال، به عبارت «یک جوجهتیغی که کلاه قرمز، دستکش زرد، پیراهن آبی و شلوار سبز پوشیده است» دقت کنید. برای تفسیر صحیح این جمله، DALL·E باید نه تنها هر قطعه لباس را به درستی با حیوان ترکیب کند، بلکه باید ارتباطات (کلاه، قرمز)، (دستکش، زرد)، (پیراهن، آبی) و (شلوار، سبز) را بدون اشتباه برقرار کند C
ما توانایی DALL·E را برای انجام این کار در موقعیتیابی نسبی، چیدن اشیاء و کنترل چندین ویژگی تست میکنیم.
در حالی که DALL·E تا حدی امکان کنترل بر ویژگیها و موقعیتهای تعداد کمی از اشیاء را فراهم میکند، میزان موفقیت میتواند به نحوهی بیان عنوان بستگی داشته باشد. با معرفی اشیاء بیشتر، DALL·E مستعد اشتباه در ارتباطات بین اشیاء و رنگهایشان میشود و نرخ موفقیت به شدت کاهش مییابد. ما همچنین متوجه شدیم که DALL·E در برابر بازنویسی زیرنویس در این سناریوها شکننده است: زیرنویسهای جایگزین و معادل معنایی اغلب هیچ تفسیری صحیحی ارائه نمیدهند.
ما دریافتیم که DALL·E همچنین امکان کنترل بر زاویه دید یک صحنه و سبک سهبعدی که در آن صحنه رندر میشود را فراهم میکند.
برای پیشبرد این موضوع، ما توانایی DALL·E را در ترسیم مکرر سر یک چهره معروف از هر زاویه در یک توالی از زوایای با فاصله مساوی آزمایش میکنیم و متوجه میشویم که میتوانیم یک انیمیشن روان از چرخش سر ایجاد کنیم.
به نظر میرسد DALL·E میتواند برخی از انواع اعوجاجات نوری را به صحنهها اعمال کند، همانطور که با گزینههای«نمای لنز چشمماهی» و «پانورامای کروی» مشاهده میکنیم. این امر ما را برانگیخت تا توانایی آن در ایجاد بازتابها را بررسی کنیم.
نمونهها از «نمای نزدیک بسیار دقیق» و سبک «اشعه ایکس» ما را به بررسی بیشتر توانایی DALL·E در نمایش ساختار داخلی با نماهای مقطعی و ساختار خارجی با عکسهای ماکرو سوق داد.
وظیفه ترجمه متن به تصویر بهطور کامل مشخص نشده است: یک زیرنویس به طور معمول میتواند به بینهایت تصویر ممکن مربوط باشد، بنابراین تصویر بهطور منحصربهفرد تعیین نمیشود. برای مثال، به زیرنویس «نقاشی از یک کاپیبارا که در طلوع آفتاب روی یک دشت نشسته است» توجه کن. بسته به جهتگیری کاپیبارا، ممکنه لازم باشه سایهای کشیده بشه، هرچند این جزئیات هرگز بهطور صریح ذکر نشده است. ما توانایی DALL·E را در حل عدم تعیین در سه مورد بررسی میکنیم: تغییر سبک، تنظیمات و زمان؛ ترسیم همان شیء در موقعیتهای مختلف؛ و تولید تصویری از یک شیء با متنی خاص که روی آن نوشته شده است.
با درجات مختلفی از قابلیت اطمینان، DALL·E دسترسی به بخشی از قابلیتهای یک موتور رندر سهبعدی را از طریق زبان طبیعی فراهم میکند. میتواند به طور مستقل ویژگیهای تعداد کمی از اشیاء را کنترل کند و تا حدی تعداد آنها و نحوه چیدمان آنها نسبت به یکدیگر را تنظیم کند. همچنین میتواند مکان و زاویهای که از آن یک صحنه رندر میشود را کنترل کند و میتواند اشیاء شناختهشده را با رعایت مشخصات دقیق زاویه و شرایط نوری تولید کند.
برخلاف یک موتور رندر سهبعدی که ورودیهای آن باید بهطور واضح و با جزئیات کامل مشخص شوند، DALL·E اغلب میتواند "جاهای خالی را پر کند" زمانی که زیرنویس نشان میدهد تصویر باید حاوی جزئیات خاصی باشد که بهطور صریح بیان نشده است.
در ادامه، به بررسی استفاده از قابلیتهای قبلی در طراحی مد و دکوراسیون داخلی میپردازیم.
ماهیت ترکیبی زبان به ما این امکان را میدهد که مفاهیم را برای توصیف چیزهای واقعی و خیالی کنار هم بگذاریم. ما دریافتیم که DALL·E همچنین توانایی ترکیب ایدههای متفاوت برای ساخت اشیایی را دارد که برخی از آنها احتمالاً در دنیای واقعی وجود ندارند. ما این توانایی را در دو مورد بررسی میکنیم: انتقال ویژگیها از مفاهیم مختلف به حیوانات و طراحی محصولات با الهام از مفاهیم نامرتبط.
در بخش قبلی، توانایی DALL·E در ترکیب مفاهیم نامرتبط هنگام تولید تصاویر از اشیاء دنیای واقعی را بررسی کردیم. اینجا، ما این توانایی را در زمینه هنر بررسی میکنیم، برای سه نوع تصویرسازی: نسخههای انسانانگاری شده از حیوانات و اشیاء، کیمراهای حیوانی، و ایموجیها.
GPT‑3 میتواند تنها با یک توصیف و یک نشانه برای تولید پاسخی که در درخواست آن ارائه شده است، بدون نیاز به آموزش اضافی، بسیاری از وظایف را انجام دهد. برای مثال، وقتی با عبارت «در اینجا جمله <a person walking his dog in the park> به فرانسوی ترجمه شده است:» مواجه میشوی، GPT‑3 پاسخ میدهد «un homme qui promène son chien dans le parc.» این قابلیت استدلال بدون نیاز به آموزش قبلی نامیده میشود. ما دریافتیم که DALL·E این قابلیت را به حوزه بصری گسترش میدهد و میتواند چندین نوع از وظایف ترجمه تصویر به تصویر را زمانی که به روش صحیح درخواست شود، انجام دهد.
ما انتظار نداشتیم که این قابلیت به وجود بیاید و هیچ تغییری در شبکه عصبی یا روش آموزش برای تشویق آن ایجاد نکردیم. با انگیزه از این نتایج، توانایی DALL·E را برای مسائل استدلال قیاسی با آزمایش آن بر روی ماتریسهای پیشرونده ریون، یک آزمون IQ بصری که در قرن بیستم به طور گسترده استفاده میشد، میسنجیم.
ما متوجه شدیم که DALL·E درباره حقایق جغرافیایی، نقاط دیدنی و محلهها را آموزش دیده است. دانش آن از این مفاهیم در برخی جنبهها به طرز شگفتآوری دقیق است و در جنبههای دیگر نقص دارد.
علاوه بر بررسی دانش DALL·E از مفاهیمی که در فضا تغییر میکنند، ما همچنین دانش آن از مفاهیمی که در طول زمان تغییر میکنند را بررسی میکنیم.
DALL·E یک ترانسفورمر ساده و فقط رمزگشا است که متن و تصویر را به عنوان یک جریان واحد از 1280 توکن دریافت میکند—256 برای متن و 1024 برای تصویر—و همه آنها را به صورت خودبازگشتی مدلسازی میکند. ماسک توجه در هر یک از ۶۴ لایه خود توجهی به هر توکن تصویر اجازه میدهد تا به تمام توکنها توجه کند. DALL·E از ماسک علّی استاندارد برای توکنهای متنی استفاده میکند و برای توکنهای تصویری از توجه پراکنده با الگوی توجه ردیفی، ستونی یا کانولوشنی، بسته به لایه استفاده میکند. ما جزئیات بیشتری درباره معماری و روش آموزش در مقاله(در یک پنجره جدید باز میشود)مان ارائه میدهیم.
تولید تصویر از متن یک حوزه فعال تحقیقاتی بوده است از زمان کار پیشگامانه رید و همکارانش 1 که رویکرد آن از یک GAN استفاده میکند که بر اساس تعبیههای متنی شرطی شده است. تعبیهها توسط یک رمزگذار که با استفاده از یک تابع از دست دادن متضاد از پیش آموزش دیده است، تولید میشوند، نه بی شباهت به CLIP. StackGAN3 و StackGAN++4 از GANهای چند مقیاسی برای افزایش وضوح تصویر و بهبود کیفیت بصری استفاده میکنند. AttnGAN5 شامل توجه بین ویژگیهای متن و تصویر است و یک هدف کمکی به نام «تطبیق ویژگیهای متنی-تصویری متضاد» را پیشنهاد میکند. این جالب است که با رتبهبندی مجدد ما با CLIP که به صورت آفلاین انجام میشود، مقایسه کنیم. کارهای دیگر2، 6، 7 منابع اضافی نظارت را در طول آموزش برای بهبود کیفیت تصویر به کار میگیرند. در نهایت، کار Nguyen و همکارانش 8 و چو و همکاران al9 استراتژیهای مبتنی بر نمونهگیری برای تولید تصویر را که از مدلهای تشخیصی چند وجهی از پیش آموزشدیده بهره میبرند، بررسی میکند.
مشابه نمونهگیری رد که در VQVAE-2(در یک پنجره جدید باز میشود) استفاده میشود، ما از CLIP برای رتبهبندی مجدد ۳۲ نمونه برتر از ۵۱۲ نمونه برای هر عنوان در تمامی تصاویر تعاملی استفاده میکنیم. این روش همچنین میتواند بهعنوان نوعی جستجوی هدایتشده16توسط زبان تلقی شود و تأثیر چشمگیری بر کیفیت نمونه داشته باشد.
پاورقی
- A
یک توکن هرگونه نمادی از یک واژگان گسسته است؛ برای انسانها، هر حرف انگلیسی یک توکن از یک الفبای ۲۶ حرفی است. واژگان DALL·E شامل توکنهایی برای مفاهیم متنی و تصویری است. به طور خاص، هر توضیح تصویر با استفاده از حداکثر ۲۵۶ توکن کدگذاری شده با BPE و با اندازه واژگان ۱۶۳۸۴ نمایش داده میشود و تصویر با استفاده از ۱۰۲۴ توکن با اندازه واژگان ۸۱۹۲ نمایش داده میشود.
تصاویر در حین آموزش به وضوح ۲۵۶x۲۵۶ پیشپردازش میشوند. مشابه VQVAE، هر تصویر به یک شبکه ۳۲x۳۲ از کدهای نهفته گسسته فشرده میشود با استفاده از یک VAE گسسته که ما آن را با استفاده از یک تسهیل پیوسته از پیش آموزش دادهایم. ما دریافتیم که آموزش با استفاده از روش آرامش، نیاز به یک کتاب کد صریح، از دست دادن EMA، یا ترفندهایی مانند احیای کد مرده را برطرف میکند و میتواند تا اندازههای بزرگ واژگان مقیاسپذیر باشد.
- B
جزئیات بیشتر در بخشی بعدی ارائه شده است.
- 17
این کار به نام اتصال متغیر شناخته میشود و به طور گستردهای در متون علمی مورد مطالعه قرار گرفته است.
ارجاعات
- 1
رید، اس.، اکاتا، ز.، یان، اکس.، لوگسواران، ال.، شیل، ب.، لی، اچ. (۲۰۱۶). «تولید تصویر متخاصم مولد از متن(در یک پنجره جدید باز میشود)». در ICML ۲۰۱۶.
- 2
رید، اس.، اکاتا، ز.، موهان، س.، تنکا، س.، شیل، ب.، لی، اچ. (۲۰۱۶). «یادگیری چی و کجا نقاشی بکشی(در یک پنجره جدید باز میشود)». در NIPS 2016.
- 3
ژانگ، اچ.، شو، ت.، لی، اچ.، ژانگ، س.، وانگ، اکس.، هوانگ، اکس.، متاکساس، دی. (۲۰۱۶). «StackGAN: سنتز تصویر فوتورئالیستی از متن با شبکههای مولد متخاصم پشتهای(در یک پنجره جدید باز میشود)». در ICCY ۲۰۱۷.
- 4
ژانگ، اچ.، شو، ت.، لی، اچ.، ژانگ، اس.، وانگ، اکس.، هوانگ، اکس.، متاکساس، دی. (۲۰۱۷). «StackGAN++: سنتز تصویر واقعی با شبکههای مولد رقابتی پشتهای(در یک پنجره جدید باز میشود)». در IEEE TPAMI ۲۰۱۸.
- 5
شو، ت.، ژانگ، پ.، هوانگ، کیو.، ژانگ، اچ.، گان، زد.، هوانگ، ایکس.، هی، ایکس. (۲۰۱۷). «<ahref=\" \">AttnGAN: تولید تصویر دقیق از متن با شبکههای مولد تخاصمی توجهی(در یک پنجره جدید باز میشود).
- 6
لی، و، ژانگ، پ، ژانگ، ال، هوانگ، کیو، هی، ایکس، لو، اس، گائو، ج (۲۰۱۹). «<ahref=\" \">تولید تصویر از متن با هدایت شیء از طریق آموزش تقابلی ».(در یک پنجره جدید باز میشود) در CVPR 2019.
- 7
کو، جی. وای.، بالدریج، جی.، لی، اچ.، یانگ، وای. (۲۰۲۰). «تولید تصویر از متن با توجه دقیق به توجه کاربر(در یک پنجره جدید باز میشود)». در WACV ۲۰۲۱.
- 8
نگوین، آ.، کلون، جی.، بنجیو، ی.، دوسوویتسکی، آ.، یوسینسکی، جی. (۲۰۱۶). «شبکههای مولد Plug & Play: تولید شرطی و تکراری تصاویر در فضای نهان(در یک پنجره جدید باز میشود).
- 9
چو، جی.، لو، جی.، شوئن، د.، حاجیشیریزی،اچ.، کمبهاوی، آ. (۲۰۲۰). «X-LXMERT: نقاشی، زیرنویسگذاری و پاسخ به سوالات با ترانسفورمرهای چندوجهی(در یک پنجره جدید باز میشود)». EMNLP ۲۰۲۰.
- 10
کینگما، دیدریک پی، و مکس ولینگ. «خودرمزگذار بیز متغیر(در یک پنجره جدید باز میشود).» پیشچاپ arXiv (۲۰۱۳).
- 11
رزنده، دانیلو خیمنز، شاکر محمد، و دان ویراسترا. «پسانتشار تصادفی و استنتاج تقریبی در مدلهای مولد عمیق(در یک پنجره جدید باز میشود).» پیشچاپ arXiv (۲۰۱۴).
- 12
جانگ، ای.، گو، اس.، پول، ب. (۲۰۱۶). «بازپارامتریسازی دستهای با گامبل-سافتمکس(در یک پنجره جدید باز میشود)».
- 13
مدیسون، سی.، منیه، آ.، ته، وای. دابلیو. (۲۰۱۶). «توزیع کانکریت: آرامسازی پیوسته متغیرهای تصادفی گسسته(در یک پنجره جدید باز میشود)».
- 14
ون دن اورد، آ.، وینیالس، او.، کاووکچوغلو، کی (۲۰۱۷). «یادگیری نمایش گسسته عصبی(در یک پنجره جدید باز میشود)».
- 15
رضوی، ع.، ون در اورد، ا.، وینیالز، او. (۲۰۱۹). «تولید تصاویر متنوع و با وضوح بالا با VQ-VAE-2(در یک پنجره جدید باز میشود)».
- 16
آندریاس، جی.، کلاین، دی.، لوین، اس. (۲۰۱۷). «یادگیری با زبان پنهان(در یک پنجره جدید باز میشود)».
- 17
- 18
- 19
گیلر، آر. (۱۹۹۸). «پیوند ضربی، عملگرهای نمایش و قیاس(در یک پنجره جدید باز میشود)».
- 20
کانروا، پ. (۱۹۹۷). «نمایشهای کاملاً توزیعشده(در یک پنجره جدید باز میشود)».


