۱۶ دی ۱۳۹۹

DALL·E: ایجاد تصاویر از متن

ما یک شبکه عصبی به نام DALL·E را آموزش داده‌ایم که تصاویر را از توضیحات متنی برای طیف وسیعی از مفاهیم قابل بیان در زبان طبیعی ایجاد می‌کند.

تصویر: جاستین جی وانگ

در حال بارگذاری…

DALL·E نسخه‌ای با ۱۲ میلیارد پارامتر از GPT‑3⁠(در یک پنجره جدید باز می‌شود) است که برای تولید تصاویر از توضیحات متنی آموزش دیده و از یک مجموعه داده از جفت‌های متن-تصویر بهره می‌برد. ما متوجه شده‌ایم که این مدل دارای مجموعه‌ای متنوع از قابلیت‌ها است، از جمله ایجاد نسخه‌های انسان‌گونه از حیوانات و اشیاء، ترکیب مفاهیم نامرتبط به روش‌های منطقی، نمایش متن و اعمال تغییرات بر روی تصاویر موجود.

همچنین ببینید: DALL·E 2⁠، که تصاویر واقعی‌تر و دقیق‌تری با وضوح ۴ برابر بیشتر ایجاد می‌کند.

در حال بارگذاری...

GPT‑3 نشان داد که زبان می‌تواند برای هدایت یک شبکه عصبی بزرگ به منظور انجام انواع وظایف تولید متن به کار رود. Image GPT⁠ نشان داد که همان نوع شبکه عصبی می‌تواند برای تولید تصاویر با کیفیت بالا نیز استفاده شود. ما این یافته‌ها را بسط می‌دهیم تا نشان دهیم که دستکاری مفاهیم بصری از طریق زبان اکنون امکان‌پذیر است.

نمای کلی

مانند GPT‑3، DALL·E یک مدل زبانی ترنسفورمر است. این سیستم هم متن و هم تصویر را به عنوان یک جریان داده واحد که حاوی حداکثر 1280 token است دریافت می‌کند و با استفاده از حداکثر احتمال برای تولید تمام token‌ها، یکی پس از دیگری، آموزش داده می‌شود. ^A

این روش آموزشی به DALL·E اجازه می‌دهد نه تنها یک تصویر را از ابتدا تولید کند، بلکه هر ناحیه مستطیلی از یک تصویر موجود را که به گوشه پایین سمت راست گسترش می‌یابد، به گونه‌ای بازتولید کند که با متن درخواست سازگار باشد.

ما متوجه هستیم که کار با مدل‌های مولد می‌تواند تأثیرات گسترده و مهمی بر جامعه داشته باشد. در آینده، قصد داریم بررسی کنیم که چگونه مدل‌هایی مانند DALL·E با مسائل اجتماعی مانند تأثیر اقتصادی بر فرآیندها و حرفه‌های خاص، احتمال سوگیری در خروجی‌های مدل، و چالش‌های اخلاقی بلند مدت مرتبط با این فناوری ، ارتباط دارند.

قابلیت‌ها

ما دریافتیم که DALL·E می‌تواند تصاویر قابل قبولی برای انواع مختلف جملاتی که ساختار ترکیبی زبان را بررسی می‌کنند، بسازد. ما این را با استفاده از مجموعه‌ای از تصاویر تعاملی در بخش بعدی نشان می‌دهیم. نمونه‌هایی که برای هر زیرنویس در تصاویر نشان داده می‌شوند، با انتخاب ۳۲ مورد برتر از ۵۱۲ پس از رتبه‌بندی مجدد با CLIP⁠ به دست می‌آیند، اما به جز تصاویر کوچک و تصاویر مستقل که در خارج ظاهر می‌شوند، هیچ انتخاب دستی انجام نمی‌دهیم.^B

کنترل ویژگی‌ها

ما توانایی DALL·E را در تغییر چندین ویژگی یک شیء و همچنین تعداد دفعاتی که ظاهر می‌شود، می‌سنجیم.

در حال بارگذاری...

ترسیم چندین شیء

کنترل همزمان چندین شیء، ویژگی‌های آن‌ها و روابط فضایی‌شان، چالشی جدید ایجاد می‌کند. برای مثال، به عبارت «یک جوجه‌تیغی که کلاه قرمز، دستکش زرد، پیراهن آبی و شلوار سبز پوشیده است» دقت کنید. برای تفسیر صحیح این جمله، DALL·E باید نه تنها هر قطعه لباس را به درستی با حیوان ترکیب کند، بلکه باید ارتباطات (کلاه، قرمز)، (دستکش، زرد)، (پیراهن، آبی) و (شلوار، سبز) را بدون اشتباه برقرار کند ^C

ما توانایی DALL·E را برای انجام این کار در موقعیت‌یابی نسبی، چیدن اشیاء و کنترل چندین ویژگی تست می‌کنیم.

در حال بارگذاری...

در حالی که DALL·E تا حدی امکان کنترل بر ویژگی‌ها و موقعیت‌های تعداد کمی از اشیاء را فراهم می‌کند، میزان موفقیت می‌تواند به نحوه‌ی بیان عنوان بستگی داشته باشد. با معرفی اشیاء بیشتر، DALL·E مستعد اشتباه در ارتباطات بین اشیاء و رنگ‌هایشان می‌شود و نرخ موفقیت به شدت کاهش می‌یابد. ما همچنین متوجه شدیم که DALL·E در برابر بازنویسی زیرنویس در این سناریوها شکننده است: زیرنویس‌های جایگزین و معادل معنایی اغلب هیچ تفسیری صحیحی ارائه نمی‌دهند.

تصویرسازی دیدگاه و سه‌بعدی

ما دریافتیم که DALL·E همچنین امکان کنترل بر زاویه دید یک صحنه و سبک سه‌بعدی که در آن صحنه رندر می‌شود را فراهم می‌کند.

در حال بارگذاری...

برای پیشبرد این موضوع، ما توانایی DALL·E را در ترسیم مکرر سر یک چهره معروف از هر زاویه در یک توالی از زوایای با فاصله مساوی آزمایش می‌کنیم و متوجه می‌شویم که می‌توانیم یک انیمیشن روان از چرخش سر ایجاد کنیم.

در حال بارگذاری...

به نظر می‌رسد DALL·E می‌تواند برخی از انواع اعوجاجات نوری را به صحنه‌ها اعمال کند، همان‌طور که با گزینه‌های«نمای لنز چشم‌ماهی» و «پانورامای کروی» مشاهده می‌کنیم. این امر ما را برانگیخت تا توانایی آن در ایجاد بازتاب‌ها را بررسی کنیم.

در حال بارگذاری...

تصویری‌سازی ساختار داخلی و خارجی

نمونه‌ها از «نمای نزدیک بسیار دقیق» و سبک «اشعه ایکس» ما را به بررسی بیشتر توانایی DALL·E در نمایش ساختار داخلی با نماهای مقطعی و ساختار خارجی با عکس‌های ماکرو سوق داد.

در حال بارگذاری...

استنباط جزئیات متنی

وظیفه ترجمه متن به تصویر به‌طور کامل مشخص نشده است: یک زیرنویس به طور معمول می‌تواند به بی‌نهایت تصویر ممکن مربوط باشد، بنابراین تصویر به‌طور منحصربه‌فرد تعیین نمی‌شود. برای مثال، به زیرنویس «نقاشی از یک کاپی‌بارا که در طلوع آفتاب روی یک دشت نشسته است» توجه کن. بسته به جهت‌گیری کاپی‌بارا، ممکنه لازم باشه سایه‌ای کشیده بشه، هرچند این جزئیات هرگز به‌طور صریح ذکر نشده است. ما توانایی DALL·E را در حل عدم تعیین در سه مورد بررسی می‌کنیم: تغییر سبک، تنظیمات و زمان؛ ترسیم همان شیء در موقعیت‌های مختلف؛ و تولید تصویری از یک شیء با متنی خاص که روی آن نوشته شده است.

در حال بارگذاری...

با درجات مختلفی از قابلیت اطمینان، DALL·E دسترسی به بخشی از قابلیت‌های یک موتور رندر سه‌بعدی را از طریق زبان طبیعی فراهم می‌کند. می‌تواند به طور مستقل ویژگی‌های تعداد کمی از اشیاء را کنترل کند و تا حدی تعداد آنها و نحوه چیدمان آنها نسبت به یکدیگر را تنظیم کند. همچنین می‌تواند مکان و زاویه‌ای که از آن یک صحنه رندر می‌شود را کنترل کند و می‌تواند اشیاء شناخته‌شده را با رعایت مشخصات دقیق زاویه و شرایط نوری تولید کند.

برخلاف یک موتور رندر سه‌بعدی که ورودی‌های آن باید به‌طور واضح و با جزئیات کامل مشخص شوند، DALL·E اغلب می‌تواند "جاهای خالی را پر کند" زمانی که زیرنویس نشان می‌دهد تصویر باید حاوی جزئیات خاصی باشد که به‌طور صریح بیان نشده است.

کاربردهای قابلیت‌های قبلی

در ادامه، به بررسی استفاده از قابلیت‌های قبلی در طراحی مد و دکوراسیون داخلی می‌پردازیم.

در حال بارگذاری...

ترکیب مفاهیم نامرتبط

ماهیت ترکیبی زبان به ما این امکان را می‌دهد که مفاهیم را برای توصیف چیزهای واقعی و خیالی کنار هم بگذاریم. ما دریافتیم که DALL·E همچنین توانایی ترکیب ایده‌های متفاوت برای ساخت اشیایی را دارد که برخی از آن‌ها احتمالاً در دنیای واقعی وجود ندارند. ما این توانایی را در دو مورد بررسی می‌کنیم: انتقال ویژگی‌ها از مفاهیم مختلف به حیوانات و طراحی محصولات با الهام از مفاهیم نامرتبط.

در حال بارگذاری...

تصاویر حیوانات

در بخش قبلی، توانایی DALL·E در ترکیب مفاهیم نامرتبط هنگام تولید تصاویر از اشیاء دنیای واقعی را بررسی کردیم. اینجا، ما این توانایی را در زمینه هنر بررسی می‌کنیم، برای سه نوع تصویرسازی: نسخه‌های انسان‌انگاری شده از حیوانات و اشیاء، کیمراهای حیوانی، و ایموجی‌ها.

در حال بارگذاری...

استدلال بصری بدون نیاز به نمونه

GPT‑3 می‌تواند تنها با یک توصیف و یک نشانه برای تولید پاسخی که در درخواست آن ارائه شده است، بدون نیاز به آموزش اضافی، بسیاری از وظایف را انجام دهد. برای مثال، وقتی با عبارت «در اینجا جمله <a person walking his dog in the park> به فرانسوی ترجمه شده است:» مواجه می‌شوی، GPT‑3 پاسخ می‌دهد «un homme qui promène son chien dans le parc.» این قابلیت استدلال بدون نیاز به آموزش قبلی نامیده می‌شود. ما دریافتیم که DALL·E این قابلیت را به حوزه بصری گسترش می‌دهد و می‌تواند چندین نوع از وظایف ترجمه تصویر به تصویر را زمانی که به روش صحیح درخواست شود، انجام دهد.

در حال بارگذاری...

ما انتظار نداشتیم که این قابلیت به وجود بیاید و هیچ تغییری در شبکه عصبی یا روش آموزش برای تشویق آن ایجاد نکردیم. با انگیزه از این نتایج، توانایی DALL·E را برای مسائل استدلال قیاسی با آزمایش آن بر روی ماتریس‌های پیشرونده ریون، یک آزمون IQ بصری که در قرن بیستم به طور گسترده استفاده می‌شد، می‌سنجیم.

در حال بارگذاری...

دانش جغرافیا

ما متوجه شدیم که DALL·E درباره حقایق جغرافیایی، نقاط دیدنی و محله‌ها را آموزش دیده است. دانش آن از این مفاهیم در برخی جنبه‌ها به طرز شگفت‌آوری دقیق است و در جنبه‌های دیگر نقص دارد.

در حال بارگذاری...

دانش موقتی

علاوه بر بررسی دانش DALL·E از مفاهیمی که در فضا تغییر می‌کنند، ما همچنین دانش آن از مفاهیمی که در طول زمان تغییر می‌کنند را بررسی می‌کنیم.

در حال بارگذاری...

خلاصه‌ای از رویکرد و کارهای قبلی

DALL·E یک ترانسفورمر ساده و فقط رمزگشا است که متن و تصویر را به عنوان یک جریان واحد از 1280 توکن دریافت می‌کند—256 برای متن و 1024 برای تصویر—و همه آن‌ها را به صورت خودبازگشتی مدل‌سازی می‌کند. ماسک توجه در هر یک از ۶۴ لایه خود توجهی به هر توکن تصویر اجازه می‌دهد تا به تمام توکن‌ها توجه کند. DALL·E از ماسک علّی استاندارد برای توکن‌های متنی استفاده می‌کند و برای توکن‌های تصویری از توجه پراکنده با الگوی توجه ردیفی، ستونی یا کانولوشنی، بسته به لایه استفاده می‌کند. ما جزئیات بیشتری درباره معماری و روش آموزش در مقاله⁠(در یک پنجره جدید باز می‌شود)مان ارائه می‌دهیم.

تولید تصویر از متن یک حوزه فعال تحقیقاتی بوده است از زمان کار پیشگامانه رید و همکارانش ¹ که رویکرد آن از یک GAN استفاده می‌کند که بر اساس تعبیه‌های متنی شرطی شده است. تعبیه‌ها توسط یک رمزگذار که با استفاده از یک تابع از دست دادن متضاد از پیش آموزش دیده است، تولید می‌شوند، نه بی شباهت به CLIP. StackGAN³ و StackGAN++⁴ از GANهای چند مقیاسی برای افزایش وضوح تصویر و بهبود کیفیت بصری استفاده می‌کنند. AttnGAN⁵ شامل توجه بین ویژگی‌های متن و تصویر است و یک هدف کمکی به نام «تطبیق ویژگی‌های متنی-تصویری متضاد» را پیشنهاد می‌کند. این جالب است که با رتبه‌بندی مجدد ما با CLIP که به صورت آفلاین انجام می‌شود، مقایسه کنیم. کارهای دیگر^{2،‏ 6،‏ 7} منابع اضافی نظارت را در طول آموزش برای بهبود کیفیت تصویر به کار می‌گیرند. در نهایت، کار Nguyen و همکارانش ⁸ و چو و همکاران al⁹ استراتژی‌های مبتنی بر نمونه‌گیری برای تولید تصویر را که از مدل‌های تشخیصی چند وجهی از پیش آموزش‌دیده بهره می‌برند، بررسی می‌کند.

مشابه نمونه‌گیری رد که در VQVAE-2⁠(در یک پنجره جدید باز می‌شود) استفاده می‌شود، ما از CLIP⁠ برای رتبه‌بندی مجدد ۳۲ نمونه برتر از ۵۱۲ نمونه برای هر عنوان در تمامی تصاویر تعاملی استفاده می‌کنیم. این روش همچنین می‌تواند به‌عنوان نوعی جستجوی هدایت‌شده¹⁶توسط زبان تلقی شود و تأثیر چشمگیری بر کیفیت نمونه داشته باشد.

در حال بارگذاری...

پاورقی

A
یک توکن هرگونه نمادی از یک واژگان گسسته است؛ برای انسان‌ها، هر حرف انگلیسی یک توکن از یک الفبای ۲۶ حرفی است. واژگان DALL·E شامل توکن‌هایی برای مفاهیم متنی و تصویری است. به طور خاص، هر توضیح تصویر با استفاده از حداکثر ۲۵۶ توکن کدگذاری شده با BPE و با اندازه واژگان ۱۶۳۸۴ نمایش داده می‌شود و تصویر با استفاده از ۱۰۲۴ توکن با اندازه واژگان ۸۱۹۲ نمایش داده می‌شود.

تصاویر در حین آموزش به وضوح ۲۵۶x۲۵۶ پیش‌پردازش می‌شوند. مشابه VQVAE، هر تصویر به یک شبکه ۳۲x۳۲ از کدهای نهفته گسسته فشرده می‌شود با استفاده از یک VAE گسسته که ما آن را با استفاده از یک تسهیل پیوسته از پیش آموزش داده‌ایم. ما دریافتیم که آموزش با استفاده از روش آرامش، نیاز به یک کتاب کد صریح، از دست دادن EMA، یا ترفندهایی مانند احیای کد مرده را برطرف می‌کند و می‌تواند تا اندازه‌های بزرگ واژگان مقیاس‌پذیر باشد.