DALL·E: إنشاء صور من النص
لقد قمنا بتدريب نموذج على شبكة عصبية يُسمى DALL·E لتحويل التسميات التوضيحية النصية إلى صور، لتغطية مجموعة واسعة من المفاهيم القابلة للتعبير عنها باللغة الطبيعية.

الرسم التوضيحي: جاستن جاي وانغ
DALL·E هو إصدار يحتوي على 12 مليار معلمة من نموذج GPT‑3(يفتح في نافذة جديدة) تم تدريبه على إنشاء صور من أوصاف نصية، باستخدام مجموعة بيانات من أزواج النصوص والصور. لقد وجدنا أن لديه مجموعة متنوعة من القدرات، بما في ذلك إنشاء نُسخ مجسمة من الحيوانات والكائنات، ودمج المفاهيم غير المرتبطة بطرق معقولة، وعرض النصوص، وتطبيق التحويلات على الصور الموجودة.
انظر أيضًا: DALL·E 2، الذي ينشئ صورًا أكثر واقعية ودقة بدقة أعلى بمقدار أربعة أضعاف.
أظهر نموذج GPT‑3 أن اللغة يمكن استخدامها لتوجيه الشبكة العصبية الكبيرة لأداء مجموعة متنوعة من مهام إنشاء النصوص. وأظهر نموذج Image GPT أن نوع الشبكة العصبية نفسه يمكن استخدامه أيضًا لإنشاء صور بدقة عالية. نوسّع هذه النتائج لنُبيّن أن التلاعب بالمفاهيم البصرية من خلال اللغة أصبح الآن ممكنًا.
مثل نموذج GPT‑3، يُعدّ DALL·E نموذجًا لغويًا محولاً. يتلقى كل من النص والصورة كتسلسل واحد من البيانات يحتوي على ما يصل إلى 1280 رمزًا مميزًا، ويتم تدريبه باستخدام الاحتمالية العظمى لإنشاء جميع الرموز المميزة واحدًا تلو الآخر. A
تسمح عملية التدريب هذه لـ DALL·E ليس فقط بإنشاء صورة من الصفر، ولكن أيضًا بإعادة إنشاء أي منطقة مستطيلة من صورة موجودة تمتد إلى الزاوية السفلية اليمنى، بطريقة تتماشى مع الطلب النصي.
ندرك أن العمل المتعلق بنماذج الإنشاء يمتلك القدرة على إحداث تأثيرات مجتمعية كبيرة وواسعة. في المستقبل، لدينا خطة لتحليل كيفية ارتباط نماذج مثل DALL·E بالقضايا المجتمعية مثل التأثير الاقتصادي على بعض عمليات العمل والمهن، وإمكانية وجود تحيز في مخرجات النموذج، والتحديات الأخلاقية طويلة الأمد التي تفرضها هذه التقنية.
نجد أن DALL·E قادر على إنشاء صور معقولة لمجموعة متنوعة من الجمل التي تستكشف البنية التركيبية للغة. نوضح ذلك من خلال سلسلة من المرئيات التفاعلية في القسم التالي. النماذج المعروضة لكل تسمية توضيحية في المرئيات تُستخرج من أفضل 32 عينة من أصل 512 بعد إعادة الترتيب باستخدام CLIP، ولا نقوم بأي اختيار يدوي، باستثناء الصور المصغرة والصور المستقلة التي تظهر خارج الإطار.B
نختبر قدرة DALL·E على تعديل عدة سمات لكائن واحد، وكذلك عدد مرات ظهوره.
التحكم المتزامن في عدة كائنات، وخصائصها، وعلاقاتها المكانية يمثل تحديًا جديدًا. على سبيل المثال، العبارة التالية: "قنفذ يرتدي قبعة حمراء وقفازات صفراء وقميصًا أزرقَ وسروالًا أخضر". لكي يتمكن DALL·E من تفسير هذه الجملة بشكل صحيح، يجب ألا يكتفي بتركيب كل قطعة من الملابس مع الحيوان بشكل مناسب فحسب، بل يجب أيضًا تكوين الروابط (قبعة، حمراء)، (قفازات، صفراء)، (قميص، زرقاء)، و(سروال، خضراء) دون خلطها C
نختبر قدرة DALL·E على القيام بذلك فيما يخص تحديد المواقع النسبية للكائنات، وترتيبها فوق بعضها، والتحكم في عدة سمات.
بينما يوفر DALL·E مستوًى معينًا من التحكم في سمات ومواقع عدد قليل من الكائنات، فإن معدل النجاح قد يعتمد على صياغة التسمية التوضيحية. مع إدخال المزيد من الكائنات، يصبح DALL·E عرضة للخلط بين العلاقات بين الأجسام وألوانها، وتنخفض نسبة النجاح بشكل حاد. نلاحظ أيضًا أن DALL·E هش فيما يتعلق بإعادة صياغة التسمية التوضيحية في هذه السيناريوهات؛ فغالبًا لا تؤدي التسميات البديلة المكافئة دلاليًا إلى تفسيرات صحيحة.
نجد أن DALL·E يتيح أيضًا التحكم في زاوية رؤية المشهد والأسلوب الثلاثي الأبعاد الذي يُعرض به.
لدفع هذا الأمر إلى الأمام، نختبر قدرة DALL·E على رسم رأس شخصية معروفة بشكل متكرر عند كل زاوية من سلسلة زوايا متساوية التباعد، ونجد أننا نستطيع استعادة حركة سلسة للرأس الدوار.
يبدو أن DALL·E قادر على تطبيق بعض أنواع التشوهات البصرية على المشاهد، كما نرى في خيارات "عرض عدسة عين السمكة" و"بانوراما كروية". وقد دفعنا هذا لاستكشاف قدرته على إنشاء الانعكاسات.
قادتنا العينات من "العرض القريب للغاية" و"أسلوب الأشعة السينية" إلى استكشاف قدرة DALL·E على تقديم الهيكل الداخلي من خلال العروض المقطعية، والهيكل الخارجي من خلال الصور الفوتوغرافية الماكرو.
مهمة ترجمة النصوص إلى صور غير محددة بشكل كافٍ: عادةً ما تتوافق التسمية التوضيحية الواحدة مع عدد لا نهائي من الصور المحتملة؛ لذا فإن الصورة ليست محددة بشكل فريد. على سبيل المثال، ضع في اعتبارك التسمية التوضيحية: "لوحة لكابيبارا جالس في حقل عند شروق الشمس". واعتمادًا على اتجاه الكابيبارا، قد يكون من الضروري رسم ظل، رغم أن هذا التفصيل لا يُذكر صراحةً أبدًا. لقد اكتشفنا قدرة DALL·E على حل مشكلة عدم التحديد في ثلاث حالات: تغيير الأسلوب، والإعداد، والوقت؛ رسم نفس الكائن في مجموعة متنوعة من المواقف المختلفة؛ وإنشاء صورة لكائن مع نص محدد مكتوب عليه.
يوفر DALL·E، بدرجات متفاوتة من الموثوقية، الوصول إلى جزء من قدرات محرك العرض ثلاثي الأبعاد عبر اللغة الطبيعية. يمكنه التحكم بشكل مستقل في خصائص عدد قليل من الكائنات، وإلى حد محدود، في عددها وكيفية ترتيبها بالنسبة لبعضها. يمكنه أيضًا التحكم في الموقع والزاوية التي يتم منها عرض المشهد، ويمكنه إنشاء كائنات معروفة وفقًا لمواصفات دقيقة للزاوية وظروف الإضاءة.
على عكس محرك العرض ثلاثي الأبعاد، الذي يجب تحديد مدخلاته بوضوح تام وبتفاصيل كاملة، غالبًا ما يكون DALL·E قادرًا على "ملء الفراغات" عندما تشير التسمية التوضيحية إلى أن الصورة يجب أن تحتوي على تفصيل معين لم يُذكر صراحةً.
بعد ذلك، نستكشف استخدام القدرات السابقة في تصميم الأزياء والديكور الداخلي.
الطبيعة التركيبية للغة تُتيح لنا تجميع المفاهيم لوصف أشياء حقيقية وخيالية. نجد أن DALL·E يمتلك أيضًا القدرة على دمج أفكار متباينة لتوليد أشياء، بعضها من غير المرجح أن يوجد في العالم الواقعي. نستكشف هذه القدرة في حالتين: نقل السمات من مفاهيم مختلفة إلى الحيوانات، وتصميم المنتجات مستوحاة من مفاهيم غير مرتبطة.
في القسم السابق، استكشفنا قدرة DALL·E على دمج مفاهيم غير مرتبطة عند إنشاء صور لأشياء من العالم الحقيقي. هنا، نستكشف هذه القدرة في سياق الفن من خلال ثلاثة أنواع من الرسوم التوضيحية: نُسَخ مُجسَّمة من الحيوانات والكائنات، وهجائن حيوانية، والرموز التعبيرية.
يمكن توجيه نموذج GPT‑3 لأداء العديد من المهام فقط من خلال وصف المهمة وتزويده بإشارة لإنشاء الإجابة المقدمة في الطلب، دون أي تدريب إضافي. على سبيل المثال، عند مطالبة نموذج GPT‑3 بترجمة العبارة: "شخص يسير مع كلبه في الحديقة" إلى الفرنسية، يجيب: "un homme qui promène son chien dans le parc." تُسمى هذه القدرة الاستدلال دون تدريب مسبق. نجد أن DALL·E يوسع هذه القدرة إلى المجال البصري، وقادر على أداء عدة أنواع من مهام الترجمة من صورة إلى صورة عند توجيهه بالطريقة الصحيحة.
لم نتوقع ظهور هذه القدرة، ولم نجرِ أي تعديلات على الشبكة العصبية أو على إجراءات التدريب لتحفيزها. نقيس قدرة DALL·E على حل مسائل الاستدلال التناظري، مدفوعين بهذه النتائج، من خلال اختباره على مصفوفات رافن التقدمية، وهو اختبار ذكاء بصري كان شائعًا في القرن العشرين.
نجد أن DALL·E قد تعلّم عن الحقائق الجغرافية، والمعالم، والأحياء. معرفته بهذه المفاهيم دقيقة بشكل مدهش في بعض الجوانب، وفي جوانب أخرى تحتوي على عيوب.
بالإضافة إلى استكشاف معلومات DALL·E بالمفاهيم التي تتغير عبر المكان، نستكشف أيضًا معلوماته بالمفاهيم التي تتغير عبر الزمن.
DALL·E هو محول بسيط يعتمد على فك التشفير فقط، يستقبل النص والصورة كسلسلة واحدة مكونة من 1280 رمزًا مميزًا—256 رمزًا مميزًا للنص و1024 رمزًا مميزًا للصورة—وينشئها جميعًا بشكل متتابع بحيث تعتمد كل خطوة على السابقة. يسمح قناع الانتباه في كل من طبقاته الـ 64 بالانتباه الذاتي لكل رمز مميز من رموز صورة بالتركيز على جميع رموز النص المميزة. يستخدم DALL·E القناع السببي القياسي للرموز المميزة للنص، والانتباه المتفرق للرموز المميزة للصورة بنمط انتباه صفّي، أو عمودي، أو التفافي، اعتمادًا على الطبقة. نحن نوفر المزيد من التفاصيل حول بنية النظام وإجراءات التدريب في ورقتنا البحثية(يفتح في نافذة جديدة).
كان إنشاء الصور من النصوص مجالاً نشطًا للبحث منذ العمل الرائد الذي قام به ريد وآخرون. 1 الذي يستخدم نهجًا يعتمد على شبكة GAN مشروطة بتضمينات النصوص. يتم إنتاج التضمينات بواسطة مشفر تم تدريبه مسبقًا باستخدام دالة خسارة تباينية، بطريقة مشابهة لـ CLIP. تعتمد StackGAN3 وStackGAN++4 على شبكات GAN متعددة المقاييس لزيادة دقة الصورة وتحسين جودة العرض البصري. يُدمج نموذج AttnGAN5 آلية الانتباه بين ميزات النص والصورة، ويقترح دالة خسارة مطابقة بين ميزات النص والصورة التباينية كهدف مساعد. ومن المثير للاهتمام مقارنة ذلك بإعادة الترتيب باستخدام CLIP، الذي يتم تنفيذه دون اتصال بالإنترنت. تشمل الأعمال الأخرى2 و6 و7 دمج مصادر إضافية للإشراف أثناء التدريب لتحسين جودة الصورة. أخيرًا، العمل الذي قام به نجوين وآخرون. أل8 و Cho وآخرون. يستكشف al9 استراتيجيات تعتمد على أخذ العينات لتوليد الصور التي تستفيد من النماذج التمييزية متعددة الوسائط المدربة مسبقًا.
على غرار أخذ العينات بالرفض المستخدم في VQVAE-2(يفتح في نافذة جديدة)، نستخدم CLIP لإعادة ترتيب أفضل 32 عينة من بين 512 عينة لكل تسمية توضيحية في جميع المرئيات التفاعلية. يمكن أيضًا اعتبار هذه العملية نوعًا من البحث الموجَّه باللغة16، ويمكن أن يكون لها تأثير كبير على جودة العينة.
الهوامش
- A
الرمز المميز هو أي عنصر مأخوذ من مفردات محددة؛ بالنسبة للبشر، يُعد كل حرف إنجليزي رمزًا مميزًا من أبجدية مكونة من 26 حرفًا. تحتوي مفردات DALL·E على رموز مميزة لكل من المفاهيم النصية والصورة. وعلى وجه التحديد، تُمثَّل كل تسمية توضيحية للصورة باستخدام حد أقصى قدره 256 رمزًا مشفرًا بطريقة BPE من مفردات يبلغ حجمها 16384، بينما تُمثَّل الصورة باستخدام 1024 رمزًا من مفردات يبلغ حجمها 8192.
تتم معالجة الصور مسبقًا بدقة 256×256 أثناء التدريب. على غرار VQVAE، تُضغَط كل صورة إلى شبكة بحجم 32×32 من الرموز الكامنة المنفصلة باستخدام VAE منفصل تم تدريبه مسبقًا باستخدام استرخاء مستمر.وجدنا أن التدريب باستخدام الاسترخاء يلغي الحاجة إلى جدول رموز صريح، أو خسارة EMA، أو حيل مثل إحياء الرموز غير المستخدمة، كما يمكن أن يتوسع ليشمل مفردات ذات حجم كبير.
- B
يُقدَّم مزيد من التفاصيل في قسم لاحق.
- 17
تُعرف هذه المهمة باسم ربط المتغيرات، وقد خضعت لدراسات مكثفة في الأدبيات العلمية.
المراجع
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “Generative adversarial text to image synthesis(يفتح في نافذة جديدة)”. In ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “Learning what and where to draw(يفتح في نافذة جديدة)”. In NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks(يفتح في نافذة جديدة)”. In ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: realistic image synthesis with stacked generative adversarial networks(يفتح في نافذة جديدة)”. In IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: Fine-grained text to image generation with attentional generative adversarial networks(يفتح في نافذة جديدة).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “Object-driven text-to-image synthesis via adversarial training(يفتح في نافذة جديدة)”. In CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “Text-to-image generation grounded by fine-grained user attention(يفتح في نافذة جديدة)”. In WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). “Plug & play generative networks: conditional iterative generation of images in latent space(يفتح في نافذة جديدة).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: Paint, caption, and answer questions with multi-modal transformers(يفتح في نافذة جديدة)”. EMNLP 2020.
- 10
Kingma, Diederik P., and Max Welling. “Auto-encoding variational bayes(يفتح في نافذة جديدة).” arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. “Stochastic backpropagation and approximate inference in deep generative models(يفتح في نافذة جديدة).” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). “Categorical reparametrization with Gumbel-softmax(يفتح في نافذة جديدة)”.
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “The Concrete distribution: a continuous relaxation of discrete random variables(يفتح في نافذة جديدة)”.
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Neural discrete representation learning(يفتح في نافذة جديدة)”.
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “Generating diverse high-fidelity images with VQ-VAE-2(يفتح في نافذة جديدة)”.
- 16
Andreas, J., Klein, D., Levine, S. (2017). “Learning with Latent Language(يفتح في نافذة جديدة)”.
- 17
- 18
- 19
Gayler, R. (1998). “Multiplicative binding, representation operators & analogy(يفتح في نافذة جديدة)”.
- 20
Kanerva, P. (1997). “Fully distributed representations(يفتح في نافذة جديدة)”.


