DALL·E: การสร้างภาพจากข้อความ
เราได้ฝึกฝนเครือข่ายประสาทเทียมที่ชื่อว่า DALL·E ซึ่งสร้างภาพจากคำบรรยายข้อความสำหรับแนวคิดที่หลากหลายที่สามารถแสดงออกได้ในภาษาธรรมชาติ

ภาพประกอบ: Justin Jay Wang
DALL·E เป็นเวอร์ชัน 12 พันล้านพารามิเตอร์ของ GPT‑3(เปิดในหน้าต่างใหม่) ที่ได้รับการฝึกฝนเพื่อสร้างภาพจากคำอธิบายข้อความ โดยใช้ชุดข้อมูลของคู่ข้อความ-ภาพ เราได้พบว่ามันมีความสามารถที่หลากหลาย รวมถึงการสร้างเวอร์ชันที่มีลักษณะคล้ายมนุษย์ของสัตว์และวัตถุ การผสมผสานแนวคิดที่ไม่เกี่ยวข้องกันในวิธีที่น่าเชื่อถือ การแสดงผลข้อความ และการปรับเปลี่ยนภาพที่มีอยู่
ดูเพิ่มเติม: DALL·E 2 ซึ่งสร้างภาพที่สมจริงและแม่นยำยิ่งขึ้นด้วยความละเอียดที่มากกว่า 4 เท่า
GPT‑3 แสดงให้เห็นว่าภาษาสามารถใช้ในการสั่งงานเครือข่ายประสาทเทียมขนาดใหญ่ให้ทำงานสร้างข้อความหลากหลายประเภทได้ Image GPT แสดงให้เห็นว่าเครือข่ายประสาทเทียมประเภทเดียวกันสามารถใช้ในการสร้างภาพที่มีความคมชัดสูงได้เช่นกัน เราขยายผลการค้นพบเหล่านี้เพื่อแสดงให้เห็นว่าการจัดการแนวคิดเชิงภาพผ่านภาษานั้นสามารถทำได้ในขณะนี้
เช่นเดียวกับ GPT‑3, DALL·E เป็นโมเดลภาษาแบบทรานส์ฟอร์มเมอร์ มันรับทั้งข้อความและภาพเป็นสตรีมข้อมูลเดียวที่มีได้ถึง 1280 token และได้รับการฝึกฝนโดยใช้ความน่าจะเป็นสูงสุดเพื่อสร้าง token ทั้งหมดทีละตัว A
กระบวนการฝึกสอนนี้ทำให้ DALL·E สามารถไม่เพียงแต่สร้างภาพจากศูนย์ แต่ยังสามารถสร้างใหม่ในส่วนสี่เหลี่ยมของภาพที่มีอยู่ซึ่งขยายไปถึงมุมล่างขวาได้ในลักษณะที่สอดคล้องกับคำสั่งข้อความ
เราตระหนักดีว่างานที่เกี่ยวข้องกับโมเดลสร้างสรรค์มีศักยภาพที่จะส่งผลกระทบต่อสังคมอย่างกว้างขวางและมีความสำคัญ ในอนาคต เราบริการที่จะวิเคราะห์ว่าโมเดลอย่าง DALL·E มีความเกี่ยวข้องกับประเด็นทางสังคมอย่างไร เช่น ผลกระทบทางเศรษฐกิจต่อกระบวนการทำงานและอาชีพบางประเภท ความเป็นไปได้ของอคติในผลลัพธ์ของโมเดล และความท้าทายทางจริยธรรมในระยะยาวที่เทคโนโลยีนี้อาจก่อให้เกิด
เราพบว่า DALL·E สามารถสร้างภาพที่น่าเชื่อถือสำหรับประโยคที่หลากหลายที่สำรวจโครงสร้างการประกอบของภาษาได้ เราจะแสดงสิ่งนี้โดยใช้ภาพเชิงโต้ตอบในส่วนถัดไป ตัวอย่างที่แสดงสำหรับคำบรรยายแต่ละรายการในภาพได้รับโดยการเลือก 32 อันดับแรกจาก 512 หลังจากการจัดอันดับใหม่ด้วย CLIP แต่เราไม่ได้ใช้การคัดเลือกด้วยมือ ยกเว้นภาพขนาดย่อและภาพเดี่ยวที่ปรากฏภายนอกB
เราทดสอบความสามารถของ DALL·E ในการปรับเปลี่ยนคุณลักษณะหลายอย่างของวัตถุ รวมถึงจำนวนครั้งที่มันปรากฏ
การควบคุมวัตถุหลายชิ้นพร้อมกัน รวมถึงคุณลักษณะและความสัมพันธ์เชิงพื้นที่ของพวกมัน ถือเป็นความท้าทายใหม่ ตัวอย่างเช่น พิจารณาวลี “เม่นที่สวมหมวกสีแดง ถุงมือสีเหลือง เสื้อสีฟ้า และกางเกงสีเขียว” เพื่อที่จะตีความประโยคนี้อย่างถูกต้อง DALL·E จะต้องไม่เพียงแต่จัดองค์ประกอบของเสื้อผ้าแต่ละชิ้นกับสัตว์อย่างถูกต้องเท่านั้น แต่ยังต้องสร้างความสัมพันธ์ (หมวก, สีแดง), (ถุงมือ, สีเหลือง), (เสื้อ, สีน้ำเงิน), และ (กางเกง, สีเขียว) โดยไม่สับสน
เราทดสอบความสามารถของ DALL·E ในการจัดตำแหน่งสัมพัทธ์ การซ้อนวัตถุ และการควบคุมคุณลักษณะหลายประการ
แม้ว่า DALL·E จะมีระดับการควบคุมบางอย่างเกี่ยวกับคุณลักษณะและตำแหน่งของวัตถุจำนวนเล็กน้อย แต่ความสำเร็จอาจขึ้นอยู่กับวิธีการที่คำบรรยายถูกเขียน เมื่อมีการแนะนำวัตถุเพิ่มเติม DALL·E มีแนวโน้มที่จะสับสนในความสัมพันธ์ระหว่างวัตถุกับสีของพวกมัน และอัตราความสำเร็จจะลดลงอย่างรวดเร็ว เรายังสังเกตว่า DALL·E มีความเปราะบางต่อการเปลี่ยนแปลงคำบรรยายในสถานการณ์เหล่านี้: คำบรรยายที่เป็นทางเลือกและมีความหมายเทียบเท่ากันมักจะไม่ให้การตีความที่ถูกต้อง
เราพบว่า DALL·E ยังอนุญาตให้ควบคุมมุมมองของฉากและสไตล์ 3 มิติที่ฉากนั้นถูกเรนเดอร์ได้
เพื่อผลักดันสิ่งนี้ให้ก้าวไปข้างหน้า พวกเราทดสอบความสามารถของ DALL·E ในการวาดภาพศีรษะของบุคคลที่มีชื่อเสียงซ้ำๆ จากมุมต่างๆ ที่มีระยะห่างเท่ากัน และพบว่าเราสามารถสร้างภาพเคลื่อนไหวที่ราบรื่นของศีรษะที่หมุนได้
DALL·E ดูเหมือนจะสามารถใช้การบิดเบือนทางแสงบางประเภทกับฉากได้ ดังที่เราเห็นในตัวเลือก “fisheye lens view” และ “a spherical panorama” สิ่งนี้กระตุ้นให้เราสำรวจความสามารถในการสร้างภาพสะท้อน
ตัวอย่างจาก "มุมมองระยะใกล้มาก" และสไตล์ "เอ็กซ์เรย์" ทำให้เราสำรวจความสามารถของ DALL·E ในการแสดงโครงสร้างภายในด้วยมุมมองแบบตัดขวาง และโครงสร้างภายนอกด้วยภาพถ่ายมาโคร
งานของการแปลข้อความเป็นภาพนั้นยังไม่ชัดเจน: คำบรรยายเพียงคำเดียวมักจะสอดคล้องกับภาพที่เป็นไปได้มากมาย ดังนั้นภาพจึงไม่ได้ถูกกำหนดอย่างเฉพาะเจาะจง ตัวอย่างเช่น พิจารณาคำบรรยายว่า "ภาพวาดของคาปิบาร่านั่งอยู่บนทุ่งหญ้ายามพระอาทิตย์ขึ้น" ขึ้นอยู่กับทิศทางของคาปิบารา อาจจำเป็นต้องวาดเงา แม้ว่ารายละเอียดนี้จะไม่เคยถูกกล่าวถึงอย่างชัดเจน เราสำรวจความสามารถของ DALL·E ในการแก้ไขปัญหาการระบุไม่ชัดเจนในสามกรณี: การเปลี่ยนแปลงสไตล์ ฉาก และเวลา; การวาดวัตถุเดียวกันในสถานการณ์ที่หลากหลาย; และการสร้างภาพของวัตถุที่มีข้อความเฉพาะเขียนอยู่บนวัตถุนั้น
ด้วยระดับความน่าเชื่อถือที่แตกต่างกัน DALL·E ให้การเข้าถึงความสามารถบางส่วนของเอนจินเรนเดอร์ 3 มิติผ่านภาษาธรรมชาติ มันสามารถควบคุมคุณลักษณะของวัตถุจำนวนเล็กน้อยได้อย่างอิสระ และในระดับที่จำกัด สามารถควบคุมจำนวนและการจัดเรียงของวัตถุเหล่านั้นเมื่อเทียบกับกันและกันได้ นอกจากนี้ ยังสามารถควบคุมตำแหน่งและมุมที่ฉากถูกเรนเดอร์ และสามารถสร้างวัตถุที่รู้จักตามข้อกำหนดที่แม่นยำของมุมและสภาพแสงได้
ต่างจากเอนจินเรนเดอร์ 3 มิติ ซึ่งต้องระบุอินพุตอย่างชัดเจนและครบถ้วน DALL·E มักจะสามารถ "เติมเต็มช่องว่าง" ได้เมื่อคำบรรยายบ่งบอกว่าภาพต้องมีรายละเอียดบางอย่างที่ไม่ได้ระบุไว้อย่างชัดเจน
ถัดไป เราจะสำรวจการใช้ความสามารถที่กล่าวถึงก่อนหน้านี้สำหรับการออกแบบแฟชั่นและการออกแบบภายใน
ธรรมชาติของการประกอบกันของภาษาช่วยให้เราสามารถรวมแนวคิดต่าง ๆ เพื่ออธิบายทั้งสิ่งที่เป็นจริงและสิ่งที่จินตนาการได้ เราพบว่า DALL·E ยังมีความสามารถในการผสมผสานแนวคิดที่แตกต่างกันเพื่อสังเคราะห์วัตถุ ซึ่งบางอย่างไม่น่าจะมีอยู่จริงในโลกแห่งความเป็นจริง เราสำรวจความสามารถนี้ในสองกรณี: การถ่ายโอนคุณสมบัติจากแนวคิดต่างๆ ไปยังสัตว์ และการออกแบบผลิตภัณฑ์โดยได้รับแรงบันดาลใจจากแนวคิดที่ไม่เกี่ยวข้องกัน
ในส่วนก่อนหน้านี้ เราได้สำรวจความสามารถของ DALL·E ในการผสมผสานแนวคิดที่ไม่เกี่ยวข้องกันเมื่อสร้างภาพของวัตถุในโลกแห่งความเป็นจริง ที่นี่ เราสำรวจความสามารถนี้ในบริบทของศิลปะ สำหรับภาพประกอบสามประเภท: เวอร์ชันที่มีลักษณะคล้ายมนุษย์ของสัตว์และวัตถุ, สัตว์ผสม, และอิโมจิ
GPT‑3 สามารถถูกสั่งให้ทำงานหลายประเภทได้จากเพียงคำอธิบายและคำใบ้เพื่อสร้างคำตอบที่ให้ไว้ในคำสั่ง โดยไม่ต้องมีการฝึกสอนเพิ่มเติม ตัวอย่างเช่น เมื่อได้รับคำสั่งด้วยวลี “นี่คือประโยค ‘a person walking his dog in the park’ แปลเป็นภาษาฝรั่งเศส:”, GPT‑3 ตอบว่า “un homme qui promène son chien dans le parc.” ความสามารถนี้เรียกว่า zero-shot reasoning เราพบว่า DALL·E ขยายความสามารถนี้ไปยังโดเมนภาพ และสามารถทำงานแปลภาพเป็นภาพหลายประเภทได้เมื่อได้รับคำสั่งที่ถูกต้อง
เราไม่ได้คาดการณ์ว่าความสามารถนี้จะเกิดขึ้น และไม่ได้ทำการปรับเปลี่ยนใดๆ กับเครือข่ายประสาทเทียมหรือการฝึกสอนเพื่อส่งเสริมมัน ด้วยแรงบันดาลใจจากผลลัพธ์เหล่านี้ เราจึงวัดความสามารถของ DALL·E ในการแก้ปัญหาการใช้เหตุผลเชิงอุปมาอุปไมย โดยทดสอบด้วย Raven’s progressive matrices ซึ่งเป็นการทดสอบ IQ ด้านภาพที่ได้รับความนิยมอย่างแพร่หลายในศตวรรษที่ 20
เราพบว่า DALL·E ได้เรียนรู้เกี่ยวกับข้อเท็จจริงทางภูมิศาสตร์ สถานที่สำคัญ และย่านต่างๆ ความรู้เกี่ยวกับแนวคิดเหล่านี้มีความแม่นยำอย่างน่าประหลาดใจในบางด้านและมีข้อบกพร่องในด้านอื่นๆ
นอกจากการสำรวจความรู้ของ DALL·E เกี่ยวกับแนวคิดที่แตกต่างกันไปตามพื้นที่แล้ว เรายังสำรวจความรู้ของมันเกี่ยวกับแนวคิดที่เปลี่ยนแปลงไปตามกาลเวลาอีกด้วย
DALL·E เป็นทรานส์ฟอร์เมอร์แบบดีโค้ดเดอร์ที่เรียบง่ายซึ่งรับทั้งข้อความและภาพเป็นสตรีมเดียวของ 1280 โทเค็น—256 สำหรับข้อความและ 1024 สำหรับภาพ—และสร้างโมเดลทั้งหมดนี้แบบออโตรีเกรสซีฟ หน้ากากความสนใจในแต่ละชั้นความสนใจตนเองทั้ง 64 ชั้น ช่วยให้ token ภาพแต่ละตัวสามารถให้ความสนใจกับ token ข้อความทั้งหมดได้ DALL·E ใช้หน้ากากเชิงสาเหตุมาตรฐานสำหรับ token ข้อความ และการให้ความสนใจแบบบางสำหรับ token ภาพ โดยมีรูปแบบการให้ความสนใจแบบแถว คอลัมน์ หรือคอนโวลูชัน ขึ้นอยู่กับเลเยอร์ เราให้รายละเอียดเพิ่มเติมเกี่ยวกับสถาปัตยกรรมและกระบวนการฝึกสอนใน เอกสาร(เปิดในหน้าต่างใหม่)ของเรา
การสังเคราะห์ข้อความเป็นภาพเป็นหัวข้อการวิจัยที่มีความเคลื่อนไหวตั้งแต่ผลงานบุกเบิกของ Reed และคณะ al,1 ซึ่งวิธีการของพวกเขาใช้ GAN ที่มีเงื่อนไขจากการฝังข้อความ การฝังข้อมูลถูกสร้างขึ้นโดยตัวเข้ารหัสที่ได้รับการฝึกฝนล่วงหน้าด้วยการสูญเสียแบบเปรียบเทียบ ซึ่งคล้ายกับ CLIP StackGAN3 และ StackGAN++4 ใช้ GANs หลายระดับเพื่อเพิ่มความละเอียดของภาพและปรับปรุงความสมจริงของภาพ AttnGAN5 รวมการใช้ความสนใจระหว่างคุณลักษณะของข้อความและภาพ และเสนอการสูญเสียการจับคู่คุณลักษณะข้อความ-ภาพแบบเปรียบเทียบเป็นวัตถุประสงค์เสริม สิ่งนี้น่าสนใจที่จะเปรียบเทียบกับการจัดอันดับใหม่ของเราด้วย CLIP ซึ่งดำเนินการแบบออฟไลน์ งานอื่น ๆ รวมแหล่งการควบคุมเพิ่มเติมในระหว่างการฝึกสอนเพื่อปรับปรุงคุณภาพของภาพ ในที่สุด งานโดย Nguyen และคณะ al8 และ Cho et al. al9 สำรวจกลยุทธ์การสุ่มตัวอย่างสำหรับการสร้างภาพที่ใช้ประโยชน์จากโมเดลจำแนกประเภทมัลติโมดัลที่ได้รับการฝึกฝนล่วงหน้า
คล้ายกับการสุ่มปฏิเสธที่ใช้ใน VQVAE-2(เปิดในหน้าต่างใหม่) เราใช้ CLIP เพื่อจัดอันดับใหม่ใน 32 อันดับแรกจาก 512 ตัวอย่างสำหรับคำบรรยายแต่ละรายการในภาพเชิงโต้ตอบทั้งหมด กระบวนการนี้ยังสามารถมองว่าเป็นการค้นหาที่นำทางด้วยภาษา16 และสามารถมีผลกระทบอย่างมากต่อคุณภาพของตัวอย่าง
เชิงอรรถ
- A
token คือสัญลักษณ์ใดๆ จากคำศัพท์ที่แยกออกมา; สำหรับมนุษย์ แต่ละตัวอักษรภาษาอังกฤษเป็น token จากตัวอักษร 26 ตัว คำศัพท์ของ DALL·E มี token สำหรับทั้งแนวคิดข้อความและภาพ โดยเฉพาะอย่างยิ่ง คำบรรยายภาพแต่ละภาพจะแสดงด้วย token ที่เข้ารหัส BPE สูงสุด 256 รายการ โดยมีขนาดคำศัพท์ 16,384 และภาพจะแสดงด้วย token 1,024 รายการ โดยมีขนาดคำศัพท์ 8,192 8e
ภาพจะถูกประมวลผลล่วงหน้าให้มีความละเอียด 256x256 ระหว่างการฝึกสอน คล้ายกับ VQVAE, ภาพแต่ละภาพถูกบีบอัดเป็นตาราง 32x32 ของรหัสแฝงแบบไม่ต่อเนื่องโดยใช้ VAE แบบไม่ต่อเนื่อง ที่เราได้ฝึกอบรมล่วงหน้าโดยใช้การผ่อนคลายแบบต่อเนื่อง เราได้พบว่าการฝึกสอนโดยใช้การผ่อนคลายช่วยลดความจำเป็นในการใช้คู่มือรหัสที่ชัดเจน, การสูญเสีย EMA, หรือเทคนิคต่างๆ เช่น การฟื้นฟูโค้ดที่ไม่ใช้งาน และสามารถขยายขนาดให้รองรับคำศัพท์ขนาดใหญ่ได้
- B
รายละเอียดเพิ่มเติมจะมีให้ในส่วนถัดไป
- 17
งานนี้เรียกว่าการผูกตัวแปร และได้รับการศึกษาอย่างกว้างขวางในเอกสารวิชาการ
เอกสารอ้างอิง
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “Generative adversarial text to image synthesis(เปิดในหน้าต่างใหม่)”. In ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “Learning what and where to draw(เปิดในหน้าต่างใหม่)”. In NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks(เปิดในหน้าต่างใหม่)”. In ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: realistic image synthesis with stacked generative adversarial networks(เปิดในหน้าต่างใหม่)”. In IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: Fine-grained text to image generation with attentional generative adversarial networks(เปิดในหน้าต่างใหม่).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “Object-driven text-to-image synthesis via adversarial training(เปิดในหน้าต่างใหม่)”. In CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “Text-to-image generation grounded by fine-grained user attention(เปิดในหน้าต่างใหม่)”. In WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). “Plug & play generative networks: conditional iterative generation of images in latent space(เปิดในหน้าต่างใหม่).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: Paint, caption, and answer questions with multi-modal transformers(เปิดในหน้าต่างใหม่)”. EMNLP 2020
- 10
Kingma, Diederik P., and Max Welling. “Auto-encoding variational bayes(เปิดในหน้าต่างใหม่).” arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. “Stochastic backpropagation and approximate inference in deep generative models(เปิดในหน้าต่างใหม่).” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). “Categorical reparametrization with Gumbel-softmax(เปิดในหน้าต่างใหม่)”.
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “The Concrete distribution: a continuous relaxation of discrete random variables(เปิดในหน้าต่างใหม่)”.
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Neural discrete representation learning(เปิดในหน้าต่างใหม่)”.
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “Generating diverse high-fidelity images with VQ-VAE-2(เปิดในหน้าต่างใหม่)”.
- 16
Andreas, J., Klein, D., Levine, S. (2017). “Learning with Latent Language(เปิดในหน้าต่างใหม่)”.
- 17
- 18
- 19
Gayler, R. (1998). “Multiplicative binding, representation operators & analogy(เปิดในหน้าต่างใหม่)”.
- 20
Kanerva, P. (1997). “Fully distributed representations(เปิดในหน้าต่างใหม่)”.


