5 มกราคม 2564

DALL·E: การสร้างภาพจากข้อความ

เราได้ฝึกฝนเครือข่ายประสาทเทียมที่ชื่อว่า DALL·E ซึ่งสร้างภาพจากคำบรรยายข้อความสำหรับแนวคิดที่หลากหลายที่สามารถแสดงออกได้ในภาษาธรรมชาติ

ภาพประกอบ: Justin Jay Wang

กำลังโหลด…

DALL·E เป็นเวอร์ชัน 12 พันล้านพารามิเตอร์ของ GPT‑3⁠(เปิดในหน้าต่างใหม่) ที่ได้รับการฝึกฝนเพื่อสร้างภาพจากคำอธิบายข้อความ โดยใช้ชุดข้อมูลของคู่ข้อความ-ภาพ เราได้พบว่ามันมีความสามารถที่หลากหลาย รวมถึงการสร้างเวอร์ชันที่มีลักษณะคล้ายมนุษย์ของสัตว์และวัตถุ การผสมผสานแนวคิดที่ไม่เกี่ยวข้องกันในวิธีที่น่าเชื่อถือ การแสดงผลข้อความ และการปรับเปลี่ยนภาพที่มีอยู่

ดูเพิ่มเติม: DALL·E 2⁠ ซึ่งสร้างภาพที่สมจริงและแม่นยำยิ่งขึ้นด้วยความละเอียดที่มากกว่า 4 เท่า

กำลังโหลด...

GPT‑3 แสดงให้เห็นว่าภาษาสามารถใช้ในการสั่งงานเครือข่ายประสาทเทียมขนาดใหญ่ให้ทำงานสร้างข้อความหลากหลายประเภทได้ Image GPT⁠ แสดงให้เห็นว่าเครือข่ายประสาทเทียมประเภทเดียวกันสามารถใช้ในการสร้างภาพที่มีความคมชัดสูงได้เช่นกัน เราขยายผลการค้นพบเหล่านี้เพื่อแสดงให้เห็นว่าการจัดการแนวคิดเชิงภาพผ่านภาษานั้นสามารถทำได้ในขณะนี้

ภาพรวม

เช่นเดียวกับ GPT‑3, DALL·E เป็นโมเดลภาษาแบบทรานส์ฟอร์มเมอร์ มันรับทั้งข้อความและภาพเป็นสตรีมข้อมูลเดียวที่มีได้ถึง 1280 token และได้รับการฝึกฝนโดยใช้ความน่าจะเป็นสูงสุดเพื่อสร้าง token ทั้งหมดทีละตัว ^A

กระบวนการฝึกสอนนี้ทำให้ DALL·E สามารถไม่เพียงแต่สร้างภาพจากศูนย์ แต่ยังสามารถสร้างใหม่ในส่วนสี่เหลี่ยมของภาพที่มีอยู่ซึ่งขยายไปถึงมุมล่างขวาได้ในลักษณะที่สอดคล้องกับคำสั่งข้อความ

เราตระหนักดีว่างานที่เกี่ยวข้องกับโมเดลสร้างสรรค์มีศักยภาพที่จะส่งผลกระทบต่อสังคมอย่างกว้างขวางและมีความสำคัญ ในอนาคต เราบริการที่จะวิเคราะห์ว่าโมเดลอย่าง DALL·E มีความเกี่ยวข้องกับประเด็นทางสังคมอย่างไร เช่น ผลกระทบทางเศรษฐกิจต่อกระบวนการทำงานและอาชีพบางประเภท ความเป็นไปได้ของอคติในผลลัพธ์ของโมเดล และความท้าทายทางจริยธรรมในระยะยาวที่เทคโนโลยีนี้อาจก่อให้เกิด

ความสามารถ

เราพบว่า DALL·E สามารถสร้างภาพที่น่าเชื่อถือสำหรับประโยคที่หลากหลายที่สำรวจโครงสร้างการประกอบของภาษาได้ เราจะแสดงสิ่งนี้โดยใช้ภาพเชิงโต้ตอบในส่วนถัดไป ตัวอย่างที่แสดงสำหรับคำบรรยายแต่ละรายการในภาพได้รับโดยการเลือก 32 อันดับแรกจาก 512 หลังจากการจัดอันดับใหม่ด้วย CLIP⁠ แต่เราไม่ได้ใช้การคัดเลือกด้วยมือ ยกเว้นภาพขนาดย่อและภาพเดี่ยวที่ปรากฏภายนอก^B

การควบคุมแอตทริบิวต์

เราทดสอบความสามารถของ DALL·E ในการปรับเปลี่ยนคุณลักษณะหลายอย่างของวัตถุ รวมถึงจำนวนครั้งที่มันปรากฏ

กำลังโหลด...

การวาดวัตถุหลายรายการ

การควบคุมวัตถุหลายชิ้นพร้อมกัน รวมถึงคุณลักษณะและความสัมพันธ์เชิงพื้นที่ของพวกมัน ถือเป็นความท้าทายใหม่ ตัวอย่างเช่น พิจารณาวลี “เม่นที่สวมหมวกสีแดง ถุงมือสีเหลือง เสื้อสีฟ้า และกางเกงสีเขียว” เพื่อที่จะตีความประโยคนี้อย่างถูกต้อง DALL·E จะต้องไม่เพียงแต่จัดองค์ประกอบของเสื้อผ้าแต่ละชิ้นกับสัตว์อย่างถูกต้องเท่านั้น แต่ยังต้องสร้างความสัมพันธ์ (หมวก, สีแดง), (ถุงมือ, สีเหลือง), (เสื้อ, สีน้ำเงิน), และ (กางเกง, สีเขียว) โดยไม่สับสน

เราทดสอบความสามารถของ DALL·E ในการจัดตำแหน่งสัมพัทธ์ การซ้อนวัตถุ และการควบคุมคุณลักษณะหลายประการ

กำลังโหลด...

แม้ว่า DALL·E จะมีระดับการควบคุมบางอย่างเกี่ยวกับคุณลักษณะและตำแหน่งของวัตถุจำนวนเล็กน้อย แต่ความสำเร็จอาจขึ้นอยู่กับวิธีการที่คำบรรยายถูกเขียน เมื่อมีการแนะนำวัตถุเพิ่มเติม DALL·E มีแนวโน้มที่จะสับสนในความสัมพันธ์ระหว่างวัตถุกับสีของพวกมัน และอัตราความสำเร็จจะลดลงอย่างรวดเร็ว เรายังสังเกตว่า DALL·E มีความเปราะบางต่อการเปลี่ยนแปลงคำบรรยายในสถานการณ์เหล่านี้: คำบรรยายที่เป็นทางเลือกและมีความหมายเทียบเท่ากันมักจะไม่ให้การตีความที่ถูกต้อง

การมองเห็นภาพมุมมองและความเป็นสามมิติ

เราพบว่า DALL·E ยังอนุญาตให้ควบคุมมุมมองของฉากและสไตล์ 3 มิติที่ฉากนั้นถูกเรนเดอร์ได้

กำลังโหลด...

เพื่อผลักดันสิ่งนี้ให้ก้าวไปข้างหน้า พวกเราทดสอบความสามารถของ DALL·E ในการวาดภาพศีรษะของบุคคลที่มีชื่อเสียงซ้ำๆ จากมุมต่างๆ ที่มีระยะห่างเท่ากัน และพบว่าเราสามารถสร้างภาพเคลื่อนไหวที่ราบรื่นของศีรษะที่หมุนได้

กำลังโหลด...

DALL·E ดูเหมือนจะสามารถใช้การบิดเบือนทางแสงบางประเภทกับฉากได้ ดังที่เราเห็นในตัวเลือก “fisheye lens view” และ “a spherical panorama” สิ่งนี้กระตุ้นให้เราสำรวจความสามารถในการสร้างภาพสะท้อน

กำลังโหลด...

การมองเห็นโครงสร้างภายในและภายนอก

ตัวอย่างจาก "มุมมองระยะใกล้มาก" และสไตล์ "เอ็กซ์เรย์" ทำให้เราสำรวจความสามารถของ DALL·E ในการแสดงโครงสร้างภายในด้วยมุมมองแบบตัดขวาง และโครงสร้างภายนอกด้วยภาพถ่ายมาโคร

กำลังโหลด...

การอนุมานรายละเอียดเชิงบริบท

งานของการแปลข้อความเป็นภาพนั้นยังไม่ชัดเจน: คำบรรยายเพียงคำเดียวมักจะสอดคล้องกับภาพที่เป็นไปได้มากมาย ดังนั้นภาพจึงไม่ได้ถูกกำหนดอย่างเฉพาะเจาะจง ตัวอย่างเช่น พิจารณาคำบรรยายว่า "ภาพวาดของคาปิบาร่านั่งอยู่บนทุ่งหญ้ายามพระอาทิตย์ขึ้น" ขึ้นอยู่กับทิศทางของคาปิบารา อาจจำเป็นต้องวาดเงา แม้ว่ารายละเอียดนี้จะไม่เคยถูกกล่าวถึงอย่างชัดเจน เราสำรวจความสามารถของ DALL·E ในการแก้ไขปัญหาการระบุไม่ชัดเจนในสามกรณี: การเปลี่ยนแปลงสไตล์ ฉาก และเวลา; การวาดวัตถุเดียวกันในสถานการณ์ที่หลากหลาย; และการสร้างภาพของวัตถุที่มีข้อความเฉพาะเขียนอยู่บนวัตถุนั้น

กำลังโหลด...

ด้วยระดับความน่าเชื่อถือที่แตกต่างกัน DALL·E ให้การเข้าถึงความสามารถบางส่วนของเอนจินเรนเดอร์ 3 มิติผ่านภาษาธรรมชาติ มันสามารถควบคุมคุณลักษณะของวัตถุจำนวนเล็กน้อยได้อย่างอิสระ และในระดับที่จำกัด สามารถควบคุมจำนวนและการจัดเรียงของวัตถุเหล่านั้นเมื่อเทียบกับกันและกันได้ นอกจากนี้ ยังสามารถควบคุมตำแหน่งและมุมที่ฉากถูกเรนเดอร์ และสามารถสร้างวัตถุที่รู้จักตามข้อกำหนดที่แม่นยำของมุมและสภาพแสงได้

ต่างจากเอนจินเรนเดอร์ 3 มิติ ซึ่งต้องระบุอินพุตอย่างชัดเจนและครบถ้วน DALL·E มักจะสามารถ "เติมเต็มช่องว่าง" ได้เมื่อคำบรรยายบ่งบอกว่าภาพต้องมีรายละเอียดบางอย่างที่ไม่ได้ระบุไว้อย่างชัดเจน

การประยุกต์ใช้ความสามารถที่กล่าวถึงก่อนหน้านี้

ถัดไป เราจะสำรวจการใช้ความสามารถที่กล่าวถึงก่อนหน้านี้สำหรับการออกแบบแฟชั่นและการออกแบบภายใน

กำลังโหลด...

การรวมแนวคิดที่ไม่เกี่ยวข้องกัน

ธรรมชาติของการประกอบกันของภาษาช่วยให้เราสามารถรวมแนวคิดต่าง ๆ เพื่ออธิบายทั้งสิ่งที่เป็นจริงและสิ่งที่จินตนาการได้ เราพบว่า DALL·E ยังมีความสามารถในการผสมผสานแนวคิดที่แตกต่างกันเพื่อสังเคราะห์วัตถุ ซึ่งบางอย่างไม่น่าจะมีอยู่จริงในโลกแห่งความเป็นจริง เราสำรวจความสามารถนี้ในสองกรณี: การถ่ายโอนคุณสมบัติจากแนวคิดต่างๆ ไปยังสัตว์ และการออกแบบผลิตภัณฑ์โดยได้รับแรงบันดาลใจจากแนวคิดที่ไม่เกี่ยวข้องกัน

กำลังโหลด...

ภาพประกอบสัตว์

ในส่วนก่อนหน้านี้ เราได้สำรวจความสามารถของ DALL·E ในการผสมผสานแนวคิดที่ไม่เกี่ยวข้องกันเมื่อสร้างภาพของวัตถุในโลกแห่งความเป็นจริง ที่นี่ เราสำรวจความสามารถนี้ในบริบทของศิลปะ สำหรับภาพประกอบสามประเภท: เวอร์ชันที่มีลักษณะคล้ายมนุษย์ของสัตว์และวัตถุ, สัตว์ผสม, และอิโมจิ

กำลังโหลด...

การให้เหตุผลเชิงภาพแบบ zero-shot

GPT‑3 สามารถถูกสั่งให้ทำงานหลายประเภทได้จากเพียงคำอธิบายและคำใบ้เพื่อสร้างคำตอบที่ให้ไว้ในคำสั่ง โดยไม่ต้องมีการฝึกสอนเพิ่มเติม ตัวอย่างเช่น เมื่อได้รับคำสั่งด้วยวลี “นี่คือประโยค ‘a person walking his dog in the park’ แปลเป็นภาษาฝรั่งเศส:”, GPT‑3 ตอบว่า “un homme qui promène son chien dans le parc.” ความสามารถนี้เรียกว่า zero-shot reasoning เราพบว่า DALL·E ขยายความสามารถนี้ไปยังโดเมนภาพ และสามารถทำงานแปลภาพเป็นภาพหลายประเภทได้เมื่อได้รับคำสั่งที่ถูกต้อง

กำลังโหลด...

เราไม่ได้คาดการณ์ว่าความสามารถนี้จะเกิดขึ้น และไม่ได้ทำการปรับเปลี่ยนใดๆ กับเครือข่ายประสาทเทียมหรือการฝึกสอนเพื่อส่งเสริมมัน ด้วยแรงบันดาลใจจากผลลัพธ์เหล่านี้ เราจึงวัดความสามารถของ DALL·E ในการแก้ปัญหาการใช้เหตุผลเชิงอุปมาอุปไมย โดยทดสอบด้วย Raven’s progressive matrices ซึ่งเป็นการทดสอบ IQ ด้านภาพที่ได้รับความนิยมอย่างแพร่หลายในศตวรรษที่ 20

กำลังโหลด...

ความรู้ทางภูมิศาสตร์

เราพบว่า DALL·E ได้เรียนรู้เกี่ยวกับข้อเท็จจริงทางภูมิศาสตร์ สถานที่สำคัญ และย่านต่างๆ ความรู้เกี่ยวกับแนวคิดเหล่านี้มีความแม่นยำอย่างน่าประหลาดใจในบางด้านและมีข้อบกพร่องในด้านอื่นๆ

กำลังโหลด...

ความรู้เชิงเวลา

นอกจากการสำรวจความรู้ของ DALL·E เกี่ยวกับแนวคิดที่แตกต่างกันไปตามพื้นที่แล้ว เรายังสำรวจความรู้ของมันเกี่ยวกับแนวคิดที่เปลี่ยนแปลงไปตามกาลเวลาอีกด้วย

กำลังโหลด...

สรุปวิธีการและงานที่ทำมาก่อน

DALL·E เป็นทรานส์ฟอร์เมอร์แบบดีโค้ดเดอร์ที่เรียบง่ายซึ่งรับทั้งข้อความและภาพเป็นสตรีมเดียวของ 1280 โทเค็น—256 สำหรับข้อความและ 1024 สำหรับภาพ—และสร้างโมเดลทั้งหมดนี้แบบออโตรีเกรสซีฟ หน้ากากความสนใจในแต่ละชั้นความสนใจตนเองทั้ง 64 ชั้น ช่วยให้ token ภาพแต่ละตัวสามารถให้ความสนใจกับ token ข้อความทั้งหมดได้ DALL·E ใช้หน้ากากเชิงสาเหตุมาตรฐานสำหรับ token ข้อความ และการให้ความสนใจแบบบางสำหรับ token ภาพ โดยมีรูปแบบการให้ความสนใจแบบแถว คอลัมน์ หรือคอนโวลูชัน ขึ้นอยู่กับเลเยอร์ เราให้รายละเอียดเพิ่มเติมเกี่ยวกับสถาปัตยกรรมและกระบวนการฝึกสอนใน เอกสาร⁠(เปิดในหน้าต่างใหม่)ของเรา

การสังเคราะห์ข้อความเป็นภาพเป็นหัวข้อการวิจัยที่มีความเคลื่อนไหวตั้งแต่ผลงานบุกเบิกของ Reed และคณะ al,¹ ซึ่งวิธีการของพวกเขาใช้ GAN ที่มีเงื่อนไขจากการฝังข้อความ การฝังข้อมูลถูกสร้างขึ้นโดยตัวเข้ารหัสที่ได้รับการฝึกฝนล่วงหน้าด้วยการสูญเสียแบบเปรียบเทียบ ซึ่งคล้ายกับ CLIP StackGAN³ และ StackGAN++⁴ ใช้ GANs หลายระดับเพื่อเพิ่มความละเอียดของภาพและปรับปรุงความสมจริงของภาพ AttnGAN⁵ รวมการใช้ความสนใจระหว่างคุณลักษณะของข้อความและภาพ และเสนอการสูญเสียการจับคู่คุณลักษณะข้อความ-ภาพแบบเปรียบเทียบเป็นวัตถุประสงค์เสริม สิ่งนี้น่าสนใจที่จะเปรียบเทียบกับการจัดอันดับใหม่ของเราด้วย CLIP ซึ่งดำเนินการแบบออฟไลน์ งานอื่น ๆ รวมแหล่งการควบคุมเพิ่มเติมในระหว่างการฝึกสอนเพื่อปรับปรุงคุณภาพของภาพ ในที่สุด งานโดย Nguyen และคณะ al⁸ และ Cho et al. al⁹ สำรวจกลยุทธ์การสุ่มตัวอย่างสำหรับการสร้างภาพที่ใช้ประโยชน์จากโมเดลจำแนกประเภทมัลติโมดัลที่ได้รับการฝึกฝนล่วงหน้า

คล้ายกับการสุ่มปฏิเสธที่ใช้ใน VQVAE-2⁠(เปิดในหน้าต่างใหม่) เราใช้ CLIP⁠ เพื่อจัดอันดับใหม่ใน 32 อันดับแรกจาก 512 ตัวอย่างสำหรับคำบรรยายแต่ละรายการในภาพเชิงโต้ตอบทั้งหมด กระบวนการนี้ยังสามารถมองว่าเป็นการค้นหาที่นำทางด้วยภาษา¹⁶ และสามารถมีผลกระทบอย่างมากต่อคุณภาพของตัวอย่าง

กำลังโหลด...

เชิงอรรถ

A
token คือสัญลักษณ์ใดๆ จากคำศัพท์ที่แยกออกมา; สำหรับมนุษย์ แต่ละตัวอักษรภาษาอังกฤษเป็น token จากตัวอักษร 26 ตัว คำศัพท์ของ DALL·E มี token สำหรับทั้งแนวคิดข้อความและภาพ โดยเฉพาะอย่างยิ่ง คำบรรยายภาพแต่ละภาพจะแสดงด้วย token ที่เข้ารหัส BPE สูงสุด 256 รายการ โดยมีขนาดคำศัพท์ 16,384 และภาพจะแสดงด้วย token 1,024 รายการ โดยมีขนาดคำศัพท์ 8,192 8e

ภาพจะถูกประมวลผลล่วงหน้าให้มีความละเอียด 256x256 ระหว่างการฝึกสอน คล้ายกับ VQVAE, ภาพแต่ละภาพถูกบีบอัดเป็นตาราง 32x32 ของรหัสแฝงแบบไม่ต่อเนื่องโดยใช้ VAE แบบไม่ต่อเนื่อง ที่เราได้ฝึกอบรมล่วงหน้าโดยใช้การผ่อนคลายแบบต่อเนื่อง เราได้พบว่าการฝึกสอนโดยใช้การผ่อนคลายช่วยลดความจำเป็นในการใช้คู่มือรหัสที่ชัดเจน, การสูญเสีย EMA, หรือเทคนิคต่างๆ เช่น การฟื้นฟูโค้ดที่ไม่ใช้งาน และสามารถขยายขนาดให้รองรับคำศัพท์ขนาดใหญ่ได้