ข้ามไปยังเนื้อหาหลัก
OpenAI

การสร้างวิดีโอจากข้อความ

วิดีโอทั้งหมดในหน้านี้สร้างโดย Sora โดยไม่มีการดัดแปลงใดๆ

กำลังโหลด…

เรากำลังเทรน AI ให้เข้าใจโลกทางกายภาพและการเคลื่อนไหวที่สมจริง โดยเป้าหมายในการเทรนโมเดลคือการสร้างโมเดลที่จะช่วยคนแก้ปัญหาที่ต้องใช้ปฏิสัมพันธ์กับโลกความเป็นจริง

ขอแนะนำ Sora โมเดลมี่สามารถเปลี่ยนข้อความให้เป็นวิดีโอได้ Sora สามารถสร้างวิดีโอได้ยาวถึงหนึ่งนาทีโดยยังคงคุณภาพของภาพและปฏิบัติตามคำสั่งของผู้ใช้

Sora จะพร้อมใช้งานสำหรับผู้ประเมินความปลอดภัย (Red Team) เพื่อทำการประเมินหาความเสี่ยงและจุดอ่อนในประเด็นสำคัญ นอกจากนี้เรายังเปิดโอกาสให้ศิลปินทัศนศิลป์ นักออกแบบ และผู้ผลิตภาพยนตร์กลุ่มหนึ่ง ลเข้าถึงโมเดลเพื่อรวบรวมคำแนะนำในการพัฒนาโมเดลให้ตอบโจทย์ผู้เชี่ยวชาญด้านความคิดสร้างสรรค์

เราเผยแพร่ความก้าวหน้าการวิจัยตั้งแต่เนิ่นๆ เพื่อเริ่มต้นทำงานและรับข้อเสนอแนะจากบุคคลภายนอก OpenAI และเพื่อนำเสนอให้สาธารณชนได้เห็นภาพรวมของความสามารถ AI ที่กำลังจะมีขึ้นในเร็วๆ นี้

Sora สามารถสร้างฉากซับซ้อนที่มีตัวละครหลายตัว การเคลื่อนไหวเฉพาะรูปแบบ และรายละเอียดของวัตถุและพื้นหลังอย่างแม่นยำ โมเดลนี้ไม่เพียงแค่เข้าใจสิ่งที่ผู้ใช้ร้องขอในคำสั่งเท่านั้น แต่ยังเข้าใจการจัดวางสิ่งเหล่านั้นตามหลักกายภาพของโลกความเป็นจริงได้อีกด้วย

โมเดลนี้มีความเข้าใจภาษาอย่างลึกซึ้ง ทำให้สามารถตีความคำสั่งได้อย่างแม่นยำ และสร้างตัวละครที่น่าสนใจซึ่งถ่ายทอดอารมณ์ได้อย่างมีชีวิตชีวา Sora สามารถสร้างวิดีโอที่มีหลายฉากภายในคลิปเดียวได้ด้วย โดยคงตัวละครและสไตล์ภาพไว้ได้อย่างแม่นยำ

โมเดลปัจจุบันยังคงมีช่องว่างให้พัฒนาต่อไปได้อีก โมเดลอาจจำลองกฎทางฟิสิกส์ของฉากที่ซับซ้อนออกมาได้ไม่สมจริง และอาจไม่สามารถเข้าใจความสัมพันธ์ของเหตุและผลในกรณีเฉพาะได้ (เช่น ตัวละครกัดคุกกี้แล้วแต่คุกกี้ยังไม่เป็นรอย) โมเดลอาจสับสนกับรายละเอียดเชิงพื้นที่ที่รวมอยู่ในคำสั่ง เช่น ไม่สามารถแยกแยะซ้าย-ขวาได้ หรือมีข้อบกพร่องในการอธิบายลำดับเหตุการณ์ตามเวลา เช่น การเคลื่อนกล้องเฉพาะเส้นทาง

ความปลอดภัย

เราจะใช้มาตรการความปลอดภัยที่สำคัญหลายข้อ ก่อนที่จะเปิดให้ Sora ใช้งานในผลิตภัณฑ์ของ OpenAI เราทำงานกับผู้เชี่ยวชาญด้านการเจาะระบบที่มีความเชี่ยวชาญในประเด็นต่างๆ เช่น การเผยแพร่ข้อมูลผิด เนื้อหาที่ก่อให้เกิดความเกลียดชัง และอคติ เพื่อทำการทดสอบโมเดลอย่างเข้มงวด

เรากำลังพัฒนาเครื่องมือเพื่อช่วยในการค้นหาเนื้อหาที่อาจทำให้เกิดความเข้าใจคลาดเคลื่อน เช่น ระบบตรวจจับที่สามารถบอกได้ว่าวิดีโอถูกสร้างโดย Sora หรือไม่ เราวางแผนจะเพิ่ม ข้อมูลอภิพันธุ์ (metadata) ของ C2PA(เปิดในหน้าต่างใหม่) ในอนาคตหากมีการปรับใช้โมเดลในผลิตภัณฑ์ของ OpenAI

นอกเหนือจากการพัฒนาเทคนิคใหม่เพื่อเตรียมการนำไปใช้งาน เรายังใช้ประโยชน์จาก มาตรการความปลอดภัยเดิม(เปิดในหน้าต่างใหม่) ซึ่งถูกสร้างขึ้นสำหรับผลิตภัณฑ์ที่ใช้ DALL·E 3 มาใช้กับ Sora ด้วย

ตัวอย่างเช่น เมื่อใช้ผลิตภัณฑ์ของ OpenAI ระบบจำแนกข้อความของเราจะทำการตรวจสอบและปฏิเสธข้อความคำสั่งที่ละเมิดนโยบายการใช้งานของเรา เช่น คำสั่งขอเนื้อหาที่มีความรุนแรงมาก เนื้อหาทางเพศ ภาพที่สร้างความเกลียดชัง ภาพเหมือนของบุคคลที่มีชื่อเสียง หรือทรัพย์สินทางปัญญาของผู้อื่น เรายังได้สร้างตัวจำแนกรูปภาพที่มีประสิทธิภาพสูงสำหรับใช้ในการตรวจสอบเฟรมของวิดีโอที่สร้างขึ้น เพื่อช่วยให้มั่นใจได้ว่าวีดิโอนั้นเป็นไปตามนโยบายการใช้งานของเรา ก่อนที่จะแสดงให้ผู้ใช้งานเห็น

เราจะมีการทำงานร่วมกับผู้กำหนดนโยบาย นักการศึกษา และศิลปินจากทั่วโลก เพื่อทำความเข้าใจข้อกังวลที่พวกเขามี และเพื่อค้นหาการใช้งานเชิงสร้างสรรค์ของเทคโนโลยีใหม่นี้ ถึงแม้เราจะทำการวิจัยและทดสอบอย่างละเอียด แต่เราก็ไม่สามารถคาดการณ์ได้ว่าผู้คนจะใช้เทคโนโลยีของเราในทางที่เป็นประโยชน์อย่างไร หรือจะนำไปใช้ในทางที่ผิดอย่างไรบ้าง ด้วยเหตุนี้เราจึงเชื่อว่าการศึกษาผลจากการใช้งานจริงเป็นองค์ประกอบสำคัญในการพัฒนาและเปิดตัวระบบ AI ที่ปลอดภัยมากขึ้นอย่างต่อเนื่องในระยะยาว

Research techniques

Sora แบบจำลองการแพร่กระจาย (diffusion) ที่สร้างวิดีโอโดยเริ่มจากวิดีโอที่เหมือนภาพรบกวน แล้วค่อยๆ ปรับให้ชัดเจนขึ้นโดยลดสัญญาณรบกวนทีละขั้น

Sora สามารถสร้างวิดีโอทั้งหมดได้ในคราวเดียวหรือขยายวิดีโอที่สร้างขึ้นให้ยาวขึ้นได้ เราสามารถแก้ปัญหาที่ยากเกี่ยวกับการรักษาวัตถุให้เหมือนเดิม แม้ว่าวัตถุจะหลุดออกจากกรอบภาพไปช่วงหนึ่งก็ตาม ด้วยการทำให้ระบบมองเห็นภาพล่วงหน้าได้หลายเฟรม

Sora ใช้สถาปัตยกรรมแบบทรานส์ฟอร์เมอร์เหมือนกับโมเดล GPT ทำให้สามารถปรับขนาดและเพิ่มประสิทธิภาพได้สูง

เราแสดงภาพเคลื่อนไหวและภาพนิ่งในรูปแบบของชุดข้อมูลหน่วยย่อยขนาดเล็กที่เรียกว่าแพตช์ ซึ่งแต่ละแพตช์ก็มีลักษณะคล้ายกับโทเค็นใน GPT การกำหนดวิธีการนำเสนอข้อมูลให้เป็นมาตรฐานเดียวกันทำให้เราสามารถฝึกระบบทรานสฟอร์เมอร์สำหรับการกระจายข้อมูลได้ โดยใช้ข้อมูลภาพที่หลากหลายกว่าเดิมมาก ครอบคลุมทั้งความยาวของวีดิทัศน์ ความคมชัด และสัดส่วนภาพที่แตกต่างกัน

Sora พัฒนาต่อยอดมาจากการวิจัยของโมเดล DALL·E และ GPT โดยใช้เทคนิคการสร้างคำบรรยายใหม่จาก DALL·E 3 ซึ่งเป็นกระบวนการสร้างคำบรรยายที่มีรายละเอียดสูงสำหรับข้อมูลภาพที่ใช้ในการเทรนโมเดล ส่งผลให้ระบบสามารถสร้างวีดีโอตามคำสั่งที่เป็นข้อความของผู้ใช้ได้อย่างถูกต้องและสอดคล้องมากยิ่งขึ้น

นอกเหนือจากความสามารถในการสร้างวีดิโอจากคำสั่งที่เป็นข้อความล้วนๆ แล้ว โมเดลนี้ยังสามารถนำภาพนิ่งที่มีอยู่ มาสร้างเป็นวีดีโอได้ โดยใส่การเคลื่อนไหวให้กับเนื้อหาของภาพอย่างแม่นยำและใส่ใจในรายละเอียดเล็กๆ โมเดลยังสามารถนำวิดีโอที่มีอยู่แล้วมาใช้และขยายหรือเติมเต็มเฟรมที่ขาดหายไปได้ เรียนรู้เพิ่มเติมจากรายงานทางเทคนิคของเรา

Sora ทำหน้าที่เป็นรากฐานสำคัญให้กับโมเดลที่สามารถทำความเข้าใจและจำลองโลกแห่งความเป็นจริงได้ ซึ่งเรามองว่าความสามารถนี้จะเป็นก้าวสำคัญสู่การบรรลุ AGI

กำลังโหลด...