ข้ามไปยังเนื้อหาหลัก
OpenAI

21 มกราคม 2569

APISoraสตาร์ทอัพ

Higgsfield เปลี่ยนไอเดียง่ายๆ เป็นวิดีโอระดับภาพยนตร์ได้อย่างไร

การใช้ OpenAI GPT‑4.1 และ GPT‑5 ในการวางแผน และ Sora 2 ในการสร้างสรรค์ Higgsfield ช่วยให้ครีเอเตอร์เดี่ยวได้ผลงานเนี๊ยบระดับทีมครีเอทีฟครบชุดตามต้องการ

Higgsfield logo on pink background
กำลังโหลด…

วิดีโอสั้นเป็นแรงขับเคลื่อนการค้าในยุคปัจจุบัน แต่การผลิตวิดีโอที่มีประสิทธิภาพจริง ๆ นั้นยากกว่าที่เห็น คลิปที่ดูเป็นธรรมชาติบน TikTok, Reels และ Shorts ถูกสร้างขึ้นจากกฎที่มองไม่เห็น: จังหวะการเปิดคลิป จังหวะของช็อต การเคลื่อนไหวของกล้อง การกำหนดจังหวะ และสัญญาณเล็กๆ น้อยๆ อื่นๆ ที่ทำให้คอนเทนต์รู้สึก “เป็นธรรมชาติ” กับอะไรก็ตามที่กำลังเป็นกระแส

Higgsfield(เปิดในหน้าต่างใหม่) คือแพลตฟอร์มสื่อเชิงกำเนิดที่ช่วยให้ทีมสร้างวิดีโอสั้นแบบภาพยนตร์ได้จากลิงก์สินค้า ภาพ หรือไอเดียง่ายๆ ด้วยการใช้ OpenAI GPT‑4.1 และ GPT‑5 ในการวางแผน และ Sora 2 ในการสร้าง ระบบสามารถสร้างวิดีโอได้ประมาณ 4 ล้านรายการต่อวัน โดยเปลี่ยนอินพุตเพียงเล็กน้อยให้เป็นวิดีโอที่มีโครงสร้างและเน้นโซเชียลเป็นหลัก

"ผู้ใช้มักไม่ค่อยอธิบายสิ่งที่โมเดลต้องการอย่างแท้จริง พวกเขาอธิบายว่าพวกเขาอยากรู้สึกอย่างไร หน้าที่ของเราคือการแปลเจตนานั้นให้เป็นสิ่งที่โมเดลวิดีโอสามารถดำเนินการได้ โดยใช้โมเดลของ OpenAI เพื่อเปลี่ยนเป้าหมายให้เป็นคำสั่งทางเทคนิค
—Alex Mashrabov ผู้ร่วมก่อตั้งและซีอีโอของ Higgsfield

ผู้สร้างสรรค์ให้ความสำคัญกับผลลัพธ์ มากกว่าการสั่งงานกล้อง

ผู้คนไม่ได้คิดเป็นลำดับภาพ พวกเขาพูดว่า "ทำให้มันดูมีอารมณ์" หรือ "อันนี้ควรให้ความรู้สึกหรูหรา" ต่างจากโมเดลประเภทอื่น วิดีโอโมเดลต้องการคำสั่งที่ชัดเจนและมีโครงสร้าง ทั้งเรื่องจังหวะการเคลื่อนไหว ข้อจำกัด และลำดับความสำคัญของภาพ

เพื่อเชื่อมช่องว่างนั้น ทีม Higgsfield ได้พัฒนาเลเยอร์ตรรกะภาพยนตร์เพื่อแปลเจตนารมณ์เชิงสร้างสรรค์และขยายให้เป็นแผนวิดีโอที่ชัดเจนก่อนที่จะมีการสร้างใดๆ เกิดขึ้น

เมื่อผู้ใช้ระบุ URL ของผลิตภัณฑ์หรือรูปภาพ ระบบจะใช้ GPT‑4.1 mini และ GPT‑5 เพื่อวิเคราะห์โครงเรื่อง จังหวะการเล่าเรื่อง ตรรกะของกล้อง และการเน้นภาพ แทนที่จะให้ผู้ใช้ต้องเผชิญกับคำสั่งดิบ Higgsfield ได้ผนวกรวมการตัดสินใจเชิงภาพยนตร์ไว้ภายในระบบเอง เมื่อสร้างแผนเสร็จแล้ว Sora 2 จะสร้างการเคลื่อนไหว ความสมจริง และความต่อเนื่องตามคำสั่งที่มีโครงสร้างเหล่านั้น

แนวทางที่เน้นการวางแผนเป็นอันดับแรกสะท้อนถึงทีมที่อยู่เบื้องหลังผลิตภัณฑ์ Higgsfield ผสานรวมวิศวกรและผู้สร้างภาพยนตร์ที่มีประสบการณ์ รวมถึงผู้กำกับที่ได้รับรางวัล พร้อมด้วยผู้นำที่มีรากฐานลึกซึ้งในสื่อสำหรับผู้บริโภค ผู้ร่วมก่อตั้งและซีอีโอ Alex Mashrabov เคยเป็นผู้นำด้าน Generative AI ที่ Snap มาก่อน โดยเขาเป็นผู้คิดค้น Snap Lenses ซึ่งมีส่วนกำหนดวิธีที่ผู้คนหลายร้อยล้านคนโต้ตอบกับเอฟเฟกต์ภาพในวงกว้าง

ทำให้ความไวรัลเป็นกระบวนการที่เป็นระบบ แทนที่จะเป็นการคาดเดา

Higgsfield มองความไวรัลเป็นรูปแบบที่วัดผลได้ โดยใช้ GPT‑4.1 mini และ GPT‑5 วิเคราะห์วิดีโอสั้นจำนวนมาก แล้วกลั่นเป็นโครงสร้างสร้างสรรค์ที่ทำซ้ำได้

Higgsfield วัดความไวรัลจากอัตราการมีส่วนร่วมต่อการเข้าถึง และให้ความสำคัญกับความเร็วในการแชร์ เมื่อยอดแชร์เริ่มมากกว่าการกดไลก์ เนื้อหาจะเปลี่ยนจากการเสพแบบเฉยๆ เป็นการกระจายแบบมีส่วนร่วม

Higgsfield เข้ารหัสโครงสร้างไวรัลที่เกิดซ้ำลงในคลังพรีเซ็ตวิดีโอ พรีเซ็ตแต่ละรายการมีโครงสร้างการเล่าเรื่อง สไตล์การกำหนดจังหวะ และตรรกะของกล้องที่เฉพาะเจาะจง ซึ่งพบในเนื้อหาที่มีประสิทธิภาพสูง มีการสร้างพรีเซ็ตใหม่ประมาณ 10 รายการในแต่ละวัน และพรีเซ็ตเก่าจะถูกหมุนเวียนออกเมื่อการมีส่วนร่วมลดลง

พรีเซ็ตเหล่านี้ขับเคลื่อน Sora 2 Trends ซึ่งช่วยให้ครีเอเตอร์สร้างวิดีโอที่ตรงกับเทรนด์ได้จากภาพหรือไอเดียเพียงหนึ่งเดียว ระบบใช้ตรรกะการเคลื่อนไหวและการกำหนดจังหวะของแพลตฟอร์มโดยอัตโนมัติ ผลิตผลลัพธ์ที่สอดคล้องกับแต่ละแนวโน้มโดยไม่ต้องปรับแต่งด้วยตนเอง

เมื่อเทียบกับค่าพื้นฐานก่อนหน้าของ Higgsfield วิดีโอที่สร้างผ่านระบบนี้แสดงให้เห็นว่า ความเร็วในการถูกแชร์เพิ่มขึ้น 150% และการดึงความสนใจเชิงการรับรู้สูงขึ้นประมาณ 3 เท่า โดยวัดจากพฤติกรรมการมีส่วนร่วมในขั้นถัดไป

เปลี่ยนหน้าสินค้าให้กลายเป็นโฆษณาด้วย Click‑to‑Ad

Click-to-Ad พัฒนาตามแนวทางวางแผนก่อนเหมือนแพลตฟอร์มส่วนอื่น และได้รับแรงบันดาลใจจากความนิยมของ Sora 2 Trends ฟีเจอร์นี้ทำให้ผู้ใช้ไม่ต้องเขียนพรอมต์เองอีกต่อไป โดย GPT‑4.1 จะตีความเจตนาของสินค้า และ Sora 2 จะสร้างวิดีโอให้ทันที

กระบวนการทำงานมีดังนี้:

  1. ผู้ใช้ทำการวางลิงก์ไปยังหน้าผลิตภัณฑ์
  2. ระบบจะวิเคราะห์หน้าเพจเพื่อดึงเจตนาของแบรนด์ ระบุจุดเด่นด้านภาพ และทำความเข้าใจสิ่งสำคัญของสินค้า
  3. เมื่อระบุสินค้าได้แล้ว ระบบจะจับมันเข้ากับพรีเซ็ตยอดนิยมที่ออกแบบไว้ล่วงหน้า
  4. Sora 2 สร้างวิดีโอขั้นสุดท้ายโดยประยุกต์มาตรฐานระดับมืออาชีพของแต่ละพรีเซ็ต ทั้งด้านการเคลื่อนกล้อง จังหวะภาพ และกฎเชิงสไตล์

เป้าหมายคือการได้ผลลัพธ์ที่รวดเร็ว ใช้งานได้จริง และเหมาะสมกับแพลตฟอร์มโซเชียลตั้งแต่ครั้งแรก การเปลี่ยนแปลงนี้ส่งผลต่อวิธีการทำงานของทีม ตอนนี้ผู้ใช้มักได้วิดีโอที่ใช้งานได้ภายในหนึ่งหรือสองครั้ง แทนที่จะต้องป้อนคำสั่งห้าหกครั้ง สำหรับทีมการตลาด นั่นหมายถึงการวางแผนแคมเปญจากปริมาณและความหลากหลายของคอนเทนต์ แทนที่จะต้องพึ่งการลองผิดลองถูก

โดยทั่วไปแล้วการสร้างวีดีโอหนึ่งครั้งใช้เวลา 2–5 นาที ขึ้นอยู่กับเวิร์กโฟลว์ เนื่องจากแพลตฟอร์มรองรับการรันพร้อมกัน ทีมสามารถสร้างรูปแบบที่หลากหลายได้หลายสิบแบบภายในหนึ่งชั่วโมง ทำให้การทดสอบแนวทางสร้างสรรค์เป็นไปได้จริงเมื่อเทรนด์เปลี่ยนแปลง

ตั้งแต่เปิดตัวต้นเดือนพฤศจิกายน Click-to-Ad ถูกใช้งานโดยผู้สร้างมืออาชีพและทีมองค์กรกว่า 20% บนแพลตฟอร์ม วัดจากการดาวน์โหลด เผยแพร่ หรือแชร์ในแคมเปญจริง

ส่งต่องานที่ใช่ไปยังโมเดลที่ใช่

ระบบของ Higgsfield ใช้โมเดล OpenAI หลายตัว โดยเลือกแต่ละโมเดลตามความต้องการของงาน

สำหรับเวิร์กโฟลว์ที่มีการกำหนดผลลัพธ์แน่นอนและมีข้อจำกัดด้านรูปแบบ เช่น การบังคับใช้โครงสร้างที่ตั้งไว้ล่วงหน้าหรือการใช้ schema การเคลื่อนไหวของกล้องที่ทราบอยู่แล้ว แพลตฟอร์มจะส่งคำขอไปยัง GPT‑4.1‑mini งานเหล่านี้เหมาะกับระบบที่ควบคุมทิศทางง่าย ผลลัพธ์คาดเดาได้ ความแปรปรวนต่ำ และทำงานรวดเร็ว

เวิร์กโฟลว์ที่มีความคลุมเครือมากขึ้นต้องใช้วิธีการที่แตกต่างออกไป เมื่อระบบต้องอนุมานเจตนาจากอินพุตบางส่วน เช่น การตีความหน้าผลิตภัณฑ์หรือการปรับสัญญาณภาพและข้อความให้สอดคล้องกัน Higgsfield จะส่งคำขอไปยัง GPT‑5 ซึ่งการให้เหตุผลที่ลึกซึ้งและความเข้าใจแบบมัลติโหมดมีความสำคัญมากกว่าการพิจารณาเรื่องเวลาในการตอบสนองหรือต้นทุน

การตัดสินใจเส้นทางขึ้นอยู่กับเกณฑ์ภายในที่พิจารณาดังนี้

  • ระดับความลึกในการคิดวิเคราะห์เทียบกับเวลาหน่วงที่ยอมรับได้
  • ความสามารถในการคาดการณ์ของผลลัพธ์เทียบกับอิสระในการสร้างสรรค์
  • เจตนาที่ชัดเจนกับเจตนาที่อนุมาน
  • ผลลัพธ์สำหรับระบบเทียบกับผลลัพธ์สำหรับผู้ใช้

"เราไม่ได้มองว่านี่คือการเลือกโมเดลที่ดีที่สุด" Yerzat Dulat ผู้ร่วมก่อตั้งและประธานเจ้าหน้าที่ฝ่ายเทคโนโลยีของ Higgsfield กล่าว "เรามองระบบผ่านจุดแข็งด้านพฤติกรรมของมัน บางโมเดลทำได้ดีกว่าในด้านความแม่นยำ บางโมเดลเก่งกว่าในการตีความ ระบบจะกำหนดเส้นทางตามนั้น"

ผลักดันขอบเขตการสร้างวิดีโอด้วย AI

เวิร์กโฟลว์หลายอย่างของ Higgsfield เพิ่งจะเป็นไปได้ไม่นานนี้ หกเดือนก่อนยังไม่สามารถทำงานในระดับนี้ได้

โมเดลภาพและวิดีโอรุ่นก่อนมีปัญหาเรื่องความสม่ำเสมอ ตัวละครไม่คงรูป สินค้าเปลี่ยนทรง และลำดับภาพยาวๆ มักทำออกมาไม่ดี ความก้าวหน้าล่าสุดในโมเดลภาพและวิดีโอของ OpenAI ทำให้สามารถรักษาความต่อเนื่องทางภาพระหว่างช็อตได้ ช่วยให้การเคลื่อนไหวสมจริงยิ่งขึ้นและการเล่าเรื่องยาวนานขึ้น

การเปลี่ยนแปลงนั้นปลดล็อกรูปแบบใหม่ๆ Higgsfield เพิ่งเปิดตัว Cinema Studio ซึ่งเป็นเวิร์กสเปซที่ออกแบบมาสำหรับตัวอย่างภาพยนตร์และภาพยนตร์สั้น ผู้สร้างยุคแรกๆ กำลังผลิตวิดีโอความยาวหลายนาทีที่เป็นที่รู้จักอย่างกว้างขวางบนโลกออนไลน์แล้ว และแทบแยกไม่ออกจากภาพถ่ายจริง

ในขณะที่โมเดลของ OpenAI กำลังพัฒนาต่อไป ระบบของ Higgsfield ก็กำลังเติบโตไปพร้อมกัน ความสามารถใหม่ถูกแปลงเป็นเวิร์กโฟลว์ที่วันนี้ดูเป็นเรื่องธรรมดา ทั้งที่ก่อนหน้านี้ยังทำไม่ได้ เมื่อโมเดลเติบโตเต็มที่ งานเล่าเรื่องจะไม่ใช่การจัดการเครื่องมืออีกต่อไป แต่เป็นการตัดสินใจเชิงสร้างสรรค์เกี่ยวกับโทน โครงสร้าง และความหมาย