แนวทางการบริหารจัดการความท้าทายและโอกาสที่มาพร้อมกับเสียงสังเคราะห์
เราขอแชร์สิ่งที่ได้เรียนรู้จากการทดสอบระบบ Voice Engine รุ่นพรีวิว ซึ่งเป็นโมเดลที่ใช้สร้างเสียงเฉพาะบุคคล
OpenAI มุ่งมั่นที่จะ พัฒนา AI ที่ปลอดภัยและก่อให้เกิดประโยชน์อย่างกว้างขวาง เราพร้อมนำเสนอข้อมูลเชิงลึกและผลลัพธ์เบื้องต้นจากการเปิดแสดงตัวอย่างในระดับเล็กของโมเดลที่ชื่อว่า Voice Engine ซึ่งใช้เพียงข้อความและตัวอย่างเสียงความยาว 15 วินาที เพื่อสร้างเสียงพูดที่เป็นธรรมชาติและมีความใกล้เคียงกับเจ้าของเสียงต้นฉบับ สิ่งที่น่าทึ่งคือโมเดลขนาดเล็กนี้ใช้ตัวอย่างเสียงแค่ 15 วินาที ก็สามารถสร้างน้ำเสียงที่ถ่ายทอดอารมณ์และฟังดูเหมือนคนจริงๆ ได้แล้ว
เราได้พัฒนา Voice Engine ขึ้นครั้งแรกในช่วงปลายปี 2565 และได้นำมาใช้เพื่อขับเคลื่อนเสียงสำเร็จรูปที่มีให้ใช้งานใน API แปลงข้อความเป็นเสียง(เปิดในหน้าต่างใหม่) รวมถึง ChatGPT Voice และ Read Aloud ในขณะเดียวกัน เรากำลังดำเนินมาตรการอย่างระมัดระวังและรอบคอบเกี่ยวกับการเปิดใช้งานในวงกว้าง เพราะเราทราบดีถึงอันตรายหากมีผู้ไม่หวังดีนำเทคโนโลยีเสียงสังเคราะห์นี้ไปใช้ผิดวัตถุประสงค์ เราหวังที่จะเปิดเวทีพูดคุยเรื่องการนำเสียงสังเคราะห์มาใช้ให้ถูกต้องเหมาะสม รวมถึงวิธีที่สังคมจะปรับตัวเพื่อรับมือกับเทคโนโลยีใหม่นี้ เราจะอาศัยบทสนทนาเหล่านี้ร่วมกับผลการทดสอบกลุ่มเล็กๆ เพื่อช่วยให้เราตัดสินใจได้ดีขึ้นว่า จะเปิดตัวเทคโนโลยีนี้ให้ใช้งานในระดับสเกลใหญ่ด้วยวิธีไหนถึงจะเหมาะสมที่สุด
เพื่อให้เห็นภาพชัดเจนว่าเทคโนโลยีนี้ทำอะไรได้บ้าง เราจึงเริ่มทดลองใช้แบบส่วนตัวกับพาร์ทเนอร์กลุ่มเล็กๆ ที่ไว้วางใจได้ตั้งแต่ช่วงปลายปีที่ผ่านมา เรารู้สึกประทับใจกับแอปพลิเคชันที่กลุ่มนี้ได้พัฒนาขึ้นมา การปรับใช้ในระดับเล็กเหล่านี้ช่วยให้เราได้ข้อมูลเพื่อกำหนดแนวทาง มาตรการป้องกัน และแนวคิดของเราเกี่ยวกับวิธีที่ Voice Engine อาจถูกนำไปใช้เพื่อประโยชน์ที่ดีในหลากหลายอุตสาหกรรม ตัวอย่างการใช้งานในระยะแรกประกอบด้วย:
- การให้ความช่วยเหลือด้านการอ่าน แก่ผู้ที่อ่านไม่ออกและเด็กๆ ผ่านเสียงที่ฟังดูเป็นธรรมชาติและเปี่ยมอารมณ์ ซึ่งเป็นตัวแทนของผู้พูดที่หลากหลายกว่าที่เป็นไปได้ด้วยเสียงที่ตั้งค่าไว้ล่วงหน้า Age of Learning(เปิดในหน้าต่างใหม่) บริษัทเทคโนโลยีการศึกษาที่มุ่งมั่นต่อความสำเร็จทางวิชาการของเด็กๆ ได้ใช้เทคโนโลยีนี้เพื่อสร้างเนื้อหาเสียงพากย์ที่เขียนสคริปต์ไว้ล่วงหน้า พวกเขายังใช้ระบบประมวลผลเสียงและ GPT‑4 เพื่อสร้างการตอบสนองแบบเรียลไทม์ที่ปรับให้เหมาะกับแต่ละบุคคลเพื่อโต้ตอบกับนักเรียน เทคโนโลยีนี้ช่วยให้ Age of Learning สามารถผลิตเนื้อหาในปริมาณที่มากขึ้นเพื่อตอบสนองกลุ่มเป้าหมายที่กว้างขวางกว่าเดิม
- การแปลเนื้อหา เช่น วิดีโอและพอดแคสต์ เพื่อให้เหล่าครีเอเตอร์และภาคธุรกิจสามารถเข้าถึงผู้คนทั่วโลกได้มากขึ้น ด้วยการสื่อสารที่คล่องแคล่วและคงไว้ซึ่งเอกลักษณ์ของเสียงตนเอง หนึ่งในผู้ที่เริ่มนำมาใช้ก่อนคือ HeyGen(เปิดในหน้าต่างใหม่) แพลตฟอร์มการเล่าเรื่องด้วยภาพผ่าน AI ซึ่งร่วมมือกับกลุ่มลูกค้าองค์กรเพื่อสร้างอวตารจำลองที่มีลักษณะคล้ายมนุษย์ สำหรับใช้ในเนื้อหาที่หลากหลาย ตั้งแต่การตลาดผลิตภัณฑ์ไปจนถึงการสาธิตการขาย พวกเขาใช้ Voice Engine สำหรับการแปลวิดีโอ ดังนั้นจึงสามารถแปลเสียงของผู้พูดเป็นหลายภาษาและเข้าถึงผู้ชมทั่วโลกได้ สำหรับการแปลภาษา Voice Engine สามารถรักษาสำเนียงจริงของคนพูดไว้ได้ เช่น ถ้าเราเอาเสียงคนฝรั่งเศสมาสร้างเป็นภาษาอังกฤษ ผลที่ได้ก็จะเป็นภาษาอังกฤษที่มีสำเนียงฝรั่งเศสติดมาด้วย
- เข้าถึงชุมชนทั่วโลก โดยการปรับปรุงการให้บริการที่จำเป็นในพื้นที่ห่างไกล Dimagi(เปิดในหน้าต่างใหม่) กำลังพัฒนาเครื่องมือสำหรับอาสาสมัครสุขภาพชุมชนเพื่อให้บริการที่จำเป็นหลากหลายรูปแบบ เช่น การให้คำปรึกษาแก่คุณแม่ที่ให้นมบุตร เพื่อส่งเสริมการพัฒนาทักษะของบุคลากรเหล่านี้ Dimagi จึงใช้งาน Voice Engine ร่วมกับ GPT‑4 ในการให้ข้อมูลตอบกลับเชิงปฏิสัมพันธ์ผ่านภาษาหลักของพนักงานแต่ละคน ซึ่งครอบคลุมทั้งภาษาสวาฮิลีและภาษาที่ไม่เป็นทางการอย่างภาษาเชง (Sheng) ซึ่งเป็นภาษาผสมที่ได้รับความนิยมในประเทศเคนยา
- การสนับสนุนผู้ที่ไม่สามารถสื่อสารด้วยคำพูด เช่น แอปพลิเคชันเพื่อการบำบัดสำหรับบุคคลที่มีความบกพร่องทางการสื่อสาร และช่วยให้ผู้ที่มีปัญหาในการเรียนรู้สามารถเข้าถึงการศึกษาได้ดียิ่งขึ้น Livox(เปิดในหน้าต่างใหม่) แอปสื่อสารทางเลือกที่ขับเคลื่อนด้วย AI รองรับอุปกรณ์การสื่อสารเสริมและทางเลือก ที่ช่วยให้ผู้พิการสามารถสื่อสารได้ การใช้งาน Voice Engine ช่วยให้ผู้ที่ไม่สามารถสื่อสารด้วยการพูดมีโอกาสเลือกใช้เสียงที่เป็นเอกลักษณ์และมีความเป็นธรรมชาติในหลากหลายภาษา ผู้ใช้งานสามารถเลือกน้ำเสียงที่สะท้อนตัวตนได้ดีที่สุด และสำหรับผู้ที่สื่อสารได้หลายภาษา ระบบจะช่วยรักษาเอกลักษณ์ของเสียงให้คงเดิมในทุกภาษาที่พูด
- คืนเสียงให้กับผู้ป่วย สำหรับผู้ที่มีปัญหาด้านการสื่อสาร ทั้งจากอาการเจ็บป่วยแบบเฉียบพลันหรือโรคที่ส่งผลต่อการพูดในระยะยาว สถาบันประสาทวิทยาศาสตร์ Norman Prince แห่ง Lifespan(เปิดในหน้าต่างใหม่) ซึ่งเป็นระบบสุขภาพที่ไม่แสวงหากำไรและทำหน้าที่เป็นหน่วยงานพันธมิตรหลักด้านการสอนของคณะแพทยศาสตร์ มหาวิทยาลัยบราวน์ กำลังศึกษาการใช้งาน AI ในบริบททางคลินิก พวกเขากำลังดำเนินโครงการนำร่องเพื่อมอบเทคโนโลยี Voice Engine ให้แก่ผู้ที่มีความบกพร่องทางการพูดซึ่งมีสาเหตุมาจากโรคมะเร็งหรือความผิดปกติทางระบบประสาท เนื่องจาก Voice Engine ใช้ตัวอย่างเสียงในปริมาณน้อยมาก คณะแพทย์อันประกอบด้วย Fatima Mirza, Rohaid Ali และ Konstantina Svokos จึงสามารถกู้คืนเสียงของคนไข้เยาวชนรายหนึ่งที่สูญเสียความสามารถในการพูดอย่างคล่องแคล่วจากเนื้องอกในหลอดเลือดสมอง โดยอาศัยเพียงไฟล์เสียงจากวิดีโอที่เธอเคยบันทึกไว้สำหรับทำโครงงานโรงเรียน
เราตระหนักดีว่าการสร้างเสียงสังเคราะห์ที่เลียนแบบเสียงของบุคคลมีความเสี่ยงที่ร้ายแรง ซึ่งเป็นประเด็นที่เราให้ความสำคัญเป็นลำดับแรก โดยเฉพาะในปีที่มีการเลือกตั้งอย่างปีนี้ เรากำลังประสานความร่วมมือกับพันธมิตรทั้งในสหรัฐฯ และระดับนานาชาติ จากทั้งภาครัฐ สื่อมวลชน วงการบันเทิง การศึกษา ภาคประชาสังคม และภาคส่วนอื่น ๆ เพื่อสร้างความมั่นใจว่าเราได้นำข้อเสนอแนะของทุกฝ่ายมาประกอบการพัฒนาเทคโนโลยีนี้ พันธมิตรที่ร่วมทดสอบ Voice Engine ในวันนี้ ต่างยอมรับในนโยบายการใช้งานของเรา ซึ่งระบุห้ามการแอบอ้างเป็นบุคคลหรือองค์กรอื่นโดยไม่ได้รับความยินยอมหรือไม่มีสิทธิ์ตามกฎหมาย ข้อตกลงของเรากำหนดให้พาร์ทเนอร์ต้องขออนุญาตเจ้าของเสียงอย่างถูกต้อง และเราไม่อนุญาตให้มีการพัฒนาเครื่องมือเพื่อให้บุคคลทั่วไปสร้างเสียงจำลองเองได้ พันธมิตรต้องแจ้งให้กลุ่มเป้าหมายทราบอย่างชัดเจนว่า เสียงที่พวกเขากำลังรับฟังอยู่นั้นเป็นเสียงที่สร้างขึ้นด้วย AI สุดท้ายนี้ เราได้วางระบบความปลอดภัยไว้หลายชั้น ทั้งการใช้ลายน้ำเพื่อติดตามแหล่งที่มาของเสียงจาก Voice Engine และการตรวจสอบการใช้งานจริงอย่างใกล้ชิดเพื่อป้องกันปัญหา เราเชื่อมั่นว่าการเปิดใช้งานเทคโนโลยีเสียงสังเคราะห์ในวงกว้างควรมาพร้อมกับระบบยืนยันตัวตนด้วยเสียง เพื่อตรวจสอบว่าเจ้าของเสียงต้นฉบับรับทราบและยินยอมให้นำเสียงเข้าสู่ระบบ รวมถึงต้องมีบัญชีรายชื่อเสียงที่ไม่อนุญาต เพื่อตรวจจับและป้องกันการสร้างเสียงที่คล้ายคลึงกับบุคคลสำคัญมากจนเกินไป
เราพัฒนา Voice Engine เพื่อสานต่อความตั้งใจในการสำรวจโลกเทคโนโลยีอันล้ำสมัย และพร้อมแชร์ความเป็นไปได้ใหม่ๆ ของ AI สู่สาธารณะ เพื่อให้เป็นไปตามมาตรฐานความปลอดภัยของ AI และพันธสัญญาโดยสมัครใจของเรา เราตัดสินใจนำเสนอเทคโนโลยีนี้ในรูปแบบพรีวิวก่อน และยังไม่เผยแพร่สู่สาธารณะในวงกว้าง เราหวังว่าการพรีวิว Voice Engine ในครั้งนี้จะช่วยเน้นย้ำถึงศักยภาพของมัน และกระตุ้นให้สังคมร่วมกันสร้างภูมิคุ้มกันเพื่อรับมือกับความท้าทายจากโมเดล AI ที่สร้างเนื้อหาได้สมจริงยิ่งขึ้น เราขอเชิญชวนให้ร่วมกันผลักดันขั้นตอนต่าง ๆ ตัวอย่างเช่น:
- การยกเลิกการยืนยันตัวตนด้วยเสียงเพื่อใช้เป็นมาตรการความปลอดภัยในการเข้าถึงบัญชีธนาคารและข้อมูลที่ละเอียดอ่อนอื่นๆ
- การศึกษานโยบายต่าง ๆ เพื่อปกป้องสิทธิ์ในการใช้เสียงของแต่ละบุคคลในระบบ AI
- การให้ความรู้แก่ประชาชนเพื่อให้รู้เท่าทันศักยภาพและขีดจำกัดของ AI รวมถึงโอกาสที่จะถูกหลอกลวงด้วยเนื้อหาที่สร้างขึ้นจาก AI
- เร่งสร้างและขยายการใช้เทคโนโลยีตรวจสอบต้นทางของสื่อภาพและเสียง เพื่อให้ผู้ใช้งานแยกได้ชัดว่าอีกฝ่ายคือบุคคลจริงหรือ AI
สิ่งสำคัญคือการทำให้ทุกคนทั่วโลกเห็นภาพว่าเทคโนโลยีนี้จะไปในทิศทางใด โดยไม่เกี่ยงว่าท้ายที่สุดแล้วเราจะนำไปใช้งานกันทั่วไปหรือไม่ เรามีความยินดีที่จะร่วมหารืออย่างต่อเนื่องกับผู้กำหนดนโยบาย นักวิจัย นักพัฒนา และกลุ่มนักสร้างสรรค์ เกี่ยวกับความท้าทายและโอกาสของเทคโนโลยีเสียงสังเคราะห์


