ChatGPT สามารถดู ฟัง และพูดได้แล้วตอนนี้

เรากำลังเริ่มเปิดตัวความสามารถใหม่ด้านเสียงและภาพใน ChatGPT โดยนำเสนออินเทอร์เฟซรูปแบบใหม่ที่ใช้งานง่ายขึ้น โดยให้คุณสามารถมีบทสนทนาด้วยเสียงหรือแสดงให้ ChatGPT เห็นสิ่งที่กำลังพูดถึง
เสียงและภาพให้คุณมีวิธีการใช้งาน ChatGPT ในชีวิตของคุณมากขึ้น ถ่ายภาพสถานที่สำคัญขณะเดินทางและมีบทสนทนาสดเกี่ยวกับสิ่งที่น่าสนใจเกี่ยวกับสถานที่นั้น เมื่อคุณอยู่ที่บ้าน ถ่ายรูปตู้เย็นและตู้กับข้าวของคุณเพื่อพิจารณาว่าจะทำอะไรเป็นอาหารเย็น (และสอบถามคำถามเพิ่มเติมเพื่อขอสูตรอาหารแบบทีละขั้นตอน) หลังจากทานอาหารเย็น โปรดช่วยลูกของคุณแก้โจทย์คณิตศาสตร์โดยการถ่ายรูป วงกลมชุดโจทย์ และให้มันแชร์คำแนะนำกับคุณทั้งสอง
เรากำลังทยอยเปิดให้ใช้งานเสียงและภาพใน ChatGPT สำหรับผู้ใช้ Plus และ Enterprise ในช่วงสองสัปดาห์ถัดไป ฟีเจอร์เสียงจะพร้อมใช้งานบน iOS และ Android (สามารถเลือกเข้าร่วมได้ในการตั้งค่า) และภาพจะพร้อมใช้งานบนทุกแพลตฟอร์ม
ตอนนี้คุณสามารถใช้เสียงเพื่อสนทนาโต้ตอบกับผู้ช่วยของคุณได้ พูดคุยได้ทุกที่ทุกเวลา ขอเรื่องเล่านิทานก่อนนอนให้ครอบครัว หรือยุติการถกเถียงบนโต๊ะอาหาร
ใช้เสียงเพื่อสนทนาโต้ตอบกับผู้ช่วยของคุณ
ในการเริ่มต้นใช้งานเสียง ให้ไปที่ การตั้งค่า → ฟีเจอร์ใหม่ ในแอปมือถือและเลือกเข้าร่วมบทสนทนาด้วยเสียง จากนั้น ให้แตะปุ่มหูฟังที่อยู่มุมขวาบนของหน้าจอหลัก แล้วเลือกเสียงที่คุณชื่นชอบจากทั้งหมดห้าเสียง
ความสามารถเสียงใหม่ขับเคลื่อนโดยโมเดลแปลงข้อความเป็นเสียงใหม่ ซึ่งสามารถสร้างเสียงที่เหมือนมนุษย์จากเพียงข้อความและตัวอย่างเสียงไม่กี่วินาที พวกเราได้ร่วมมือกับนักพากย์มืออาชีพเพื่อสร้างเสียงแต่ละเสียง เรายังใช้ Whisper ซึ่งเป็นระบบรู้จำเสียงพูดแบบโอเพ่นซอร์สของเรา เพื่อถอดคำพูดของคุณเป็นข้อความ
ตอนนี้คุณสามารถแสดงภาพหนึ่งภาพหรือมากกว่านั้นให้ ChatGPT ได้แล้ว แก้ไขปัญหาว่าทำไมเตาย่างของคุณถึงไม่เริ่มทำงาน สำรวจเนื้อหาในตู้เย็นของคุณเพื่อบริการมื้ออาหาร หรือวิเคราะห์กราฟที่ซับซ้อนสำหรับข้อมูลที่เกี่ยวข้องกับงาน หากคุณต้องการเน้นส่วนใดส่วนหนึ่งของภาพ คุณสามารถใช้เครื่องมือวาดในแอปมือถือของเรา
แสดงภาพหนึ่งภาพหรือมากกว่าให้ ChatGPT ดู
ในการเริ่มต้น โปรดแตะปุ่มถ่ายภาพเพื่อถ่ายหรือเลือกภาพ หากคุณใช้ iOS หรือ Android โปรดแตะปุ่มบวกก่อน คุณยังสามารถพูดคุยเกี่ยวกับภาพหลายภาพหรือใช้เครื่องมือวาดภาพของเราเพื่อแนะนำผู้ช่วยของคุณ
การทำความเข้าใจภาพได้รับการขับเคลื่อนโดย GPT‑3.5 และ GPT‑4 ที่รองรับหลายโหมด โมเดลเหล่านี้ใช้ทักษะการใช้เหตุผลทางภาษาในการประยุกต์กับภาพหลากหลายประเภท เช่น ภาพถ่าย ภาพหน้าจอ และเอกสารที่มีทั้งข้อความและรูปภาพ
เป้าหมายของ OpenAI คือการพัฒนา AGI ที่ปลอดภัยและก่อให้เกิดประโยชน์ เรามีความเชื่อในการทำให้เครื่องมือของเราพร้อมใช้งานอย่างค่อยเป็นค่อยไป ซึ่งช่วยให้เราสามารถปรับปรุงและปรับแต่งการลดความเสี่ยงได้เมื่อเวลาผ่านไป พร้อมทั้งเตรียมทุกคุณให้พร้อมสำหรับระบบที่มีประสิทธิภาพมากขึ้นในอนาคต กลยุทธ์นี้ยิ่งมีความสำคัญมากขึ้นเมื่อใช้กับโมเดลขั้นสูงที่เกี่ยวข้องกับเสียงและภาพ
เทคโนโลยีเสียงใหม่ที่สามารถสร้างเสียงสังเคราะห์ที่สมจริงจากการพูดจริงเพียงไม่กี่วินาที เปิดโอกาสให้กับแอปพลิเคชันที่เน้นความคิดสร้างสรรค์และการเข้าถึงได้มากมาย อย่างไรก็ตาม ความสามารถเหล่านี้ยังนำมาซึ่งความเสี่ยงใหม่ๆ เช่น ความเป็นไปได้ที่ผู้ไม่หวังดีจะแอบอ้างเป็นบุคคลสาธารณะหรือกระทำการฉ้อโกง
นี่คือเหตุผลที่เราใช้เทคโนโลยีนี้เพื่อขับเคลื่อนกรณีการใช้งานเฉพาะ—แชตเสียง แชตเสียงถูกสร้างขึ้นโดยนักพากย์ที่เราได้ทำงานร่วมกันโดยตรง เรายังร่วมมือกับผู้อื่นในลักษณะเดียวกันด้วย ตัวอย่างเช่น Spotify กำลังใช้พลังของเทคโนโลยีนี้สำหรับการทดลองใช้ฟีเจอร์การแปลเสียง(เปิดในหน้าต่างใหม่) ซึ่งช่วยให้ผู้จัดพอดแคสต์ขยายการเข้าถึงการเล่าเรื่องของตนโดยการแปลพอดแคสต์เป็นภาษาต่างๆ ในเสียงของผู้จัดพอดแคสต์เอง
โมเดลที่ใช้การมองเห็นยังนำเสนอความท้าทายใหม่ๆ ตั้งแต่การสร้างอาการหลอนเกี่ยวกับผู้คนไปจนถึงการพึ่งพาการตีความภาพของโมเดลในโดเมนที่มีความเสี่ยงสูง ก่อนการใช้งานในวงกว้าง เราได้ทดสอบโมเดลกับทีม Red Team เพื่อประเมินความเสี่ยงในโดเมนต่างๆ เช่น ลัทธิหัวรุนแรงและความเชี่ยวชาญทางวิทยาศาสตร์ รวมถึงกลุ่มผู้ทดสอบอัลฟ่าที่หลากหลาย การวิจัยของเราเปิดการใช้งานให้เราตกลงกันในรายละเอียดสำคัญบางประการเพื่อการใช้งานอย่างมีความรับผิดชอบ
เช่นเดียวกับคุณสมบัติอื่นๆ ของ ChatGPT วิสัยทัศน์คือการช่วยเหลือคุณในชีวิตประจำวัน ซึ่งทำได้ดีที่สุดเมื่อสามารถเห็นสิ่งที่คุณเห็น
แนวทางนี้ได้รับข้อมูลโดยตรงจากการทำงานของเรากับ Be My Eyes ซึ่งเป็นแอปมือถือฟรีสำหรับผู้ที่ตาบอดและผู้ที่มีสายตาเลือนราง เพื่อทำความเข้าใจการใช้งานและข้อจำกัด ผู้ใช้บอกเราว่ามีคุณค่าที่จะมีบทสนทนาทั่วไปเกี่ยวกับภาพที่บังเอิญมีคนอยู่ในพื้นหลัง เช่น เมื่อมีคนปรากฏบนทีวีขณะที่คุณพยายามปรับการตั้งค่าของรีโมทคอนโทรล
เราได้ดำเนินมาตรการทางเทคนิคเพื่อจำกัดความสามารถของ ChatGPT ในการวิเคราะห์และแสดงความคิดเห็นโดยตรงเกี่ยวกับบุคคลอย่างมาก เนื่องจาก ChatGPT ไม่ได้แม่นยำเสมอไป และระบบเหล่านี้ควรเคารพความเป็นส่วนตัวของบุคคล
การใช้งานจริงและข้อเสนอแนะจะช่วยให้เราปรับปรุงมาตรการป้องกันให้ดียิ่งขึ้น ในขณะที่ยังคงรักษาความมีประโยชน์ของเครื่องมือไว้
ผู้ใช้อาจใช้งาน ChatGPT สำหรับหัวข้อเฉพาะทาง เช่น ด้านการวิจัย เรามีความโปร่งใสเกี่ยวกับข้อจำกัดของโมเดลและไม่สนับสนุนการใช้งานในกรณีที่มีความเสี่ยงสูงโดยไม่มีการตรวจสอบที่เหมาะสม นอกจากนี้ โมเดลมีความเชี่ยวชาญในการถอดเสียงข้อความภาษาอังกฤษ แต่มีประสิทธิภาพต่ำในบางภาษาอื่นๆ โดยเฉพาะสคริปต์ที่มีอักษรที่ไม่ใช่โรมัน เราแนะนำให้ผู้ใช้ที่ไม่ใช่ภาษาอังกฤษหลีกเลี่ยงการใช้ ChatGPT เพื่อวัตถุประสงค์นี้
คุณสามารถอ่านเพิ่มเติมเกี่ยวกับแนวทางด้านความปลอดภัยของเราและการทำงานร่วมกับ Be My Eyes ได้ในคู่มือการทำงานของระบบสำหรับอินพุตภาพ
ผู้ใช้ Plus และ Enterprise จะได้สัมผัสกับเสียงและภาพในสองสัปดาห์ถัดไป เรารู้สึกตื่นเต้นที่จะเปิดตัวความสามารถเหล่านี้ให้กับกลุ่มผู้ใช้กลุ่มอื่นๆ รวมถึงนักพัฒนาในเร็วๆ นี้
ผู้เขียน
คำขอบคุณ
การวิจัยหลักเกี่ยวกับโหมดเสียง
Alec Radford, Tao Xu, Jong Wook Kim
การวิจัยหลักด้านการปรับใช้วิสัยทัศน์
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal


