
วันนี้เรากำลังทำให้ Realtime API พร้อมใช้งานทั่วไปด้วยคุณสมบัติใหม่ที่เปิดการใช้งานนักพัฒนาและองค์กรสามารถสร้างเอเจนต์เสียงที่เชื่อถือได้และพร้อมสำหรับการผลิต ขณะนี้ API สนับสนุนเซิร์ฟเวอร์ MCP ระยะไกล อินพุตภาพ และการโทรผ่าน เซสชัน Initiation Protocol (SIP) ทำให้เอเจนต์เสียงมีความสามารถมากขึ้นผ่านการเข้าถึงเครื่องมือและบริบทเพิ่มเติม
เรายังเปิดตัวโมเดลแปลงเสียงเป็นเสียงที่ล้ำหน้าที่สุดของเรา—GPT‑realtime โมเดลใหม่แสดงให้เห็นถึงการปรับปรุงในการปฏิบัติตามคำแนะนำที่ซับซ้อน การเรียกใช้เครื่องมือด้วยความแม่นยำ และการสร้างคำพูดที่ฟังดูเป็นธรรมชาติและมีความแสดงออกมากขึ้น โมเดลนี้ตีความข้อความของระบบและคำเตือนของนักพัฒนาได้ดีกว่า ไม่ว่าจะเป็นการอ่านสคริปต์การปฏิเสธความรับผิดชอบแบบคำต่อคำในการโทรสนับสนุน การอ่านตัวอักษรและตัวเลขซ้ำๆ หรือการสลับระหว่างภาษาต่างๆ อย่างราบรื่นกลางประโยค นอกจากนี้ พวกเรายังเปิดตัวเสียงใหม่สองเสียง ได้แก่ Cedar และ Marin ซึ่งมีให้ใช้งานเฉพาะใน Realtime API ตั้งแต่วันนี้เป็นต้นไป
นับตั้งแต่เราเปิดตัว Realtime API ในรุ่นเบตาเมื่อเดือนตุลาคมปีที่แล้ว นักพัฒนาหลายพันรายได้ใช้ API ในการกำหนดแนวทางการปรับปรุงที่เราเปิดตัวในวันนี้ ซึ่งได้รับการปรับให้เหมาะสมในด้านความน่าเชื่อถือ เวลาตอบสนองต่ำ และคุณภาพสูง เพื่อให้สามารถปรับใช้เอเจนต์เสียงในระบบการผลิตได้สำเร็จ แตกต่างจากไปป์ไลน์แบบดั้งเดิมที่เชื่อมโยงหลายโมเดลเข้าด้วยกันสำหรับการแปลงเสียงเป็นข้อความและข้อความเป็นเสียง API แบบเรียลไทม์ประมวลผลและสร้างเสียงโดยตรงผ่านโมเดลเดียวและ API ซึ่งช่วยลดเวลาในการตอบสนอง รักษาความละเอียดอ่อนในการพูด และสร้างการตอบสนองที่เป็นธรรมชาติและแสดงออกได้มากขึ้น
โมเดลแปลงคำพูดเป็นคำพูดใหม่ใน Realtime API ของ OpenAI แสดงให้เห็นถึงการให้เหตุผลที่แข็งแกร่งขึ้นและคำพูดที่เป็นธรรมชาติมากขึ้น ทำให้สามารถจัดการกับคำขอที่ซับซ้อนและหลายขั้นตอนได้ เช่น การจำกัดรายชื่อให้แคบลงตามความต้องการด้านไลฟ์สไตล์ หรือแนะนำการอภิปรายเกี่ยวกับความสามารถในการจ่ายด้วยเครื่องมือต่างๆ เช่น คะแนน BuyAbility ของเรา สิ่งนี้อาจทำให้การค้นหาบ้านบน Zillow หรือการสำรวจตัวเลือกทางการเงินรู้สึกเป็นธรรมชาติเหมือนบทสนทนากับเพื่อน ช่วยให้การตัดสินใจ เช่น การซื้อ การขาย และการเช่าบ้าน ง่ายขึ้น
– Josh Weisberg หัวหน้าฝ่าย AI ที่ Zillow
โมเดลแปลงเสียงเป็นเสียงใหม่—gpt-realtime—เป็นโมเดลเสียงที่ล้ำหน้าที่สุดและพร้อมใช้งานจริงของเรา เราได้ฝึกโมเดลโดยทำงานร่วมกันอย่างใกล้ชิดกับลูกค้า เพื่อให้โมเดลมีความสามารถในการทำงานในโลกแห่งความเป็นจริง เช่น การสนับสนุนลูกค้า ความช่วยเหลือส่วนบุคคล และการศึกษา โดยปรับโมเดลให้สอดคล้องกับวิธีที่นักพัฒนาสร้างและปรับใช้เอเจนต์เสียง โมเดลนี้แสดงให้เห็นถึงการปรับปรุงในด้านคุณภาพเสียง ความฉลาด การปฏิบัติตามคำสั่ง และการเรียกฟังก์ชัน
บทสนทนาที่ฟังดูเป็นธรรมชาติเป็นสิ่งสำคัญสำหรับการปรับใช้เอเจนต์เสียงในโลกแห่งความเป็นจริง โมเดลจำเป็นต้องพูดด้วยน้ำเสียง อารมณ์ และจังหวะของมนุษย์เพื่อสร้างประสบการณ์ที่สนุกสนานและส่งเสริมการสนทนาอย่างต่อเนื่องกับผู้ใช้ เราได้ฝึก gpt-realtime เพื่อให้สามารถสร้างคำพูดที่มีคุณภาพสูงขึ้น ฟังดูเป็นธรรมชาติมากขึ้น และสามารถปฏิบัติตามคำแนะนำที่ละเอียดอ่อน เช่น "พูดอย่างรวดเร็วและเป็นมืออาชีพ" หรือ "พูดด้วยสำเนียงฝรั่งเศสอย่างเห็นอกเห็นใจ"
เรากำลังเปิดตัวเสียงใหม่สองเสียงใน API ได้แก่ Marin และ Cedar พร้อมการปรับปรุงที่สำคัญที่สุดสำหรับเสียงพูดที่ฟังดูเป็นธรรมชาติ นอกจากนี้ เรากำลังอัปเดตเสียงที่มีอยู่ทั้งแปดเสียงเพื่อให้ได้รับประโยชน์จากการปรับปรุงเหล่านี้
gpt-realtime แสดงสติปัญญาที่สูงขึ้นและสามารถเข้าใจเสียงต้นฉบับได้อย่างแม่นยำยิ่งขึ้น โมเดลสามารถจับสัญญาณที่ไม่ใช่คำพูด (เช่น เสียงหัวเราะ) สลับภาษากลางประโยค และปรับโทนเสียง ("ฉับไวและเป็นมืออาชีพ" เทียบกับ "ใจดีและเห็นอกเห็นใจ") จากการประเมินภายใน โมเดลนี้ยังแสดงให้เห็นประสิทธิภาพที่แม่นยำยิ่งขึ้นในการตรวจจับลำดับอักขระและตัวเลข (เช่น หมายเลขโทรศัพท์, VIN, ฯลฯ) ในภาษาอื่นๆ รวมถึง ภาษาสเปน จีน ญี่ปุ่น และฝรั่งเศส ในการวัดความสามารถในการให้เหตุผลของ Big Bench Audio GPT‑realtime ได้คะแนนความแม่นยํา 82.8% ซึ่งสูงกว่าโมเดลก่อนหน้าของเราตั้งแต่เดือนธันวาคม 2024 ซึ่งได้คะแนน 65.6%
เกณฑ์มาตรฐาน Big Bench Audio(เปิดในหน้าต่างใหม่) เป็นชุดข้อมูลสำหรับประเมินความสามารถในการให้เหตุผลของโมเดลภาษาที่สนับสนุนอินพุตด้วยเสียง ชุดข้อมูลนี้ปรับคำถามจาก Big Bench Hard ซึ่งได้รับเลือกสำหรับการทดสอบการใช้เหตุผลขั้นสูงอย่างเข้มงวดให้เป็นโดเมนเสียง
เมื่อสร้างแอปพลิเคชันแปลงเสียงเป็นเสียง นักพัฒนาจะให้ชุดคำสั่งแก่โมเดลเกี่ยวกับวิธีการทำงาน รวมถึงวิธีการพูด สิ่งที่ควรพูดในสถานการณ์หนึ่ง และสิ่งที่ควรทำหรือไม่ควรทำ เราได้มุ่งเน้นการปรับปรุงให้ปฏิบัติตามคำแนะนำเหล่านี้อย่างเคร่งครัด เพื่อให้แม้แต่คำแนะนำเล็กๆ น้อยๆ ก็สามารถส่งสัญญาณที่ชัดเจนยิ่งขึ้นไปยังโมเดล ในการทดสอบประสิทธิภาพเสียงของ MultiChallenge ที่วัดความแม่นยำในการปฏิบัติตามคำแนะนำ gpt-realtime ได้คะแนน 30.5% ซึ่งเป็นการปรับปรุงที่สำคัญจากโมเดลก่อนหน้าของเราในเดือนธันวาคม 2024 ที่ได้คะแนน 20.6%
MultiChallenge(เปิดในหน้าต่างใหม่) ประเมินว่า LLMs จัดการบทสนทนาหลายรอบกับมนุษย์ได้ดีเพียงใด โดยมุ่งเน้นไปที่ความท้าทายที่เป็นจริงสี่ประเภทที่โมเดลชายแดนในปัจจุบันต้องดิ้นรน ความท้าทายเหล่านี้ต้องการให้โมเดลผสานการปฏิบัติตามคำสั่ง การจัดการบริบท และการให้เหตุผลในบริบทเข้าด้วยกันในเวลาเดียวกัน เราได้แปลงชุดย่อยของคำถามทดสอบที่เหมาะกับเสียงจากข้อความเป็นเสียงพูดเพื่อสร้างเวอร์ชันเสียงของการประเมินนี้
ในการสร้างเอเจนต์เสียงที่มีประสิทธิภาพด้วยโมเดลแปลงเสียงเป็นเสียง โมเดลจำเป็นต้องสามารถเรียกใช้เครื่องมือที่ถูกต้องในเวลาที่เหมาะสมเพื่อให้มีประโยชน์ในการผลิต เราได้ปรับปรุงการเรียกฟังก์ชันในสามด้าน: การเรียกฟังก์ชันที่เกี่ยวข้อง การเรียกฟังก์ชันในเวลาที่เหมาะสม และการเรียกฟังก์ชันด้วยอาร์กิวเมนต์ที่เหมาะสม (ส่งผลให้มีความแม่นยำสูงขึ้น) ในการประเมินเสียงของ ComplexFuncBench ที่วัดประสิทธิภาพการเรียกใช้ฟังก์ชัน gpt-realtime ได้คะแนน 66.5% ในขณะที่โมเดลก่อนหน้าของเราจากเดือนธันวาคม 2024 ได้คะแนน 49.7%
นอกจากนี้ พวกเรายังได้ทำการปรับปรุงการเรียกฟังก์ชันแบบอะซิงโครนัส(เปิดในหน้าต่างใหม่) การเรียกใช้ฟังก์ชันที่ทํางานเป็นเวลานานจะไม่ขัดขวางการไหลของเซสชันอีกต่อไป ฟีเจอร์นี้พร้อมใช้งานใน gpt-realtime โดยตรง ดังนั้นนักพัฒนาจึงไม่จำเป็นต้องอัปเดตโค้ด
ComplexFuncBench(เปิดในหน้าต่างใหม่) วัดผลว่าโมเดลจัดการกับงานการเรียกฟังก์ชันที่ท้าทายได้ดีเพียงใด โดยประเมินประสิทธิภาพในสถานการณ์ต่างๆ เช่น การเรียกหลายขั้นตอน การให้เหตุผลเกี่ยวกับข้อจำกัดหรือพารามิเตอร์โดยนัย และการจัดการอินพุตที่ยาวมาก เราได้แปลงคำสั่งต้นฉบับเป็นเสียงเพื่อสร้างการประเมินนี้สำหรับโมเดลของเรา
คุณสามารถเปิดการใช้งานการสนับสนุน MCP ในเซสชัน Realtime API โดยการส่ง URL ของเซิร์ฟเวอร์ MCP ระยะไกลไปยังการกำหนดค่าเซสชัน เมื่อเชื่อมต่อแล้ว API จะจัดการการเรียกใช้เครื่องมือให้คุณโดยอัตโนมัติ ดังนั้นจึงไม่จำเป็นต้องเชื่อมต่อการผสานรวมด้วยตนเอง
การตั้งค่านี้ทำให้ง่ายต่อการขยายเอเจนต์ของคุณด้วยความสามารถใหม่ๆ เพียงชี้เซสชันไปยังเซิร์ฟเวอร์ MCP อื่น และเครื่องมือเหล่านั้นจะพร้อมใช้งานทันที หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการกำหนดค่า MCP ด้วย Realtime โปรดดู คู่มือนี้(เปิดในหน้าต่างใหม่)
ด้วยการรองรับอินพุตภาพใน gpt-realtime แล้ว คุณสามารถเพิ่มภาพ ภาพถ่าย และภาพหน้าจอควบคู่ไปกับเสียงหรือข้อความในเซสชัน Realtime API ตอนนี้โมเดลสามารถเชื่อมโยงบทสนทนากับสิ่งที่ผู้ใช้เห็นจริงๆ ทำให้ผู้ใช้สามารถถามคำถามเช่น “คุณเห็นอะไร” หรือ “อ่านข้อความในภาพหน้าจอนี้”
แทนที่จะมองว่าภาพเป็นสตรีมวิดีโอสด ระบบจะถือว่าภาพเป็นการเพิ่มภาพถ่ายลงในบทสนทนามากกว่า แอปของคุณสามารถตัดสินใจได้ว่าจะส่งภาพใดให้กับโมเดลและจะส่งเมื่อใด ด้วยวิธีนี้ คุณสามารถควบคุมสิ่งที่โมเดลเห็นและเวลาที่โมเดลตอบสนอง
โปรดดู เอกสาร(เปิดในหน้าต่างใหม่) ของเราเพื่อเริ่มต้นใช้งานการป้อนข้อมูลภาพ
เราได้เพิ่มคุณสมบัติอื่นๆ อีกหลายอย่างเพื่อทำให้ Realtime API ผสานรวมได้ง่ายขึ้นและมีความยืดหยุ่นมากขึ้นสำหรับการใช้งานในสภาพแวดล้อมการผลิต
- การรองรับ Session Initiation Protocol (SIP): เชื่อมต่อแอปพลิเคชันของท่านกับเครือข่ายโทรศัพท์สาธารณะ ระบบ PBX โทรศัพท์ตั้งโต๊ะ และจุดสิ้นสุด SIP อื่นๆ ด้วยการรองรับโดยตรงใน Realtime API อ่านเกี่ยวกับเรื่องนี้ในเอกสาร(เปิดในหน้าต่างใหม่)
- คำสั่งที่สามารถนำกลับมาใช้ใหม่ได้: ขณะนี้คุณสามารถบันทึกและนำคำสั่งกลับมาใช้ใหม่ได้ ซึ่งประกอบด้วยข้อความของนักพัฒนา เครื่องมือ ตัวแปร และตัวอย่างข้อความของผู้ใช้/ผู้ช่วย ในเซสชัน Realtime API เช่นเดียวกับใน Responses API เรียนรู้เพิ่มเติมในเอกสาร(เปิดในหน้าต่างใหม่)
Realtime API มีการรวมชั้นการป้องกันและการบรรเทาหลายชั้นเพื่อช่วยป้องกันการใช้งานในทางที่ผิด คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับแนวทางการรักษาความปลอดภัยและรายละเอียดบัตรระบบของเราได้ใน บล็อกประกาศเบต้า เราใช้ตัวแยกประเภทที่ทำงานในเซสชัน Realtime API แบบเรียลไทม์ ซึ่งหมายความว่าการสนทนาบางอย่างอาจถูกระงับ หากตรวจพบว่าละเมิดหลักเกณฑ์เนื้อหาที่เป็นอันตรายของเรา นักพัฒนาสามารถเพิ่มการป้องกันความปลอดภัยของตนมากขึ้นอย่างง่ายดายโดยใช้ Agents SDK(เปิดในหน้าต่างใหม่)
นโยบายการใช้งาน ของเราห้ามมิให้มีการนำผลลัพธ์จากบริการของเราไปใช้ซ้ำหรือแจกจ่ายเพื่อวัตถุประสงค์ในการสแปม การหลอกลวง หรือวัตถุประสงค์ที่เป็นอันตรายอื่นๆ นอกจากนี้ นักพัฒนาต้องทำให้ผู้ใช้ปลายทางเข้าใจอย่างชัดเจนเมื่อพวกเขากำลังโต้ตอบกับ AI เว้นแต่ว่าจะชัดเจนอยู่แล้วจากบริบท API Realtime ใช้เสียงที่ตั้งไว้ล่วงหน้าเพื่อช่วยป้องกันไม่ให้ผู้ไม่หวังดีแอบอ้างเป็นผู้อื่น
Realtime API รองรับ EU Data Residency(เปิดในหน้าต่างใหม่) เต็มรูปแบบสำหรับแอปพลิเคชันที่อยู่ในสหภาพยุโรป และครอบคลุมอยู่ภายใต้ ข้อผูกพันด้านความเป็นส่วนตัวขององค์กร ของเรา
Realtime API ที่พร้อมใช้งานโดยทั่วไปและโมเดลใหม่ gpt-realtime พร้อมให้บริการสำหรับนักพัฒนาทุกคนตั้งแต่วันนี้เป็นต้นไป เรากำลังลดราคาสำหรับ gpt-realtime ลง 20% เมื่อเทียบกับ gpt-4o-realtime-preview—$32 / 1 ล้านโทเค็นอินพุต ($0.40 สำหรับโทเค็นอินพุตที่แคชไว้) และ $64 / 1 ล้านโทเค็นเอาต์พุต (ดู ราคาโดยละเอียด(เปิดในหน้าต่างใหม่)) นอกจากนี้ เราได้เพิ่มการควบคุมที่ละเอียดสำหรับบริบทการสนทนา เพื่อให้นักพัฒนาสามารถกำหนดขีดจำกัด token อัจฉริยะและตัดทอนหลายรอบในคราวเดียว ซึ่งช่วยลดต้นทุนสำหรับเซสชันที่ยาวนานได้อย่างมาก
ในการเริ่มต้น กรุณาไปที่ เอกสาร Realtime API(เปิดในหน้าต่างใหม่) ของเรา ทดสอบโมเดลใหม่ใน Playground(เปิดในหน้าต่างใหม่) และดู คู่มือการใช้งาน Realtime API(เปิดในหน้าต่างใหม่) ของเรา


