ข้ามไปยังเนื้อหาหลัก
OpenAI

ขอแนะนำ gpt-realtime และอัปเดตของ Realtime API สำหรับเอเจนต์เสียงในโปรดักชัน

เรากำลังเปิดตัวโมเดลแปลงเสียงเป็นเสียงขั้นสูงและความสามารถ API ใหม่ รวมถึงการสนับสนุนเซิร์ฟเวอร์ MCP, อินพุตภาพ, และการสนับสนุนการโทรผ่าน SIP

อินเทอร์เฟซที่มีสไตล์แสดงการโต้ตอบด้วยเสียง Centered เป็นเครื่องเล่นเสียงสี่เหลี่ยมผืนผ้าโค้งมนที่มีการแสดงด้วยภาพรูปคลื่น ปุ่มเล่น/หยุดชั่วคราว สถานะ "เอเจนต์ออนไลน์" และการประทับเวลา 00:35 น. เส้นโค้งสีขาวที่มีจุดไหลผ่านภาพ ซึ่งบ่งบอกถึงการเคลื่อนไหวของเสียงสดหรือสัญญาณ พื้นหลังเป็นสีน้ำเงินสดใสพร้อมรูปดอกไม้เบลอในโทนสีชมพูและม่วง
กำลังโหลด…

วันนี้เรากำลังทำให้ Realtime API พร้อมใช้งานทั่วไปด้วยคุณสมบัติใหม่ที่เปิดการใช้งานนักพัฒนาและองค์กรสามารถสร้างเอเจนต์เสียงที่เชื่อถือได้และพร้อมสำหรับการผลิต ขณะนี้ API สนับสนุนเซิร์ฟเวอร์ MCP ระยะไกล อินพุตภาพ และการโทรผ่าน เซสชัน Initiation Protocol (SIP) ทำให้เอเจนต์เสียงมีความสามารถมากขึ้นผ่านการเข้าถึงเครื่องมือและบริบทเพิ่มเติม

เรายังเปิดตัวโมเดลแปลงเสียงเป็นเสียงที่ล้ำหน้าที่สุดของเรา—GPT‑realtime โมเดลใหม่แสดงให้เห็นถึงการปรับปรุงในการปฏิบัติตามคำแนะนำที่ซับซ้อน การเรียกใช้เครื่องมือด้วยความแม่นยำ และการสร้างคำพูดที่ฟังดูเป็นธรรมชาติและมีความแสดงออกมากขึ้น โมเดลนี้ตีความข้อความของระบบและคำเตือนของนักพัฒนาได้ดีกว่า ไม่ว่าจะเป็นการอ่านสคริปต์การปฏิเสธความรับผิดชอบแบบคำต่อคำในการโทรสนับสนุน การอ่านตัวอักษรและตัวเลขซ้ำๆ หรือการสลับระหว่างภาษาต่างๆ อย่างราบรื่นกลางประโยค นอกจากนี้ พวกเรายังเปิดตัวเสียงใหม่สองเสียง ได้แก่ Cedar และ Marin ซึ่งมีให้ใช้งานเฉพาะใน Realtime API ตั้งแต่วันนี้เป็นต้นไป

นับตั้งแต่เราเปิดตัว Realtime API ในรุ่นเบตาเมื่อเดือนตุลาคมปีที่แล้ว นักพัฒนาหลายพันรายได้ใช้ API ในการกำหนดแนวทางการปรับปรุงที่เราเปิดตัวในวันนี้ ซึ่งได้รับการปรับให้เหมาะสมในด้านความน่าเชื่อถือ เวลาตอบสนองต่ำ และคุณภาพสูง เพื่อให้สามารถปรับใช้เอเจนต์เสียงในระบบการผลิตได้สำเร็จ แตกต่างจากไปป์ไลน์แบบดั้งเดิมที่เชื่อมโยงหลายโมเดลเข้าด้วยกันสำหรับการแปลงเสียงเป็นข้อความและข้อความเป็นเสียง API แบบเรียลไทม์ประมวลผลและสร้างเสียงโดยตรงผ่านโมเดลเดียวและ API ซึ่งช่วยลดเวลาในการตอบสนอง รักษาความละเอียดอ่อนในการพูด และสร้างการตอบสนองที่เป็นธรรมชาติและแสดงออกได้มากขึ้น

โมเดลแปลงคำพูดเป็นคำพูดใหม่ใน Realtime API ของ OpenAI แสดงให้เห็นถึงการให้เหตุผลที่แข็งแกร่งขึ้นและคำพูดที่เป็นธรรมชาติมากขึ้น ทำให้สามารถจัดการกับคำขอที่ซับซ้อนและหลายขั้นตอนได้ เช่น การจำกัดรายชื่อให้แคบลงตามความต้องการด้านไลฟ์สไตล์ หรือแนะนำการอภิปรายเกี่ยวกับความสามารถในการจ่ายด้วยเครื่องมือต่างๆ เช่น คะแนน BuyAbility ของเรา สิ่งนี้อาจทำให้การค้นหาบ้านบน Zillow หรือการสำรวจตัวเลือกทางการเงินรู้สึกเป็นธรรมชาติเหมือนบทสนทนากับเพื่อน ช่วยให้การตัดสินใจ เช่น การซื้อ การขาย และการเช่าบ้าน ง่ายขึ้น

– Josh Weisberg หัวหน้าฝ่าย AI ที่ Zillow

ขอแนะนำ gpt-realtime

โมเดลแปลงเสียงเป็นเสียงใหม่—gpt-realtime—เป็นโมเดลเสียงที่ล้ำหน้าที่สุดและพร้อมใช้งานจริงของเรา เราได้ฝึกโมเดลโดยทำงานร่วมกันอย่างใกล้ชิดกับลูกค้า เพื่อให้โมเดลมีความสามารถในการทำงานในโลกแห่งความเป็นจริง เช่น การสนับสนุนลูกค้า ความช่วยเหลือส่วนบุคคล และการศึกษา โดยปรับโมเดลให้สอดคล้องกับวิธีที่นักพัฒนาสร้างและปรับใช้เอเจนต์เสียง โมเดลนี้แสดงให้เห็นถึงการปรับปรุงในด้านคุณภาพเสียง ความฉลาด การปฏิบัติตามคำสั่ง และการเรียกฟังก์ชัน

คุณภาพเสียง

บทสนทนาที่ฟังดูเป็นธรรมชาติเป็นสิ่งสำคัญสำหรับการปรับใช้เอเจนต์เสียงในโลกแห่งความเป็นจริง โมเดลจำเป็นต้องพูดด้วยน้ำเสียง อารมณ์ และจังหวะของมนุษย์เพื่อสร้างประสบการณ์ที่สนุกสนานและส่งเสริมการสนทนาอย่างต่อเนื่องกับผู้ใช้ เราได้ฝึก gpt-realtime เพื่อให้สามารถสร้างคำพูดที่มีคุณภาพสูงขึ้น ฟังดูเป็นธรรมชาติมากขึ้น และสามารถปฏิบัติตามคำแนะนำที่ละเอียดอ่อน เช่น "พูดอย่างรวดเร็วและเป็นมืออาชีพ" หรือ "พูดด้วยสำเนียงฝรั่งเศสอย่างเห็นอกเห็นใจ"

เรากำลังเปิดตัวเสียงใหม่สองเสียงใน API ได้แก่ Marin และ Cedar พร้อมการปรับปรุงที่สำคัญที่สุดสำหรับเสียงพูดที่ฟังดูเป็นธรรมชาติ นอกจากนี้ เรากำลังอัปเดตเสียงที่มีอยู่ทั้งแปดเสียงเพื่อให้ได้รับประโยชน์จากการปรับปรุงเหล่านี้

ตัวอย่างเสียง - Marin
ตัวอย่างเสียง - Cedar

สติปัญญาและความเข้าใจ

gpt-realtime แสดงสติปัญญาที่สูงขึ้นและสามารถเข้าใจเสียงต้นฉบับได้อย่างแม่นยำยิ่งขึ้น โมเดลสามารถจับสัญญาณที่ไม่ใช่คำพูด (เช่น เสียงหัวเราะ) สลับภาษากลางประโยค และปรับโทนเสียง ("ฉับไวและเป็นมืออาชีพ" เทียบกับ "ใจดีและเห็นอกเห็นใจ") จากการประเมินภายใน โมเดลนี้ยังแสดงให้เห็นประสิทธิภาพที่แม่นยำยิ่งขึ้นในการตรวจจับลำดับอักขระและตัวเลข (เช่น หมายเลขโทรศัพท์, VIN, ฯลฯ) ในภาษาอื่นๆ รวมถึง ภาษาสเปน จีน ญี่ปุ่น และฝรั่งเศส ในการวัดความสามารถในการให้เหตุผลของ Big Bench Audio GPT‑realtime ได้คะแนนความแม่นยํา 82.8% ซึ่งสูงกว่าโมเดลก่อนหน้าของเราตั้งแต่เดือนธันวาคม 2024 ซึ่งได้คะแนน 65.6%

เกณฑ์มาตรฐาน Big Bench Audio(เปิดในหน้าต่างใหม่) เป็นชุดข้อมูลสำหรับประเมินความสามารถในการให้เหตุผลของโมเดลภาษาที่สนับสนุนอินพุตด้วยเสียง ชุดข้อมูลนี้ปรับคำถามจาก Big Bench Hard ซึ่งได้รับเลือกสำหรับการทดสอบการใช้เหตุผลขั้นสูงอย่างเข้มงวดให้เป็นโดเมนเสียง

การปฏิบัติตามคำสั่ง

เมื่อสร้างแอปพลิเคชันแปลงเสียงเป็นเสียง นักพัฒนาจะให้ชุดคำสั่งแก่โมเดลเกี่ยวกับวิธีการทำงาน รวมถึงวิธีการพูด สิ่งที่ควรพูดในสถานการณ์หนึ่ง และสิ่งที่ควรทำหรือไม่ควรทำ เราได้มุ่งเน้นการปรับปรุงให้ปฏิบัติตามคำแนะนำเหล่านี้อย่างเคร่งครัด เพื่อให้แม้แต่คำแนะนำเล็กๆ น้อยๆ ก็สามารถส่งสัญญาณที่ชัดเจนยิ่งขึ้นไปยังโมเดล ในการทดสอบประสิทธิภาพเสียงของ MultiChallenge ที่วัดความแม่นยำในการปฏิบัติตามคำแนะนำ gpt-realtime ได้คะแนน 30.5% ซึ่งเป็นการปรับปรุงที่สำคัญจากโมเดลก่อนหน้าของเราในเดือนธันวาคม 2024 ที่ได้คะแนน 20.6%

MultiChallenge(เปิดในหน้าต่างใหม่) ประเมินว่า LLMs จัดการบทสนทนาหลายรอบกับมนุษย์ได้ดีเพียงใด โดยมุ่งเน้นไปที่ความท้าทายที่เป็นจริงสี่ประเภทที่โมเดลชายแดนในปัจจุบันต้องดิ้นรน ความท้าทายเหล่านี้ต้องการให้โมเดลผสานการปฏิบัติตามคำสั่ง การจัดการบริบท และการให้เหตุผลในบริบทเข้าด้วยกันในเวลาเดียวกัน เราได้แปลงชุดย่อยของคำถามทดสอบที่เหมาะกับเสียงจากข้อความเป็นเสียงพูดเพื่อสร้างเวอร์ชันเสียงของการประเมินนี้

การเรียกฟังก์ชัน

ในการสร้างเอเจนต์เสียงที่มีประสิทธิภาพด้วยโมเดลแปลงเสียงเป็นเสียง โมเดลจำเป็นต้องสามารถเรียกใช้เครื่องมือที่ถูกต้องในเวลาที่เหมาะสมเพื่อให้มีประโยชน์ในการผลิต เราได้ปรับปรุงการเรียกฟังก์ชันในสามด้าน: การเรียกฟังก์ชันที่เกี่ยวข้อง การเรียกฟังก์ชันในเวลาที่เหมาะสม และการเรียกฟังก์ชันด้วยอาร์กิวเมนต์ที่เหมาะสม (ส่งผลให้มีความแม่นยำสูงขึ้น) ในการประเมินเสียงของ ComplexFuncBench ที่วัดประสิทธิภาพการเรียกใช้ฟังก์ชัน gpt-realtime ได้คะแนน 66.5% ในขณะที่โมเดลก่อนหน้าของเราจากเดือนธันวาคม 2024 ได้คะแนน 49.7%

นอกจากนี้ พวกเรายังได้ทำการปรับปรุงการเรียกฟังก์ชันแบบอะซิงโครนัส(เปิดในหน้าต่างใหม่) การเรียกใช้ฟังก์ชันที่ทํางานเป็นเวลานานจะไม่ขัดขวางการไหลของเซสชันอีกต่อไป ฟีเจอร์นี้พร้อมใช้งานใน gpt-realtime โดยตรง ดังนั้นนักพัฒนาจึงไม่จำเป็นต้องอัปเดตโค้ด

ComplexFuncBench(เปิดในหน้าต่างใหม่) วัดผลว่าโมเดลจัดการกับงานการเรียกฟังก์ชันที่ท้าทายได้ดีเพียงใด โดยประเมินประสิทธิภาพในสถานการณ์ต่างๆ เช่น การเรียกหลายขั้นตอน การให้เหตุผลเกี่ยวกับข้อจำกัดหรือพารามิเตอร์โดยนัย และการจัดการอินพุตที่ยาวมาก เราได้แปลงคำสั่งต้นฉบับเป็นเสียงเพื่อสร้างการประเมินนี้สำหรับโมเดลของเรา

ใหม่ใน Realtime API

การสนับสนุนเซิร์ฟเวอร์ MCP ระยะไกล

คุณสามารถเปิดการใช้งานการสนับสนุน MCP ในเซสชัน Realtime API โดยการส่ง URL ของเซิร์ฟเวอร์ MCP ระยะไกลไปยังการกำหนดค่าเซสชัน เมื่อเชื่อมต่อแล้ว API จะจัดการการเรียกใช้เครื่องมือให้คุณโดยอัตโนมัติ ดังนั้นจึงไม่จำเป็นต้องเชื่อมต่อการผสานรวมด้วยตนเอง

การตั้งค่านี้ทำให้ง่ายต่อการขยายเอเจนต์ของคุณด้วยความสามารถใหม่ๆ เพียงชี้เซสชันไปยังเซิร์ฟเวอร์ MCP อื่น และเครื่องมือเหล่านั้นจะพร้อมใช้งานทันที หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการกำหนดค่า MCP ด้วย Realtime โปรดดู คู่มือนี้(เปิดในหน้าต่างใหม่)

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

อินพุตภาพ

ด้วยการรองรับอินพุตภาพใน gpt-realtime แล้ว คุณสามารถเพิ่มภาพ ภาพถ่าย และภาพหน้าจอควบคู่ไปกับเสียงหรือข้อความในเซสชัน Realtime API ตอนนี้โมเดลสามารถเชื่อมโยงบทสนทนากับสิ่งที่ผู้ใช้เห็นจริงๆ ทำให้ผู้ใช้สามารถถามคำถามเช่น “คุณเห็นอะไร” หรือ “อ่านข้อความในภาพหน้าจอนี้”

แทนที่จะมองว่าภาพเป็นสตรีมวิดีโอสด ระบบจะถือว่าภาพเป็นการเพิ่มภาพถ่ายลงในบทสนทนามากกว่า แอปของคุณสามารถตัดสินใจได้ว่าจะส่งภาพใดให้กับโมเดลและจะส่งเมื่อใด ด้วยวิธีนี้ คุณสามารถควบคุมสิ่งที่โมเดลเห็นและเวลาที่โมเดลตอบสนอง

โปรดดู เอกสาร(เปิดในหน้าต่างใหม่) ของเราเพื่อเริ่มต้นใช้งานการป้อนข้อมูลภาพ

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

ขีดความสามารถเพิ่มเติม

เราได้เพิ่มคุณสมบัติอื่นๆ อีกหลายอย่างเพื่อทำให้ Realtime API ผสานรวมได้ง่ายขึ้นและมีความยืดหยุ่นมากขึ้นสำหรับการใช้งานในสภาพแวดล้อมการผลิต

ความปลอดภัยและความเป็นส่วนตัว

Realtime API มีการรวมชั้นการป้องกันและการบรรเทาหลายชั้นเพื่อช่วยป้องกันการใช้งานในทางที่ผิด คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับแนวทางการรักษาความปลอดภัยและรายละเอียดบัตรระบบของเราได้ใน บล็อกประกาศเบต้า เราใช้ตัวแยกประเภทที่ทำงานในเซสชัน Realtime API แบบเรียลไทม์ ซึ่งหมายความว่าการสนทนาบางอย่างอาจถูกระงับ หากตรวจพบว่าละเมิดหลักเกณฑ์เนื้อหาที่เป็นอันตรายของเรา นักพัฒนาสามารถเพิ่มการป้องกันความปลอดภัยของตนมากขึ้นอย่างง่ายดายโดยใช้ Agents SDK(เปิดในหน้าต่างใหม่)

นโยบายการใช้งาน ของเราห้ามมิให้มีการนำผลลัพธ์จากบริการของเราไปใช้ซ้ำหรือแจกจ่ายเพื่อวัตถุประสงค์ในการสแปม การหลอกลวง หรือวัตถุประสงค์ที่เป็นอันตรายอื่นๆ นอกจากนี้ นักพัฒนาต้องทำให้ผู้ใช้ปลายทางเข้าใจอย่างชัดเจนเมื่อพวกเขากำลังโต้ตอบกับ AI เว้นแต่ว่าจะชัดเจนอยู่แล้วจากบริบท API Realtime ใช้เสียงที่ตั้งไว้ล่วงหน้าเพื่อช่วยป้องกันไม่ให้ผู้ไม่หวังดีแอบอ้างเป็นผู้อื่น

Realtime API รองรับ EU Data Residency(เปิดในหน้าต่างใหม่) เต็มรูปแบบสำหรับแอปพลิเคชันที่อยู่ในสหภาพยุโรป และครอบคลุมอยู่ภายใต้ ข้อผูกพันด้านความเป็นส่วนตัวขององค์กร ของเรา

ราคาและความพร้อมใช้งาน

Realtime API ที่พร้อมใช้งานโดยทั่วไปและโมเดลใหม่ gpt-realtime พร้อมให้บริการสำหรับนักพัฒนาทุกคนตั้งแต่วันนี้เป็นต้นไป เรากำลังลดราคาสำหรับ gpt-realtime ลง 20% เมื่อเทียบกับ gpt-4o-realtime-preview—$32 / 1 ล้านโทเค็นอินพุต ($0.40 สำหรับโทเค็นอินพุตที่แคชไว้) และ $64 / 1 ล้านโทเค็นเอาต์พุต (ดู ราคาโดยละเอียด(เปิดในหน้าต่างใหม่)) นอกจากนี้ เราได้เพิ่มการควบคุมที่ละเอียดสำหรับบริบทการสนทนา เพื่อให้นักพัฒนาสามารถกำหนดขีดจำกัด token อัจฉริยะและตัดทอนหลายรอบในคราวเดียว ซึ่งช่วยลดต้นทุนสำหรับเซสชันที่ยาวนานได้อย่างมาก

การรับชมไลฟ์สตรีมย้อนหลัง

ผู้เขียน

OpenAI