28 สิงหาคม 2568

ขอแนะนำ gpt-realtime และอัปเดตของ Realtime API สำหรับเอเจนต์เสียงในโปรดักชัน

เรากำลังเปิดตัวโมเดลแปลงเสียงเป็นเสียงขั้นสูงและความสามารถ API ใหม่ รวมถึงการสนับสนุนเซิร์ฟเวอร์ MCP, อินพุตภาพ, และการสนับสนุนการโทรผ่าน SIP

อินเทอร์เฟซที่มีสไตล์แสดงการโต้ตอบด้วยเสียง Centered เป็นเครื่องเล่นเสียงสี่เหลี่ยมผืนผ้าโค้งมนที่มีการแสดงด้วยภาพรูปคลื่น ปุ่มเล่น/หยุดชั่วคราว สถานะ "เอเจนต์ออนไลน์" และการประทับเวลา 00:35 น. เส้นโค้งสีขาวที่มีจุดไหลผ่านภาพ ซึ่งบ่งบอกถึงการเคลื่อนไหวของเสียงสดหรือสัญญาณ พื้นหลังเป็นสีน้ำเงินสดใสพร้อมรูปดอกไม้เบลอในโทนสีชมพูและม่วง

กำลังโหลด…

วันนี้เรากำลังทำให้ Realtime API พร้อมใช้งานทั่วไปด้วยคุณสมบัติใหม่ที่เปิดการใช้งานนักพัฒนาและองค์กรสามารถสร้างเอเจนต์เสียงที่เชื่อถือได้และพร้อมสำหรับการผลิต ขณะนี้ API สนับสนุนเซิร์ฟเวอร์ MCP ระยะไกล อินพุตภาพ และการโทรผ่าน เซสชัน Initiation Protocol (SIP) ทำให้เอเจนต์เสียงมีความสามารถมากขึ้นผ่านการเข้าถึงเครื่องมือและบริบทเพิ่มเติม

เรายังเปิดตัวโมเดลแปลงเสียงเป็นเสียงที่ล้ำหน้าที่สุดของเรา—GPT‑realtime โมเดลใหม่แสดงให้เห็นถึงการปรับปรุงในการปฏิบัติตามคำแนะนำที่ซับซ้อน การเรียกใช้เครื่องมือด้วยความแม่นยำ และการสร้างคำพูดที่ฟังดูเป็นธรรมชาติและมีความแสดงออกมากขึ้น โมเดลนี้ตีความข้อความของระบบและคำเตือนของนักพัฒนาได้ดีกว่า ไม่ว่าจะเป็นการอ่านสคริปต์การปฏิเสธความรับผิดชอบแบบคำต่อคำในการโทรสนับสนุน การอ่านตัวอักษรและตัวเลขซ้ำๆ หรือการสลับระหว่างภาษาต่างๆ อย่างราบรื่นกลางประโยค นอกจากนี้ พวกเรายังเปิดตัวเสียงใหม่สองเสียง ได้แก่ Cedar และ Marin ซึ่งมีให้ใช้งานเฉพาะใน Realtime API ตั้งแต่วันนี้เป็นต้นไป

นับตั้งแต่เราเปิดตัว Realtime API ในรุ่นเบตาเมื่อเดือนตุลาคมปีที่แล้ว นักพัฒนาหลายพันรายได้ใช้ API ในการกำหนดแนวทางการปรับปรุงที่เราเปิดตัวในวันนี้ ซึ่งได้รับการปรับให้เหมาะสมในด้านความน่าเชื่อถือ เวลาตอบสนองต่ำ และคุณภาพสูง เพื่อให้สามารถปรับใช้เอเจนต์เสียงในระบบการผลิตได้สำเร็จ แตกต่างจากไปป์ไลน์แบบดั้งเดิมที่เชื่อมโยงหลายโมเดลเข้าด้วยกันสำหรับการแปลงเสียงเป็นข้อความและข้อความเป็นเสียง API แบบเรียลไทม์ประมวลผลและสร้างเสียงโดยตรงผ่านโมเดลเดียวและ API ซึ่งช่วยลดเวลาในการตอบสนอง รักษาความละเอียดอ่อนในการพูด และสร้างการตอบสนองที่เป็นธรรมชาติและแสดงออกได้มากขึ้น

โมเดลแปลงคำพูดเป็นคำพูดใหม่ใน Realtime API ของ OpenAI แสดงให้เห็นถึงการให้เหตุผลที่แข็งแกร่งขึ้นและคำพูดที่เป็นธรรมชาติมากขึ้น ทำให้สามารถจัดการกับคำขอที่ซับซ้อนและหลายขั้นตอนได้ เช่น การจำกัดรายชื่อให้แคบลงตามความต้องการด้านไลฟ์สไตล์ หรือแนะนำการอภิปรายเกี่ยวกับความสามารถในการจ่ายด้วยเครื่องมือต่างๆ เช่น คะแนน BuyAbility ของเรา สิ่งนี้อาจทำให้การค้นหาบ้านบน Zillow หรือการสำรวจตัวเลือกทางการเงินรู้สึกเป็นธรรมชาติเหมือนบทสนทนากับเพื่อน ช่วยให้การตัดสินใจ เช่น การซื้อ การขาย และการเช่าบ้าน ง่ายขึ้น

– Josh Weisberg หัวหน้าฝ่าย AI ที่ Zillow

ขอแนะนำ gpt-realtime

โมเดลแปลงเสียงเป็นเสียงใหม่—gpt-realtime—เป็นโมเดลเสียงที่ล้ำหน้าที่สุดและพร้อมใช้งานจริงของเรา เราได้ฝึกโมเดลโดยทำงานร่วมกันอย่างใกล้ชิดกับลูกค้า เพื่อให้โมเดลมีความสามารถในการทำงานในโลกแห่งความเป็นจริง เช่น การสนับสนุนลูกค้า ความช่วยเหลือส่วนบุคคล และการศึกษา โดยปรับโมเดลให้สอดคล้องกับวิธีที่นักพัฒนาสร้างและปรับใช้เอเจนต์เสียง โมเดลนี้แสดงให้เห็นถึงการปรับปรุงในด้านคุณภาพเสียง ความฉลาด การปฏิบัติตามคำสั่ง และการเรียกฟังก์ชัน

คุณภาพเสียง

บทสนทนาที่ฟังดูเป็นธรรมชาติเป็นสิ่งสำคัญสำหรับการปรับใช้เอเจนต์เสียงในโลกแห่งความเป็นจริง โมเดลจำเป็นต้องพูดด้วยน้ำเสียง อารมณ์ และจังหวะของมนุษย์เพื่อสร้างประสบการณ์ที่สนุกสนานและส่งเสริมการสนทนาอย่างต่อเนื่องกับผู้ใช้ เราได้ฝึก gpt-realtime เพื่อให้สามารถสร้างคำพูดที่มีคุณภาพสูงขึ้น ฟังดูเป็นธรรมชาติมากขึ้น และสามารถปฏิบัติตามคำแนะนำที่ละเอียดอ่อน เช่น "พูดอย่างรวดเร็วและเป็นมืออาชีพ" หรือ "พูดด้วยสำเนียงฝรั่งเศสอย่างเห็นอกเห็นใจ"

เรากำลังเปิดตัวเสียงใหม่สองเสียงใน API ได้แก่ Marin และ Cedar พร้อมการปรับปรุงที่สำคัญที่สุดสำหรับเสียงพูดที่ฟังดูเป็นธรรมชาติ นอกจากนี้ เรากำลังอัปเดตเสียงที่มีอยู่ทั้งแปดเสียงเพื่อให้ได้รับประโยชน์จากการปรับปรุงเหล่านี้

ตัวอย่างเสียง - Marin

ตัวอย่างเสียง - Cedar

สติปัญญาและความเข้าใจ

gpt-realtime แสดงสติปัญญาที่สูงขึ้นและสามารถเข้าใจเสียงต้นฉบับได้อย่างแม่นยำยิ่งขึ้น โมเดลสามารถจับสัญญาณที่ไม่ใช่คำพูด (เช่น เสียงหัวเราะ) สลับภาษากลางประโยค และปรับโทนเสียง ("ฉับไวและเป็นมืออาชีพ" เทียบกับ "ใจดีและเห็นอกเห็นใจ") จากการประเมินภายใน โมเดลนี้ยังแสดงให้เห็นประสิทธิภาพที่แม่นยำยิ่งขึ้นในการตรวจจับลำดับอักขระและตัวเลข (เช่น หมายเลขโทรศัพท์, VIN, ฯลฯ) ในภาษาอื่นๆ รวมถึง ภาษาสเปน จีน ญี่ปุ่น และฝรั่งเศส ในการวัดความสามารถในการให้เหตุผลของ Big Bench Audio GPT‑realtime ได้คะแนนความแม่นยํา 82.8% ซึ่งสูงกว่าโมเดลก่อนหน้าของเราตั้งแต่เดือนธันวาคม 2024 ซึ่งได้คะแนน 65.6%

เกณฑ์มาตรฐาน Big Bench Audio⁠(เปิดในหน้าต่างใหม่) เป็นชุดข้อมูลสำหรับประเมินความสามารถในการให้เหตุผลของโมเดลภาษาที่สนับสนุนอินพุตด้วยเสียง ชุดข้อมูลนี้ปรับคำถามจาก Big Bench Hard ซึ่งได้รับเลือกสำหรับการทดสอบการใช้เหตุผลขั้นสูงอย่างเข้มงวดให้เป็นโดเมนเสียง

การปฏิบัติตามคำสั่ง

เมื่อสร้างแอปพลิเคชันแปลงเสียงเป็นเสียง นักพัฒนาจะให้ชุดคำสั่งแก่โมเดลเกี่ยวกับวิธีการทำงาน รวมถึงวิธีการพูด สิ่งที่ควรพูดในสถานการณ์หนึ่ง และสิ่งที่ควรทำหรือไม่ควรทำ เราได้มุ่งเน้นการปรับปรุงให้ปฏิบัติตามคำแนะนำเหล่านี้อย่างเคร่งครัด เพื่อให้แม้แต่คำแนะนำเล็กๆ น้อยๆ ก็สามารถส่งสัญญาณที่ชัดเจนยิ่งขึ้นไปยังโมเดล ในการทดสอบประสิทธิภาพเสียงของ MultiChallenge ที่วัดความแม่นยำในการปฏิบัติตามคำแนะนำ gpt-realtime ได้คะแนน 30.5% ซึ่งเป็นการปรับปรุงที่สำคัญจากโมเดลก่อนหน้าของเราในเดือนธันวาคม 2024 ที่ได้คะแนน 20.6%

MultiChallenge⁠(เปิดในหน้าต่างใหม่) ประเมินว่า LLMs จัดการบทสนทนาหลายรอบกับมนุษย์ได้ดีเพียงใด โดยมุ่งเน้นไปที่ความท้าทายที่เป็นจริงสี่ประเภทที่โมเดลชายแดนในปัจจุบันต้องดิ้นรน ความท้าทายเหล่านี้ต้องการให้โมเดลผสานการปฏิบัติตามคำสั่ง การจัดการบริบท และการให้เหตุผลในบริบทเข้าด้วยกันในเวลาเดียวกัน เราได้แปลงชุดย่อยของคำถามทดสอบที่เหมาะกับเสียงจากข้อความเป็นเสียงพูดเพื่อสร้างเวอร์ชันเสียงของการประเมินนี้

การเรียกฟังก์ชัน

ในการสร้างเอเจนต์เสียงที่มีประสิทธิภาพด้วยโมเดลแปลงเสียงเป็นเสียง โมเดลจำเป็นต้องสามารถเรียกใช้เครื่องมือที่ถูกต้องในเวลาที่เหมาะสมเพื่อให้มีประโยชน์ในการผลิต เราได้ปรับปรุงการเรียกฟังก์ชันในสามด้าน: การเรียกฟังก์ชันที่เกี่ยวข้อง การเรียกฟังก์ชันในเวลาที่เหมาะสม และการเรียกฟังก์ชันด้วยอาร์กิวเมนต์ที่เหมาะสม (ส่งผลให้มีความแม่นยำสูงขึ้น) ในการประเมินเสียงของ ComplexFuncBench ที่วัดประสิทธิภาพการเรียกใช้ฟังก์ชัน gpt-realtime ได้คะแนน 66.5% ในขณะที่โมเดลก่อนหน้าของเราจากเดือนธันวาคม 2024 ได้คะแนน 49.7%

นอกจากนี้ พวกเรายังได้ทำการปรับปรุงการเรียกฟังก์ชันแบบอะซิงโครนัส⁠(เปิดในหน้าต่างใหม่) การเรียกใช้ฟังก์ชันที่ทํางานเป็นเวลานานจะไม่ขัดขวางการไหลของเซสชันอีกต่อไป ฟีเจอร์นี้พร้อมใช้งานใน gpt-realtime โดยตรง ดังนั้นนักพัฒนาจึงไม่จำเป็นต้องอัปเดตโค้ด

ComplexFuncBench⁠(เปิดในหน้าต่างใหม่) วัดผลว่าโมเดลจัดการกับงานการเรียกฟังก์ชันที่ท้าทายได้ดีเพียงใด โดยประเมินประสิทธิภาพในสถานการณ์ต่างๆ เช่น การเรียกหลายขั้นตอน การให้เหตุผลเกี่ยวกับข้อจำกัดหรือพารามิเตอร์โดยนัย และการจัดการอินพุตที่ยาวมาก เราได้แปลงคำสั่งต้นฉบับเป็นเสียงเพื่อสร้างการประเมินนี้สำหรับโมเดลของเรา

ใหม่ใน Realtime API

การสนับสนุนเซิร์ฟเวอร์ MCP ระยะไกล

คุณสามารถเปิดการใช้งานการสนับสนุน MCP ในเซสชัน Realtime API โดยการส่ง URL ของเซิร์ฟเวอร์ MCP ระยะไกลไปยังการกำหนดค่าเซสชัน เมื่อเชื่อมต่อแล้ว API จะจัดการการเรียกใช้เครื่องมือให้คุณโดยอัตโนมัติ ดังนั้นจึงไม่จำเป็นต้องเชื่อมต่อการผสานรวมด้วยตนเอง

การตั้งค่านี้ทำให้ง่ายต่อการขยายเอเจนต์ของคุณด้วยความสามารถใหม่ๆ เพียงชี้เซสชันไปยังเซิร์ฟเวอร์ MCP อื่น และเครื่องมือเหล่านั้นจะพร้อมใช้งานทันที หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการกำหนดค่า MCP ด้วย Realtime โปรดดู คู่มือนี้⁠(เปิดในหน้าต่างใหม่)

JavaScript

1// POST /v1/realtime/client_secrets
2{
3  "session": {
4    "type": "realtime",
5    "tools": [
6      {
7        "type": "mcp",
8        "server_label": "stripe",
9        "server_url": "https://mcp.stripe.com",
10        "authorization": "{access_token}",
11        "require_approval": "never"
12      }
13    ]
14  }
15}
16

อินพุตภาพ

ด้วยการรองรับอินพุตภาพใน gpt-realtime แล้ว คุณสามารถเพิ่มภาพ ภาพถ่าย และภาพหน้าจอควบคู่ไปกับเสียงหรือข้อความในเซสชัน Realtime API ตอนนี้โมเดลสามารถเชื่อมโยงบทสนทนากับสิ่งที่ผู้ใช้เห็นจริงๆ ทำให้ผู้ใช้สามารถถามคำถามเช่น “คุณเห็นอะไร” หรือ “อ่านข้อความในภาพหน้าจอนี้”

แทนที่จะมองว่าภาพเป็นสตรีมวิดีโอสด ระบบจะถือว่าภาพเป็นการเพิ่มภาพถ่ายลงในบทสนทนามากกว่า แอปของคุณสามารถตัดสินใจได้ว่าจะส่งภาพใดให้กับโมเดลและจะส่งเมื่อใด ด้วยวิธีนี้ คุณสามารถควบคุมสิ่งที่โมเดลเห็นและเวลาที่โมเดลตอบสนอง

โปรดดู เอกสาร⁠(เปิดในหน้าต่างใหม่) ของเราเพื่อเริ่มต้นใช้งานการป้อนข้อมูลภาพ

JavaScript

1{
2    "type": "conversation.item.create",
3    "previous_item_id": null,
4    "item": {
5        "type": "message",
6        "role": "user",
7        "content": [
8            {
9                "type": "input_image",
10                "image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11            }
12        ]
13    }
14}
15

ขีดความสามารถเพิ่มเติม

เราได้เพิ่มคุณสมบัติอื่นๆ อีกหลายอย่างเพื่อทำให้ Realtime API ผสานรวมได้ง่ายขึ้นและมีความยืดหยุ่นมากขึ้นสำหรับการใช้งานในสภาพแวดล้อมการผลิต

การรองรับ Session Initiation Protocol (SIP): เชื่อมต่อแอปพลิเคชันของท่านกับเครือข่ายโทรศัพท์สาธารณะ ระบบ PBX โทรศัพท์ตั้งโต๊ะ และจุดสิ้นสุด SIP อื่นๆ ด้วยการรองรับโดยตรงใน Realtime API อ่านเกี่ยวกับเรื่องนี้ในเอกสาร⁠(เปิดในหน้าต่างใหม่)
คำสั่งที่สามารถนำกลับมาใช้ใหม่ได้: ขณะนี้คุณสามารถบันทึกและนำคำสั่งกลับมาใช้ใหม่ได้ ซึ่งประกอบด้วยข้อความของนักพัฒนา เครื่องมือ ตัวแปร และตัวอย่างข้อความของผู้ใช้/ผู้ช่วย ในเซสชัน Realtime API เช่นเดียวกับใน Responses API เรียนรู้เพิ่มเติมในเอกสาร⁠(เปิดในหน้าต่างใหม่)

ความปลอดภัยและความเป็นส่วนตัว

Realtime API มีการรวมชั้นการป้องกันและการบรรเทาหลายชั้นเพื่อช่วยป้องกันการใช้งานในทางที่ผิด คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับแนวทางการรักษาความปลอดภัยและรายละเอียดบัตรระบบของเราได้ใน บล็อกประกาศเบต้า⁠ เราใช้ตัวแยกประเภทที่ทำงานในเซสชัน Realtime API แบบเรียลไทม์ ซึ่งหมายความว่าการสนทนาบางอย่างอาจถูกระงับ หากตรวจพบว่าละเมิดหลักเกณฑ์เนื้อหาที่เป็นอันตรายของเรา นักพัฒนาสามารถเพิ่มการป้องกันความปลอดภัยของตนมากขึ้นอย่างง่ายดายโดยใช้ Agents SDK⁠(เปิดในหน้าต่างใหม่)

นโยบายการใช้งาน⁠ ของเราห้ามมิให้มีการนำผลลัพธ์จากบริการของเราไปใช้ซ้ำหรือแจกจ่ายเพื่อวัตถุประสงค์ในการสแปม การหลอกลวง หรือวัตถุประสงค์ที่เป็นอันตรายอื่นๆ นอกจากนี้ นักพัฒนาต้องทำให้ผู้ใช้ปลายทางเข้าใจอย่างชัดเจนเมื่อพวกเขากำลังโต้ตอบกับ AI เว้นแต่ว่าจะชัดเจนอยู่แล้วจากบริบท API Realtime ใช้เสียงที่ตั้งไว้ล่วงหน้าเพื่อช่วยป้องกันไม่ให้ผู้ไม่หวังดีแอบอ้างเป็นผู้อื่น

Realtime API รองรับ EU Data Residency⁠(เปิดในหน้าต่างใหม่) เต็มรูปแบบสำหรับแอปพลิเคชันที่อยู่ในสหภาพยุโรป และครอบคลุมอยู่ภายใต้ ข้อผูกพันด้านความเป็นส่วนตัวขององค์กร⁠ ของเรา

ราคาและความพร้อมใช้งาน

Realtime API ที่พร้อมใช้งานโดยทั่วไปและโมเดลใหม่ gpt-realtime พร้อมให้บริการสำหรับนักพัฒนาทุกคนตั้งแต่วันนี้เป็นต้นไป เรากำลังลดราคาสำหรับ gpt-realtime ลง 20% เมื่อเทียบกับ gpt-4o-realtime-preview—$32 / 1 ล้านโทเค็นอินพุต ($0.40 สำหรับโทเค็นอินพุตที่แคชไว้) และ $64 / 1 ล้านโทเค็นเอาต์พุต (ดู ราคาโดยละเอียด⁠(เปิดในหน้าต่างใหม่)) นอกจากนี้ เราได้เพิ่มการควบคุมที่ละเอียดสำหรับบริบทการสนทนา เพื่อให้นักพัฒนาสามารถกำหนดขีดจำกัด token อัจฉริยะและตัดทอนหลายรอบในคราวเดียว ซึ่งช่วยลดต้นทุนสำหรับเซสชันที่ยาวนานได้อย่างมาก

ในการเริ่มต้น กรุณาไปที่ เอกสาร Realtime API⁠(เปิดในหน้าต่างใหม่) ของเรา ทดสอบโมเดลใหม่ใน Playground⁠(เปิดในหน้าต่างใหม่) และดู คู่มือการใช้งาน Realtime API⁠(เปิดในหน้าต่างใหม่) ของเรา

การรับชมไลฟ์สตรีมย้อนหลัง

2025

ผู้เขียน

OpenAI

อ่านต่อ

ดูทั้งหมด

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 เป็นโมเดลหลักที่แนะนำใน Microsoft 365 Copilot

ผลิตภัณฑ์9 ก.ค. 2569

GPT-5.6: ความสามารถระดับแนวหน้าที่พร้อมโตไปกับทุกเป้าหมายของคุณ

ผลิตภัณฑ์9 ก.ค. 2569

ChatGPT พร้อมเป็นคู่คิดสำหรับงานที่ท้าทายที่สุดของคุณ

ผลิตภัณฑ์9 ก.ค. 2569