स्किप करके मेन कंटेंट पर जाऍं
OpenAI

पेश है प्रोडक्शन वॉइस एजेंट्स के लिए gpt-realtime और Realtime API अपडेट

हम ज़्यादा एडवांस्ड स्पीच-टू-स्पीच मॉडल और नई API कैपेबिलिटीज़ रिलीज़ कर रहे हैं, जिनमें MCP सर्वर सपोर्ट, इमेज इनपुट, और SIP फ़ोन कॉलिंग सपोर्ट शामिल हैं.

एक वॉइस इंटरैक्शन को दिखाता हुआ स्टाइलिश इंटरफ़ेस. बीचोंबीच एक गोल रेक्टंगुलर ऑडियो प्लेयर है जिसमें एक वेवफ़ॉर्म विज़ुअलाइज़ेशन, प्ले/पॉज़ बटन, "एजेंट ऑनलाइन" स्टेटस इंडिकेटर, और 00:35 का टाइमस्टैम्प है. इमेज पर डॉट्स के साथ सफ़ेद कर्व्ड लाइन्स फ़्लो होती हैं, जो लाइव ऑडियो या सिग्नल मूवमेंट का सिग्नल देती हैं. बैकग्राउंड एक चटक नीले रंग की है जिसमें गुलाबी और बैंगनी रंग के धुंधले फ़ूलों की आकृतियां हैं.
लोड किया जा रहा है...

आज हम Realtime API को नए फ़ीचर्स के साथ आम तौर पर उपलब्ध करा रहे हैं, जो डेवलपर्स और एंटरप्राइज़ेज़ को भरोसेमंद, प्रोडक्शन-रेडी वॉइस एजेंट्स बनाने में मदद करते हैं. API अब सेशन इनिशिएशन प्रोटोकॉल (SIP) के ज़रिये रिमोट MCP सर्र्स, इमेज इनपुट्स और फ़ोन कॉलिंग को सपोर्ट करता है, जिससे अतिरिक्त टूल्स और कॉन्टेक्स्ट के लिए एक्सेस के ज़रिये वॉइस एजेंट्स ज़्यादा कैपेबल हो जाते हैं.

हम अपना अब तक का सबसे एडवांस्ड स्पीच-टू-स्पीच मॉडल भी रिलीज़ कर रहे हैं—gpt-realtime. नए मॉडल में बेहद मुश्किल इंस्ट्रक्शन्स को फ़ॉलो करने, सटीकता के साथ टूल्स का इस्तेमाल करने, और ज़्यादा नेचुरल व एक्सप्रेसिव स्पीच तैयार करने जैसे सुधार किए गए हैं. ये सिस्टम मेसेजों और डेवलपर प्रॉम्प्ट्स के बारे में बताने में बेहतर है—चाहे वो एक सपोर्ट कॉल पर डिस्क्लेमर स्क्रिप्ट को एक-एक शब्द द्वारा पढ़ना हो, अल्फ़ान्यूमेरिक्स को वापस दोहराना हो, या वाक्य के बीच में भाषाओं के बीच आसानी से स्विच करना हो. हम दो नई वॉइसेस, Cedar और Marin भी रिलीज़ कर रहे हैं, जो आज से ख़ास तौर से Realtime API में उपलब्ध हैं.

चूंकि हमने पहली बार पिछले अक्टूबर में पब्लिक बीटा में Realtime API पेश किया था, हज़ारों डेवलपर्स ने API के साथ बनाया है और उन सुधारों को आकार देने में मदद की है जिन्हें हम आज रिलीज़ करने जा रहे हैं—प्रोडक्शन में वॉइस एजेंट्स को सफ़लतापूर्वक डिप्लॉय करने के लिए भरोसा, कम लेटेंसी और बढ़िया क्वालिटी के लिए ऑप्टिमाइज़ किया गया. पारंपरिक पाइपलाइन्स के विपरीत, जो स्पीच-टू-टेक्स्ट और टेक्स्ट-टू-स्पीच में कई मॉडल्स को एक साथ जोड़ते हैं, Realtime API एक सिंगल मॉडल और API के ज़रिये सीधे ऑडियो को प्रोसेस और जेनरेट करता है. इससे लेटेंसी कम होती है, स्पीच में नाज़ुक फ़र्क बना रहता है, और ज़्यादा नेचुरल, एक्सप्रेसिव जवाब जनरेट होते हैं.

“OpenAI के Realtime API में नया स्पीच-टू-स्पीच मॉडल मज़बूत रीज़निंग और ज़्यादा नेचुरल स्पीच दिखाता है—जिससे ये बेहद मुश्किल, मल्टी-स्टेप रिक्वेस्ट को हैंडल कर पाता है, जैसे कि लाइफ़स्टाइल की ज़रूरतों के अनुसार लिस्टिंग्स को सीमित करना या हमारे BuyAbility स्कोर जैसे टूल्स के साथ सामर्थ्य की चर्चाओं को गाइड करना. इससे Zillow पर एक घर ढूंढना या फ़ाइनेंसिंग ऑप्शन्स सर्च करना किसी दोस्त के साथ बातचीत करने जितना नेचुरल लग सकता है, जिससे एक घर खरीदने, बेचने और किराए पर लेने जैसे फ़ैसले आसान हो सकते हैं."

– Josh Weisberg, Zillow में AI के प्रमुख

GPT‑Realtime का परिचय

नया स्पीच-टू-स्पीच मॉडल—gpt-Realtime—हमारा सबसे एडवांस्ड, प्रोडक्शन-रेडी वॉइस मॉडल है. हमने कस्टमर्स के साथ बेहद करीबी कोलैबोरेशन में मॉडल को ट्रेन किया ताकि कस्टमर सपोर्ट, व्यक्तिगत सहायता, और एजुकेशन जैसे रियल-वर्ल्ड टास्क में बेहतरीन क्षमता मिल सके—मॉडल को इस बात के साथ अलाइन किया कि डेवलपर्स कैसे वॉइस एजेंट्स बनाते और डिप्लॉय करते हैं. इस मॉडल में ऑडियो क्वालिटी, इंटेलिजेंस, इंस्ट्रक्शन फ़ॉलोविंग और फ़ंक्शन कॉलिंग में सुधार किए गए हैं.

ऑडियो क्वालिटी

रियल वर्ल्ड में वॉइस एजेंट्स को डिप्लॉय करने के लिए नेचुरल लगने वाली बातचीत ज़रूरी है. मॉडल्स को एक सुखद अनुभव बनाने और यूज़र्स के साथ लगातार बातचीत को प्रोत्साहित करने के लिए ह्यूमन की आवाज़ के उतार-चढ़ाव, इमोशन और स्पीड के साथ बोलने की ज़रुरत पड़ती है. हमने हाई क्वालिटी वाली स्पीच जनरेट करने के लिए gpt-realtime को ट्रेन किया, जो ज़्यादा नेचुरल लगती है और बेहद सटीक इंस्ट्रक्शन्स को फ़ॉलो कर सकती है, जैसे कि "जल्दी और प्रोफ़ेशनल तरीके से बोलो" या "एक फ़्रेंच लहजे में हमदर्दी के साथ बोलो."

हम API में दो नई वॉइसेस, Marin और Cedar रिलीज़ कर रहे हैं, जिनमें नेचुरल लगने वाली स्पीच में सबसे ज़रूरी सुधार किए गए हैं. हम इन सुधारों से फ़ायदा उठाने के लिए अपनी मौजूदा आठ वॉइसेस को भी अपडेट कर रहे हैं.

वॉइस सैंपल - Marin
वॉइस सैंपल - Cedar

इंटेलिजेंस और समझ

gpt-Realtime बेहतरीन इंटेलिजेंस दिखाता है और नेटिव ऑडियो को और ज़्यादा एक्यूरेसी से समझ सकता है. ये मॉडल नॉन-वर्बल संकेतों (जैसे हंसी) को पकड़ सकता है, वाक्य के बीच में भाषा बदल सकता है, और लहज़े को एडैप्ट कर सकता है ("तेज़ और प्रोफ़ेशनल" बनाम "दयालु और हमदर्द"). इंटर्नल इवैल्यूएशन्स के अनुसार, मॉडल स्पैनिश, चीनी, जापानी और फ़्रेंच सहित अन्य भाषाओं में अल्फ़ान्यूमेरिक सीक्वेंसेस (जैसे फ़ोन नंबर, VINs, आदि) का पता लगाने में ज़्यादा सटीक परफ़ॉर्मेंस दिखाता है. Big Bench Audio इवैल्यूएशन में रीज़निंग कैपेबिलिटीज़ को मापने पर, gpt-realtime ने 82.8% एक्यूरेसी प्राप्त की—जो दिसंबर 2024 के हमारे पिछले मॉडल से बेहतर है, जिसका स्कोर 65.6% है.

Big Bench Audio(एक नई विंडो में खुलेगा) बेंचमार्क ऑडियो इनपुट को सपोर्ट करने वाले लैंग्वेज मॉडल की रीज़निंग कैपेबिलिटीज़ का आंकलन करने के लिए एक इवैल्यूएशन डेटासेट है. ये डेटासेट Big Bench Hard से सवालों को ऑडियो डोमेन में एडैप्ट करता है—जिसे एडवांस्ड रीज़निंग के कड़ी टेस्टिंग के लिए चुना गया है.

निर्देशों का पालन

स्पीच-टू-स्पीच एप्लिकेशन बनाते समय, डेवलपर्स मॉडल को बर्ताव करने के तरीके के बारे में इंस्ट्रक्शन्स का एक सेट देते हैं, जिसमें कैसे बोलना है, किसी निश्चित स्थिति में क्या कहना है, और क्या करना है या क्या नहीं करना है, आदि शामिल होते हैं. हमने अपने सुधारों को इन इंस्ट्रक्शन्स को फ़ॉलो करने पर फ़ोकस किया है, ताकि छोटे से छोटे इंस्ट्रक्शन्स भी मॉडल के लिए ज़्यादा सिग्नल कर सकें. MultiChallenge ऑडियो बेंचमार्क पर इंस्ट्रक्शन फ़ॉलोविंग एक्यूरेसी को मापने पर, gpt-Realtime स्कोर 30.5% है, जो दिसंबर 2024 के हमारे पिछले मॉडल के मुकाबले एक ज़रूरी सुधार है, जिसका स्कोर 20.6% है.

MultiChallenge(एक नई विंडो में खुलेगा) ये इवैल्यूएट करता है कि LLMs इंसानों के साथ मल्टी-टर्न बातचीतों को कितनी अच्छी तरह से हैंडल करते हैं. ये चार तरह के रीयलिस्टिक चैलेंजों पर फ़ोकस करता है, जिनसे मौजूदा फ़्रंटियर मॉडल्स जूझ रहे हैं. इन चैलेंजों के लिए मॉडल्स में इंस्ट्रक्शन-फ़ॉलोविंग, कॉन्टेक्स्ट मैनेजमेंट और इन-कॉन्टेक्स्ट रीज़निंग को एक साथ करने की ज़रुरत होती है. हमने इस इवैल्यूएशन का ऑडियो वर्ज़न बनाने के लिए टेस्ट सवालों के ऑडियो-फ़्रेंडली सबसेट को टेक्स्ट-टू-स्पीच में कन्वर्ट कर दिया.

फ़ंक्शन कॉलिंग

स्पीच-टू-स्पीच मॉडल के साथ एक कैपेबल वॉइस एजेंट बनाने के लिए, मॉडल का प्रोडक्शन में फ़ायदेमंद होने के लिए सही समय पर सही टूल्स को कॉल कर पाना ज़रूरी है. हमने तीन अक्षों पर फ़ंक्शन कॉलिंग में सुधार किया है: सही फ़ंक्शन्स कॉल करना, सही समय पर फ़ंक्शन्स कॉल करना, और सही आर्ग्युमेंट के साथ फ़ंक्शन्स कॉल करना (जिसके कारण हाई एक्यूरेसी मिलती है). फ़ंक्शन कॉलिंग परफ़ॉर्मेंस को मापने वाले ComplexFuncBench ऑडियो इवैल पर, gpt-Realtime का स्कोर 66.5% है, जबकि दिसंबर 2024 के हमारे पिछले मॉडल का स्कोर 49.7% है.

हमने एसिंक्रोनस फ़ंक्शन कॉलिंग(एक नई विंडो में खुलेगा) में भी सुधार किए हैं. लंबे समय तक चलने वाले फ़ंक्शन कॉल्स अब किसी सेशन के फ़्लो में रुकावट नहीं डालेंगे—मॉडल रिज़ल्ट्स का इंतज़ार करते समय एक फ़्लो में बातचीत जारी रख सकता है. ये फ़ीचर नेटिव तौर पर gpt-realtime में उपलब्ध है, इसलिए डेवलपर्स को अपना कोड अपडेट करने की ज़रुरत नहीं है.

ComplexFuncBench(एक नई विंडो में खुलेगा) मापता है कि मॉडल चुनौती से भरे फ़ंक्शन कॉलिंग टास्क को कितनी अच्छी तरह से हैंडल करते हैं. ये मल्टी-स्टेप कॉल्स, रुकावटों या अंतर्निहित पैरामीटर्स के बारे में रीज़निंग, बहुत लंबे इनपुट को हैंडल करने जैसे सिनैरियो में परफ़ॉर्मेंस का इवैल्यूएशन करता है. हमने अपने मॉडल के लिए ये इवैल्यूएशन तैयार करने हेतु ओरिजिनल टेक्स्ट प्रॉम्प्ट्स को स्पीच में कन्वर्ट कर दिया.

Realtime API में नया

रिमोट MCP सर्वर सपोर्ट

आप सेशन कॉन्फ़िगरेशन में एक रिमोट MCP सर्वर का URL पास करके Realtime API सेशन में MCP सपोर्ट इनेबल कर सकते हैं. एक बार कनेक्ट हो जाने पर, API अपने आप आपके लिए टूल कॉल्स को हैंडल करता है, इसलिए मैन्युअल तरीके से इंटीग्रेशन्स को वायर अप करने की कोई ज़रुरत नहीं है.

ये सेटअप आपके एजेंट को नई कैपेबिलिटीज़ के साथ एक्सटेंड करना आसान बनाता है—बस सेशन को एक अलग MCP सर्वर पर पॉइंट करें, और वे टूल्स तुरंत उपलब्ध हो जाते हैं. Realtime के साथ MCP कॉन्फ़िगर करने के बारे में और ज़्यादा जानने के लिए, इस गाइड(एक नई विंडो में खुलेगा) को देखें.

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

इमेज इनपुट

अब gpt-realtime में इमेज इनपुट सपोर्टेड होने की वजह से, आप एक Realtime API सेशन में ऑडियो या टेक्स्ट के साथ-साथ इमेज, फ़ोटो और स्क्रीनशॉट्स भी जोड़ सकते हैं. अब मॉडल बातचीत को इस आधार पर आधारित कर सकता है कि यूज़र वाकई में क्या देख रहा है, जिससे यूज़र "तुम्हें क्या दिख रहा है?" या "इस स्क्रीनशॉट में मौजूद टेक्स्ट पढ़ो" जैसे सवाल पूछ सकते हैं.

किसी इमेज को एक लाइव वीडियो स्ट्रीम की तरह मानने के बजाय, सिस्टम इसे बातचीत में एक पिक्चर जोड़ने जैसा मानता है. आपका ऐप ये तय कर सकता है कि मॉडल के साथ कौन-सी इमेजेज़ शेयर की जाएं और उन्हें कब शेयर किया जाए. इस तरह, आप इस बात पर कंट्रोल रख सकते हैं कि मॉडल क्या देखता है और कब जवाब देता है.

इमेज इनपुट के साथ शुरू करने के लिए हमारे डॉक्स(एक नई विंडो में खुलेगा) देखें.

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

अतिरिक्त कैपेबिलिटीज़

हमने Realtime API को इंटीग्रेट करना आसान बनाने और प्रोडक्शन इस्तेमाल के लिए और ज़्यादा लचीला बनाने के लिए कई दूसरे फ़ीचर्स जोड़े हैं.

सेफ़्टी एवं प्राइवेसी

Realtime API में गलत इस्तेमाल को रोकने में मदद के लिए सुरक्षा और शमन की कई लेयर्स शामिल हैं. आप बीटा अनाउंसमेंट ब्लॉग में हमारी सेफ़्टी अप्रोच और सिस्टम कार्ड डिटेल्स के बारे में और ज़्यादा जान सकते हैं. हम Realtime API सेशन्स पर एक्टिव क्लासिफ़ायर्स का इस्तेमाल करते हैं, जिसका मतलब है कि अगर कुछ बातचीतों को हमारे हानिकारक कंटेंट की गाइडलाइन्स का उल्लंघन करते हुए पाया जाता है, तो उन्हें रोका जा सकता है. डेवलपर्स Agents SDK(एक नई विंडो में खुलेगा) का इस्तेमाल करके आसानी से अपने खुद के सुरक्षा उपाय भी जोड़ सकते हैं.

हमारी इस्तेमाल से जुड़ी पॉलिसियां स्पैम, धोखाधड़ी, या दूसरे हानिकारक उद्देश्यों के लिए हमारी सर्विसेज़ के आउटपुट का दोबारा इस्तेमाल या डिस्ट्रीब्यूट करने पर रोक लगाती हैं. डेवलपर्स को एंड यूज़र्स को ये भी क्लियर करना होगा कि वे कब AI के साथ इंटरैक्ट कर रहे हैं, जब तक कि ये कॉन्टेक्स्ट से पहले से ही स्पष्ट न हो. Realtime API खराब एक्टर्स को दूसरों का वेश बदलने से रोकने में मदद करने के लिए प्रीसेट वॉइसेस का इस्तेमाल करता है.

Realtime API EU-बेस्ड ऐप्लिकेशन्स के लिए EU डेटा रेसिडेंसी(एक नई विंडो में खुलेगा) को पूरा सपोर्ट करता है और हमारी एंटरप्राइज़ प्राइवेसी कमिटमेंट्स द्वारा कवर किया जाता है.

कीमत एवं उपलब्धता

आम तौर पर उपलब्ध Realtime API और नया gpt-Realtime मॉडल आज से सभी डेवलपर्स के लिए उपलब्ध है. हम gpt-4o-realtime-preview के मुकाबले gpt-realtime के लिए कीमतों में 20% की कमी कर रहे हैं—$32 / 1M ऑडियो इनपुट टोकन (कैश्ड इनपुट टोकन के लिए $0.40) और $64 / 1M ऑडियो आउटपुट टोकन (डिटेल में कीमतें(एक नई विंडो में खुलेगा) देखें). हमने बातचीत के कॉन्टेक्स्ट के लिए बेहद सटीक कंट्रोल भी जोड़ा है, जिससे डेवलपर्स इंटेलीजेंट टोकन लिमिट्स सेट कर सकते हैं और एक साथ कई टर्न्स को छोटा कर सकते हैं, जिससे लंबे सेशन्स की कॉस्ट बहुत ज़्यादा कम हो जाएगी.

लाइवस्ट्रीम रीप्ले

लेखक

OpenAI