28 अगस्त 2025

पेश है प्रोडक्शन वॉइस एजेंट्स के लिए gpt-realtime और Realtime API अपडेट

हम ज़्यादा एडवांस्ड स्पीच-टू-स्पीच मॉडल और नई API कैपेबिलिटीज़ रिलीज़ कर रहे हैं, जिनमें MCP सर्वर सपोर्ट, इमेज इनपुट, और SIP फ़ोन कॉलिंग सपोर्ट शामिल हैं.

एक वॉइस इंटरैक्शन को दिखाता हुआ स्टाइलिश इंटरफ़ेस. बीचोंबीच एक गोल रेक्टंगुलर ऑडियो प्लेयर है जिसमें एक वेवफ़ॉर्म विज़ुअलाइज़ेशन, प्ले/पॉज़ बटन, "एजेंट ऑनलाइन" स्टेटस इंडिकेटर, और 00:35 का टाइमस्टैम्प है. इमेज पर डॉट्स के साथ सफ़ेद कर्व्ड लाइन्स फ़्लो होती हैं, जो लाइव ऑडियो या सिग्नल मूवमेंट का सिग्नल देती हैं. बैकग्राउंड एक चटक नीले रंग की है जिसमें गुलाबी और बैंगनी रंग के धुंधले फ़ूलों की आकृतियां हैं.

लोड किया जा रहा है...

आज हम Realtime API को नए फ़ीचर्स के साथ आम तौर पर उपलब्ध करा रहे हैं, जो डेवलपर्स और एंटरप्राइज़ेज़ को भरोसेमंद, प्रोडक्शन-रेडी वॉइस एजेंट्स बनाने में मदद करते हैं. API अब सेशन इनिशिएशन प्रोटोकॉल (SIP) के ज़रिये रिमोट MCP सर्र्स, इमेज इनपुट्स और फ़ोन कॉलिंग को सपोर्ट करता है, जिससे अतिरिक्त टूल्स और कॉन्टेक्स्ट के लिए एक्सेस के ज़रिये वॉइस एजेंट्स ज़्यादा कैपेबल हो जाते हैं.

हम अपना अब तक का सबसे एडवांस्ड स्पीच-टू-स्पीच मॉडल भी रिलीज़ कर रहे हैं—gpt-realtime. नए मॉडल में बेहद मुश्किल इंस्ट्रक्शन्स को फ़ॉलो करने, सटीकता के साथ टूल्स का इस्तेमाल करने, और ज़्यादा नेचुरल व एक्सप्रेसिव स्पीच तैयार करने जैसे सुधार किए गए हैं. ये सिस्टम मेसेजों और डेवलपर प्रॉम्प्ट्स के बारे में बताने में बेहतर है—चाहे वो एक सपोर्ट कॉल पर डिस्क्लेमर स्क्रिप्ट को एक-एक शब्द द्वारा पढ़ना हो, अल्फ़ान्यूमेरिक्स को वापस दोहराना हो, या वाक्य के बीच में भाषाओं के बीच आसानी से स्विच करना हो. हम दो नई वॉइसेस, Cedar और Marin भी रिलीज़ कर रहे हैं, जो आज से ख़ास तौर से Realtime API में उपलब्ध हैं.

चूंकि हमने पहली बार पिछले अक्टूबर में पब्लिक बीटा में Realtime API पेश किया था, हज़ारों डेवलपर्स ने API के साथ बनाया है और उन सुधारों को आकार देने में मदद की है जिन्हें हम आज रिलीज़ करने जा रहे हैं—प्रोडक्शन में वॉइस एजेंट्स को सफ़लतापूर्वक डिप्लॉय करने के लिए भरोसा, कम लेटेंसी और बढ़िया क्वालिटी के लिए ऑप्टिमाइज़ किया गया. पारंपरिक पाइपलाइन्स के विपरीत, जो स्पीच-टू-टेक्स्ट और टेक्स्ट-टू-स्पीच में कई मॉडल्स को एक साथ जोड़ते हैं, Realtime API एक सिंगल मॉडल और API के ज़रिये सीधे ऑडियो को प्रोसेस और जेनरेट करता है. इससे लेटेंसी कम होती है, स्पीच में नाज़ुक फ़र्क बना रहता है, और ज़्यादा नेचुरल, एक्सप्रेसिव जवाब जनरेट होते हैं.

“OpenAI के Realtime API में नया स्पीच-टू-स्पीच मॉडल मज़बूत रीज़निंग और ज़्यादा नेचुरल स्पीच दिखाता है—जिससे ये बेहद मुश्किल, मल्टी-स्टेप रिक्वेस्ट को हैंडल कर पाता है, जैसे कि लाइफ़स्टाइल की ज़रूरतों के अनुसार लिस्टिंग्स को सीमित करना या हमारे BuyAbility स्कोर जैसे टूल्स के साथ सामर्थ्य की चर्चाओं को गाइड करना. इससे Zillow पर एक घर ढूंढना या फ़ाइनेंसिंग ऑप्शन्स सर्च करना किसी दोस्त के साथ बातचीत करने जितना नेचुरल लग सकता है, जिससे एक घर खरीदने, बेचने और किराए पर लेने जैसे फ़ैसले आसान हो सकते हैं."

– Josh Weisberg, Zillow में AI के प्रमुख

GPT‑Realtime का परिचय

नया स्पीच-टू-स्पीच मॉडल—gpt-Realtime—हमारा सबसे एडवांस्ड, प्रोडक्शन-रेडी वॉइस मॉडल है. हमने कस्टमर्स के साथ बेहद करीबी कोलैबोरेशन में मॉडल को ट्रेन किया ताकि कस्टमर सपोर्ट, व्यक्तिगत सहायता, और एजुकेशन जैसे रियल-वर्ल्ड टास्क में बेहतरीन क्षमता मिल सके—मॉडल को इस बात के साथ अलाइन किया कि डेवलपर्स कैसे वॉइस एजेंट्स बनाते और डिप्लॉय करते हैं. इस मॉडल में ऑडियो क्वालिटी, इंटेलिजेंस, इंस्ट्रक्शन फ़ॉलोविंग और फ़ंक्शन कॉलिंग में सुधार किए गए हैं.

ऑडियो क्वालिटी

रियल वर्ल्ड में वॉइस एजेंट्स को डिप्लॉय करने के लिए नेचुरल लगने वाली बातचीत ज़रूरी है. मॉडल्स को एक सुखद अनुभव बनाने और यूज़र्स के साथ लगातार बातचीत को प्रोत्साहित करने के लिए ह्यूमन की आवाज़ के उतार-चढ़ाव, इमोशन और स्पीड के साथ बोलने की ज़रुरत पड़ती है. हमने हाई क्वालिटी वाली स्पीच जनरेट करने के लिए gpt-realtime को ट्रेन किया, जो ज़्यादा नेचुरल लगती है और बेहद सटीक इंस्ट्रक्शन्स को फ़ॉलो कर सकती है, जैसे कि "जल्दी और प्रोफ़ेशनल तरीके से बोलो" या "एक फ़्रेंच लहजे में हमदर्दी के साथ बोलो."

हम API में दो नई वॉइसेस, Marin और Cedar रिलीज़ कर रहे हैं, जिनमें नेचुरल लगने वाली स्पीच में सबसे ज़रूरी सुधार किए गए हैं. हम इन सुधारों से फ़ायदा उठाने के लिए अपनी मौजूदा आठ वॉइसेस को भी अपडेट कर रहे हैं.

वॉइस सैंपल - Marin

वॉइस सैंपल - Cedar

इंटेलिजेंस और समझ

gpt-Realtime बेहतरीन इंटेलिजेंस दिखाता है और नेटिव ऑडियो को और ज़्यादा एक्यूरेसी से समझ सकता है. ये मॉडल नॉन-वर्बल संकेतों (जैसे हंसी) को पकड़ सकता है, वाक्य के बीच में भाषा बदल सकता है, और लहज़े को एडैप्ट कर सकता है ("तेज़ और प्रोफ़ेशनल" बनाम "दयालु और हमदर्द"). इंटर्नल इवैल्यूएशन्स के अनुसार, मॉडल स्पैनिश, चीनी, जापानी और फ़्रेंच सहित अन्य भाषाओं में अल्फ़ान्यूमेरिक सीक्वेंसेस (जैसे फ़ोन नंबर, VINs, आदि) का पता लगाने में ज़्यादा सटीक परफ़ॉर्मेंस दिखाता है. Big Bench Audio इवैल्यूएशन में रीज़निंग कैपेबिलिटीज़ को मापने पर, gpt-realtime ने 82.8% एक्यूरेसी प्राप्त की—जो दिसंबर 2024 के हमारे पिछले मॉडल से बेहतर है, जिसका स्कोर 65.6% है.

Big Bench Audio⁠(एक नई विंडो में खुलेगा) बेंचमार्क ऑडियो इनपुट को सपोर्ट करने वाले लैंग्वेज मॉडल की रीज़निंग कैपेबिलिटीज़ का आंकलन करने के लिए एक इवैल्यूएशन डेटासेट है. ये डेटासेट Big Bench Hard से सवालों को ऑडियो डोमेन में एडैप्ट करता है—जिसे एडवांस्ड रीज़निंग के कड़ी टेस्टिंग के लिए चुना गया है.

निर्देशों का पालन

स्पीच-टू-स्पीच एप्लिकेशन बनाते समय, डेवलपर्स मॉडल को बर्ताव करने के तरीके के बारे में इंस्ट्रक्शन्स का एक सेट देते हैं, जिसमें कैसे बोलना है, किसी निश्चित स्थिति में क्या कहना है, और क्या करना है या क्या नहीं करना है, आदि शामिल होते हैं. हमने अपने सुधारों को इन इंस्ट्रक्शन्स को फ़ॉलो करने पर फ़ोकस किया है, ताकि छोटे से छोटे इंस्ट्रक्शन्स भी मॉडल के लिए ज़्यादा सिग्नल कर सकें. MultiChallenge ऑडियो बेंचमार्क पर इंस्ट्रक्शन फ़ॉलोविंग एक्यूरेसी को मापने पर, gpt-Realtime स्कोर 30.5% है, जो दिसंबर 2024 के हमारे पिछले मॉडल के मुकाबले एक ज़रूरी सुधार है, जिसका स्कोर 20.6% है.

MultiChallenge⁠(एक नई विंडो में खुलेगा) ये इवैल्यूएट करता है कि LLMs इंसानों के साथ मल्टी-टर्न बातचीतों को कितनी अच्छी तरह से हैंडल करते हैं. ये चार तरह के रीयलिस्टिक चैलेंजों पर फ़ोकस करता है, जिनसे मौजूदा फ़्रंटियर मॉडल्स जूझ रहे हैं. इन चैलेंजों के लिए मॉडल्स में इंस्ट्रक्शन-फ़ॉलोविंग, कॉन्टेक्स्ट मैनेजमेंट और इन-कॉन्टेक्स्ट रीज़निंग को एक साथ करने की ज़रुरत होती है. हमने इस इवैल्यूएशन का ऑडियो वर्ज़न बनाने के लिए टेस्ट सवालों के ऑडियो-फ़्रेंडली सबसेट को टेक्स्ट-टू-स्पीच में कन्वर्ट कर दिया.

फ़ंक्शन कॉलिंग

स्पीच-टू-स्पीच मॉडल के साथ एक कैपेबल वॉइस एजेंट बनाने के लिए, मॉडल का प्रोडक्शन में फ़ायदेमंद होने के लिए सही समय पर सही टूल्स को कॉल कर पाना ज़रूरी है. हमने तीन अक्षों पर फ़ंक्शन कॉलिंग में सुधार किया है: सही फ़ंक्शन्स कॉल करना, सही समय पर फ़ंक्शन्स कॉल करना, और सही आर्ग्युमेंट के साथ फ़ंक्शन्स कॉल करना (जिसके कारण हाई एक्यूरेसी मिलती है). फ़ंक्शन कॉलिंग परफ़ॉर्मेंस को मापने वाले ComplexFuncBench ऑडियो इवैल पर, gpt-Realtime का स्कोर 66.5% है, जबकि दिसंबर 2024 के हमारे पिछले मॉडल का स्कोर 49.7% है.

हमने एसिंक्रोनस फ़ंक्शन कॉलिंग⁠(एक नई विंडो में खुलेगा) में भी सुधार किए हैं. लंबे समय तक चलने वाले फ़ंक्शन कॉल्स अब किसी सेशन के फ़्लो में रुकावट नहीं डालेंगे—मॉडल रिज़ल्ट्स का इंतज़ार करते समय एक फ़्लो में बातचीत जारी रख सकता है. ये फ़ीचर नेटिव तौर पर gpt-realtime में उपलब्ध है, इसलिए डेवलपर्स को अपना कोड अपडेट करने की ज़रुरत नहीं है.

ComplexFuncBench⁠(एक नई विंडो में खुलेगा) मापता है कि मॉडल चुनौती से भरे फ़ंक्शन कॉलिंग टास्क को कितनी अच्छी तरह से हैंडल करते हैं. ये मल्टी-स्टेप कॉल्स, रुकावटों या अंतर्निहित पैरामीटर्स के बारे में रीज़निंग, बहुत लंबे इनपुट को हैंडल करने जैसे सिनैरियो में परफ़ॉर्मेंस का इवैल्यूएशन करता है. हमने अपने मॉडल के लिए ये इवैल्यूएशन तैयार करने हेतु ओरिजिनल टेक्स्ट प्रॉम्प्ट्स को स्पीच में कन्वर्ट कर दिया.

Realtime API में नया

रिमोट MCP सर्वर सपोर्ट

आप सेशन कॉन्फ़िगरेशन में एक रिमोट MCP सर्वर का URL पास करके Realtime API सेशन में MCP सपोर्ट इनेबल कर सकते हैं. एक बार कनेक्ट हो जाने पर, API अपने आप आपके लिए टूल कॉल्स को हैंडल करता है, इसलिए मैन्युअल तरीके से इंटीग्रेशन्स को वायर अप करने की कोई ज़रुरत नहीं है.

ये सेटअप आपके एजेंट को नई कैपेबिलिटीज़ के साथ एक्सटेंड करना आसान बनाता है—बस सेशन को एक अलग MCP सर्वर पर पॉइंट करें, और वे टूल्स तुरंत उपलब्ध हो जाते हैं. Realtime के साथ MCP कॉन्फ़िगर करने के बारे में और ज़्यादा जानने के लिए, इस गाइड⁠(एक नई विंडो में खुलेगा) को देखें.

JavaScript

1// POST /v1/realtime/client_secrets
2{
3  "session": {
4    "type": "realtime",
5    "tools": [
6      {
7        "type": "mcp",
8        "server_label": "stripe",
9        "server_url": "https://mcp.stripe.com",
10        "authorization": "{access_token}",
11        "require_approval": "never"
12      }
13    ]
14  }
15}
16

इमेज इनपुट

अब gpt-realtime में इमेज इनपुट सपोर्टेड होने की वजह से, आप एक Realtime API सेशन में ऑडियो या टेक्स्ट के साथ-साथ इमेज, फ़ोटो और स्क्रीनशॉट्स भी जोड़ सकते हैं. अब मॉडल बातचीत को इस आधार पर आधारित कर सकता है कि यूज़र वाकई में क्या देख रहा है, जिससे यूज़र "तुम्हें क्या दिख रहा है?" या "इस स्क्रीनशॉट में मौजूद टेक्स्ट पढ़ो" जैसे सवाल पूछ सकते हैं.

किसी इमेज को एक लाइव वीडियो स्ट्रीम की तरह मानने के बजाय, सिस्टम इसे बातचीत में एक पिक्चर जोड़ने जैसा मानता है. आपका ऐप ये तय कर सकता है कि मॉडल के साथ कौन-सी इमेजेज़ शेयर की जाएं और उन्हें कब शेयर किया जाए. इस तरह, आप इस बात पर कंट्रोल रख सकते हैं कि मॉडल क्या देखता है और कब जवाब देता है.

इमेज इनपुट के साथ शुरू करने के लिए हमारे डॉक्स⁠(एक नई विंडो में खुलेगा) देखें.

JavaScript

1{
2    "type": "conversation.item.create",
3    "previous_item_id": null,
4    "item": {
5        "type": "message",
6        "role": "user",
7        "content": [
8            {
9                "type": "input_image",
10                "image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11            }
12        ]
13    }
14}
15

अतिरिक्त कैपेबिलिटीज़

हमने Realtime API को इंटीग्रेट करना आसान बनाने और प्रोडक्शन इस्तेमाल के लिए और ज़्यादा लचीला बनाने के लिए कई दूसरे फ़ीचर्स जोड़े हैं.

सेशन इनिशिएशन प्रोटोकॉल (SIP) सपोर्ट: अपने ऐप्स को Realtime API में सीधे सपोर्ट के साथ पब्लिक फ़ोन नेटवर्क, PBX सिस्टम्स, डेस्क फ़ोन और दूसरे SIP एंडपॉइंट्स से कनेक्ट करें. इसके बारे में डॉक्स में पढ़ें.⁠(एक नई विंडो में खुलेगा)
रीयूज़ेबल प्रॉम्प्ट्स: अब आप Realtime API सेशन्स में, जैसे कि रिस्पांस API में, प्रॉम्प्ट को सेव कर सकते हैं और रीयूज़ कर सकते हैं—जिसमें डेवलपर मेसेजेज़, टूल्स, वैरिएबल्स, और यूज़र/असिस्टेंट मेसेजेज़ के उदहारण शामिल होते हैं. डॉक्स में और ज़्यादा जानें.⁠(एक नई विंडो में खुलेगा)

सेफ़्टी एवं प्राइवेसी

Realtime API में गलत इस्तेमाल को रोकने में मदद के लिए सुरक्षा और शमन की कई लेयर्स शामिल हैं. आप बीटा अनाउंसमेंट ब्लॉग⁠ में हमारी सेफ़्टी अप्रोच और सिस्टम कार्ड डिटेल्स के बारे में और ज़्यादा जान सकते हैं. हम Realtime API सेशन्स पर एक्टिव क्लासिफ़ायर्स का इस्तेमाल करते हैं, जिसका मतलब है कि अगर कुछ बातचीतों को हमारे हानिकारक कंटेंट की गाइडलाइन्स का उल्लंघन करते हुए पाया जाता है, तो उन्हें रोका जा सकता है. डेवलपर्स Agents SDK⁠(एक नई विंडो में खुलेगा) का इस्तेमाल करके आसानी से अपने खुद के सुरक्षा उपाय भी जोड़ सकते हैं.

हमारी इस्तेमाल से जुड़ी पॉलिसियां⁠ स्पैम, धोखाधड़ी, या दूसरे हानिकारक उद्देश्यों के लिए हमारी सर्विसेज़ के आउटपुट का दोबारा इस्तेमाल या डिस्ट्रीब्यूट करने पर रोक लगाती हैं. डेवलपर्स को एंड यूज़र्स को ये भी क्लियर करना होगा कि वे कब AI के साथ इंटरैक्ट कर रहे हैं, जब तक कि ये कॉन्टेक्स्ट से पहले से ही स्पष्ट न हो. Realtime API खराब एक्टर्स को दूसरों का वेश बदलने से रोकने में मदद करने के लिए प्रीसेट वॉइसेस का इस्तेमाल करता है.

Realtime API EU-बेस्ड ऐप्लिकेशन्स के लिए EU डेटा रेसिडेंसी⁠(एक नई विंडो में खुलेगा) को पूरा सपोर्ट करता है और हमारी एंटरप्राइज़ प्राइवेसी कमिटमेंट्स⁠ द्वारा कवर किया जाता है.

कीमत एवं उपलब्धता

आम तौर पर उपलब्ध Realtime API और नया gpt-Realtime मॉडल आज से सभी डेवलपर्स के लिए उपलब्ध है. हम gpt-4o-realtime-preview के मुकाबले gpt-realtime के लिए कीमतों में 20% की कमी कर रहे हैं—$32 / 1M ऑडियो इनपुट टोकन (कैश्ड इनपुट टोकन के लिए $0.40) और $64 / 1M ऑडियो आउटपुट टोकन (डिटेल में कीमतें⁠(एक नई विंडो में खुलेगा) देखें). हमने बातचीत के कॉन्टेक्स्ट के लिए बेहद सटीक कंट्रोल भी जोड़ा है, जिससे डेवलपर्स इंटेलीजेंट टोकन लिमिट्स सेट कर सकते हैं और एक साथ कई टर्न्स को छोटा कर सकते हैं, जिससे लंबे सेशन्स की कॉस्ट बहुत ज़्यादा कम हो जाएगी.

शुरू करने के लिए, हमारे Realtime API डॉक्यूमेंटेशन⁠(एक नई विंडो में खुलेगा) पर जाएं, Playground⁠(एक नई विंडो में खुलेगा) में नए मॉडल को टेस्ट करें, और हमारी Realtime API प्रॉम्प्टिंग गाइड⁠(एक नई विंडो में खुलेगा) देखें.

लाइवस्ट्रीम रीप्ले

2025

लेखक

OpenAI

पढ़ते रहें

सभी देखें

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 अब Microsoft 365 Copilot में पसंदीदा मॉडल है

प्रोडक्ट9 जुलाई 2026

GPT-5.6: अत्याधुनिक इंटेलिजेंस, जो आपकी महत्वाकांक्षा के साथ स्केल होती है

प्रोडक्ट9 जुलाई 2026

ChatGPT अब आपके सबसे महत्वाकांक्षी काम का साथी है

प्रोडक्ट9 जुलाई 2026