۲۸ اگست، ۲۰۲۵

پروڈکشن وائس ایجنٹس کے لیے gpt-realtime اور Realtime API اپڈیٹس کا تعارف

ہم ایک زیادہ ایڈوانسڈ بات چیت سے بات چیت کے ماڈل اور نئی API صلاحیتوں کا اجراء کر رہے ہیں جن میں MCP سرور سپورٹ، تصویر ان پٹ، اور SIP فون کالنگ سپورٹ شامل ہیں۔

ایک اسٹائلائزڈ انٹرفیس صوتی تعامل کو دکھا رہا ہے۔ ایک گول مستطیل آڈیو پلیئر وسط میں موجود ہے جس میں ویووفارم تصور، پلے/پاز بٹن، 'ایجنٹ آن لائن' اسٹیٹس انڈیکیٹر، اور ٹائم اسٹیمپ 00:35 شامل ہے۔ نقطوں کے ساتھ سفید مڑی ہوئی لکیریں تصویر میں بہتی ہیں، جو براہ راست آڈیو یا سگنل کی حرکت کا اشارہ کرتی ہیں۔ پس منظر ایک چمکدار نیلا ہے جس میں گلابی اور جامنی رنگ کے دھندلے پھولوں کی شکلیں ہیں۔

لوڈ ہو رہا ہے…

آج ہم Realtime API کو نئی خصوصیات کے ساتھ عام دستیاب کر رہے ہیں جو ڈویلپرز اور انٹرپرائزز کو فعال کرتی ہیں کہ وہ قابل اعتماد، پروڈکشن کے لیے تیار ایجنٹس بنا سکیں۔ اب API ریموٹ MCP سرورز، تصویر ان پٹس، اور فون کالنگ کو اجلاس انیشی ایشن پروٹوکول (SIP) کے ذریعے سپورٹ کرتا ہے، جس سے ایجنٹس اضافی ٹولز اور سیاق و سباق تک رسائی کے ذریعے زیادہ قابل ہو جاتے ہیں۔

ہم اپنا سب سے ایڈوانسڈ بات چیت سے بات چیت ماڈل بھی جاری کر رہے ہیں—GPT‑realtime۔ نیا ماڈل پیچیدہ ہدایات پر عمل کرنے میں، ٹولز کو درستگی کے ساتھ استعمال کرنے میں، اور زیادہ فطری اور تاثراتی آواز پیدا کرنے میں بہتری دکھاتا ہے۔ یہ سسٹم پیغامات اور ڈویلپر پرامپٹس کی ترجمانی کرنے میں بہتر ہے—چاہے وہ سپورٹ کال پر اعلان لاتعلقی کے مسودے کو لفظ بہ لفظ پڑھنا ہو، حروف و عدد کو دہرانا ہو، یا جملوں کے درمیان زبانوں کے درمیان بغیر کسی رکاوٹ کے سوئچ کرنا ہو۔ ہم دو نئی آوازیں بھی جاری کر رہے ہیں، Cedar اور Marin، جو آج سے شروع ہونے والے Realtime API میں خصوصی طور پر دستیاب ہیں۔

چونکہ ہم نے پہلی بار Realtime API کو گزشتہ اکتوبر میں پبلک بِیٹا میں متعارف کرایا تھا، ہزاروں ڈویلپرز نے API کے ساتھ کام کیا ہے اور ان بہتریوں کو تشکیل دینے میں مدد کی ہے جو ہم آج جاری کر رہے ہیں — پروڈکشن میں صوتی ایجنٹوں کو کامیابی کے ساتھ تعینات کرنے کے لیے قابل اعتماد، کم تاخیر، اور اعلٰی معیار کے لیے بہتر بنایا گیا ہے۔ روایتی پائپ لائنوں کے برعکس جو بات چیت سے متن اور متن سے بات چیت میں متعدد ماڈل کو ایک ساتھ جوڑتی ہیں، Realtime API ایک ماڈلز اور API کے ذریعے براہ راست آڈیو کو پروسیس اور جنریٹ کرتا ہے۔ یہ تاخیر یں کمی لاتا ہے، گفتگو میں باریکی کو برقرار رکھتا ہے، اور زیادہ قدرتی، تاثراتی ردعمل پیدا کرتا ہے۔

OpenAI کے Realtime API میں نیا بات چیت سے بات چیت ماڈل مضبوط استدلال اور زیادہ قدرتی بات چیت پیش کرتا ہے—یہ پیچیدہ، کثیر مرحلہ درخواستوں کو سنبھالنے کی صلاحیت رکھتا ہے جیسے کہ طرز زندگی کی ضروریات کے مطابق لسٹنگ کو محدود کرنا یا ہمارے BuyAbility اسکور جیسے ٹولز کے ذریعے قابل استطاعت گفتگو کی رہنمائی کرنا۔ یہ Zillow پر گھر کی تلاش یا فنانسنگ کے اختیارات کو دریافت کرنے کو اتنا ہی فطری بنا سکتا ہے جتنا کسی دوست کے ساتھ گفتگو، اور یہ گھر خریدنے، بیچنے، اور کرائے پر لینے جیسے فیصلوں کو آسان بنانے میں مدد دے سکتا ہے۔

— جوش ویسبرگ، Zillowمیں AIکے سربراہ

gpt-realtime کا تعارف

نیا بات چیت سے بات چیت ماڈل—GPT‑realtime—ہمارا سب سے ایڈوانسڈ، پروڈکشن کے لیے تیار صوتی ماڈل ہے۔ ہم نے ماڈل کو کسٹمرز کے ساتھ قریبی تعاون میں تربیت دیا ہے تاکہ وہ کسٹمر سپورٹ، ذاتی مدد، اور تعلیم جیسے حقیقی دنیا کے ٹاسکس میں مہارت حاصل کر سکے—ماڈل کو اس طرح ہم آہنگ کرتے ہوئے کہ ڈویلپرز وائس ایجنٹس کیسے بناتے اور تعینات کرتے ہیں۔ ماڈل آڈیو کوالٹی، ذہانت، ہدایات پر عمل کرنے، اور فنکشن کالنگ میں بہتری کو ظاہر کرتا ہے۔

آڈیو معیار

قدرتی آواز میں گفتگو حقیقی دنیا میں وائس ایجنٹس کی تعیناتی کے لیے نہایت اہم ہے۔ ماڈل کو ایک پرلطف تجربہ بنائیں اور صارف کے ساتھ مسلسل گفتگو کی حوصلہ افزائی کرنے کے لیے انسان کے لہجے، جذبات اور رفتار کے ساتھ بات کرنے کی ضرورت ہے۔ ہم نے gpt-realtime کو اعلیٰ معیار کی بات چیت پیدا کرنے کے لیے تربیت دی جو زیادہ قدرتی محسوس ہوتی ہے اور باریک ہدایات پر عمل کر سکتا ہے، جیسا کہ "جلدی اور پیشہ ورانہ طور پر بولیں" یا "فرانسیسی لہجے میں ہمدردی سے بولیں۔"

ہم API میں دو نئی آوازیں جاری کر رہے ہیں، Marin اور Cedar، جو قدرتی آواز والی بات چیت میں سب سے زیادہ نمایاں بہتری لاتی ہیں۔ ہم ان بہتریوں سے فائدہ اٹھانے کے لیے اپنی موجودہ آٹھ آوازوں کو بھی اپ ڈیٹ کر رہے ہیں۔

وائس سیمپل - Marin

وائس سیمپل - Cedar

ذہانت اور فہم

gpt-realtime اعلی ذہانت کا مظاہرہ کرتا ہے اور مقامی آڈیو کو زیادہ درستگی کے ساتھ سمجھنے کی صلاحیت رکھتا ہے۔ ماڈل غیر زبانی اشارے (جیسے ہنسی) کو سمجھ سکتا ہے، جملے کے درمیان زبانیں تبدیل کر سکتا ہے، اور لہجے کو ڈھال سکتا ہے (مثلاً، "تیز اور پیشہ ور" بمقابلہ "مہربان اور ہمدرد")۔ اندرونی تشخیصات کے مطابق، یہ ماڈل ہسپانوی، چینی، جاپانی اور فرانسیسی سمیت دیگر زبانوں میں حروف نمبری سلسلے (جیسے فون نمبر، VIN، وغیرہ) کا پتہ لگانے میں بھی زیادہ درست کارکردگی دکھاتا ہے۔ز بگ بینچ آڈیو تشخیص پر استدلال کی صلاحیتوں کی پیمائش کرتے ہوئے، GPT‑realtime نے 82.8% درستگی حاصل کی—ہمارے دسمبر 2024 کے پچھلے ماڈل کو شکست دیتے ہوئے، جس نے 65.6% اسکور کیا۔

Big Bench آڈیو⁠(نئی ونڈو میں کھلتا ہے) بینچ مارک لینگویج ماڈل کی استدلال کی صلاحیتوں کا اندازہ لگانے کے لیے ایک تشخیصی ڈیٹا سیٹ ہے جو آڈیو ان پٹ کو سپورٹ کرتے ہیں۔ یہ ڈیٹا سیٹ Big Bench Hard کے سوالات—جو اس کی سخت جانچ کے لیے منتخب کیا گیا ہے—کو آڈیو شعبہ میں ڈھالتا ہے

ہدایات پر عمل کرنا

جب بات چیت سے بات چیت کی درخواست بنائی جا رہی ہو، تو ڈویلپرز ماڈل کو ہدایات دیتے ہیں کہ کیسے برتاؤ کرنا ہے، بشمول بولنے کا طریقہ، کسی خاص صورتحال میں کیا کہنا ہے، اور کیا کرنا ہے یا نہیں کرنا۔ ہم نے اپنی بہتری کو ان ہدایات کی پابندی پر مرکوز کیا ہے، تاکہ معمولی ہدایات بھی ماڈل کے لیے زیادہ اشارے فراہم کریں۔ درستگی کے بعد ملٹی چیلنج آڈیو بینچ مارک پیمائش کی ہدایات پر، GPT‑realtime اسکور 30.5 فیصد، دسمبر 2024 سے ہمارے پچھلے ماڈل کے مقابلے میں ایک نمایاں بہتری، جس کا اسکور 20.6 فیصد ہے۔

MultiChallenge⁠(نئی ونڈو میں کھلتا ہے) اس بات کا اندازہ کرتا ہے کہ LLMs انسانوں کے ساتھ کثیر باری والی بات چیت کو کتنی اچھی طرح سے سنبھالتے ہیں۔ یہ چار اقسام کے حقیقت پسندانہ چیلنجز پر توجہ مرکوز کرتا ہے جن کے ساتھ موجودہ سرحدی ماڈلز جدوجہد کر رہے ہیں۔ ان چیلنجز کے لیے ماڈلز کو ہدایات پر عمل کرنے، سیاق و سباق کا انتظام، اور سیاق و سباق میں استدلال کو بیک وقت یکجا کرنے کی ضرورت ہوتی ہے۔ ہم نے اس تشخیص کی آڈیو ورژن بنانے کے لیے ٹیسٹ سوالات کے ایک آڈیو دوست ذیلی سیٹ کو متن سے بات چیت میں تبدیل کیا۔

فنکشن کالنگ

بات چیت سے بات چیت ماڈل کے ساتھ ایک قابل وائس ایجنٹ بنانے کے لیے، ماڈل کو پروڈکشن میں کارآمد ہونے کے لیے صحیح وقت پر صحیح ٹولز کو کال کرنے کے قابل ہونا چاہیے۔ ہم نے تین پہلوؤں پر فنکشن کالنگ کو بہتر بنایا ہے: متعلقہ فنکشنز کو کال کرنا، مناسب وقت پر فنکشنز کو کال کرنا، اور مناسب دلائل کے ساتھ فنکشنز کو کال کرنا (جس کے نتیجے میں زیادہ درستگی حاصل ہوتی ہے)۔ ComplexFuncBench آڈیو تشخیص میں فنکشن کالنگ کی کارکردگی کی پیمائش کرتے ہوئے، GPT‑realtime 66.5% اسکور کرتا ہے، جبکہ دسمبر 2024 کا ہمارا پچھلا ماڈل 49.7% اسکور کرتا ہے۔

ہم نے غیر متزامن فنکشن کالنگ⁠(نئی ونڈو میں کھلتا ہے) میں بھی بہتری کی ہے۔ طویل عرصے تک چلنے والی فنکشن کالز اب اجلاس کے بہاؤ میں خلل نہیں ڈالیں گی—ماڈل نتائج کا انتظار کرتے ہوئے روانی سے گفتگو جاری رکھ سکتا ہے۔ یہ خصوصیت مقامی طور پر gpt-realtime میں دستیاب ہے، اس لیے ڈویلپرز کو اپنے کوڈ کو اپ ڈیٹ کرنے کی ضرورت نہیں ہے۔

ComplexFuncBench⁠(نئی ونڈو میں کھلتا ہے) پیمائش کرتا ہے کہ ماڈلز چیلنجنگ فنکشن کالنگ ٹاسکس سے کتنی اچھی طرح سے نمٹتے ہیں۔ یہ کارکردگی کا جائزہ مختلف منظرناموں میں لیتا ہے جیسے کہ ملٹی سٹیپ کالز، رکاوٹوں یا مضمر پیرامیٹرز کے بارے میں استدلال کرنا، اور بہت طویل ان پٹ کو سنبھالنا۔ ہم نے اپنے ماڈل کے لیے اس تشخیص کو بنانے کے لیے اصل متن کے پرامپٹس کو بات چیت میں تبدیل کر دیا۔

Realtime API میں نیا کیا ہے

ریموٹ MCP سرور کے لیے سپورٹ

آپ Realtime API اجلاس میں MCP سپورٹ کو فعال کریں اگر آپ ریموٹ MCP سرور کا URL اجلاس کنفیگریشن میں بھیج دیں۔ ایک بار جڑ جانے کے بعد، API آپ کے لیے ٹول کالز کو خود بخود ہینڈل کر لیتا ہے، اس لیے دستی طور پر انضمام کو وائر اپ کرنے کی ضرورت نہیں ہے۔

یہ سیٹ اپ آپ کے ایجنٹ کو نئی صلاحیتوں کے ساتھ بڑھانا آسان بناتا ہے—بس اجلاس کو ایک مختلف MCP سرور کی طرف اشارہ کریں، اور وہ ٹولز فوراً دستیاب ہو جاتے ہیں۔ حقیقی وقت کے ساتھ MCP کو ترتیب دینے کے بارے میں مزید جاننے کے لیے، یہ گائیڈ⁠(نئی ونڈو میں کھلتا ہے) ملاحظہ کریں۔

JavaScript

1// POST /v1/realtime/client_secrets
2{
3  "session": {
4    "type": "realtime",
5    "tools": [
6      {
7        "type": "mcp",
8        "server_label": "stripe",
9        "server_url": "https://mcp.stripe.com",
10        "authorization": "{access_token}",
11        "require_approval": "never"
12      }
13    ]
14  }
15}
16

تصویری ان پٹ

اب GPT‑realtime میں تصویر ان پٹ کی حمایت کے ساتھ، آپ Realtime API اجلاس میں آڈیو یا متن کے ساتھ تصاویر، فوٹو، اور اسکرین شاٹس شامل کر سکتے ہیں۔ اب ماڈل گفتگو کو اس چیز پر مبنی کر سکتا ہے جو صارف حقیقت میں دیکھ رہا ہے، جس سے صارفین ایسے سوالات پوچھ سکتے ہیں جیسے "آپ کیا دیکھ رہے ہیں؟" یا "اس اسکرین شاٹ میں موجود متن کو پڑھیں۔"

کسی تصویر کو لائیو ویڈیو اسٹریم کی طرح برتاؤ کرنے کے بجائے، نظام اسے گفتگو میں تصویر شامل کرنے کے مترادف سمجھتا ہے۔ آپ کی ایپ یہ فیصلہ کر سکتی ہے کہ کن تصاویر کا ماڈل کے ساتھ اشتراک کرنا ہیں اور کب اشتراک کرنا ہے۔ اس طرح، آپ اس بات پر قابو رکھتے ہیں کہ ماڈل کیا دیکھتا ہے اور کب یہ جواب دیتا ہے۔

تصویری ان پٹ کے ساتھ شروعات کرنے کے لیے ہماری دستاویزات⁠(نئی ونڈو میں کھلتا ہے) ملاحظہ کریں۔

JavaScript

1{
2    "type": "conversation.item.create",
3    "previous_item_id": null,
4    "item": {
5        "type": "message",
6        "role": "user",
7        "content": [
8            {
9                "type": "input_image",
10                "image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11            }
12        ]
13    }
14}
15

اضافی قابلیتیں

ہم نے Realtime API کو ضم کرنے میں آسان اور پروڈکشن کے استعمال کے لیے مزید لچکدار بنانے کے لیے کئی دیگر خصوصیات شامل کی ہیں۔

سیشن انیشیشن پروٹوکول (SIP) سپورٹ: اپنی ایپس کو پبلک فون نیٹ ورک، PBX سسٹمز، ڈیسک فونز، اور دیگر SIP اختتامی نقاط کے ساتھ Realtime API میں براہ راست سپورٹ کے ذریعے مربوط کریں۔ اس کے بارے میں دستاویزات میں پڑھیں۔⁠(نئی ونڈو میں کھلتا ہے)
پرامپٹس: اب آپ پرامپٹس کو محفوظ کر سکتے ہیں اور دوبارہ استعمال کر سکتے ہیں—جن میں ڈویلپر پیغامات، ٹولز، متغیرات، اور مثال کے طور پر صارف/اسسٹنٹ پیغامات شامل ہیں—Realtime API اجلاسوں میں، جیسا کہ ریسپانس API میں۔ دستاویزات میں مزید معلومات حاصل کریں۔⁠(نئی ونڈو میں کھلتا ہے)

حفاظت اور رازداری

Realtime API میں غلط استعمال کو روکنے میں مدد کے لیے متعدد حفاظتی اقدامات اور تخفیف کی تہیں شامل ہیں۔ آپ بِیٹا اعلان کے بلاگ⁠ میں ہمارے حفاظتی نقطہ نظر اور سسٹم کارڈ کی تفصیلات کے بارے میں مزید جان سکتے ہیں۔ ہم Realtime API اجلاس پر فعال درجہ بندی کرنے والوں کو ملازمت دیتے ہیں، یعنی اگر کچھ گفتگوؤں کو ہمارے نقصان دہ مواد کے رہنما اصولوں کی خلاف ورزی کرتے ہوئے پایا جائے تو انہیں روکا جا سکتا ہے۔ ڈویلپرز ایجنٹس SDK⁠(نئی ونڈو میں کھلتا ہے) کو استعمال کرتے ہوئے آسانی سے اپنی اضافی حفاظتی گارڈریل بھی شامل کر سکتے ہیں۔

ہماری استعمال کی پالیسیاں⁠ اسپام، دھوکہ دہی، یا دیگر نقصان دہ مقاصد کے لیے ہماری سروسز سے آؤٹ پٹ کو دوبارہ استعمال کرنے یا تقسیم کرنے سے منع کرتی ہیں۔ ڈویلپرز کو یہ بھی واضح کرنا چاہیے کہ جب صارفین AI کے ساتھ بات چیت کر رہے ہوں، جب تک کہ یہ سیاق و سباق سے پہلے ہی واضح نہ ہو۔ Realtime API بدنیتی پر مبنی عناصر کو دوسروں کی نقالی سے روکنے میں مدد کے لیے پیش سیٹ آوازوں کا استعمال کرتا ہے۔

Realtime API EU پر مبنی درخواستوں کے لیے EU ڈیٹا ریزیڈنسی⁠(نئی ونڈو میں کھلتا ہے) کو مکمل طور پر سپورٹ کرتا ہے اور ہمارے انٹرپرائز پرائیویسی وعدوں⁠ کے تحت شامل ہے۔

قیمتوں کا تعین کرنا اور دستیابی

عام طور پر دستیاب Realtime API اور نیا GPT‑realtime ماڈل آج سے تمام ڈویلپرز کے لیے دستیاب ہے۔ ہم gpt-realtime کی قیمتوں کا تعین کرنے میں 20% کمی کر رہے ہیں gpt-4o-realtime-previewکے مقابلے میں—$32 فی 1M آڈیو ان پٹ ٹوکن ($0.40 فی کیش شدہ ان پٹ ٹوکن) اور $64 فی 1M آڈیو آؤٹ پٹ ٹوکن ( تفصیلی قیمتوں کا تعین⁠(نئی ونڈو میں کھلتا ہے) ملاحظہ کریں)۔ ہم نے بات چیت کے سیاق و سباق کے لیے باریک بین کنٹرول بھی شامل کیا ہے تاکہ ڈویلپرز انٹیلیجینٹ ٹوکن کی حدیں مقرر کر سکیں اور ایک وقت میں متعدد موڑ کو مختصر کر سکیں، جس سے طویل اجلاسوں کی لاگت میں نمایاں کمی واقع ہو گی۔

شروع کرنے کے لیے، ہماری Realtime API دستاویزات⁠(نئی ونڈو میں کھلتا ہے) ملاحظہ کریں، Playground⁠(نئی ونڈو میں کھلتا ہے) میں نئے ماڈل کی جانچ کریں، اور ہماری Realtime API پرامپٹنگ گائیڈ⁠(نئی ونڈو میں کھلتا ہے) ملاحظہ کریں۔

لائیو اسٹریم دوبارہ چلانا

2025

مصنف

OpenAI

پڑھتے رہیں

سب دیکھیں

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 اب Microsoft 365 Copilot میں ترجیحی ماڈل ہے

پروڈکٹ۹ جولائی، ۲۰۲۶

GPT-5.6: جدید ترین انٹیلیجنس جو آپ کے عزائم کے مطابق بڑھتی ہے

پروڈکٹ۹ جولائی، ۲۰۲۶

ChatGPT اب آپ کے سب سے پرعزم کام کا ساتھی ہے

پروڈکٹ۹ جولائی، ۲۰۲۶