
امروز Realtime API را با ویژگیهای جدیدی بهصورت عمومی در دسترس قرار میدهیم که به توسعهدهندگان و شرکتها امکان میدهد عاملهای صوتی قابلاعتماد و آماده برای تولید بسازند. این API اکنون از سرورهای MCP از راه دور، ورودیهای تصویری، و تماس تلفنی از طریق پروتکل شروع جلسه (SIP) پشتیبانی میکند که با فراهم کردن دسترسی به ابزارها و زمینههای بیشتر، توانمندی عاملهای صوتی را افزایش میدهد.
ما همچنین پیشرفتهترین مدل گفتار به گفتار خود را با نام gpt-realtime عرضه میکنیم. این مدل جدید بهبودهایی در دنبال کردن دستورالعملهای پیچیده، فراخوانی دقیق ابزارها، و تولید گفتاری طبیعیتر و بیانگرتر نشان میدهد. این مدل در تفسیر پیامهای سیستمی و درخواستهای توسعهدهندگان بهتر عمل میکند—چه در خواندن دقیق متنهای اطلاعرسانی در تماسهای پشتیبانی، تکرار دقیق ترکیبات حرف و عدد، یا جابجایی روان بین زبانها در میان جمله. ما همچنین دو دستیار صوتی جدید با نامهای Cedar و Marin را معرفی میکنیم که از امروز بهطور انحصاری در Realtime API در دسترس هستند.
از زمانی که اولین نسخه بتای عمومی Realtime API را در اکتبر گذشته معرفی کردیم، هزاران توسعهدهنده با این API کار کردهاند و در شکلگیری بهبودهایی که امروز ارائه میدهیم نقش داشتهاند—این نسخه جدید برای اطمینانپذیری، تأخیر پایین، و کیفیت بالا بهینهسازی شده تا بتوان عاملهای صوتی را با موفقیت در محیطهای تولیدی پیادهسازی کرد. برخلاف روندهای سنتی که چندین مدل جداگانه برای تبدیل گفتار به متن و متن به گفتار را به هم متصل میکنند، Realtime API صدا را مستقیماً از طریق یک مدل و API واحد پردازش و تولید میکند. این رویکرد باعث کاهش تأخیر، حفظ ظرافتهای گفتاری، و تولید پاسخهایی طبیعیتر و پربیانتر میشود.
«مدل جدید گفتار به گفتار در Realtime API از OpenAI توانایی استدلال قویتری دارد و گفتاری طبیعیتر تولید میکند—که به آن امکان میدهد درخواستهای پیچیده و چندمرحلهای را مدیریت کند، مانند محدود کردن فهرستها بر اساس نیازهای سبک زندگی یا هدایت مکالمات مربوط به توان خرید با استفاده از ابزارهایی مانند امتیاز BuyAbility ما.» «این میتواند جستجو برای یک خانه در Zillow یا بررسی گزینههای مالی را بهاندازه یک گفتوگو با یک دوست طبیعی جلوه دهد، و به سادهسازی تصمیماتی مانند خرید، فروش یا اجاره خانه کمک کند.»
– Josh Weisberg، رئیس هوش مصنوعی در Zillow
مدل جدید گفتار به گفتار—gpt-realtime—پیشرفتهترین و آمادهترین مدل صوتی ما برای استفاده در محیطهای تولیدی است. ما این مدل را در همکاری نزدیک با مشتریان آموزش دادیم تا در انجام وظایف دنیای واقعی مانند پشتیبانی مشتری، دستیار شخصی و آموزش عملکرد برجستهای داشته باشد—و آن را با شیوهای که توسعهدهندگان عاملهای صوتی را طراحی و پیادهسازی میکنند، هماهنگ کردیم. این مدل در زمینههای کیفیت صوتی، هوشمندی، پیروی از دستورالعملها، و فراخوانی توابع پیشرفتهای قابل توجهی نشان میدهد.
مکالمهای با صدایی طبیعی برای استقرار عاملهای صوتی در دنیای واقعی بسیار حیاتی است. مدلها باید با لحن، احساسات و سرعت گفتاری مشابه انسان صحبت کنند تا تجربهای دلپذیر ایجاد کرده و کاربران را به ادامه مکالمه تشویق کنند. ما مدل gpt-realtime را طوری آموزش دادیم که گفتاری با کیفیت بالاتر و طبیعیتر تولید کند و بتواند از دستورالعملهای دقیقتری پیروی کند، مانند «با سرعت و حرفهای صحبت کن» یا «با لحنی دلسوزانه و لهجه فرانسوی صحبت کن».
ما دو دستیار صوتی جدید به نامهای Marin و Cedar را در API عرضه میکنیم که بیشترین پیشرفت را در گفتار طبیعی دارند. ما همچنین در حال بهروزرسانی هشت دستیار صوتی موجود خود هستیم تا از این پیشرفتها بهرهمند شوند.
gpt-realtime سطح بالاتری از هوش را نشان میدهد و میتواند محتوای صوتی بومی را با دقت بیشتری درک کند. این مدل قادر است نشانههای غیرکلامی (مانند خنده)، تغییر زبان در میانه جمله، و تطبیق لحن (مثلاً «سریع و حرفهای» در مقابل «مهربان و دلسوز») را تشخیص داده و با آنها سازگار شود. بر اساس ارزیابیهای داخلی، این مدل همچنین عملکرد دقیقتری در شناسایی توالیهای حروفی-عددی (مانند شماره تلفن، شماره شناسایی خودرو (VIN)، و غیره) در زبانهای دیگر از جمله اسپانیایی، چینی، ژاپنی و فرانسوی نشان میدهد. در ارزیابی Big Bench Audio که تواناییهای استدلالی را میسنجد، مدل gpt-realtime دقتی برابر با 82.8٪ کسب کرده است—که از مدل قبلی ما در دسامبر 2024 با دقت 65.6٪ پیشی میگیرد.
ارزیابی Big Bench Audio(در یک پنجره جدید باز میشود) یک مجموعه داده ارزیابی برای سنجش تواناییهای استدلالی مدلهای زبانی است که از ورودی صوتی پشتیبانی میکنند. این مجموعه داده سؤالاتی از Big Bench Hard را—که بهدلیل آزمونهای سختگیرانه در زمینه استدلال پیشرفته انتخاب شدهاند—به حوزه صوتی منتقل میکند.
در هنگام ساخت یک برنامه تبدیل گفتار به گفتار، توسعهدهندگان مجموعهای از دستورالعملها را به مدل ارائه میدهند؛ از جمله نحوه صحبت کردن، آنچه باید در موقعیت خاصی گفته شود، و کارهایی که باید یا نباید انجام دهد. ما تمرکز خود را بر بهبود پایبندی مدل به این دستورالعملها قرار دادهایم، بهطوری که حتی دستورالعملهای جزئی نیز سیگنال مؤثرتری برای مدل داشته باشند. در ارزیابی صوتی MultiChallenge که دقت در پیروی از دستورالعملها را میسنجد، gpt-realtime امتیاز 30.5٪ کسب کرده است، که نسبت به مدل قبلی ما در دسامبر 2024 با امتیاز 20.6٪، پیشرفت قابلتوجهی محسوب میشود.
MultiChallenge(در یک پنجره جدید باز میشود) میزان توانایی مدلهای زبانی بزرگ (LLM) در مدیریت مکالمات چندمرحلهای با انسان را ارزیابی میکند. این ارزیابی بر چهار دسته از چالشهای واقعگرایانه تمرکز دارد که مدلهای پیشرفته فعلی در مواجهه با آنها دچار مشکل هستند. این چالشها نیاز دارند که مدلها بهصورت همزمان در پیروی از دستورالعملها، مدیریت زمینه، و استدلال درونزمینهای عملکرد خوبی داشته باشند. ما برای ساخت نسخه صوتی این ارزیابی، بخشی از سؤالات آزمون که برای صوت مناسب بودند را از متن به گفتار تبدیل کردیم.
برای ساخت یک عامل صوتی توانمند با استفاده از مدل گفتار به گفتار، لازم است که مدل بتواند در زمان مناسب ابزارهای مناسب را فراخوانی کند تا در محیط تولیدی مفید واقع شود. ما عملکرد فراخوانی توابع را در سه محور بهبود دادهایم: فراخوانی توابع مرتبط، انجام فراخوانی در زمان مناسب، و استفاده از آرگومانهای صحیح در فراخوانی توابع (که منجر به دقت بالاتر میشود). در ارزیابی صوتی ComplexFuncBench که عملکرد فراخوانی توابع را میسنجد، مدل gpt-realtime امتیاز 66.5٪ را کسب کرده، در حالی که مدل قبلی ما از دسامبر 2024 امتیاز 49.7٪ داشته است.
ما همچنین بهبودهایی در فراخوانی توابع بهصورت ناهمگام (asynchronous)(در یک پنجره جدید باز میشود) ایجاد کردهایم. فراخوانیهای طولانیمدت توابع دیگر جریان جلسه را مختل نمیکنند—مدل میتواند در حالی که منتظر دریافت نتایج است، مکالمهای روان را ادامه دهد. این ویژگی بهصورت بومی در gpt-realtime در دسترس است، بنابراین توسعهدهندگان نیازی به بهروزرسانی کد خود ندارند.
ComplexFuncBench(در یک پنجره جدید باز میشود) عملکرد مدلها را در انجام وظایف پیچیده مربوط به فراخوانی توابع ارزیابی میکند. این ارزیابی عملکرد را در سناریوهایی مانند فراخوانیهای چندمرحلهای، استدلال درباره محدودیتها یا پارامترهای ضمنی، و مدیریت ورودیهای بسیار طولانی مورد سنجش قرار میدهد. ما برای ساخت این ارزیابی برای مدل خود، پرامپتهای متنی اصلی را به گفتار تبدیل کردیم.
شما میتوانید پشتیبانی از MCP را در یک جلسه Realtime API با وارد کردن آدرس URL یک سرور MCP از راه دور در پیکربندی جلسه فعال کنید. پس از اتصال، API بهصورت خودکار فراخوانی ابزارها را مدیریت میکند، بنابراین نیازی به تنظیم دستی یکپارچهسازیها وجود ندارد.
این تنظیمات باعث میشود افزودن قابلیتهای جدید به عامل صوتیتان بسیار ساده باشد—فقط کافی است جلسه را به یک سرور MCP دیگر ارجاع دهید، و ابزارهای جدید بلافاصله در دسترس قرار میگیرند. برای کسب اطلاعات بیشتر درباره پیکربندی MCP با Realtime، به این راهنما(در یک پنجره جدید باز میشود) مراجعه کنید.
با پشتیبانی از ورودیهای تصویری در gpt-realtime، اکنون میتوانید تصاویر، عکسها و اسکرینشاتها را در کنار صدا یا متن به یک جلسه Realtime API اضافه کنید. این امکان باعث میشود مدل بتواند مکالمه را بر اساس آنچه کاربر واقعاً مشاهده میکند پیش ببرد، و کاربران بتوانند سؤالاتی مانند «چه چیزی میبینی؟» یا «متن داخل این اسکرینشات را بخوان» مطرح کنند.
بهجای اینکه یک تصویر مانند یک جریان ویدیویی زنده در نظر گرفته شود، سیستم آن را بیشتر شبیه به اضافه کردن یک عکس در یک مکالمه در نظر میگیرد. برنامه شما میتواند تصمیم بگیرد که کدام تصاویر را با مدل به اشتراک بگذارد و چه زمانی این کار را انجام دهد. به این ترتیب، شما کنترل کامل دارید که مدل چه چیزی را ببیند و چه زمانی پاسخ دهد.
برای شروع کار با ورودی تصویری، به مستندات ما(در یک پنجره جدید باز میشود) مراجعه کنید.
ما چندین ویژگی دیگر نیز اضافه کردهایم تا Realtime API را برای یکپارچهسازی آسانتر و استفاده انعطافپذیرتر در محیط تولیدی بهبود دهیم.
- پشتیبانی از پروتکل شروع جلسه (SIP): برنامههای خود را با پشتیبانی مستقیم در Realtime API به شبکه عمومی تلفن، سیستمهای PBX، تلفنهای رومیزی، و سایر نقاط انتهایی SIP متصل کنید. برای کسب اطلاعات بیشتر به مستندات مراجعه کنید.(در یک پنجره جدید باز میشود)
- پرامپتهای قابل استفاده مجدد: اکنون میتوانید پرامپتهایی— را که شامل پیامهای توسعهدهنده، ابزارها، متغیرها، و نمونه پیامهای کاربر/دستیار— هستند، ذخیره کرده و در جلسات مختلف Realtime API، مشابه آنچه در Responses API وجود دارد، مجدداً استفاده کنید. برای کسب اطلاعات بیشتر به مستندات مراجعه کنید.(در یک پنجره جدید باز میشود)
Realtime API شامل چندین لایه ایمنی و تدابیر پیشگیرانه است تا از سوءاستفاده جلوگیری کند. میتوانید درباره رویکرد ایمنی ما و جزئیات کارت سیستمی در وبلاگ معرفی نسخه بتا بیشتر مطالعه کنید. ما از طبقهبندهای فعال در جلسات Realtime API استفاده میکنیم، به این معنا که برخی مکالمات در صورت شناسایی بهعنوان محتوای مضر طبق دستورالعملهای ما، ممکن است متوقف شوند. توسعهدهندگان همچنین میتوانند با استفاده از Agents SDK(در یک پنجره جدید باز میشود) بهراحتی تدابیر ایمنی بیشتری به برنامههای خود اضافه کنند.
سیاستهای استفاده ما استفاده مجدد یا توزیع خروجیهای خدماتمان برای اهدافی مانند هرزنامه، فریب، یا سایر مقاصد مضر را ممنوع میکند. توسعهدهندگان همچنین باید بهطور شفاف به کاربران نهایی اطلاع دهند که در حال تعامل با هوش مصنوعی هستند، مگر اینکه این موضوع از زمینه مکالمه بهوضوح مشخص باشد. Realtime API از صداهای از پیش تعیینشده استفاده میکند تا از سوءاستفاده و جعل هویت توسط افراد مخرب جلوگیری کند.
Realtime API بهطور کامل از اقامت داده در اتحادیه اروپا (EU Data Residency)(در یک پنجره جدید باز میشود) برای برنامههای مستقر در اتحادیه اروپا پشتیبانی میکند و مشمول تعهدات حریم خصوصی سطح سازمانی ما میباشد.
Realtime API که اکنون بهصورت عمومی در دسترس است، به همراه مدل جدید gpt-realtime از امروز برای همه توسعهدهندگان قابل استفاده میباشد. ما قیمت gpt-realtime را نسبت به gpt-4o-realtime-preview به میزان 20٪ کاهش دادهایم—32 دلار برای هر یک میلیون token ورودی صوتی (0.40 دلار برای tokenهای ورودی کششده) و 64 دلار برای هر یک میلیون token خروجی صوتی (جزئیات قیمتگذاری را در اینجا(در یک پنجره جدید باز میشود) ببینید). ما همچنین امکان کنترل دقیقتری برای زمینه مکالمه اضافه کردهایم تا توسعهدهندگان بتوانند محدودیتهای هوشمندانهای برای tokenها تعیین کنند و چندین نوبت گفتگو را همزمان کوتاه کنند، که این کار هزینه جلسات طولانی را بهطور قابلتوجهی کاهش میدهد.
برای شروع، به مستندات Realtime API(در یک پنجره جدید باز میشود) مراجعه کنید، مدل جدید را در محیط Playground(در یک پنجره جدید باز میشود) آزمایش کنید، و راهنمای پرامپتنویسی Realtime API(در یک پنجره جدید باز میشود) را مشاهده نمایید.


