پرش به محتوای اصلی
OpenAI

۶ شهریور ۱۴۰۴

محصولانتشار

معرفی به‌روزرسانی‌های gpt-realtime و Realtime API برای عوامل صوتی تولید

ما در حال انتشار یک مدل پیشرفته‌تر تبدیل گفتار به گفتار و قابلیت‌های جدیدی برای API هستیم که شامل پشتیبانی از سرور MCP، ورودی تصویر، و پشتیبانی از تماس تلفنی SIP می‌شود.

رابط کاربری استایل‌دار که یک تعامل صوتی را نشان می‌دهد. در مرکز، یک پخش‌کننده صوتی مستطیلی با گوشه‌های گرد قرار دارد که شامل تجسم موج صوتی، دکمه پخش/توقف، نشانگر وضعیت «Agent online» و زمان‌نما با مقدار 00:35 است. خطوط منحنی سفید با نقطه‌هایی در سراسر تصویر جریان دارند که نشان‌دهنده صوت زنده یا حرکت سیگنال هستند. پس‌زمینه آبی زنده است با اشکال گل مانند محوشده در تن‌های صورتی و بنفش.
در حال بارگذاری…

امروز Realtime API را با ویژگی‌های جدیدی به‌صورت عمومی در دسترس قرار می‌دهیم که به توسعه‌دهندگان و شرکت‌ها امکان می‌دهد عامل‌های صوتی قابل‌اعتماد و آماده برای تولید بسازند. این API اکنون از سرورهای MCP از راه دور، ورودی‌های تصویری، و تماس تلفنی از طریق پروتکل شروع جلسه (SIP) پشتیبانی می‌کند که با فراهم کردن دسترسی به ابزارها و زمینه‌های بیشتر، توانمندی عامل‌های صوتی را افزایش می‌دهد.

ما همچنین پیشرفته‌ترین مدل گفتار به گفتار خود را با نام gpt-realtime عرضه می‌کنیم. این مدل جدید بهبودهایی در دنبال کردن دستورالعمل‌های پیچیده، فراخوانی دقیق ابزارها، و تولید گفتاری طبیعی‌تر و بیان‌گرتر نشان می‌دهد. این مدل در تفسیر پیام‌های سیستمی و درخواست‌های توسعه‌دهندگان بهتر عمل می‌کند—چه در خواندن دقیق متن‌های اطلاع‌رسانی در تماس‌های پشتیبانی، تکرار دقیق ترکیبات حرف و عدد، یا جابجایی روان بین زبان‌ها در میان جمله. ما همچنین دو دستیار صوتی جدید با نام‌های Cedar و Marin را معرفی می‌کنیم که از امروز به‌طور انحصاری در Realtime API در دسترس هستند.

از زمانی که اولین نسخه بتای عمومی Realtime API را در اکتبر گذشته معرفی کردیم، هزاران توسعه‌دهنده با این API کار کرده‌اند و در شکل‌گیری بهبودهایی که امروز ارائه می‌دهیم نقش داشته‌اند—این نسخه جدید برای اطمینان‌پذیری، تأخیر پایین، و کیفیت بالا بهینه‌سازی شده تا بتوان عامل‌های صوتی را با موفقیت در محیط‌های تولیدی پیاده‌سازی کرد. برخلاف روندهای سنتی که چندین مدل جداگانه برای تبدیل گفتار به متن و متن به گفتار را به هم متصل می‌کنند، Realtime API صدا را مستقیماً از طریق یک مدل و API واحد پردازش و تولید می‌کند. این رویکرد باعث کاهش تأخیر، حفظ ظرافت‌های گفتاری، و تولید پاسخ‌هایی طبیعی‌تر و پر‌بیان‌تر می‌شود.

«مدل جدید گفتار به گفتار در Realtime API از OpenAI توانایی استدلال قوی‌تری دارد و گفتاری طبیعی‌تر تولید می‌کند—که به آن امکان می‌دهد درخواست‌های پیچیده و چندمرحله‌ای را مدیریت کند، مانند محدود کردن فهرست‌ها بر اساس نیازهای سبک زندگی یا هدایت مکالمات مربوط به توان خرید با استفاده از ابزارهایی مانند امتیاز BuyAbility ما.» «این می‌تواند جستجو برای یک خانه در Zillow یا بررسی گزینه‌های مالی را به‌اندازه یک گفت‌وگو با یک دوست طبیعی جلوه دهد، و به ساده‌سازی تصمیماتی مانند خرید، فروش یا اجاره خانه کمک کند.»

– Josh Weisberg، رئیس هوش مصنوعی در Zillow

معرفی gpt-realtime

مدل جدید گفتار به گفتار—gpt-realtime—پیشرفته‌ترین و آماده‌ترین مدل صوتی ما برای استفاده در محیط‌های تولیدی است. ما این مدل را در همکاری نزدیک با مشتریان آموزش دادیم تا در انجام وظایف دنیای واقعی مانند پشتیبانی مشتری، دستیار شخصی و آموزش عملکرد برجسته‌ای داشته باشد—و آن را با شیوه‌ای که توسعه‌دهندگان عامل‌های صوتی را طراحی و پیاده‌سازی می‌کنند، هماهنگ کردیم. این مدل در زمینه‌های کیفیت صوتی، هوشمندی، پیروی از دستورالعمل‌ها، و فراخوانی توابع پیشرفت‌های قابل توجهی نشان می‌دهد.

کیفیت صدا

مکالمه‌ای با صدایی طبیعی برای استقرار عامل‌های صوتی در دنیای واقعی بسیار حیاتی است. مدل‌ها باید با لحن، احساسات و سرعت گفتاری مشابه انسان صحبت کنند تا تجربه‌ای دلپذیر ایجاد کرده و کاربران را به ادامه مکالمه تشویق کنند. ما مدل gpt-realtime را طوری آموزش دادیم که گفتاری با کیفیت بالاتر و طبیعی‌تر تولید کند و بتواند از دستورالعمل‌های دقیق‌تری پیروی کند، مانند «با سرعت و حرفه‌ای صحبت کن» یا «با لحنی دلسوزانه و لهجه فرانسوی صحبت کن».

ما دو دستیار صوتی جدید به نام‌های Marin و Cedar را در API عرضه می‌کنیم که بیشترین پیشرفت را در گفتار طبیعی دارند. ما همچنین در حال به‌روزرسانی هشت دستیار صوتی موجود خود هستیم تا از این پیشرفت‌ها بهره‌مند شوند.

نمونه دستیار صوتی - Marin
نمونه دستیار صوتی - Cedar

هوش و درک مطلب

gpt-realtime سطح بالاتری از هوش را نشان می‌دهد و می‌تواند محتوای صوتی بومی را با دقت بیشتری درک کند. این مدل قادر است نشانه‌های غیرکلامی (مانند خنده)، تغییر زبان در میانه جمله، و تطبیق لحن (مثلاً «سریع و حرفه‌ای» در مقابل «مهربان و دلسوز») را تشخیص داده و با آن‌ها سازگار شود. بر اساس ارزیابی‌های داخلی، این مدل همچنین عملکرد دقیق‌تری در شناسایی توالی‌های حروفی-عددی (مانند شماره تلفن، شماره شناسایی خودرو (VIN)، و غیره) در زبان‌های دیگر از جمله اسپانیایی، چینی، ژاپنی و فرانسوی نشان می‌دهد. در ارزیابی Big Bench Audio که توانایی‌های استدلالی را می‌سنجد، مدل gpt-realtime دقتی برابر با 82.8٪ کسب کرده است—که از مدل قبلی ما در دسامبر 2024 با دقت 65.6٪ پیشی می‌گیرد.

ارزیابی Big Bench Audio(در یک پنجره جدید باز می‌شود) یک مجموعه داده ارزیابی برای سنجش توانایی‌های استدلالی مدل‌های زبانی است که از ورودی صوتی پشتیبانی می‌کنند. این مجموعه داده سؤالاتی از Big Bench Hard را—که به‌دلیل آزمون‌های سخت‌گیرانه در زمینه استدلال پیشرفته انتخاب شده‌اند—به حوزه صوتی منتقل می‌کند.

پیروی از دستورالعمل

در هنگام ساخت یک برنامه تبدیل گفتار به گفتار، توسعه‌دهندگان مجموعه‌ای از دستورالعمل‌ها را به مدل ارائه می‌دهند؛ از جمله نحوه صحبت کردن، آنچه باید در موقعیت خاصی گفته شود، و کارهایی که باید یا نباید انجام دهد. ما تمرکز خود را بر بهبود پایبندی مدل به این دستورالعمل‌ها قرار داده‌ایم، به‌طوری که حتی دستورالعمل‌های جزئی نیز سیگنال مؤثرتری برای مدل داشته باشند. در ارزیابی صوتی MultiChallenge که دقت در پیروی از دستورالعمل‌ها را می‌سنجد، gpt-realtime امتیاز 30.5٪ کسب کرده است، که نسبت به مدل قبلی ما در دسامبر 2024 با امتیاز 20.6٪، پیشرفت قابل‌توجهی محسوب می‌شود.

MultiChallenge(در یک پنجره جدید باز می‌شود) میزان توانایی مدل‌های زبانی بزرگ (LLM) در مدیریت مکالمات چندمرحله‌ای با انسان را ارزیابی می‌کند. این ارزیابی بر چهار دسته از چالش‌های واقع‌گرایانه تمرکز دارد که مدل‌های پیشرفته فعلی در مواجهه با آن‌ها دچار مشکل هستند. این چالش‌ها نیاز دارند که مدل‌ها به‌صورت هم‌زمان در پیروی از دستورالعمل‌ها، مدیریت زمینه، و استدلال درون‌زمینه‌ای عملکرد خوبی داشته باشند. ما برای ساخت نسخه صوتی این ارزیابی، بخشی از سؤالات آزمون که برای صوت مناسب بودند را از متن به گفتار تبدیل کردیم.

فراخوانی تابع

برای ساخت یک عامل صوتی توانمند با استفاده از مدل گفتار به گفتار، لازم است که مدل بتواند در زمان مناسب ابزارهای مناسب را فراخوانی کند تا در محیط تولیدی مفید واقع شود. ما عملکرد فراخوانی توابع را در سه محور بهبود داده‌ایم: فراخوانی توابع مرتبط، انجام فراخوانی در زمان مناسب، و استفاده از آرگومان‌های صحیح در فراخوانی توابع (که منجر به دقت بالاتر می‌شود). در ارزیابی صوتی ComplexFuncBench که عملکرد فراخوانی توابع را می‌سنجد، مدل gpt-realtime امتیاز 66.5٪ را کسب کرده، در حالی که مدل قبلی ما از دسامبر 2024 امتیاز 49.7٪ داشته است.

ما همچنین بهبودهایی در فراخوانی توابع به‌صورت ناهمگام (asynchronous)(در یک پنجره جدید باز می‌شود) ایجاد کرده‌ایم. فراخوانی‌های طولانی‌مدت توابع دیگر جریان جلسه را مختل نمی‌کنند—مدل می‌تواند در حالی که منتظر دریافت نتایج است، مکالمه‌ای روان را ادامه دهد. این ویژگی به‌صورت بومی در gpt-realtime در دسترس است، بنابراین توسعه‌دهندگان نیازی به به‌روزرسانی کد خود ندارند.

ComplexFuncBench(در یک پنجره جدید باز می‌شود) عملکرد مدل‌ها را در انجام وظایف پیچیده مربوط به فراخوانی توابع ارزیابی می‌کند. این ارزیابی عملکرد را در سناریوهایی مانند فراخوانی‌های چندمرحله‌ای، استدلال درباره محدودیت‌ها یا پارامترهای ضمنی، و مدیریت ورودی‌های بسیار طولانی مورد سنجش قرار می‌دهد. ما برای ساخت این ارزیابی برای مدل خود، پرامپت‌های متنی اصلی را به گفتار تبدیل کردیم.

ویژگی‌های جدید در Realtime API

پشتیبانی از سرور MCP از راه دور

شما می‌توانید پشتیبانی از MCP را در یک جلسه Realtime API با وارد کردن آدرس URL یک سرور MCP از راه دور در پیکربندی جلسه فعال کنید. پس از اتصال، API به‌صورت خودکار فراخوانی ابزارها را مدیریت می‌کند، بنابراین نیازی به تنظیم دستی یکپارچه‌سازی‌ها وجود ندارد.

این تنظیمات باعث می‌شود افزودن قابلیت‌های جدید به عامل صوتی‌تان بسیار ساده باشد—فقط کافی است جلسه را به یک سرور MCP دیگر ارجاع دهید، و ابزارهای جدید بلافاصله در دسترس قرار می‌گیرند. برای کسب اطلاعات بیشتر درباره پیکربندی MCP با Realtime، به این راهنما(در یک پنجره جدید باز می‌شود) مراجعه کنید.

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

ورودی تصویری

با پشتیبانی از ورودی‌های تصویری در gpt-realtime، اکنون می‌توانید تصاویر، عکس‌ها و اسکرین‌شات‌ها را در کنار صدا یا متن به یک جلسه Realtime API اضافه کنید. این امکان باعث می‌شود مدل بتواند مکالمه را بر اساس آنچه کاربر واقعاً مشاهده می‌کند پیش ببرد، و کاربران بتوانند سؤالاتی مانند «چه چیزی می‌بینی؟» یا «متن داخل این اسکرین‌شات را بخوان» مطرح کنند.

به‌جای اینکه یک تصویر مانند یک جریان ویدیویی زنده در نظر گرفته شود، سیستم آن را بیشتر شبیه به اضافه کردن یک عکس در یک مکالمه در نظر می‌گیرد. برنامه شما می‌تواند تصمیم بگیرد که کدام تصاویر را با مدل به اشتراک بگذارد و چه زمانی این کار را انجام دهد. به این ترتیب، شما کنترل کامل دارید که مدل چه چیزی را ببیند و چه زمانی پاسخ دهد.

برای شروع کار با ورودی تصویری، به مستندات ما(در یک پنجره جدید باز می‌شود) مراجعه کنید.

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

قابلیت‌های اضافی

ما چندین ویژگی دیگر نیز اضافه کرده‌ایم تا Realtime API را برای یکپارچه‌سازی آسان‌تر و استفاده انعطاف‌پذیرتر در محیط تولیدی بهبود دهیم.

ایمنی و حریم خصوصی

Realtime API شامل چندین لایه ایمنی و تدابیر پیشگیرانه است تا از سوءاستفاده جلوگیری کند. می‌توانید درباره رویکرد ایمنی ما و جزئیات کارت سیستمی در وبلاگ معرفی نسخه بتا بیشتر مطالعه کنید. ما از طبقه‌بندهای فعال در جلسات Realtime API استفاده می‌کنیم، به این معنا که برخی مکالمات در صورت شناسایی به‌عنوان محتوای مضر طبق دستورالعمل‌های ما، ممکن است متوقف شوند. توسعه‌دهندگان همچنین می‌توانند با استفاده از Agents SDK(در یک پنجره جدید باز می‌شود) به‌راحتی تدابیر ایمنی بیشتری به برنامه‌های خود اضافه کنند.

سیاست‌های استفاده ما استفاده مجدد یا توزیع خروجی‌های خدمات‌مان برای اهدافی مانند هرزنامه، فریب، یا سایر مقاصد مضر را ممنوع می‌کند. توسعه‌دهندگان همچنین باید به‌طور شفاف به کاربران نهایی اطلاع دهند که در حال تعامل با هوش مصنوعی هستند، مگر اینکه این موضوع از زمینه مکالمه به‌وضوح مشخص باشد. Realtime API از صداهای از پیش تعیین‌شده استفاده می‌کند تا از سوءاستفاده و جعل هویت توسط افراد مخرب جلوگیری کند.

Realtime API به‌طور کامل از اقامت داده در اتحادیه اروپا (EU Data Residency)(در یک پنجره جدید باز می‌شود) برای برنامه‌های مستقر در اتحادیه اروپا پشتیبانی می‌کند و مشمول تعهدات حریم خصوصی سطح سازمانی ما می‌باشد.

قیمت گذاری و در دسترس بودن

Realtime API که اکنون به‌صورت عمومی در دسترس است، به همراه مدل جدید gpt-realtime از امروز برای همه توسعه‌دهندگان قابل استفاده می‌باشد. ما قیمت gpt-realtime را نسبت به gpt-4o-realtime-preview به میزان 20٪ کاهش داده‌ایم—32 دلار برای هر یک میلیون token ورودی صوتی (0.40 دلار برای token‌های ورودی کش‌شده) و 64 دلار برای هر یک میلیون token خروجی صوتی (جزئیات قیمت‌گذاری را در اینجا(در یک پنجره جدید باز می‌شود) ببینید). ما همچنین امکان کنترل دقیق‌تری برای زمینه مکالمه اضافه کرده‌ایم تا توسعه‌دهندگان بتوانند محدودیت‌های هوشمندانه‌ای برای tokenها تعیین کنند و چندین نوبت گفتگو را همزمان کوتاه کنند، که این کار هزینه جلسات طولانی را به‌طور قابل‌توجهی کاهش می‌دهد.

بازپخش زنده

نویسنده

OpenAI