
اليوم نجعل واجهة برمجة التطبيقات الفورية Realtime API متاحة بشكل عام مع ميزات جديدة تمكّن المطورين والشركات من بناء وكلاء صوت موثوقين وجاهزين للإنتاج. تدعم واجهة برمجة التطبيقات الآن خوادم MCP البعيدة، وإدخالات الصور، والمكالمات الهاتفية عبر بروتوكول بدء الجلسة (SIP)، مما يعزز من قدرات وكلاء الصوت من خلال إتاحة الوصول إلى أدوات وسياقات إضافية.
كما أننا نُصدر أيضًا نموذجنا الأكثر تقدمًا لتحويل الكلام إلى كلام حتى الآن—gpt-realtime. يُظهر النموذج الجديد تحسينات في اتباع التعليمات المعقدة، واستدعاء الأدوات بدقة، وإنتاج كلام يبدو أكثر طبيعية وتعبيرًا. كما أنه أفضل في تفسير رسائل النظام وطلبات المُطورين—سواء أكان ذلك من خلال قراءة نصوص إخلاء المسؤولية كلمة بكلمة في مكالمة دعم، أم تكرار الحروف الأبجدية الرقمية، أم التبديل بسلاسة بين اللغات في منتصف الجملة. كما نقوم أيضًا بإصدار صوتين جديدين، Cedar و Marin، واللذين يتوفران حصريًا في واجهة برمجة التطبيقات Realtime بدءًا من اليوم.
منذ أن قدمنا واجهة برمجة التطبيقات Realtime لأول مرة في الإصدار التجريبي العام في أكتوبر الماضي، قام آلاف المطورين بالبناء باستخدام واجهة برمجة التطبيقات وساعدوا على تشكيل التحسينات التي نصدرها اليوم - والتي تم تحسينها لتحقيق الموثوقية وانخفاض زمن الوصول والجودة العالية لنشر وكلاء الصوت بنجاح في الإنتاج. وعلى عكس المسارات التقليدية التي تربط بين نماذج متعددة عبر تحويل الكلام إلى نص وتحويل النص إلى كلام، تقوم واجهة برمجة التطبيقات Realtime بمعالجة الصوت وتوليده مباشرةً من خلال نموذج وواجهة برمجة تطبيقات واحدة. ويقلل هذا من زمن الاستجابة، ويحافظ على الفروق الدقيقة في الكلام، وينتج استجابات أكثر طبيعية وتعبيرًا.
يعرض النموذج الجديد لتحويل الكلام إلى كلام في Realtime API من OpenAI قدرة أقوى على التفكير وكلامًا أكثر طبيعية—مما يتيح له التعامل مع الطلبات المعقدة متعددة الخطوات مثل تضييق القوائم وفقًا لاحتياجات نمط الحياة أو توجيه مناقشات القدرة على تحمل التكاليف باستخدام أدوات مثل درجة BuyAbility. هذا قد يجعل البحث عن منزل على Zillow أو استكشاف خيارات التمويل يبدو طبيعياً مثل المحادثة مع صديق، مما يساعد في تبسيط قرارات مثل شراء وبيع واستئجار منزل."
– Josh Weisberg، رئيس قسم الذكاء الاصطناعي في Zillow
النموذج الجديد لتحويل الكلام إلى كلام —gpt-realtime—هو أكثر نماذج الصوت تطورًا وجاهزية للإنتاج. لقد قمنا بتدريب النموذج بالتعاون الوثيق مع العملاء للتفوق في المهام الواقعية مثل دعم العملاء والمساعدة الشخصية والتعليم - مما يتوافق مع كيفية قيام المطورين ببناء وكلاء الصوت ونشرهم. يُظهر النموذج تحسينات في جودة الصوت، والذكاء، واتباع التعليمات، واستدعاء الوظائف.
المحادثة التي تبدو طبيعية أمر بالغ الأهمية لنشر وكلاء الصوت في العالم الحقيقي. يجب أن تتحدث النماذج بنبرة وعاطفة وسرعة الإنسان لإنشاء تجربة ممتعة وتشجيع المحادثة المستمرة مع المستخدمين. لقد قمنا بتدريب نموذج GPT‑realtime على إنتاج كلام عالي الجودة يبدو أكثر طبيعية ويمكنه اتباع تعليمات دقيقة مثل "التحدث بسرعة واحترافية" أو "التحدث بعاطفة بلكنة فرنسية".
نحن بصدد إطلاق صوتين جديدين في واجهة برمجة التطبيقات (API)، وهما Marin و Cedar، مع تحسينات كبيرة في جودة الصوت الطبيعي. نحن نقوم أيضًا بتحديث أصواتنا الثمانية الحالية للاستفادة من هذه التحسينات.
يُظهر نموذج gpt-realtime ذكاءً أعلى ويمكنه فهم الصوت الأصلي بدقة أكبر. يمكن للنموذج التقاط الإشارات غير اللفظية (مثل الضحكات)، وتبديل اللغات في منتصف الجملة، وتكييف النبرة ("سريع ومهني" مقابل "لطيف ومتعاطف"). وفقًا للتقييمات الداخلية، يُظهر النموذج أيضًا أداءً أكثر دقة في اكتشاف التسلسلات الأبجدية الرقمية (مثل أرقام الهواتف وأرقام VIN وما إلى ذلك) بلغات أخرى، بما في ذلك الإسبانية والصينية واليابانية والفرنسية. في تقييم Big Bench Audio لقياس قدرات التفكير، حقق نموذج gpt-realtime دقة بنسبة 82.8% — متفوقًا على نموذجنا السابق الذي طرحناه في ديسمبر 2024، والذي حقق دقة بنسبة 65.6%.
معيار Big Bench Audio(يفتح في نافذة جديدة) هو مجموعة بيانات لتقييم قدرات الاستدلال في النماذج اللغوية التي تدعم الإدخال الصوتي. تقوم مجموعة البيانات هذه بتكييف الأسئلة من Big Bench Hard - والتي تم اختيارها لاختبارها الدقيق للمنطق المتقدم - في المجال الصوتي.
عند بناء تطبيق لتحويل الكلام إلى كلام، يُقدّم المطوّرون مجموعة من التعليمات للنموذج حول كيفية التصرف، بما في ذلك كيفية التحدث، وما الذي يجب قوله في موقف معين، وما الذي يجب فعله أو تجنبه. لقد ركزنا تحسيناتنا على الالتزام بهذه التعليمات، بحيث تحمل حتى التوجيهات البسيطة إشارة أقوى للنموذج. في معيار MultiChallenge الصوتي الذي يقيس دقة اتباع التعليمات، يحقق gpt-realtime نسبة 30.5%، وهو تحسن ملحوظ عن نموذجنا السابق الذي طرحناه في ديسمبر 2024، الذي يحقق نسبة 20.6%.
يقوم MultiChallenge(يفتح في نافذة جديدة) بتقييم مدى كفاءة النماذج اللغوية الكبيرة في التعامل مع المحادثات متعددة الأدوار مع البشر. يركز على أربع فئات من التحديات الواقعية التي تواجهها النماذج الحدودية الحالية. تتطلب هذه التحديات من النماذج دمج اتباع التعليمات، وإدارة السياق، والتفكير في السياق بشكل متزامن. لقد قمنا بتحويل مجموعة فرعية من أسئلة الاختبار الملائمة للصوت من النص إلى كلام لإنشاء نسخة صوتية من هذا التقييم.
لبناء وكيل صوتي فعّال باستخدام نموذج تحويل الكلام إلى كلام، يجب أن يكون النموذج قادرًا على استدعاء الأدوات المناسبة في الوقت المناسب ليكون مفيدًا في الإنتاج. لقد حسّنا استدعاء الوظائف على ثلاثة محاور: استدعاء الوظائف ذات الصلة، واستدعاء الوظائف في الوقت المناسب، واستدعاء الوظائف باستخدام الوسائط المناسبة (مما يؤدي إلى دقة أعلى). في تقييم ComplexFuncBench للأداء الصوتي لقياس أداء استدعاء الوظائف، يسجل gpt-realtime نسبة 66.5%، بينما يسجل نموذجنا السابق من ديسمبر 2024 نسبة 49.7%.
لقد قمنا أيضًا بإجراء تحسينات على استدعاء الوظائف غير المتزامن(يفتح في نافذة جديدة). لن تعيق استدعاءات الوظائف طويلة الأمد تدفق الجلسة بعد الآن—يمكن للنموذج متابعة محادثة سلسة أثناء انتظار النتائج. هذه الميزة متوفرة بشكل أصلي في gpt-realtime، لذا لا يحتاج مطورون إلى تحديث رمزهم البرمجي.
يقيس ComplexFuncBench(يفتح في نافذة جديدة) مدى جودة تعامل النماذج مع مهام استدعاء الوظائف المعقدة. يقوم بتقييم الأداء عبر سيناريوهات مثل الاستدعاءات متعددة الخطوات، والاستدلال على القيود أو المعلمات الضمنية، والتعامل مع الإدخالات الطويلة جدًا. قمنا بتحويل طلبات النصوص الأصلية إلى كلام لإنشاء هذا التقييم لنموذجنا.
يمكنكم تمكين دعم MCP في جلسة Realtime API عن طريق تمرير عنوان URL لخادم MCP بعيد إلى تكوين الجلسة. بمجرد الاتصال، تتولى واجهة برمجة التطبيقات (API) تلقائيًا معالجة استدعاءات الأداة نيابةً عنك، لذا لا داعي لإجراء عمليات التكامل يدويًا.
يجعل هذا الإعداد من السهل توسيع نطاق الوكيل الخاص بك بإمكانيات جديدة - ما عليك سوى توجيه الجلسة إلى خادم MCP مختلف، وستصبح هذه الأدوات متاحة على الفور. لتتعرّف على المزيد حول كيفية تكوين MCP باستخدام Realtime، تفضّل بقراءة هذا الدليل(يفتح في نافذة جديدة).
مع دعم إدخالات الصور الآن في gpt-realtime، يمكنك إضافة الصور، واللقطات، ولقطات الشاشة إلى جانب الصوت أو النص إلى جلسة Realtime API. الآن يمكن للنموذج أن يربط المحادثة بما يراه المستخدم فعليًا، مما يتيح للمستخدمين طرح أسئلة مثل "ماذا ترى؟" أو "اقرأ النص الذي يظهر في لقطة الشاشة هذه."
بدلاً من التعامل مع الصورة وكأنها بث فيديو مباشر، يعاملها النظام كما لو كانت إضافة صورة إلى المحادثة. كما يمكن لتطبيقك أن يقرر الصور التي ستتم مشاركتها مع النموذج، ويحدد أيضًا وقت مشاركتها. وبهذه الطريقة، تبقى مسيطرًا على ما يراه النموذج ووقت الاستجابة له.
تفضل بالاطلاع على وثائقنا(يفتح في نافذة جديدة) للبدء في إدخال الصور.
لقد أضفنا العديد من الميزات الأخرى لجعل واجهة برمجة التطبيقات Realtime API أسهل في التكامل وأكثر مرونة للاستخدام في الإنتاج.
- دعم بروتوكول بدء الجلسة (SIP): قم بربط تطبيقاتك بشبكة الهاتف العامة، وأنظمة PBX، والهواتف المكتبية، وأجهزة SIP الأخرى مع الحصول على دعم مباشر في Realtime API. اقرأ عن ذلك في الوثائق.(يفتح في نافذة جديدة)
- طلبات قابلة لإعادة الاستخدام: يمكنكم الآن حفظ وإعادة استخدام الطلبات—التي تتضمن رسائل المطورين، الأدوات، المتغيرات، ورسائل المستخدم/المساعد النموذجية—عبر جلسات Realtime API، كما هو الحال في Responses API (واجهة برمجة تطبيقات الاستجابات). تعرّف على المزيد في الوثائق.(يفتح في نافذة جديدة)
تتضمن واجهة Realtime API عدة طبقات من الضمانات والتدابير الوقائية للمساعدة في منع إساءة الاستخدام. يمكنك معرفة المزيد عن نهج الأمان وتفاصيل بطاقة النظام في مدونة الإعلان عن النسخة التجريبية. نستخدم مصنفات نشطة عبر جلسات Realtime API، مما يعني أن بعض المحادثات يمكن إيقافها إذا تم اكتشافها على أنها تخالف إرشادات المحتوى الضار لدينا. يمكن للمطورين أيضًا إضافة حواجز أمان إضافية بسهولة باستخدام Agents SDK(يفتح في نافذة جديدة).
تحظر سياسات الاستخدام الخاصة بنا إعادة استخدام أو توزيع مخرجات خدماتنا لأغراض الرسائل المزعجة أو الخداع أو الأغراض الضارة الأخرى. يجب على المطورين أيضًا توضيح ذلك للمستخدمين النهائيين عند تفاعلهم مع الذكاء الاصطناعي، إلا إذا كان ذلك واضحًا بالفعل من السياق. تستخدم واجهة Realtime API أصواتًا محددة مسبقًا للمساعدة في منع الجهات الخبيثة من انتحال هوية الآخرين.
تدعم واجهة برمجة التطبيقات Realtime -بشكل كامل- إقامة البيانات في الاتحاد الأوروبي(يفتح في نافذة جديدة) للتطبيقات القائمة في الاتحاد الأوروبي وتغطيها التزاماتنا المتعلقة بخصوصية المؤسسات.
تتوفر واجهة Realtime API المتاحة للاستخدام العام والنموذج الجديد gpt-realtime لجميع المُطورين بدءًا من اليوم. نحن نقوم بخفض الأسعار لنموذج gpt-realtime بنسبة 20% مقارنة بنموذج gpt-4o-realtime-preview—32 دولارًا لكل مليون رمز مميز للإدخالات الصوتية (0.40 دولارًا لرمز الإدخال المميز المؤقت) و64 دولارًا / مليون رمز مميز للمخرجات الصوتية (انظر الأسعار التفصيلية(يفتح في نافذة جديدة)). كما أضفنا تحكمًا دقيقًا في سياق المحادثة للسماح للمطورين بتحديد حدود ذكية للرموز المميّزة واختصار عدة أدوار في كل مرة، مما يقلل بشكل كبير من تكلفة الجلسات الطويلة.
للبدء، يُرجى زيارة وثائق واجهة برمجة التطبيقات Realtime(يفتح في نافذة جديدة) الخاصة بنا، واختبار النموذج الجديد في Playground(يفتح في نافذة جديدة)، والاطلاع على دليل مطالبات واجهة برمجة التطبيقات Realtime(يفتح في نافذة جديدة).


