২৮ আগস্ট, ২০২৫

ভয়েস এজেন্ট প্রোডাকশনের জন্য gpt-realtime এবং Realtime API আপডেট এর পরিচিতি

আমরা আরও উন্নত স্পিচ-টু-স্পিচ মডেল এবং নতুন API সক্ষমতা রিলিজ করছি যার মধ্যে রয়েছে MCP সার্ভার সাপোর্ট, চিত্র ইনপুট এবং SIP ফোন কলিং সাপোর্ট.

স্টাইলাইজড ইন্টারফেসে একটি ভয়েস ইন্টারঅ্যাকশন প্রদর্শিত হচ্ছে. সেন্টারড হল একটি গোলাকার আয়তাকার অডিও প্লেয়ার যার একটি ওয়েভফর্ম ভিজ্যুয়ালাইজেশন, প্লে/পজ বোতাম, "এজেন্ট অনলাইন" স্ট্যাটাস ইন্ডিকেটর এবং 00:35 টাইমস্ট্যাম্প রয়েছে. ছবিতে ডটযুক্ত সাদা বাঁকা রেখা প্রবাহিত হলে, লাইভ অডিও বা সিগন্যাল চলাচলের ইঙ্গিত দেয়. ব্যাকগ্রাউন্ড উজ্জ্বল নীল রঙের, গোলাপী এবং বেগুনি রঙের অস্পষ্ট ফুলের আকৃতির.

লোডিং…

আজ আমরা রিয়েলটাইম API কে নতুন ফিচার সহ সাধারণভাবে উপলব্ধ করছি এর ফলে ডেভেলপার এবং এন্টারপ্রাইজগুলি নির্ভরযোগ্য, প্রোডাকশন রেডি ভয়েস এজেন্ট তৈরি করতে পারবে. API এখন সেশন ইনিশিয়েশন প্রোটোকল (SIP) এর মাধ্যমে রিমোট MCP সার্ভার, ছবি ইনপুট এবং ফোন কলিং সাপোর্ট, যা অতিরিক্ত টুলস এবং কনটেক্সটে অ্যাক্সেসের মাধ্যমে ভয়েস এজেন্টদের আরও সক্ষম করে তোলে.

আমরা আমাদের সবচেয়ে উন্নত স্পিচ-টু-স্পিচ মডেলটি রিলিজ করছি—gpt-realtime. নতুন মডেলটি জটিল নির্দেশাবলী অনুসরণ, নির্ভুলতার সাথে টুলস কলিং এবং আরও স্বাভাবিক এবং অভিব্যক্তিপূর্ণ শব্দ তৈরি করতে পারে. এটি সিস্টেম মেসেজ এবং ডেভেলপার প্রম্পট ব্যাখ্যা করার ক্ষেত্রে আরও ভালো - তা সে সাপোর্ট কলে ডিসক্লেমার স্ক্রিপ্টগুলি শব্দের পর শব্দ পড়া, বর্ণমালা পুনরাবৃত্তি করা, অথবা বাক্যের মাঝখানে ভাষার মধ্যে নির্বিঘ্নে স্যুইচ করা যাই হোক না কেন. আমরা দুটি নতুন ভয়েস, সিডার এবং মেরিনও প্রকাশ করছি, যা আজ থেকে রিয়েলটাইম API-তে একচেটিয়াভাবে উপলব্ধ.

গত অক্টোবরে আমরা প্রথমবারের মতো পাবলিক বিটাতে রিয়েলটাইম API চালু করার পর থেকে, হাজার হাজার ডেভেলপার API ব্যবহার করে তৈরি করেছেন এবং আজ আমরা যে উন্নতিগুলি প্রকাশ করছি তা রূপ দিতে সাহায্য করেছেন - নির্ভরযোগ্যতা, কম ল্যাটেন্সি এবং উচ্চ মানের জন্য অপ্টিমাইজ করা হয়েছে যাতে উৎপাদনে ভয়েস এজেন্ট সফলভাবে স্থাপন করা যায়. স্পিচ-টু-টেক্সট এবং টেক্সট-টু-স্পিচ এ একাধিক মডেলকে একত্রিত করে এমন ঐতিহ্যবাহী পাইপলাইনের বিপরীতে, রিয়েলটাইম API সরাসরি একটি একক মডেল এবং API এর মাধ্যমে অডিও প্রক্রিয়াকরণ করে এবং জেনারেট করে. এতে বিলম্ব হ্রাস করে, স্পিচে সূক্ষ্মতা বজায় রাখে এবং আরও স্বাভাবিক, অভিব্যক্তিপূর্ণ প্রতিউত্তর তৈরি করে.

“OpenAI-এর রিয়েলটাইম API-তে নতুন স্পিচ-টু-স্পিচ মডেলটি আরও শক্তিশালী রিজনিং এবং আরও স্বাভাবিক স্পিচ সম্ভব হয়েছে— যার ফলে এটি জীবনযাত্রার চাহিদা অনুসারে তালিকা সংকুচিত করা বা আমাদের BuyAbility স্কোরের মতো টুলসগুলির সাহায্যে সাশ্রয়ী মূল্যের আলোচনা পরিচালনা করার মতো জটিল, বহু-পদক্ষেপের অনুরোধগুলি পরিচালনা করতে সক্ষম.” এর ফলে Zillow তে বাড়ি খোঁজা বা অর্থায়নের বিকল্পগুলি অন্বেষণ করা বন্ধুর সাথে কথোপকথনের মতোই স্বাভাবিক মনে হতে পারে, যা বাড়ি কেনা, বিক্রি করা এবং ভাড়া নেওয়ার মতো সিদ্ধান্তগুলিকে সহজ করতে সাহায্য করবে.”

– জশ ওয়েইসবার্গ, এআই প্রধান, Zillow

gpt-realtime পরিচিতি

নতুন স্পিচ-টু-স্পিচ মডেল—GPT‑realtime—আমাদের সবচেয়ে উন্নত, প্রোডাকশন-রেডি ভয়েস মডেল. আমরা গ্রাহকদের সাথে ঘনিষ্ঠ সহযোগিতায় মডেলটিকে প্রশিক্ষণ দিয়েছি যাতে তারা গ্রাহক সহায়তা, ব্যক্তিগত সহায়তা এবং শিক্ষার মতো বাস্তব-বিশ্বের কাজে দক্ষতা অর্জন করতে পারে—ডেভেলপাররা কীভাবে ভয়েস এজেন্ট তৈরি এবং স্থাপন করে তার সাথে মডেলটিকে অ্যাডজাস্ট করে. মডেলটি অডিও কোয়ালিটি, বুদ্ধিমত্তা, নির্দেশনা অনুসরণ এবং ফাংশন কলিং-এর ক্ষেত্রে উন্নতি ঘটেছে.

অডিও কোয়ালিটি

বাস্তবে ভয়েস এজেন্ট প্রয়োগের ক্ষেত্রে স্বাভাবিক-শব্দযুক্ত কথোপকথন অত্যন্ত গুরুত্বপূর্ণ. মডেলকে মানুষের স্বর, আবেগ এবং গতিতে কথা বলতে হবে যাতে তারা একটি উপভোগ্য অভিজ্ঞতা তৈরি সম্ভব হয় এবং ব্যবহারকারীদের ক্রমাগত কথোপকথনকে উৎসাহিত করতে পারে. আমরা gpt-realtime কে উচ্চমানের স্পিচ তৈরি করার প্রশিক্ষণ দিয়েছি যা আরও স্বাভাবিক শোনায় এবং সূক্ষ্ম নির্দেশাবলী অনুসরণ করতে পারে, যেমন "দ্রুত এবং পেশাদারভাবে কথা বলুন" অথবা "ফরাসি উচ্চারণে সহানুভূতির সাথে কথা বলুন".

আমরা API-তে দুটি নতুন ভয়েস রিলিজ করছি, ন্যাচারাল-সাউন্ডিং স্পিচের ক্ষেত্রে সবচেয়ে উল্লেখযোগ্য অগ্রগতি বিশিষ্ট মেরিন এবং সিডার. এই অগ্রগতি থেকে উপকৃত হওয়ার জন্য আমরা আমাদের বিদ্যমান আটটি ভয়েসও আপডেট করছি.

ভয়েস স্যাম্পল - মেরিনয়েয়ে

ভয়েস স্যাম্পল - সিডার

বুদ্ধিমত্তা এবং বোঝাপড়া

gpt-realtime উচ্চতর বুদ্ধিমত্তা প্রদর্শন করে এবং অধীক নির্ভুলতার সাথে নেটিভ অডিও বুঝতে পারে. মডেলটি অ-মৌখিক ইঙ্গিত (যেমন হাসি) ধরতে পারে, বাক্যের মাঝখানে ভাষা পরিবর্তন করতে পারে এবং স্বর ("চটপটে এবং পেশাদার" বনাম "দয়ালু এবং সহানুভূতিশীল") মানিয়ে নিতে পারে. অভ্যন্তরীণ মূল্যায়ন অনুসারে, মডেলটি স্প্যানিশ, চীনা, জাপানি এবং ফরাসি সহ অন্যান্য ভাষায় বর্ণসংখ্যার ক্রম (যেমন ফোন নম্বর, VIN ইত্যাদি) সনাক্তকরণে আরও উপযুক্ত কর্মক্ষমতা প্রদর্শন করে. বিগ বেঞ্চ অডিও মূল্যায়ন মেজারিং রিজনিং ক্যাপাবিলিটিতে, gpt-realtime 82.8% নির্ভুলতা স্কোর করেছে—যা আমাদের ডিসেম্বর 2024 সালের পূর্ববর্তী মডেলটিকে ছাড়িয়ে গেছে, যার স্কোর 65.6%.

বিগ বেঞ্চ অডিও⁠(একটি নতুন উইন্ডোতে খোলে) বেঞ্চমার্ক হল অডিও ইনপুট সাপোর্ট করা ল্যাঙ্গুয়েজ মডেলগুলির রিজনিং ক্ষমতা মূল্যায়নের জন্য একটি মূল্যায়ন ডেটাসেট. এই ডেটাসেটটি বিগ বেঞ্চ হার্ড থেকে প্রশ্নগুলিকে —অডিও ডোমেইনে রূপান্তরিত করে—যা অ্যাডভান্সড রিজনিং টেস্টিংয়ের জন্য নির্বাচিত.

নির্দেশনা অনুসরণ

স্পিচ-টু-স্পিচ অ্যাপ্লিকেশন তৈরি করার সময়, কীভাবে আচরণ করতে হবে সে বিষয়ে ডেভেলপাররা মডেলটিকে কিছু নির্দেশনা দেয়, যার মধ্যে রয়েছে কীভাবে কথা বলতে হবে, নির্দিষ্ট পরিস্থিতিতে কী বলতে হবে এবং কী করতে হবে বা করতে হবে না. আমরা আমাদের উন্নতিগুলিকে এই নির্দেশাবলী মেনে চলার উপর গুরুত্ব দিয়েছি, যাতে ছোটখাটো দিকনির্দেশনাও মডেলের জন্য আরও বেশি সিগনাল বহন করে. মাল্টিচ্যালেঞ্জ অডিও বেঞ্চমার্কে নির্দেশনা অনুসরণের নির্ভুলতা পরিমাপের ক্ষেত্রে, GPT‑realtime 30.5% স্কোর করেছে, যা ডিসেম্বর 2024-এর আমাদের পূর্ববর্তী মডেলের 20.6% স্কোরের তুলনায় একটি উল্লেখযোগ্য উন্নতি.

MultiChallenge⁠(একটি নতুন উইন্ডোতে খোলে) মূল্যায়ন করে যে LLM মানুষের সাথে বহু-পর্যায়ের কথোপকথন কতটা ভালোভাবে পরিচালনা করে. এটি চারটি শ্রেণীর বাস্তব চ্যালেঞ্জের উপর গুরুত্ব দেয় যা বর্তমান ফ্রন্টায়ার মডেলগুলিতে করা কঠিন. এই চ্যালেঞ্জগুলির জন্য মডেলকে একই সাথে নির্দেশনা-অনুসরণ, প্রসঙ্গ ব্যবস্থাপনা এবং প্রসঙ্গ-ভিত্তিক রিজনিং সমন্বয় করতে হয়. এই মূল্যায়নের একটি অডিও সংস্করণ তৈরি করতে আমরা টেস্টিংয়ের প্রশ্নগুলির একটি অডিও-বান্ধব উপসেটকে টেক্সট-টু-স্পিচ এ রূপান্তর করেছি.

ফাংশন কলিং

স্পিচ-টু-স্পিচ মডেল সহ একটি দক্ষ ভয়েস এজেন্ট তৈরি করতে, মডেলটিকে প্রোডাকশনে কার্যকর হওয়ার জন্য সঠিক সময়ে সঠিক টুলসগুলি কল করতে সক্ষম হতে হবে. আমরা তিনটি অক্ষে ফাংশন কলিং উন্নত করেছি: প্রাসঙ্গিক ফাংশন কল করা, উপযুক্ত সময়ে ফাংশন কল করা এবং উপযুক্ত আর্গুমেন্ট সহ ফাংশন কল করা (যার ফলে উচ্চ নির্ভুলতা পাওয়া যায়). ComplexFuncBench অডিও মূল্যায়ন মেজারিং ফাংশন কলিং পারফরম্যান্সে, gpt-realtime স্কোর করেছে 66.5%, যেখানে আমাদের ডিসেম্বর 2024-এর পূর্ববর্তী মডেলটি 49.7% স্কোর করেছে.

আমরা অ্যাসিঙ্ক্রোনাস ফাংশন কলিং⁠(একটি নতুন উইন্ডোতে খোলে)-এও উন্নতি করেছি. দীর্ঘ সময়ের ফাংশন কল আর কোনও সেশনের প্রবাহকে ব্যাহত করবে না - ফলাফলের জন্য অপেক্ষা করার সময় মডেলটি একটি সাবলীল কথোপকথন চালিয়ে যেতে পারবে. এই ফিচার gpt-realtime-এ নেটিভভাবে উপলব্ধ, তাই ডেভেলপারদের তাদের কোড আপডেট করতে হবে না.

ComplexFuncBench⁠(একটি নতুন উইন্ডোতে খোলে) পরিমাপ করে, মডেলগুলি চ্যালেঞ্জিং ফাংশন কলিং কতটা ভালোভাবে পরিচালনা করতে পারে. এটি বহু-পদক্ষেপ কল, সীমাবদ্ধতা বা অন্তর্নিহিত প্যারামিটার সম্পর্কে রিজনিং, খুব দীর্ঘ ইনপুট পরিচালনার মতো পরিস্থিতিতে কর্মক্ষমতা মূল্যায়ন করে. আমাদের মডেলের জন্য এই মূল্যায়ন তৈরি করতে মূল টেক্সট প্রম্পটগুলিকে স্পিচে রূপান্তর করেছি.

Realtime API-তে নতুন

রিমোট MCP সার্ভার সাপোর্ট

আপনি একটি রিমোট MCP সার্ভারের URL সেশন কনফিগারেশনে পাস করে একটি রিয়েলটাইম API সেশনে MCP সাপোর্ট চালু করতে পারবেন. একবার কানেক্ট হয়ে গেলে, API স্বয়ংক্রিয়ভাবে আপনার জন্য টুল কলগুলি পরিচালনা করে, তাই ইন্টিগ্রেশনগুলিকে ম্যানুয়ালি সংযুক্ত করার কোনও প্রয়োজন নেই.

এই সেটআপের ফলে আপনার এজেন্টের নতুন সক্ষমতা বাড়ে—শুধুমাত্র সেশনটিকে একটি ভিন্ন MCP সার্ভারে নির্দেশ করুন, এবং সেই টুলসগুলি অবিলম্বে উপলব্ধ হয়ে যাবে.ঞ Realtime এর MCP কনফিগার করার বিষয়ে আরও জানতে, এই গাইডটি দেখুন.⁠(একটি নতুন উইন্ডোতে খোলে)

JavaScript

1// POST /v1/realtime/client_secrets
2{
3  "session": {
4    "type": "realtime",
5    "tools": [
6      {
7        "type": "mcp",
8        "server_label": "stripe",
9        "server_url": "https://mcp.stripe.com",
10        "authorization": "{access_token}",
11        "require_approval": "never"
12      }
13    ]
14  }
15}
16

চিত্র ইনপুট

gpt-realtime এ এখন চিত্র ইনপুট সপোর্ট করে, আপনি Realtime API সেশনে অডিও বা টেক্সটের পাশাপাশি ছবি, ছবি এবং স্ক্রিনশট যোগ করতে পারবেন. এখন মডেলটি ব্যবহারকারী আসলে কী দেখছেন তার উপর ভিত্তি করে কথোপকথনটি তৈরি করতে পারে, যার ফলে ব্যবহারকারীরা "আপনি কী দেখছেন?" অথবা "এই স্ক্রিনশটের লেখাটি পড়ুন" এর মতো প্রশ্ন জিজ্ঞাসা করতে পারেন.

কোনও চিত্রকে লাইভ ভিডিও স্ট্রিম হিসেবে বিবেচনা করার পরিবর্তে, সিস্টেমটি এটিকে কথোপকথনে একটি ছবি যোগ করার মতোই বিবেচনা করে. মডেলে কোন ছবিগুলি এবং কখন শেয়ার করবেন তা আপনার অ্যাপটি সিদ্ধান্ত নিতে পারে. এইভাবে, মডেলটি কী দেখবে এবং কখন সাড়া দেবে তার উপর আপনার নিয়ন্ত্রণ থাকবে.

চিত্র ইনপুট দিয়ে শুরু করতে আমাদের docs⁠(একটি নতুন উইন্ডোতে খোলে) দেখুন.

JavaScript

1{
2    "type": "conversation.item.create",
3    "previous_item_id": null,
4    "item": {
5        "type": "message",
6        "role": "user",
7        "content": [
8            {
9                "type": "input_image",
10                "image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11            }
12        ]
13    }
14}
15

অতিরিক্ত সক্ষমতা

সহজে রিয়েলটাইম APIকে ইন্টিগ্রেট করা এবং প্রোডাকশনে জন্য আরও নমনীয় করার জন্য আমরা আরও বেশ কয়েকটি ফিচার যুক্ত করেছি.

সেশন ইনিশিয়েশন প্রোটোকল (SIP) সাপোর্ট: রিয়েলটাইম API-তে সরাসরি সাপোর্টের মাধ্যমে আপনার অ্যাপগুলিকে পাবলিক ফোন নেটওয়ার্ক, PBX সিস্টেম, ডেস্ক ফোন এবং অন্যান্য SIP এন্ডপয়েন্টের সাথে সংযুক্ত করুন. docs সম্পর্কে পড়ুন.⁠(একটি নতুন উইন্ডোতে খোলে)
পুনঃব্যবহারযোগ্য প্রম্পট: আপনি এখন রিয়েলটাইম API সেশনে, Responses API এর মতো, —ডেভেলপার মেসেজ, টুলস, ভেরিয়েবল এবং উদাহরণ ব্যবহারকারী/সহকারী মেসেজ—সমন্বিত প্রম্পটগুলি সেভ এবং পুনঃব্যবহার করতে পারবেন.া ডকুমেন্টেশনে আরও জানুন.⁠(একটি নতুন উইন্ডোতে খোলে)

নিরাপত্তা এবং গোপনীয়তা

রিয়েলটাইম API অপব্যবহার প্রতিরোধে সহায়তা করার জন্য সুরক্ষা এবং প্রশমনের একাধিক স্তর অন্তর্ভুক্ত করে. আপনি আমাদের নিরাপত্তা পদ্ধতি এবং সিস্টেম কার্ডের বিবরণ সম্পর্কে বিটা ঘোষণা ব্লগ⁠ থেকে আরও জানতে পারবেন. আমরা রিয়েলটাইম API সেশনের জন্য সক্রিয় ক্লাসিফায়ার ব্যবহার করি, যার অর্থ হল কিছু কথোপকথন যদি আমাদের ক্ষতিকারক কন্টেন্ট নির্দেশনা লঙ্ঘন সনাক্ত হলে তা বন্ধ করা সম্ভব. ডেভেলপাররা এজেন্ট SDK⁠(একটি নতুন উইন্ডোতে খোলে) ব্যবহার করে সহজেই তাদের নিজস্ব অতিরিক্ত সুরক্ষা ব্যবস্থা যোগ করতে পারবেন.

আমাদের ব্যবহারিক নীতিতে⁠ স্প্যাম, প্রতারণা, বা অন্যান্য ক্ষতিকারক উদ্দেশ্যে আমাদের পরিষেবা থেকে আউটপুট পুনঃপ্রয়োগ বা বিতরণ নিষিদ্ধ. ডেভেলপারদের অবশ্যই AI এর সাথে ইন্টারঅ্যাক্ট করার সময় ব্যবহারকারীদের কাছে এটি স্পষ্ট করে বলতে হবে, যদি না এটি ইতিমধ্যেই প্রেক্ষাপট থেকে স্পষ্ট হয়. রিয়েলটাইম API প্রিসেট ভয়েস ব্যবহার করে যাতে দুর্বৃত্তরা অন্যদের ছদ্মবেশ ধারণ করতে না পারে.

EU-ভিত্তিক অ্যাপ্লিকেশনের জন্য রিয়েলটাইম API সম্পূর্ণরূপে EU ডেটা রেসিডেন্সি⁠(একটি নতুন উইন্ডোতে খোলে) সাপোর্ট করে এবং আমাদের এন্টারপ্রাইজ গোপনীয়তার প্রতিশ্রুতি⁠ এর আওতাভুক্ত.

প্রাইসিং ও উপলব্ধতা

সাধারণভাবে উপলব্ধ Realtime API এবং নতুন gpt-realtime মডেল আজ থেকে সব ডেভেলপারদের জন্য অ্যাক্সেসযোগ্য. আমরা gpt-realtime-এর মূল্য gpt-4o-realtime-preview-এর তুলনায় 20% কমাচ্ছি—$32 / 1 মিলিয়ন অডিও ইনপুট টোকেন (ক্যাশেড ইনপুট টোকেনের জন্য $0.40) এবং $64 / 1 মিলিয়ন অডিও আউটপুট টোকেন (বিস্তারিত মূল্য⁠(একটি নতুন উইন্ডোতে খোলে) দেখুন). আমরা কথোপকথনের প্রসঙ্গের জন্য সূক্ষ্ম নিয়ন্ত্রণও যুক্ত করেছি যাতে ডেভেলপাররা ইন্টেলিজেন্ট টোকেন সীমা নির্ধারণ করতে পারে এবং একসাথে একাধিক পালা কাটাতে পারে, যা দীর্ঘ সেশনের খরচ উল্লেখযোগ্যভাবে হ্রাস করে.

শুরু করতে, আমাদের Realtime API ডকুমেন্টেশন⁠(একটি নতুন উইন্ডোতে খোলে) দেখুন, Playground⁠(একটি নতুন উইন্ডোতে খোলে)-এ নতুন মডেলটি টেস্ট করুন, এবং আমাদের Realtime API প্রম্পটিং গাইড⁠(একটি নতুন উইন্ডোতে খোলে) দেখুন.