production အသံ အေးဂျင့်များအတွက် gpt-realtime နှင့် Realtime API updates ကို မိတ်ဆက်ခြင်း
ပိုမိုအဆင့်မြင့်သော စကားပြော စကားဆို မော်ဒယ်တစ်ခုနှင့် MCP server support၊ image input နှင့် SIP phone calling support အပါအဝင် API စွမ်းရည်အသစ်များကို ကျွန်ုပ်တို့ ထုတ်ပြန်နေပါသည်။

ယနေ့ ကျွန်ုပ်တို့သည် developer များနှင့် enterprise များက ယုံကြည်စိတ်ချရပြီး production-ready အသံ အေးဂျင့်များကို တည်ဆောက်နိုင်စေမည့် feature အသစ်များနှင့်အတူ Realtime API ကို generally available အဖြစ် ထုတ်ပေးလိုက်ပါသည်။ ယခု API သည် remote MCP server များ၊ image input များနှင့် Session Initiation Protocol (SIP) မှတဆင့် phone calling ကို ပံ့ပိုးထားသဖြင့် အပို tools များနှင့် context များကို ရယူနိုင်ပြီး အသံ အေးဂျင့်များကို ပိုမိုစွမ်းဆောင်ရည်မြင့်စေပါသည်။
ကျွန်ုပ်တို့၏ ယနေ့အထိ အဆင့်မြင့်ဆုံး စကားပြော စကားဆို မော်ဒယ်ဖြစ်သည့် gpt-realtime ကိုလည်း ထုတ်ပြန်နေပါသည်။ မော်ဒယ်အသစ်သည် ရှုပ်ထွေးသော ညွှန်ကြားချက်များကို လိုက်နာခြင်း၊ tools များကို တိကျစွာ ခေါ်ယူခြင်းနှင့် ပိုမိုသဘာဝကျပြီး ဖော်ပြချက်စုံလင်သော အသံထုတ်လုပ်ခြင်းတို့တွင် တိုးတက်မှုများကို ပြသထားသည်။ ၎င်းသည် system messages နှင့် developer တုံ့ပြန်ညွှန်ကြားချက် များကို ပိုမိုကောင်းမွန်စွာ နားလည်နိုင်သည်—support call တစ်ခုတွင် disclaimer script များကို စကားလုံးတိုင်းအတိုင်း ဖတ်ပြခြင်း၊ အက္ခရာဂဏန်းများကို ပြန်လည်ဖတ်ပြခြင်း သို့မဟုတ် စာကြောင်းအလယ်တွင် ဘာသာစကားများအကြား ချောမွေ့စွာ ပြောင်းခြင်းတို့အပါအဝင် ဖြစ်သည်။ ယနေ့မှစ၍ Realtime API တွင်သာ သီးသန့်ရရှိနိုင်သော အသံအသစ် Cedar နှင့် Marin ကိုလည်း ထုတ်ပြန်နေပါသည်။
ပြီးခဲ့သည့် October လတွင် Realtime API ကို public beta အဖြစ် ပထမဆုံး မိတ်ဆက်ခဲ့ချိန်မှစ၍ developer ထောင်ပေါင်းများစွာက API ဖြင့် တည်ဆောက်ခဲ့ပြီး ယနေ့ထုတ်ပြန်နေသော တိုးတက်မှုများကို ပုံဖော်ရာတွင် ကူညီခဲ့ကြသည်—production တွင် အသံ အေးဂျင့်များကို အောင်မြင်စွာ deploy လုပ်နိုင်ရန် ယုံကြည်စိတ်ချရမှု၊ latency နည်းမှုနှင့် အရည်အသွေးမြင့်မှုအတွက် optimize လုပ်ထားပါသည်။ speech-to-text နှင့် text-to-speech တစ်လျှောက် မော်ဒယ်အများအပြားကို ချိတ်ဆက်သုံးစွဲရသော ရိုးရာ pipeline များနှင့် မတူဘဲ Realtime API သည် audio ကို မော်ဒယ်တစ်ခုတည်းနှင့် API တစ်ခုတည်းကနေ တိုက်ရိုက် process လုပ်ပြီး generate လုပ်ပေးပါသည်။ ၎င်းကြောင့် latency လျော့နည်းကာ၊ စကားသံ၏ nuance များကို ထိန်းသိမ်းနိုင်ပြီး ပိုမိုသဘာဝကျကာ ဖော်ပြချက်ကောင်းသော တုံ့ပြန်မှုများကို ပေးစွမ်းနိုင်ပါသည်။
“OpenAI ၏ Realtime API ထဲက စကားပြော စကားဆို မော်ဒယ်အသစ်သည် ပိုမိုကောင်းမွန်သော ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော စွမ်းရည်နှင့် ပိုမိုသဘာဝကျသော စကားပြောစွမ်းရည်ကို ပြသပြီး—lifestyle လိုအပ်ချက်များအလိုက် listings များကို ပိုမိုကျဉ်းမြောင်းစွာ ရွေးချယ်ပေးခြင်း သို့မဟုတ် ကျွန်ုပ်တို့၏ BuyAbility score ကဲ့သို့သော tools များဖြင့် affordability ဆွေးနွေးမှုများကို လမ်းညွှန်ပေးခြင်းကဲ့သို့ ရှုပ်ထွေးပြီး အဆင့်များစွာပါသော requests များကို ကိုင်တွယ်နိုင်စေပါတယ်။ ဒါက Zillow ပေါ်မှာ အိမ်ရှာဖွေတာ သို့မဟုတ် ငွေကြေးထောက်ပံ့မှု ရွေးချယ်စရာများကို လေ့လာတာကို သူငယ်ချင်းတစ်ယောက်နဲ့ စကားပြောသလို သဘာဝကျစေပြီး၊ အိမ်ဝယ်ခြင်း၊ ရောင်းခြင်း၊ ငှားရမ်းခြင်းလို ဆုံးဖြတ်ချက်တွေကို ပိုမိုလွယ်ကူစေမှာ ဖြစ်ပါတယ်။”
– Zillow မှ AI အဖွဲ့ခေါင်းဆောင် Josh Weisberg
စကားပြော စကားဆို မော်ဒယ်အသစ် gpt-realtime သည် ကျွန်ုပ်တို့၏ အဆင့်မြင့်ဆုံးဖြစ်ပြီး production-ready အသံ မော်ဒယ် ဖြစ်ပါသည်။ ကျွန်ုပ်တို့သည် customer support၊ personal assistance နှင့် education ကဲ့သို့ လက်တွေ့ကမ္ဘာအလုပ်များတွင် အထူးကောင်းမွန်စေရန် customer များနှင့် နီးကပ်စွာ ပူးပေါင်းကာ မော်ဒယ်ကို လေ့ကျင့်ပေးခဲ့သည်—developer များက အသံ အေးဂျင့်များကို မည်သို့တည်ဆောက်ပြီး deploy လုပ်သည်နှင့် ကိုက်ညီအောင် စီညှိထားပါသည်။ မော်ဒယ်သည် audio quality၊ ဉာဏ်ရည်ဆိုင်ရာ စွမ်းဆောင်ရည်၊ ညွှန်ကြားချက်လိုက်နာမှုနှင့် လုပ်ဆောင်ချက် ခေါ်ဆိုမှု တို့တွင် တိုးတက်မှုများကို ပြသထားသည်။
သဘာဝကျသော စကားဝိုင်းအတွေ့အကြုံသည် လက်တွေ့ကမ္ဘာတွင် အသံ အေးဂျင့်များ deploy လုပ်ရာ၌ အရေးကြီးပါသည်။ ပျော်ရွှင်ဖွယ် အတွေ့အကြုံတစ်ခု ဖန်တီးပြီး အသုံးပြုသူများနှင့် ဆက်လက်ပြောဆိုလိုစိတ်ကို တိုးမြှင့်ရန် မော်ဒယ်များသည် လူတစ်ယောက်၏ လေယူလေသိမ်း၊ စိတ်ခံစားမှုနှင့် စကားပြောနှုန်းတို့ဖြင့် ပြောဆိုနိုင်ရမည်။ ကျွန်ုပ်တို့သည် gpt-realtime ကို ပိုမိုအရည်အသွေးမြင့်သော၊ ပိုမိုသဘာဝကျသော စကားသံ ထုတ်လုပ်နိုင်ပြီး “မြန်မြန်နှင့် ကျွမ်းကျင်စွာ ပြောပါ” သို့မဟုတ် “ပြင်သစ်လေယူလေသိမ်းဖြင့် စာနာစိတ်ပါစွာ ပြောပါ” ကဲ့သို့ အသေးစိတ် ညွှန်ကြားချက်များကို လိုက်နာနိုင်ရန် လေ့ကျင့်ပေးထားပါသည်။
API တွင် သဘာဝကျသော စကားသံအတွက် အထင်ရှားဆုံး တိုးတက်မှုများပါဝင်သည့် အသံအသစ် Marin နှင့် Cedar နှစ်မျိုးကို ထုတ်ပေးနေပါသည်။ ရှိပြီးသား အသံရှစ်မျိုးကိုလည်း ဤတိုးတက်မှုများမှ အကျိုးခံစားနိုင်ရန် update လုပ်နေပါသည်။
gpt-realtime သည် ပိုမိုမြင့်မားသော ဉာဏ်ရည်ကို ပြသပြီး native audio ကို ပိုမိုတိကျစွာ နားလည်နိုင်သည်။ မော်ဒယ်သည် အသံမပါသော အရိပ်အမြွက်များ (ဥပမာ ရယ်သံ) ကို ဖမ်းယူနိုင်ပြီး၊ စာကြောင်းအလယ်တွင် ဘာသာစကားပြောင်းနိုင်ကာ၊ tone ကိုလည်း (“snappy and professional” နှင့် “kind and empathetic” ကဲ့သို့) ပြောင်းလဲချိန်ညှိနိုင်သည်။ အတွင်းပိုင်း အကဲဖြတ်မှုများအရ မော်ဒယ်သည် စပိန်၊ တရုတ်၊ ဂျပန်နှင့် ပြင်သစ်အပါအဝင် အခြားဘာသာစကားများတွင် phone number၊ VIN စသည်ကဲ့သို့သော အက္ခရာဂဏန်းစဉ်များကို သိရှိမှတ်သားရာတွင်လည်း ပိုမိုတိကျသော စွမ်းဆောင်ရည်ကို ပြသထားသည်။ ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော စွမ်းရည်ကို တိုင်းတာသော Big Bench Audio eval တွင် gpt-realtime သည် တိကျမှု 82.8% ရရှိထားပြီး—December 2024 မှ ကျွန်ုပ်တို့၏ ယခင် မော်ဒယ် 65.6% ကို ကျော်လွန်ထားပါသည်။
Big Bench Audio(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) benchmark သည် audio input ကို ပံ့ပိုးသော language model များ၏ ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော စွမ်းရည်များကို အကဲဖြတ်ရန် evaluation dataset တစ်ခုဖြစ်သည်။ ဤ dataset သည် အဆင့်မြင့် reasoning ကို တင်းကျပ်စွာ စမ်းသပ်နိုင်ခြင်းကြောင့် ရွေးချယ်ထားသော Big Bench Hard မှ မေးခွန်းများကို audio domain သို့ ပြောင်းလဲထားသည်။
စကားပြော စကားဆို application တစ်ခုကို တည်ဆောက်ရာတွင် developer များသည် မော်ဒယ်ကို ဘယ်လိုပြုမူရမည်၊ ဘယ်လိုပြောရမည်၊ အခြေအနေတစ်ခုတွင် ဘာပြောရမည်၊ ဘာလုပ်ရမည် သို့မဟုတ် မလုပ်ရမည်တို့ အပါအဝင် ညွှန်ကြားချက်အစုံတစ်ခု ပေးပါသည်။ ဤညွှန်ကြားချက်များကို လိုက်နာနိုင်မှုအပေါ် ကျွန်ုပ်တို့၏ တိုးတက်မှုများကို အဓိကထားခဲ့ပြီး၊ သေးငယ်သော ညွှန်ကြားချက်များပင် မော်ဒယ်အတွက် အဓိပ္ပာယ်ပိုမိုသယ်ဆောင်စေပါသည်။ ညွှန်ကြားချက်လိုက်နာမှု တိကျမှုကို တိုင်းတာသော MultiChallenge audio benchmark တွင် gpt-realtime သည် 30.5% ရရှိထားပြီး၊ December 2024 မှ ကျွန်ုပ်တို့၏ ယခင် မော်ဒယ် 20.6% ထက် သိသိသာသာ တိုးတက်ထားပါသည်။
MultiChallenge(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် LLM များက လူများနှင့် အလှည့်အပြောင်းများစွာပါသော စကားဝိုင်းများကို ဘယ်လောက်ကောင်းကောင်း ကိုင်တွယ်နိုင်သလဲကို အကဲဖြတ်သည်။ ၎င်းသည် လက်ရှိ စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်များအတွက် ခက်ခဲနေဆဲဖြစ်သော လက်တွေ့ဆန်သည့် စိန်ခေါ်မှု အမျိုးအစား လေးမျိုးကို အဓိကထားသည်။ ဤစိန်ခေါ်မှုများသည် မော်ဒယ်များကို ညွှန်ကြားချက်လိုက်နာခြင်း၊ context စီမံခန့်ခွဲမှုနှင့် in-context ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော စွမ်းရည်တို့ကို တစ်ပြိုင်နက်တည်း ပေါင်းစပ်အသုံးချရန် လိုအပ်စေသည်။ ကျွန်ုပ်တို့သည် ဤအကဲဖြတ်မှု၏ audio version တစ်ခု ဖန်တီးရန် စမ်းသပ်မေးခွန်းများထဲမှ audio-friendly subset တစ်ခုကို text-to-speech မှ ပြောင်းခဲ့သည်။
စကားပြော စကားဆို မော်ဒယ်ဖြင့် စွမ်းဆောင်ရည်ရှိသော အသံ အေးဂျင့်တစ်ခု တည်ဆောက်ရန် မော်ဒယ်သည် production တွင် အသုံးဝင်စေရန် မှန်ကန်သော tools များကို မှန်ကန်သောအချိန်၌ ခေါ်နိုင်ရမည်။ ကျွန်ုပ်တို့သည် လုပ်ဆောင်ချက် ခေါ်ဆိုမှုကို အချက်သုံးချက်ပေါ်တွင် တိုးတက်အောင် လုပ်ထားသည်။ သက်ဆိုင်ရာ function များကို ခေါ်ခြင်း၊ သင့်တော်သော အချိန်တွင် function များကို ခေါ်ခြင်းနှင့် သင့်တော်သော arguments များဖြင့် function များကို ခေါ်ခြင်း (ထို့ကြောင့် တိကျမှု ပိုမိုမြင့်မားလာသည်) ဖြစ်သည်။ လုပ်ဆောင်ချက် ခေါ်ဆိုမှု စွမ်းဆောင်ရည်ကို တိုင်းတာသော ComplexFuncBench audio eval တွင် gpt-realtime သည် 66.5% ရရှိထားပြီး၊ December 2024 မှ ကျွန်ုပ်တို့၏ ယခင် မော်ဒယ်မှာ 49.7% ရရှိထားပါသည်။
ကျွန်ုပ်တို့သည် asynchronous function calling(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကိုလည်း တိုးတက်အောင် လုပ်ထားပါသည်။ အချိန်ကြာမြင့်သည့် function calls များက session ၏ flow ကို ထပ်မံ မနှောင့်ယှက်တော့ပါ—မော်ဒယ်သည် ရလဒ်များကို စောင့်နေရင်းပင် ချောမွေ့သော စကားဝိုင်းကို ဆက်လက်လုပ်ဆောင်နိုင်သည်။ ဤ feature ကို gpt-realtime တွင် native အဖြစ် ရရှိနိုင်သောကြောင့် developer များသည် ၎င်းတို့၏ code ကို update လုပ်ရန် မလိုအပ်ပါ။
ComplexFuncBench(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် မော်ဒယ်များက စိန်ခေါ်မှုရှိသော လုပ်ဆောင်ချက် ခေါ်ဆိုမှု တာဝန်များကို ဘယ်လောက်ကောင်းကောင်း ကိုင်တွယ်နိုင်သလဲကို တိုင်းတာသည်။ ၎င်းသည် အဆင့်များစွာပါသော calls များ၊ ကန့်သတ်ချက်များ သို့မဟုတ် အဓိပ္ပာယ်အတွင်းပါ parameter များကို ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော အခြေအနေများ၊ အလွန်ရှည်လျားသော input များကို ကိုင်တွယ်ခြင်း စသည့် scenario များတစ်လျှောက် စွမ်းဆောင်ရည်ကို အကဲဖြတ်သည်။ ကျွန်ုပ်တို့သည် ဤအကဲဖြတ်မှုကို မော်ဒယ်အတွက် တည်ဆောက်ရန် မူရင်း text prompts များကို speech အဖြစ် ပြောင်းခဲ့သည်။
session configuration ထဲသို့ remote MCP server ၏ URL ကို ပို့ခြင်းအားဖြင့် Realtime API session တစ်ခုတွင် MCP support ကို ဖွင့်နိုင်ပါသည်။ ချိတ်ဆက်ပြီးသည်နှင့် API သည် tool calls များကို အလိုအလျောက် ကိုင်တွယ်ပေးမည်ဖြစ်သောကြောင့် integrations များကို ကိုယ်တိုင် ချိတ်ဆက်စရာ မလိုအပ်ပါ။
ဤ setup ကြောင့် သင့် အေးဂျင့်ကို စွမ်းရည်အသစ်များဖြင့် လွယ်ကူစွာ ချဲ့ထွင်နိုင်ပါသည်—session ကို အခြား MCP server တစ်ခုသို့ ညွှန်လိုက်ရုံဖြင့် အဆိုပါ tools များကို ချက်ချင်း အသုံးပြုနိုင်ပါမည်။ Realtime နှင့် MCP ကို မည်သို့ configure လုပ်ရမည်ကို ပိုမိုလေ့လာလိုပါက ဤလမ်းညွှန်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကြည့်ပါ။
gpt-realtime တွင် image input များကို ယခု ပံ့ပိုးထားပြီဖြစ်သောကြောင့် Realtime API session တစ်ခုသို့ audio သို့မဟုတ် text နှင့်အတူ images၊ photos နှင့် screenshots များကို ထည့်နိုင်ပါသည်။ ယခု မော်ဒယ်သည် အသုံးပြုသူ တကယ်မြင်နေသည့်အရာပေါ် အခြေခံ၍ စကားဝိုင်းကို ဆက်လက်နိုင်ပြီဖြစ်သောကြောင့် “ဘာတွေ မြင်လဲ” သို့မဟုတ် “ဒီ screenshot ထဲက စာကို ဖတ်ပြပါ” ကဲ့သို့ မေးခွန်းများကို အသုံးပြုသူများ မေးနိုင်ပါသည်။
image တစ်ခုကို live video stream လို ကိုင်တွယ်မည့်အစား system သည် ၎င်းကို စကားဝိုင်းထဲသို့ ပုံတစ်ပုံ ထည့်သွင်းလိုက်သကဲ့သို့ ပိုမိုကိုင်တွယ်ပါသည်။ သင့် app က မော်ဒယ်နှင့် မည်သည့် images များကို မျှဝေမည်၊ ဘယ်အချိန်တွင် မျှဝေမည်ကို ဆုံးဖြတ်နိုင်ပါသည်။ ဤနည်းဖြင့် မော်ဒယ်က ဘာမြင်မည်နှင့် ဘယ်အချိန်တွင် တုံ့ပြန်မည်ကို သင်က ဆက်လက်ထိန်းချုပ်ထားနိုင်ပါသည်။
image input ကို စတင်အသုံးပြုရန် ကျွန်ုပ်တို့၏ docs(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကြည့်ပါ။
Realtime API ကို ပေါင်းစည်းအသုံးပြုရ လွယ်ကူစေပြီး production အသုံးပြုမှုအတွက် ပိုမိုပြောင်းလွယ်ပြင်လွယ် ဖြစ်စေရန် အခြား feature အများအပြားကိုလည်း ကျွန်ုပ်တို့ ထည့်သွင်းထားပါသည်။
- Session Initiation Protocol (SIP) support: Realtime API တွင် တိုက်ရိုက် support ဖြင့် သင့် app များကို public phone network၊ PBX system များ၊ desk phone များနှင့် အခြား SIP အဆုံးမှတ် များသို့ ချိတ်ဆက်နိုင်ပါသည်။ docs တွင် ဖတ်ရှုပါ။(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)
- Reusable prompts: ယခု developer messages၊ tools၊ variables နှင့် user/assistant example messages များ ပါဝင်သည့် တုံ့ပြန်ညွှန်ကြားချက် များကို Responses API ကဲ့သို့ Realtime API sessions များအကြား သိမ်းဆည်းပြီး ပြန်လည်အသုံးပြုနိုင်ပါပြီ။ docs တွင် ပိုမိုလေ့လာပါ။(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)
Realtime API တွင် အလွဲသုံးစားမှုကို ကာကွယ်ရန် safeguard နှင့် mitigation အလွှာများစွာကို ထည့်သွင်းထားပါသည်။ ကျွန်ုပ်တို့၏ လုံခြုံရေးဆိုင်ရာ နည်းလမ်းနှင့် စနစ်ကဒ် အသေးစိတ်များအကြောင်းကို beta announcement blog တွင် ပိုမိုလေ့လာနိုင်ပါသည်။ Realtime API sessions များပေါ်တွင် active classifier များကို ကျွန်ုပ်တို့ အသုံးပြုထားပြီး၊ ထို့ကြောင့် အန္တရာယ်ရှိသော content လမ်းညွှန်ချက်များကို ချိုးဖောက်သည်ဟု တွေ့ရှိရသော စကားဝိုင်းအချို့ကို ရပ်တန့်နိုင်ပါသည်။ developer များသည် Agents SDK(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို အသုံးပြု၍ ၎င်းတို့၏ ကိုယ်ပိုင် အပို လုံခြုံရေး guardrails များကိုလည်း လွယ်ကူစွာ ထည့်နိုင်ပါသည်။
ကျွန်ုပ်တို့၏ usage policies သည် ကျွန်ုပ်တို့၏ services များမှ output များကို spam၊ လှည့်ဖြားမှု သို့မဟုတ် အခြားအန္တရာယ်ရှိသော ရည်ရွယ်ချက်များအတွက် ပြန်လည်အသုံးချခြင်း သို့မဟုတ် ဖြန့်ဝေခြင်းကို တားမြစ်ထားပါသည်။ context အရ ရှင်းလင်းနေပြီးသား မဟုတ်လျှင် developer များသည်လည်း end user များကို ၎င်းတို့ AI နှင့် အပြန်အလှန် လုပ်ဆောင်နေကြောင်း ရှင်းရှင်းလင်းလင်း အသိပေးရမည်။ Realtime API သည် မကောင်းသော ရည်ရွယ်ချက်ရှိသူများက အခြားသူများကို အယောင်ဆောင်ခြင်းမှ ကာကွယ်ရန် preset voices များကို အသုံးပြုပါသည်။
Realtime API သည် EU အခြေပြု application များအတွက် EU Data Residency(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို အပြည့်အဝ ပံ့ပိုးထားပြီး ကျွန်ုပ်တို့၏ enterprise privacy commitments အောက်တွင်လည်း အကျုံးဝင်ပါသည်။
generally available Realtime API နှင့် gpt-realtime မော်ဒယ်အသစ်ကို ယနေ့မှစ၍ developer အားလုံးအတွက် ရရှိနိုင်ပါသည်။ gpt-realtime ၏ ဈေးနှုန်းကို gpt-4o-realtime-preview နှင့် နှိုင်းယှဉ်လျှင် 20% လျှော့ချထားပါသည်—audio input တိုကင် 1M လျှင် $32 (cached input တိုကင်များအတွက် $0.40) နှင့် audio output တိုကင် 1M လျှင် $64 ( အသေးစိတ်ဈေးနှုန်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကြည့်ပါ)။ conversation context အတွက် fine-grained control ကိုလည်း ထည့်သွင်းထားသဖြင့် developer များက ဉာဏ်ရည်ရှိသော တိုကင် ကန့်သတ်ချက်များကို သတ်မှတ်နိုင်ပြီး turn အများအပြားကို တစ်ကြိမ်တည်း truncate လုပ်နိုင်ကာ ရှည်လျားသော sessions များအတွက် ကုန်ကျစရိတ်ကို သိသိသာသာ လျှော့ချပေးပါသည်။
စတင်အသုံးပြုရန် ကျွန်ုပ်တို့၏ Realtime API documentation(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ဝင်ကြည့်ပါ၊ Playground(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် မော်ဒယ်အသစ်ကို စမ်းသပ်ပါ၊ နှင့် ကျွန်ုပ်တို့၏ Realtime API prompting guide(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကြည့်ရှုပါ။


