၂၀၂၅ ဩဂုတ် ၂၈

production အသံ အေးဂျင့်များအတွက် gpt-realtime နှင့် Realtime API updates ကို မိတ်ဆက်ခြင်း

ပိုမိုအဆင့်မြင့်သော စကားပြော စကားဆို မော်ဒယ်တစ်ခုနှင့် MCP server support၊ image input နှင့် SIP phone calling support အပါအဝင် API စွမ်းရည်အသစ်များကို ကျွန်ုပ်တို့ ထုတ်ပြန်နေပါသည်။

အသံအပြန်အလှန် ဆက်သွယ်မှုကို ပြသထားသော ဒီဇိုင်းဆန်သော interface တစ်ခု။ အလယ်တွင် လှိုင်းပုံ waveform မြင်ကွင်း၊ play/pause ခလုတ်၊ “အေးဂျင့် online” အခြေအနေပြ မီးလုံးနှင့် 00:35 အချိန်ပြထားသော ထောင့်ဝိုင်းစတုဂံပုံ audio player တစ်ခုရှိသည်။ အစက်များပါသော အဖြူရောင် ကွေးလိုင်းများသည် ပုံတစ်လျှောက် စီးဆင်းနေပြီး တိုက်ရိုက်အသံ သို့မဟုတ် signal ရွေ့လျားမှုကို ညွှန်းဆိုသည်။ နောက်ခံမှာ ပြင်းတောက်သော အပြာရောင်ဖြစ်ပြီး ပန်းရောင်နှင့် ခရမ်းရောင်သဏ္ဌာန် မှိန်ဝါးသော ပန်းပုံစံများ ပါရှိသည်။

ဖွင့်နေသည်…

ယနေ့ ကျွန်ုပ်တို့သည် developer များနှင့် enterprise များက ယုံကြည်စိတ်ချရပြီး production-ready အသံ အေးဂျင့်များကို တည်ဆောက်နိုင်စေမည့် feature အသစ်များနှင့်အတူ Realtime API ကို generally available အဖြစ် ထုတ်ပေးလိုက်ပါသည်။ ယခု API သည် remote MCP server များ၊ image input များနှင့် Session Initiation Protocol (SIP) မှတဆင့် phone calling ကို ပံ့ပိုးထားသဖြင့် အပို tools များနှင့် context များကို ရယူနိုင်ပြီး အသံ အေးဂျင့်များကို ပိုမိုစွမ်းဆောင်ရည်မြင့်စေပါသည်။

ကျွန်ုပ်တို့၏ ယနေ့အထိ အဆင့်မြင့်ဆုံး စကားပြော စကားဆို မော်ဒယ်ဖြစ်သည့် gpt-realtime ကိုလည်း ထုတ်ပြန်နေပါသည်။ မော်ဒယ်အသစ်သည် ရှုပ်ထွေးသော ညွှန်ကြားချက်များကို လိုက်နာခြင်း၊ tools များကို တိကျစွာ ခေါ်ယူခြင်းနှင့် ပိုမိုသဘာဝကျပြီး ဖော်ပြချက်စုံလင်သော အသံထုတ်လုပ်ခြင်းတို့တွင် တိုးတက်မှုများကို ပြသထားသည်။ ၎င်းသည် system messages နှင့် developer တုံ့ပြန်ညွှန်ကြားချက် များကို ပိုမိုကောင်းမွန်စွာ နားလည်နိုင်သည်—support call တစ်ခုတွင် disclaimer script များကို စကားလုံးတိုင်းအတိုင်း ဖတ်ပြခြင်း၊ အက္ခရာဂဏန်းများကို ပြန်လည်ဖတ်ပြခြင်း သို့မဟုတ် စာကြောင်းအလယ်တွင် ဘာသာစကားများအကြား ချောမွေ့စွာ ပြောင်းခြင်းတို့အပါအဝင် ဖြစ်သည်။ ယနေ့မှစ၍ Realtime API တွင်သာ သီးသန့်ရရှိနိုင်သော အသံအသစ် Cedar နှင့် Marin ကိုလည်း ထုတ်ပြန်နေပါသည်။

ပြီးခဲ့သည့် October လတွင် Realtime API ကို public beta အဖြစ် ပထမဆုံး မိတ်ဆက်ခဲ့ချိန်မှစ၍ developer ထောင်ပေါင်းများစွာက API ဖြင့် တည်ဆောက်ခဲ့ပြီး ယနေ့ထုတ်ပြန်နေသော တိုးတက်မှုများကို ပုံဖော်ရာတွင် ကူညီခဲ့ကြသည်—production တွင် အသံ အေးဂျင့်များကို အောင်မြင်စွာ deploy လုပ်နိုင်ရန် ယုံကြည်စိတ်ချရမှု၊ latency နည်းမှုနှင့် အရည်အသွေးမြင့်မှုအတွက် optimize လုပ်ထားပါသည်။ speech-to-text နှင့် text-to-speech တစ်လျှောက် မော်ဒယ်အများအပြားကို ချိတ်ဆက်သုံးစွဲရသော ရိုးရာ pipeline များနှင့် မတူဘဲ Realtime API သည် audio ကို မော်ဒယ်တစ်ခုတည်းနှင့် API တစ်ခုတည်းကနေ တိုက်ရိုက် process လုပ်ပြီး generate လုပ်ပေးပါသည်။ ၎င်းကြောင့် latency လျော့နည်းကာ၊ စကားသံ၏ nuance များကို ထိန်းသိမ်းနိုင်ပြီး ပိုမိုသဘာဝကျကာ ဖော်ပြချက်ကောင်းသော တုံ့ပြန်မှုများကို ပေးစွမ်းနိုင်ပါသည်။

“OpenAI ၏ Realtime API ထဲက စကားပြော စကားဆို မော်ဒယ်အသစ်သည် ပိုမိုကောင်းမွန်သော ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော စွမ်းရည်နှင့် ပိုမိုသဘာဝကျသော စကားပြောစွမ်းရည်ကို ပြသပြီး—lifestyle လိုအပ်ချက်များအလိုက် listings များကို ပိုမိုကျဉ်းမြောင်းစွာ ရွေးချယ်ပေးခြင်း သို့မဟုတ် ကျွန်ုပ်တို့၏ BuyAbility score ကဲ့သို့သော tools များဖြင့် affordability ဆွေးနွေးမှုများကို လမ်းညွှန်ပေးခြင်းကဲ့သို့ ရှုပ်ထွေးပြီး အဆင့်များစွာပါသော requests များကို ကိုင်တွယ်နိုင်စေပါတယ်။ ဒါက Zillow ပေါ်မှာ အိမ်ရှာဖွေတာ သို့မဟုတ် ငွေကြေးထောက်ပံ့မှု ရွေးချယ်စရာများကို လေ့လာတာကို သူငယ်ချင်းတစ်ယောက်နဲ့ စကားပြောသလို သဘာဝကျစေပြီး၊ အိမ်ဝယ်ခြင်း၊ ရောင်းခြင်း၊ ငှားရမ်းခြင်းလို ဆုံးဖြတ်ချက်တွေကို ပိုမိုလွယ်ကူစေမှာ ဖြစ်ပါတယ်။”

– Zillow မှ AI အဖွဲ့ခေါင်းဆောင် Josh Weisberg

gpt-realtime ကို မိတ်ဆက်ခြင်း

စကားပြော စကားဆို မော်ဒယ်အသစ် gpt-realtime သည် ကျွန်ုပ်တို့၏ အဆင့်မြင့်ဆုံးဖြစ်ပြီး production-ready အသံ မော်ဒယ် ဖြစ်ပါသည်။ ကျွန်ုပ်တို့သည် customer support၊ personal assistance နှင့် education ကဲ့သို့ လက်တွေ့ကမ္ဘာအလုပ်များတွင် အထူးကောင်းမွန်စေရန် customer များနှင့် နီးကပ်စွာ ပူးပေါင်းကာ မော်ဒယ်ကို လေ့ကျင့်ပေးခဲ့သည်—developer များက အသံ အေးဂျင့်များကို မည်သို့တည်ဆောက်ပြီး deploy လုပ်သည်နှင့် ကိုက်ညီအောင် စီညှိထားပါသည်။ မော်ဒယ်သည် audio quality၊ ဉာဏ်ရည်ဆိုင်ရာ စွမ်းဆောင်ရည်၊ ညွှန်ကြားချက်လိုက်နာမှုနှင့် လုပ်ဆောင်ချက် ခေါ်ဆိုမှု တို့တွင် တိုးတက်မှုများကို ပြသထားသည်။

အသံအရည်အသွေး

သဘာဝကျသော စကားဝိုင်းအတွေ့အကြုံသည် လက်တွေ့ကမ္ဘာတွင် အသံ အေးဂျင့်များ deploy လုပ်ရာ၌ အရေးကြီးပါသည်။ ပျော်ရွှင်ဖွယ် အတွေ့အကြုံတစ်ခု ဖန်တီးပြီး အသုံးပြုသူများနှင့် ဆက်လက်ပြောဆိုလိုစိတ်ကို တိုးမြှင့်ရန် မော်ဒယ်များသည် လူတစ်ယောက်၏ လေယူလေသိမ်း၊ စိတ်ခံစားမှုနှင့် စကားပြောနှုန်းတို့ဖြင့် ပြောဆိုနိုင်ရမည်။ ကျွန်ုပ်တို့သည် gpt-realtime ကို ပိုမိုအရည်အသွေးမြင့်သော၊ ပိုမိုသဘာဝကျသော စကားသံ ထုတ်လုပ်နိုင်ပြီး “မြန်မြန်နှင့် ကျွမ်းကျင်စွာ ပြောပါ” သို့မဟုတ် “ပြင်သစ်လေယူလေသိမ်းဖြင့် စာနာစိတ်ပါစွာ ပြောပါ” ကဲ့သို့ အသေးစိတ် ညွှန်ကြားချက်များကို လိုက်နာနိုင်ရန် လေ့ကျင့်ပေးထားပါသည်။

API တွင် သဘာဝကျသော စကားသံအတွက် အထင်ရှားဆုံး တိုးတက်မှုများပါဝင်သည့် အသံအသစ် Marin နှင့် Cedar နှစ်မျိုးကို ထုတ်ပေးနေပါသည်။ ရှိပြီးသား အသံရှစ်မျိုးကိုလည်း ဤတိုးတက်မှုများမှ အကျိုးခံစားနိုင်ရန် update လုပ်နေပါသည်။

အသံနမူနာ - Marin

အသံနမူနာ - Cedar

ဉာဏ်ရည်နှင့် နားလည်မှု

gpt-realtime သည် ပိုမိုမြင့်မားသော ဉာဏ်ရည်ကို ပြသပြီး native audio ကို ပိုမိုတိကျစွာ နားလည်နိုင်သည်။ မော်ဒယ်သည် အသံမပါသော အရိပ်အမြွက်များ (ဥပမာ ရယ်သံ) ကို ဖမ်းယူနိုင်ပြီး၊ စာကြောင်းအလယ်တွင် ဘာသာစကားပြောင်းနိုင်ကာ၊ tone ကိုလည်း (“snappy and professional” နှင့် “kind and empathetic” ကဲ့သို့) ပြောင်းလဲချိန်ညှိနိုင်သည်။ အတွင်းပိုင်း အကဲဖြတ်မှုများအရ မော်ဒယ်သည် စပိန်၊ တရုတ်၊ ဂျပန်နှင့် ပြင်သစ်အပါအဝင် အခြားဘာသာစကားများတွင် phone number၊ VIN စသည်ကဲ့သို့သော အက္ခရာဂဏန်းစဉ်များကို သိရှိမှတ်သားရာတွင်လည်း ပိုမိုတိကျသော စွမ်းဆောင်ရည်ကို ပြသထားသည်။ ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော စွမ်းရည်ကို တိုင်းတာသော Big Bench Audio eval တွင် gpt-realtime သည် တိကျမှု 82.8% ရရှိထားပြီး—December 2024 မှ ကျွန်ုပ်တို့၏ ယခင် မော်ဒယ် 65.6% ကို ကျော်လွန်ထားပါသည်။

Big Bench Audio⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) benchmark သည် audio input ကို ပံ့ပိုးသော language model များ၏ ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော စွမ်းရည်များကို အကဲဖြတ်ရန် evaluation dataset တစ်ခုဖြစ်သည်။ ဤ dataset သည် အဆင့်မြင့် reasoning ကို တင်းကျပ်စွာ စမ်းသပ်နိုင်ခြင်းကြောင့် ရွေးချယ်ထားသော Big Bench Hard မှ မေးခွန်းများကို audio domain သို့ ပြောင်းလဲထားသည်။

ညွှန်ကြားချက်လိုက်နာမှု

စကားပြော စကားဆို application တစ်ခုကို တည်ဆောက်ရာတွင် developer များသည် မော်ဒယ်ကို ဘယ်လိုပြုမူရမည်၊ ဘယ်လိုပြောရမည်၊ အခြေအနေတစ်ခုတွင် ဘာပြောရမည်၊ ဘာလုပ်ရမည် သို့မဟုတ် မလုပ်ရမည်တို့ အပါအဝင် ညွှန်ကြားချက်အစုံတစ်ခု ပေးပါသည်။ ဤညွှန်ကြားချက်များကို လိုက်နာနိုင်မှုအပေါ် ကျွန်ုပ်တို့၏ တိုးတက်မှုများကို အဓိကထားခဲ့ပြီး၊ သေးငယ်သော ညွှန်ကြားချက်များပင် မော်ဒယ်အတွက် အဓိပ္ပာယ်ပိုမိုသယ်ဆောင်စေပါသည်။ ညွှန်ကြားချက်လိုက်နာမှု တိကျမှုကို တိုင်းတာသော MultiChallenge audio benchmark တွင် gpt-realtime သည် 30.5% ရရှိထားပြီး၊ December 2024 မှ ကျွန်ုပ်တို့၏ ယခင် မော်ဒယ် 20.6% ထက် သိသိသာသာ တိုးတက်ထားပါသည်။

MultiChallenge⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် LLM များက လူများနှင့် အလှည့်အပြောင်းများစွာပါသော စကားဝိုင်းများကို ဘယ်လောက်ကောင်းကောင်း ကိုင်တွယ်နိုင်သလဲကို အကဲဖြတ်သည်။ ၎င်းသည် လက်ရှိ စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်များအတွက် ခက်ခဲနေဆဲဖြစ်သော လက်တွေ့ဆန်သည့် စိန်ခေါ်မှု အမျိုးအစား လေးမျိုးကို အဓိကထားသည်။ ဤစိန်ခေါ်မှုများသည် မော်ဒယ်များကို ညွှန်ကြားချက်လိုက်နာခြင်း၊ context စီမံခန့်ခွဲမှုနှင့် in-context ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော စွမ်းရည်တို့ကို တစ်ပြိုင်နက်တည်း ပေါင်းစပ်အသုံးချရန် လိုအပ်စေသည်။ ကျွန်ုပ်တို့သည် ဤအကဲဖြတ်မှု၏ audio version တစ်ခု ဖန်တီးရန် စမ်းသပ်မေးခွန်းများထဲမှ audio-friendly subset တစ်ခုကို text-to-speech မှ ပြောင်းခဲ့သည်။

လုပ်ဆောင်ချက် ခေါ်ဆိုမှု

စကားပြော စကားဆို မော်ဒယ်ဖြင့် စွမ်းဆောင်ရည်ရှိသော အသံ အေးဂျင့်တစ်ခု တည်ဆောက်ရန် မော်ဒယ်သည် production တွင် အသုံးဝင်စေရန် မှန်ကန်သော tools များကို မှန်ကန်သောအချိန်၌ ခေါ်နိုင်ရမည်။ ကျွန်ုပ်တို့သည် လုပ်ဆောင်ချက် ခေါ်ဆိုမှုကို အချက်သုံးချက်ပေါ်တွင် တိုးတက်အောင် လုပ်ထားသည်။ သက်ဆိုင်ရာ function များကို ခေါ်ခြင်း၊ သင့်တော်သော အချိန်တွင် function များကို ခေါ်ခြင်းနှင့် သင့်တော်သော arguments များဖြင့် function များကို ခေါ်ခြင်း (ထို့ကြောင့် တိကျမှု ပိုမိုမြင့်မားလာသည်) ဖြစ်သည်။ လုပ်ဆောင်ချက် ခေါ်ဆိုမှု စွမ်းဆောင်ရည်ကို တိုင်းတာသော ComplexFuncBench audio eval တွင် gpt-realtime သည် 66.5% ရရှိထားပြီး၊ December 2024 မှ ကျွန်ုပ်တို့၏ ယခင် မော်ဒယ်မှာ 49.7% ရရှိထားပါသည်။

ကျွန်ုပ်တို့သည် asynchronous function calling⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကိုလည်း တိုးတက်အောင် လုပ်ထားပါသည်။ အချိန်ကြာမြင့်သည့် function calls များက session ၏ flow ကို ထပ်မံ မနှောင့်ယှက်တော့ပါ—မော်ဒယ်သည် ရလဒ်များကို စောင့်နေရင်းပင် ချောမွေ့သော စကားဝိုင်းကို ဆက်လက်လုပ်ဆောင်နိုင်သည်။ ဤ feature ကို gpt-realtime တွင် native အဖြစ် ရရှိနိုင်သောကြောင့် developer များသည် ၎င်းတို့၏ code ကို update လုပ်ရန် မလိုအပ်ပါ။

ComplexFuncBench⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် မော်ဒယ်များက စိန်ခေါ်မှုရှိသော လုပ်ဆောင်ချက် ခေါ်ဆိုမှု တာဝန်များကို ဘယ်လောက်ကောင်းကောင်း ကိုင်တွယ်နိုင်သလဲကို တိုင်းတာသည်။ ၎င်းသည် အဆင့်များစွာပါသော calls များ၊ ကန့်သတ်ချက်များ သို့မဟုတ် အဓိပ္ပာယ်အတွင်းပါ parameter များကို ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော အခြေအနေများ၊ အလွန်ရှည်လျားသော input များကို ကိုင်တွယ်ခြင်း စသည့် scenario များတစ်လျှောက် စွမ်းဆောင်ရည်ကို အကဲဖြတ်သည်။ ကျွန်ုပ်တို့သည် ဤအကဲဖြတ်မှုကို မော်ဒယ်အတွက် တည်ဆောက်ရန် မူရင်း text prompts များကို speech အဖြစ် ပြောင်းခဲ့သည်။

Realtime API တွင် အသစ်ပါဝင်လာသောအရာများ

Remote MCP server support

session configuration ထဲသို့ remote MCP server ၏ URL ကို ပို့ခြင်းအားဖြင့် Realtime API session တစ်ခုတွင် MCP support ကို ဖွင့်နိုင်ပါသည်။ ချိတ်ဆက်ပြီးသည်နှင့် API သည် tool calls များကို အလိုအလျောက် ကိုင်တွယ်ပေးမည်ဖြစ်သောကြောင့် integrations များကို ကိုယ်တိုင် ချိတ်ဆက်စရာ မလိုအပ်ပါ။

ဤ setup ကြောင့် သင့် အေးဂျင့်ကို စွမ်းရည်အသစ်များဖြင့် လွယ်ကူစွာ ချဲ့ထွင်နိုင်ပါသည်—session ကို အခြား MCP server တစ်ခုသို့ ညွှန်လိုက်ရုံဖြင့် အဆိုပါ tools များကို ချက်ချင်း အသုံးပြုနိုင်ပါမည်။ Realtime နှင့် MCP ကို မည်သို့ configure လုပ်ရမည်ကို ပိုမိုလေ့လာလိုပါက ဤလမ်းညွှန်⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကြည့်ပါ။

JavaScript

1// POST /v1/realtime/client_secrets
2{
3  "session": {
4    "type": "realtime",
5    "tools": [
6      {
7        "type": "mcp",
8        "server_label": "stripe",
9        "server_url": "https://mcp.stripe.com",
10        "authorization": "{access_token}",
11        "require_approval": "never"
12      }
13    ]
14  }
15}
16

Image input

gpt-realtime တွင် image input များကို ယခု ပံ့ပိုးထားပြီဖြစ်သောကြောင့် Realtime API session တစ်ခုသို့ audio သို့မဟုတ် text နှင့်အတူ images၊ photos နှင့် screenshots များကို ထည့်နိုင်ပါသည်။ ယခု မော်ဒယ်သည် အသုံးပြုသူ တကယ်မြင်နေသည့်အရာပေါ် အခြေခံ၍ စကားဝိုင်းကို ဆက်လက်နိုင်ပြီဖြစ်သောကြောင့် “ဘာတွေ မြင်လဲ” သို့မဟုတ် “ဒီ screenshot ထဲက စာကို ဖတ်ပြပါ” ကဲ့သို့ မေးခွန်းများကို အသုံးပြုသူများ မေးနိုင်ပါသည်။

image တစ်ခုကို live video stream လို ကိုင်တွယ်မည့်အစား system သည် ၎င်းကို စကားဝိုင်းထဲသို့ ပုံတစ်ပုံ ထည့်သွင်းလိုက်သကဲ့သို့ ပိုမိုကိုင်တွယ်ပါသည်။ သင့် app က မော်ဒယ်နှင့် မည်သည့် images များကို မျှဝေမည်၊ ဘယ်အချိန်တွင် မျှဝေမည်ကို ဆုံးဖြတ်နိုင်ပါသည်။ ဤနည်းဖြင့် မော်ဒယ်က ဘာမြင်မည်နှင့် ဘယ်အချိန်တွင် တုံ့ပြန်မည်ကို သင်က ဆက်လက်ထိန်းချုပ်ထားနိုင်ပါသည်။

image input ကို စတင်အသုံးပြုရန် ကျွန်ုပ်တို့၏ docs⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကြည့်ပါ။

JavaScript

1{
2    "type": "conversation.item.create",
3    "previous_item_id": null,
4    "item": {
5        "type": "message",
6        "role": "user",
7        "content": [
8            {
9                "type": "input_image",
10                "image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11            }
12        ]
13    }
14}
15

အပိုစွမ်းရည်များ

Realtime API ကို ပေါင်းစည်းအသုံးပြုရ လွယ်ကူစေပြီး production အသုံးပြုမှုအတွက် ပိုမိုပြောင်းလွယ်ပြင်လွယ် ဖြစ်စေရန် အခြား feature အများအပြားကိုလည်း ကျွန်ုပ်တို့ ထည့်သွင်းထားပါသည်။

Session Initiation Protocol (SIP) support: Realtime API တွင် တိုက်ရိုက် support ဖြင့် သင့် app များကို public phone network၊ PBX system များ၊ desk phone များနှင့် အခြား SIP အဆုံးမှတ် များသို့ ချိတ်ဆက်နိုင်ပါသည်။ docs တွင် ဖတ်ရှုပါ။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)
Reusable prompts: ယခု developer messages၊ tools၊ variables နှင့် user/assistant example messages များ ပါဝင်သည့် တုံ့ပြန်ညွှန်ကြားချက် များကို Responses API ကဲ့သို့ Realtime API sessions များအကြား သိမ်းဆည်းပြီး ပြန်လည်အသုံးပြုနိုင်ပါပြီ။ docs တွင် ပိုမိုလေ့လာပါ။⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)

လုံခြုံရေးနှင့် ကိုယ်ရေးကိုယ်တာ

Realtime API တွင် အလွဲသုံးစားမှုကို ကာကွယ်ရန် safeguard နှင့် mitigation အလွှာများစွာကို ထည့်သွင်းထားပါသည်။ ကျွန်ုပ်တို့၏ လုံခြုံရေးဆိုင်ရာ နည်းလမ်းနှင့် စနစ်ကဒ် အသေးစိတ်များအကြောင်းကို beta announcement blog⁠ တွင် ပိုမိုလေ့လာနိုင်ပါသည်။ Realtime API sessions များပေါ်တွင် active classifier များကို ကျွန်ုပ်တို့ အသုံးပြုထားပြီး၊ ထို့ကြောင့် အန္တရာယ်ရှိသော content လမ်းညွှန်ချက်များကို ချိုးဖောက်သည်ဟု တွေ့ရှိရသော စကားဝိုင်းအချို့ကို ရပ်တန့်နိုင်ပါသည်။ developer များသည် Agents SDK⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို အသုံးပြု၍ ၎င်းတို့၏ ကိုယ်ပိုင် အပို လုံခြုံရေး guardrails များကိုလည်း လွယ်ကူစွာ ထည့်နိုင်ပါသည်။

ကျွန်ုပ်တို့၏ usage policies⁠ သည် ကျွန်ုပ်တို့၏ services များမှ output များကို spam၊ လှည့်ဖြားမှု သို့မဟုတ် အခြားအန္တရာယ်ရှိသော ရည်ရွယ်ချက်များအတွက် ပြန်လည်အသုံးချခြင်း သို့မဟုတ် ဖြန့်ဝေခြင်းကို တားမြစ်ထားပါသည်။ context အရ ရှင်းလင်းနေပြီးသား မဟုတ်လျှင် developer များသည်လည်း end user များကို ၎င်းတို့ AI နှင့် အပြန်အလှန် လုပ်ဆောင်နေကြောင်း ရှင်းရှင်းလင်းလင်း အသိပေးရမည်။ Realtime API သည် မကောင်းသော ရည်ရွယ်ချက်ရှိသူများက အခြားသူများကို အယောင်ဆောင်ခြင်းမှ ကာကွယ်ရန် preset voices များကို အသုံးပြုပါသည်။

Realtime API သည် EU အခြေပြု application များအတွက် EU Data Residency⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို အပြည့်အဝ ပံ့ပိုးထားပြီး ကျွန်ုပ်တို့၏ enterprise privacy commitments⁠ အောက်တွင်လည်း အကျုံးဝင်ပါသည်။

ဈေးနှုန်းနှင့် ရရှိနိုင်မှု

generally available Realtime API နှင့် gpt-realtime မော်ဒယ်အသစ်ကို ယနေ့မှစ၍ developer အားလုံးအတွက် ရရှိနိုင်ပါသည်။ gpt-realtime ၏ ဈေးနှုန်းကို gpt-4o-realtime-preview နှင့် နှိုင်းယှဉ်လျှင် 20% လျှော့ချထားပါသည်—audio input တိုကင် 1M လျှင် $32 (cached input တိုကင်များအတွက် $0.40) နှင့် audio output တိုကင် 1M လျှင် $64 ( အသေးစိတ်ဈေးနှုန်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကြည့်ပါ)။ conversation context အတွက် fine-grained control ကိုလည်း ထည့်သွင်းထားသဖြင့် developer များက ဉာဏ်ရည်ရှိသော တိုကင် ကန့်သတ်ချက်များကို သတ်မှတ်နိုင်ပြီး turn အများအပြားကို တစ်ကြိမ်တည်း truncate လုပ်နိုင်ကာ ရှည်လျားသော sessions များအတွက် ကုန်ကျစရိတ်ကို သိသိသာသာ လျှော့ချပေးပါသည်။

စတင်အသုံးပြုရန် ကျွန်ုပ်တို့၏ Realtime API documentation⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ဝင်ကြည့်ပါ၊ Playground⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် မော်ဒယ်အသစ်ကို စမ်းသပ်ပါ၊ နှင့် ကျွန်ုပ်တို့၏ Realtime API prompting guide⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကြည့်ရှုပါ။

Livestream replay

2025

စာရေးသူ

OpenAI

ဆက်ဖတ်ရှုပါ

အားလုံးကို ကြည့်ရန်

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 သည် Microsoft 365 Copilot တွင် ဦးစားပေး မော်ဒယ် ဖြစ်လာပြီ

ထုတ်ကုန်၂၀၂၆ ဇူ ၉

GPT-5.6 - သင့်ရည်မှန်းချက်နှင့်အညီ တိုးချဲ့နိုင်သော စွမ်းဆောင်ရည်အမြင့်ဆုံး ဉာဏ်ရည်

ထုတ်ကုန်၂၀၂၆ ဇူ ၉

ChatGPT သည် ယခု သင့်ရည်မှန်းချက်အကြီးဆုံးအလုပ်များအတွက် မိတ်ဖက်ဖြစ်လာပြီ

ထုတ်ကုန်၂၀၂၆ ဇူ ၉