အဓိက အကြောင်းအရာသို့ ကျော်သွားရန်
OpenAI

production အသံ အေးဂျင့်များအတွက် gpt-realtime နှင့် Realtime API updates ကို မိတ်ဆက်ခြင်း

ပိုမိုအဆင့်မြင့်သော စကားပြော စကားဆို မော်ဒယ်တစ်ခုနှင့် MCP server support၊ image input နှင့် SIP phone calling support အပါအဝင် API စွမ်းရည်အသစ်များကို ကျွန်ုပ်တို့ ထုတ်ပြန်နေပါသည်။

အသံအပြန်အလှန် ဆက်သွယ်မှုကို ပြသထားသော ဒီဇိုင်းဆန်သော interface တစ်ခု။ အလယ်တွင် လှိုင်းပုံ waveform မြင်ကွင်း၊ play/pause ခလုတ်၊ “အေးဂျင့် online” အခြေအနေပြ မီးလုံးနှင့် 00:35 အချိန်ပြထားသော ထောင့်ဝိုင်းစတုဂံပုံ audio player တစ်ခုရှိသည်။ အစက်များပါသော အဖြူရောင် ကွေးလိုင်းများသည် ပုံတစ်လျှောက် စီးဆင်းနေပြီး တိုက်ရိုက်အသံ သို့မဟုတ် signal ရွေ့လျားမှုကို ညွှန်းဆိုသည်။ နောက်ခံမှာ ပြင်းတောက်သော အပြာရောင်ဖြစ်ပြီး ပန်းရောင်နှင့် ခရမ်းရောင်သဏ္ဌာန် မှိန်ဝါးသော ပန်းပုံစံများ ပါရှိသည်။
ဖွင့်နေသည်…

ယနေ့ ကျွန်ုပ်တို့သည် developer များနှင့် enterprise များက ယုံကြည်စိတ်ချရပြီး production-ready အသံ အေးဂျင့်များကို တည်ဆောက်နိုင်စေမည့် feature အသစ်များနှင့်အတူ Realtime API ကို generally available အဖြစ် ထုတ်ပေးလိုက်ပါသည်။ ယခု API သည် remote MCP server များ၊ image input များနှင့် Session Initiation Protocol (SIP) မှတဆင့် phone calling ကို ပံ့ပိုးထားသဖြင့် အပို tools များနှင့် context များကို ရယူနိုင်ပြီး အသံ အေးဂျင့်များကို ပိုမိုစွမ်းဆောင်ရည်မြင့်စေပါသည်။

ကျွန်ုပ်တို့၏ ယနေ့အထိ အဆင့်မြင့်ဆုံး စကားပြော စကားဆို မော်ဒယ်ဖြစ်သည့် gpt-realtime ကိုလည်း ထုတ်ပြန်နေပါသည်။ မော်ဒယ်အသစ်သည် ရှုပ်ထွေးသော ညွှန်ကြားချက်များကို လိုက်နာခြင်း၊ tools များကို တိကျစွာ ခေါ်ယူခြင်းနှင့် ပိုမိုသဘာဝကျပြီး ဖော်ပြချက်စုံလင်သော အသံထုတ်လုပ်ခြင်းတို့တွင် တိုးတက်မှုများကို ပြသထားသည်။ ၎င်းသည် system messages နှင့် developer တုံ့ပြန်ညွှန်ကြားချက် များကို ပိုမိုကောင်းမွန်စွာ နားလည်နိုင်သည်—support call တစ်ခုတွင် disclaimer script များကို စကားလုံးတိုင်းအတိုင်း ဖတ်ပြခြင်း၊ အက္ခရာဂဏန်းများကို ပြန်လည်ဖတ်ပြခြင်း သို့မဟုတ် စာကြောင်းအလယ်တွင် ဘာသာစကားများအကြား ချောမွေ့စွာ ပြောင်းခြင်းတို့အပါအဝင် ဖြစ်သည်။ ယနေ့မှစ၍ Realtime API တွင်သာ သီးသန့်ရရှိနိုင်သော အသံအသစ် Cedar နှင့် Marin ကိုလည်း ထုတ်ပြန်နေပါသည်။

ပြီးခဲ့သည့် October လတွင် Realtime API ကို public beta အဖြစ် ပထမဆုံး မိတ်ဆက်ခဲ့ချိန်မှစ၍ developer ထောင်ပေါင်းများစွာက API ဖြင့် တည်ဆောက်ခဲ့ပြီး ယနေ့ထုတ်ပြန်နေသော တိုးတက်မှုများကို ပုံဖော်ရာတွင် ကူညီခဲ့ကြသည်—production တွင် အသံ အေးဂျင့်များကို အောင်မြင်စွာ deploy လုပ်နိုင်ရန် ယုံကြည်စိတ်ချရမှု၊ latency နည်းမှုနှင့် အရည်အသွေးမြင့်မှုအတွက် optimize လုပ်ထားပါသည်။ speech-to-text နှင့် text-to-speech တစ်လျှောက် မော်ဒယ်အများအပြားကို ချိတ်ဆက်သုံးစွဲရသော ရိုးရာ pipeline များနှင့် မတူဘဲ Realtime API သည် audio ကို မော်ဒယ်တစ်ခုတည်းနှင့် API တစ်ခုတည်းကနေ တိုက်ရိုက် process လုပ်ပြီး generate လုပ်ပေးပါသည်။ ၎င်းကြောင့် latency လျော့နည်းကာ၊ စကားသံ၏ nuance များကို ထိန်းသိမ်းနိုင်ပြီး ပိုမိုသဘာဝကျကာ ဖော်ပြချက်ကောင်းသော တုံ့ပြန်မှုများကို ပေးစွမ်းနိုင်ပါသည်။

“OpenAI ၏ Realtime API ထဲက စကားပြော စကားဆို မော်ဒယ်အသစ်သည် ပိုမိုကောင်းမွန်သော ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော စွမ်းရည်နှင့် ပိုမိုသဘာဝကျသော စကားပြောစွမ်းရည်ကို ပြသပြီး—lifestyle လိုအပ်ချက်များအလိုက် listings များကို ပိုမိုကျဉ်းမြောင်းစွာ ရွေးချယ်ပေးခြင်း သို့မဟုတ် ကျွန်ုပ်တို့၏ BuyAbility score ကဲ့သို့သော tools များဖြင့် affordability ဆွေးနွေးမှုများကို လမ်းညွှန်ပေးခြင်းကဲ့သို့ ရှုပ်ထွေးပြီး အဆင့်များစွာပါသော requests များကို ကိုင်တွယ်နိုင်စေပါတယ်။ ဒါက Zillow ပေါ်မှာ အိမ်ရှာဖွေတာ သို့မဟုတ် ငွေကြေးထောက်ပံ့မှု ရွေးချယ်စရာများကို လေ့လာတာကို သူငယ်ချင်းတစ်ယောက်နဲ့ စကားပြောသလို သဘာဝကျစေပြီး၊ အိမ်ဝယ်ခြင်း၊ ရောင်းခြင်း၊ ငှားရမ်းခြင်းလို ဆုံးဖြတ်ချက်တွေကို ပိုမိုလွယ်ကူစေမှာ ဖြစ်ပါတယ်။”

Zillow မှ AI အဖွဲ့ခေါင်းဆောင် Josh Weisberg

gpt-realtime ကို မိတ်ဆက်ခြင်း

စကားပြော စကားဆို မော်ဒယ်အသစ် gpt-realtime သည် ကျွန်ုပ်တို့၏ အဆင့်မြင့်ဆုံးဖြစ်ပြီး production-ready အသံ မော်ဒယ် ဖြစ်ပါသည်။ ကျွန်ုပ်တို့သည် customer support၊ personal assistance နှင့် education ကဲ့သို့ လက်တွေ့ကမ္ဘာအလုပ်များတွင် အထူးကောင်းမွန်စေရန် customer များနှင့် နီးကပ်စွာ ပူးပေါင်းကာ မော်ဒယ်ကို လေ့ကျင့်ပေးခဲ့သည်—developer များက အသံ အေးဂျင့်များကို မည်သို့တည်ဆောက်ပြီး deploy လုပ်သည်နှင့် ကိုက်ညီအောင် စီညှိထားပါသည်။ မော်ဒယ်သည် audio quality၊ ဉာဏ်ရည်ဆိုင်ရာ စွမ်းဆောင်ရည်၊ ညွှန်ကြားချက်လိုက်နာမှုနှင့် လုပ်ဆောင်ချက် ခေါ်ဆိုမှု တို့တွင် တိုးတက်မှုများကို ပြသထားသည်။

အသံအရည်အသွေး

သဘာဝကျသော စကားဝိုင်းအတွေ့အကြုံသည် လက်တွေ့ကမ္ဘာတွင် အသံ အေးဂျင့်များ deploy လုပ်ရာ၌ အရေးကြီးပါသည်။ ပျော်ရွှင်ဖွယ် အတွေ့အကြုံတစ်ခု ဖန်တီးပြီး အသုံးပြုသူများနှင့် ဆက်လက်ပြောဆိုလိုစိတ်ကို တိုးမြှင့်ရန် မော်ဒယ်များသည် လူတစ်ယောက်၏ လေယူလေသိမ်း၊ စိတ်ခံစားမှုနှင့် စကားပြောနှုန်းတို့ဖြင့် ပြောဆိုနိုင်ရမည်။ ကျွန်ုပ်တို့သည် gpt-realtime ကို ပိုမိုအရည်အသွေးမြင့်သော၊ ပိုမိုသဘာဝကျသော စကားသံ ထုတ်လုပ်နိုင်ပြီး “မြန်မြန်နှင့် ကျွမ်းကျင်စွာ ပြောပါ” သို့မဟုတ် “ပြင်သစ်လေယူလေသိမ်းဖြင့် စာနာစိတ်ပါစွာ ပြောပါ” ကဲ့သို့ အသေးစိတ် ညွှန်ကြားချက်များကို လိုက်နာနိုင်ရန် လေ့ကျင့်ပေးထားပါသည်။

API တွင် သဘာဝကျသော စကားသံအတွက် အထင်ရှားဆုံး တိုးတက်မှုများပါဝင်သည့် အသံအသစ် Marin နှင့် Cedar နှစ်မျိုးကို ထုတ်ပေးနေပါသည်။ ရှိပြီးသား အသံရှစ်မျိုးကိုလည်း ဤတိုးတက်မှုများမှ အကျိုးခံစားနိုင်ရန် update လုပ်နေပါသည်။

အသံနမူနာ - Marin
အသံနမူနာ - Cedar

ဉာဏ်ရည်နှင့် နားလည်မှု

gpt-realtime သည် ပိုမိုမြင့်မားသော ဉာဏ်ရည်ကို ပြသပြီး native audio ကို ပိုမိုတိကျစွာ နားလည်နိုင်သည်။ မော်ဒယ်သည် အသံမပါသော အရိပ်အမြွက်များ (ဥပမာ ရယ်သံ) ကို ဖမ်းယူနိုင်ပြီး၊ စာကြောင်းအလယ်တွင် ဘာသာစကားပြောင်းနိုင်ကာ၊ tone ကိုလည်း (“snappy and professional” နှင့် “kind and empathetic” ကဲ့သို့) ပြောင်းလဲချိန်ညှိနိုင်သည်။ အတွင်းပိုင်း အကဲဖြတ်မှုများအရ မော်ဒယ်သည် စပိန်၊ တရုတ်၊ ဂျပန်နှင့် ပြင်သစ်အပါအဝင် အခြားဘာသာစကားများတွင် phone number၊ VIN စသည်ကဲ့သို့သော အက္ခရာဂဏန်းစဉ်များကို သိရှိမှတ်သားရာတွင်လည်း ပိုမိုတိကျသော စွမ်းဆောင်ရည်ကို ပြသထားသည်။ ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော စွမ်းရည်ကို တိုင်းတာသော Big Bench Audio eval တွင် gpt-realtime သည် တိကျမှု 82.8% ရရှိထားပြီး—December 2024 မှ ကျွန်ုပ်တို့၏ ယခင် မော်ဒယ် 65.6% ကို ကျော်လွန်ထားပါသည်။

Big Bench Audio(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) benchmark သည် audio input ကို ပံ့ပိုးသော language model များ၏ ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော စွမ်းရည်များကို အကဲဖြတ်ရန် evaluation dataset တစ်ခုဖြစ်သည်။ ဤ dataset သည် အဆင့်မြင့် reasoning ကို တင်းကျပ်စွာ စမ်းသပ်နိုင်ခြင်းကြောင့် ရွေးချယ်ထားသော Big Bench Hard မှ မေးခွန်းများကို audio domain သို့ ပြောင်းလဲထားသည်။

ညွှန်ကြားချက်လိုက်နာမှု

စကားပြော စကားဆို application တစ်ခုကို တည်ဆောက်ရာတွင် developer များသည် မော်ဒယ်ကို ဘယ်လိုပြုမူရမည်၊ ဘယ်လိုပြောရမည်၊ အခြေအနေတစ်ခုတွင် ဘာပြောရမည်၊ ဘာလုပ်ရမည် သို့မဟုတ် မလုပ်ရမည်တို့ အပါအဝင် ညွှန်ကြားချက်အစုံတစ်ခု ပေးပါသည်။ ဤညွှန်ကြားချက်များကို လိုက်နာနိုင်မှုအပေါ် ကျွန်ုပ်တို့၏ တိုးတက်မှုများကို အဓိကထားခဲ့ပြီး၊ သေးငယ်သော ညွှန်ကြားချက်များပင် မော်ဒယ်အတွက် အဓိပ္ပာယ်ပိုမိုသယ်ဆောင်စေပါသည်။ ညွှန်ကြားချက်လိုက်နာမှု တိကျမှုကို တိုင်းတာသော MultiChallenge audio benchmark တွင် gpt-realtime သည် 30.5% ရရှိထားပြီး၊ December 2024 မှ ကျွန်ုပ်တို့၏ ယခင် မော်ဒယ် 20.6% ထက် သိသိသာသာ တိုးတက်ထားပါသည်။

MultiChallenge(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် LLM များက လူများနှင့် အလှည့်အပြောင်းများစွာပါသော စကားဝိုင်းများကို ဘယ်လောက်ကောင်းကောင်း ကိုင်တွယ်နိုင်သလဲကို အကဲဖြတ်သည်။ ၎င်းသည် လက်ရှိ စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်များအတွက် ခက်ခဲနေဆဲဖြစ်သော လက်တွေ့ဆန်သည့် စိန်ခေါ်မှု အမျိုးအစား လေးမျိုးကို အဓိကထားသည်။ ဤစိန်ခေါ်မှုများသည် မော်ဒယ်များကို ညွှန်ကြားချက်လိုက်နာခြင်း၊ context စီမံခန့်ခွဲမှုနှင့် in-context ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော စွမ်းရည်တို့ကို တစ်ပြိုင်နက်တည်း ပေါင်းစပ်အသုံးချရန် လိုအပ်စေသည်။ ကျွန်ုပ်တို့သည် ဤအကဲဖြတ်မှု၏ audio version တစ်ခု ဖန်တီးရန် စမ်းသပ်မေးခွန်းများထဲမှ audio-friendly subset တစ်ခုကို text-to-speech မှ ပြောင်းခဲ့သည်။

လုပ်ဆောင်ချက် ခေါ်ဆိုမှု

စကားပြော စကားဆို မော်ဒယ်ဖြင့် စွမ်းဆောင်ရည်ရှိသော အသံ အေးဂျင့်တစ်ခု တည်ဆောက်ရန် မော်ဒယ်သည် production တွင် အသုံးဝင်စေရန် မှန်ကန်သော tools များကို မှန်ကန်သောအချိန်၌ ခေါ်နိုင်ရမည်။ ကျွန်ုပ်တို့သည် လုပ်ဆောင်ချက် ခေါ်ဆိုမှုကို အချက်သုံးချက်ပေါ်တွင် တိုးတက်အောင် လုပ်ထားသည်။ သက်ဆိုင်ရာ function များကို ခေါ်ခြင်း၊ သင့်တော်သော အချိန်တွင် function များကို ခေါ်ခြင်းနှင့် သင့်တော်သော arguments များဖြင့် function များကို ခေါ်ခြင်း (ထို့ကြောင့် တိကျမှု ပိုမိုမြင့်မားလာသည်) ဖြစ်သည်။ လုပ်ဆောင်ချက် ခေါ်ဆိုမှု စွမ်းဆောင်ရည်ကို တိုင်းတာသော ComplexFuncBench audio eval တွင် gpt-realtime သည် 66.5% ရရှိထားပြီး၊ December 2024 မှ ကျွန်ုပ်တို့၏ ယခင် မော်ဒယ်မှာ 49.7% ရရှိထားပါသည်။

ကျွန်ုပ်တို့သည် asynchronous function calling(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကိုလည်း တိုးတက်အောင် လုပ်ထားပါသည်။ အချိန်ကြာမြင့်သည့် function calls များက session ၏ flow ကို ထပ်မံ မနှောင့်ယှက်တော့ပါ—မော်ဒယ်သည် ရလဒ်များကို စောင့်နေရင်းပင် ချောမွေ့သော စကားဝိုင်းကို ဆက်လက်လုပ်ဆောင်နိုင်သည်။ ဤ feature ကို gpt-realtime တွင် native အဖြစ် ရရှိနိုင်သောကြောင့် developer များသည် ၎င်းတို့၏ code ကို update လုပ်ရန် မလိုအပ်ပါ။

ComplexFuncBench(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် မော်ဒယ်များက စိန်ခေါ်မှုရှိသော လုပ်ဆောင်ချက် ခေါ်ဆိုမှု တာဝန်များကို ဘယ်လောက်ကောင်းကောင်း ကိုင်တွယ်နိုင်သလဲကို တိုင်းတာသည်။ ၎င်းသည် အဆင့်များစွာပါသော calls များ၊ ကန့်သတ်ချက်များ သို့မဟုတ် အဓိပ္ပာယ်အတွင်းပါ parameter များကို ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော အခြေအနေများ၊ အလွန်ရှည်လျားသော input များကို ကိုင်တွယ်ခြင်း စသည့် scenario များတစ်လျှောက် စွမ်းဆောင်ရည်ကို အကဲဖြတ်သည်။ ကျွန်ုပ်တို့သည် ဤအကဲဖြတ်မှုကို မော်ဒယ်အတွက် တည်ဆောက်ရန် မူရင်း text prompts များကို speech အဖြစ် ပြောင်းခဲ့သည်။

Realtime API တွင် အသစ်ပါဝင်လာသောအရာများ

Remote MCP server support

session configuration ထဲသို့ remote MCP server ၏ URL ကို ပို့ခြင်းအားဖြင့် Realtime API session တစ်ခုတွင် MCP support ကို ဖွင့်နိုင်ပါသည်။ ချိတ်ဆက်ပြီးသည်နှင့် API သည် tool calls များကို အလိုအလျောက် ကိုင်တွယ်ပေးမည်ဖြစ်သောကြောင့် integrations များကို ကိုယ်တိုင် ချိတ်ဆက်စရာ မလိုအပ်ပါ။

ဤ setup ကြောင့် သင့် အေးဂျင့်ကို စွမ်းရည်အသစ်များဖြင့် လွယ်ကူစွာ ချဲ့ထွင်နိုင်ပါသည်—session ကို အခြား MCP server တစ်ခုသို့ ညွှန်လိုက်ရုံဖြင့် အဆိုပါ tools များကို ချက်ချင်း အသုံးပြုနိုင်ပါမည်။ Realtime နှင့် MCP ကို မည်သို့ configure လုပ်ရမည်ကို ပိုမိုလေ့လာလိုပါက ဤလမ်းညွှန်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကြည့်ပါ။

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Image input

gpt-realtime တွင် image input များကို ယခု ပံ့ပိုးထားပြီဖြစ်သောကြောင့် Realtime API session တစ်ခုသို့ audio သို့မဟုတ် text နှင့်အတူ images၊ photos နှင့် screenshots များကို ထည့်နိုင်ပါသည်။ ယခု မော်ဒယ်သည် အသုံးပြုသူ တကယ်မြင်နေသည့်အရာပေါ် အခြေခံ၍ စကားဝိုင်းကို ဆက်လက်နိုင်ပြီဖြစ်သောကြောင့် “ဘာတွေ မြင်လဲ” သို့မဟုတ် “ဒီ screenshot ထဲက စာကို ဖတ်ပြပါ” ကဲ့သို့ မေးခွန်းများကို အသုံးပြုသူများ မေးနိုင်ပါသည်။

image တစ်ခုကို live video stream လို ကိုင်တွယ်မည့်အစား system သည် ၎င်းကို စကားဝိုင်းထဲသို့ ပုံတစ်ပုံ ထည့်သွင်းလိုက်သကဲ့သို့ ပိုမိုကိုင်တွယ်ပါသည်။ သင့် app က မော်ဒယ်နှင့် မည်သည့် images များကို မျှဝေမည်၊ ဘယ်အချိန်တွင် မျှဝေမည်ကို ဆုံးဖြတ်နိုင်ပါသည်။ ဤနည်းဖြင့် မော်ဒယ်က ဘာမြင်မည်နှင့် ဘယ်အချိန်တွင် တုံ့ပြန်မည်ကို သင်က ဆက်လက်ထိန်းချုပ်ထားနိုင်ပါသည်။

image input ကို စတင်အသုံးပြုရန် ကျွန်ုပ်တို့၏ docs(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကြည့်ပါ။

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

အပိုစွမ်းရည်များ

Realtime API ကို ပေါင်းစည်းအသုံးပြုရ လွယ်ကူစေပြီး production အသုံးပြုမှုအတွက် ပိုမိုပြောင်းလွယ်ပြင်လွယ် ဖြစ်စေရန် အခြား feature အများအပြားကိုလည်း ကျွန်ုပ်တို့ ထည့်သွင်းထားပါသည်။

လုံခြုံရေးနှင့် ကိုယ်ရေးကိုယ်တာ

Realtime API တွင် အလွဲသုံးစားမှုကို ကာကွယ်ရန် safeguard နှင့် mitigation အလွှာများစွာကို ထည့်သွင်းထားပါသည်။ ကျွန်ုပ်တို့၏ လုံခြုံရေးဆိုင်ရာ နည်းလမ်းနှင့် စနစ်ကဒ် အသေးစိတ်များအကြောင်းကို beta announcement blog တွင် ပိုမိုလေ့လာနိုင်ပါသည်။ Realtime API sessions များပေါ်တွင် active classifier များကို ကျွန်ုပ်တို့ အသုံးပြုထားပြီး၊ ထို့ကြောင့် အန္တရာယ်ရှိသော content လမ်းညွှန်ချက်များကို ချိုးဖောက်သည်ဟု တွေ့ရှိရသော စကားဝိုင်းအချို့ကို ရပ်တန့်နိုင်ပါသည်။ developer များသည် Agents SDK(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို အသုံးပြု၍ ၎င်းတို့၏ ကိုယ်ပိုင် အပို လုံခြုံရေး guardrails များကိုလည်း လွယ်ကူစွာ ထည့်နိုင်ပါသည်။

ကျွန်ုပ်တို့၏ usage policies သည် ကျွန်ုပ်တို့၏ services များမှ output များကို spam၊ လှည့်ဖြားမှု သို့မဟုတ် အခြားအန္တရာယ်ရှိသော ရည်ရွယ်ချက်များအတွက် ပြန်လည်အသုံးချခြင်း သို့မဟုတ် ဖြန့်ဝေခြင်းကို တားမြစ်ထားပါသည်။ context အရ ရှင်းလင်းနေပြီးသား မဟုတ်လျှင် developer များသည်လည်း end user များကို ၎င်းတို့ AI နှင့် အပြန်အလှန် လုပ်ဆောင်နေကြောင်း ရှင်းရှင်းလင်းလင်း အသိပေးရမည်။ Realtime API သည် မကောင်းသော ရည်ရွယ်ချက်ရှိသူများက အခြားသူများကို အယောင်ဆောင်ခြင်းမှ ကာကွယ်ရန် preset voices များကို အသုံးပြုပါသည်။

Realtime API သည် EU အခြေပြု application များအတွက် EU Data Residency(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို အပြည့်အဝ ပံ့ပိုးထားပြီး ကျွန်ုပ်တို့၏ enterprise privacy commitments အောက်တွင်လည်း အကျုံးဝင်ပါသည်။

ဈေးနှုန်းနှင့် ရရှိနိုင်မှု

generally available Realtime API နှင့် gpt-realtime မော်ဒယ်အသစ်ကို ယနေ့မှစ၍ developer အားလုံးအတွက် ရရှိနိုင်ပါသည်။ gpt-realtime ၏ ဈေးနှုန်းကို gpt-4o-realtime-preview နှင့် နှိုင်းယှဉ်လျှင် 20% လျှော့ချထားပါသည်—audio input တိုကင် 1M လျှင် $32 (cached input တိုကင်များအတွက် $0.40) နှင့် audio output တိုကင် 1M လျှင် $64 ( အသေးစိတ်ဈေးနှုန်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကြည့်ပါ)။ conversation context အတွက် fine-grained control ကိုလည်း ထည့်သွင်းထားသဖြင့် developer များက ဉာဏ်ရည်ရှိသော တိုကင် ကန့်သတ်ချက်များကို သတ်မှတ်နိုင်ပြီး turn အများအပြားကို တစ်ကြိမ်တည်း truncate လုပ်နိုင်ကာ ရှည်လျားသော sessions များအတွက် ကုန်ကျစရိတ်ကို သိသိသာသာ လျှော့ချပေးပါသည်။

စတင်အသုံးပြုရန် ကျွန်ုပ်တို့၏ Realtime API documentation(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ဝင်ကြည့်ပါ၊ Playground(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် မော်ဒယ်အသစ်ကို စမ်းသပ်ပါ၊ နှင့် ကျွန်ုပ်တို့၏ Realtime API prompting guide(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကြည့်ရှုပါ။

Livestream replay

စာရေးသူ

OpenAI