၂၀၂၆ မေ ၇

API ထဲရှိ မော်ဒယ်အသစ်များဖြင့် အသံဉာဏ်ရည်ကို တိုးတက်စေခြင်း

လူများ စကားပြောနေစဉ် ကျိုးကြောင်းဆင်ခြင်၊ ဘာသာပြန်ဆို၊ စာသားပြောင်းရေးနိုင်သော realtime အသံမော်ဒယ် မျိုးဆက်သစ်။

ဖွင့်နေသည်…

API ထဲတွင် developer များအတွက် voice app အမျိုးအစားအသစ်တစ်ခုကို ဖွင့်လှစ်ပေးမည့် audio မော်ဒယ် သုံးခုကို မိတ်ဆက်ပေးနေပါသည်။ ဤမော်ဒယ်များဖြင့် developer များသည် ပိုမိုသဘာဝကျပြီး၊ ပိုမိုဉာဏ်ရည်ရှိစွာ တုံ့ပြန်နိုင်ကာ၊ real time အတွင်း လုပ်ဆောင်ချက်ယူနိုင်သော voice experience များကို တည်ဆောက်နိုင်ပါသည်-

GPT‑Realtime‑2 သည် GPT‑5 အဆင့် reasoning ပါဝင်သော ကျွန်ုပ်တို့၏ ပထမဆုံး voice model ဖြစ်ပြီး ပိုမိုခက်ခဲသော တောင်းဆိုချက်များကို ကိုင်တွယ်နိုင်ကာ စကားဝိုင်းကို သဘာဝကျကျ ဆက်လက်ဦးဆောင်နိုင်ပါသည်။
GPT‑Realtime‑Translate သည် speaker ၏ စကားပြောနှုန်းကိုလိုက်မီအောင် ထိန်းထားရင်း input language 70+ မှ output language 13 မျိုးသို့ speech ကို ဘာသာပြန်ပေးသော live translation model အသစ်ဖြစ်သည်။
GPT‑Realtime‑Whisper သည် speaker စကားပြောနေစဉ် live အဖြစ် speech ကို စာသားပြောင်းရေးပေးသော streaming speech-to-text အသစ်ဖြစ်သည်။

GPT-Realtime-2 ကို စမ်းသုံးကြည့်ပါ

ဆက်ရှင်ကို စတင်ပါ၊ ထို့နောက် GPT-Realtime-2 နှင့် သဘာဝအတိုင်း စကားပြောပါ။

ကျွန်ုပ် ဘာမေးလို့ရမလဲ။

ဆက်ရှင်ကို စတင်ပြီးနောက် ဤအရာများထဲမှ တစ်ခုကို ပြောကြည့်ပါ-

ဒီည အချိန်ကပ်မှ စီစဉ်ရတဲ့ ညစာဧည့်ခံပွဲတစ်ခု လုပ်မှာပါ။ ကျွန်ုပ်မှာ မိနစ် ၃၀ ပဲ ရှိပါတယ်၊ သက်သတ်လွတ်စားတဲ့ မိတ်ဆွေ နှစ်ယောက်၊ မှိုမကြိုက်တဲ့သူ တစ်ယောက်နဲ့ မီးဖိုချောင်သေးသေးလေးတစ်ခု ရှိပါတယ်။ ရိုးရှင်းသော မီနူးတစ်ခု စီစဉ်ရန် ကျွန်ုပ်ကို ကူညီပေးပါ။
ကျွန်ုပ်သည် ဂျပန်နိုင်ငံတွင် ကျင်းပသော တိုက်ရိုက်အခမ်းအနားတစ်ခုသို့ ဧည့်သည်များကို ကြိုဆိုနေပါသည်။ ဂျပန်ဘာသာဖြင့် နွေးထွေးပြီး သဘာဝကျသော ကြိုဆိုစကားတစ်ခွန်း ပြောပါ— အထူးအရာတစ်ခုကို စတင်ဖွင့်လှစ်နေသည့် အိမ်ရှင်တစ်ယောက်လို။
ကျွန်ုပ်၏ အော်ဒါနံပါတ်မှာ Orbit-742Q ဖြစ်ပါတယ်။ မှန်ကန်ကြောင်း အတည်ပြုနိုင်အောင် အဲဒါကို ရှင်းလင်းစွာ ပြန်ပြောပါ။
ကျွန်ုပ်တို့၏ စတင်မိတ်ဆက်မှု မှတ်တိုင်ကို အောင်မြင်ခဲ့ကြောင်း ကျွန်ုပ်၏အဖွဲ့ကို ပြောပြရန် လေ့ကျင့်ရာတွင် ကျွန်ုပ်ကို ကူညီပါ။ ပထမဦးစွာ တည်ငြိမ်တဲ့ ယုံကြည်မှုနဲ့ ပြောပါ၊ ပြီးရင် ပိုပြီး စိတ်လှုပ်ရှားတက်ကြွစွာ ပြောပါ။
ကားလမ်းခရီးစဉ်အတွက် ဉာဏ်စမ်းမေးခွန်းတွေ စီစဉ်နေပါတယ်။ ရိုးရှင်းသလို ထင်ရပေမယ့် လှည့်ကွက်ပါတဲ့ မေးခွန်း ၃ ခု ပေးပါ၊ ထို့နောက် အဖြေတစ်ခုချင်းစီကို ဝါကျတစ်ကြောင်းစီဖြင့် ရှင်းပြပါ။

ဤအစမ်းပြမှုကို အချိန်ကန့်သတ်ထားပါသည်။ ၎င်းကို အသုံးပြုခြင်းဖြင့်၊ သင်သည် OpenAI ၏ စည်းကမ်းချက်များ ကို သဘောတူပြီး ကျွန်ုပ်တို့၏ ကိုယ်ရေးလုံခြုံမှုမူဝါဒကို အသိအမှတ်ပြုပါသည်။

အသံသည် လူများ software ကို အသုံးပြုသည့် သဘာဝအကျဆုံး နည်းလမ်းများထဲက တစ်ခုအဖြစ် ဖြစ်လာနေပါသည်။ ကားမောင်းနေစဉ် အကူအညီတောင်းရန်၊ လေဆိပ်တွင် လမ်းလျှောက်နေစဉ် ခရီးစဉ်အစီအစဉ် ပြောင်းရန်၊ မိမိနှစ်သက်ရာဘာသာစကားဖြင့် အထောက်အပံ့ရယူရန် သို့မဟုတ် စာရိုက်ရန် ရပ်နားမနေဘဲ အလုပ်တစ်ခုကို ဆက်လက်လုပ်ဆောင်နိုင်ရန် ကူညီပေးပါသည်။

သို့သော် အသုံးဝင်သော voice product များကို တည်ဆောက်ရန် မြန်ဆန်သော turn-taking သို့မဟုတ် သဘာဝကျသည့် အသံတစ်ခုထက် ပိုမိုလိုအပ်ပါသည်။ voice အေးဂျင့် တစ်ခုသည် လူတစ်ယောက်၏ ဆိုလိုရင်းကို နားလည်ရမည်၊ context ကို ဆက်လက်မှတ်သားထားရမည်၊ တောင်းဆိုချက် ပြောင်းလဲသွားသည့်အခါ ပြန်လည်ကိုင်တွယ်နိုင်ရမည်၊ စကားဝိုင်း ဆက်လက်နေစဉ် tool များကို သုံးနိုင်ရမည်၊ ထို့ပြင် အခြေအနေနှင့် ကိုက်ညီသော ပုံစံဖြင့် တုံ့ပြန်နိုင်ရမည်။

ကျွန်ုပ်တို့ မိတ်ဆက်နေသော မော်ဒယ်များသည် realtime audio ကို ရိုးရှင်းသော call-and-response မှ အမှန်တကယ် အလုပ်လုပ်နိုင်သော voice interface များဆီသို့ ရွှေ့ပြောင်းပေးပါသည်။ ၎င်းတို့သည် စကားဝိုင်း တိုးတက်လာသည်နှင့်အမျှ နားထောင်၊ ကျိုးကြောင်းဆင်ခြင်၊ ဘာသာပြန်၊ စာသားပြောင်းရေးနှင့် လုပ်ဆောင်ချက်ယူနိုင်ပါသည်။

လူများနှင့် ထုတ်ကုန်များအကြား interface အဖြစ် အသံ

အသံသည် software ကို အသုံးပြုရန် ပိုမိုသဘာဝကျသော နည်းလမ်းတစ်ခု ဖြစ်လာလာသည်နှင့်အမျှ developer များသည် voice AI တွင် ပေါ်ထွက်လာနေသော pattern သုံးမျိုးအပေါ် အခြေခံ၍ တည်ဆောက်နေကြသည်ကို ကျွန်ုပ်တို့ မြင်တွေ့နေရပါသည်-

Voice-to-action, လူများသည် မိမိလိုအပ်ချက်ကို ဖော်ပြနိုင်ပြီး system သည် တောင်းဆိုချက်ကို ကျိုးကြောင်းဆင်ခြင်စဉ်းစားကာ tool များကို အသုံးပြုပြီး အလုပ်ကို ပြီးမြောက်စေနိုင်သော ပုံစံဖြစ်သည်။ ဥပမာ Zillow သည် “find me homes within my BuyAbility, avoid busy streets, and schedule a tour for Saturday.” ကဲ့သို့သော တောင်းဆိုချက်များကို နားထောင်၊ ကျိုးကြောင်းဆင်ခြင်ပြီး လုပ်ဆောင်နိုင်သော assistant တစ်ခုကို တည်ဆောက်နေပါသည်။
Systems-to-voice, software သည် context ကို live spoken guidance အဖြစ် ပြောင်းပေးနိုင်သော ပုံစံဖြစ်သည်။ ဥပမာ travel app တစ်ခုက ခရီးသွားတစ်ဦးအား “Your inbound flight is delayed, but you can still make your connection. I found the new gate, mapped the fastest route through the terminal, and your bag is still expected to transfer.” ဟု ကြိုတင်ပြောပြနိုင်ပါသည်။
Voice-to-voice, AI သည် ဘာသာစကား၊ အလုပ်တာဝန် သို့မဟုတ် ပြောင်းလဲနေသော context များကို ဖြတ်ကျော်ကာ live conversation များ ဆက်လက်ဖြစ်ပေါ်စေရန် ကူညီနိုင်သော ပုံစံဖြစ်သည်။ ဥပမာ Deutsche Telekom သည် customers များ မိမိတို့ အဆင်ပြေဆုံး ဘာသာစကားဖြင့် ပြောဆိုနိုင်ပြီး မော်ဒယ်က စကားဝိုင်းကို real time အတွင်း ဘာသာပြန်ပေးသော voice support experience များကို တည်ဆောက်နေပါသည်။

အသံ AI လုပ်ငန်းစဉ် သုံးမျိုးကို ပြသထားသော ပုံကားချပ် - voice-to-action သည် စကားပြောကို code နှင့် dev၊ shopping၊ in-car နှင့် scheduling tools ကဲ့သို့ app များနှင့် ချိတ်ဆက်ပေးသည်။ systems-to-voice သည် app များ၊ calendars၊ CRM နှင့် support dashboards များကို စကားပြောနှင့် ချိတ်ဆက်ပေးသည်။ voice-to-voice သည် အသံ အေးဂျင့် နှစ်ခုကို ချိတ်ဆက်ပေးသည်။

ဤ pattern များသည် ပေါင်းစပ်၍လည်း အလုပ်လုပ်နိုင်ပါသည်။ Priceline သည် ခရီးသွားများက ခရီးစဉ်တစ်ခုလုံးကို အသံဖြင့် စီမံနိုင်သော အနာဂတ်တစ်ခုဆီသို့ ရည်မှန်းလုပ်ဆောင်နေပါသည်။ ထိုသို့သော အတွေ့အကြုံတွင် လေယာဉ်နှင့် ဟိုတယ်များကို စကားပြောဖြင့် ရှာဖွေခြင်း၊ လေယာဉ်နောက်ကျပြီးနောက် ဟိုတယ် booking ပြင်ဆင်ခြင်း သို့မဟုတ် TSA စောင့်ဆိုင်းချိန် real time update များ ရယူခြင်းကဲ့သို့ အပြောင်းအလဲများကို ကိုင်တွယ်ခြင်းနှင့် ခရီးရောက်ပြီးနောက် စကားဝိုင်းများကို ဘာသာပြန်ပေးခြင်းတို့ ပါဝင်နိုင်ပါသည်။

Realtime voice: voice model များကို ကျိုးကြောင်းဆင်ခြင်ပြီး လုပ်ဆောင်ချက်ယူနိုင်အောင် ကူညီခြင်း

GPT‑Realtime‑2 သည် မော်ဒယ်က တောင်းဆိုချက်တစ်ခုကို ကျိုးကြောင်းဆင်ခြင်စဉ်းစားနေစဉ်၊ tool များကို ခေါ်ယူနေစဉ်၊ ပြင်ဆင်ချက်များ သို့မဟုတ် နှောင့်ယှက်မှုများကို ကိုင်တွယ်နေစဉ်နှင့် အခြေအနေနှင့် ကိုက်ညီသည့်ပုံစံဖြင့် တုံ့ပြန်နေစဉ် စကားဝိုင်းကို ဆက်လက်လှုပ်ရှားစေသော live voice interaction များအတွက် တည်ဆောက်ထားပါသည်။

Preambles: Developer များသည် “let me check that” သို့မဟုတ် “one moment while I look into it,” ကဲ့သို့သော main response မတိုင်မီ short phrase များကို ဖွင့်ထားနိုင်ပြီး အသုံးပြုသူများအနေဖြင့် အေးဂျင့်က တောင်းဆိုချက်ကို လုပ်ဆောင်နေကြောင်း သိရှိနိုင်ပါသည်။
Parallel tool calls and tool transparency: မော်ဒယ်သည် tool များစွာကို တစ်ပြိုင်တည်း ခေါ်ယူနိုင်ပြီး “checking your calendar” သို့မဟုတ် “looking that up now,” ကဲ့သို့သော စကားစုများဖြင့် ထိုလုပ်ဆောင်ချက်များကို ကြားနိုင်အောင် ပြုလုပ်ပေးနိုင်ပါသည်။ ၎င်းကြောင့် အေးဂျင့်များသည် အလုပ်များ ပြီးမြောက်အောင် လုပ်ဆောင်နေစဉ်တောင် responsive ဖြစ်နေစေပါသည်။
Stronger recovery behavior: မော်ဒယ်သည် တိတ်ဆိတ်စွာ ပျက်ကွက်သွားခြင်း သို့မဟုတ် စကားဝိုင်းကို ချိုးဖျက်ခြင်းအစား “I’m having trouble with that right now,” ကဲ့သို့ ပြောဆိုကာ ပိုမိုသဘာဝကျစွာ ပြန်လည်ကိုင်တွယ်နိုင်ပါသည်။
Longer context for agentic workflows: ပိုရှည်လျားပြီး ပိုမိုညီညွတ်သော session များနှင့် ပိုရှုပ်ထွေးသော task flow များကို ပံ့ပိုးရန် context window ကို 32K မှ 128K သို့ တိုးမြှင့်ထားပါသည်။
Stronger domain understanding: မော်ဒယ်သည် specialized terminology၊ proper nouns၊ healthcare terms နှင့် production setting များတွင် အရေးကြီးသော အခြား vocabulary များကို ပိုမိုကောင်းမွန်စွာ ထိန်းသိမ်းမှတ်သားနိုင်ပါသည်။
More controllable tone and delivery: မော်ဒယ်သည် ပြဿနာတစ်ခုကို ဖြေရှင်းနေစဉ် တည်ငြိမ်စွာ ပြောဆိုခြင်း၊ အသုံးပြုသူ စိတ်ပျက်နေချိန် empathy ဖြင့် တုံ့ပြန်ခြင်း သို့မဟုတ် အောင်မြင်သော လုပ်ဆောင်ချက်တစ်ခုကို အတည်ပြုချိန် upbeat ဖြစ်စွာ ပြောဆိုခြင်းကဲ့သို့ tone ကို ပိုမိုကောင်းမွန်စွာ ချိန်ညှိနိုင်ပါသည်။
Adjustable reasoning effort: Developer များသည် ယခု minimal, low, medium, high, and xhigh reasoning level များထဲမှ ရွေးချယ်နိုင်ပြီဖြစ်ပြီး default အနေနှင့် low ကို သတ်မှတ်ထားပါသည်။ ၎င်းက ရိုးရှင်းသော interaction များအတွက် latency နိမ့်စေခြင်းနှင့် ရှုပ်ထွေးသော တောင်းဆိုချက်များအတွက် ပိုမိုစဉ်းစားချိန်ယူသော reasoning တို့အကြား balance ဖြစ်စေပါသည်။

ဤတိုးတက်မှုများကို production voice အေးဂျင့်များနှင့် အလွန်နီးစပ်သော audio eval များတွင် တွေ့မြင်နိုင်ပါသည်- audio intelligence အတွက် GPT‑Realtime‑2 (high) သည် Big Bench Audio တွင် GPT‑Realtime‑1.5 ထက် 15.2% ပိုမြင့်သော ရမှတ်ရရှိခဲ့သည်။ GPT‑Realtime‑2 (xhigh) သည် instruction following အတွက် Audio MultiChallenge တွင် 13.8% ပိုမြင့်သော ရမှတ်ရရှိခဲ့ပြီး GPT‑Realtime‑1.5 ထက် ပိုမိုကောင်းမွန်လာကြောင်းနှင့် live conversation များတွင် reasoning၊ context management နှင့် control ပိုအားကောင်းကြောင်း ပြသပါသည်။

Big Bench Audio⁠ သည် audio input ကို ပံ့ပိုးသော language model များ၏ စိန်ခေါ်မှုမြင့် ကျိုးကြောင်းဆင်ခြင်နိုင်စွမ်းများကို အကဲဖြတ်သည်။ Audio MultiChallenge⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် spoken dialogue system များအတွင်း အလှည့်များစွာပါဝင်သော စကားပြောဆိုမှုဆိုင်ရာ ဉာဏ်ရည်ကို အကဲဖြတ်ပြီး instruction following၊ context integration၊ self-consistency နှင့် သဘာဝစကားပြော ပြင်ဆင်မှုများကို ကိုင်တွယ်နိုင်မှုတို့ကိုလည်း ပါဝင်စမ်းသပ်သည်။

GPT‑Realtime‑2 ၏ ထူးခြားမှုကို အသုံးပြုမှုအမျိုးမျိုးတွင် တွေ့မြင်နိုင်ပါသည်-

အစောပိုင်း စမ်းသပ်မှုကာလအတွင်း စီးပွားရေးလုပ်ငန်းများသည် GPT‑Realtime‑2 ကို အသုံးပြု၍ customers နှင့် employees များအား သဘာဝကျသော စကားဝိုင်းများမှတစ်ဆင့် လုပ်ငန်းများ ပြီးမြောက်စေရန် ကူညီသော voice အေးဂျင့်များကို တည်ဆောက်ခဲ့ကြပါသည်-

“ဖန်တီးသူတွေက အဆုံးမရှိ iteration လုပ်နေတာမဟုတ်ဘဲ ဆက်တိုက်တိုးတက်မှုကို လိုချင်ကြတယ်။ GPT-5.5 က authentication flow နဲ့ real-time syncing လို ပိုရှုပ်ထွေးတဲ့ task တွေမှာ လူတွေ ပုံမှန်တိုက်မိတတ်တဲ့ နံရံတွေကို turns နည်းနည်းနဲ့ ဖြတ်ကျော်ပေးပါတယ်။ အလုပ်ခက်လာတဲ့အချိန်မှာ ဒီမော်ဒယ်က တကယ်ထင်ရှားပြီး၊ ခက်ခဲတဲ့ task တွေကို back-and-forth နည်းနည်းနဲ့ ကိုင်တွယ်ပေးပါတယ်။”

— Fabian Hedin, Lovable ၏ CTO နှင့် Co-founder

Realtime translation: live multilingual voice experience များကို တည်ဆောက်ပါ

GPT‑Realtime‑Translate သည် လူတစ်ဦးစီအနေဖြင့် မိမိနှစ်သက်ရာ ဘာသာစကားဖြင့် ပြောဆိုနိုင်ပြီး စကားဝိုင်းကို real time အတွင်း ဘာသာပြန်သံစဉ်အဖြစ် ကြားနိုင်သလို real time transcription များကိုလည်း ဖတ်ရှုနိုင်သော live multilingual voice experience များကို developer များ တည်ဆောက်နိုင်စေရန် ကူညီပါသည်။ ၎င်းသည် input language 70 ကျော်နှင့် output language 13 မျိုးကို ပံ့ပိုးထားသောကြောင့် customer support၊ နယ်စပ်ကျော် sales၊ ပညာရေး၊ event များ၊ media နှင့် ကမ္ဘာလုံးဆိုင်ရာ ပရိသတ်ကို ဝန်ဆောင်မှုပေးသော creator platform များအတွက် အသုံးဝင်ပါသည်။

Developer များအတွက် live translation သည် လူများ သဘာဝကျကျ ပြောဆိုသည့်အခါ၊ context ပြောင်းလဲသည့်အခါ သို့မဟုတ် ဒေသဆိုင်ရာ အသံထွက်နှင့် နယ်ပယ်အလိုက် ဘာသာစကားများကို အသုံးပြုသည့်အခါတွင်ပင် speaker ၏ နှုန်းကိုလိုက်မီအောင် ထိန်းထားရင်း အဓိပ္ပာယ်ကို မှန်ကန်စွာ ထိန်းသိမ်းပေးရပါသည်။ ဥပမာ Deutsche Telekom သည် ဘာသာစကားစုံ voice interaction များအတွက် ဤမော်ဒယ်ကို စမ်းသပ်နေပြီး latency နိမ့်ခြင်းနှင့် fluency ပိုကောင်းခြင်းတို့သည် ဘာသာစကားကျော်လွန် စကားဝိုင်းများကို ပိုမိုသဘာဝကျစေနိုင်ပါသည်။

ဤဗီဒီယိုတွင် Vimeo က GPT‑Realtime‑Translate သည် ထုတ်ကုန်ပညာပေး ဗီဒီယိုတစ်ခုကို ဖွင့်လှစ်နေစဉ် live အဖြစ် ဘာသာပြန်ပေးနိုင်ပုံကို ပြသထားပြီး ကမ္ဘာလုံးဆိုင်ရာ customers များက သီးခြားထုတ်လုပ်ထားသော version ကို စောင့်ရန်မလိုဘဲ မိမိနှစ်သက်ရာ ဘာသာစကားဖြင့် update များကို ချက်ချင်း နားထောင်နိုင်ပါသည်။

“India အတွက် voice AI တည်ဆောက်ခြင်းသည် ဒေသအလိုက် အသံထွက်မျိုးစုံကို ကိုင်တွယ်ရခြင်းကို ဆိုလိုပါသည်။ Hindi၊ Tamil နှင့် Telugu တို့အပေါ် ကျွန်ုပ်တို့၏ eval များတွင် GPT-Realtime-Translate သည် ကျွန်ုပ်တို့ စမ်းသပ်ခဲ့သော အခြားမော်ဒယ်အားလုံးထက် Word Error Rate ကို 12.5% နိမ့်စေခဲ့ပြီး fallback rate နိမ့်ခြင်း၊ task completion ပိုမြင့်ခြင်းနှင့် သဘာဝကျသော စကားဝိုင်းကို ဆက်လက်ထိန်းထားနိုင်သော latency တို့ကိုလည်း ပေးစွမ်းခဲ့သည်။ ၎င်းသည် ဘာသာစကားစုံ voice AI အတွက် စံနှုန်းအသစ်တစ်ခု သတ်မှတ်ပေးပါသည်။”

— BolnaAI မှ Co-founder & CTO Prateek Sachan

Realtime transcription: latency နိမ့်သော transcription experience များကို တည်ဆောက်ပါ

GPT‑Realtime‑Whisper သည် latency နိမ့်သော speech-to-text အတွက် တည်ဆောက်ထားသော streaming transcription model အသစ်ဖြစ်သည်။ ၎င်းသည် လူများ စကားပြောသည့်အတိုင်း audio ကို စာသားပြောင်းရေးပေးသောကြောင့် live product များသည် ပိုမြန်ဆန်၊ ပို responsive နှင့် ပိုသဘာဝကျစေပါသည်—အချိန်နှင့်တပြေးညီ ပေါ်လာသော caption များမှ စကားဝိုင်းနှင့်လိုက်မီသော meeting note များအထိ ဖြစ်နိုင်ပါသည်။

ဤမော်ဒယ်သည် live speech ကို စီးပွားရေး workflow များအတွင်း ဖြစ်ပေါ်နေချိန်မှာပင် အသုံးပြုနိုင်စေပါသည်။ Team များသည် meeting များ၊ classroom များ၊ broadcast များနှင့် event များအတွက် caption များပံ့ပိုးနိုင်သည်။ စကားဝိုင်းများ ဆက်လက်ဖြစ်နေစဉ် note နှင့် summary များ ဖန်တီးနိုင်သည်။ အသုံးပြုသူများကို ဆက်တိုက်နားလည်ရန် လိုအပ်သော voice အေးဂျင့်များကို တည်ဆောက်နိုင်သည်။ customer support၊ healthcare၊ sales၊ recruiting နှင့် အသံအခြေပြု interaction ပမာဏမြင့်သော အခြားလုပ်ငန်းများအတွက် ပိုမြန်သော follow-up workflow များကိုလည်း ဖန်တီးနိုင်သည်။

ဘေးကင်းရေး

Realtime API တွင် misuse ကို ကာကွယ်ရန် safeguard နှင့် mitigation အလွှာများစွာ ပါဝင်ပါသည်။ ကျွန်ုပ်တို့သည် Realtime API session များအပေါ် active classifier များကို အသုံးပြုထားပြီး harmful content guideline များကို ချိုးဖောက်သည်ဟု တွေ့ရှိပါက စကားဝိုင်းအချို့ကို ရပ်တန့်နိုင်ပါသည်။ Developer များသည် Agents SDK⁠.⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို အသုံးပြု၍ မိမိတို့၏ ထပ်ဆောင်း safety guardrail များကိုလည်း အလွယ်တကူ ထည့်သွင်းနိုင်ပါသည်။

ကျွန်ုပ်တို့၏ usage policies⁠⁠ တွင် ကျွန်ုပ်တို့၏ service များမှ output များကို spam၊ လှည့်ဖြားမှု သို့မဟုတ် အခြား အန္တရာယ်ဖြစ်စေသော ရည်ရွယ်ချက်များအတွက် ပြန်လည်အသုံးချခြင်း သို့မဟုတ် ဖြန့်ချိခြင်းကို တားမြစ်ထားပါသည်။ Context အရ ထင်ရှားပြီးသား မဟုတ်ပါက developer များသည် end user များကို ၎င်းတို့ AI နှင့် အပြန်အလှန် ဆက်သွယ်နေကြောင်း ရှင်းလင်းစွာ ဖော်ပြရမည်ဖြစ်ပါသည်။

Realtime API သည် EU အခြေပြု application များအတွက် EU Data Residency⁠⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို အပြည့်အဝ ပံ့ပိုးထားပြီး ကျွန်ုပ်တို့၏ enterprise privacy commitments⁠⁠ အောက်တွင် ပါဝင်ပါသည်။

စျေးနှုန်းနှင့် ရရှိနိုင်မှု

GPT‑Realtime‑2၊ GPT‑Realtime‑Translate နှင့် GPT‑Realtime‑Whisper တို့ကို Realtime API တွင် ရရှိနိုင်ပါသည်။ GPT‑Realtime‑2 ၏ စျေးနှုန်းမှာ audio input တိုကင် 1M လျှင် $32 ($0.40 for cached input tokens) နှင့် audio output တိုကင် 1M လျှင် $64 ဖြစ်ပါသည်။ GPT‑Realtime‑Translate ၏ စျေးနှုန်းမှာ မိနစ်လျှင် $0.034 ဖြစ်ပါသည်။ GPT‑Realtime‑Whisper ၏ စျေးနှုန်းမှာ မိနစ်လျှင် $0.017 ဖြစ်ပါသည်။

စတင်အသုံးပြုပါ

realtime voice model အသစ်များကို Playground⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် စမ်းသပ်နိုင်ပါသည်။

တည်ဆောက်မှုကို စတင်ရန် Codex တွင် ဤ prompt ကို ဖွင့်ပါ⁠။ ထိုနည်းဖြင့် လက်ရှိ app တစ်ခုတွင် GPT‑Realtime‑2 ကို ထည့်နိုင်သလို အသစ်တစ်ခုကိုလည်း စတင်နိုင်ပါသည်။ Codex မရှိသေးပါက Codex app⁠ ကို အရင် download လုပ်ပါ။

စာရေးသူ

OpenAI

ဆက်ဖတ်ရှုပါ

အားလုံးကို ကြည့်ရန်

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 သည် Microsoft 365 Copilot တွင် ဦးစားပေး မော်ဒယ် ဖြစ်လာပြီ

ထုတ်ကုန်၂၀၂၆ ဇူ ၉

GPT-5.6 - သင့်ရည်မှန်းချက်နှင့်အညီ တိုးချဲ့နိုင်သော စွမ်းဆောင်ရည်အမြင့်ဆုံး ဉာဏ်ရည်

ထုတ်ကုန်၂၀၂၆ ဇူ ၉

ChatGPT သည် ယခု သင့်ရည်မှန်းချက်အကြီးဆုံးအလုပ်များအတွက် မိတ်ဖက်ဖြစ်လာပြီ

ထုတ်ကုန်၂၀၂၆ ဇူ ၉