၂၀၂၄ ဇွန် ၇

Voice Engine အလုပ်လုပ်ပုံနှင့် ကျွန်ုပ်တို့၏ လုံခြုံရေးသုတေသနကို ပိုမိုရှင်းလင်းဖော်ပြခြင်း

ကျွန်ုပ်တို့၏ စာမှအသံပြောင်း မော်ဒယ်နောက်ကွယ်ရှိ နည်းပညာကို လေ့လာခြင်း။

ပန်းရောင်၊ လိမ္မော်ရောင်၊ ခရမ်းရောင်နှင့် အစိမ်းရောင်တို့အပါအဝင် pastel အရောင်များ ရောစပ်ထားသော တက်ကြွသည့် ရှုခင်းတစ်ခုလို ထင်ရသည့် abstract ပန်းချီကား။

ဖွင့်နေသည်…

အားလုံးအနေဖြင့် ကျွန်ုပ်တို့၏ တိုးတက်မှုကို သိရှိနေနိုင်စေရန် Voice Engine အလုပ်လုပ်ပုံနှင့် ကျွန်ုပ်တို့၏ လုံခြုံရေးသုတေသနအကြောင်း ပိုမိုနက်နဲသော အမြင်ကို ပေးနေပါသည်။ Voice Engine သည် စိတ်ကြိုက်အသံများ ဖန်တီးနိုင်သော မော်ဒယ်တစ်ခု ဖြစ်ပါသည်။

ဤနည်းပညာသည် နောင်တွင် မည်သို့တိုးတက်သွားမည်ကို ကမ္ဘာတစ်ဝန်းရှိ လူများ နားလည်ရန် အရေးကြီးပါသည်၊ နောက်ဆုံးတွင် ကျွန်ုပ်တို့ကိုယ်တိုင် အကျယ်တဝင့် ဖြန့်ချိမည်ဖြစ်စေ မဖြစ်စေ။ ထို့ကြောင့် မော်ဒယ်အလုပ်လုပ်ပုံ၊ ၎င်းကို သုတေသနနှင့် ပညာပေးရေးအတွက် မည်သို့အသုံးပြုနေကြောင်းနှင့် ၎င်းပတ်လည်တွင် လုံခြုံရေးအစီအမံများကို မည်သို့အကောင်အထည်ဖော်နေကြောင်းကို ကျွန်ုပ်တို့ ရှင်းပြလိုပါသည်။ Voice Engine ကို ယခုအချိန်တွင် အကျယ်တဝင့် မရရှိနိုင်သေးပါ။

Voice Engine အလုပ်လုပ်ပုံ

အသံစွမ်းဆောင်ရည်ကို စာသားနှင့် 15 စက္ကန့်စာ နမူနာစကားပြောမှ လူလိုသည့် အသံကို ဖန်တီးပေးနိုင်သော text-to-speech (TTS) မော်ဒယ်က လည်ပတ်ပေးပါသည်။

TTS စနစ်ကို audio နှင့် transcription တို့ကို တွဲဖက်ထားသော ဒေတာမှ စကားပြော၏ နူးညံ့သိမ်မွေ့မှုများကို မော်ဒယ် နားလည်အောင် ကူညီခြင်းဖြင့် ဖွံ့ဖြိုးတိုးတက်စေပါသည်။ ပေးထားသော စာသား transcript အတွက် ပြောသူတစ်ဦးက မည်သည့်အသံများကို ထုတ်မည်ဖြစ်ကြောင်း အလားအလာအမြင့်ဆုံးကို မော်ဒယ်က ခန့်မှန်းတတ်လာပြီး အသံအမျိုးအစား၊ လေယူလေသိမ်းနှင့် ပြောဟန်စတိုင် ကွဲပြားမှုများကိုလည်း ထည့်သွင်းစဉ်းစားပါသည်။ ထို့နောက် မော်ဒယ်သည် စာသား၏ ပြောထားသောဗားရှင်းများသာမက မတူညီသော ပြောသူအမျိုးအစားများက ၎င်းကို မည်သို့ပြောမည်ကို ထင်ဟပ်သော စကားပြောအသံထွက်များကိုလည်း ဖန်တီးနိုင်ပါသည်။

ထို့နောက် TTS မော်ဒယ်ဖြင့် အသံဖန်တီးရန် ပြောသူထံမှ 15 စက္ကန့်စာ နမူနာနှင့် သက်ဆိုင်ရာ စာသားသာ လိုအပ်ပါသည်။ မော်ဒယ်ကို သီးသန့်ပြောသူတစ်ဦးအတွက် fine-tune မလုပ်ထားဘဲ မော်ဒယ်စိတ်ကြိုက်ပြင်ဆင်မှုလည်း မပါဝင်ပါ။ ယင်းအစား random noise ဖြင့် စတင်ကာ 15 စက္ကန့်စာ အသံနမူနာရှိ ပြောသူက စာသားကို မည်သို့ အသံထွက်ပြောမည်နှင့် နီးစပ်စေရန် တဖြည်းဖြည်း de-noise လုပ်သွားသော diffusion process ကို အသုံးပြုပါသည်။

ကျွန်ုပ်တို့သည် ဤမော်ဒယ်ကို တစ်နှစ်ကျော်ကြာ ဖွံ့ဖြိုးတိုးတက်အောင် လုပ်ဆောင်လာခဲ့သည်

ကျွန်ုပ်တို့သည် Voice Engine ကို 2022 ခုနှစ်နှောင်းပိုင်းတွင် ပထမဆုံး ဖန်တီးခဲ့ပါသည်။ အစောပိုင်းကာလတွင် Voice Engine မော်ဒယ်၏ စွမ်းဆောင်ရည်များနှင့် ကန့်သတ်ချက်များကို အကဲဖြတ်ရန် အများသုံးနှင့် ကိုယ်ပိုင်အသံနမူနာများကို ရောနှောအသုံးပြုပြီး အတွင်းပိုင်းစမ်းသပ်မှုများ ပြုလုပ်ခဲ့ပါသည်။ ဤအတွင်းပိုင်း prototype သည် ကျွန်ုပ်တို့၏ ချိန်ညှိမှုနှင့် လုံခြုံရေးသုတေသနအတွက် အရေးပါခဲ့ပြီး ကာကွယ်ရေးစနစ်များကို လမ်းညွှန်ပေးခဲ့သကဲ့သို့ နည်းပညာဆိုင်ရာ စွမ်းဆောင်ရည်အမြင့်ဆုံးကို နားလည်ရန် ကျွန်ုပ်တို့၏ ကတိကဝတ်၏ ဆက်လက်မှုတစ်ခုလည်း ဖြစ်ပါသည်။

အရေးကြီးသည်မှာ ဤထွက်ရှိချက်များကို အတွင်းပိုင်းစမ်းသပ်မှုအတွက်သာ ထားရှိခဲ့ပြီး ကျွန်ုပ်တို့၏ ထုတ်ကုန်များကို လည်ပတ်စေသော မော်ဒယ်များကို လေ့ကျင့်ရန် မသုံးခဲ့ပါ။

ကျွန်ုပ်တို့၏ iterative deployment framework ၏ တစ်စိတ်တစ်ပိုင်းအနေဖြင့် ဤအစောပိုင်း prototype သည် မူဝါဒချမှတ်သူများအား synthetic voice မော်ဒယ်များ၏ စွမ်းဆောင်ရည်များကို နားလည်စေရန်လည်း တန်ဖိုးရှိသော အခန်းကဏ္ဍမှ ပါဝင်ခဲ့ပါသည်။ ဥပမာအားဖြင့် မနှစ်နွေရာသီမှ စတင်ကာ ကမ္ဘာတစ်ဝန်းရှိ အဆင့်မြင့်ဆုံး မူဝါဒချမှတ်သူများကို ဤနည်းပညာ၏ အလားအလာကို ပြသခဲ့ပြီး ဆက်စပ်အန္တရာယ်များအကြောင်းလည်း ၎င်းတို့နှင့် ဆွေးနွေးခဲ့ပါသည်။

2023 ခုနှစ် စက်တင်ဘာလတွင်⁠၊ ကျွန်ုပ်တို့သည် ChatGPT ၏ အသံမုဒ် feature ကို လည်ပတ်စေရန် Voice Engine ကို အသုံးပြုခဲ့ပါသည်။ ဤစွမ်းရည်များက အန္တရာယ်အသစ်များကိုလည်း တင်ပြလာသောကြောင့် သတ်မှတ်ထားသော ဤအသုံးပြုမှုကိစ္စအတွက်သာ ၎င်းကို စတင်မိတ်ဆက်ခဲ့ပါသည်။ Voice Mode ကို တကယ့်အသံများဖြင့်သာ ဖန်တီးထားပြီး၊ သေချာရွေးချယ်ထားသော⁠ ကျွမ်းကျင်အသံသရုပ်ဆောင်များ၊ talent agency များ၊ casting director များနှင့် လုပ်ငန်းနယ်ပယ်အကြံပေးများ ပါဝင်သည့် 2023 ခုနှစ် မေလတွင် စတင်ခဲ့သော အသေးစိတ်လုပ်ငန်းစဉ်တစ်ခုမှတစ်ဆင့် ဖြစ်ပါသည်။

2023 ခုနှစ် နိုဝင်ဘာလတွင်⁠၊ Voice Engine ဖြင့်လည်း လည်ပတ်သော ရိုးရှင်းသည့် TTS API⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကျွန်ုပ်တို့ ဖြန့်ချိခဲ့ပါသည်။ API အတွင်းရှိ ကြိုတင်သတ်မှတ်ထားသော အသံခြောက်မျိုးစီအတွက် 15 စက္ကန့်စာ အသံနမူနာများကို ဖန်တီးရန် ကျွမ်းကျင်အသံသရုပ်ဆောင်များနှင့် အတူလုပ်ဆောင်ခဲ့သည့် ကန့်သတ်ထုတ်ပြန်မှုနောက်တစ်မျိုးကို ကျွန်ုပ်တို့ ရွေးချယ်ခဲ့ပါသည်။ ဥပမာအားဖြင့် developer များသည် ဘလော့ဂ်ပို့စ်များကို အသံထွက်ဖတ်ပြရန် ၎င်းတို့၏ website များထဲတွင် ထည့်သွင်းတည်ဆောက်နိုင်ပါသည်။

ယခုနှစ် မတ်လတွင်⁠၊ ယုံကြည်စိတ်ချရသော partner အနည်းငယ်နှင့်အတူ စိတ်ကြိုက်အသံများ ဖန်တီးနိုင်သော Voice Engine ၏ စွမ်းဆောင်ရည်ကို ကျွန်ုပ်တို့ preview ပြုလုပ်ခဲ့ပါသည်။ ဤအစီအစဉ်၏ ရည်ရွယ်ချက်မှာ synthetic voice များ၏ စွမ်းဆောင်ရည်များအကြောင်း အသိပညာမြှင့်တင်ရန်နှင့် အောက်ပါရည်မှန်းချက်များကို ပံ့ပိုးရန် ဖြစ်ပါသည်:

ဘဏ်အကောင့်များနှင့် အခြားအရေးကြီးအချက်အလက်များကို ရယူအသုံးပြုရာတွင် လုံခြုံရေးဆိုင်ရာ တိုင်းတာချက်အဖြစ် အသံအခြေပြု အတည်ပြုစနစ်ကို ဖျက်သိမ်းသွားရန်
AI တွင် တစ်ဦးချင်းစီ၏ အသံအသုံးပြုမှုကို ကာကွယ်ရန် မူဝါဒများကို လေ့လာရန်
လှည့်ဖြားနိုင်သော AI အကြောင်းအရာ ဖြစ်နိုင်ခြေများအပါအဝင် AI နည်းပညာများ၏ စွမ်းဆောင်ရည်များနှင့် ကန့်သတ်ချက်များကို အများပြည်သူ နားလည်စေရန် ပညာပေးရန်
အသံနှင့်ဗီဒီယိုအကြောင်းအရာများ၏ မူလရင်းမြစ်ကို ခြေရာခံရန် နည်းလမ်းများ၏ ဖွံ့ဖြိုးတိုးတက်မှုနှင့် လက်ခံအသုံးပြုမှုကို အရှိန်မြှင့်တင်ရန်၊ ထို့ကြောင့် သင်သည် လူအစစ်တစ်ဦးနှင့် ဆက်သွယ်နေသလား သို့မဟုတ် AI နှင့် ဆက်သွယ်နေသလားကို အမြဲ ရှင်းလင်းနေစေပါသည်

ဤအသေးစား ဖြန့်ချိအသုံးချမှုများသည်လည်း လုပ်ငန်းနယ်ပယ်မျိုးစုံအတွင်း Voice Engine ကို အကျိုးရှိစွာ မည်သို့အသုံးပြုနိုင်မည်ကို စဉ်းစားရာတွင် ကျွန်ုပ်တို့၏ ချဉ်းကပ်ပုံ၊ ကာကွယ်ရေးများနှင့် အတွေးအမြင်များကို လမ်းညွှန်ပေးနေပါသည်။

Voice Engine ကို လုံခြုံစွာ တည်ဆောက်ခြင်းသည် အမြင့်ဆုံး ဦးစားပေးဖြစ်သည်

ကျွန်ုပ်တို့ တည်ဆောက်နေစဉ် ၎င်းတို့၏ အကြံပြုချက်များကို ထည့်သွင်းအသုံးချနေကြောင်း သေချာစေရန် အစိုးရ၊ မီဒီယာ၊ ဖျော်ဖြေရေး၊ ပညာရေး၊ အရပ်ဘက်လူမှုအဖွဲ့အစည်းနှင့် အခြားကဏ္ဍများတစ်လျှောက်ရှိ အမေရိကန်နှင့် နိုင်ငံတကာ partner များနှင့် ဆက်လက် ပူးပေါင်းဆောင်ရွက်နေပါသည်။

Voice Engine ကို စမ်းသပ်နေသော partner များသည် သဘောတူညီချက်မရှိဘဲ တုပပြုခြင်းကို တားမြစ်ပြီး မူလပြောဆိုသူ၏ တိကျပြတ်သားသော ခွင့်ပြုချက်လိုအပ်ကြောင်း သတ်မှတ်သည့် အသုံးပြုမှုမူဝါဒများကို သဘောတူထားကြပြီး AI ဖြင့် ဖန်တီးထားသော အသံများကိုလည်း နားဆင်သူများအား ထိုသို့ဖြစ်ကြောင်း ဖော်ပြရမည်ဖြစ်သည်။ ထို့အပြင် watermarking နှင့် proactive monitoring ကဲ့သို့သော လုံခြုံရေးဆိုင်ရာ အစီအမံများ⁠ ကို နည်းပညာအသုံးပြုမှုအား ခြေရာခံရန်နှင့် ကြီးကြပ်ရန် ထားရှိထားပါသည်။

အနာဂတ် synthetic voice လုံခြုံရေး

မူလအသံစွမ်းရည်ပါဝင်သော GPT‑4o ကဲ့သို့သော Omnimodels များသည် Voice Engine ကဲ့သို့ ယခင်မော်ဒယ်များ မလုပ်ဆောင်နိုင်ခဲ့သည့် အပြန်အလှန်ဆက်သွယ်မှုအသစ်များကို ဖြစ်နိုင်စေပါသည်။ GPT‑4o ၏ အသံမော်ဒယ်ပုံစံတွင် အထူးသဖြင့် အသံဖန်တီးခြင်း၌ အန္တရာယ်အသစ်အများအပြားကိုလည်း မိတ်ဆက်ပေးကြောင်း ကျွန်ုပ်တို့ နားလည်ပါသည်။ လူမှုစိတ်ပညာ၊ ဘက်လိုက်မှုနှင့် တရားမျှတမှု၊ သတင်းမှားဖြန့်ချိမှု စသည့် နယ်ပယ်မျိုးစုံအတွင်း သိရှိပြီးသားနှင့် မမျှော်လင့်ထားသည့် အန္တရာယ်များကို ဖော်ထုတ်ကာ ကိုင်တွယ်ဖြေရှင်းရန် GPT‑4o ကို ကျွန်ုပ်တို့ အစဉ်တစိုက် red-team စမ်းသပ်နေပါသည်။ မော်ဒယ်အပြုအမူများကို ပိုမိုတိကျစွာ ချိန်ညှိခြင်း၊ GPT‑4o ၏ ဖွဲ့စည်းပုံနှင့် ကိုက်ညီစေရန် ရှိပြီးသား စာသားအခြေပြုစနစ်များကို လိုက်လျောညီထွေ ပြင်ဆင်ခြင်းနှင့် classifier အသစ်များ ဖန်တီးခြင်းတို့ကဲ့သို့သော ကာကွယ်ရေးအလွှာများစွာကို ကျွန်ုပ်တို့ တည်ဆောက်နေပါသည်။

Voice Engine ကို ထုတ်ပြန်ရာတွင် ကျွန်ုပ်တို့ လက်ခံကျင့်သုံးခဲ့သည့် သတိထားသောချဉ်းကပ်မှုနှင့် ကိုက်ညီစွာ၊ အများပြည်သူအတွက် ထုတ်ပြန်သည့်အခါ GPT‑4o ၏ အသံထွက်များကို ကြိုတင်သတ်မှတ်ထားသော အသံအချို့အတွင်းသာ ကန့်သတ်သွားမည်ဖြစ်သည်။ ဤအသံများကို သေချာစဉ်းစားထားသော casting လုပ်ငန်းစဉ်မှတစ်ဆင့် ရွေးချယ်ထားသော ကျွမ်းကျင်အသံသရုပ်ဆောင်များထံမှ ရယူထားခြင်းဖြစ်သည်။ မကြာမီထွက်ရှိမည့် GPT‑4o စနစ်ကဒ်တွင် အသံနှင့်ဆက်စပ်သော အန္တရာယ်များနှင့် ကာကွယ်ရေးနည်းလမ်းများအကြောင်း နောက်ထပ်အချက်အလက်များကို ကျွန်ုပ်တို့ မျှဝေပေးသွားမည်ဖြစ်သည်။

ရေးသားသူ

OpenAI