၂၀၂၄ မတ် ၂၉

Synthetic Voices ၏ စိန်ခေါ်မှုများနှင့် အခွင့်အလမ်းများကို လမ်းညွှန်ဖြတ်သန်းခြင်း

စိတ်ကြိုက်အသံများ ဖန်တီးရန် မော်ဒယ်တစ်ခုဖြစ်သော Voice Engine ၏ အသေးစား အစမ်းကြိုတင်ပြသမှုမှ သင်ခန်းစာများကို ကျွန်ုပ်တို့ မျှဝေနေပါသည်။

ဖွင့်နေသည်…

OpenAI သည် ဘေးကင်းလုံခြုံပြီး အကျိုးကျေးဇူးကို ကျယ်ပြန့်စွာ ပေးနိုင်သော AI ကို ဖွံ့ဖြိုးတိုးတက်စေရန်⁠ ကတိပြုထားပါသည်။ ယနေ့ ကျွန်ုပ်တို့သည် Voice Engine ဟု ခေါ်သော မော်ဒယ်တစ်ခု၏ အသေးစားအစမ်းကြိုတင်ပြသမှုမှ ကနဦးအမြင်များနှင့် ရလဒ်များကို မျှဝေနေပါသည်။ ၎င်းသည် စာသားထည့်သွင်းချက်နှင့် ၁၅ စက္ကန့်စာ အသံနမူနာတစ်ခုတည်းကို အသုံးပြုပြီး မူရင်းပြောသူနှင့် အလွန်ဆင်တူသော သဘာဝကျ စကားသံကို ထုတ်ပေးနိုင်သည်။ ၁၅ စက္ကန့်စာ နမူနာတစ်ခုတည်းဖြင့် မော်ဒယ်ငယ်တစ်ခုက ခံစားချက်ပါဝင်ပြီး လက်တွေ့ကျသော အသံများကို ဖန်တီးနိုင်ခြင်းမှာ ထင်ရှားသောအချက်တစ်ခု ဖြစ်သည်။

ကျွန်ုပ်တို့သည် Voice Engine ကို 2022 ခုနှစ် နှောင်းပိုင်းတွင် ပထမဆုံး ဖွံ့ဖြိုးတိုးတက်စေခဲ့ပြီး text-to-speech API⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် ရရှိနိုင်သော preset voices များနှင့် ChatGPT Voice and Read Aloud⁠ တို့ကို လည်ပတ်စေရန် အသုံးပြုခဲ့ပါသည်။ တစ်ချိန်တည်းမှာပင် synthetic voice ကို မလျော်ကန်စွာ အသုံးပြုနိုင်မည့် အလားအလာကြောင့် ပိုမိုကျယ်ပြန့်စွာ ဖြန့်ချိရန်အတွက် သတိရှိပြီး အချက်အလက်အခြေပြုသော ချဉ်းကပ်မှုကို ကျွန်ုပ်တို့ လက်ခံကျင့်သုံးနေပါသည်။ synthetic voices ကို တာဝန်ယူမှုရှိစွာ အသုံးချခြင်းနှင့် လူ့အဖွဲ့အစည်းက ဤစွမ်းရည်အသစ်များနှင့် မည်သို့ လိုက်လျောညီထွေ ဖြစ်နိုင်မည်ကို ဆွေးနွေးမှုတစ်ရပ် စတင်စေလိုပါသည်။ ဤဆွေးနွေးမှုများနှင့် အသေးစား စမ်းသပ်မှုများ၏ ရလဒ်များအပေါ် အခြေခံပြီး ဤနည်းပညာကို အကျယ်အဝန်းဖြင့် အသုံးချသင့်မသင့်နှင့် မည်သို့ အသုံးချသင့်သည်ကို ပိုမိုအသိပညာပြည့်စုံစွာ ဆုံးဖြတ်သွားမည် ဖြစ်ပါသည်။

Voice Engine ၏ အစောပိုင်း အသုံးချမှုများ

ဤနည်းပညာ၏ ဖြစ်နိုင်ချေရှိသော အသုံးပြုမှုများကို ပိုမိုနားလည်ရန် ပြီးခဲ့သည့်နှစ် နှောင်းပိုင်းတွင် ကျွန်ုပ်တို့သည် ယုံကြည်စိတ်ချရသော မိတ်ဖက်အဖွဲ့ငယ်တစ်ဖွဲ့နှင့် သီးသန့်စမ်းသပ်မှုများ စတင်လုပ်ဆောင်ခဲ့သည်။ ဤအဖွဲ့က ဖန်တီးထားသော အသုံးချမှုများကြောင့် ကျွန်ုပ်တို့ အားရကျေနပ်မိပါသည်။ ဤအသေးစား အသုံးချမှုများက Voice Engine ကို လုပ်ငန်းကဏ္ဍမျိုးစုံအနှံ့ အကျိုးရှိစွာ မည်သို့ အသုံးချနိုင်မည်ဆိုသည့် ကျွန်ုပ်တို့၏ ချဉ်းကပ်ပုံ၊ အကာအကွယ်အစီအမံများနှင့် အတွေးအမြင်များကို ပိုမိုပုံဖော်ပေးနေပါသည်။ အစောပိုင်း ဥပမာအချို့မှာ-

စာဖတ်ရာတွင် အကူအညီပေးခြင်း ကို preset voices များဖြင့် မဖြစ်နိုင်သည့် အတိုင်းအတာထက် ပိုမိုကျယ်ပြန့်သော ပြောသူအမျိုးအစားများကို ကိုယ်စားပြုသည့် သဘာဝကျပြီး ခံစားချက်ပါဝင်သော အသံများမှတဆင့် စာမဖတ်တတ်သူများနှင့် ကလေးများအတွက် ပံ့ပိုးပေးခြင်း ဖြစ်သည်။ ကလေးများ၏ ပညာရေးအောင်မြင်မှုအတွက် ရည်စူးထားသော ပညာရေးနည်းပညာကုမ္ပဏီ Age of Learning⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် ကြိုတင်ရေးသားထားသော voice-over အကြောင်းအရာများကို ဖန်တီးရန် ဤနည်းပညာကို အသုံးပြုနေပါသည်။ ၎င်းတို့သည် ကျောင်းသားများနှင့် အပြန်အလှန်ဆက်သွယ်ရန် အချိန်နှင့်တပြေးညီ၊ ကိုယ်ပိုင်သီးသန့်ဖြေကြားမှုများ ဖန်တီးရန် Voice Engine နှင့် GPT‑4 ကိုလည်း အသုံးပြုပါသည်။ ဤနည်းပညာဖြင့် Age of Learning သည် ပိုမိုကျယ်ပြန့်သော ပရိသတ်အတွက် အကြောင်းအရာများကို ပိုမိုများပြားစွာ ဖန်တီးနိုင်လာခဲ့သည်။

အကြောင်းအရာများကို ဘာသာပြန်ပေးခြင်း၊ ဗီဒီယိုများနှင့် podcast များကဲ့သို့သော အကြောင်းအရာများကို ဖန်တီးသူများနှင့် စီးပွားရေးလုပ်ငန်းများက ကမ္ဘာတစ်ဝန်းရှိ လူပိုမိုများပြားစွာထံ ကိုယ်ပိုင်အသံဖြင့် သွက်လက်စွာ ရောက်ရှိနိုင်ရန် ဖြစ်သည်။ ယင်းကို အစောပိုင်း လက်ခံအသုံးပြုသူတစ်ဦးမှာ ထုတ်ကုန်စျေးကွက်ရှာဖွေရေးမှ အရောင်း demo များအထိ အကြောင်းအရာမျိုးစုံအတွက် လုပ်ငန်းဖောက်သည်များနှင့် လက်တွဲကာ စိတ်ကြိုက် လူသားဆန်သော avatar များ ဖန်တီးပေးသည့် AI visual storytelling platform HeyGen⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ဖြစ်သည်။ ၎င်းတို့သည် ဗီဒီယိုဘာသာပြန်ရန် Voice Engine ကို အသုံးပြုသောကြောင့် ပြောသူတစ်ဦး၏ အသံကို ဘာသာစကားများစွာသို့ ပြောင်းလဲဘာသာပြန်ပြီး ကမ္ဘာလုံးဆိုင်ရာ ပရိသတ်ထံ ရောက်ရှိနိုင်သည်။ ဘာသာပြန်ရာတွင် အသုံးပြုသည့်အခါ Voice Engine သည် မူရင်းပြောသူ၏ မူလအသံထွက်ကို ထိန်းသိမ်းပေးသည်။ ဥပမာ ပြင်သစ်ပြောသူတစ်ဦး၏ အသံနမူနာဖြင့် အင်္ဂလိပ်စကား ဖန်တီးပါက ပြင်သစ်အသံထွက်ပါသော စကားသံကို ထုတ်ပေးမည် ဖြစ်သည်။

ဖွင့်နေသည်...

ကမ္ဘာလုံးဆိုင်ရာ လူမှုအသိုင်းအဝိုင်းများထံ ရောက်ရှိခြင်း၊ ဝေးလံခေါင်သီသော နေရာများတွင် မရှိမဖြစ်လိုအပ်သော ဝန်ဆောင်မှုများ ပေးအပ်မှုကို တိုးတက်ကောင်းမွန်စေခြင်းဖြင့် ဖြစ်သည်။ Dimagi⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် မိခင်နို့တိုက်ကျွေးနေသော မိခင်များအတွက် အကြံပေးခြင်းကဲ့သို့သော မရှိမဖြစ်ဝန်ဆောင်မှုမျိုးစုံကို ပေးနိုင်ရန် လူထုကျန်းမာရေးဝန်ထမ်းများအတွက် ကိရိယာများကို တည်ဆောက်နေပါသည်။ ဤဝန်ထမ်းများ၏ ကျွမ်းကျင်မှုများ ဖွံ့ဖြိုးလာစေရန် Dimagi သည် Swahili သို့မဟုတ် Kenya တွင် လူကြိုက်များသော code-mixed language ဖြစ်သည့် Sheng ကဲ့သို့ ပိုမို informal ဖြစ်သော ဘာသာစကားများအပါအဝင် ဝန်ထမ်းတစ်ဦးချင်း၏ အဓိကဘာသာစကားဖြင့် အပြန်အလှန်တုံ့ပြန်မှုရှိသော feedback ပေးရန် Voice Engine နှင့် GPT‑4 ကို အသုံးပြုနေပါသည်။

ဖွင့်နေသည်...

စကားမပြောနိုင်သူများကို ပံ့ပိုးပေးခြင်း၊ ဥပမာ စကားပြောခြင်းကို ထိခိုက်စေသော အခြေအနေများရှိသူများအတွက် ကုသရေးအသုံးချမှုများနှင့် သင်ယူမှုလိုအပ်ချက်ရှိသူများအတွက် ပညာရေးဆိုင်ရာ မြှင့်တင်မှုများ ဖြစ်သည်။ AI အခြေပြု အစားထိုးဆက်သွယ်ရေး app တစ်ခုဖြစ်သော Livox⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် မသန်စွမ်းသူများကို ဆက်သွယ်ပြောဆိုနိုင်စေသည့် Augmentative & Alternative Communication (AAC) စက်ပစ္စည်းများကို လည်ပတ်ပေးနေသည်။ Voice Engine ကို အသုံးပြုခြင်းအားဖြင့် ၎င်းတို့သည် စကားမပြောနိုင်သူများအတွက် ဘာသာစကားများစွာတွင် ထူးခြားပြီး စက်ရုပ်ဆန်မနေသော အသံများကို ပံ့ပိုးပေးနိုင်သည်။ ၎င်းတို့၏ အသုံးပြုသူများသည် မိမိတို့ကို အကောင်းဆုံး ကိုယ်စားပြုမည့် စကားသံကို ရွေးချယ်နိုင်ပြီး၊ ဘာသာစကားမျိုးစုံ အသုံးပြုသူများအတွက်လည်း ပြောဆိုသည့် ဘာသာစကားတိုင်းတွင် တသမတ်တည်းသော အသံကို ထိန်းသိမ်းထားနိုင်သည်။

ဖွင့်နေသည်...

လူနာများ အသံပြန်လည်ရရှိရန် ကူညီပေးခြင်း၊ ရုတ်တရက်ဖြစ်ပေါ်လာသော သို့မဟုတ် တဖြည်းဖြည်း ဆိုးရွားလာသော စကားပြောဆိုင်ရာ အခြေအနေများ ခံစားနေရသူများအတွက် ဖြစ်သည်။ Brown University ၏ ဆေးကျောင်းအတွက် အဓိက သင်ကြားရေး မိတ်ဖက်ဖြစ်သည့် အကျိုးအမြတ်မယူသော ကျန်းမာရေးစနစ် Lifespan ရှိ Norman Prince Neurosciences Institute သည် ဆေးကုသရေးဆိုင်ရာ အခြေအနေများတွင် AI အသုံးချမှုများကို လေ့လာနေပါသည်။ ၎င်းတို့သည် ကင်ဆာဆိုင်ရာ သို့မဟုတ် အာရုံကြောဆိုင်ရာ အကြောင်းရင်းများကြောင့် စကားပြောချို့ယွင်းနေသူများအတွက် Voice Engine ပံ့ပိုးပေးသည့် အစီအစဉ်တစ်ရပ်ကို စမ်းသပ်လုပ်ဆောင်နေခဲ့သည်။ Voice Engine သည် အလွန်တိုသော အသံနမူနာသာ လိုအပ်သောကြောင့် ဆရာဝန်များဖြစ်သော Fatima Mirza၊ Rohaid Ali နှင့် Konstantina Svokos တို့က ကျောင်းပရောဂျက်တစ်ခုအတွက် ရိုက်ကူးထားသော ဗီဒီယိုမှ အသံကို အသုံးပြု၍ သွေးကြောဆိုင်ရာ ဦးနှောက်အကျိတ်ကြောင့် စကားချောမွေ့စွာ မပြောနိုင်တော့သော ငယ်ရွယ်သော လူနာတစ်ဦး၏ အသံကို ပြန်လည်ရရှိစေနိုင်ခဲ့သည်။

ဖွင့်နေသည်...

Voice Engine ကို ဘေးကင်းစွာ တည်ဆောက်ခြင်း

လူများ၏ အသံနှင့် ဆင်တူသော စကားသံများကို ဖန်တီးခြင်းတွင် ပြင်းထန်သော အန္တရာယ်များရှိကြောင်း ကျွန်ုပ်တို့ သတိပြုမိထားပြီး၊ အထူးသဖြင့် ရွေးကောက်ပွဲကျင်းပသည့် နှစ်တွင် ၎င်းသည် အလွန်အရေးပါသည့် စိုးရိမ်ချက်တစ်ခု ဖြစ်နေသည်။ တည်ဆောက်နေစဉ်အတွင်း ၎င်းတို့၏ အကြံပြုချက်များကို ထည့်သွင်းအသုံးပြုနိုင်စေရန် အစိုးရ၊ မီဒီယာ၊ ဖျော်ဖြေရေး၊ ပညာရေး၊ အရပ်ဘက်လူမှုအဖွဲ့အစည်းနှင့် အခြား ကဏ္ဍများတစ်လျှောက်မှ အမေရိကန်နှင့် နိုင်ငံတကာ မိတ်ဖက်များနှင့် ကျွန်ုပ်တို့ ပူးပေါင်းဆောင်ရွက်နေပါသည်။ ယနေ့ Voice Engine ကို စမ်းသပ်နေသော မိတ်ဖက်များသည် ကျွန်ုပ်တို့၏ အသုံးပြုမှုမူဝါဒများ⁠ ကို လိုက်နာရန် သဘောတူထားကြပြီး၊ အဆိုပါ မူဝါဒများတွင် သဘောတူညီချက် သို့မဟုတ် ဥပဒေဆိုင်ရာ အခွင့်အရေးမရှိဘဲ အခြားပုဂ္ဂိုလ်တစ်ဦး သို့မဟုတ် အဖွဲ့အစည်းတစ်ခုအဖြစ် အယောင်ဆောင်ခြင်းကို တားမြစ်ထားသည်။ ထို့အပြင် ဤမိတ်ဖက်များနှင့်ရှိသော ကျွန်ုပ်တို့၏ သတ်မှတ်ချက်များတွင် မူရင်းပြောသူထံမှ ရှင်းလင်းပြတ်သားပြီး အသိပေးထားသော သဘောတူညီချက်ကို လိုအပ်စေပြီး၊ တစ်ဦးချင်း အသုံးပြုသူများက မိမိတို့၏ ကိုယ်ပိုင်အသံကို ဖန်တီးနိုင်မည့် နည်းလမ်းများ တည်ဆောက်ရန် developer များကိုလည်း ကျွန်ုပ်တို့ ခွင့်မပြုပါ။ မိတ်ဖက်များသည် ၎င်းတို့၏ ပရိသတ်ကို ကြားနေရသော အသံများသည် AI မှ ထုတ်လုပ်ထားခြင်းဖြစ်ကြောင်းလည်း ရှင်းလင်းစွာ ဖော်ပြရမည် ဖြစ်သည်။ နောက်ဆုံးအနေဖြင့် Voice Engine မှ ထုတ်လုပ်ထားသော မည်သည့်အသံ၏ မူလရင်းမြစ်ကိုမဆို ခြေရာခံနိုင်ရန် watermarking အပါအဝင် ဘေးကင်းလုံခြုံရေးအစီအမံများစွာကို ကျွန်ုပ်တို့ အကောင်အထည်ဖော်ထားပြီး၊ ၎င်းကို မည်သို့ အသုံးပြုနေသည်ကိုလည်း ကြိုတင်စောင့်ကြည့်လေ့လာမှုများ ပြုလုပ်နေပါသည်။ synthetic voice နည်းပညာကို ကျယ်ပြန့်စွာ အသုံးချမည်ဆိုပါက မူရင်းပြောသူက မိမိ၏ အသံကို ဝန်ဆောင်မှုတွင် သိရှိစွာ ထည့်သွင်းနေခြင်းကို အတည်ပြုသည့် voice authentication အတွေ့အကြုံများနှင့် ထင်ရှားကျော်ကြားသူများနှင့် အလွန်ဆင်တူသော အသံများ ဖန်တီးခြင်းကို ရှာဖွေတားဆီးပေးသည့် no-go voice list တို့နှင့်အတူ တွဲဖက်သင့်သည်ဟု ကျွန်ုပ်တို့ ယုံကြည်ပါသည်။

ရှေ့ကို မျှော်ကြည့်ခြင်း

Voice Engine သည် နည်းပညာဆိုင်ရာ စွမ်းဆောင်ရည်အမြင့်ဆုံး နယ်ပယ်ကို နားလည်ရန်နှင့် AI ဖြင့် မည်သည့်အရာများ ဖြစ်လာနိုင်နေပြီကို ပွင့်လင်းစွာ မျှဝေရန် ကျွန်ုပ်တို့၏ ကတိကဝတ်ကို ဆက်လက်အကောင်အထည်ဖော်ခြင်း ဖြစ်သည်။ ကျွန်ုပ်တို့၏ AI ဘေးကင်းလုံခြုံရေးဆိုင်ရာ ချဉ်းကပ်ပုံ⁠ နှင့် မိမိဆန္ဒအလျောက် ခံယူထားသော ကတိကဝတ်များ⁠ နှင့်အညီ ယခုအချိန်တွင် ဤနည်းပညာကို အများပြည်သူထံ ကျယ်ကျယ်ပြန့်ပြန့် မဖြန့်ချိဘဲ အစမ်းကြိုတင်ပြသရန် ကျွန်ုပ်တို့ ရွေးချယ်ထားသည်။ Voice Engine ၏ ဤအစမ်းကြိုတင်ပြသမှုသည် ၎င်း၏ အလားအလာကို ထင်ရှားစေသကဲ့သို့ ပိုမိုယုံကြည်လက်ခံလောက်အောင် ဖြစ်လာနေသော ထုတ်လုပ်ပေးနိုင်သော မော်ဒယ်များကြောင့် ပေါ်ပေါက်လာသည့် စိန်ခေါ်မှုများကို ရင်ဆိုင်နိုင်ရန် လူမှုအသိုင်းအဝိုင်း၏ ခံနိုင်ရည်ကို တိုးမြှင့်ရန် လိုအပ်ကြောင်းကိုလည်း လှုံ့ဆော်ပေးမည်ဟု မျှော်လင့်ပါသည်။ အထူးသဖြင့် ကျွန်ုပ်တို့က အောက်ပါအဆင့်များကို အားပေးပါသည်-

ဘဏ်စာရင်းများနှင့် အခြား အရေးကြီးသော အချက်အလက်များကို ရယူအသုံးပြုရာတွင် လုံခြုံရေးနည်းလမ်းတစ်ခုအဖြစ် အသံအခြေပြု အတည်ပြုမှုကို တဖြည်းဖြည်း ရပ်နားသွားခြင်း
AI တွင် တစ်ဦးချင်း၏ အသံအသုံးပြုမှုကို ကာကွယ်ပေးရန် မူဝါဒများကို လေ့လာဖော်ဆောင်ခြင်း
လိမ်လည်လှည့်ဖြားနိုင်သော AI အကြောင်းအရာ ဖြစ်နိုင်ခြေအပါအဝင် AI နည်းပညာများ၏ စွမ်းရည်များနှင့် ကန့်သတ်ချက်များကို နားလည်စေရန် ပြည်သူလူထုကို ပညာပေးခြင်း
အသံနှင့် ရုပ်သံအကြောင်းအရာများ၏ မူလရင်းမြစ်ကို ခြေရာခံနိုင်သော နည်းလမ်းများ၏ ဖွံ့ဖြိုးတိုးတက်မှုနှင့် အသုံးချမှုကို အရှိန်မြှင့်တင်ခြင်း၊ သို့မှသာ သင် အပြန်အလှန်ဆက်သွယ်နေသူမှာ လူအစစ်တစ်ဦးလား သို့မဟုတ် AI လားကို အမြဲ ရှင်းလင်းနေစေရန်

နောက်ဆုံးတွင် ကျွန်ုပ်တို့ကိုယ်တိုင် ဤနည်းပညာကို ကျယ်ကျယ်ပြန့်ပြန့် အသုံးချမည်ဖြစ်စေ မဖြစ်စေ ကမ္ဘာတစ်ဝန်းရှိ လူများက ဤနည်းပညာ ဘယ်ကို ဦးတည်နေသည်ကို နားလည်ထားရန် အရေးကြီးပါသည်။ မူဝါဒချမှတ်သူများ၊ သုတေသီများ၊ ဖွံ့ဖြိုးရေးဆောင်ရွက်သူများနှင့် ဖန်တီးသူများနှင့်အတူ synthetic voices ၏ စိန်ခေါ်မှုများနှင့် အခွင့်အလမ်းများအကြောင်း ဆက်လက် ဆွေးနွေးနိုင်ရန် ကျွန်ုပ်တို့ မျှော်လင့်ပါသည်။

ဆက်စပ်ဆောင်းပါးများ

အားလုံးကို ကြည့်ရန်

Video generation models as world simulators

ထုတ်ဝေမှု၂၀၂၄ ဖေ ၁၅

Building an early warning system for LLM-aided biological threat creation

ထုတ်ဝေမှု၂၀၂၄ ဇန် ၃၁

Weak-to-strong generalization

ဘေးကင်းရေး၂၀၂၃ ဒီ ၁၄