အဓိက အကြောင်းအရာသို့ ကျော်သွားရန်
OpenAI

စာသားမှ ဗီဒီယို ဖန်တီးခြင်း

ဤစာမျက်နှာရှိ ဗီဒီယိုအားလုံးကို ပြုပြင်မွမ်းမံမှုမရှိဘဲ Sora က တိုက်ရိုက်ဖန်တီးထားခြင်းဖြစ်သည်။

ဖွင့်နေသည်…

ကျွန်ုပ်တို့သည် လက်တွေ့ကမ္ဘာတွင် လှုပ်ရှားနေသော ရုပ်ပိုင်းဆိုင်ရာလောကကို နားလည်ပြီး simulation လုပ်နိုင်ရန် AI ကို သင်ကြားပေးနေပြီး၊ ရည်ရွယ်ချက်မှာ လက်တွေ့ကမ္ဘာနှင့် အပြန်အလှန်ဆက်သွယ်မှု လိုအပ်သော ပြဿနာများကို လူများ ဖြေရှင်းနိုင်ရန် အထောက်အကူဖြစ်စေသော မော်ဒယ်များကို လေ့ကျင့်ပေးရန် ဖြစ်သည်။

ကျွန်ုပ်တို့၏ text-to-video မော်ဒယ်ဖြစ်သော Sora ကို မိတ်ဆက်ပေးလိုက်ပါသည်။ Sora သည် အသုံးပြုသူ၏ တုံ့ပြန်ညွှန်ကြားချက်ကို လိုက်နာမှုနှင့် မြင်ကွင်းအရည်အသွေးကို ထိန်းသိမ်းထားရင်း တစ်မိနစ်အထိ ကြာမြင့်သော ဗီဒီယိုများကို ဖန်တီးနိုင်သည်။

ယနေ့တွင် Sora ကို အန္တရာယ်များ သို့မဟုတ် ဆုံးရှုံးနိုင်ခြေများရှိသော အရေးကြီးကဏ္ဍများကို အကဲဖြတ်ရန် red teamers များထံ စတင်အသုံးပြုခွင့်ပေးနေပါသည်။ ထို့အပြင် မော်ဒယ်ကို ဖန်တီးမှုဆိုင်ရာ ကျွမ်းကျင်ပညာရှင်များအတွက် အကူအညီအများဆုံးဖြစ်အောင် ဘယ်လိုတိုးတက်စေမည်ကို တုံ့ပြန်ချက်ရယူရန် visual artists၊ designers နှင့် filmmakers အချို့ထံလည်း အသုံးပြုခွင့်ပေးနေပါသည်။

OpenAI ပြင်ပရှိ လူများနှင့် အတူ စတင်လုပ်ဆောင်ကာ တုံ့ပြန်ချက်ရယူနိုင်ရန်နှင့် မကြာမီ ရောက်ရှိလာမည့် AI စွမ်းရည်များကို အများပြည်သူ နားလည်သဘောပေါက်စေရန် ကျွန်ုပ်တို့၏ သုတေသနတိုးတက်မှုကို စောစီးစွာ မျှဝေထားခြင်းဖြစ်ပါသည်။

Sora သည် ဇာတ်ကောင်များစွာ၊ သီးသန့်လှုပ်ရှားမှုပုံစံများနှင့် အကြောင်းအရာနှင့် နောက်ခံ၏ တိကျသော အသေးစိတ်များပါဝင်သော ရှုပ်ထွေးသည့် ဇာတ်ကွက်များကို ဖန်တီးနိုင်သည်။ မော်ဒယ်သည် အသုံးပြုသူက တုံ့ပြန်ညွှန်ကြားချက်တွင် တောင်းဆိုထားသည်ကိုသာမက ထိုအရာများသည် ရုပ်ပိုင်းဆိုင်ရာ လက်တွေ့ကမ္ဘာတွင် မည်သို့ တည်ရှိသည်ကိုလည်း နားလည်သည်။

မော်ဒယ်သည် ဘာသာစကားကို နက်နက်ရှိုင်းရှိုင်း နားလည်နိုင်သောကြောင့် တုံ့ပြန်ညွှန်ကြားချက်များကို တိကျစွာ အဓိပ္ပာယ်ဖော်ယူနိုင်ပြီး စိတ်ခံစားမှုများကို အသက်ဝင်စွာ ဖော်ပြသော စွဲမက်ဖွယ်ရာ ဇာတ်ကောင်များကို ဖန်တီးပေးနိုင်သည်။ Sora သည် ထုတ်လုပ်ထားသော ဗီဒီယိုတစ်ခုတည်းအတွင်း shot များစွာကိုလည်း ဖန်တီးနိုင်ပြီး ဇာတ်ကောင်များနှင့် မြင်ကွင်းစတိုင်ကို တိကျစွာ ဆက်လက်ထိန်းသိမ်းပေးနိုင်သည်။

လက်ရှိ မော်ဒယ်တွင် တိုးတက်ရန် နေရာရှိနေဆဲဖြစ်သည်။ ၎င်းသည် ရှုပ်ထွေးသော ဇာတ်ကွက်တစ်ခု၏ ရူပဗေဒကို simulation လုပ်ရာတွင် ခက်ခဲနိုင်ပြီး အကြောင်းရင်းနှင့် အကျိုးဆက်၏ သီးခြားဖြစ်ရပ်များကိုလည်း နားမလည်နိုင်သေးပါ (ဥပမာ - ဇာတ်ကောင်တစ်ဦးက ကိုက်လိုက်ပြီးနောက် cookie ပေါ်တွင် ကိုက်ရာအမှတ် မပေါ်နိုင်ခြင်း)။ မော်ဒယ်သည် တုံ့ပြန်ညွှန်ကြားချက်တွင် ပါဝင်သော အာကာသဆိုင်ရာ အသေးစိတ်များကိုလည်း ရောထွေးနိုင်ပြီး ဘယ်နှင့်ညာကို ခွဲခြားရာတွင် သို့မဟုတ် အချိန်ကြာလာသည်နှင့်အမျှ ဖြစ်ပေါ်လာသော အဖြစ်အပျက်များ၏ တိကျသော ဖော်ပြချက်များ၊ ဥပမာ ကင်မရာလမ်းကြောင်းတိကျမှုတို့တွင်လည်း ခက်ခဲနိုင်သည်။

လုံခြုံရေး

Sora ကို OpenAI ၏ ထုတ်ကုန်များတွင် အသုံးပြုနိုင်စေရန် မလုပ်ဆောင်မီ ကျွန်ုပ်တို့သည် အရေးကြီးသော လုံခြုံရေးအဆင့်များစွာကို ဆောင်ရွက်သွားမည်ဖြစ်သည်။ မမှန်သတင်း၊ မုန်းတီးဖွယ်အကြောင်းအရာနှင့် ဘက်လိုက်မှုကဲ့သို့သော နယ်ပယ်များရှိ domain experts ဖြစ်သည့် red teamers များနှင့် လက်တွဲကာ မော်ဒယ်ကို adversarially စမ်းသပ်နေပါသည်။

ဗီဒီယိုတစ်ခုကို Sora က ဖန်တီးထားခြင်း ရှိမရှိ ခွဲခြားသိနိုင်သော detection classifier ကဲ့သို့ လှည့်ဖြားနိုင်သော အကြောင်းအရာများကို ဖော်ထုတ်ရန် ကိရိယာများကိုလည်း ကျွန်ုပ်တို့ တည်ဆောက်နေပါသည်။ အကယ်၍ မော်ဒယ်ကို OpenAI ထုတ်ကုန်တစ်ခုတွင် အသုံးချမည်ဆိုပါက အနာဂတ်တွင် C2PA metadata(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ထည့်သွင်းရန် စီစဉ်ထားပါသည်။

အသုံးချရန် ပြင်ဆင်နိုင်ရန် နည်းလမ်းအသစ်များကို ကျွန်ုပ်တို့ တီထွင်နေသည့်အပြင် Sora အတွက်လည်း သင့်လျော်သော DALL·E 3 ကို အသုံးပြုသည့် ကျွန်ုပ်တို့၏ ထုတ်ကုန်များအတွက် တည်ဆောက်ထားသော ရှိပြီးသား လုံခြုံရေးနည်းလမ်းများ(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကိုလည်း အသုံးချနေပါသည်။

ဥပမာအားဖြင့် OpenAI ထုတ်ကုန်တစ်ခုအတွင်း ရောက်ရှိသွားသည်နှင့် ကျွန်ုပ်တို့၏ text classifier သည် အလွန်အကျွံ အကြမ်းဖက်မှု၊ လိင်ပိုင်းဆိုင်ရာ အကြောင်းအရာ၊ မုန်းတီးဖွယ် ပုံရိပ်၊ celebrity likeness သို့မဟုတ် အခြားသူများ၏ IP ကို တောင်းဆိုသည့် usage policies ကို ချိုးဖောက်သော စာသားတုံ့ပြန်ညွှန်ကြားချက်များကို စစ်ဆေးကာ ပယ်ချမည်ဖြစ်သည်။ ထို့အပြင် အသုံးပြုသူထံ မပြသမီ အသုံးပြုမှုမူဝါဒများကို လိုက်နာကြောင်း သေချာစေရန် ထုတ်လုပ်သော ဗီဒီယိုတိုင်း၏ frame များကို ပြန်လည်စစ်ဆေးရာတွင် အသုံးပြုသည့် အားကောင်းသော image classifiers များကိုလည်း ကျွန်ုပ်တို့ တီထွင်ထားပါသည်။

ဤနည်းပညာအသစ်အတွက် ၎င်းတို့၏ စိုးရိမ်ပူပန်မှုများကို နားလည်ရန်နှင့် အပြုသဘောဆောင်သော အသုံးပြုမှုများကို ရှာဖွေရန် ကမ္ဘာတစ်ဝှမ်းရှိ policymakers၊ educators နှင့် artists များနှင့် ကျွန်ုပ်တို့ ဆက်လက်ထိတွေ့ဆွေးနွေးသွားမည်ဖြစ်သည်။ သုတေသနနှင့် စမ်းသပ်မှု အများအပြား ပြုလုပ်ခဲ့သော်လည်း ကျွန်ုပ်တို့၏ နည်းပညာကို လူများ မည်သို့ အကျိုးရှိစွာ အသုံးပြုမည်ကိုလည်းကောင်း၊ မည်သို့ အလွဲသုံးစားပြုမည်ကိုလည်းကောင်း အားလုံးကို ကြိုတင်မခန့်မှန်းနိုင်ပါ။ ထို့ကြောင့် လက်တွေ့အသုံးပြုမှုမှ သင်ယူခြင်းသည် အချိန်ကြာလာသည်နှင့်အမျှ ပိုမိုလုံခြုံသော AI စနစ်များကို ဖန်တီးကာ ဖြန့်ချိရာတွင် အရေးကြီးသော အစိတ်အပိုင်းတစ်ရပ်ဖြစ်သည်ဟု ကျွန်ုပ်တို့ ယုံကြည်ပါသည်။

Research techniques

Sora သည် diffusion မော်ဒယ်တစ်ခုဖြစ်ပြီး ဗီဒီယိုတစ်ခုကို static noise နှင့်တူသည့် အရာတစ်ခုမှ စတင်ဖန်တီးကာ အဆင့်များစွာအတွင်း noise ကို ဖယ်ရှားရင်း တဖြည်းဖြည်း ပြောင်းလဲဖန်တီးပေးသည်။

Sora သည် ဗီဒီယိုတစ်ခုလုံးကို တစ်ပြိုင်နက်တည်း ဖန်တီးနိုင်သလို ထုတ်လုပ်ပြီးသား ဗီဒီယိုများကိုလည်း ပိုရှည်အောင် တိုးချဲ့နိုင်သည်။ frame အများအပြားကို တစ်ချိန်တည်း ကြိုတင်မြင်နိုင်စွမ်းပေးခြင်းအားဖြင့် အရာဝတ္ထုတစ်ခုသည် ခဏတာ မြင်ကွင်းပြင်ပသို့ ထွက်သွားခဲ့သော်လည်း တူညီနေစေရန် သေချာစေသည့် ခက်ခဲသော ပြဿနာတစ်ရပ်ကို ကျွန်ုပ်တို့ ဖြေရှင်းနိုင်ခဲ့ပါသည်။

GPT မော်ဒယ်များကဲ့သို့ပင် Sora သည် ထရန်(စ်)ဖော်မာ ဗိသုကာပညာကို အသုံးပြု၍ ပိုမိုကောင်းမွန်သော scaling performance ကို ဖွင့်လှစ်ပေးသည်။

ကျွန်ုပ်တို့သည် ဗီဒီယိုနှင့် ပုံများကို patches ဟုခေါ်သော သေးငယ်သည့် ဒေတာယူနစ်များအစုအဝေးအဖြစ် ကိုယ်စားပြုထားပြီး၊ တစ်ခုချင်းစီသည် GPT ရှိ တိုကင် တစ်ခုနှင့် ဆင်တူသည်။ ဒေတာကို ကိုယ်စားပြုသည့်နည်းလမ်းကို တစ်စုတစ်စည်းတည်း ပြုလုပ်ခြင်းအားဖြင့် မတူညီသော အချိန်ကြာချိန်များ၊ resolution များနှင့် aspect ratio များအပါအဝင် ယခင်ကထက် ပိုမိုကျယ်ပြန့်သော မြင်ကွင်းဒေတာအမျိုးအစားများပေါ်တွင် ပြောင်းလဲမှုအခြေခံ transformer များကို လေ့ကျင့်ပေးနိုင်သည်။

Sora သည် DALL·E နှင့် GPT မော်ဒယ်များအပေါ် အခြေခံထားသော ယခင်သုတေသနများကို ဆက်လက်တည်ဆောက်ထားသည်။ ၎င်းသည် DALL·E 3 မှ recaptioning နည်းလမ်းကို အသုံးပြုထားပြီး မြင်ကွင်းလေ့ကျင့်ရေးဒေတာအတွက် အလွန်အသေးစိတ်ဖော်ပြသော caption များကို ထုတ်ပေးခြင်း ပါဝင်သည်။ ထိုကြောင့် မော်ဒယ်သည် ထုတ်လုပ်သော ဗီဒီယိုအတွင်း အသုံးပြုသူ၏ စာသားညွှန်ကြားချက်များကို ပိုမိုတိကျစွာ လိုက်နာနိုင်သည်။

စာသားညွှန်ကြားချက်များမှသာ ဗီဒီယိုဖန်တီးနိုင်သည့်အပြင် မော်ဒယ်သည် ရှိပြီးသား ငြိမ်ပုံတစ်ပုံကိုလည်း ယူကာ ၎င်းမှ ဗီဒီယိုတစ်ခု ဖန်တီးနိုင်ပြီး ပုံအတွင်းပါဝင်သည့် အကြောင်းအရာများကို တိကျစွာနှင့် အသေးစိတ်အထိ ဂရုစိုက်ကာ လှုပ်ရှားစေနိုင်သည်။ မော်ဒယ်သည် ရှိပြီးသား ဗီဒီယိုတစ်ခုကိုလည်း တိုးချဲ့နိုင်သလို ပျောက်ဆုံးနေသော frame များကိုလည်း ဖြည့်ပေးနိုင်သည်။ ကျွန်ုပ်တို့၏ နည်းပညာအစီရင်ခံစာတွင် ပိုမိုလေ့လာပါ

Sora သည် လက်တွေ့ကမ္ဘာကို နားလည်၍ simulation လုပ်နိုင်သော မော်ဒယ်များအတွက် အခြေခံတစ်ရပ်အဖြစ် ဆောင်ရွက်ပြီး၊ ၎င်းစွမ်းရည်သည် AGI ကို ရရှိရန်အတွက် အရေးကြီးသော milestone တစ်ခုဖြစ်မည်ဟု ကျွန်ုပ်တို့ ယုံကြည်သည်။

ဖွင့်နေသည်...