အဓိက အကြောင်းအရာသို့ ကျော်သွားရန်
OpenAI

၂၀၂၃ ဇန်နဝါရီ ၃၁

ထုတ်ကုန်

New AI classifier for indicating AI-written text

AI ရေးသားထားသော စာသားကို ဖော်ပြရန် AI classifier အသစ်
ဖွင့်နေသည်…

2023 ခုနှစ် ဇူလိုင် 20 ရက်နေ့မှစ၍ AI classifier ကို တိကျမှန်ကန်မှုနှုန်း နိမ့်ပါးခြင်းကြောင့် မရရှိနိုင်တော့ပါ။ ကျွန်ုပ်တို့သည် တုံ့ပြန်ချက်များကို ထည့်သွင်းအသုံးချရန် လုပ်ဆောင်နေပြီး လက်ရှိတွင် စာသားအတွက် ပိုမို ထိရောက်သော provenance နည်းလမ်းများကို သုတေသနပြုလျက်ရှိပါသည်။ ထို့ပြင် အသံ သို့မဟုတ် ရုပ်ပုံအကြောင်းအရာတစ်ခုသည် AI ဖြင့် ဖန်တီးထားခြင်း ဟုတ်မဟုတ်ကို အသုံးပြုသူများ နားလည်နိုင်စေမည့် ယန္တရားများကို ဖွံ့ဖြိုးပြီး အသုံးချမည်ဟု ကတိကဝတ်ပြုထားပါသည်။

ကျွန်ုပ်တို့သည် လူက ရေးသားထားသော စာသားနှင့် ပံ့ပိုးသူအမျိုးမျိုးမှ AI များက ရေးသားထားသော စာသားကို ခွဲခြားသတ်မှတ်နိုင်ရန် classifier တစ်ခုကို လေ့ကျင့်ပေးထားပါသည်။ AI က ရေးသားထားသော စာသားအားလုံးကို ယုံကြည်စိတ်ချစွာ ရှာဖွေဖော်ထုတ်ရန် မဖြစ်နိုင်သော်လည်း၊ AI ဖြင့် ဖန်တီးထားသော စာသားကို လူက ရေးထားသည်ဟု မမှန်ကန်စွာ ဆိုခြင်းများကို လျော့ပါးစေရန် classifier ကောင်းများက အထောက်အကူပြုနိုင်သည်ဟု ကျွန်ုပ်တို့ ယုံကြည်ပါသည်။ ဥပမာအားဖြင့် အလိုအလျောက် သတင်းမှား ဖြန့်ဝေမှု လှုပ်ရှားမှုများ ကို လုပ်ဆောင်ခြင်း၊ ပညာရေးဆိုင်ရာ မရိုးသားမှုအတွက် AI ကိရိယာများကို အသုံးပြုခြင်းနှင့် AI chatbot ကို လူတစ်ဦးအဖြစ် ဖော်ဆောင်တင်ပြခြင်းတို့ ဖြစ်ပါသည်။

ကျွန်ုပ်တို့၏ classifier သည် အပြည့်အဝ ယုံကြည်စိတ်ချရခြင်း မရှိသေးပါ။ ကျွန်ုပ်တို့၏ အကဲဖြတ်မှုများတွင် အင်္ဂလိပ်စာ “challenge set” ပေါ်၌ ကျွန်ုပ်တို့၏ classifier သည် AI ရေးသားထားသော စာသား၏ 26% (true positives) ကို “AI ရေးထားဖွယ်ရှိ” ဟု မှန်ကန်စွာ ခွဲခြားသတ်မှတ်နိုင်သော်လည်း၊ လူရေးထားသော စာသားကို AI ရေးထားသည်ဟု 9% အကြိမ်နှုန်းဖြင့် မှားယွင်း တံဆိပ်ကပ်ပါသည် (false positives)။ ထည့်သွင်းသော စာသား ပိုရှည်လာလေလေ classifier ၏ ယုံကြည်စိတ်ချရမှုက ပိုမို ကောင်းမွန်လာတတ်ပါသည်။ ကျွန်ုပ်တို့၏ ယခင် ထုတ်ပြန်ခဲ့သော classifier(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) နှင့် နှိုင်းယှဉ်လျှင် classifier အသစ်သည် မကြာသေးမီက AI စနစ်များမှ ထုတ်လုပ်သော စာသားများအပေါ် သိသိသာသာ ပိုမို ယုံကြည်စိတ်ချရပါသည်။

ဤ classifier ကို အများပြည်သူ အသုံးပြုနိုင်အောင် ဖွင့်ပေးထားခြင်းမှာ ယခုကဲ့သို့ မပြည့်စုံသေးသော ကိရိယာများက အသုံးဝင်ခြင်း ရှိမရှိအပေါ် တုံ့ပြန်ချက် ရရှိရန် ဖြစ်ပါသည်။ AI ဖြင့် ဖန်တီးထားသော စာသားကို ရှာဖွေဖော်ထုတ်ခြင်းဆိုင်ရာ ကျွန်ုပ်တို့၏ လုပ်ငန်းကို ဆက်လက် လုပ်ဆောင်သွားမည်ဖြစ်ပြီး အနာဂတ်တွင် ပိုမိုကောင်းမွန်သော နည်းလမ်းများကို မျှဝေပေးနိုင်မည်ဟု မျှော်လင့်ပါသည်။

ဖွံ့ဖြိုးဆဲအဆင့်ရှိ ကျွန်ုပ်တို့၏ အခမဲ့ classifier ကို သင်ကိုယ်တိုင် စမ်းသုံးကြည့်ပါ:

ကန့်သတ်ချက်များ

ကျွန်ုပ်တို့၏ classifier တွင် အရေးကြီးသော ကန့်သတ်ချက်များ များစွာ ရှိပါသည်။ ၎င်းကို အဓိက ဆုံးဖြတ်ချက်ချရာ ကိရိယာအဖြစ် မသုံးသင့်ပါ၊ ထိုအစား စာသားတစ်ပိုဒ်၏ မူလရင်းမြစ်ကို သတ်မှတ်ရန် အခြားနည်းလမ်းများကို ဖြည့်စွက်ကူညီပေးသော ကိရိယာအဖြစ်သာ သုံးသင့်ပါသည်။

  1. classifier သည် စာတိုများ (အက္ခရာ 1,000 အောက်) အပေါ်တွင် အလွန် မယုံကြည်စိတ်ချရပါ။ ပိုရှည်သော စာသားများပင် တစ်ခါတရံ classifier က မှားယွင်းစွာ တံဆိပ်ကပ်နိုင်ပါသည်။
  2. တစ်ခါတရံ လူက ရေးသားထားသော စာသားကို ကျွန်ုပ်တို့၏ classifier က မှားယွင်းသော်လည်း ယုံကြည်မှုမြင့်မားစွာ AI ရေးထားသည်ဟု တံဆိပ်ကပ်နိုင်ပါသည်။
  3. classifier ကို အင်္ဂလိပ်စာသားအတွက်သာ အသုံးပြုရန် ကျွန်ုပ်တို့ အကြံပြုပါသည်။ ၎င်းသည် အခြားဘာသာစကားများတွင် စွမ်းဆောင်ရည် သိသိသာသာ ကျဆင်းပြီး code အပေါ်တွင်လည်း မယုံကြည်စိတ်ချရပါ။
  4. အလွန် ကြိုတင်ခန့်မှန်းနိုင်သော စာသားကို ယုံကြည်စိတ်ချစွာ ခွဲခြားသတ်မှတ်၍ မရနိုင်ပါ။ ဥပမာအားဖြင့် ပထမ 1,000 prime numbers စာရင်းကို AI က ရေးသလား လူက ရေးသလားဆိုသည်ကို ခန့်မှန်းရန် မဖြစ်နိုင်ပါ၊ အဘယ်ကြောင့်ဆိုသော် မှန်ကန်သော အဖြေက အမြဲတမ်း တူညီနေသောကြောင့် ဖြစ်သည်။
  5. AI ရေးထားသော စာသားကို classifier ကို ရှောင်လွှဲနိုင်ရန် တည်းဖြတ်နိုင်ပါသည်။ ကျွန်ုပ်တို့၏ classifier ကဲ့သို့သော classifier များကို အောင်မြင်သော တိုက်ခိုက်မှုများအပေါ် မူတည်၍ အပ်ဒိတ်လုပ်ပြီး ပြန်လည်လေ့ကျင့်နိုင်သော်လည်း၊ ရှာဖွေဖော်ထုတ်ခြင်းသည် ရေရှည်အတွက် အသာစီး ရှိမရှိ မရှင်းလင်းသေးပါ။
  6. neural network အခြေပြု classifier များသည် ၎င်းတို့၏ လေ့ကျင့်ရေးဒေတာပြင်ပတွင် calibration မကောင်းသည်ဟု သိထားပြီး ဖြစ်ပါသည်။ ကျွန်ုပ်တို့၏ လေ့ကျင့်ရေးအစုထဲရှိ စာသားများနှင့် အလွန် ကွာခြားသော input များအတွက် classifier သည် တစ်ခါတရံ မှားယွင်းသော ခန့်မှန်းချက်အပေါ် အလွန်အမင်း ယုံကြည်မှုရှိနေနိုင်ပါသည်။

classifier ကို လေ့ကျင့်ပေးခြင်း

ကျွန်ုပ်တို့၏ classifier သည် တူညီသော ခေါင်းစဉ်အပေါ် လူရေးသားထားသော စာသားနှင့် AI ရေးသားထားသော စာသား အတွဲများပါဝင်သည့် dataset တစ်ခုပေါ်တွင် fine-tune လုပ်ထားသော language model တစ်ခု ဖြစ်ပါသည်။ ကျွန်ုပ်တို့သည် လူများက ရေးသားထားသည်ဟု ယုံကြည်ရသော အရင်းအမြစ်မျိုးစုံမှ ဤ dataset ကို စုဆောင်းခဲ့ပြီး၊ pretraining data နှင့် InstructGPT သို့ တင်သွင်းထားသော တုံ့ပြန်ညွှန်ကြားချက်များပေါ်ရှိ လူ့နမူနာပြမှုများကဲ့သို့သော အချက်အလက်များလည်း ပါဝင်ပါသည်။ ကျွန်ုပ်တို့သည် စာသားတစ်ခုစီကို တုံ့ပြန်ညွှန်ကြားချက် နှင့် တုံ့ပြန်ချက် ဟူ၍ ခွဲထားပါသည်။ ဤတုံ့ပြန်ညွှန်ကြားချက်များအပေါ်တွင် ကျွန်ုပ်တို့နှင့် အခြား အဖွဲ့အစည်းများက လေ့ကျင့်ပေးထားသော language models အမျိုးမျိုးမှ တုံ့ပြန်ချက်များကို ထုတ်လုပ်ခဲ့ပါသည်။ ကျွန်ုပ်တို့၏ web app အတွက် false positive rate ကို နိမ့်စေရန် confidence threshold ကို ချိန်ညှိထားပါသည်။ တစ်နည်းအားဖြင့် classifier သည် အလွန် ယုံကြည်မှုရှိမှသာ စာသားကို AI ရေးထားဖွယ်ရှိသည်ဟု ကျွန်ုပ်တို့ မှတ်သားပါသည်။

ပညာပေးသူများအပေါ် သက်ရောက်မှုနှင့် အကြံပြုချက်တောင်းခံခြင်း

AI ရေးသားထားသော စာသားကို ခွဲခြားသတ်မှတ်ခြင်းသည် ပညာပေးသူများအကြား အရေးကြီးသော ဆွေးနွေးချက်တစ်ရပ် ဖြစ်နေကြောင်း ကျွန်ုပ်တို့ နားလည်ပါသည်။ ထို့အတူ စာသင်ခန်းအတွင်း AI ဖြင့် ဖန်တီးထားသော စာသား classifier များ၏ ကန့်သတ်ချက်များနှင့် သက်ရောက်မှုများကိုလည်း သိရှိနားလည်ရန် အရေးကြီးပါသည်။ ကျွန်ုပ်တို့သည် ပညာပေးသူများအတွက် ChatGPT အသုံးပြုမှုဆိုင်ရာ ကနဦး အရင်းအမြစ်တစ်ခု(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ဖန်တီးထားပြီး ၎င်းတွင် အသုံးပြုနိုင်သော နည်းလမ်းအချို့နှင့် ဆက်စပ်သော ကန့်သတ်ချက်များ၊ စဉ်းစားစရာအချက်များကို ဖော်ပြထားပါသည်။ ဤအရင်းအမြစ်သည် ပညာပေးသူများကို အဓိကထားသော်လည်း၊ ကျွန်ုပ်တို့၏ classifier နှင့် ဆက်စပ် classifier ကိရိယာများသည် သတင်းထောက်များ၊ သတင်းမှန်/မှား သုတေသီများနှင့် အခြား အုပ်စုများအပေါ်လည်း သက်ရောက်မှု ရှိလာမည်ဟု ကျွန်ုပ်တို့ မျှော်လင့်ပါသည်။

ကျွန်ုပ်တို့သည် အမေရိကန်ပြည်ထောင်စုရှိ ပညာပေးသူများနှင့် ထိတွေ့ဆက်ဆံကာ ၎င်းတို့၏ စာသင်ခန်းများတွင် မည်သည်များကို တွေ့မြင်နေရသည်ကို လေ့လာပြီး ChatGPT ၏ စွမ်းဆောင်ရည်များနှင့် ကန့်သတ်ချက်များကို ဆွေးနွေးလျက်ရှိပါသည်။ လေ့လာသိရှိလာသည်နှင့်အမျှ ကျွန်ုပ်တို့၏ outreach ကိုလည်း ပိုမို ကျယ်ပြန့်အောင် ဆက်လက် တိုးချဲ့သွားမည်ဖြစ်ပါသည်။ ထိခိုက်သက်ရောက်ခံရသော လူမှုအသိုင်းအဝိုင်းများနှင့် တိုက်ရိုက် ဆက်သွယ်လျက် ကြီးမားသော language models များကို ဘေးကင်းစွာ အသုံးချရန်မှာ ကျွန်ုပ်တို့၏ မစ်ရှင်၏ အစိတ်အပိုင်းတစ်ခု ဖြစ်သောကြောင့် ဤဆွေးနွေးချက်များသည် အရေးကြီးပါသည်။

ဤပြဿနာများကြောင့် သင် တိုက်ရိုက် သက်ရောက်မှုခံနေရပါက (ဆရာ/ဆရာမများ၊ စီမံခန့်ခွဲရေးမှူးများ၊ မိဘများ၊ ကျောင်းသား/ကျောင်းသူများနှင့် ပညာရေးဝန်ဆောင်မှုပေးသူများ အပါအဝင်သော်လည်း ထိုသူများသာမက) ဤဖောင်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို အသုံးပြုပြီး ကျွန်ုပ်တို့ထံ တုံ့ပြန်ချက် ပေးပို့ပါ။ ကနဦး အရင်းအမြစ်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) အပေါ် တိုက်ရိုက် တုံ့ပြန်ချက်သည် အထောက်အကူဖြစ်သကဲ့သို့၊ ပညာပေးသူများက ဖန်တီးနေသော သို့မဟုတ် အသုံးဝင်သည်ဟု တွေ့ရှိထားသော အရင်းအမြစ်များ (ဥပမာ၊ သင်တန်းလမ်းညွှန်ချက်များ၊ honor code နှင့် policy အပ်ဒိတ်များ၊ အပြန်အလှန် လုပ်ဆောင်နိုင်သော ကိရိယာများ၊ AI literacy programs) ကိုလည်း ကျွန်ုပ်တို့ ကြိုဆိုပါသည်။

စာရေးသူများ

Jan Hendrik Kirchner - Lama Ahmad - Scott Aaronsonနှင့် Jan Leike

ပံ့ပိုးကူညီသူများ

Michael Lampe, Joanne Jang, Pamela Mishkin, Andrew Mayne, Henrique Ponde de Oliveira Pinto, Valerie Balcom, Michelle Pokrass, Jeff Belgum, Madelaine Boyd, Heather Schmidt, Sherwin Wu, Logan Kilpatrick, Thomas Degry