အဓိက အကြောင်းအရာသို့ ကျော်သွားရန်
OpenAI

၂၀၂၅ နိုဝင်ဘာ ၃

သုတေသနဖြန့်ချိမှု

IndQA ကို မိတ်ဆက်ခြင်း

အိန္ဒိယယဉ်ကျေးမှုနှင့် ဘာသာစကားများပေါ်ရှိ AI စနစ်များကို အကဲဖြတ်ရန် စံညွှန်းအသစ်တစ်ခု။

ထောင့်ဝိုင်းစတုရန်းခလုတ် ၃ x ၄ ကွက်ပါသော ဂရစ်တစ်ခုဖြစ်ပြီး၊ ခလုတ်တစ်ခုစီတွင် အိန္ဒိယစာအက္ခရာစနစ်မတူညီခြင်း သို့မဟုတ် လက်တင်အက္ခရာမှ စာလုံးတစ်လုံးစီ ပါရှိသည်။ ထိုစာလုံးများတွင် ဘင်္ဂါလီ (অ), အင်္ဂလိပ် (En), ဟိန္ဒီ (ह), ကန်နဒါ (Hi) စသည်တို့နှင့် အခြား အိန္ဒိယဘာသာစကားများကို ကိုယ်စားပြုသည့် အက္ခရာများ ပါဝင်ပြီး၊ အနုမီးခိုးရောင် နောက်ခံပေါ်တွင် ထားရှိထားသည်။ ဤပုံသည် ဘာသာစကားစုံ ပံ့ပိုးမှု သို့မဟုတ် ဘာသာစကားရွေးချယ်မှုကို ညွှန်းဆိုထားသည်။
ဖွင့်နေသည်…

ကျွန်ုပ်တို့၏ မစ်ရှင်မှာ AGI သည် လူသားအားလုံးအတွက် အကျိုးရှိစေရန် ဖြစ်သည်။ AI သည် လူတိုင်းအတွက် အသုံးဝင်မည်ဆိုပါက ဘာသာစကားများနှင့် ယဉ်ကျေးမှုများအနှံ့ ကောင်းစွာ အလုပ်လုပ်နိုင်ရန် လိုအပ်သည်။ ကမ္ဘာတစ်ဝန်းရှိ လူများ၏ 80 ရာခိုင်နှုန်းခန့်သည် အင်္ဂလိပ်ကို ၎င်းတို့၏ အဓိကဘာသာစကားအဖြစ် မပြောကြသော်လည်း အင်္ဂလိပ်မဟုတ်သော ဘာသာစကားစွမ်းရည်များကို တိုင်းတာသည့် လက်ရှိစံညွှန်းအများစုမှာ မလုံလောက်သေးပါ။

MMMLU(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကဲ့သို့ လက်ရှိ ဘာသာစကားစုံ စံညွှန်းများသည် ယခုအခါ saturation ဖြစ်နေပြီဖြစ်ပြီး—ထိပ်တန်းမော်ဒယ်များ၏ ရမှတ်များမှာ အမြင့်ရမှတ်အနီးတွင် စုဝေးနေသောကြောင့်—တကယ့်တိုးတက်မှုကို တိုင်းတာရန် အသုံးဝင်မှု လျော့နည်းစေသည်။ ထို့အပြင် လက်ရှိစံညွှန်းများမှာ ဘာသာပြန်ခြင်း သို့မဟုတ် ရွေးချယ်စရာများစွာပါသော လုပ်ငန်းများကိုသာ အဓိကထားလေ့ရှိသည်။ ၎င်းတို့သည် AI စနစ်တစ်ခု၏ ဘာသာစကားစွမ်းရည်ကို အကဲဖြတ်ရာတွင် အမှန်တကယ် အရေးပါသည့်အရာများ—အကြောင်းအရာ၊ ယဉ်ကျေးမှု၊ သမိုင်းနှင့် လူများနေထိုင်ရာဒေသတွင် သူတို့အတွက် အရေးပါတဲ့ အရာများကို နားလည်ခြင်း—ကို လုံလောက်စွာ မဖမ်းဆီးနိုင်ပါ။

ထို့ကြောင့် ကျွန်ုပ်တို့သည် IndQA ကို တည်ဆောက်ခဲ့သည်။ ၎င်းသည် အိန္ဒိယဘာသာစကားများတွင် အရေးပါသော မေးခွန်းများကို AI မော်ဒယ်များက ဘယ်လောက်ကောင်းကောင်း နားလည်ပြီး ကျိုးကြောင်းဆင်ခြင်နိုင်သည်ကို ယဉ်ကျေးမှုကဏ္ဍ မျိုးစုံအနှံ့ အကဲဖြတ်ရန် ဒီဇိုင်းဆွဲထားသော စံညွှန်းအသစ်တစ်ခု ဖြစ်သည်။ အခြားဘာသာစကားများနှင့် ဒေသများအတွက်လည်း ဆင်တူသော စံညွှန်းများ ဖန်တီးရန် ရည်ရွယ်ထားသော်လည်း အိန္ဒိယသည် စတင်ရန် သိသာထင်ရှားသော နေရာတစ်ခုဖြစ်သည်။ အိန္ဒိယတွင် အင်္ဂလိပ်ကို အဓိကဘာသာစကားအဖြစ် မသုံးသော လူဦးရေ ဘီလျံခန့်ရှိပြီး၊ တရားဝင်ဘာသာစကား 22 မျိုး (အနည်းဆုံး 50 million ကျော် ပြောသူရှိသော 7 မျိုးအပါအဝင်) ရှိသကဲ့သို့ ChatGPT ၏ ဒုတိယအကြီးဆုံး စျေးကွက်လည်း ဖြစ်သည်။

ဤလုပ်ငန်းသည် အိန္ဒိယအသုံးပြုသူများအတွက် ကျွန်ုပ်တို့၏ ထုတ်ကုန်များနှင့် ကိရိယာများကို ပိုမိုကောင်းမွန်စေရန်နှင့် နိုင်ငံတစ်ဝန်းလုံးတွင် ကျွန်ုပ်တို့၏ နည်းပညာကို ပိုမိုလက်လှမ်းမီစေရန် ဆက်လက်လုပ်ဆောင်နေသော ကတိကဝတ်၏ တစ်စိတ်တစ်ပိုင်းဖြစ်သည်။

အလုပ်လုပ်ပုံ

IndQA သည် အိန္ဒိယဘာသာစကားများဖြင့် အိန္ဒိယယဉ်ကျေးမှုနှင့် နေ့စဉ်ဘဝဆိုင်ရာ ဗဟုသုတနှင့် ကျိုးကြောင်းဆင်ခြင်မှုကို အကဲဖြတ်သည်။ ၎င်းတွင် အိန္ဒိယတစ်ဝန်းမှ နယ်ပယ်ကျွမ်းကျင်သူ 261 ဦးနှင့် ပူးပေါင်းဖန်တီးထားသော ဘာသာစကား 12 မျိုးနှင့် ယဉ်ကျေးမှုကဏ္ဍ 10 ခုအနှံ့ မေးခွန်း 2,278 ခု ပါဝင်သည်။ MMMLU နှင့် MGSM ကဲ့သို့ လက်ရှိစံညွှန်းများနှင့် မတူဘဲ ၎င်းကို ယဉ်ကျေးမှုဆိုင်ရာ နူးညံ့သိမ်မွေ့မှုရှိပြီး ကျိုးကြောင်းဆင်ခြင်မှု အလေးပေးသည့် လုပ်ငန်းများကို စူးစမ်းတိုင်းတာရန် ဒီဇိုင်းဆွဲထားပြီး၊ ၎င်းတို့ကို လက်ရှိအကဲဖြတ်မှုများက ဖမ်းဆီးရခက်နေသည်။

IndQA သည် ယဉ်ကျေးမှုနှင့် ဆက်စပ်မှုရှိသော ခေါင်းစဉ်မျိုးစုံကို လွှမ်းခြုံထားသည်။ ဥပမာ ဗိသုကာပညာနှင့် ဒီဇိုင်း၊ အနုပညာနှင့် ယဉ်ကျေးမှု၊ နေ့စဉ်ဘဝ၊ အစားအစာနှင့် ဟင်းလျာ၊ သမိုင်း၊ ဥပဒေနှင့် ကျင့်ဝတ်၊ စာပေနှင့် ဘာသာဗေဒ၊ မီဒီယာနှင့် ဖျော်ဖြေရေး၊ ဘာသာရေးနှင့် စိတ်ပိုင်းဆိုင်ရာယုံကြည်မှု နှင့် အားကစားနှင့် အပန်းဖြေလှုပ်ရှားမှု တို့ ဖြစ်ပြီး—အကြောင်းအရာများကို ဘင်္ဂါလီ၊ အင်္ဂလိပ်၊ ဟိန္ဒီ၊ ဟင်ဂလစ်ရှ်၊ ကန်နဒါ၊ မာရသီ၊ အိုဒီယာ၊ တေလဂူ၊ ဂူဂျာရသီ၊ မလေယာလမ်၊ ပန်ချာဘီ နှင့် တမီးလ် တို့ဖြင့် မူရင်းရေးသားထားသည်။ မှတ်ချက် - စကားပြောဆိုမှုများတွင် code-switching များပြားနေသည့်အတွက် ကျွန်ုပ်တို့သည် Hinglish ကို အထူးထည့်သွင်းခဲ့သည်။

ဒေတာအမှတ်တစ်ခုစီတွင် အိန္ဒိယဘာသာစကားဖြင့် ယဉ်ကျေးမှုအခြေခံ တုံ့ပြန်ညွှန်ကြားချက် တစ်ခု၊ စစ်ဆေးနိုင်မှုအတွက် အင်္ဂလိပ်ဘာသာပြန် တစ်ခု၊ အဆင့်သတ်မှတ်ရန် rubric စံနှုန်းများ နှင့် ကျွမ်းကျင်သူမျှော်မှန်းချက်များကို ထင်ဟပ်သော စံပြအဖြေ တစ်ခု ပါဝင်သည်။

အကဲဖြတ်လုပ်ငန်းစဉ်ကို ဖော်ပြသော ပုံဇယားတစ်ခု - ဥပမာ အသုံးပြုသူ-လက်ထောက် စကားပြောဆိုမှု၊ ကိုယ်စားလှယ်တုံ့ပြန်မှုတစ်ခုနှင့် သတ်မှတ်ချက်အလိုက် ရမှတ်ပေးရန် အသုံးပြုသော rubric ဇယားတစ်ခု ပါဝင်သည်။

IndQA သည် rubric အခြေပြု နည်းလမ်းကို အသုံးပြုသည်။ တုံ့ပြန်မှုတစ်ခုစီကို ထိုမေးခွန်းအတွက် နယ်ပယ်ကျွမ်းကျင်သူများရေးသားထားသော စံနှုန်းများနှင့် နှိုင်းယှဉ်ကာ အဆင့်သတ်မှတ်သည်။ စံနှုန်းများတွင် စံပြအဖြေတစ်ခု၌ ပါဝင်သင့်သည့် သို့မဟုတ် ရှောင်သင့်သည့် အချက်များကို ရှင်းလင်းဖော်ပြထားပြီး၊ အရေးပါမှုအလိုက် တစ်ခုချင်းစီကို အလေးချိန်ထားသော အမှတ်တန်ဖိုး ပေးထားသည်။ မော်ဒယ်အခြေပြု အကဲဖြတ်စနစ်တစ်ခုက စံနှုန်းတစ်ခုစီ ပြည့်မီမှုရှိမရှိ စစ်ဆေးသည်။ နောက်ဆုံးရမှတ်မှာ ပြည့်မီခဲ့သော စံနှုန်းများ၏ အမှတ်စုစုပေါင်းကို ဖြစ်နိုင်သမျှ စုစုပေါင်းအမှတ်ဖြင့်တွက်ချက်ထားခြင်း ဖြစ်သည်။

IndQA ကို ကျွန်ုပ်တို့ ဘယ်လိုတည်ဆောက်ခဲ့သလဲ

  • ကျွမ်းကျင်သူများရေးသားသော မေးခွန်းများ။ ကျွန်ုပ်တို့သည် မိတ်ဖက်များနှင့် ပူးပေါင်းကာ အိန္ဒိယရှိ မတူညီသော ကဏ္ဍ 10 ခုအနှံ့ ကျွမ်းကျင်သူများကို ရှာဖွေခဲ့သည်။ ၎င်းတို့က ၎င်းတို့၏ ဒေသများနှင့် အထူးပြုနယ်ပယ်များနှင့် ဆက်စပ်သော ခက်ခဲပြီး ကျိုးကြောင်းဆင်ခြင်မှုကို အဓိကထားသည့် တုံ့ပြန်ညွှန်ကြားချက်များကို ရေးဆွဲခဲ့သည်။ ဤကျွမ်းကျင်သူများသည် သက်ဆိုင်ရာ ဘာသာစကား (နှင့် အင်္ဂလိပ်) ကို မိခင်ဘာသာစကားအဆင့် ပြောနိုင်သူများဖြစ်ပြီး ဘာသာရပ်ဆိုင်ရာ နက်ရှိုင်းသော ကျွမ်းကျင်မှုကို ယူဆောင်လာကြသည်။
  • Adversarial filtering: မေးခွန်းတစ်ခုစီကို ဖန်တီးချိန်တွင် ရှိခဲ့သော OpenAI ၏ အားအကောင်းဆုံး မော်ဒယ်များဖြစ်သည့် GPT‑4o, OpenAI o3, GPT‑4.5 နှင့် (အများပြည်သူသို့ စတင်မိတ်ဆက်ပြီးနောက် တစ်စိတ်တစ်ပိုင်းအနေဖြင့်) GPT‑5 တို့နှင့် စမ်းသပ်ခဲ့သည်။ ဤမော်ဒယ်များအများစုက လက်ခံနိုင်ဖွယ် အဖြေ မထုတ်ပေးနိုင်ခဲ့သော မေးခွန်းများကိုသာ ကျွန်ုပ်တို့ ထိန်းသိမ်းခဲ့ပြီး တိုးတက်မှုအတွက် headroom ကို ထားရှိခဲ့သည်။
  • အသေးစိတ် စံနှုန်းများ။ မေးခွန်းတစ်ခုစီနှင့်အတူ နယ်ပယ်ကျွမ်းကျင်သူများက စာစီစာကုံးမေးခွန်း rubric ကဲ့သို့ မော်ဒယ်တုံ့ပြန်မှုကို အဆင့်သတ်မှတ်ရန် အသုံးပြုသော စံနှုန်းများကို ပေးခဲ့သည်။ ဤစံနှုန်းများကို ကိုယ်စားလှယ် မော်ဒယ်များ၏ တုံ့ပြန်မှုများကို အဆင့်သတ်မှတ်ရာတွင် အသုံးပြုသည်။
  • စံပြအဖြေများ + ပြန်လည်သုံးသပ်မှု။ ကျွမ်းကျင်သူများက စံပြအဖြေများနှင့် အင်္ဂလိပ်ဘာသာပြန်များကို ထည့်သွင်းပေးခဲ့ပြီး၊ ထို့နောက် peer review နှင့် ထပ်တလဲလဲ ပြင်ဆင်မှုများကို sign-off ရသည်အထိ ဆောင်ရွက်ခဲ့သည်။

ဥပမာ မေးခွန်းများ

ဘာသာစကား: ဘင်္ဂါလီ

ကဏ္ဍ: စာပေနှင့် ဘာသာဗေဒ

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

ကဏ္ဍ: အစားအစာနှင့် ဟင်းလျာ

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

အချိန်နှင့်အမျှ တိုးတက်မှုများ

ကျွန်ုပ်တို့သည် IndQA ကို အသုံးပြုကာ မကြာသေးမီက စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်များ၏ စွမ်းဆောင်ရည်ကို အကဲဖြတ်ပြီး ပြီးခဲ့သည့် နှစ်အနည်းငယ်အတွင်း တိုးတက်မှုကို ချမှတ်ဖော်ပြပါသည်။ IndQA ဖြင့် OpenAI ၏ မော်ဒယ်များသည် အိန္ဒိယဘာသာစကားများတွင် အချိန်နှင့်အမျှ သိသိသာသာ တိုးတက်လာသည်ကို (သတိပြုရန်အချက်များ နှင့်တကွ) မြင်နိုင်သော်လည်း၊ တိုးတက်ရန် နေရာအတော်များများ ကျန်ရှိနေသေးသည်။ ကျွန်ုပ်တို့သည် စွမ်းဆောင်ရည်ပိုမိုကောင်းမွန်လာရန်နှင့် အနာဂတ် မော်ဒယ်များအတွက် ရလဒ်များကို မျှဝေရန် မျှော်လင့်နေပါသည်။

ထို့အပြင် အောက်တွင် GPT‑5 Thinking High ကို အခြား စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်များနှင့် နှိုင်းယှဉ်ကာ IndQA ပေါ်ရှိ စွမ်းဆောင်ရည်ကို ဘာသာစကားနှင့် ကဏ္ဍအလိုက်လည်း ခွဲခြားဖော်ပြထားသည်။

သတိပြုရန်အချက်များ

မေးခွန်းများသည် ဘာသာစကားများအကြား တူညီခြင်းမရှိသော ကြောင့် IndQA သည် ဘာသာစကား leaderboard မဟုတ် ပေ။ ဘာသာစကားဖြတ်ကျော် ရမှတ်များကို ဘာသာစကားစွမ်းရည်၏ တိုက်ရိုက်နှိုင်းယှဉ်ချက်များအဖြစ် မ解釈သင့်ပါ။ ထို့အစား ကျွန်ုပ်တို့သည် IndQA ကို မော်ဒယ်မိသားစု သို့မဟုတ် configuration တစ်ခုအတွင်း အချိန်နှင့်အမျှ တိုးတက်မှု ကို တိုင်းတာရန် အသုံးပြုရန် စီစဉ်ထားသည်။

ထို့အပြင် မေးခွန်းများကို GPT‑4o, OpenAI o3, GPT‑4.5 နှင့် (အများပြည်သူသို့ စတင်မိတ်ဆက်ပြီးနောက်) GPT‑5 တို့က လုံလောက်စွာ မဖြေနိုင်ခဲ့သော မေးခွန်းများအဖြစ် စစ်ထုတ်ရွေးချယ်ထားသောကြောင့် မေးခွန်းရွေးချယ်မှုသည် ဤမော်ဒယ်များအပေါ် adversarial သဘောဆောင်နေသည်။ ၎င်းသည် GPT‑5 ၏ ဆက်စပ်စွမ်းဆောင်ရည်ကို ရှုပ်ထွေးစေနိုင်ပြီး OpenAI မဟုတ်သော မော်ဒယ်များနှင့် နှိုင်းယှဉ်ပါက OpenAI မော်ဒယ်အားလုံးအတွက် အားနည်းချက်ဖြစ်စေနိုင်သည်။

IndQA ၏နောက်ကွယ်ရှိ ကျွမ်းကျင်သူများ

IndQA အတွက် မေးခွန်းများကို ရေးသားပြီး ပြန်လည်သုံးသပ်ပေးခဲ့သော အိန္ဒိယ ကျွမ်းကျင်သူ 261 ဦး—သတင်းထောက်များ၊ ဘာသာဗေဒပညာရှင်များ၊ ပညာရှင်များ၊ အနုပညာရှင်များနှင့် စက်မှုလုပ်ငန်း လက်တွေ့လုပ်ကိုင်သူများ—ကို ကျွန်ုပ်တို့ အလွန်ကျေးဇူးတင်ပါသည်။ ကျွန်ုပ်တို့ ပူးပေါင်းလုပ်ဆောင်ခဲ့သော ကျွမ်းကျင်သူများထဲမှ ဥပမာ အချို့မှာ:

  • ရုပ်ရှင် 750 ကျော်တွင် ပါဝင်ခဲ့သော Nandi Award ရ တေလဂူ သရုပ်ဆောင်နှင့် ဇာတ်ညွှန်းရေးဆရာ တစ်ဦး
  • Tarun Bharat မှ မာရသီ သတင်းစာဆရာနှင့် အယ်ဒီတာ တစ်ဦး
  • ကန်နဒါ ဘာသာဗေဒ ပညာရှင်နှင့် အဘိဓာန် အယ်ဒီတာ တစ်ဦး
  • ထိပ်တန်း 100 စစ်တုရင်ကစားသမားများကို လေ့ကျင့်ပေးသော အပြည်ပြည်ဆိုင်ရာ စစ်တုရင် Grandmaster တစ်ဦး
  • လူမှုတရားမျှတမှု၊ ဇာတ်နိမ့်/ဇာတ်မြင့် တန်းတူညီမျှမှုနှင့် စာပေလွတ်လပ်ခွင့်အတွက် လှုံ့ဆော်အားပေးသော တမီးလ် စာရေးဆရာ၊ ကဗျာဆရာနှင့် ယဉ်ကျေးမှု လှုပ်ရှားသူ တစ်ဦး
  • ဆုရ ပန်ချာဘီ တေးဂီတ တေးရေးဆရာ တစ်ဦး
  • ဂူဂျာရသီ အမွေအနှစ် curator နှင့် ထိန်းသိမ်းစောင့်ရှောက်မှု အထူးကျွမ်းကျင်သူ တစ်ဦး
  • ဆုရ မလေယာလမ် ကဗျာဆရာနှင့် performance artist တစ်ဦး
  • ဘင်္ဂလား၏ ကြွယ်ဝသော ယဉ်ကျေးမှုအမွေအနှစ်ကို အထူးပြုသော သမိုင်းပါမောက္ခ တစ်ဦး
  • အိုဒိရှား ဘုရားကျောင်းများကို အဓိကထားသော ဗိသုကာပညာ ပါမောက္ခ တစ်ဦး

နောက်တစ်ဆင့်များ

IndQA ကို ထုတ်ပြန်ခြင်းသည် သုတေသနအသိုင်းအဝိုင်းမှ စံညွှန်းအသစ်များ ဖန်တီးမှုကို အသိပေးပြီး လှုံ့ဆော်ပေးမည်ဟု ကျွန်ုပ်တို့ မျှော်လင့်ပါသည်။ IndQA စတိုင် မေးခွန်းများသည် လက်ရှိ AI စံညွှန်းများတွင် လုံလောက်စွာ မလွှမ်းခြုံထားသော ဘာသာစကားများ သို့မဟုတ် ယဉ်ကျေးမှုကဏ္ဍများတွင် အထူးတန်ဖိုးရှိသည်။ IndQA နှင့် ဆင်တူသော စံညွှန်းများ ဖန်တီးခြင်းသည် AI သုတေသနဓာတ်ခွဲခန်းများကို ယနေ့ မော်ဒယ်များ အခက်ကြုံနေရသော ဘာသာစကားများနှင့် ကဏ္ဍများအကြောင်း ပိုမိုလေ့လာနိုင်ရန် ကူညီပေးပြီး၊ အနာဂတ်တွင် တိုးတက်မှုများအတွက် north star တစ်ခု ပေးစွမ်းနိုင်သည်။