IndQA ကို မိတ်ဆက်ခြင်း
အိန္ဒိယယဉ်ကျေးမှုနှင့် ဘာသာစကားများပေါ်ရှိ AI စနစ်များကို အကဲဖြတ်ရန် စံညွှန်းအသစ်တစ်ခု။

ကျွန်ုပ်တို့၏ မစ်ရှင်မှာ AGI သည် လူသားအားလုံးအတွက် အကျိုးရှိစေရန် ဖြစ်သည်။ AI သည် လူတိုင်းအတွက် အသုံးဝင်မည်ဆိုပါက ဘာသာစကားများနှင့် ယဉ်ကျေးမှုများအနှံ့ ကောင်းစွာ အလုပ်လုပ်နိုင်ရန် လိုအပ်သည်။ ကမ္ဘာတစ်ဝန်းရှိ လူများ၏ 80 ရာခိုင်နှုန်းခန့်သည် အင်္ဂလိပ်ကို ၎င်းတို့၏ အဓိကဘာသာစကားအဖြစ် မပြောကြသော်လည်း အင်္ဂလိပ်မဟုတ်သော ဘာသာစကားစွမ်းရည်များကို တိုင်းတာသည့် လက်ရှိစံညွှန်းအများစုမှာ မလုံလောက်သေးပါ။
MMMLU(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကဲ့သို့ လက်ရှိ ဘာသာစကားစုံ စံညွှန်းများသည် ယခုအခါ saturation ဖြစ်နေပြီဖြစ်ပြီး—ထိပ်တန်းမော်ဒယ်များ၏ ရမှတ်များမှာ အမြင့်ရမှတ်အနီးတွင် စုဝေးနေသောကြောင့်—တကယ့်တိုးတက်မှုကို တိုင်းတာရန် အသုံးဝင်မှု လျော့နည်းစေသည်။ ထို့အပြင် လက်ရှိစံညွှန်းများမှာ ဘာသာပြန်ခြင်း သို့မဟုတ် ရွေးချယ်စရာများစွာပါသော လုပ်ငန်းများကိုသာ အဓိကထားလေ့ရှိသည်။ ၎င်းတို့သည် AI စနစ်တစ်ခု၏ ဘာသာစကားစွမ်းရည်ကို အကဲဖြတ်ရာတွင် အမှန်တကယ် အရေးပါသည့်အရာများ—အကြောင်းအရာ၊ ယဉ်ကျေးမှု၊ သမိုင်းနှင့် လူများနေထိုင်ရာဒေသတွင် သူတို့အတွက် အရေးပါတဲ့ အရာများကို နားလည်ခြင်း—ကို လုံလောက်စွာ မဖမ်းဆီးနိုင်ပါ။
ထို့ကြောင့် ကျွန်ုပ်တို့သည် IndQA ကို တည်ဆောက်ခဲ့သည်။ ၎င်းသည် အိန္ဒိယဘာသာစကားများတွင် အရေးပါသော မေးခွန်းများကို AI မော်ဒယ်များက ဘယ်လောက်ကောင်းကောင်း နားလည်ပြီး ကျိုးကြောင်းဆင်ခြင်နိုင်သည်ကို ယဉ်ကျေးမှုကဏ္ဍ မျိုးစုံအနှံ့ အကဲဖြတ်ရန် ဒီဇိုင်းဆွဲထားသော စံညွှန်းအသစ်တစ်ခု ဖြစ်သည်။ အခြားဘာသာစကားများနှင့် ဒေသများအတွက်လည်း ဆင်တူသော စံညွှန်းများ ဖန်တီးရန် ရည်ရွယ်ထားသော်လည်း အိန္ဒိယသည် စတင်ရန် သိသာထင်ရှားသော နေရာတစ်ခုဖြစ်သည်။ အိန္ဒိယတွင် အင်္ဂလိပ်ကို အဓိကဘာသာစကားအဖြစ် မသုံးသော လူဦးရေ ဘီလျံခန့်ရှိပြီး၊ တရားဝင်ဘာသာစကား 22 မျိုး (အနည်းဆုံး 50 million ကျော် ပြောသူရှိသော 7 မျိုးအပါအဝင်) ရှိသကဲ့သို့ ChatGPT ၏ ဒုတိယအကြီးဆုံး စျေးကွက်လည်း ဖြစ်သည်။
ဤလုပ်ငန်းသည် အိန္ဒိယအသုံးပြုသူများအတွက် ကျွန်ုပ်တို့၏ ထုတ်ကုန်များနှင့် ကိရိယာများကို ပိုမိုကောင်းမွန်စေရန်နှင့် နိုင်ငံတစ်ဝန်းလုံးတွင် ကျွန်ုပ်တို့၏ နည်းပညာကို ပိုမိုလက်လှမ်းမီစေရန် ဆက်လက်လုပ်ဆောင်နေသော ကတိကဝတ်၏ တစ်စိတ်တစ်ပိုင်းဖြစ်သည်။
IndQA သည် အိန္ဒိယဘာသာစကားများဖြင့် အိန္ဒိယယဉ်ကျေးမှုနှင့် နေ့စဉ်ဘဝဆိုင်ရာ ဗဟုသုတနှင့် ကျိုးကြောင်းဆင်ခြင်မှုကို အကဲဖြတ်သည်။ ၎င်းတွင် အိန္ဒိယတစ်ဝန်းမှ နယ်ပယ်ကျွမ်းကျင်သူ 261 ဦးနှင့် ပူးပေါင်းဖန်တီးထားသော ဘာသာစကား 12 မျိုးနှင့် ယဉ်ကျေးမှုကဏ္ဍ 10 ခုအနှံ့ မေးခွန်း 2,278 ခု ပါဝင်သည်။ MMMLU နှင့် MGSM ကဲ့သို့ လက်ရှိစံညွှန်းများနှင့် မတူဘဲ ၎င်းကို ယဉ်ကျေးမှုဆိုင်ရာ နူးညံ့သိမ်မွေ့မှုရှိပြီး ကျိုးကြောင်းဆင်ခြင်မှု အလေးပေးသည့် လုပ်ငန်းများကို စူးစမ်းတိုင်းတာရန် ဒီဇိုင်းဆွဲထားပြီး၊ ၎င်းတို့ကို လက်ရှိအကဲဖြတ်မှုများက ဖမ်းဆီးရခက်နေသည်။
IndQA သည် ယဉ်ကျေးမှုနှင့် ဆက်စပ်မှုရှိသော ခေါင်းစဉ်မျိုးစုံကို လွှမ်းခြုံထားသည်။ ဥပမာ ဗိသုကာပညာနှင့် ဒီဇိုင်း၊ အနုပညာနှင့် ယဉ်ကျေးမှု၊ နေ့စဉ်ဘဝ၊ အစားအစာနှင့် ဟင်းလျာ၊ သမိုင်း၊ ဥပဒေနှင့် ကျင့်ဝတ်၊ စာပေနှင့် ဘာသာဗေဒ၊ မီဒီယာနှင့် ဖျော်ဖြေရေး၊ ဘာသာရေးနှင့် စိတ်ပိုင်းဆိုင်ရာယုံကြည်မှု နှင့် အားကစားနှင့် အပန်းဖြေလှုပ်ရှားမှု တို့ ဖြစ်ပြီး—အကြောင်းအရာများကို ဘင်္ဂါလီ၊ အင်္ဂလိပ်၊ ဟိန္ဒီ၊ ဟင်ဂလစ်ရှ်၊ ကန်နဒါ၊ မာရသီ၊ အိုဒီယာ၊ တေလဂူ၊ ဂူဂျာရသီ၊ မလေယာလမ်၊ ပန်ချာဘီ နှင့် တမီးလ် တို့ဖြင့် မူရင်းရေးသားထားသည်။ မှတ်ချက် - စကားပြောဆိုမှုများတွင် code-switching များပြားနေသည့်အတွက် ကျွန်ုပ်တို့သည် Hinglish ကို အထူးထည့်သွင်းခဲ့သည်။
ဒေတာအမှတ်တစ်ခုစီတွင် အိန္ဒိယဘာသာစကားဖြင့် ယဉ်ကျေးမှုအခြေခံ တုံ့ပြန်ညွှန်ကြားချက် တစ်ခု၊ စစ်ဆေးနိုင်မှုအတွက် အင်္ဂလိပ်ဘာသာပြန် တစ်ခု၊ အဆင့်သတ်မှတ်ရန် rubric စံနှုန်းများ နှင့် ကျွမ်းကျင်သူမျှော်မှန်းချက်များကို ထင်ဟပ်သော စံပြအဖြေ တစ်ခု ပါဝင်သည်။
IndQA သည် rubric အခြေပြု နည်းလမ်းကို အသုံးပြုသည်။ တုံ့ပြန်မှုတစ်ခုစီကို ထိုမေးခွန်းအတွက် နယ်ပယ်ကျွမ်းကျင်သူများရေးသားထားသော စံနှုန်းများနှင့် နှိုင်းယှဉ်ကာ အဆင့်သတ်မှတ်သည်။ စံနှုန်းများတွင် စံပြအဖြေတစ်ခု၌ ပါဝင်သင့်သည့် သို့မဟုတ် ရှောင်သင့်သည့် အချက်များကို ရှင်းလင်းဖော်ပြထားပြီး၊ အရေးပါမှုအလိုက် တစ်ခုချင်းစီကို အလေးချိန်ထားသော အမှတ်တန်ဖိုး ပေးထားသည်။ မော်ဒယ်အခြေပြု အကဲဖြတ်စနစ်တစ်ခုက စံနှုန်းတစ်ခုစီ ပြည့်မီမှုရှိမရှိ စစ်ဆေးသည်။ နောက်ဆုံးရမှတ်မှာ ပြည့်မီခဲ့သော စံနှုန်းများ၏ အမှတ်စုစုပေါင်းကို ဖြစ်နိုင်သမျှ စုစုပေါင်းအမှတ်ဖြင့်တွက်ချက်ထားခြင်း ဖြစ်သည်။
- ကျွမ်းကျင်သူများရေးသားသော မေးခွန်းများ။ ကျွန်ုပ်တို့သည် မိတ်ဖက်များနှင့် ပူးပေါင်းကာ အိန္ဒိယရှိ မတူညီသော ကဏ္ဍ 10 ခုအနှံ့ ကျွမ်းကျင်သူများကို ရှာဖွေခဲ့သည်။ ၎င်းတို့က ၎င်းတို့၏ ဒေသများနှင့် အထူးပြုနယ်ပယ်များနှင့် ဆက်စပ်သော ခက်ခဲပြီး ကျိုးကြောင်းဆင်ခြင်မှုကို အဓိကထားသည့် တုံ့ပြန်ညွှန်ကြားချက်များကို ရေးဆွဲခဲ့သည်။ ဤကျွမ်းကျင်သူများသည် သက်ဆိုင်ရာ ဘာသာစကား (နှင့် အင်္ဂလိပ်) ကို မိခင်ဘာသာစကားအဆင့် ပြောနိုင်သူများဖြစ်ပြီး ဘာသာရပ်ဆိုင်ရာ နက်ရှိုင်းသော ကျွမ်းကျင်မှုကို ယူဆောင်လာကြသည်။
- Adversarial filtering: မေးခွန်းတစ်ခုစီကို ဖန်တီးချိန်တွင် ရှိခဲ့သော OpenAI ၏ အားအကောင်းဆုံး မော်ဒယ်များဖြစ်သည့် GPT‑4o, OpenAI o3, GPT‑4.5 နှင့် (အများပြည်သူသို့ စတင်မိတ်ဆက်ပြီးနောက် တစ်စိတ်တစ်ပိုင်းအနေဖြင့်) GPT‑5 တို့နှင့် စမ်းသပ်ခဲ့သည်။ ဤမော်ဒယ်များအများစုက လက်ခံနိုင်ဖွယ် အဖြေ မထုတ်ပေးနိုင်ခဲ့သော မေးခွန်းများကိုသာ ကျွန်ုပ်တို့ ထိန်းသိမ်းခဲ့ပြီး တိုးတက်မှုအတွက် headroom ကို ထားရှိခဲ့သည်။
- အသေးစိတ် စံနှုန်းများ။ မေးခွန်းတစ်ခုစီနှင့်အတူ နယ်ပယ်ကျွမ်းကျင်သူများက စာစီစာကုံးမေးခွန်း rubric ကဲ့သို့ မော်ဒယ်တုံ့ပြန်မှုကို အဆင့်သတ်မှတ်ရန် အသုံးပြုသော စံနှုန်းများကို ပေးခဲ့သည်။ ဤစံနှုန်းများကို ကိုယ်စားလှယ် မော်ဒယ်များ၏ တုံ့ပြန်မှုများကို အဆင့်သတ်မှတ်ရာတွင် အသုံးပြုသည်။
- စံပြအဖြေများ + ပြန်လည်သုံးသပ်မှု။ ကျွမ်းကျင်သူများက စံပြအဖြေများနှင့် အင်္ဂလိပ်ဘာသာပြန်များကို ထည့်သွင်းပေးခဲ့ပြီး၊ ထို့နောက် peer review နှင့် ထပ်တလဲလဲ ပြင်ဆင်မှုများကို sign-off ရသည်အထိ ဆောင်ရွက်ခဲ့သည်။
ဘာသာစကား: ဘင်္ဂါလီ
ကဏ္ဍ: စာပေနှင့် ဘာသာဗေဒ
ကဏ္ဍ: အစားအစာနှင့် ဟင်းလျာ
ကျွန်ုပ်တို့သည် IndQA ကို အသုံးပြုကာ မကြာသေးမီက စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်များ၏ စွမ်းဆောင်ရည်ကို အကဲဖြတ်ပြီး ပြီးခဲ့သည့် နှစ်အနည်းငယ်အတွင်း တိုးတက်မှုကို ချမှတ်ဖော်ပြပါသည်။ IndQA ဖြင့် OpenAI ၏ မော်ဒယ်များသည် အိန္ဒိယဘာသာစကားများတွင် အချိန်နှင့်အမျှ သိသိသာသာ တိုးတက်လာသည်ကို (သတိပြုရန်အချက်များ နှင့်တကွ) မြင်နိုင်သော်လည်း၊ တိုးတက်ရန် နေရာအတော်များများ ကျန်ရှိနေသေးသည်။ ကျွန်ုပ်တို့သည် စွမ်းဆောင်ရည်ပိုမိုကောင်းမွန်လာရန်နှင့် အနာဂတ် မော်ဒယ်များအတွက် ရလဒ်များကို မျှဝေရန် မျှော်လင့်နေပါသည်။
ထို့အပြင် အောက်တွင် GPT‑5 Thinking High ကို အခြား စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်များနှင့် နှိုင်းယှဉ်ကာ IndQA ပေါ်ရှိ စွမ်းဆောင်ရည်ကို ဘာသာစကားနှင့် ကဏ္ဍအလိုက်လည်း ခွဲခြားဖော်ပြထားသည်။
မေးခွန်းများသည် ဘာသာစကားများအကြား တူညီခြင်းမရှိသော ကြောင့် IndQA သည် ဘာသာစကား leaderboard မဟုတ် ပေ။ ဘာသာစကားဖြတ်ကျော် ရမှတ်များကို ဘာသာစကားစွမ်းရည်၏ တိုက်ရိုက်နှိုင်းယှဉ်ချက်များအဖြစ် မ解釈သင့်ပါ။ ထို့အစား ကျွန်ုပ်တို့သည် IndQA ကို မော်ဒယ်မိသားစု သို့မဟုတ် configuration တစ်ခုအတွင်း အချိန်နှင့်အမျှ တိုးတက်မှု ကို တိုင်းတာရန် အသုံးပြုရန် စီစဉ်ထားသည်။
ထို့အပြင် မေးခွန်းများကို GPT‑4o, OpenAI o3, GPT‑4.5 နှင့် (အများပြည်သူသို့ စတင်မိတ်ဆက်ပြီးနောက်) GPT‑5 တို့က လုံလောက်စွာ မဖြေနိုင်ခဲ့သော မေးခွန်းများအဖြစ် စစ်ထုတ်ရွေးချယ်ထားသောကြောင့် မေးခွန်းရွေးချယ်မှုသည် ဤမော်ဒယ်များအပေါ် adversarial သဘောဆောင်နေသည်။ ၎င်းသည် GPT‑5 ၏ ဆက်စပ်စွမ်းဆောင်ရည်ကို ရှုပ်ထွေးစေနိုင်ပြီး OpenAI မဟုတ်သော မော်ဒယ်များနှင့် နှိုင်းယှဉ်ပါက OpenAI မော်ဒယ်အားလုံးအတွက် အားနည်းချက်ဖြစ်စေနိုင်သည်။
IndQA အတွက် မေးခွန်းများကို ရေးသားပြီး ပြန်လည်သုံးသပ်ပေးခဲ့သော အိန္ဒိယ ကျွမ်းကျင်သူ 261 ဦး—သတင်းထောက်များ၊ ဘာသာဗေဒပညာရှင်များ၊ ပညာရှင်များ၊ အနုပညာရှင်များနှင့် စက်မှုလုပ်ငန်း လက်တွေ့လုပ်ကိုင်သူများ—ကို ကျွန်ုပ်တို့ အလွန်ကျေးဇူးတင်ပါသည်။ ကျွန်ုပ်တို့ ပူးပေါင်းလုပ်ဆောင်ခဲ့သော ကျွမ်းကျင်သူများထဲမှ ဥပမာ အချို့မှာ:
- ရုပ်ရှင် 750 ကျော်တွင် ပါဝင်ခဲ့သော Nandi Award ရ တေလဂူ သရုပ်ဆောင်နှင့် ဇာတ်ညွှန်းရေးဆရာ တစ်ဦး
- Tarun Bharat မှ မာရသီ သတင်းစာဆရာနှင့် အယ်ဒီတာ တစ်ဦး
- ကန်နဒါ ဘာသာဗေဒ ပညာရှင်နှင့် အဘိဓာန် အယ်ဒီတာ တစ်ဦး
- ထိပ်တန်း 100 စစ်တုရင်ကစားသမားများကို လေ့ကျင့်ပေးသော အပြည်ပြည်ဆိုင်ရာ စစ်တုရင် Grandmaster တစ်ဦး
- လူမှုတရားမျှတမှု၊ ဇာတ်နိမ့်/ဇာတ်မြင့် တန်းတူညီမျှမှုနှင့် စာပေလွတ်လပ်ခွင့်အတွက် လှုံ့ဆော်အားပေးသော တမီးလ် စာရေးဆရာ၊ ကဗျာဆရာနှင့် ယဉ်ကျေးမှု လှုပ်ရှားသူ တစ်ဦး
- ဆုရ ပန်ချာဘီ တေးဂီတ တေးရေးဆရာ တစ်ဦး
- ဂူဂျာရသီ အမွေအနှစ် curator နှင့် ထိန်းသိမ်းစောင့်ရှောက်မှု အထူးကျွမ်းကျင်သူ တစ်ဦး
- ဆုရ မလေယာလမ် ကဗျာဆရာနှင့် performance artist တစ်ဦး
- ဘင်္ဂလား၏ ကြွယ်ဝသော ယဉ်ကျေးမှုအမွေအနှစ်ကို အထူးပြုသော သမိုင်းပါမောက္ခ တစ်ဦး
- အိုဒိရှား ဘုရားကျောင်းများကို အဓိကထားသော ဗိသုကာပညာ ပါမောက္ခ တစ်ဦး
IndQA ကို ထုတ်ပြန်ခြင်းသည် သုတေသနအသိုင်းအဝိုင်းမှ စံညွှန်းအသစ်များ ဖန်တီးမှုကို အသိပေးပြီး လှုံ့ဆော်ပေးမည်ဟု ကျွန်ုပ်တို့ မျှော်လင့်ပါသည်။ IndQA စတိုင် မေးခွန်းများသည် လက်ရှိ AI စံညွှန်းများတွင် လုံလောက်စွာ မလွှမ်းခြုံထားသော ဘာသာစကားများ သို့မဟုတ် ယဉ်ကျေးမှုကဏ္ဍများတွင် အထူးတန်ဖိုးရှိသည်။ IndQA နှင့် ဆင်တူသော စံညွှန်းများ ဖန်တီးခြင်းသည် AI သုတေသနဓာတ်ခွဲခန်းများကို ယနေ့ မော်ဒယ်များ အခက်ကြုံနေရသော ဘာသာစကားများနှင့် ကဏ္ဍများအကြောင်း ပိုမိုလေ့လာနိုင်ရန် ကူညီပေးပြီး၊ အနာဂတ်တွင် တိုးတက်မှုများအတွက် north star တစ်ခု ပေးစွမ်းနိုင်သည်။


