
Бидний эрхэм зорилго бол AGI-ийн үр өгөөжийг бүх хүн төрөлхтөнд хүргэх явдал. Хэрэв AI хүн бүрт хэрэгтэй байх гэж байгаа бол хэл, соёл бүрт сайн ажиллах хэрэгтэй. Дэлхий даяарх хүмүүсийн ойролцоогоор 80 хувь нь англи хэлийг үндсэн хэлээ болгодоггүй ч англиас бусад хэлний чадварыг хэмждэг одоогийн ихэнх жишиг хангалтгүй байна.
MMMLU(шинэ цонхонд нээгдэнэ) зэрэг олон хэлний одоогийн жишгүүд одоо ханасан байдалд хүрсэн—шилдэг загварууд өндөр онооны орчимд бөөгнөрдөг—иймээс бодит ахицыг хэмжихэд ашиг багатай болсон. Нэмж хэлэхэд, одоогийн жишгүүд ихэвчлэн орчуулга эсвэл олон сонголттой даалгаварт төвлөрдөг. Тэд AI системийн хэлний чадварыг үнэлэхэд үнэхээр чухал зүйлийг—нөхцөл байдал, соёл, түүх, мөн хүмүүсийн амьдарч буй газарт нь чухал байдаг зүйлсийг ойлгохыг—хангалттай тусгаж чаддаггүй.
Иймээс бид Энэтхэг хэл дээр хүмүүсийн хувьд чухал асуултуудыг AI загварууд хэр сайн ойлгож, тэдгээр дээр сэтгэн бодож байгааг олон төрлийн соёлын салбараар үнэлэхээр бүтээгдсэн шинэ жишиг болох IndQA-г бүтээсэн. Бусад хэл, бүс нутгуудад үүнтэй төстэй жишиг бүтээх зорилготой ч Энэтхэг бол эхлэхэд маш тохиромжтой цэг юм. Энэтхэгт англи хэлийг үндсэн хэлээ болгодоггүй ойролцоогоор нэг тэрбум хүн, 22 албан ёсны хэл (үүнээс дор хаяж долоо нь 50 саяас дээш ярьцгаагчтай) байдаг бөгөөд ChatGPT‑ийн хоёр дахь том зах зээл юм.
Энэ ажил нь Энэтхэгийн хэрэглэгчдэд зориулсан бүтээгдэхүүн, хэрэгслүүдээ сайжруулах, мөн технологио улс даяар илүү хүртээмжтэй болгох бидний тасралтгүй амлалтын нэг хэсэг юм.
IndQA нь Энэтхэг хэл дээрх Энэтхэгийн соёл болон өдөр тутмын амьдралын талаарх мэдлэг, сэтгэн бодох чадварыг үнэлдэг. Энэ нь Энэтхэг даяарх 261 салбарын мэргэжилтэнтэй хамтран бүтээсэн 12 хэл, 10 соёлын салбарыг хамарсан 2,278 асуултыг багтаадаг. MMMLU болон MGSM зэрэг одоогийн жишгүүдээс ялгаатай нь, одоогийн үнэлгээнүүдийн барьж авч чаддаггүй соёлын нарийн мэдрэмж, өндөр сэтгэн бодох шаардлагатай даалгавруудыг шалгахаар бүтээгдсэн.
IndQA нь Архитектур ба дизайн, Урлаг ба соёл, Өдөр тутмын амьдрал, Хоол ба хоолны соёл, Түүх, Хууль ба ёс зүй, Уран зохиол ба хэл шинжлэл, Хэвлэл мэдээлэл ба энтертайнмент, Шашин ба сүнслэг байдал, мөн Спорт ба чөлөөт цаг зэрэг соёлын хувьд хамааралтай өргөн хүрээний сэдвийг хамардаг—мөн агуулгууд нь Бенгал, Англи, Хинди, Хинглиш, Каннада, Марати, Одиа, Телугу, Гужарати, Малаялам, Пунжаби, болон Тамил хэлээр эх хэл дээр нь бичигдсэн. Тэмдэглэл: Ярианд код шилжилт өргөн тархсан тул бид Хинглишийг зориуд нэмсэн.
Өгөгдлийн цэг бүрт Энэтхэг хэл дээрх соёлд суурилсан өгөгдөл, аудит хийх боломжтой болгох англи орчуулга, үнэлгээ хийх рубрикийн шалгуур, мөн мэргэжилтний хүлээлтийг тусгасан идеал хариулт багтдаг.
IndQA нь рубрикт суурилсан арга ашигладаг. Хариулт бүрийг тухайн асуултад зориулан салбарын мэргэжилтнүүдийн бичсэн шалгуурын эсрэг үнэлдэг. Эдгээр шалгуур нь идеал хариултад юу багтах ёстой, юуг зайлсхийх ёстойг тодорхойлж өгдөг бөгөөд тус бүрт ач холбогдлоос нь хамаарч жинлэсэн оноо өгдөг. Загварт суурилсан үнэлэгч шалгуур бүр биелсэн эсэхийг шалгана. Эцсийн оноо нь хангагдсан шалгуурын оноонуудын нийлбэрийг нийт боломжит оноонд харьцуулсан дүн юм.
- Мэргэжилтнүүдийн зохиосон асуултууд. Бид түншүүдтэйгээ хамтран Энэтхэгийн 10 өөр салбарт мэргэжилтнүүдийг олсон. Тэд өөрсдийн бүс нутаг, мэргэшилтэй холбоотой, хүнд бөгөөд сэтгэн бодох төвтэй өгөгдлүүдийг боловсруулсан. Эдгээр мэргэжилтнүүд нь холбогдох хэлний (мөн англи хэлний) эх хэлний түвшний яригчид бөгөөд сэдвийн гүн мэдлэгтэй.
- Сөргөлдөөнт шүүлт: Асуулт бүрийг бүтээх үеийн OpenAI-ийн хамгийн хүчтэй загварууд болох GPT‑4o, OpenAI o3, GPT‑4.5, мөн (олон нийтэд танилцуулсны дараа хэсэгчлэн) GPT‑5‑ийн эсрэг туршсан. Эдгээр загваруудын олонх нь хүлээн зөвшөөрөхүйц хариулт гаргаж чадаагүй асуултуудыг л бид хадгалж, цаашдын ахицад зай үлдээсэн.
- Дэлгэрэнгүй шалгуур. Асуулт бүрийн хамт салбарын мэргэжилтнүүд эсээ төрлийн шалгалтын рубриктай төстэйгээр загварын хариултыг үнэлэх шалгуур өгсөн. Эдгээр шалгуурыг нэр дэвшигч загваруудын хариултыг үнэлэхэд ашигладаг.
- Идеал хариулт + хянан шалгалт. Мэргэжилтнүүд идеал хариулт болон англи орчуулгыг нэмж, дараа нь үе тэнгийн хяналт болон давтамжтай засвар хийж, эцэст нь баталгаажуулсан.
Хэл: Бенгал
Салбар: Уран зохиол ба хэл шинжлэл
Салбар: Хоол, хоолны соёл
Бид IndQA-г ашиглан сүүлийн үеийн хил хязгаар загварууд хэр ажиллаж байгааг үнэлж, сүүлийн хоёр жилийн ахицыг дүрслэн харуулдаг. IndQA-ийн тусламжтайгаар OpenAI-ийн загварууд Энэтхэг хэл дээр цаг хугацааны явцад мэдэгдэхүйц сайжирсныг (анхаарах зүйлсийн хамт) харж болох ч сайжруулах ихээхэн зай байсаар байна. Цаашид гүйцэтгэлийг сайжруулж, ирээдүйн загваруудын үр дүнг хуваалцахыг бид тэсэн ядан хүлээж байна.
Мөн доор бид IndQA дээрх гүйцэтгэлийг Хэл болон Салбараар нь ангилан, GPT‑5 Thinking High-ийг бусад хил хязгаар загваруудтай харьцуулж үзүүлж байна.
Асуултууд хэл бүрт ижил биш учраас IndQA нь хэлний лидерборд биш; хэл хоорондын оноог хэлний чадварын шууд харьцуулалт гэж үзэж болохгүй. Үүний оронд бид IndQA-г загварын нэг гэр бүл эсвэл тохиргооны хүрээнд цаг хугацааны явц дахь сайжруулалтыг хэмжихэд ашиглахаар төлөвлөж байна.
Нэмж хэлэхэд, асуултуудыг GPT‑4o, OpenAI o3, GPT‑4.5, мөн (олон нийтэд танилцуулсны дараа) GPT‑5 хангалттай сайн хариулж чадаагүй асуултуудаас шүүж авсан тул асуултын сонголт эдгээр загваруудын эсрэг сөргөлдөөнт шинжтэй. Энэ нь GPT‑5‑ийн харьцангуй гүйцэтгэлд нөлөөлж болзошгүй бөгөөд OpenAI-ийн бус загваруудтай харьцуулахад бүх OpenAI загварт сул тал болж мэднэ.
IndQA-д зориулж асуулт зохиож, хянан шалгасан Энэтхэгийн 261 мэргэжилтэн—сэтгүүлчид, хэл шинжээчид, эрдэмтэд, уран бүтээлчид, салбарын практикчид—д бид талархаж байна. Бидний хамтран ажилласан мэргэжилтнүүдийн заримаас дурдвал:
- 750 гаруй кинонд ажилласан, Nandi Award хүртсэн телугу жүжигчин, кино зохиолч
- Tarun Bharat сонины марати сэтгүүлч, редактор
- Каннада хэл шинжлэлийн судлаач, толь бичгийн редактор
- Шатрын дэлхийн топ-100 тоглогчдыг дасгалжуулдаг олон улсын их мастер
- Нийгмийн шударга ёс, кастын тэгш байдал, утга зохиолын эрх чөлөөг дэмждэг тамил зохиолч, яруу найрагч, соёлын идэвхтэн
- Шагнал хүртсэн пунжаби хөгжмийн зохиолч
- Гужарати өв соёлын куратор, хамгаалалтын мэргэжилтэн
- Шагнал хүртсэн малаялам яруу найрагч, перформанс уран бүтээлч
- Бенгалын баялаг соёлын өвөөр мэргэшсэн түүхийн профессор
- Одишагийн сүм хийдүүдэд төвлөрдөг архитектурын профессор
IndQA-г гаргасан нь судалгааны хамтын нийгэмлэгт шинэ жишиг бүтээхэд мэдээлэл өгч, урам өгнө гэж найдаж байна. IndQA хэв маягийн асуултууд нь одоо байгаа AI жишгүүдэд муу хамрагдсан хэлүүд эсвэл соёлын салбаруудад онцгой үнэ цэнтэй. IndQA-тэй төстэй жишиг бүтээх нь AI судалгааны лабораториудад өнөөдөр загваруудын бэрхшээлтэй тулгарч буй хэл, салбарын талаар илүү ихийг ойлгоход тусалж, ирээдүйн сайжруулалтын чиг баримжаа болж өгнө.


